Annuaires de professionnels de santé et scraping font-ils bon ménage?
Article rédigé le 25 juin 2024 par Me Laurence Huin et Me Raphaël Cavan
Le Web scraping, ou “moissonnage”, est une méthode où un logiciel (“robot”) explore automatiquement des sites pour collecter et analyser des données. Si on comprend les potentiels derrière cette technologie et notamment l’intelligence artificielle, ce processus soulève cependant des questions juridiques, comme a pu le rappeler le Tribunal judiciaire de Nanterre dans une récente décision du mois de mai.
Quelles informations peuvent être légalement collectées et réutilisées, en tenant compte de la protection des données personnelles et de la propriété intellectuelle ?
Le web scraping, technique de collecte de données en ligne, bénéficie de l’essor de l’open data qui impose aux administrations à publier certaines informations. La CNIL, dans sa consultation du 10 juin 2024, reconnaît le potentiel du web scraping pour créer des bases d’apprentissage pour l’IA, tout en soulevant des questions de protection des données personnelles.
Cette méthode est couramment utilisée dans le secteur de la santé pour diffuser des informations sur l’offre de soins en France, compilant les coordonnées des professionnels et établissements de santé, sociaux et médico-sociaux dans des annuaires en ligne ; CPTS et fédérations pourront se reconnaitre.
Cependant, elle peut surprendre les professionnels listés sans préavis et inquiéter les établissements quant à l’étendue des informations publiques réutilisables. Comment alors équilibrer les avantages du web scraping avec les exigences liées à la protection des données personnelles et le droit de la propriété intellectuelle ?
Une nécessaire vigilance dans la collecte des données en ligne
La légalité du recours à la technique du web scraping dépend en partie des sources de données en ligne à partir desquelles le logiciel robot à moissonner les données destinées à être compilées au sein d’un annuaire. En effet les incidences juridiques dépendent selon que les sites internet à partir desquels les données ont été collectées sont soumis ou non au régime de l’Open data.
Pour les sites soumis à l’Open Data
Pour rappel, le régime de l’Open data s’est imposé avec la loi du 7 octobre 2016 pour une République numérique et aujourd’hui codifié au sein du code des relations entre le public et l’administration (CRPA). Cette réglementation impose aux administrations publiques une obligation de diffusion des données en ligne des informations publiques.
Les sites internet de ces administrations soumis au régime de l’Open data sont alors considérés « ouverts », et leurs informations, y compris leurs codes sources, ainsi que leurs bases de données, publiées en ligne « peuvent être utilisées par toute personne qui le souhaite à d’autres fins que celles de la mission de service public pour les besoins de laquelle les documents ont été produits ou reçus » (Article L321-1 du CRPA), sous réserve toutefois du respect des droits de propriété intellectuelle détenus par des tiers et/ou les administrations et personnes publiques et privées concernées. Quelques exceptions s’appliquent telle que la « sécurité des systèmes d’information des administrations ».
De même la réutilisation des informations publiques reste soumise à la condition à ce que celles-ci « ne soient pas altérées, que leur sens ne soit pas dénaturé et que leurs sources et la date de leur dernière mise à jour soient mentionnées ».
À titre d’illustration, le Répertoire national de l’offre et des ressources en santé et accompagnement social et médico-social (« ROR ») qui est est un annuaire en ligne géré par la direction générale de l’offre de soins (« DGOS ») et la direction générale de la cohésion sociale (« DGCS ») a pour objectif de présenter l’ensemble des activités et ressources opérationnelles mises en œuvre en santé et accompagnement social et médico-social par les professionnels de santé et les structures sanitaires et sociales et médico-sociales. Ce ROR constitue une source ouverte dont les informations peuvent être réutilisées, dans les conditions précises fixées par le CRPA.
Pour les sites n’étant pas soumis à l’Open data
Concernant les sites internet qui ne sont pas soumis au régime de l’Open Data, une vigilance est à avoir avant de recourir au scraping.
En effet, les données du site internet concerné constituent une base de données dont l’éditeur du site pourrait prétendre à la qualité de producteur de bases de données au sens du code de la propriété intellectuelle.
En vertu de cette qualification, il bénéficie d’un droit sui generis prévu par le code de la propriété intellectuelle lui permettant d’interdire l’extraction et la réutilisation des données de la totalité ou d’une partie qualitativement ou quantitativement substantielle du contenu de sa base de données sur un autre support, par tout moyen et sous toute forme que ce soit.
Ces interdictions sont généralement prévues au sein des Conditions générales d’utilisation (« CGU ») du site internet, qui peuvent prévoir une interdiction explicite de « scrapper » le contenu du site internet.
À titre d’illustration, dans une récente affaire rendue par le Tribunal judiciaire de Nanterre le 31 mai 2024, la société Babel France a été condamnée pour avoir eu recours à des « robots » capables d’extraire un très grand nombre d’annonces immobilières issues du site leboncoin et d’en reprendre les critères essentiels pour les réutiliser à son compte, sur sa propre plateforme, et ce, sans aucune forme d’accord préalable de la société LEBONCOIN, et au mépris de ses droits en tant que producteur de la base de données.
Résultats : 50 000€ à titre de dommages et intérêts pour la société LEBONCOIN, et une autre victoire sur le plan juridique après celle obtenue devant la cour de Cassation le 5 octobre 2022 face à La société Entreparticuliers.com condamnée pour des faits similaires. On comprendra que certaines sociétés ont tout intérêt à protéger leurs bases de données et faire cesser l’lusage du webscraping sur leur site internet.
La réutilisation des données des professionnels de la santé sous réserve de l’information et du droit d’opposition
Maintenant que nous avons vu que les données personnelles pouvaient être collectées en ligne sous certaines conditions dans le cadre de l’Opendata et qu’une collecte pouvait être formellement interdite sur certains sites, qu’en est-il de la réutilisation des données et a fortiori quand il s’agit de données personnelles ?
En effet, beaucoup de professionnels de santé (mais également des avocats), se sont retrouvés référencer dans des annuaires sans que leur consentement n’ait été recueilli. La première réaction du professionnel lorsqu’il voit apparaitre ses coordonnées dans l’un de ces annuaires est peut-être de considérer cette pratique comme étant illégale.
Et pourtant, la réutilisation de ces données accessible est encadrée par la Règlementation sur la protection des données à caractère personnel, laquelle recouvre à la fois les dispositions du règlement européen général sur la protection des données (« RGPD ») et celles de la loi Informatique et Libertés, modifiée (« LIL »).
La réutilisation des données personnelles est donc un traitement de données personnelles, mais celui-ci ne nécessite pas nécessairement le recueil du consentement de la personne concernée. Cette phrase peut vous surprendre ; on vous explique.
Tout d’abord, il convient de s’assurer de la légalité de la réutilisation même de données personnelles collectées de manière indirecte à partir des bases de données en ligne. Lorsque la réutilisation ne repose pas sur le consentement de la personne concernée ou n’est pas justifiée par une nécessité légale prévue par le droit de l’Union européenne ou celui d’un État membre, le responsable du traitement doit évaluer si cette nouvelle utilisation est compatible avec la finalité initiale. Un test de compatibilité doit donc être effectué en prenant en compte l’existence d’un éventuel lien entre les finalités du traitement initial avec celles du traitement ultérieur envisagé, du contexte dans lequel les données ont été initialement collectées, de la nature des données, des conséquences du traitement envisagé pour les personnes concernées, et de l’existence de garanties appropriées pour assurer la protection des données personnelles.
En outre, ce nouveau traitement de données personnelles doit reposer sur une des bases légales prévues par le RGPD (prévue à l’article 6 du RGPD), au rang desquelles nous retrouvons bien évidemment le consentement. Pour autant celle-ci n’est pas la seule base légale. Face à l’ampleur que peut représenter le nombre de personnes concernées par le traitement visant à réutiliser des coordonnées professionnelles accessibles en ligne publiquement à des fins de constitution d’un annuaire professionnel, il est nécessaire de s’interroger sur les autres bases légales.
Dès lors, ce type de traitement peut notamment reposer :
- Soit sur l’intérêt légitime du responsable de traitement, lequel doit bien évidemment être justifié à travers une mise en balance des droits et des intérêts des personnes concernées ;
- Soit sur l’exécution d’une mission d’intérêt public, sous réserve que celle-ci soit prévue par des textes de loi et qu’ils s’appliquent au réutilisateur des données.
Les autres bases légales ne sont pour autant pas exclues mais semblent être moins adaptées à la diffusion d’un annuaire constitué de données publiquement accessibles.
Toutefois une nuance doit être ici posée. Bien que le recours à ces deux bases légales ne nécessite pas le recueil du consentement des personnes concernées, celles-ci bénéficient dans tous les cas d’un droit à l’information et d’un droit d’opposition à ce que leurs données soient réutilisées pour les besoins du traitement envisagé.
Les professionnels de la santé ne devraient pas tant être préoccupés par le fait de ne pas avoir consenti à l’apparition de leur fiche dans un annuaire professionnel en ligne, que par l’absence d’option leur permettant de s’opposer à ce traitement !
Il faudra donc nécessairement informer et renforcer la transparence derrière la réutilisation des données personnelles accessibles en ligne. Qui a dit que les robots nous faciliteraient la vie ?
Avocat depuis 2015, Laurence Huin exerce une activité de conseil auprès d’acteurs du numérique, aussi bien côté prestataires que clients.
Elle a rejoint le Cabinet Houdart & Associés en septembre 2020 et est avocate associée en charge du pôle Santé numérique.
Elle consacre aujourd’hui une part importante de son activité à l’accompagnement des établissements de santé publics comme privés dans leur mise en conformité à la réglementation en matière de données personnelles, dans la valorisation de leurs données notamment lors de projets d’intelligence artificielle et leur apporte son expertise juridique et technique en matière de conseils informatiques et de conseils sur des projets de recherche.
Raphaël Cavan a rejoint le Cabinet Houdart & Associés en 2022 tant qu’élève avocat, et exerce aujourd’hui en tant qu'avocat au sein du pôle santé numérique.
L’obtention de son master en droit du numérique auprès de l’université Paris XII (UPEC)et ses différentes expériences professionnelles auprès d’acteurs publics lui ont permis de développer un sens du service public et un intérêt pour les enjeux posés par le numérique aujourd’hui dans le secteur de la santé et de la recherche scientifique.
Il intervient aujourd’hui auprès des établissements de santé privés et publics dans leur mise en conformité à la réglementation en matière de données personnelles, et les conseille sur les questions en lien avec le droit du numérique.