Dataset information
Available languages
French
Dataset description
Ce jeu d'exercice comporte des fiches fictives de traçabilité de Réunions de Concertation Pluridisciplinaire (RCP) de cancers du sein dans un document CSV mais aussi dans des CDA (XML) du cadre national d'interopérabilité dans le cadre du [Défi iDoc Santé](https://defi-idoc.has-sante.fr) organisé par la Haute Autorité de Santé et l'INCa.
## Motivations pour la création du jeu de données
**Pourquoi le jeu de données a-t-il été initialement créé ?**
Ces fiches tracent les décisions des professionnels de santé de différentes disciplines (médecin cancérologue, chirurgien, radiothérapeute, chimiothérapeute, …) au cours d'une réunion dédiée nommée Réunion de Concertation Pluridisciplinaire (RCP). Ce document sert ensuite de support de coordination des soins entre différents professionnels de santé. L'objectif de ces fiches est d'assurer la qualité des soins, par le recueil d'un socle minimal d'informations nécessaire à la décision.
Ce jeu de données a été créé pour le défi 1C du Défi iDoc Santé, qui vise à identifier automatiquement les recommandations de bonnes pratiques pertinentes dans les situations cliniques décrites dans ces RCP.
**Pour quelles autres tâches le jeu de données pourrait-il être utilisé ?**
Dans un contexte général, les fiches de RCP pourraient être utilisées pour effectuer des recherches, études ou évaluations sur la qualité des soins et les pratiques des professionnels mais ce n'est pas le cas pour les données présentées ici.
Ces données n'ont pas non plus été testées pour leur interopérabilité et il n'est pas conseillé de les utiliser pour tester ou modéliser un processus d'interopérabilité. De plus, le format CDA utilisé n'est pas le plus récent pour ce type de document.
**Quelles sont les utilisations trompeuses du jeu de données ?** RAS
**Qui a financé ou soutenu la création du jeu de données ?** La HAS et l'INCa sont à l'origine de la rédaction de ces fiches RCP pour des patients fictifs, qui s'inspirent de véritables fiches issues de RCP qui ont été initialement préparées par le réseau régional de cancérologie de Nouvelle-Aquitaine. Les fiches réelles ont servi d'inspiration pour inventer des situations emblématiques dans le même cadre pour la pathologie principale, les pathologies et antécédents associés et les traitements proposés.
Deux professionnels de santé ont rédigé à titre gracieux les fiches RCP inventées : Philippe Rochigneux, chef de clinique en oncologie médicale à l'Institut Paoli Calmettes, et Marguerite Tyran, radiothérapeute à l'Institut Paoli Calmettes. Ils ont été supervisés par Mathieu Morey de la coopérative Datactivist. Les fiches ont été mises en cohérence et ensuite utilisées pour resynthétiser des document CDA par Pierre Liot, HAS.
## Composition du jeu de données
**Que contient le jeu de données principalement ?** Les principales informations de ces données sont des informations médicales et des décisions de traitement.
**Dispose-t-on d'un schéma décrivant les variables du jeu de données ?**
Les fiches RCP suivent le standard Clinical Document Architecture (CDA). Ce jeu de données contient des fiches suivant la version 2.0.0 du Volet Fiche de Réunion de Concertation Pluridisciplinaire (FRCP) du Cadre d'Interopérabilité des Systèmes d'Information de Santé (CI-SIS), publiée en novembre 2015 par l'Agence du Numérique en Santé. Les documentations fonctionnelles et techniques sont disponibles en ressources pdf sur cette page.
**Que contient chaque champ du jeu de données ?**
Se référer à la documentation pdf.
Les valeurs des colonnes TNM suivent la 8e édition de la classification TNM pour le cancer du sein.
**Est-ce que le contenu du jeu de données dépend de ressources externes ?**
Oui pour certaines sémantiques et pour certains attributs mais par construction, les documents au standard CDA sont autoporteurs du point de vue du contenu médical.
**De quelles garanties dispose-t-on concernant la pérennité de ces ressources ?** Le contenu médical ne dépend pas de sources externes.
## Processus de collecte des données
**Comment les données ont été collectées (avec des capteurs, manuellement par des outils informatiques…) ?** Les données des fiches RCP d'origine, servant d'inspiration, ont été saisies manuellement dans des outils informatiques dédiés. Les données des fiches RCP inventées ont été saisies manuellement dans un tableur. Elles ont ensuite été réinsérées, par un script, dans une trame XML pour mimer des documents CDA de même nature.
**Qui a assuré le processus de collecte de données (des agents, des bénévoles, des étudiants…) ?** Les fiches initiales ont été saisies par des professionnels de santé en Nouvelle-Aquitaine pour tracer des RCP. Les fiches RCP inventées ont été saisies par des professionnels de santé dans des outils bureautiques. Le script de réinsertion XML a été écrit par un professionnel de santé.
**Quelle a été la période de collecte des données ?** De janvier à mai 2022.
**Les données ont-elles été collectées directement ou inférées à partir d'autres données ?** Les données ont été collectées directement.
**Les données ont-elles été collectées sur un échantillon ? Selon quelles méthodes ?** Ces données représentent un échantillon très restreint, défini heuristiquement par des professionnels de santé pour illustrer une variété de situations cliniques.
**Quelles sont les erreurs connues, les limites, les sources de bruit ou de redondances associées à ces données ?** Ces données suivent la version du référentiel de 2015 du Volet Fiche de Réunion de Concertation Pluridisciplinaire (FRCP). La version 2021.01, publiée en novembre 2021, offre plus de détails et plus de latitude pour décrire finement le type de cancer, via certaines classifications.
À noter par ailleurs que les fiches RCP ne reprennent pas la totalité de l'histoire des patientes. Elles ne reprennent que les informations utiles à la prise de décision.
## Pré-traitement des données
**Comment les données ont-elles nettoyées ou préparées ?** Les données des fiches RCP utilisées pour l'inspiration avaient été pseudonymisées manuellement. Notamment, les noms, prénoms, identifiants ont été supprimés ou complètement remplacés. La date de naissance a été tronquée à l'année, puis floutée à quelques années près. Les dates d'information cliniques et de RCP ont été ramenées et tronquées à 2022. Les lieux ont été placés à l'échelle de la région. Ces fiches réelles pseudonymisées ont ensuite servi d'inspiration pour inventer des situations emblématiques dans le même cadre pour la pathologie principale, les pathologies et antécédents associés et les traitements proposés. Les données présentées dans les fiches RCP publiées sont donc inventées et ne sont donc pas en relation avec des patientes réelles.
**Les données « brutes » ont-elles été conservées ? Sont-elles diffusées ?** Les données sources, des fiches RCP ayant servi d'inspiration, ne sont pas diffusées.
**L'outil de prétraitement des données est-il disponible ?** À décider pour la partie automatique.
Sous forme CSV le jeu de données comporte les colonnes :
**DDN** : date de naissance
**DateRCP** : date de la Réunion de Concertation Pluridisciplinaire (RCP)
**DatePrelevement** : date de prélèvement
**NaturePrelevement** : acte source du prélèvement
**ResiduTumoralApresChirurgie** : éventuel résidu après chirurgie
**T, N et M** : classification de l'étendue du cancer selon les axes TNM (https://www.e-cancer.fr/Dictionnaire/C/classification-TNM )
**Histologie** : type histologique du cancer
**MotifRCP** : raison de la discussion du cas en RCP
**ATCD** : antécédents médicaux, histoire médicale en dehors de la maladie cancéreuse
**HDM** : histoire de la maladie cancéreuse
**Question** : question(s) posée(s) lors de la RCP
**OMS** : classification OMS
**Decouverte** : modalité de découverte
**PhaseMaladie** : phase de la maladie
**DPD** : activité enzymatique de la DihydroPyrimidine Déshydrogénase, dont le déficit est susceptible d'accroitre la toxicité de certaines chimiothérapie (https://www.has-sante.fr/jcms/c\_2966449/fr/cancer-recherche-d-un-deficit-en-enzyme-dihydropyrimidine-deshydrogenase-dpd-avant-chimiotherapie)
**TypeTT** : type du principal traitement proposé
**DetailTT** : traitement proposé en langue naturelle
**PhaseTT** : niveau de réalisation du traitement principal proposé
**TypeTT2** : éventuel type du traitement proposé secondaire
**TypeTT3** : éventuel type d'un autre traitement proposé
## Diffusion du jeu de données
**Les données sont-elles diffusées en ligne ? Selon quelles modalités (sur un portail open data, un site web, une API…) ?** Oui, sur cette page [data.gouv.fr](http://data.gouv.fr/).
**Selon quelle licence les données sont-elles diffusées ?** [License Ouverte version 2.0](https://www.etalab.gouv.fr/wp-content/uploads/2017/04/ETALAB-Licence-Ouverte-v2.0.pdf)
**Des redevances ou des restrictions sont-elles appliquées dans l'accès aux données ?** Non.
## Maintenance du jeu de données
**Qui assure la maintenance du jeu de données ? Comment peut-on contacter cette personne ? Quel est le service responsable du jeu de données ?** Ce jeu de données n'est pas maintenu. La publication est réalisée par l'Institut national du cancer.
**Est-ce que les rôles sont distincts entre la production des données, leur éditorialisation et leur diffusion ?** Oui. L'anonymisation des données des fiches RCP d'inspiration a été réalisée par le réseau régional de cancérologie et la mission Data de la HAS. La production des données des fiches RCP inventées a été réalisée par des professionnels de santé, à titre gracieux, pour la mission Data de la HAS. La diffusion est assurée par la mission data de la HAS.
**Le jeu de données sera-t-il mis à jour ? Si oui, à quelle fréquence ?** Non
**Si les données deviennent obsolètes, comment cette information sera-t-elle communiquée ?** Sur cette page.
**Est-il possible de contribuer à l'amélioration des données ? Selon quelles modalités ?** Non
## Considérations légales et éthiques
**Si le jeu de données concerne des individus, ont-ils exprimé leur consentement de manière claire ?** Les fiches RCP inventées ne concernent plus des individus.
**Le jeu de données peut-il exposer de manière directe ou indirecte des individus ?** Non. Les données publiées correspondent à des fiches RCP inventées, s'inspirant d'un petit nombre de fiches RCP anonymisées automatiquement puis manuellement.
**Ces données sont-elles conformes au RGPD ?** Oui
**Les données peuvent-elles avantager ou désavantager des groupes sociaux ?** Non.
**Le jeu de données contient-il des informations pouvant être considérées comme inappropriées ou offensantes ?** Non.
Build on reliable and scalable technology