# Publications de l'INCa
## À propos de cette documentation
La documentation de ce jeu de données suit le concept de _fiche technique pour les jeux de données_ (ou *Datasheets for Datasets*) proposé par [Gebru et al.](https://arxiv.org/abs/1803.09010) Spécifiquement, nous reprenons l'adaptation et traduction au français proposée par Samuel Goëta [ici](https://teamopendata.org/t/traduction-et-adaptation-du-modele-de-description-des-donnees-datasheet-for-datasets/1400).
Le but de cette fiche technique est de normaliser la documentation à propos de pourquoi un jeu de données a été créé, quelles informations il contient, les tâches pour lesquelles il devrait et ne devrait pas être utilisé, et si cela pourrait soulever des préoccupations d’ordre éthique ou juridique.
## Motivations pour la création du jeu de données
**Pourquoi le jeu de données a-t-il été initialement créé ?** Les publications de l'INCa sont disponibles [ici](https://www.e-cancer.fr/Expertises-et-publications/Catalogue-des-publications). L'objectif de ce jeu de données est de rassembler l'ensemble des publications de l'INCa afin de faciliter le travail de récupération automatique des contenus, textes bruts et structure de ces fichiers.
**Pour quelles autres tâches le jeu de données pourrait-il être utilisé ?** Faciliter la découverte des informations médicales, suivre l'évolution des connaissances en santé…
**Quelles sont les utilisations trompeuses du jeu de données ?** Ce jeu de données contient tous les fichiers PDF issus des fiches correspondant à la recherche des documents en français, pour lesquels le lien derrière le bouton Télécharger correspond bien à un fichier. Ces fichiers ont été téléchargés le 04/05/2022, la liste de ces fichiers peut donc ne pas être exhaustive et à jour.
**Qui a financé ou soutenu la création du jeu de données ?** L'INCa.
## Composition du jeu de données
**Que contient le jeu de données principalement ?** Les fichiers PDF des documents rédigés par les agents de l'INCa.
**Dispose-t-on d’un schéma décrivant les variables du jeu de données ?** Non.
**Est-ce que le contenu du jeu de données dépend de ressources externes ?** Oui, ce dataset est exploitable en utilisant le dataset avec [les métadonnées des publications de l'INCa](https://www.data.gouv.fr/fr/datasets/62718e928b7f39c0942e4473/). En outre, les documents peuvent contenir des informations relatives à des ressources externes.
**De quelles garanties dispose-t-on concernant la pérennité de ces ressources ?** Les fichiers PDF produits par l'INCa sont disponibles sur le [site de l'INCa](https://www.e-cancer.fr/Expertises-et-publications/Catalogue-des-publications). Les fichiers PDF copiés et mis à disposition sur ce jeu de données sont disponibles pour la durée du Défi iDoc Santé et seront supprimés lorsqu'il sera terminé.
## Processus de collecte des données
**Comment les données ont été collectées (avec des capteurs, manuellement par des outils informatiques…) ?** Les publications sont rédigées par des agents de l'INCa et mises à disposition sur le [site de l'INCa](https://www.e-cancer.fr/Expertises-et-publications/Catalogue-des-publications). La collecte a été faite en utilisant des techniques de web scraping.
**Qui a assuré le processus de collecte de données (des agents, des bénévoles, des étudiants…) ?** Cette collecte a été réalisée dans le cadre d'une mission pour le compte de la HAS, afin que les données soient mises à disposition des participants du Défi iDoc Santé.
**Quelle a été la période de collecte des données ?** Les fichiers PDF ont été collectés le 04/05/2022.
**Les données ont-elles été collectées directement ou inférées à partir d’autres données ?** Les fichiers PDF ont été collectés à partir des liens trouvés dans les pages des fiches correspondantes, à l'aide de techniques de web scraping.
**Les données ont-elles été collectées sur un échantillon ? Selon quelles méthodes ?** Les fichiers PDF sont exhaustifs sur le résultat de la requête des fiches en français.
**Quelles sont les erreurs connues, les limites, les sources de bruit ou de redondances associées à ces données ?** Quelques fichiers PDF correspondent à des fiches différentes.
## Pré-traitement des données
**Comment les données ont-elles nettoyées ou préparées ?** Aucun prétraitement réalisé sur les fichiers PDF.
**Les données « brutes » ont-elles été conservées ? Sont-elles diffusées ?** Oui, les fichiers PDF sont diffusés dans ce dataset.
**L’outil de prétraitement des données est-il disponible ?** Aucun prétraitement réalisé
## Diffusion du jeu de données
**Les données sont-elles diffusées en ligne ? Selon quelles modalités (sur un portail open data, un site web, une API…)?** Oui, sur cette page data.gouv.fr.
**Selon quelle licence les données sont-elles diffusées ?** [License Ouverte version 2.0](https://www.etalab.gouv.fr/wp-content/uploads/2017/04/ETALAB-Licence-Ouverte-v2.0.pdf)
**Des redevances ou des restrictions sont-elles appliquées dans l’accès aux données ?** Non.
## Maintenance du jeu de données
**Qui assure la maintenance du jeu de données ? Comment peut-on contacter cette personne ? Quel est le service responsable du jeu de données ?** La [Mission Data de la HAS](mailto:
[email protected]).
**Est-ce que les rôles sont distincts entre la production des données, leur éditorialisation et leur diffusion ?** Non. Les fichiers PDF sont produits, éditorialisés et diffusés par les services de l'INCa.
**Le jeu de données sera-t-il mis à jour ? Si oui, à quelle fréquence ?** Non.
**Si les données deviennent obsolètes, comment cette information sera-t-elle communiquée ?** À travers de cette page.
**Est-il possible de contribuer à l’amélioration des données ? Selon quelles modalités ?** Non.
## Considérations légales et éthiques
**Si le jeu de données concerne des individus, ont-ils exprimé leur consentement de manière claire ?** Il ne concerne pas des individus.
**Le jeu de données peut-il exposer de manière directe ou indirecte des individus ?** Non, pas à notre connaissance.
**Ces données sont-elles conformes au RGPD ?** Oui.
**Les données peut-elles avantager ou désavantager des groupes sociaux ?** Non, pas à notre connaissance.
**Le jeu de données contient-il des informations pouvant être considérées comme inappropriées ou offensantes ?** Non, pas à notre connaissance
# Organisation de fichiers
Un fichier ZIP est mis à disposition, qui contient 425 fichiers PDF nommés d'après leur nom original disponible via le lien de téléchargement sur le site de l'INCa.
## Arborescence des fichiers
Tous les fichiers de ce dataset suivent la hiérarchie de fichiers décrite ci-dessous :
```shell
├── publicationincapdf # Dossier racine
│ ├── 05_nut_enterale.pdf # Fichier PDF
```