Revue des Maladies Respiratoires Actualités (2015) 7, 197-199 ISSN 1877-1203
Revue des
Maladies
Respiratoires Organe Officiel de la Société de Pneumologie de Langue Française
Disponible en ligne sur
Actualités Mission ATS 2015 Congrès annuel de l’American Thoracic Society Denver, États-Unis – 15-20 mai 2015
www.sciencedirect.com
Numéro réalisé avec le soutien institutionnel du laboratoire
85366
Coordination de la mission ATS de la SPLF : J.-C. Meurice, A.T. Dinh- Xuan Coordination du numéro pour le Comité de Rédaction : D. Montani
www.splf.org
Septembre Vol 6 2015
N°
3
PNEUMOLOGIE ET SOCIÉTÉ
« Big Data » et pneumologie “Big Data” and respiratory medecine
A. T. Dinh-Xuan Service de physiologie, explorations fonctionnelles, Hôpital Cochin, Université Paris-Descartes, 75014 Paris, France
L
a production et le recueil des données médicales font partie intégrante de l’activité de soins. Longtemps considérées comme confidentielles et réservées aux malades et aux équipes soignantes, les informations liées à l’état de santé de chacun d’entre nous sont en train de vivre une évolution qualitative et quantitative sans précédent, sous la forme d’un nouveau concept, celui des « mégadonnées » (terme recommandé), encore appelé « données massives », « datamasse » ou « Big Data ». Caché derrière cet anglicisme d’apparition relativement récente (cette expression serait apparue pour la première fois en 1997), le « Big Data » est un phénomène sociétal dont on parle de plus en plus mais dont le sens et les implications ne sont compris pour l’instant que par un petit groupe de personnes initiées [1]. Plusieurs sessions consacrées au « Big Data » ont été organisées au congrès de l’American Thoracic Society (ATS) de cette année, justifiant cette courte mise au point.
Qu’est-ce qu’est le « Big data » ? Nous assistons ces dernières années à une explosion de la quantité de données électroniques circulant sur Internet. Ainsi, l’humanité est aujourd’hui capable de générer autant de données en 1 jour qu’elle n’en a produit pendant des siècles, voire des dizaines de siècles, dans le passé. Cette augmentation sans précédent sera encore amenée à croître
de façon exponentielle dans les années à venir. Pour illustrer ceci, on a estimé que les données générées en 2012 par les utilisateurs de Facebook nécessiteraient l’équivalent de 720 000 CD par jour (soit 500 CD par minute) pour y être stockées. Les réseaux sociaux sont d’ailleurs l’une des principales raisons de cette explosion de données (dont 75 % sont générées par les utilisateurs à titre personnel). L’accélération de la vitesse de connexion à Internet et la diminution des prix d’acquisition des appareils numériques (appareils photo, smartphones, tablettes, etc.) participent également à la démocratisation des objets connectés, et à l’explosion quantitative de données numériques circulant sur le Net. En termes de volume, on parle de « Big Data » à partir de 5 téraoctets de données à traiter, ce que les logiciels ou les bases de données classiques ne peuvent pas faire. À cette notion de volume, il est aujourd’hui habituel d’associer trois autres notions (la vitesse, la variété et la véracité) formant les 4 piliers en « v » caractéristiques du phénomène du « Big Data ». Ainsi, la vitesse (ou vélocité) correspond à la capacité d’intégrer et d’analyser en temps réel les dernières données disponibles. La variété des données illustre leurs diversités : données brutes ou, à l’inverse, structurées ; données sous forme de textes ou d’images ; données publiques ou privées. Enfin la véracité soulève le problème de la fiabilité des données recueillies et de leur relevance au contexte ciblé, particulièrement important lors de l’application des « Big Data » aux questions de santé.
Correspondance. Adresse e- mail :
[email protected] (A. T. Dinh-Xuan).
© 2015 SPLF. Publié par Elsevier Masson SAS. Tous droits réservés.
198
Application du « Big Data » à la santé De par ses caractéristiques, le « Big Data » permet l’analyse d’importantes masses de données colligées à partir d’échantillons cliniques de grande taille. Ainsi, l’utilisation d’outils modernes de mathématiques et de statistiques permet désormais non seulement de trier des données massives, mais aussi de les recouper, pour analyser différemment certains phénomènes, les prédire, voire se passer d’échantillons et laisser émerger des tendances que l’on n’aurait pas imaginées à l’avance. Cette nouvelle approche s’applique particulièrement aux études épidémiologiques (pour lesquels l’échantillonnage des populations est forcément grand). Elle est aussi valable pour les sciences biomédicales qui connaissent également ces dernières années une transformation en profondeur avec la vulgarisation de certaines technologies telles que le séquençage à haut débit des gènes. Au début des années 2000, le premier séquençage du génome humain nécessitait la mobilisation de plusieurs milliers de chercheurs travaillant pendant plusieurs années pour un coût estimé à 3 milliards de dollars. Aujourd’hui, le séquençage d’un génome complet coûte 5 000 euros avec un équipement simplifié et des petites équipes de chercheurs grâce à la mise au point d’automates de décryptage génomique très performants [2]. Ces avancées biotechnologiques ont favorisé l’émergence d’une nouvelle discipline baptisée génomique fonctionnelle et alimentent diverses biothèques (DNAthèques, RNAthèques, tumorothèques, etc.). La gestion des données massives issues de ces nouvelles biotechnologies améliorera le traitement des patients en passant par une meilleure connaissance de la physiopathologie des maladies, notamment le cancer bronchique et la broncho-pneumopathie chronique obstructive (BPCO).
« Big Data » et cancer bronchique Plusieurs études explorant les techniques d’analyse de type « Big Data » pour améliorer le dépistage du cancer bronchique ont été présentées cette année à l’ATS. Ainsi, Tassinari et collaborateurs ont analysé les transcriptomes (par la mesure d’ARN messagers) des tissus bronchiques prélevés dans des zones saines des poumons provenant de 3 populations de sujets fumeurs (malades avec un cancer avéré, une simple dysplasie ou sans anomalie décelable) [3]. Une surexpression des groupes de gènes impliqués dans la prolifération tumorale était mise en évidence chez des sujets atteints de cancer bronchique et/ou porteurs de dysplasies. Dans la même dynamique, Whitney et collaborateurs ont évalué l’apport de l’endoscopie bronchique, examen dont la sensibilité pour diagnostiquer les petites tumeurs périphériques est habituellement considérée comme faible [4]. L’originalité de l’étude conduite par ces auteurs était de coupler l’endoscopie bronchique avec l’analyse transcriptomique de 23 gènes déjà connus pour leur implication dans la cancérogenèse bronchique [5]. L’analyse a été réalisée sur des brossages bronchiques en zone non pathologique chez des patients fumeurs ou anciens fumeurs chez qui l’on suspecte un cancer bronchique, suivis pendant 1 an. Les patients ont été stratifiés selon la probabilité prétest de
A. T. Dinh-Xuan
cancer établie par le clinicien (< 10 % ; 10-60 % ; > 60 %). Associée à la fibroscopie, l’analyse transcriptomique présente une sensibilité de 96 % contre seulement 74 % pour la fibroscopie seule. Dans la population intermédiaire (avec une probabilité prétest de cancer bronchique comprise entre 10 et 60 %), la valeur prédictive négative du test combiné à l’endoscopie est de 91 %, confirmant l’intérêt de ce test en particulier pour limiter les explorations inutiles chez les patients à risque intermédiaire [6]. Enfin, un essai prospectif conduit par Jiwani et collaborateurs a porté sur l’évaluation de biomarqueurs mesurés à partir de différents types de prélèvements (biopsies bronchiques, expectoration, sérum, échantillons d’urines des malades, etc.) combinés à l’imagerie dans 2 populations de fumeurs avec (n = 500) ou sans (n = 1 000) nodule pulmonaire [7]. Cette étude est en cours de recrutement, avec un suivi prévu de 4 ans. On espère qu’en intégrant les données génomiques à l’analyse des biomarqueurs et celle de l’imagerie, il sera peut-être possible d’identifier, sans a priori, des populations particulièrement à risque avec à la clé une meilleure compréhension de la cancérogenèse précoce et une optimisation du dépistage. Concernant ce dernier point, la diminution du nombre de faux positifs est également l’un des principaux objectifs de cette approche, notamment grâce à une meilleure spécificité des tests de dépistage.
Conclusion L’application des « Big Data » ne s’applique pas qu’aux analyses transcriptomiques et à la constitution des biobanques. La possibilité de colliger de grandes quantités de données permet de mieux analyser les phénomènes biologiques et cerner la complexité des mécanismes physiopathologiques des maladies. Appliqué à la santé publique, plus les données étudiées sont fiables, plus les résultats sont pertinents. Se pose donc la question de l’accès à certaines bases de données existantes à des études statistiques et épidémiologiques, avec un risque de confidentialité dont il faudra désormais tenir compte. Le « Big Data » peut nous aider à améliorer nos connaissances et nous sera donc bénéfique, mais les données massives, quelle que soit leur nature, proviennent avant tout de données individuelles dont il convient de protéger la confidentialité dans un cadre légal qui reste encore à déterminer.
Liens d’intérêts A. T. Dinh-Xuan : orateur (Stallergenes), contrat d’études (Fondation Air Liquide).
Références [1] Big data. http://fr.wikipedia.org/wiki/Big_data#cite_note-16 (accès le 20 mai 2015). [2] Perez A. Les révolutions de la recherche sur le cancer - 15 années de progrès, 12 défis pour l’avenir. Fondation ARC.
« Big Data » et pneumologie
http://www.fondation-arc.org/Publications/les-revolutionsde-la-recherche-sur-le-cancer.html [3] Tassinari A, Zhang B, Steiling KA, Whitney DH, Porta K, Lam S, et al. Gene-expression networks underlying the airway « field of injury » in smokers with dysplasia and lung cancer. Am J Respir Crit Care Med 2015;191:A1250. [4] Whitney D, Elashoff M, Lenburg M, Porta K, Brody J, Vachani A, et al. À bronchial airway gene expression test for lung cancer diagnosis is validated in a second prospective clinical trial: results of the AEGIS 2 study. Am J Respir Crit Care Med 2015;191:A5157. [5] Whitney DH, Elashoff MR, Porta-Smith K, Gower AC, Vachani A, Ferguson JS, et al. Derivation of a bronchial genomic
199
classifier for lung cancer in a prospective study of patients undergoing diagnostic bronchoscopy. BMC Med Genomics 2015;8:18. [6] Silvestri GA, Vachani A, Whitney D, Elashoff M, Porta Smith K, Ferguson JS, et al. ; AEGIS Study Team.l. À bronchial genomic classifier for the diagnostic evaluation of lung cancer. N Engl J Med 2015 May 17. [7] Jiwani AZ, Maple E, Mahon I, Apgar C, Atwood CW, Battaile JT, et al. Detection and validation of molecular biomarkers for the early detection of lung cancer among military and veteran populations: the DECAMP consortium. Am J Respir Crit Care Med 2015;191:A1249.