
Pourquoi les soins de santé sont en tête des graphiques de connaissances
Remarque 1 : Cet article fait partie de la deuxième partie d’une série en trois parties sur les soins de santé, les graphiques de connaissances et les leçons destinées à d’autres secteurs.. La partie 1, « Qu’est-ce qu’un Knowledge Graph – et pourquoi c’est important » est disponible ici.
Remarque 2 : Toutes les images par auteur
Dans la première partie, nous avons décrit comment des connaissances structurées ont permis le progrès des soins de santé. Cet article examine pourquoi le secteur de la santé, plus que tout autre secteur, a pu construire cette structure à grande échelle.
La santé est le secteur le plus mature dans l’utilisation des graphiques de connaissances pour plusieurs raisons fondamentales. À la base, la médecine repose sur la science empirique (biologie, chimie, pharmacologie) qui permet d’établir une compréhension commune des types de choses qui existent, de la manière dont elles interagissent et de leur causalité. En d’autres termes, les soins de santé se prêtent naturellement à ontologie.
L’industrie bénéficie également d’une profonde culture de partage vocabulaires contrôlés. Les scientifiques et les cliniciens sont des bibliothécaires nés. Par nécessité, ils répertorient et catégorisent méticuleusement tout ce qu’ils peuvent trouver, des gènes aux maladies. Cet accent mis sur la classification est renforcé par un engagement envers des méthodes empiriques et reproductibles. observationoù les données doivent être comparables entre les institutions, les études et le temps.
Enfin, il existe des forces structurelles qui ont accéléré la maturité : règlement; solide pré-compétitif collaboration; soutenu financement public; et normes de données ouvertes. Tous ces facteurs encouragent le partage de normes et de connaissances réutilisables plutôt que des modèles propriétaires isolés.
Ensemble, ces facteurs ont créé les conditions permettant aux soins de santé de construire une infrastructure sémantique durable et partagée, permettant aux connaissances de s’accumuler entre les institutions, les générations et les technologies.
Ontologies
Les humains ont toujours essayé de comprendre comment fonctionne le monde. Lorsque nous observons et rapportons la même chose à plusieurs reprises et convenons que c’est vrai, nous développons une compréhension commune de la réalité. Ce processus est formalisé en science par la méthode scientifique. Les scientifiques développent une hypothèse, mènent une expérience et évaluent les résultats de manière empirique. De cette manière, les humains développent une ontologie médicale implicite depuis des milliers d’années.
Otzi, l’homme des cavernes découvert en 1991, qui vivait il y a 5 300 ans, a été découvert avec un champignon antibactérien dans ses jambières, susceptible de traiter son infection par le trichocéphale (Kirsch et Ogas 4). Même les hommes des cavernes comprenaient dans une certaine mesure que les plantes pouvaient être utilisées pour traiter des maladies.

Finalement, les scientifiques ont réalisé que ce n’était pas la plante elle-même qui traitait la maladie, mais des composés contenus dans la plante, et qu’ils pouvaient modifier la structure moléculaire de ces composés en laboratoire et les rendre plus forts ou plus efficaces. Ce fut le début de la chimie organique et la façon dont Bayer inventa l’aspirine (en modifiant l’écorce de saule) et l’héroïne (en modifiant l’opium du coquelicot) (Hager 75 ; Kirsch et Ogas 69). Cela a ajouté une nouvelle classe à l’ontologie : composés. Avec chaque nouvelle avancée scientifique, notre compréhension du monde naturel a évolué et nous avons mis à jour notre ontologie en conséquence.

Au fil du temps, la médecine a développé une ontologie à plusieurs niveaux, dans laquelle chaque nouvelle classe ne remplace pas la précédente mais l’étend. L’ontologie s’est développée pour inclure agents pathogènes après les scientifiques Fritz Schaudinn et Erich Hoffmann découvert que la cause sous-jacente de la syphilis était une bactérie appelée Treponema pallidum. Nous avons appris microbes On pouvait en trouver presque partout et certains d’entre eux pouvaient tuer les bactéries, comme la pénicilline, c’est pourquoi les microbes ont été ajoutés à notre théorie.

Nous avons appris que l’ADN contient gènesqui code protéinesqui interagissent avec processus biologiques et facteurs de risque. Chaque avancée majeure de la médecine ajoutait de nouvelles classes de choses à notre compréhension commune de la réalité et nous obligeait à raisonner sur la manière dont ces classes interagissent. Bien avant les ordinateurs, les soins de santé avaient déjà construit une ontologie à plusieurs niveaux. Les graphes de connaissances n’ont pas introduit cette façon de penser ; ils lui ont simplement donné un substrat informatique formel.
Aujourd’hui, nous avons des ontologies pour l’anatomie (Ubéron), les gènes (Ontologie des gènes), composés chimiques (ChEBI) et des centaines d’autres domaines. Des référentiels tels que BioPortail et le Fonderie OBO donner accès à plus d’un millier d’ontologies biomédicales.
Vocabulaires contrôlés
Une fois qu’une classe de choses a été définie, la médecine a immédiatement commencé à nommer et à cataloguer chaque instance qu’elle pouvait trouver. Les scientifiques sont doués pour cataloguer et définir des instances de classes. De la matière médicale, la première pharmacopée a été achevée en 70 CE. C’était un livre d’environ 600 plantes et environ 1000 médicaments. Lorsque les chimistes ont commencé à travailler avec des composés organiques en laboratoire, ils ont créé des milliers de nouvelles molécules qui devaient être cataloguées. En réponse, le premier volume du Manuel Beilstein de chimie organique fut libéré en 1881. Ce manuel a catalogué tous les composés organiques connus, leurs réactions et leurs propriétés, et s’est développé pour contenir des millions d’entrées.

Ce schéma se répète tout au long de l’histoire de la médecine. Chaque fois que notre compréhension du monde naturel s’améliorait et qu’une nouvelle classe était ajoutée à l’ontologie, les scientifiques commençaient à cataloguer toutes les instances de cette classe. Suite à la découverte de Louis Pasteur en 1861 selon laquelle les germes provoquent des maladies, les gens ont commencé à cataloguer tous les agents pathogènes qu’ils pouvaient trouver. En 1923, la première version de Manuel de Bergey de bactériologie déterminative a été publié, qui contenait environ un millier d’espèces bactériennes uniques.

Le même schéma s’est répété avec la découverte de gènes, de protéines, de facteurs de risque et d’effets indésirables. Aujourd’hui, nous disposons de riches vocabulaires contrôlés pour les conditions et procédures (SNOMED CT), les maladies (ICD 11), les effets indésirables (MedDRA), les médicaments (RxNorm), les composés (CheBI et PubChem), les protéines (UniProt) et les gènes (NCBI Gene). La plupart des grandes sociétés pharmaceutiques travaillent avec des dizaines de ces vocabulaires contrôlés par des tiers.
De manière quelque peu déroutante, les ontologies et les vocabulaires contrôlés sont souvent mélangés dans la pratique. Les grands vocabulaires contrôlés contiennent fréquemment des instances de plusieurs classes ainsi qu’un modèle sémantique léger (ontologie) qui les relie. SNOMED CT, par exemple, inclut des cas de maladies, de symptômes, de procédures et de résultats cliniques, ainsi que des relations formellement définies telles que a l’intention et en raison de. Ce faisant, il combine un vocabulaire contrôlé avec une structure ontologique, fonctionnant effectivement comme un graphe de connaissances à part entière.
Règlements
Suite à un empoisonnement massif qui a tué 107 personnes En raison d’un « élixir » mal préparé en 1937, le gouvernement américain a donné à la Food and Drug Administration (FDA) des pouvoirs réglementaires accrus (Kirsch 97). Le fédéral Loi sur les aliments, les médicaments et les cosmétiques de 1938 imposait des exigences sur la manière dont les médicaments devaient être étiquetés et exigeait que les fabricants de médicaments soumettent des données de sécurité et une déclaration sur « l’utilisation prévue » à la FDA. Cela a aidé les États-Unis à éviter dans une large mesure le tragédie de la thalidomide à la fin des années 1950 en Europe, où un tranquillisant était prescrit aux femmes enceintes pour traiter l’anxiété, les troubles du sommeil et les nausées matinales, bien qu’il n’ait jamais été testé sur les femmes enceintes. Cela a provoqué la « plus grande catastrophe médicale anthropique jamais vue », au cours de laquelle des milliers de femmes ont fait des fausses couches et plus de 10 000 bébés sont nés avec de graves malformations.
Même si les États-Unis ont largement évité cette situation en raison de la prudence des évaluateurs de la FDA, ils ont également révélé des lacunes dans le système. Les amendements Kekauver-Harris à la loi fédérale sur les aliments, les médicaments et les cosmétiques en 1962 sont désormais nécessaires preuve que les médicaments étaient à la fois sûrs et efficaces. Le renforcement de la FDA en 1938, puis à nouveau en 1962, a contraint les soins de santé à normaliser la signification des termes. Les sociétés pharmaceutiques ont été obligées de se mettre d’accord sur les indications (à quoi sert le médicament), les conditions (que traite le médicament), les effets indésirables (quelles autres conditions ont été associées à ce médicament) et les résultats cliniques. La pression réglementaire accrue a également nécessité des études reproductibles et bien contrôlées pour toutes les allégations concernant un médicament. La réglementation n’exigeait pas seulement des médicaments plus sûrs ; cela exigeait un sens partagé.
Données d’observation
Ces changements réglementaires n’ont pas seulement affecté les processus d’approbation ; ils ont fondamentalement remodelé la façon dont les observations médicales étaient générées, structurées et comparées. Pour rendre les preuves cliniques comparables, révisables et reproductibles, les normes de données pour les essais cliniques ont été codifiées par des organisations comme le Consortium de normes d’échange de données cliniques (CDISC). Le CDISC définit la manière dont les observations cliniques, les paramètres et les populations doivent être représentés pour l’examen réglementaire. De même, la FDA a fait passer les terminologies partagées cataloguées dans des vocabulaires contrôlés de bonnes pratiques à obligatoires.
Collaboration précompétitive
L’un des facteurs favorables qui ont conduit les soins de santé à dominer les graphes de connaissances est la collaboration pré-compétitive. Une grande partie du travail dans le domaine de la santé repose sur les sciences naturelles comme la biologie et la chimie, qui sont considérées comme un bien public. Les entreprises restent en concurrence sur les produits, mais la plupart considèrent qu’une grande partie de leurs recherches sont « préconcurrentielles ». Des organisations comme le Alliance de Pistoia faciliter cette collaboration en fournissant des forums neutres pour s’aligner sur la sémantique et l’infrastructure partagées (voir la section sur les normes de données ci-dessous).
Financement public
Le financement public a été essentiel à la construction de l’infrastructure du savoir dans le domaine des soins de santé. Les gouvernements et les instituts de recherche publics ont investi massivement dans la création et la maintenance d’ontologies, de vocabulaires contrôlés et de données d’observation à grande échelle qu’aucune entreprise ne pourrait se permettre de construire seule. Des agences telles que Instituts nationaux de la santé (NIH) financer bon nombre de ces actifs en tant que biens publics, laissant aux soins de santé une base de connaissances riche et ouverte, prête à être connectée et raisonnée à l’aide de graphiques de connaissances.
Normes de données
Le secteur de la santé a également adopté très tôt les normes de données ouvertes, garantissant que les connaissances partagées puissent être représentées et réutilisées entre les systèmes et les fournisseurs. Les normes du Consortium du World Wide Web (W3C) a rendu les connaissances médicales lisibles par machine et interopérables, permettant de partager des modèles sémantiques indépendamment de tout système ou fournisseur unique. En ancrant le sens dans des normes ouvertes plutôt que dans des schémas propriétaires, les soins de santé ont permis aux graphes de connaissances de fonctionner comme une infrastructure partagée et durable plutôt que comme des implémentations isolées. Les normes garantissaient que le sens pouvait survivre aux mises à niveau du système, aux changements de fournisseurs et à des décennies de désabonnement technologique.
Conclusion
Aucun de ces facteurs n’explique à lui seul la maturité des soins de santé ; c’est leur interaction au fil des décennies – ontologie façonnant les vocabulaires, réglementation appliquant les preuves, financement soutenant les infrastructures partagées et normes permettant la réutilisation – qui a rendu les graphes de connaissances inévitables plutôt qu’facultatifs. Bien avant l’IA moderne, les soins de santé ont investi dans la recherche d’un accord sur la signification des choses et sur la manière dont les observations doivent être interprétées. Dans la dernière partie de cette série, nous explorerons pourquoi la plupart des autres secteurs ne disposent pas de ces conditions et ce qu’ils peuvent raisonnablement emprunter au parcours des soins de santé.
À propos de l’auteur : Steve Hedden est le responsable de la gestion des produits chez Quadrant supérieuroù il dirige la stratégie d’EDG, une plateforme de gestion de graphes de connaissances et de métadonnées. Son travail vise à relier la gouvernance des données d’entreprise et l’IA à travers des ontologies, des taxonomies et des technologies sémantiques. Steve écrit et parle régulièrement sur les graphes de connaissances et sur le rôle évolutif de la sémantique dans les systèmes d’IA.
Bibliographie
Hager, Thomas. Dix médicaments : comment les plantes, les poudres et les pilules ont façonné l’histoire de la médecine. Harry N.Abrams, 2019.
Isaacson, Walter. The Code Breaker : Jennifer Doudna, l’édition génétique et l’avenir de la race humaine. Simon & Schuster, 2021.
Kirsch, Donald R. et Ogi Ogas. Les chasseurs de médicaments : la quête improbable de la découverte de nouveaux médicaments. Arcades, 2017.



