Z. Evid. Fortbild. Qual. Gesundh. wesen (ZEFQ) (2013) 107, 585—591
Online verfügbar unter www.sciencedirect.com
ScienceDirect journal homepage: http://journals.elsevier.de/zefq
SCHWERPUNKT
Diagnose im Kontext — eine erweiterte Perspektive夽 Diagnosis in context — broadening the perspective Jörg Haasenritter 1,∗, Annika Viniol 1, Annette Becker 1, Stefan Bösner 1, Eyke Hüllermeier 2, Robin Senge 2, Norbert Donner-Banzhoff 1 1
Abteilung für Allgemeinmedizin, Präventive und Rehabilitative Medizin, Philipps Universität, Marburg Fachbereich Mathematik und Informatik, Arbeitsgebiet Künstliche Intelligenz und Bioinformatik, Philipps Universität, Marburg
2
Eingegangen/submitted 23. August 2013; überarbeitet/revised 22. Oktober 2013; akzeptiert/accepted 22. Oktober 2013
SCHLÜSSELWÖRTER Diagnose; Symptomevaluation; Primärversorgung; Anamnese und Befund; Informationstheorie; Maschinelles Lernen; Studiendesign
夽 ∗
Zusammenfassung In der Primärversorgung steht zu Beginn des diagnostischen Prozesses ein von einem Patienten berichtetes Symptom oder Zeichen. Primärärzte stehen bei der Auswahl angemessener diagnostischer Tests vor der Herausforderung, ein breites Spektrum von möglichen Ursachen bzw. Differentialdiagnosen zu bedenken. Die klassische diagnostische Querschnittstudie untersucht die Aussagekraft eines Tests, gegebenenfalls auch einer Testkombination, nur im Hinblick auf eine einzelne Zielerkrankung. Die Komplexität, der sich der Praktiker stellen muss, bleibt also weitgehend unberücksichtigt bzw. wird aufgespalten in kleinste Teile, die der Praktiker wiederum zusammenfügen muss. In dem vorliegenden Artikel schlagen wir ein Studiendesign vor, dass die Anforderung der Diagnosefindung in der Primärversorgung umfassender berücksichtigt - die ,,comprehensive diagnostic study‘‘. Wesentliches Kernelement dieses Designs ist die zeitgleiche Berücksichtigung aller relevanten Ursachen bei der Evaluation von mehreren diagnostischen Tests. Einzelne Aspekte und Besonderheiten des Designs hinsichtlich Fragestellung, Stichprobe, Indextests, Referenzstandard und Analyse werden dargelegt und anhand des Beispiels einer Studie zum Brustschmerz in der Primärversorgung verdeutlicht.
Der Artikel gibt Inhalte eines Workshops wieder: ,,Unsicherheit im diagnostischen Prozess modellieren — Möglichkeiten der Informationstheorie‘‘. 14. Jahrestagung des Deutschen Netzwerks Evidenzbasierte Medizin ,,Entscheiden trotz Unsicherheit‘‘, 2013. Korrespondenzadresse: Jörg Haasenritter, Philipps Universität Marburg, Abteilung für Allgemeinmedizin, Präventive und Rehabilitative Medizin, Karl-von-Frisch-Str. 4, 35043 Marburg E-Mail:
[email protected] (J. Haasenritter).
1865-9217/$ – see front matter http://dx.doi.org/10.1016/j.zefq.2013.10.025
586
KEYWORDS Diagnosis; primary healthcare; symptom assessment; medical history taking; information theory; machine learning; research design
J. Haasenritter et al. Summary In a primary care setting the diagnostic process typically starts with a symptom or sign reported by the patient. Primary care physicians face the challenge to consider a broad spectrum of possible aetiologies or differential diagnoses when choosing appropriate diagnostic tests. The classical diagnostic cross-sectional study investigates the accuracy of a diagnostic test or a combination of several tests in regard to just one target disease. The complexity facing the clinician remains unconsidered or is being split and presented in several parts which the clinician has to combine. In this paper we suggest a design for diagnostic studies that considers the requirements of diagnosis in primary care more comprehensively: the comprehensive diagnostic study. The essential characteristic of the design is the simultaneous consideration of the whole spectrum of relevant aetiologies when evaluating several diagnostic tests. We present single characteristics and specific features of this design in regard to research question, study sampling, index test, reference standard and analysis, and illustrate them using the example of a study investigating chest pain in primary care.
Diagnose — Besonderheiten in der Primärversorgung Das Stellen einer Diagnose begründet die Wahl einer Therapie und ist somit ein Eckstein im medizinischen Handeln. Ärztinnen und Ärzte nutzen unterschiedliche Strategien, um zu einer Diagnose zu gelangen [1]. Ein in der Literatur zur evidenzbasierten Praxis häufig beschriebener Ansatz ist der des ,,probalistic diagnostic reasoning‘‘ [2]: Zu Beginn des diagnostischen Prozesses steht eine Liste relevanter Diagnosen und der dazugehörigen (Vortest-)Wahrscheinlichkeiten. Diese Wahrscheinlichkeiten werden durch das gezielte Sammeln diagnostischer Information modifiziert. Unter diagnostischen Informationen sind sowohl Antworten auf einzelne anamnestische Fragen wie beispielsweise nach dem Alter, dem Geschlecht oder der Lokalisation eines Schmerzes, als auch die Ergebnisse apparativer Tests zu verstehen. Die so ermittelten Nachtestwahrscheinlichkeiten ermöglichen es im Idealfall die Liste bis auf eine Diagnose zu kürzen. Die Primärversorgung ist definitionsgemäß die erste medizinische Anlaufstelle für Menschen mit gesundheitlichen Problemen. Hier verläuft die Schnittstelle zwischen Lebenswelt und Gesundheitssystem. Es ergeben sich typische Besonderheiten im diagnostischen Prozess, die sich in dieser Häufigkeit und Ausprägung in der sekundären und tertiären Versorgungsebene eher nicht finden [3]. Ausgangspunkt ist ein Symptom, mit dem sich der Patient vorstellt, möglicherweise auch ein auffälliger Befund der körperlichen Untersuchung. Es hat kein professionelles Vorsortieren oder Filtern stattgefunden. Vielmehr ist es eine wesentliche Aufgabe des Primärversorgers, diese Filterfunktion wahrzunehmen. Dadurch ist die Liste der relevanten und zu bedenkenden Diagnosen meist noch sehr lang. Beispielsweise untersuchten zwei Studien die Ursache von Brustschmerz in der hausärztlichen Versorgungsebene. Die Zahl der spezifischen Diagnosen lag bei 28 [4] bzw. 36 [5]. Auch wenn die Diagnosen in klinisch relevante Gruppen oder Cluster zusammengefasst wurden, lag die Zahl bei 9 bzw. 12. Typisch auch, dass das Spektrum von prognostisch sehr günstigen und allenfalls einer symptomatischen Therapie bedürfenden bis hin zu lebensbedrohlichen Ursachen reicht, wobei erstere deutlich überwiegen und letztere häufig in einem Frühstadium vorliegen. Nicht immer ist die Zuordnung zu einer spezifischen Diagnose möglich oder sinnvoll. Alternativ können an die Stelle von Diagnosen prognostische (z.B. abwendbar
gefährlicher Verlauf) oder handlungsrelevante Kategorien (z.B. Indikation zur dringlichen Einweisung) treten. Anamnese und Befund stellen an dieser Stelle die wichtigsten Tests dar und ermöglichen häufig auch bereits eine abschließende Beurteilung, ohne dass eine spezifische Diagnostik notwendig wäre [6]. Es stellt sich die Frage, welche Aussagekraft diese Tests im Hinblick auf die unterschiedlichen Diagnosen haben. Leider besteht ein eklatantes Missverhältnis zwischen der Bedeutung von Anamnese und Befund für den diagnostischen Prozess einerseits und der Anzahl an validen Studien zur diagnostischen Aussagekraft von Zeichen und Symptomen anderseits [6]. In einer eigenen systematischen Literaturübersicht zur Diagnostik der Koronaren Herzkrankheit bei Brustschmerzpatienten konnten wir über einen Zeitraum von ca. 30 Jahren nur sechs Studien identifizieren, die die Aussagekraft von Anamnese und Befund speziell für die allgemeinmedizinischen Versorgungsebene untersuchten [7]. Zusammenfassend stellt sich Allgemeinmedizinern bei der Einschätzung eines Patienten mit einem bestimmten Symptom die Frage, welche diagnostische Aussagekraft Anamnese und Befund für das ganze Spektrum der relevanten Ursachen hat.
Etablierte Studiendesigns Vor diesem Hintergrund sind für Allgemeinmediziner vor allem zwei Studientypen bedeutsam, weil sie helfen den diagnostischen Prozess auf eine valide Datenbasis zu stellen: die symptomevaluierende Studie und die diagnostische Querschnittsstudie. Symptomevaluierende Studien beantworten bezogen auf Patienten, die sich mit einem definierten Symptom als Beratungsanlass in einer bestimmten Versorgungsebene vorstellen, drei Fragestellungen [8]: Wie häufig ist das Symptom bzw. der Beratungsanlass? Was sind die zugrundeliegenden Ursachen und ihre jeweilige Häufigkeit? Wie ist die Prognose des Symptoms? Dieser Studientyp nennt also die Vortestwahrscheinlichkeiten für das ganze Spektrum relevanter Krankheiten. Mehr noch, begreift man Relevanz als Produkt aus Bedrohlichkeit und Häufigkeit der zugrunde liegenden Krankheit, so ist die symptomevaluierende Studie zwingende Voraussetzung für eine valide und datengestützte Beurteilung, was im Kontext des definierten Symptoms und der Versorgungsebene überhaupt als relevante Krankheit zu betrachten ist.
Diagnose im Kontext — eine erweiterte Perspektive Die diagnostische Querschnittsstudie stellt das Standarddesign zur Evaluation eines diagnostischen Tests dar [9]. In einer Stichprobe von Patienten, bei denen der zu evaluierende Test in der Praxis Anwendung finden soll, werden die Ergebnisse des Tests denen eines Referenzstandards gegenüber gestellt. Letzterer gibt Aufschluss über den ,,wahren‘‘ Krankheitszustand (Referenzdiagnose). Endpunkte dieses Studientyps sind Maße zur Genauigkeit des Tests wie Sensitivität, Spezifität, Diagnostic Odds Ratio, Likelihood Ratios, und Area under the Receiver Operating Characteristic Curve. Allen diesen Größen ist gemeinsam, dass zur Berechnung die Referenzdiagnose als binäre Variable (Krankheit — ja oder nein) vorliegen muss. Die Berechnung der Sensitivität und Spezifität setzt zudem voraus, dass auch das Testergebnis binär ist. Viele Autoren haben die Grenzen dieses Designs beschrieben und vor dem Hintergrund ihrer jeweiligen Argumentation Erweiterungen bzw. Alternativen vorgeschlagen. So kann durch diesen Studientyp der Nutzen eines Tests nur indirekt überprüft werden, da der Endpunkt ,,diagnostische Genauigkeit‘‘ quasi einen Surrogatparameter darstellt. Geht es um die Frage nach dem Nutzen eines Tests, gilt die randomisierte kontrollierte Studie (RCT) mit klinisch relevanten Endpunkten als das überlegene Design [10]. Dem wird an dieser Stelle nicht widersprochen. Allerdings werden Angaben zur Genauigkeit eines Tests„ wie eine diagnostische Querschnittstudie sie bereit stellt, auch weiterhin einen eigenen Stellenwert behalten. So interessiert in der konkreten klinischen Entscheidungssituation Patient und Arzt häufig, wie hoch die Wahrscheinlichkeit einer Krankheit ist, wenn ein Test positiv ausfällt (Positiv Prädiktive Wert).
Comprehensive Diagnostic Study Um den Anforderungen aus Sicht der Primärversorgung besser gerecht zu werden, haben wir ein umfassenderes Design einer diagnostischen Studie (Comprehensive Diagnostic Study — CDS) vorgeschlagen [11]. Das Design der CDS verbindet Elemente der symptomevaluierenden und der diagnostischen Querschnittstudie. Ziel ist Allgemeinmedizinern eine valide und umfassende Datenbasis für den initialen diagnostischen Prozess bei einem definierten Symptom oder Zeichen zu bieten. Wie bei einer diagnostischen Querschnittstudie werden Patienten aufgrund eines definierten klinischen Problems (z.B. eines Symptoms) eingeschlossen. Als Indextest werden verschiedene diagnostische Tests bzw. deren Kombination berücksichtigt. Anders als in der konventionellen diagnostischen Studie wird jedoch deren Aussagekraft nicht nur im Hinblick auf eine, sondern auf sämtliche für die klinische Situation relevanten Zielerkrankungen bzw. Ätiologien evaluiert. Dadurch wird dieses Design der Komplexität der diagnostischen Entscheidungssituation besser gerecht. Als Ergebnis berichtet eine CDS die Vortestwahrscheinlichkeiten für verschiedene Differentialdiagnosen bei Patienten mit einem definierten Symptom als Beratungsanlass. Darüber hinaus wird berichtet, welche der vielen denkbaren Items aus Anamnese und Befund in der konkreten Situation diagnostisch hilfreich sind und wie diese allein oder in Kombination die Vortestwahrscheinlichkeit ändern. Solche Ergebnisse können einerseits Grundlage für konkrete Handlungsempfehlungen in Form von klinischen Entscheidungsregeln sein. Darüber hinaus sehen wir die Möglichkeit
587 durch alternative Analysemethoden die Komplexität und die damit verbundene Unsicherheit im diagnostischen Prozess abbilden zu können. Im Folgenden beschreiben wir Design, Möglichkeiten, aber auch besondere methodische Herausforderungen der CDS anhand folgender Kernelemente: Fragestellung/Stichprobe/Tests/Referenzstandard/ Analyse. Zur Illustration beschreiben wir methodische Aspekte anhand einer konkreten Studie, die das Symptom Brustschmerz in der hausärztlichen Versorgungsebene untersuchte [4,11].
Fragestellung Eine CDS sucht zwei Hauptfragestellungen im Hinblick auf Patienten mit einem definierten Symptom oder Zeichen in einer bestimmten Versorgungsebene zu beantworten: (1) Was sind zugrundliegende Erkrankungen/ Differentialdiagnosen und deren Häufigkeiten? (2) Was sind die hilfreichsten diagnostischen Informationen, um die zugrundeliegenden Erkrankungen bzw. handlungsrelevante Kategorien voneinander abzugrenzen?
Stichprobe/ Rekrutierung Grundsätzlich kann eine CDS natürlich in jeder Versorgungsebene durchgeführt werden. Wir sehen einen besonderen Nutzen wie oben ausgeführt vor allem aber für die Primärversorgung. Teilnehmende Institutionen/Prüfzentren werden typischerweise z.B. Hausarztpraxen sein. Daneben kommen auch andere Versorgungsbereiche in Frage, die einen Generalist erfordern, wie etwa Notfallambulanzen. Bei der Stichprobenbildung, spätestens aber bei der Analyse, muss jedoch berücksichtigt werden, dass sich sowohl die Häufigkeit der dem Symptom zugrundeliegenden Erkrankungen als auch die Aussagekraft einzelner diagnostischer Informationen zwischen den einzelnen Versorgungsbereichen deutlich unterscheiden können [12,13]. Die Auswahl sowohl der Prüfärzte und als auch der Patienten soll gewährleisten, dass die Probanden in der Studie möglichst repräsentativ für diejenigen Patienten sind, die sich mit dem jeweiligen klinischen Problem in der Primärversorgung vorstellen. Wichtiges Merkmal in diesem Zusammenhang ist die konsekutive, d.h. lückenlose Rekrutierung aller Patienten, die die Ein- und Ausschlusskriterien erfüllen. Diese Kriterien dienen vor allem dazu, das adressierte klinische Problem zu konkretisieren. Völlig ungeeignet, weil dem Grundgedanken des Studiendesign widersprechend, ist der Ein- oder Ausschluss von Patienten aufgrund einer Verdachtsdiagnose. In der Beispielstudie waren 209 Hausärzte in Hessen angeschrieben worden, von denen sich 74 für die Studienteilnahme entschieden. Diese Prüfärzte schlossen jeden Patienten über 35 Jahren mit akuten oder chronischen Schmerzen im Bereich der Brust ein. Ausgeschlossen wurden Patienten, deren aktuelle Brustschmerzepisode mehr als einen Monat zurücklag, schon medizinisch abgeklärt war oder bei denen es sich um eine Wiedervorstellung wegen desselben Symptoms handelte.
588
Diagnostische Tests Die zu evaluierende diagnostischen Tests sind vor allem den Bereichen Anamnese und körperliche Untersuchung zuzuordnen; aber auch einzelne apparative Tests — vorzugsweise Point of Care Tests - können berücksichtigt werden. In der Beispielstudie erfolgte die Auswahl der zu evaluierenden Tests u.a. auf Grundlage einer qualitativen Studie zu der Frage, welche Regeln und Heuristiken Hausärzte bei Brustschmerz anwenden [14].
Referenzstandard Die Zuweisung einer Referenzdiagnose (= zugrundeliegende Ätiologie) zu jedem Fall ist ein kritischer Punkt im Studiendesign. Da es gilt mehrere Ätiologien zu berücksichtigen, gibt es niemals einen einzigen Referenztest. Vielmehr wird der Referenzstandard immer aus einer Kombination sehr unterschiedlicher Referenztests bestehen. Inwieweit das konkrete Vorgehen bzw. die einzelnen Elemente durch das Studienprotokoll fest vorgegeben werden oder den Entscheidungen des einzelnen Prüfarztes überlassen bleiben, muss im Kontext der jeweiligen CDS entschieden werden. Eine Option stellt der ,,delayed-type‘‘ Referenzstandard dar. Bei dieser Form des Referenzstandards werden die Patienten über einen definierten Zeitraum nachbeobachtet [9]. Die so gewonnenen Informationen fließen bei der Bestimmung der Referenzdiagnose ein. Im Fall der Beispielstudie sah das konkrete Vorgehen folgendermaßen aus [4]: Die Prüfärzte erhoben bei allen eingeschlossenen Patienten Anamnese und Befund nach einem standardisierten Protokoll. Die Veranlassung weiterer spezifischer Diagnostik blieb jedoch der Einschätzung des einzelnen Prüfarztes überlassen. Klinische Monitore kontaktierten alle Patienten nach 6 Wochen und 6 Monaten und erfassten, ebenfalls nach einem standardisierten Protokoll, den klinischen Verlauf. Zudem wurden alle relevanten Informationen wie Ergebnisse spezifischer Diagnostik, weitere (Fach-)Arztbesuche oder Krankenhausaufenthalte systematisch gesammelt. Ein unabhängiges Expertenpanel beurteilte alle Informationen und entschied über die Referenzdiagnose. Ein solches Vorgehen gilt auch in der ,,klassischen‘‘ diagnostischen Querschnittstudie als angemessen, wenn die Prävalenz der zu untersuchenden Erkrankungen gering ist und die Anwendung eines invasiven Referenztests bei vielen Studienpatienten aufgrund der geringen klinischen Wahrscheinlichkeit der Zielkrankheit ethisch nicht vertretbar ist [9].
Analyse Zur Herleitung optimaler Testkombinationen oder diagnostischer Modelle kommen aus der Biostatistik Verfahren in Frage, die nicht-binäre Endgrößen erlauben wie die multinomiale logistische Regression. Aber auch Verfahren und Konzepte aus anderen Bereichen wie der Informationstheorie oder des maschinelle Lernens treten (wieder) in das Blickfeld. Der auf Shannon zurückgehende Begriff der Entropie ermöglicht es beispielsweise, die einer diagnostischen Entscheidungssituation zugrunde liegende Unsicherheit in Informationseinheiten (bits) zu quantifizieren [15].
J. Haasenritter et al. Innerhalb dieses Ansatzes lässt sich die Leistungsfähigkeit eines oder mehrerer Tests als Informationsgewinn oder Reduktion von Unsicherheit begreifen und bemessen. Dabei sind Entropie-basierte Maßzahlen nicht auf binäre Diagnosevariablen beschränkt. Abbildung 1 erläutert die jeweiligen Begriffe und Kenngrößen anhand des Beispiels eines einzelnen Tests. Im Falle der Beispielstudie zeigt eine Sekundäranalyse verschiedene Ansätze zur Analyse entsprechender Daten auf der Grundlage informationstheoretischer Konzepte auf [11]. Ausgangspunkt war ein Datensatz, in dem für jeden Fall das Ergebnis von 42 Indextests aus den Bereichen Anamnese und Befund und die Zugehörigkeit zu einer von 9 diagnostischen Kategorien (Referenzdiagnose) dokumentiert war. Innerhalb eines Ansatzes wurde auf Grundlage der Daten ein Entscheidungsbaum konstruiert, der jeden Fall einer der neun diagnostischen Kategorien zuwies. Ausgehend von einem Wurzelknoten werden bei diesem Ansatz die Fälle sukzessive partitioniert, wobei im Beispiel als SplittKriterium Entropiemaße verwendet wurden [17]. Abbildung 1 zeigt den Ursprung des Baumes. Unter den 42 Indextests war ,,Husten - ja oder nein‘‘ das Kriterium, das die Unsicherheit am stärksten reduzierte zur ersten Teilung des Datensatzes verwandt wurde. Die daraus resultierenden zwei Teildatensätze wurden wiederum nach derselben Vorgehensweise geteilt, d.h. es wurde unabhängig voneinander für jeden Teildatensatz unter den 42 Indextests wiederum derjenige als Splitt-Kriterium verwandt, der die Unsicherheit am stärksten reduzierte. In einem ersten Schritt lässt man einen solchen Baum zunächst wachsen. Stoppkriterien sind erfüllt, wenn eine Teilung dazu führt, dass ein entstehender Teildatensatz eine zuvor festgelegte Größe unterschreitet oder wenn alle Fälle eines Teildatensatzes einer diagnostischen Kategorie zugeordnet werden. Es existierten verschieden Strategien, um eine zu starke Anpassung des Baumes an den Trainingsdatensatz (Overfitting) zu vermeiden. Im vorliegenden Fall wurde für alle Entscheidungsknoten überprüft, ob ein Beschneiden die Rate der Fehlklassifikationen verbessert[17]. Da für diesen Schritt kein 2. Datensatz vorlag, wurden nicht die Punktschätzer der Fehlerraten, sondern die unteren Grenzen der jeweiligen 95% Konfidenzintervalle zum Vergleich herangezogen. Der resultierende Entscheidungsbaum nutzte die Information von 19 der 42 Indextests, bestand aus 24 Entscheidungs- und 25 Endknoten und klassifizierte 66.8% der Fälle korrekt [11]. Für Datenanalysen mittel Entscheidungsbäumen existieren spezielle Softwarelösungen [17,18] Aufgrund der Tiefe des Themas verweisen wir an dieser Stelle auf weitere einschlägige - eigene und fremde — Beispiele für die Anwendung der Informationstheorie im Kontext diagnostischer Forschung [11,15,19]]. Ansätze aus dem Bereich des maschinellen Lernens und der künstlichen Intelligenz wie Entscheidungsbäume oder Neuronale Netze fanden schon in der Vergangenheit Anwendung in der medizinischen Forschung, konnten sich bisher jedoch nicht wirklich durchzusetzen [20]. Im Kontext einer CDS versprechen sie aber interessante Möglichkeiten; u.a., weil sie es ermöglichen, die Analyse der Studiendaten stärker an kognitiven Prozessen bzw. Heuristiken zu orientieren, die Ärzte in der Praxis nutzen. Dies sei beispielhaft anhand der hierarchischen und der kaskadierten Klassifizierung dargelegt:
Diagnose im Kontext — eine erweiterte Perspektive
589
Abbildung 1 Beispiel für die Anwendung von Konzepten der Informationstheorie Die Abbildung erläutert, wie die einer diagnostischen Entscheidungssituation zugrundeliegenden Unsicherheit quantifiziert werden kann und sich entsprechende Kenngrößen zur Leistungsfähigkeit eines Tests ermitteln lassen. Dies wird dargelegt anhand eines Datensatzes von n = 710 Brustschmerzpatienten [11]. Durch den Referenzstandard wurde jeder Fall exklusiv einer von 9 diagnostischen Kategorien (A-I) zugeordnet. Bei dem zu evaluierenden Test handelt es sich um die anamnestische Information, ob der Patient zusätzlich unter Husten leidet. Die Unsicherheit, n welche Diagnosekategorie vorliegt, wird berechnet anhand der Formel [15]: H(DK) = − 1 pi × log2 pi , wobei n die Anzahl der möglichen Diagnosekategorien bezeichnet, pi der Wahrscheinlichkeit entspricht, dass ein Patient der Diagnosekategorie i Є(1-n) angehört und log2 der Logarithmus zur Basis 2 ist. Die Differenz zwischen der (Ausgangs-)Unsicherheit ohne Kenntnis weiterer Informationen [H(DK)] und der Unsicherheit gegeben die Informationen, ob der Patient unter Husten leidet [H(DK|Husten)] quantifiziert das durchschnittliche Maß an Information, das ein Test bietet [I(D;Husten)]. Der Wert beträgt in unserem Beispiel 2.35bits — 2.11bits = 0.24 bits. Dieser Wert, auch als Mutual Information bezeichnet, ist damit ein Parameter für die Gesamtleistungsfähigkeit des Tests [15]. Die relativeEntropie (RE), auch als Kullback—Leibler Divergenz bezeichnet, wird berechnet durch die Formel [16]: n H(DK) = − 1 bi × log2 (bi /ai ), wobei n die Anzahl der möglichen Diagnosekategorien bezeichnet, ai der Vortestwahrscheinlichkeit und bi der Nachtestwahrscheinlichkeit für die Diagnosekategorie i entspricht und log2 der Logarithmus zur Basis 2 ist. Sie ist ein Maß für den relativen Informationsgewinn, den ein bestimmtes Testergebnis bietet [16]. In unserem Beispiel ist zu erkennen, dass der relative Informationsgewinn für ein positives Testergebnis höher ist als für ein negatives Testergebnis.
Hierarchische Klassifizierung ermöglicht, dass die Klassen, denen jeder Fall zugeordnet wird, eine hierarchische Struktur aufweisen [21]. Darüber hinaus ist eine Zuordnung auf den unteren - und damit mehr spezifischen Klassenebenen - nicht zwingend notwendig. Dies passt sehr gut in den Kontext medizinischer Diagnosen in der Primärversorgung. So könnte auf der obersten Ebene eine grobe prognostische Klassifizierung (z.B. abwendbar gefährlicher Verlauf, prognostisch günstig,. . .), auf der nächsten Ebene eine mehr handlungsorientierte Klassifizierung (z.B. dringliche Einweisung/ Überweisung/ abwartendes Offenhalten,. . .) und erst auf der untersten Ebene die Zuteilung zu spezifischen Diagnosen erfolgen. Gerade in der Primärversorgung ist eine spezifische Diagnose nicht immer möglich oder zwingend; vorausgesetzt, dass auf der prognostischen bzw. handlungsrelevanten Ebene eine zufriedenstellende Zuordnung gelingt. Grundidee der kaskadierten Klassifikation ist das mehrstufige Vorgehen [22]. Auf der ersten Stufe wird ein Test
bzw. eine Testkombination angewandt. Ist eine hinreichend sichere Klassifizierung möglich, endet der Prozess. Ist keine Klassifizierung möglich, wird der Fall an die nächste Teststufe ,,weitergereicht‘‘. Hier wird die Idee des sequentiellen Testens aufgegriffen, die typischerweise auch in der medizinischen Diagnostik Anwendung findet. Nach jedem Test stellt sich die Frage, ob der nächste Test notwendig ist oder bereits eine hinreichend sichere Einschätzung gelungen ist. Dies impliziert eine rationale und ökonomische Vorgehensweise. Es finden sich Parallelen zum hypothetico-deduktiven Ansatz, den Elstein als eine mögliche kognitive Vorgehensweise von Praktikern beschrieb [23]. Danach formulieren Ärzte bereits zu einem frühen Zeitpunkt im diagnostischen Prozess Hypothesen und sammeln gezielt Information, um diese zu verifizieren. Gelingt dies, führt dies zu einer entsprechenden Diagnose. Ansonsten werden weitere Hypothesen formuliert und bzw. die entsprechende Informationen gesammelt.
590
J. Haasenritter et al.
Offene Fragen
Interessenkonflikt
Den Möglichkeiten der Analyse gegenüber stehen jedoch auch viele zu klärende methodische Fragen. Beispielhaft seien hier die Frage der Gewichtung von Fehlklassifikationen und der notwendigen Fallzahl genannt. Werden innerhalb einer Analyse verschiedene Referenzdiagnosen berücksichtigt, wird schnell klar, dass die unterschiedlichen Fehlklassifikationen unterschiedlich zu gewichten sind. Beispielsweise ist die Fehlklassifizierung eines Brustschmerzes als ,,Brustwandsyndrom‘‘, obwohl er in Wirklichkeit durch ein Akutes Koronarsyndroms versursacht wurde, anders zu gewichten als der umgekehrte Fall. Hier müssen Verfahren angewandt werden, die es erlauben entsprechende Gewichte zu bestimmen [24] und sie dann in den Analysen zu berücksichtigen. Berücksichtigt man die verschiedenen Faktoren, die die für die Studie notwendige Fallzahl bestimmen (Anzahl der einzelnen Kategorien der Diagnosevariablen, niedrige Fallzahl in einzelnen Diagnosekategorien, mehrere zu evaluierende Tests) wird schnell klar, dass für eine CDS mehrere tausend Patienten benötigt werden. Man bedenke jedoch, dass eine aus Sicht des Praktikers zufriedenstellende bzw. umfassende evidenzbasierte Antwort auf die Fragestellungen, die eine CDS zu beantworten sucht (diagnostische Leistungsfähigkeit verschiedener Tests vor dem Hintergrund mehrerer Zielkrankheiten), mehrere Studien mit einem konventionellen Design voraussetzt. Hier kann ebenfalls für eine einzelne Studie (niedrige Prävalenz der Zielkrankheit) eine hohe Fallzahl erforderlich sein kann.
Alle Autoren erklären, dass kein Interessenskonflikt gemäß der ,,Uniform Requirements for Manuscripts Submitted to Biomedical Journals‘‘ vorliegt.
Zusammenfassung und Ausblick Zusammenfassend sehen wir durch das Design der CDS die Möglichkeit, die Perspektive der diagnostischen Forschung gerade in der Primärversorgung zu erweitern. Entsprechende Studien können evidenzbasierten Empfehlungen für die Diagnose in Settings mit einer breiten Palette von diagnostischen Möglichkeiten begründen. In Kombination mit Erkenntnissen aus der Kognitionspsychologie haben sie darüber hinaus das Potential, unser Verständnis des diagnostischen Prozesses zu vertiefen [25]. Vorteilhaft dabei ist, dass Modellierungen im maschinellen Lernen und kognitive Prozesse der ärztlichen Diagnose vielfache Parallelen aufweisen [11]. So gewonnene Einsichten können für die Ausund Weiterbildung genutzt werden. Allerdings besteht in Bezug auf die konkreten analytischen Verfahren noch Forschungsbedarf. Wir gehen jedoch davon aus, dass durchaus Datensätze von Studien existieren, welche die Anforderung eines CDS-Designs hinsichtlich Rekrutierung und Datenerfassung weitgehend erfüllen. An diesen können neue Verfahren erarbeitet und evaluiert werden. Zudem sollten de novo Studien nach dem CDS Design für relevante klinische Probleme (Symptome, Befunde) erfolgen. Dabei ist zu berücksichtigen, dass solche Studien hohe Fallzahlen und deshalb nationale bzw. internationale Kooperation von Forschergruppen voraussetzen.
Literatur [1] Sox HC. Medical decision making. Philadelphia: American College of Physicians; 2007. [2] Richardson W, Wilson M, McGinn T. Differential Diagnosis. In: Guyatt G, Rennie D, Meade MO, Cook DJ, editors. Users’ guides to the medical literature. A manual for evidence-based clinical practice. 2nd. New York: McGraw Hill Medical; 2008. p. 407—17. [3] Donner-Banzhoff N. Wie stellt der Allgemeinarzt eine Diagnose? Z Allg Med 1999;75:744—9. [4] Bösner S, Becker A, Haasenritter J, Abu Hani M, Keller H, Sönnichsen AC, et al. Chest pain in primary care: epidemiology and pre-work-up probabilities. Eur J Gen Pract 2009;15(3):141—6. [5] Verdon F, Herzig L, Burnand B, Bischoff T, Pecoud A, Junod M, et al. Chest pain in daily practice: occurrence, causes and management. Swiss Medical Weekly 2008;138(23—24):340—7. [6] McAlister FA, Straus SE, Sackett DL. Why we need large, simple studies of the clinical examination: the problem and a proposed solution. CARE-COAD1 group. Clinical Assessment of the Reliability of the Examination-Chronic Obstructive Airways Disease Group. Lancet 1999;354(9191):1721—4. [7] Haasenritter J, Aerts M, Bosner S, Buntinx F, Burnand B, Herzig L, et al. Coronary heart disease in primary care: accuracy of medical history and physical findings in patients with chest pain–a study protocol for a systematic review with individual patient data. BMC Fam Pract 2012;13:81. [8] Donner-Banzhoff N, Kunz R, Rosser W. Studies of symptoms in primary care. Family Practice 2001;18(1):33—8. [9] Knottnerus JA, Muris JW. Assessment of the accuracy of diagnostic tests: the cross-sectional study. J Clin Epidemiol 2003;56(11):1118—28. [10] Schünemann HJ, Schünemann AHJ, Oxman AD, Brozek J, Glasziou P, Jaeschke R, et al. Grading quality of evidence and strength of recommendations for diagnostic tests and strategies. BMJ 2008;336(7653):1106—10. [11] Donner-Banzhoff N, Haasenritter J, Hüllermeier E, Viniol A, Bösner S, Becker A. The Comprehensive Diagnostic Study. A Novel Design to Model the Diagnostic Process. J Clin Epidemiol accepted. [12] Buntinx F, Knockaert D, Bruyninckx R, Blaey N de, Aerts M, Knottnerus JA, et al. Chest pain in general practice or in the hospital emergency department: is it the same? Fam Pract 2001;18(6):586—9. [13] Schneider A, Ay M, Faderl B, Linde K, Wagenpfeil S. Diagnostic accuracy of clinical symptoms in obstructive airway diseases varied within different health care sectors. J Clin Epidemiol 2012;65(8):846—54. [14] Abu Hani M, Vandenesch J, Sönnichsen A, Griffiths F, DonnerBanzhoff N. Der Thoraxschmerz - eine explorative Studie hausärztlicher Regeln und Heuristiken. Z Allg Med 2005;81, 15—15. [15] Benish WA. Mutual information as an index of diagnostic test performance. Methods Inf Med 2003;42(3):260—4. [16] Benish WA. Relative entropy as a measure of diagnostic information. Med Decis Making 1999;19(2):202—6. [17] Witten IH, Frank E, Hall MA. Data mining: practical machine learning tools and techniques. 3rd. Burlington, MA: Morgan Kaufmann; 2011 ([Morgan Kaufmann series in data management systems]).
Fünf Kurzinformationen für Patienten aktualisiert [18] Hornik K, Buchta C, Zeileis A. Open-Source Machine Learning: R Meets Weka. Computational Statistics 2009;24(2): 225—32. [19] Diamond GA, Hirsch M, Forrester JS, Staniloff HM, Vas R, Halpern SW, et al. Application of information theory to clinical diagnostic testing. The electrocardiographic stress test. Circulation 1981;63(4):915—21. [20] Sajda P. Machine Learning for Detection and Diagnosis of Disease. Annu Rev Biomed Eng 2006;8(1):537—65. [21] Wang H, Shen X, Pan W. Large Margin Hierarchical Classification with Mutually Exclusive Class Membership. J Mach Learn Res 2011;12:2721—48.
591 [22] Gama J, Brazdil P. Cascade Generalization. Machine Learning 2000;41(3):315—43. [23] Elstein A, Schulman L, Sprafka S. Medical Problem-Solving: An Analysis of Clinical Reasoning. Cambridge (MA): Harvard University Press; 1978, 1978:xvi + 330 pp. [24] Tsalatsanis A, Hozo I, Vickers A, Djulbegovic B. A regret theory approach to decision curve analysis: a novel method for eliciting decision makers’ preferences and decision-making. BMC Med Inform Decis Mak 2010;10:51. [25] Donner-Banzhoff N, Hertwig R. Inductive foraging: Improving the diagnostic yield of primary care consultations. Eur J Gen Pract 2013 [Epub ahead of print].
ZEFQ-SERVICE: TIPP
Fünf Kurzinformationen für Patienten aktualisiert
Die Kurzinformationen für Patienten (KiP) werden regelmäßig aktualisiert. Eine Überarbeitung wird erforderlich, wenn eine neue Version der zugrundeliegenden Patientenleitlinie veröffentlicht wurde oder neue wissenschaftliche Erkenntnisse vorliegen. Folgende KiP wurden deshalb im Oktober 2013 auf den neuesten Stand gebracht: • Was passiert bei Asthma? • Was hat Diabetes mit Ihren Augen zu tun? • Was hat Diabetes mit Ihren Füßen zu tun? • Einfach nur traurig — oder depressiv? • Depression — Ratgeber für Angehörige Das Ärztliche Zentrum für Qualität in der Medizin (ÄZQ) entwickelt die KiP im Auftrag von Kassenärztlicher Bundesvereinigung (KBV) und Bundesärztekammer (BÄK). Diese stehen allen niedergelassenen Ärzten zum Ausdrucken kostenlos zur Verfügung, um sie bei Bedarf Patienten persön-
lich auszuhändigen. Auf zwei Seiten informieren die Kurzinformationen über Krankheitszeichen, Diagnostik und verschiedene Behandlungsmöglichkeiten. Patienten und Angehörige finden hier wichtige Fakten und praktische Tipps zum besseren Umgang mit einer Erkrankung. Zu ausgewählten Themen liegen auch Übersetzungen in Arabisch, Englisch, Französisch, Spanisch, Russisch und Türkisch vor. Die aktualisierten Kurzinformationen sowie Informationen zu über 30 weiteren Themen können abgerufen werden unter: • Kurzinformation ,,Asthma‘‘ www.arztbibliothek.de/ kurzinformation-patienten/kipasthma
• Kurzinformation ,,Diabetes und Augen‘‘ www.arztbibliothek.de/ kurzinformation-patienten/kipdiabetes-augen
•
•
•
•
Kurzinformation ,,Diabetes und Füße‘‘ www.arztbibliothek.de/ kurzinformation-patienten/kipdiabetes-fuesse Kurzinformation ,,Depression‘‘ www.arztbibliothek.de/ kurzinformation-patienten/kipdepression Kurzinformation ,,Depression — Ratgeber für Angehörige‘‘ www.arztbibliothek.de/ kurzinformation-patienten/kipdepression-ratgeber-angehoerige weitere Kurzinformationen www.patienten-information.de/ kurzinformation-fuer-patienten