Available online at www.sciencedirect.com
Z. Evid. Fortbild. Qual. Gesundh. wesen (ZEFQ) 104 (2010) 642–647
Schwerpunkt
Anforderungen an die Evidenz für Systementscheidungen zur Aufnahme medizinischer Maßnahmen in den Leistungskatalog der Gesetzlichen Krankenversicherung Stefan Lange1,∗ , Stefanie Thomas2 1 Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen 2 Medizinischer Dienst des Spitzenverbandes Bund der Krankenkassen
e.V
Zusammenfassung Im Zusammenhang mit (Empfehlungen für) Systementscheidungen zur Aufnahme medizinischer Maßnahmen in den Leistungskatalog der Gesetzlichen Krankenversicherung (bzw. auch zum Ausschluss aus dem Leistungskatalog) greift in Deutschland das Prinzip einer evidenzbasierten Gesundheitsversorgung auf Systemebene, die definiert werden kann als „der gewissenhafte, ausdrückliche und vernünftige Gebrauch der gegenwärtig besten externen, wissenschaftlichen Evidenz für (System-) Entscheidungen‘‘. Wenn Nutzen als „kausal begründeter positiver Effekt‘‘ der Anwendung einer medizinischen Intervention verstanden wird, dann folgt daraus unmittelbar, dass nur solche Studien in eine Nutzenbewertung und damit in die Entscheidungsgrundlage für eine Systementscheidung aufgenommen werden sollten, die kausale Schlüsse zulassen. Das werden in der Regel vergleichende, und zwar randomisierte kontrollierte Studien sein. Dennoch sind Ausnahmen von dieser Regel denkbar, insbesondere wenn es sich um besonders schwere Krankheitsbilder mit einem dringlichen Handlungsbedarf handelt. Hierfür bedarf es jedoch einer angemessenen Begründung,
die sich nicht allein im Fehlen von aussagekräftige(re)n Studien erschöpfen kann. Evidenzbasierte Nutzenbewertung mit dem Vergleich zweier oder mehrerer Behandlungsalternativen hat sowohl ein qualitatives („Verzerrungspotenzial‘‘) als auch ein quantitatives Moment. Das quantitative Moment kann noch unterteilt werden in Präzision der Schätzung und Größe (Ausmaß) des beobachteten Unterschieds. In Analogie zur Durchführung statistischer Hypothesentests könnte postuliert werden: Ist der (beobachtete) Unterschied in einer vergleichenden Studie in Relation zum Verzerrungspotenzial hinreichend groß, wird er nicht mehr (allein) auf potenziell verzerrenden Mechanismen beruhen, sondern mindestens (auch) auf dem Einfluss der angewendeten Intervention. Für die praktische Anwendung taugt diese Analogie jedoch nur bedingt, da sich das Verzerrungspotenzial nicht präzise quantifizieren lässt. Die Anwendung der Methoden einer evidenzbasierten Gesundheitsversorgung erfordert, die Balance zwischen angebrachtem Skeptizismus auf der einen und einer unangemessen überkritischen Haltung auf der anderen Seite zu finden.
Schlüsselwörter: Evidenzbasierte Medizin, Evidenzbasierte Gesundheitsversorgung, Verzerrungspotenzial (Wie vom Gastherausgeber eingereicht)
∗ Korrespondenzadresse.
PD Dr. med. Stefan Lange Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen, Dillenburger Straße 27, 51105 Köln. E-Mail:
[email protected] (S. Lange).
642
Z. Evid. Fortbild. Qual. Gesundh. wesen (ZEFQ) doi:10.1016/j.zefq.2010.09.025
Requirements on evidence for system-level decision making regarding the adoption of medical services into the Statutory Health Insurance (SHI) catalogue Summary In Germany, recommendations regarding health care (system) decisions dealing with medical services which are to be included in (or excluded from) the SHI benefit catalogue clearly relate to the principles of evidence-based health care which can be defined as ‘‘the conscientious, explicit and judicious use of the current best external, scientific evidence in making decisions on a system level’’. If benefit is understood as a ‘‘causally related positive effect’’ of a medical intervention, we may directly assume that only those trials which allow for causal conclusions are to be included in benefit assessments and regarded as part of the basis of the decision-making process. In general, these will be randomised controlled studies. There may be exceptions to this rule, especially when we are dealing with particularly severe disease calling for immediate action. In these cases, an adequate justification is required which must not be based solely on the absence
of conclusive or more conclusive trials. Evidence-based benefit assessment comparing two or more treatment options has both qualitative (bias potential) and quantitative aspects. The quantitative aspect can be subdivided into ‘‘precision of the estimate’’ and ‘‘magnitude of the observed difference’’. On the analogy of statistical hypotheses testing the following can be postulated: if in a comparative trial the (observed) difference is sufficiently large in relation to the bias potential, it will not rest on potentially confounding mechanisms (alone), but at least on the effect of the applied intervention as well. The analogy is limited, though, as the bias potential cannot precisely be quantified. Applying the methods of evidence-based health care requires the right balance between (appropriate) scepticism on the one side and an (inappropriately) over-critical attitude on the other.
Key words: evidence-based medicine, evidence-based health care, bias (As supplied by publisher)
‘‘Der Zweifel ist dem Wissen nicht unterlegen, sondern überlegen. Der Fortschritt ist der Sohn des Zweifels. Der Verstand, der nicht mehr zweifelt, unterliegt dem Verstand.’’ (Alain [Émile-Auguste Chartier], 1932, Propos sur l’éducation)
Wissenschaft in der Medizin In seiner viel beachteten Eröffnungsrede zum 103. Kongress der Deutschen Gesellschaft für Innere Medizin im Jahr 1997 hat Johannes Köbberling ein eindringliches und eindrucksvolles Plädoyer für eine der Wissenschaft verpflichtete Medizin gehalten [1]. Auch wenn es ihm darin vornehmlich um die Geißelung der von ihm so bezeichneten „Paramedizin‘‘ ging, die eben nicht auf wissenschaftlicher Erkenntnis beruhe, so lassen sich seine Gedanken zwanglos auf all jene Bereiche in der Medizin anwenden, in denen Handlungsanweisungen allein auf Autorität, Expertenmeinung und Glauben beruhen. In seinen Überlegungen zum Wissenschaftsbegriff in der Medizin berief sich Köbberling auf Karl Popper: „Manche Theorien können wahr sein, aber auch wenn sie wahr sind, so können wir das niemals sicher wissen, weil es kein objektives Kriterium der Wahrheit gibt. Es gibt aber ein Kriterium des wissenschaftlichen Fortschritts, nämlich
die Bereitschaft zur ständigen kritischen Überprüfung und gegebenenfalls Verwerfung der Hypothesen. Der ständige Zweifel, der zu immer neuen Versuchen der Falsifikation führt, ist somit einer der wesentlichen Motoren für den wissenschaftlichen Erkenntnisgewinn‘‘ [1]. Vermutlich weil ihm dieser Wissenschaftsbegriff als Grundlage der Medizin bereits damals so selbstverständlich erschien, verwendete Köbberling in seiner Rede den Begriff „Evidenzbasierte Medizin‘‘ (EbM) übrigens fast nur „nebenbei‘‘.
Evidenzbasierte Gesundheitsversorgung Eine der Hauptaufgaben des Instituts für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG) ist die Bewertung des Nutzens medizinischer Interventionen [2]. Dabei wird das Institut insbesondere im Auftrag des Gemeinsamen Bundesausschusses (G-BA) tätig. Der G-BA wiederum ist das oberste Beschlussgremium der gemeinsamen Selbstverwaltung und bestimmt in Form von Richtlinien den Leistungskatalog der Gesetzlichen Krankenversicherung (GKV). Darüber hinaus ist der G-BA für Maßnahmen der Qualitätssicherung sowohl für den ambulanten als auch den stationären Bereich zuständig [3]. Der vorliegende Beitrag wird sich auf die
Z. Evid. Fortbild. Qual. Gesundh. wesen (ZEFQ) 104 (2010) 642–647 www.elsevier.de/zefq
Anforderungen an die Evidenz für Entscheidungen zur Aufnahme medizinischer Maßnahmen in den Leistungskatalog (bzw. auch zum Ausschluss aus dem Leistungskatalog) der GKV beschränken, bzw. genauer, da dies die Aufgabe des IQWiG ist: für Empfehlungen zu solchen Entscheidungen. Im § 139a Abs. 4 des Sozialgesetzbuches V (SGB V) ist für die Arbeitsweise des IQWiG festgelegt: „Das Institut hat zu gewährleisten, dass die Bewertung des medizinischen Nutzens nach den international anerkannten Standards der evidenzbasierten Medizin . . . erfolgt. . . .‘‘ [4]. Die wohl am häufigsten verwendete Definition für EbM entstammt einem Artikel von David Sackett und Kollegen aus dem Jahr 1996: „EbM ist der gewissenhafte, ausdrückliche und vernünftige Gebrauch der gegenwärtig besten externen, wissenschaftlichen Evidenz für Entscheidungen in der medizinischen Versorgung individueller Patienten. Die Praxis der EbM bedeutet die Integration individueller klinischer Expertise mit der bestverfügbaren externen Evidenz aus systematischer Forschung‘‘ [5]. Im Zusammenhang mit Systementscheidungen kann diese Definition natürlich nicht 100%-ig greifen, weil solche Entscheidungen lediglich die Rahmenbedingungen für die individuelle Versorgung definieren. Systementscheidungen geben Ärztinnen und Ärzten
643
sowie Patientinnen und Patienten einerseits Wahlmöglichkeiten für die medizinische Versorgung (durch Aufnahme in den Leistungskatalog), andererseits nehmen sie aber auch solche Wahlmöglichkeiten durch Nicht-Aufnahme oder gar Ausschlüsse. Insofern wäre es angemessener, festzustellen, dass das Institut eher den Prinzipien einer evidenzbasierten Gesundheitsversorgung auf Systemebene (Evidence-based Health Care, EbHC), d.h. dem „gewissenhaften, ausdrücklichen und vernünftigen Gebrauch der gegenwärtig besten externen, wissenschaftlichen Evidenz für (Empfehlungen zu) (System-) Entscheidungen‘‘ folgt.
Grundlagen einer evidenzbasierter Gesundheitsversorgung Doch bleibt die Frage, was genau unter „gegenwärtig bester externer, wissenschaftlicher Evidenz‘‘ zu verstehen ist, und ob es insbesondere statthaft ist, ein Mindestmaß an Anforderungen für diese „Evidenz‘‘ festzulegen. So wird häufig gefordert, es müsse auf Basis der o.g. Definition von EbM (mit Rekursion auf die Formulierung „best verfügbar‘‘) für eine (Nutzen-) Bewertung in der so genannten Evidenzhierarchie so weit hinuntergegangen werden, bis eben Studien bzw. Publikationen zu einer Fragestellung aufgefunden würden [6]: in letzter Konsequenz bedeutete dies bis hin zu Fallserien oder Expertenmeinungen. Mit „Evidenzhierarchie‘‘ ist gemeint, dass es Studiendesigns mit höherer und niedrigerer Ergebnissicherheit gibt, und dass auf Basis dieser Ergebnissicherheit eine Rangfolge (von hoch nach niedrig) gebildet werden kann. Der Verweis auf die Standards der EbM hilft hier auf den ersten Blick nur wenig, da es genau für diese Frage im Grunde genommen keinen internationalen Standard gibt. Es existieren renommierte Institutionen, die bei Fragestellungen zu den Effekten therapeutischer und präventiver medizinischer Interventionen nahezu ausschließlich randomisierte kontrollierte Studien (Randomized Controlled Trials, RCTs)
644
zulassen, so die Cochrane Collaboration [7]. Andere Institutionen zeigen sich offener, weitere Studienformen in ihre Bewertungen aufzunehmen (beispielsweise die amerikanische Agency for Health Care Research and Quality, AHRQ [8]). Es muss also ein anderer Ansatz für die Beantwortung der Frage gefunden werden, welche Anforderungen an die Evidenz für (Empfehlungen zu) Systementscheidungen gestellt werden müssen. Wenn Nutzen als „kausal begründeter positiver Effekt‘‘ der Anwendung einer medizinischen Intervention verstanden wird [9], dann folgt daraus unmittelbar, dass nur solche Studien in eine Nutzenbewertung und damit in die Entscheidungsgrundlage für eine Systementscheidung aufgenommen werden sollten, die kausale Schlüsse zulassen. Dem ist der G-BA insofern in seiner Verfahrensordnung gefolgt, indem als Entscheidungsgrundlage für die Bewertung des Nutzens von Arzneimitteln und anderen medizinischen „Methoden‘‘ grundsätzlich („soweit möglich‘‘) die höchste Evidenzstufe gefordert wird [10]. Als höchste Evidenzstufe (I) sind nach dieser Verfahrensordnung RCTs (Ib) bzw. systematische Übersichten von RCTs (Ia) zu verstehen. Der Vollständigkeit halber sei angemerkt, dass in der Verfahrensordnung für diagnostische Methoden noch eine Kategorie Ic („andere Interventionsstudien‘‘) vorgesehen ist. Für den Bereich der Methodenbewertung sind explizit Ausnahmen von dieser Regel zugelassen, die jedoch einer (angemessenen) Begründung bedürfen, und zwar für „die Anerkennung des medizinischen Nutzens einer Methode . . . zum Schutz der Patientinnen und Patienten umso mehr . . ., je weiter von der Evidenzstufe I abgewichen wird‘‘ [10]. Es erscheint fast überflüssig, festzustellen, dass sich eine solche Begründung – „zum Schutz der Patientinnen und Patienten‘‘ – wohl kaum allein im Fehlen von Studien (höchster Evidenz) erschöpfen kann. Stattdessen können laut Verfahrensordnung des G-BA Ausnahmen vorliegen, insbesondere bei seltenen Erkrankungen oder bei „Methoden ohne vorhandene Alternative‘‘.
Alternativlosigkeit kann als Hinweis auf die Schwere des Krankheitsbildes bzw. eine besondere Dringlichkeit verstanden werden, was ggf. tatsächlich die Akzeptanz für RCTs absenken und deshalb die Durchführung erschweren kann. Und bei einer Erkrankung, die (bisher) unweigerlich in kurzer Frist zum Tode führt, kann bereits eine Fallserie, in der gut dokumentiert ist, dass nach Anwendung einer medizinischen Intervention in einer mehr oder weniger großen Anzahl der Fälle der (quasi) deterministische Verlauf aufgehoben wurde, ausreichend Evidenz für eine positive Nutzenaussage liefern („dramatischer Effekt‘‘). Je kleiner der zu erwartende Effekt einer Intervention jedoch ist, desto höher werden die Anforderungen an die Ergebnissicherheit sein, die zu fordern sind. Der Ausnahmetatbestand „seltene Erkrankung‘‘ ist demgegenüber problematischer, da z.B. „Seltenheit‘‘ nicht einheitlich definiert ist, und gängige Definitionen sicherlich nicht die Unmöglichkeit oder Unangemessenheit der Durchführung eines RCT bedingen. [11].
Kausalitätsnachweis und Verzerrungspotenzial Wenn im Zusammenhang mit Nutzennachweisen von Kausalität gesprochen wird, so gilt es anzumerken, dass es sich beim Kausalitätsbegriff in der Medizin nur im Popper’schen Sinne um eine Annäherung an die „Wahrheit‘‘ handeln kann. Damit ist gemeint, dass Kausalität ohnehin nicht in dem „unmittelbaren Sinne‘‘ behauptet werden kann, es gebe nur eine einzige Erklärungsmöglichkeit für einen beobachteten Effekt. Voraussetzung hierfür wäre nicht nur, dass sowohl die Ausgangs- als insbesondere auch die Verlaufsbedingungen – mit Ausnahme der anzuwendenden Intervention – für alle Beobachtungseinheiten exakt gleich wären, sondern dass schließlich auch der Zufall als Erklärungsmöglichkeit vollständig eliminiert werden müsste. Diese Voraussetzungen sind in letzter Stringenz in keiner experimentellen Wissenschaft zu schaffen. Im Umkehrschluss bedeutet dies aber nicht, dass die Unmöglichkeit eines
Z. Evid. Fortbild. Qual. Gesundh. wesen 104 (2010) 642–647 www.elsevier.de/zefq
„theoretisch perfekten‘‘ unmittelbaren Kausalnachweises dazu führen könnte oder dürfte, postwendend dem Fatalismus zu erliegen und auch (Studien-) Ergebnisse für einen Nutzennachweis zu akzeptieren, bei denen eben nicht alle möglichen (d.h. machbaren) Anstrengungen unternommen wurden, andere Erklärungsmechanismen auszuschließen. Die Grundprinzipien solcher Anstrengungen umfassen im Wesentlichen den Vergleich mit einer Kontrollgruppe, die zufällige Zuteilung der Patienten zu den zu vergleichenden Interventionen (Randomisierung, inkl. Verdeckung [Concealment] des Randomisierungsschlüssels), die Verblindung der an einer Studie beteiligten Personen (inklusive der Patientinnen und Patienten) sowie die Auswertung aller initial in eine Studie eingeschlossenen Patientinnen und Patienten. Daneben gibt es weitere Aspekte, die im Einzelfall zu berücksichtigen sind [12]. Die Nicht-Erfüllung dieser Grundprinzipien wird auch als Verzerrungspotenzial bezeichnet. Speziell zur Randomisierung findet sich übrigens in einem Artikel aus dem Deutschen Ärzteblatt aus dem Jahr 2001 die folgende sehr zutreffende Feststellung: „Gäbe es eine Technik, die das Ziel der Strukturgleichheit genauso gut – oder eventuell sogar besser – erreicht wie die klassische randomisierte Studie, so spricht nichts dagegen, diese neue Methode einzusetzen. Randomisierung ist kein Selbstzweck. Derartige Modifikationen sind schon öfters diskutiert worden (. . .), haben sich aber bisher auf breiter Front nicht durchgesetzt‘‘ [13]. Dies hat auch im Jahr 2010 seine Gültigkeit nicht verloren.
Komponenten der Evidenzbasierung Evidenzbasierung im Sinne der Beurteilung von Ergebnissicherheit von Studienergebnissen hat also, wie oben beschrieben, sowohl ein qualitatives (Einschätzung des „Verzerrungspotenzials‘‘) als auch ein quantitatives Moment. Das quantitative Moment zeigt sich durch die gemeinsame Berücksichtigung der Größe eines beobachteten
Gruppenunterschieds (s.o., „dramatischer Effekt‘‘) und der statistischen Präzision, mit der man den entsprechenden Effektschätzer ableitet. Ist der beobachtete Unterschied zwischen zwei Behandlungsgruppen nur hinreichend groß im Vergleich zur beobachteten Varianz, wird er bei Überschreiten eines gewissen, vorab festgelegten Schwellenwertes als nicht mehr (allein) vom Zufall her erklärbar angesehen. Das ist das Grundprinzip des statistischen Hypothesentestens als Nachweis für das Vorliegen eines tatsächlichen Unterschieds. Theoretisch kann dieses Prinzip zwanglos auf das qualitative Moment angewendet werden: Ist der (beobachtete) Unterschied nur hinreichend groß im Vergleich zum Verzerrungspotenzial, dann wird er nicht mehr (allein) auf anderen Erklärungsmöglichkeiten beruhen als der der angewendeten Intervention. Für die praktische Anwendung taugt diese Analogie jedoch nur bedingt, da sich das Verzerrungspotenzial nicht in gleicher Weise wie der Zufallsfehler beim Hypothesentest quantifizieren lässt. Dennoch gibt es diesbezügliche Vorschläge: So empfiehlt die GRADE-Gruppe – eine internationale Arbeitsgruppe, die eine weit beachtete Methodik für die Erstellung von Leitlinien erarbeitet hat – auf einer fünfstufigen Skala der „Güte der Evidenz‘‘ beispielsweise eine Höherstufung um eine Stufe, wenn es sich zwar um Beobachtungsstudien (somit um Studien mit hohem Verzerrungspotenzial im Hinblick auf kausale Schlussfolgerungen) handelt, der beobachtete Unterschied aber mindestens einem relativen Risiko von 2 entspreche. Bei einem relativen Risiko von 5 könne die „Güte der Evidenz‘‘ sogar um 2 Stufen angehoben werden [14]. Hierfür wird allerdings immer vorausgesetzt, dass es sich um Beobachtungsstudien von „methodisch guter Qualität‘‘ handelt. Andere sehen bei einem relativen Risiko von 10 von der Notwendigkeit von der Beweisführung anhand von RCTs ab [15]. Gemeinsam ist diesen Vorschlägen, dass sie in erster Linie für die Einordnung der Größe eines Effekts Punktschätzer heranziehen und dabei das Konfidenzintervall des Schätzers außer
Z. Evid. Fortbild. Qual. Gesundh. wesen (ZEFQ) 104 (2010) 642–647 www.elsevier.de/zefq
Acht lassen (allerdings die Unterschiede für einen üblichen Hypothesentest auf „keinen Unterschied‘‘ statistisch signifikant sein müssen, bei [15] sogar zum 1%-Niveau). Da diese Vorschläge auf Simulationen bzw. Modellierungen beruhen, müsste ihre Tauglichkeit in der praktischen Anwendung eigentlich noch geprüft werden.
Patientenrelevante Endpunkte Sehr klar sind im Sozialgesetzbuch diejenigen Kriterien definiert, anhand derer ein Nutzen bzw. Zusatznutzen festgestellt werden soll. So heißt es im § 35b: „Beim Patienten-Nutzen sollen insbesondere die Verbesserung des Gesundheitszustandes, eine Verkürzung der Krankheitsdauer, eine Verlängerung der Lebensdauer, eine Verringerung der Nebenwirkungen sowie eine Verbesserung der Lebensqualität . . . berücksichtigt werden‘‘ [4]. Dies lässt sich im Prinzip auf die 3 Oberbegriffe Mortalität, Morbidität und Lebensqualität verkürzen, und es lässt sich eine weitere Anforderung an die Evidenz als Grundlage für Empfehlungen auf Systemebene formulieren: Entsprechende Studien müssen über Ergebnisse zu diesen (patientenrelevanten) Kriterien berichten. Surrogate sind offenbar zunächst nicht vorgesehen. Dessen ungeachtet, ist es sinnvoll, eine Ausnahme vorzusehen: Surrogatendpunkte können im Rahmen einer Nutzenbewertung ggf. dann als Beleg des (Zusatz-)Nutzens einer Intervention in Betracht gezogen werden, wenn zuvor anhand geeigneter statistischer Methoden gezeigt wurde, dass der Effekt von Interventionen mit vergleichbarem Wirkmechanismus auf den zu ersetzenden patientenrelevanten Endpunkt durch den Effekt auf den Surrogatendpunkt in einem ausreichenden Ausmaß erklärt wird [16]. Wenn es über die „einfache‘‘ Nutzenbewertung hinaus um die Bewertung eines Zusatznutzens einer z.B. neuen Therapie gegenüber einer etablierten Standardtherapie geht, gelten allgemein direkte Vergleichsstudien (Head-to-head-Studien) als Evidenzquelle der Wahl. In der Realität mangelt
645
es jedoch in vielen Fällen an direkt vergleichenden Studien zwischen einzelnen Arzneimitteln oder zwischen Arzneimitteln und potenziellen nichtmedikamentösen Alternativen, so dass entscheidende Fragen nach einem (patientenrelevanten) Zusatznutzen häufig – wenn überhaupt – nur indirekt beantwortet werden könnten. Die dafür erforderliche Methodik ist allerdings noch nicht ausgreift [17–19]. Ihre theoretische Fundierung ist höchst komplex, und sie erfordert zudem, dass die den indirekten Vergleichen zugrundeliegenden klinischen Studien mit einem besonders geringen Verzerrungspotenzial behaftet sind [20].
Systematik und Regeln als Wissenschaftsverständnis Ebenso wenig, wie Evidenzbasierung eine bloße Reduktion auf RCTs darstellt, ist sie auch kein „alter Wein in neuen Schläuchen‘‘. Sie bedeutet vielmehr eine Synthese aus den Lehren der klinischen Epidemiologie im Hinblick auf die Angemessenheit und Interpretierbarkeit bestimmter Studiendesigns für spezifische Fragestellungen und einer systematischen, d.h. transparenten und damit reproduzierbaren, sowie auf Vollständigkeit des verfügbaren Wissens ausgerichteten Vorgehensweise. Dies zusammengenommen entspricht der Methodik einer so genannten systematischen Übersicht, die ihrerseits die zentrale Basis für eine Gesundheitstechnologiebewertung (Health Technology Assessment, HTA) ist. Dabei ist die Untersuchungs- bzw. Beobachtungseinheit in der Regel nicht mehr die einzelne Versuchsperson, sondern die (klinische) Studie. Genau wie bei den zugrunde liegenden klinischen Studien wird das Vorgehen der systematischen Bewertung a priori in einem Protokoll beschrieben (z.B. im Jargon des IQWiG als „Berichtsplan‘‘ bezeichnet). In der Kombination aus Systematik und „Zweifel‘‘ (Skeptizismus) speist sich der wissenschaftliche Anspruch dieses Ansatzes [21]. Idealerweise ist Wissenschaft objektiv (unvoreingenommen) und unabhängig (nicht durch Interessen gesteuert).
646
Da Wissenschaftlerinnen und Wissenschaftler jedoch auch nur Menschen mit ihren Überzeugungen sind, bedarf der Aspekt der Unvoreingenommenheit spezieller Schutzmechanismen. Ein sehr einfacher diesbezüglicher Schutzmechanismus ist die Etablierung expliziter Regeln, an deren Einhaltung oder Nicht-Einhaltung die (Un-) Voreingenommenheit im Zweifel gemessen werden kann. Auch wenn beispielsweise an der Angemessenheit des allgemein üblichen Signifikanzniveaus für statistische Hypothesentests von (zweiseitig) 5% in vielen Fällen gezweifelt werden mag, so hat sich diese „Regel‘‘ doch bewährt. Wie sehr wäre man anderenfalls geneigt, auch knappes Verfehlen des 5%-Niveaus dennoch als „Beweis‘‘ für einen Effekt zu bewerten, wenn das Ergebnis der eigenen Überzeugung entspricht. Falls dagegen eine Situation vorab als „besonders‘‘ eingeschätzt wird (z.B. der Fall sehr seltener Erkrankungen), dann können und sollten die Regeln a priori vor Kenntnis der Daten entsprechend modifiziert werden [11]. Eine nachträgliche „Anpassung‘‘ ist dagegen immer dubios und bedarf einer sorgfältigen Begründung. Das heißt umgekehrt nicht, dass EbM, EbHC, HTA oder wie immer man es auch nennen mag, ein reines Abarbeiten von Prüfpunkten oder Checklisten darstellt. Dadurch, dass sich entsprechende Bewertungen immer auf eine Sekundärnutzung von Primärdaten anderer stützen müssen, lassen sich die anzuwendenden Regeln a priori nicht erschöpfend bis in jedes Detail hinein aufstellen. So ist es z.B. wünschenswert, (patientenrelevante) Endpunkte für Nutzenbewertungen bereits im Protokoll zu definieren. Typischerweise werden in klinischen Studien aber häufig kombinierte Endpunkte verwendet [22]. Es ist zumeist nicht leistbar, alle Kombinationsmöglichkeiten von Endpunkten vorherzusehen. Ggf. bedeutete es sogar einen Zielkonflikt, vor Protokollerstellung zunächst typische Endpunktkombinationen zu identifizieren, da dann ja das Aufstellen einer diesbezüglichen Regel nicht mehr in Unkenntnis der Daten erfolgen könnte. Umgekehrt könnte es u.U. ebenso kontraproduktiv sein, eine bestimmte
Endpunktkombination allein deshalb aus der Bewertung auszuschließen, nur weil sie im Protokoll für die Nutzenbewertung nicht definiert wurde, auch wenn sie klinisch sinnvoll ist. Natürlich lassen sich nun wieder auch für die Bewertung der Angemessenheit von Endpunktkombinationen Regeln formulieren [23], doch auch diese decken ihrerseits meist nicht alle Spezialfälle ab.
Fazit Angesichts der im Popper’schen Sinne beschriebenen Unmöglichkeit der „Wahrheitsfindung‘‘ und der Notwendigkeit des Rückgriffs auf die wissenschaftlichen Resultate anderer gilt es also, eine Balance zu finden, zwischen angebrachtem Skeptizismus auf der einen und einer unangemessen überkritischen Haltung auf der anderen Seite. In einem guten Regelwerk sollten dementsprechende Methoden definiert werden, die erstens belastbare Regeln für Standardsituationen enthalten, aus denen sich zweitens aber auch Regeln für spezifische Situationen ableiten lassen (Protokoll), und die drittens die notwendige Flexibilität für einen tatsächlichen und dringlichen Ausnahmefall ermöglichen.
Erklärung zu potenziellen Interessenkonflikten Die Autoren erklären, dass sie im Zusammenhang mit den Inhalten ihrer Arbeit keinerlei finanzielle Interessenkonflikte haben. Eine finanzielle Unterstützung durch Dritte erfolgte nicht.
Literatur [1] Köbberling J. Der Wissenschaft verpflichtet. Med Klin 1997;92:181–9. [2] IQWiG. http://www.iqwig.de/. Letzter Zugriff am 20.07.2010. [3] G-BA. http://www.g-ba.de/. Letzter Zugriff am 20.07.2010. [4] Deutscher Bundestag (2007). BT-Drucksache 16/4247. [5] Sackett DL, Rosenberg WM, Gray JA, Haynes RB, Richardson WS. BMJ 1996;312:71–2.
Z. Evid. Fortbild. Qual. Gesundh. wesen 104 (2010) 642–647 www.elsevier.de/zefq
[6] Bekkering GE, Kleijnen J. Procedures and methods of benefit assessments for medicines in Germany. Eur J Health Econ 2008;9(Suppl 1):S5–29. [7] Higgins JPT, Green S (editors). Cochrane Handbook for Systematic Reviews of Interventions Version 5.0.2 [updated September 2009]. The Cochrane Collaboration, 2009. Verfügbar unter http://www.cochrane-handbook.org. Letzter Zugriff am 20.07.2010. [8] Norris S, Atkins D, Bruening W, et al. Selecting observational studies for comparing medical interventions. In: Agency for Healthcare Research and Quality. Methods Guide for Comparative Effectiveness Reviews [posted June 14th 2010]. Rockville, MD. Verfügbar unter: http://effectivehealthcare.ahrq.gov/index. cfm/search-for-guides-reviews-and-reports/ ?pageaction=displayProduct&productID= 454. Letzter Zugriff am 20.07.2010. [9] Windeler J. Bedeutung randomisierter klinischer Studien mit relevanten Endpunkten für die Nutzenbewertung. In: Gesundheitsforschungsrat (GFR) des Bundesministeriums für Bildung und Forschung (BMBF) (Ed). Begriffsdefinitionen und Einführung Dokumentation des ersten gemeinsamen Workshops von GFR und IQWiG am 4. September 2007 in Berlin. Bonn: Gesundheitsforschungsrat (GFR) des Bundesministeriums für Bildung und Forschung (BMBF); 2007; 26–31.
[10] Gemeinsamer Bundesausschuss (2009). Verfahrensordnung des Gemeinsamen Bundesausschusses. Bundesanzeiger Nr. 84a vom 10.06.2009. [11] Windeler J, Lange S. Nutzenbewertung in besonderen Situationen – Seltene Erkrankungen. Z Evid Fortb Qual Gesundhwes 2008;102:25–30. [12] Windeler J, Lange S. Methodische Anforderungen an klinische Studien und ihre Interpre-tation. Bundesgesundheitsbl Gesundheitsforsch Gesundheitsschutz 2009;52:394–401. [13] Schuck P, Müller H, Resch K-L. Wirksamkeitsprüfung: ,,Doppelblindstudien‘‘ und komplexe Therapien. Dt Ärztebl 2001; 98: A 1942–4. [14] Schünemann HJ, Fretheim A, Oxman AD. Improving the use of research evidence in guideline development: 9. Grading evidence and recommendations. Health Res Policy Syst 2006;4:21. [15] Glasziou PP, Chalmers I, Rawlins M, McCulloch P. When are randomised trials unnecessary? Picking signal from noise. BMJ 2007;334:349–51. [16] Weir CJ, Walley RJ. Statistical evaluation of biomarkers as surrogate endpoints: a literature review. Statist Med 2006;25: 183–203. [17] Gartlehner G, Moore CG. Direct versus indirect comparisons: A summary of the
Mark your calendars:
[19]
[20]
[21]
[22]
[23]
ZEFQ-Service: Ankündigung
8th G-I-N Conference
The 8th G-I-N Conference will take place in Seoul, South Korea (World Design Capital 2010) on 28-31 August 2011.
[18]
evidence. Int J Technol Assess Health Care 2008;24:170–7. Lu G, Ades AE. Assessing evidence inconsistency in mixed treatment comparisons. J Am Stat Assoc 2006;101:447–59. Song F, Loke YK, Walsh T, Glenny AM, Eastwood AJ, Altman DG. Methodological problems in the use of indirect comparisons for evaluating healthcare interventions: Survey of published systematic reviews. BMJ 2009;338:b1147. Song F, Altman DG, Glenny AM, Deeks JJ. Validity of indirect comparison for estimating efficacy of competing interventions: empirical evidence from published meta-analyses. BMJ 2003;326:472. Hofmann W. Wissenschaft und Technologie. In: Universität, Ideologie und Gesellschaft – Beiträge zur Wissenssoziologie (Hofmann W, Hrsg.). Suhrkamp 1968. Frankfurt a. Main. Freemantle N, Calvert M, Wood J, Eastaugh J, Griffin C. Composite outcomes in randomized trials: greater precision but with greater uncertainty? JAMA 2003;289:2554–9. Montori VM, Permanyer-Miralda G, Ferreira-Gonzalez I, Busse JW, PachecoHuergo V, Bryant D, et al. Validity of composite end points in clinical trials. BMJ 2005;330:594–6.
Abstracts submission will open in December 2010 and close in February 2011 Pre-conference courses will take place on 28 August 2011
Z. Evid. Fortbild. Qual. Gesundh. wesen (ZEFQ) 104 (2010) 642–647 www.elsevier.de/zefq
http://www.g-i-n.net/events/8th-conference http://www.gin2011.org/
647