Z. Evid. Fortbild. Qual. Gesundh. wesen (ZEFQ) (2012) 106, 369—376
Online verfügbar unter www.sciencedirect.com
journal homepage: www.elsevier.de/zefq
GRADE
GRADE-Leitlinien: 2. Formulierung der Fragestellung und Entscheidung über wichtige Endpunkte夽 GRADE Guidelines: 2. Framing the question and deciding on important outcomes Gero Langer 1,∗, Joerg J. Meerpohl 2, Matthias Perleth 3, Gerald Gartlehner 4, Angela Kaminski-Hartenthaler 4, Holger Schünemann 5 1
Institut für Gesundheits- und Pflegewissenschaft, Medizinische Fakultät der Martin-Luther-Universität Halle-Wittenberg Deutsches Cochrane Zentrum, Institut für Medizinische Biometrie und Medizinische Informatik, Abteilung für Medizinische Biometrie und Statistik, Universitätsklinikum Freiburg und Klinik IV: Pädiatrische Hämatologie & Onkologie, Zentrum für Kinder- und Jugendmedizin, Universitätsklinikum Freiburg 3 Abteilung Fachberatung Medizin, Gemeinsamer Bundesausschuss, Berlin 4 Donau-Universität Krems, Department für Evidenzbasierte Medizin und Klinische Epidemiologie, Krems, Österreich 5 Department of Clinical Epidemiology & Biostatistics, McMaster University Health Sciences Centre, Hamilton, Kanada 2
SCHLÜSSELWÖRTER GRADE; PICO; Patientenrelevante Endpunkte; Surrogatendpunkte; Leitlinienentwicklung; Qualität der Evidenz; Indirektheit
夽
∗
Zusammenfassung GRADE fordert eine eindeutige Festlegung der Population, der Intervention, der Vergleichsintervention und aller wichtigen Endpunkte sowie des relevanten Settings — unabhängig davon, ob die Evidenz zur Beantwortung der Fragestellung in Studien vorliegt oder nicht. Für eine bestimmte klinische Fragestellung sollten die Population, die Intervention und der Endpunkt in den herangezogenen Studien ausreichend ähnlich sein, damit ein ähnlicher Effekt plausibel ist. Entwickler von Leitlinien sollten die relative Wichtigkeit der Endpunkte vor der Sammlung der Evidenz festlegen und diese relative Wichtigkeit nochmals überprüfen, wenn die Synthese der Evidenz komplettiert ist. Bei der Betrachtung der Wichtigkeit eines Surrogatendpunkts sollten die Autoren die Wichtigkeit des für den Patienten relevanten Endpunkts, für den der Surrogat-Endpunkt steht, beurteilen und im Weiteren die Qualität der Evidenz eventuell wegen der Indirektheit des Endpunkts herabstufen.
Übersetzt und adaptiert von: Guyatt GH, Oxman AD, Kunz R, Atkins D, Brozek J, Vist G, Alderson P, Glasziou P, Falck-Ytter Y, Schunemann HJ. GRADE guidelines 2. Framing the question and deciding on important outcomes. J Clin Epidemiol. 2011; 64:395—400. Korrespondenzadresse. Jun.-Prof. Dr. Gero Langer, Institut für Gesundheits- und Pflegewissenschaft, Medizinische Fakultät der Martin-Luther-Universität Halle-Wittenberg, Magdeburger Straße 8, 06112 Halle (Saale). Tel.: 0345 557 44 54; Fax: 0345 557 44 85. E-Mail:
[email protected] (G. Langer).
1865-9217/$ – see front matter http://dx.doi.org/10.1016/j.zefq.2012.05.018
370
KEY WORDS GRADE; PICO; patient-important outcomes; surrogate; guideline development; quality of evidence; indirectness
G. Langer et al. Summary GRADE requires a clear specification of the relevant setting, population, intervention, and comparator. It also requires specification of all important outcomes - whether evidence from research studies is, or is not, available. For a particular management question, the population, intervention, and outcome should be sufficiently similar across studies so that a similar magnitude of effect is plausible. Guideline developers should specify the relative importance of the outcomes before gathering the evidence and again when evidence summaries are complete. In considering the importance of a surrogate outcome, authors should rate the importance of the patient-important outcome for which the surrogate is a substitute and subsequently rate down the quality of evidence for indirectness of outcome.
Einleitung Kasten 1: Fragen zur Prognose in Leitlinien Im ersten Artikel dieser Serie wurden GRADE, das GRADEEvidence-Profil und die Summary-of-Findings-Tabelle zur Unterstützung bei Entscheidungen im Gesundheitswesen vorgestellt. In diesem zweiten Artikel wird der GRADEAnsatz zur Formulierung einer relevanten Fragestellung für systematische Übersichtsarbeiten und Leitlinien sowie die Auswahl der relevanten Endpunkte und die Entscheidung über deren relative Wichtigkeit diskutiert. Der Schwerpunkt liegt auf konzeptionellen Überlegungen: In späteren Artikeln wird dargestellt, wer genau welche Aufgaben übernehmen sollte.
Strukturierte Fragen in der Patientenversorgung Dieser Artikel konzentriert sich auf Fragestellungen über Auswirkungen von Interventionen. Leitlinienentwickler werden allerdings normalerweise auch wichtige Fragen zu Prognose, Prävalenz und anderen Themen haben, die eine andere Struktur der Frage erfordern als Fragen zum Patientenmanagement (siehe Kasten 1).
Die Formulierung von Fragen beinhaltet das Festlegen der Patientengruppe, der Intervention, der Vergleichsintervention und der Endpunkte — manchmal auch des Settings Eine weit verbreitete Methode zur Formulierung von Fragen zu alternativen Handlungsstrategien in systematischen Übersichtsarbeiten erfordert eine sorgfältige Festlegung der Population, der interessierenden Intervention, der Vergleichsintervention und der interessierenden Endpunkte. Der Vorteil dieser Methode — allgemein als PICO (Population/Intervention/Comparator/Outcome)1 bekannt — als Hilfe beim Entwickeln zielgerichteter Empfehlungen wird zunehmend nicht nur von Autoren systematischer Übersichtsarbeiten, sondern auch von Leitlinienentwicklern erkannt [1]. Eine Fragestellung in Leitlinien beinhaltet häufig noch eine andere Angabe: Das Setting, in dem die Leitlinie implementiert werden soll. Beispielsweise werden Leitlinien, die für ressourcenreiche Settings erstellt wurden, häufig nicht
1
dt. PIKE: Population/Intervention/Komparator/Endpunkt.
GRADE bietet bislang keine formale Struktur, um die Qualität der Evidenz in Hinblick auf prognostische Fragen zu beurteilen. Nichtsdestotrotz sind diese Fragen oftmals wichtig bei der Entwicklung von Leitlinien. Um beispielsweise Interventionen, die die Endpunkte bei Grippe oder bei Multipler Sklerose beeinflussen, zu bearbeiten, ist es nötig, den natürlichen Verlauf der Erkrankungen einzuschätzen. Dies beinhaltet die Beschreibung der Population (Grippe oder neu aufgetretene Multiple Sklerose) und des Endpunkts (Mortalität oder Rückfallrate und Progression). Solche Fragen zur Prognose können weiter spezifiziert werden durch die Berücksichtigung verschiedener Prädiktoren wie Alter, Geschlecht oder Schweregrad. Die Antworten auf diese Fragen können ein wichtiger Hintergrund bei der Formulierung von Empfehlungen und der Interpretation der Evidenz zu Behandlungseffekten sein. Insbesondere müssen Leitlinienentwickler entscheiden, ob die Prognose von Patienten in der interessierenden Population vergleichbar ist mit der von Patienten, die in den Studien untersucht wurden, und ob es wichtige prognostische Subgruppen gibt, die bei der Erstellung von Empfehlungen berücksichtigt werden sollten. auf ressourcenarme Settings übertragbar sein. Im ersten Teil dieser Serie wurde ein Evidenzprofil zur Wirksamkeit von Antibiotika bei Otitis media vorgestellt. Die Ergebnisse sind auf Länder mit hohem und mittlerem Einkommen übertragbar, bei denen das Risiko einer Progression zur Mastoiditis sehr niedrig ist. Die schwierigste Entscheidung bei der Formulierung der Fragestellung ist, wie breit man die Patienten und Interventionen definiert. Man könnte zum Beispiel hinsichtlich von Thrombozytenaggregationshemmern bei vaskulären Erkrankungen nur Patienten mit transitorischen ischämischen Attacken einschließen, oder nur diejenigen mit ischämischen Attacken und Schlaganfällen oder aber diejenigen mit irgendeiner Gefäßerkrankung (zerebral, kardial oder peripher). Die Intervention könnte ein relativ enger Dosierungsbereich von Aspirin, alle Dosierungen von Aspirin oder alle Thrombozytenaggregationshemmer sein. Auf welcher Grundlage sollten Autoren von systematischen Übersichtsarbeiten oder Entwickler von Leitlinien diese Entscheidung treffen? Die zugrunde liegende Biologie sollte nahelegen, dass — über das gesamte Spektrum der
GRADE-Leitlinien: 2. Formulierung der Fragestellung und Entscheidung über wichtige Endpunkte Patienten und Interventionen — die Größe des Effekts in Hinblick auf die wichtigsten Endpunkte ähnlich ist. Wenn dies nicht der Fall ist, wird die Übersichtsarbeit oder Leitlinie irreführende Schätzungen für mindestens eine Subgruppe von Patienten oder Interventionen erzeugen. Wenn Thrombozytenaggregationshemmer beispielsweise unterschiedlich wirksam sind bei Patienten mit peripherer vaskulärer Erkrankung im Vergleich zu Patienten mit Herzinfarkt (wie in einer Studie [2] mit Clopidogrel im Vergleich zu Aspirin, in der die beiden genannten Patientengruppen eingeschlossen wurden), würde ein einzelner Effektschätzer für das gesamte Spektrum an Patienten und Interventionen sowohl den Patienten als auch den Klinikern bei der Entscheidung nicht sehr helfen. Das Gleiche würde zutreffen, wenn verschiedene Thrombozytenaggregationshemmer verschieden starke Effekte hätten. Häufig — und zu Recht — wird in systematischen Übersichtsarbeiten bei der möglicherweise komplizierten Frage, welche Breite an Patienten und Interventionen man wählt, so vorgegangen, dass zu Beginn eine breite Frage gewählt wird, wobei allerdings a priori Subgruppen-Effekte spezifiziert werden, die ggfs. auftretende Heterogenität erklären können. Diese Hypothesen können auf Patienten (z.B. unterscheiden sich die Effekte zwischen Patienten mit transitorischer ischämischer Attacke und Schlaganfall und Patienten mit koronarer oder peripherer Gefäßerkrankung) oder Interventionen (z.B. zwischen hoch dosiertem und niedrig dosiertem Aspirin oder Aspirin und anderen Thrombozytenaggregationshemmern) zutreffen. A priori-Annahmen können sich ebenfalls auf die Wahl der Vergleichsintervention (z.B. unterscheiden sich die Effekte von Amiodaron auf die Sinusrhythmus-Konversion bei Patienten mit Vorhofflimmern je nachdem, ob mit einem Placebo oder mit einem aktiven Wirkstoff, der die Rückkehr zum Sinusrhythmus wahrscheinlich nicht beeinflusst, verglichen wird [3]), des Endpunkts (beispielsweise unterscheidet sich der Effekt eines Blutdrucksenkers je nachdem, ob vaskuläre Ereignisse in zerebralen oder myokardialen Blutgefäßen betrachtet werden) oder die Methodik (z.B. zeigen Studien mit hohem Biasrisiko andere Effekte als Studien mit niedrigem Biasrisiko) beziehen. Auf das Problem der SubgruppenEffekte wird ein weiterer Artikel in dieser Serie näher eingehen [4]. Manchmal gibt es mehrere Vergleichsinterventionen zu einer Intervention, wodurch gewisse Herausforderungen entstehen. Zum Beispiel spricht die Europäische Gesellschaft für Kardiologie Empfehlungen zur Verwendung von Antikoagulantien bei Patienten mit akutem koronarem Syndrom ohne ST-Hebung, die eine konservative (nicht-invasive) Behandlung erhalten, aus [5]. Fondaparinux wird mit 1A, Heparin mit 1C und Enoxaparin mit 2A/B bewertet. Vermutlich sind dies Empfehlungen für den Gebrauch dieser Medikamente im Vergleich zu keiner Antikoagulation. Aber impliziert dies auch eine hierarchische Präferenz von Fondaparinux über Heparin über Enoxaparin? Klarheit in der Wahl der Vergleichsinterventionen führt zu besser interpretierbaren Leitlinien — und ein Mangel an Klarheit kann Verwirrung stiften. Manchmal ist die Vergleichsintervention offensichtlich — falls jedoch nicht, sollten Leitliniengremien die Vergleichsinterventionen explizit benennen. Insbesondere dann, wenn mehrere Medikamente betrachtet werden, sollten Leitliniengremien
371
genau spezifizieren, ob die Empfehlung zu dem Schluss kommt, dass alle Medikamente gleichberechtigt empfohlen werden oder aber, dass manchen Medikamenten der Vorzug gegeben werden sollte.
Formulierung einer bezogen auf Patientensubgruppen hinreichend spezifischen Fragestellung Weil das relative Risiko, das mit einer Intervention im Vergleich zu einer spezifischen Vergleichsintervention assoziiert ist, normalerweise über ein breites Spektrum an Basisrisiken ähnlich ist, wird es üblicherweise in systematischen Übersichtsarbeiten verwendet, um einen einzelnen gepoolten Effektschätzer für eine große Bandbreite an PatientenSubgruppen zu erhalten [6—8]. Zum Beispiel ist die relative Risikoreduktion für mit Statinen assoziierte vaskuläre Ereignisse ähnlich bei Patienten mit und ohne zugrunde liegende Gefäßerkrankung; auch die relative Risikoreduktion für Warfarin im Vergleich zu keiner anti-thrombotischen Therapie plus Aspirin scheint sich bei Patienten mit Vorhofflimmern mit niedrigem und hohem Schlaganfallrisiko nicht wesentlich zu unterscheiden. Die Empfehlungen können sich jedoch für Subgruppen von Patienten mit unterschiedlichen Basis-Risiken für einen Endpunkt unterscheiden, ungeachtet des stabilen relativen Risikos, das für alle gleich ist. Beispielsweise ist eine Warfarin-Therapie, die mit Unannehmlichkeiten und einem höherem Risiko schwerer Blutungen verbunden ist, bei Patienten mit Vorhofflimmern und hohem Schlaganfallrisiko wesentlich klarer indiziert als bei Patienten mit einem geringen Risiko für Schlaganfall [9]. Absolute Risikoreduktionen sind bei Hochrisikopatienten größer und rechtfertigen damit, ein erhöhtes Risiko für Nebenwirkungen und Unannehmlichkeiten in Kauf zu nehmen. Die Qualität der Evidenz kann sich ebenso zwischen Subgruppen unterscheiden, was unterschiedliche Empfehlungen rechtfertigen kann (mit größerer Wahrscheinlichkeit wird eine Intervention empfohlen oder eine starke Empfehlung ausgesprochen, wenn die Qualität höher ist). Daher müssen Leitliniengremien oftmals separate Fragestellungen für Hoch- und Niedrigrisikopatienten definieren (und verschiedene Evidenzprofile erstellen), wie auch für Patientengruppen, für die die Evidenzqualität verschieden ist, auch wenn sie ggfs. in einer einzelnen Meta-Analyse eingeschlossen sind.
Festlegung der Endpunkte: Sicherstellung eines angemessenen Umfangs Viele, wenn nicht gar die meisten systematischen Übersichtsarbeiten versäumen es, wichtige Endpunkte zu berücksichtigen. Das trifft insbesondere auf Nachteile oder Schaden zu, die mit einer Intervention in Verbindung stehen. Systematische Übersichtsarbeiten können sich sogar ausschließlich auf einen Endpunkt konzentrieren, wie zum Beispiel in systematischen Übersichtsarbeiten, die die Wirkung von Statinen bei Schlaganfall [10] oder Vitamin D bei nicht-vertebralen Frakturen untersucht haben [11]. Leitliniengremien müssen eine breitere Perspektive einnehmen. Sinnvolle Empfehlungen erfordern die Berücksichtigung aller
372
G. Langer et al.
Abbildung 1 Rangfolge der Endpunkte entsprechend ihrer Wichtigkeit, um die Wirkung phosphatsenkender Medikamente bei Patienten mit Niereninsuffizienz und Hyperphosphatämie einzuschätzen.
für die Patienten wichtigen Endpunkte. Zudem müssen manchmal Endpunkte berücksichtigt werden, die für andere bedeutsam sind, beispielsweise Ressourcennutzung für Krankenkassen, Auswirkungen auf diejenigen, die Patienten pflegen oder Einfluss auf die öffentliche Gesundheit (zum Beispiel die Ausbreitung von Infektionen oder AntibiotikaResistenzen). Falls es zu einem wichtigen Endpunkt keine Evidenz gibt, sollte dies beschrieben werden, anstatt den Endpunkt zu ignorieren — diese Unsicherheit könnte die endgültige Empfehlung entscheidend beeinflussen. Bei der Entscheidung über Empfehlungen zu Statinen für Patienten mit Schlaganfallrisiko werden nicht nur die Auswirkungen auf Schlaganfall, sondern auch auf andere vaskuläre Ereignisse ebenso wie Nebenwirkungen z.B. Rhabdomyolyse und Leberschädigung mit einbezogen; Empfehlungen zu Vitamin D müssen sowohl Wirbelfrakturen als auch mögliche Vorteile bei der Krebsprävention berücksichtigen. Endpunkte, die Leitliniengremien bei den meisten Empfehlungen berücksichtigen sollten, umfassen Morbidität, Mortalität und Nebenwirkungen. In der Regel sind auch andere Endpunkte wie Krankenhausaufenthalt, Funktionsfähigkeit, Behinderung, Lebensqualität, Unannehmlichkeit und Aufwand wichtig. Weil die meisten systematischen Übersichtsarbeiten bisher nicht die Evidenz für alle wichtigen Endpunkte zusammenfassen, müssen Leitliniengremien häufig entweder mehrere systematische Übersichtsarbeiten aus unterschiedlichen Quellen verwenden oder aber ihre eigenen systematischen Übersichtsarbeiten erstellen.
Wichtigkeit von Endpunkten: Drei Kategorien Leitliniengremien, die GRADE verwenden, werden die Wichtigkeit der Endpunkte in drei Schritten beurteilen (Tabelle 1). In diesem Artikel werden die ersten beiden Schritte vorgestellt, nachfolgende Artikeln befassen sich mit dem dritten Schritt — der Beurteilung der Ausgewogenheit von erwünschten und unerwünschten Auswirkungen einer Intervention.
Leitlinienentwickler müssen — und Autoren von systematischen Übersichtsarbeiten werden im Idealfall ebenfalls — alle potenziell für Patienten wichtigen Endpunkte als ersten Schritt ihres Vorhabens festlegen. Diejenigen, die GRADE zur Leitlinienentwicklung einsetzen, werden auch eine vorläufige Einstufung der Endpunkte als »kritisch«, als »wichtig, aber nicht kritisch« und als »weniger wichtig« für die Empfehlung vornehmen. Die ersten beiden Kategorien beinhalten offensichtlich die Endpunkte, die für die Leitlinienempfehlungen wichtig sind, Endpunkte der dritten Kategorie eher nicht. Leitlinienentwickler können hierfür 9-Punkte-Skalen verwenden und die Endpunkte numerisch auf einer solchen Skala von 1 bis 9 einstufen (7-9 kritisch für Entscheidung, 4-6 wichtig, 1-3 weniger wichtig), um zwischen den Kategorien der Wichtigkeit zu differenzieren (Abb. 1). Die Rangfolge der Endpunkte nach relativer Wichtigkeit kann dabei helfen, den Fokus auf diejenigen Endpunkte zu legen, die als am wichtigsten eingeschätzt wurden; zudem kann diese Rangfolge helfen, Unstimmigkeiten aufzuklären und zu lösen. Zum Beispiel deutet Abbildung 1 an, dass Blähungen von geringer Bedeutung für die Patienten sind. Falls die Blähungen allerdings hartnäckig oder schwerwiegend sind, kann dies möglicherweise nicht mehr der Fall sein. In weiteren Artikeln dieser Serie wird die Notwendigkeit, zwischen kritischen und wichtigen Endpunkte zu unterscheiden, ausführlich diskutiert werden. Fürs Erste genügt es zu sagen, dass Entscheidungen hinsichtlich der Gesamtqualität der Evidenz für eine Empfehlung davon abhängig sein können, welche Endpunkte als kritisch für die Entscheidungsfindung (also diejenigen, die mit 7, 8 oder 9 auf der bereits erwähnten 9-PunkteSkala bewertet wurden) eingestuft wurden und welche nicht. Zum Beispiel kann ein Leitliniengremium entscheiden, dass die Gesamtqualität der Evidenz für alle bis auf einen Endpunkt hoch ist und dass für diesen einen Endpunkt nur Evidenz niedriger Qualität verfügbar ist. GRADE schlägt vor, dass die Gesamtqualität der Evidenz dann im Allgemeinen als niedrig eingestuft wird, wenn dieser eine Endpunkt als kritisch für die Entscheidung eingestuft wurde. Wenn das
GRADE-Leitlinien: 2. Formulierung der Fragestellung und Entscheidung über wichtige Endpunkte Tabelle 1
373
Drei Schritte zur Beurteilung der relativen Wichtigkeit von Endpunkten.
Schritt
Was
Warum
Wie
Evidenz
1
vorläufige Klassifikation von Endpunkten als »kritisch«, »wichtig, aber nicht kritisch« oder »weniger wichtig« vor der Sichtung der Evidenz
Um die Aufmerksamkeit auf jene Endpunkte zu richten, die bei der Suche und Zusammenstellung der Evidenz als am wichtigsten erachtet werden, und um Unstimmigkeiten zu lösen oder zu erklären
Diese Einschätzungen können auf der Erfahrung der Gremienmitglieder, von Patienten und von Dritten basieren. Vorhandenes Wissen über die Studienlage oder — im Idealfall — eine systematische Übersichtsarbeit zu diesem Thema ist wahrscheinlich sehr hilfreich
2
Neubewertung der relativen Wichtigkeit der Endpunkte nach Sichtung der Evidenz
Um sicherzustellen, dass wichtige Endpunkte aus den gefundenen Übersichtsarbeiten, die anfangs nicht beachtet wurden, berücksichtigt werden und um die relative Wichtigkeit der Endpunkte im Lichte der vorhandenen Evidenz zu überdenken
3
Beurteilung der Ausgewogenheit von erwünschten und unerwünschten Wirkungen einer Intervention
Um eine Empfehlung zu geben und die Stärke der Empfehlung zu ermitteln
Durch Befragung der Gremienmitglieder und möglicherweise Patienten oder allgemein Personen der Bevölkerung, um wichtige Endpunkte zu identifizieren, die relative Bedeutung der Endpunkte zu bewerten und Unstimmigkeiten zu diskutieren Durchführung einer systematischen Übersichtsarbeit der entsprechenden Literatur Durch Befragung der Gremienmitglieder (und, wenn sinnvoll, von Patienten und anderen Personen der Bevölkerung) werden die relative Wichtigkeit der Endpunkte, die im ersten Schritt eingeschlossen wurden, und jedes zusätzlichen Endpunkts, der durch die Sichtung der Evidenz identifiziert wurde, überprüft Durch Befragung der Gremienmitglieder (und, wenn sinnvoll, von Patienten und anderen Personen der Bevölkerung), um die Ausgewogenheit zwischen erwünschten und unerwünschten Wirkungen mit Hilfe einer Übersicht (Summary-of-FindingsTabelle) zu beurteilen und, falls relevant, durch Nutzung einer Entscheidungsanalyse oder einer ökonomische Analyse
Leitliniengremium eher glaubt, dass dieser eine Endpunkt wichtig, aber nicht kritisch ist, wird die Gesamtqualität der Evidenz für die entsprechende Empfehlung auf der Basis der kritischen Endpunkte als »hohe Qualität« bewertet. Spätere Artikel in dieser Serie werden Sonderfälle dieser Vorgehensweise beschreiben.
Erfahrung der Gremienmitglieder und anderer Experten sowie systematische Übersichtsarbeiten zu den Wirkungen der Intervention
Erfahrung der Gremienmitglieder und anderer Experten, systematische Übersichtsarbeiten zu den Wirkungen der Intervention, Evidenz für den Wert, den Patienten Schlüssel-Endpunkten beimessen (falls relevant und vorhanden) sowie Entscheidungsanalysen oder ökonomische Analysen (falls relevant und verfügbar)
Wichtigkeit der Endpunkte: Einfluss der Perspektive Die Bedeutung der Endpunkte variiert wahrscheinlich innerhalb und zwischen verschiedenen Kulturen oder je nach Perspektive zwischen Patienten, Klinikern oder
374 Entscheidungsträgern. Leitliniengremien müssen sich entscheiden, welche Perspektive sie einnehmen. Obgleich verschiedene Gremien sich dazu entschließen können, verschiedene Sichtweisen zu berücksichtigen (beispielsweise die von individuellen Patienten, die von externen Geldgebern oder eine gesellschaftliche Perspektive), sollte die relative Wichtigkeit der Endpunkte die Sicht der Betroffenen widerspiegeln. Wenn die Zielgruppe für eine Leitlinie Kliniker mit den von ihnen behandelten Patienten sind, würde die Sichtweise im Allgemeinen die von Patienten sein. Ein nachfolgender Artikel dieser Serie geht näher auf die Perspektive in Bezug auf Ressourcennutzung ein.
Wichtigkeit der Endpunkte: Nutzung der Evidenz Vor Kurzem hat ein Leitliniengremium, das durch das American College of Chest Physicians (ACCP) gefördert wird, die neunte Auflage der ACCP Antithrombose-Leitlinie fertiggestellt. Als Teil dieses Prozesses wurde eine systematische Übersichtsarbeit zu den Werten und Präferenzen von Patienten hinsichtlich einer antithrombotischen Therapie erstellt. Erkenntnisse aus dieser Übersichtsarbeit umfassen die erstaunliche Variabilität der Wertvorstellungen von Patienten, die begrenzte Belastung durch Warfarin-Therapie aus Sicht der Patienten, und die relative Gewichtung der Endpunkte Schlaganfall und schwere Blutungen. Fehlt solche Evidenz, können Kliniker ihre vorherigen Interaktionen mit Patienten heranziehen, um auf die Werte und Präferenzen von Patienten zu schließen. Zum Beispiel schrieb ein Mitglied des Leitliniengremiums, das für das Kapitel zur Schwangerschaft zuständig war, bei der achten Auflage der ACCP Antithrombose-Leitlinie: »Einzelberichte legen nahe, dass viele, aber nicht alle Frauen den Auswirkungen einer Behandlung auf die Gesundheit des ungeborenen Kindes eine höhere Priorität einräumen als den Auswirkungen auf ihre eigene Gesundheit«.
Wichtigkeit der Endpunkte: Fehlende Evidenz und Surrogatendpunkte Systematische Übersichtsarbeiten sind — obwohl sie die Implikationen aus dem, was gemessen und was nicht gemessen wurde, möglicherweise diskutieren — darauf beschränkt, quantitative Übersichten von denjenigen Endpunkten zu erstellen, die in den Originalstudien untersucht wurden. Nicht selten bleiben diejenigen Endpunkte unberücksichtigt, die für Patienten am wichtigsten sind. Zum Beispiel haben viele klinische Studien bei Typ-2-Diabetes bisher die langfristigen Auswirkungen von Behandlungsalternativen auf diabetische Komplikationen im Sinne von mikround makro-vaskulären Erkrankungen und neuropathischen Komplikationen nicht angemessen berücksichtigt [12]; dieses Problem wird wohl auch in naher Zukunft nicht behoben werden [13]. Wenn wichtige Endpunkte verhältnismäßig selten sind oder nur über lange Zeitspannen auftreten, entscheiden sich klinische Forscher häufig dazu, Ersatzendpunkte, sog. Surrogatendpunkte, zu messen. Es könnte für Leitlinienentwickler verlockend sein, — obwohl wir argumentieren würden,
G. Langer et al. fälschlicherweise — davon auszugehen, dass die Auswirkungen einer Intervention auf Surrogat-Endpunkte die Wirkung auf patientenrelevante Endpunkte widerspiegelt. Aufgrund der vielen Fälle, in denen sich diese Annahme als falsch erwiesen hat [14], sollten Leitlinienentwickler, die GRADE verwenden, patientenrelevante Endpunkte und ggfs. diejenigen Surrogatendpunkte, die sie anstelle dieser wichtigen Endpunkte verwenden, beschreiben. Nehmen wir ein Leitliniengremium, das den Gebrauch neuer Medikamente zur Phosphat-Senkung bei Patienten mit Niereninsuffizienz und Hyperphosphatämie bearbeitet: Was sind die beabsichtigten Effekte der Intervention? Die offensichtliche Antwort könnte sein, das Serum-Phosphat zu senken, aber die sinnvollere Antwort ist, durch die Weichteil-Kalzifikation verursachte Sterblichkeit, Herzinfarkte, Frakturen und Schmerzen zu senken (Abb. 1). Es kann jedoch sein, dass Studien lediglich spezifische Surrogatendpunkte, die jedem der einzelnen Endpunkte entsprechen (koronare Verkalkung, Knochendichte oder radiologische Manifestation der Weichteilverkalkung), oder sogar noch weiter entfernte, allgemeine Surrogatendpunkte (CalciumPhosphat-Produkt) messen (Abb. 1). Leitlinienentwickler sollten Surrogatendpunkte nur berücksichtigen, wenn es an qualitativ hochwertigen Studien zu wichtigen Endpunkten mangelt. Wenn solche Evidenz fehlt, könnten Leitlinienentwickler versucht sein, Surrogatendpunkte anstelle patientenrelevanter Endpunkte zu verwenden — dies ist allerdings nicht der von GRADE empfohlene Ansatz. Vielmehr sollten sie die wichtigen Endpunkte und die assoziierten Surrogatendpunkte, die als Ersatz verwendet werden müssen, genau beschreiben. Wie in einem späteren Artikel dieser Serie noch beschrieben wird, kann die Notwendigkeit, den Surrogatendpunkt zu verwenden, letztendlich zur Herabstufung der Qualität der Evidenz wegen Indirektheit führen.
Wichtigkeit der Endpunkte: Vorläufige und endgültige Bewertung Obschon es sinnvoll ist, die kritischen und wichtigen Endpunkte vor der Sichtung der Evidenz festzulegen, können die Ergebnisse dieser Beurteilung die Bewertung der Wichtigkeit der Endpunkte beeinflussen. Nachfolgend sind zwei Situationen beschrieben, in denen Ergebnisse der Evidenzbeurteilung die Auswahl der relevanten Endpunkte oder ihre relative Wichtigkeit beeinflussen können: 1. Ein möglicher Nutzen in Hinblick auf einen Endpunkt, der zunächst als kritisch eingestuft wurde, kann bei Betrachtung der Ergebnisse seine Einstufung als kritisch verlieren. Dies wäre z.B. dann der Fall, wenn, da andere gesicherte Vorteile vorliegen, die Intervention immer noch von großem Allgemeinnutzen wäre, auch wenn kein Vorteil hinsichtlich des fraglichen Endpunkts gezeigt werden kann. Als Beispiel sei das Screening für abdominale Aortenaneurysmen genannt. Zunächst wird ein Leitliniengremium wahrscheinlich die Auswirkung der Intervention auf die Gesamt-Mortalität als kritisch einstufen. Nehmen wir an, dass das Evidenzprofil eine erheblich Reduktion der (krankheitsspezifischen) Mortalität durch abdominelle
GRADE-Leitlinien: 2. Formulierung der Fragestellung und Entscheidung über wichtige Endpunkte Aortenaneurysmata zeigt, aber keine gesicherte Reduktion der Gesamt-Sterblichkeit erkennen lässt. Die Reduktion der krankheitsspezifischen Mortalität könnte als ausreichend bedeutsam bewertet werden, auch bei fehlender gesicherter Reduktion der Gesamtmortalität (die wegen des Zufallsfehlers durch andere Todesursachen unentdeckt sein kann) — die Screening-Intervention wäre zu empfehlen. Die Gesamt-Mortalität wird dadurch weniger relevant und fällt als kritischer Endpunkt weg. Diese Argumentation erfordert eine sorgfältige Überprüfung zweier möglicher Probleme: Zunächst muss man ausreichend sicher sein, dass es keine Zunahme der Gesamt-Mortalität im Zusammenhang mit der Intervention gibt (dies ist beim Ultraschall-Screening für Aneurysmen sehr wahrscheinlich). Dann muss die Größe des absoluten Nutzens auf die krankheitsspezifische Mortalität groß genug sein, sodass der Netto-Nutzen der Intervention ohne eine gezeigte Reduktion der GesamtMortalität eindeutig ist. Leitlinienersteller sollten generell die Begründung für die Festlegung als kritische oder wichtige Endpunkte festhalten, insbesondere Beurteilungen wie die oben beschriebenen. 2. Jede neue Intervention kann mit Nebenwirkungen verbunden sein, die zunächst nicht offensichtlich sind. In der Tat haben sich über die letzten 25 Jahre wichtige, unerwartete Toxizitäten bei ungefähr 20% der von der U.S. Food and Drug Administration genehmigten Medikamente gezeigt [15]. Daher könnte man eine »bisher unentdeckte Toxizität« als wichtige nachteilige Wirkung jedes neuen Medikamentes ansehen. Solche Toxizität ist dann entscheidend, wenn ausreichend Evidenz für ihr Vorhandensein auftaucht. Zum Beispiel könnte das Auftreten von Herzinfarkten bei Einnahme von Cyclooxygenase-2 (COX-2)-Hemmern, als diese auf den Markt kamen, nur ein Endpunkt aus einer langen Liste von theoretischen Nebenwirkungen (wie beispielsweise Autoimmunerkrankungen, Knochenmarksuppression, Niereninsuffizienz) sein, die möglicherweise mit der Einnahme von COX-2-Hemmern assoziiert sind. Sobald Evidenz für eine erhöhte Rate an Herzinfarkten bei COX-2-Hemmern auftauchte, wurden Herzinfarkte zu einem kritischen Endpunkt. Der heikle Teil dieser Beurteilung ist, wie häufig eine Nebenwirkung auftreten muss und wie glaubhaft die Assoziation mit der Intervention sein muss, bevor ein Endpunkt als kritisch eingestuft wird. Beispielsweise fand eine Beobachtungsstudie eine vorher nicht vermutete Assoziation zwischen Sulfonylharnstoff-Einnahme und krebsbezogener Mortalität [16]. Sollten Krebs-Todesfälle nun ein wichtiger oder sogar ein kritischer Endpunkt sein, wenn man Sulfonylharnstoffe bei Patienten mit Typ-II-Diabetes betrachtet? Wie so oft kann man keine Patentrezepte für diese Beurteilung aufstellen. GRADE hilft, die Probleme aufzuzeigen und eine transparente und explizite Berücksichtigung der betreffenden Beurteilungen zu ermöglichen. Mitglieder des Leitliniengremiums können auf dieser Basis die Probleme diskutieren, und Leitlinienanwender können ihre eigene Einschätzung darüber treffen, wie geeignet die Schlussfolgerungen des Leitliniengremiums sind.
375
Finanzierung keine
Kernaussagen • GRADE benötigt eine klare Beschreibung des Settings, der Population, der Intervention, der Komparatoren und der Endpunkte. • Die interessierenden Endpunkte sollten patientenrelevant sein. Falls patientenrelevante Endpunkte durch Surrogatendpunkte dargestellt werden, ist häufig eine Herunterstufung der Qualität der Evidenz aufgrund von Indirektheit nötig. • Die Fragestellungen müssen ausreichend spezifisch sein: über das Spektrum von Populationen, Interventionen und Endpunkten sollte ein mehr oder weniger ähnlicher Effekt plausibel sein. • Bei der Leitlinienentwicklung sollte bereits vor der Erstellung der Übersichtsarbeiten eine Beurteilung der Wichtigkeit der Endpunkte erfolgen, und diese Beurteilung sollte anhand der Übersichtsarbeiten bestätigt oder überarbeitet werden.
Literatur [1] Schunemann HJ, Cook D, Guyatt G. Methodology for antithrombotic and thrombolytic therapy guideline development: American College of Chest Physicians Evidence-based Clinical Practice Guidelines (8th Edition). Chest 2008;133(6 Suppl): 113S—22S. [2] CAPRIE Steering Committee. A randomised, blinded, trial of clopidogrel versus aspirin in patients at risk of ischaemic events (CAPRIE). Lancet 1996;348:1329—39. [3] Letelier LM, Udol K, Ena J, Weaver B, Guyatt GH. Effectiveness of amiodarone for conversion of atrial fibrillation to sinus rhythm: a meta-analysis. Arch Intern Med 2003;163:777—85. [4] Guyatt G, Oxman AD, Kunz R, Woodcock J, Brozek J, Helfand M, et al. Grade Guidelines: 7. Rating the quality of evidence: Inconsistency. J Clin Epidemiol 2011;64:1294—302. [5] Eikelboom J, Guyatt G, Hirsh J. Guidelines for anticoagulant use in acute coronary syndromes. Lancet 2008;371:1559—61. [6] Furukawa TA, Guyatt GH, Griffith LE. Can we individualize the ‘number needed to treat’? An empirical study of summary effect measures in meta-analyses. Int J Epidemiol 2002;31:72—6. [7] Schmid CH, Lau J, McIntosh MW, Cappelleri JC. An empirical study of the effect of the control rate as a predictor of treatment efficacy in meta-analysis of clinical trials. Stat Med 1998;17:1923—42. [8] Deeks JJ. Issues in the selection of a summary statistic for meta-analysis of clinical trials with binary outcomes. Stat Med 2002;21:1575—600. [9] Singer DE, Albers GW, Dalen JE, Fang MC, Go AS, Halperin JL, et al. Antithrombotic therapy in atrial fibrillation: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines (8th Edition). Chest 2008;133(6 Suppl):546S—92S. [10] Bucher HC, Griffith LE, Guyatt GH. Effect of HMGcoA reductase inhibitors on stroke. A meta-analysis of randomized, controlled trials. Ann Intern Med 1998;128:89—95. [11] Bischoff-Ferrari HA, Willett WC, Wong JB, Giovannucci E, Dietrich T, Dawson-Hughes B. Fracture prevention with vitamin D supplementation: a meta-analysis of randomized controlled trials. JAMA 2005;293:2257—64.
376 [12] Montori VM, Gandhi GY, Guyatt GH. Patient-important outcomes in diabetes–time for consensus. Lancet 2007;370: 1104—6. [13] Gandhi GY, Murad MH, Fujiyoshi A, Mullan RJ, Flynn DN, Elamin MB, et al. Patient-important outcomes in registered diabetes trials. JAMA 2008;299:2543—9. [14] Bucher H, Kunz R, Cook D, Holbrook A, Guyatt G. Surrogate outcomes. In: Guyatt G, Rennie D, Meade M, Cook D, editors. The Users’ Guides to the Medical Literature: A Manual for
G. Langer et al. Evidence-Based Clinical Practice. 2nd ed. New York, New York: McGraw-Hill; 2008. [15] Lasser KE, Allen PD, Woolhandler SJ, Himmelstein DU, Wolfe SM, Bor DH. Timing of new black box warnings and withdrawals for prescription medications. JAMA 2002;287: 2215—20. [16] Bowker SL, Majumdar SR, Veugelers P, Johnson JA. Increased cancer-related mortality for patients with type 2 diabetes who use sulfonylureas or insulin. Diabetes Care 2006;29:254—8.