GRADE Leitlinien: 13. Erstellen von Summary-of-Findings-Tabellen und Evidenzprofilen – kontinuierliche Endpunkte

GRADE Leitlinien: 13. Erstellen von Summary-of-Findings-Tabellen und Evidenzprofilen – kontinuierliche Endpunkte

Z. Evid. Fortbild. Qual. Gesundh. wesen (ZEFQ) (2014) 108, 333—347 Online verfügbar unter www.sciencedirect.com ScienceDirect journal homepage: http...

309KB Sizes 0 Downloads 14 Views

Z. Evid. Fortbild. Qual. Gesundh. wesen (ZEFQ) (2014) 108, 333—347

Online verfügbar unter www.sciencedirect.com

ScienceDirect journal homepage: http://journals.elsevier.de/zefq

GRADE

GRADE Leitlinien: 13. Erstellen von Summary-of-Findings-Tabellen und Evidenzprofilen — kontinuierliche Endpunkte夽 GRADE guidelines: 13. Preparing Summary of Findings tables and evidence profiles — continuous outcomes Lisa K Schell 1,∗, Joerg J Meerpohl 1, Gerald Gartlehner 2, Gero Langer 3, Matthias Perleth 4, Holger J Schünemann 5 1

Deutsches Cochrane Zentrum, Universitätsklinikum Freiburg, Freiburg, Deutschland Donau-Universität Krems, Department für Evidenzbasierte Medizin und Klinische Epidemiologie, Krems, Österreich, Deutschland 3 Institut für Gesundheits- und Pflegewissenschaft, Medizinische Fakultät der Martin-Luther-Universität Halle-Wittenberg, Halle (Saale), Deutschland 4 Abteilung Fachberatung Medizin, Gemeinsamer Bundesausschuss, Berlin, Deutschland 5 Department of Clinical Epidemiology & Biostatistics, McMaster University Health Sciences Centre, Hamilton, Kanada 2

SCHLÜSSELWÖRTER GRADE; Summary-of-FindingsTabellen; Evidenzprofil; Standardisierte Mittelwertdifferenz; minimally important difference; Meta-Analyse; 夽



Zusammenfassung Wenn kontinuierliche Endpunkte in Summary-of-Findings-Tabellen dargestellt werden, stellt deren Interpretation eine besondere Herausforderung dar. Wenn jede Studie den Endpunkt auf dieselbe Art und Weise erfasst hat und die Einheiten dieses Maßes intuitiv interpretierbar sind (z.B. Dauer des Krankenhausaufenthalts, Dauer von Symptomen), empfiehlt es sich, die Mittelwertdifferenz darzustellen. Wenn die natürlichen Einheiten dieses Maßes jedoch nicht leicht zu interpretieren sind, ist es womöglich besser, einen Schwellenwert festzulegen, um den Endpunkt zu dichotomisieren, und dann relative und absolute Effekte darzustellen. Wenn die Studien dasselbe Konstrukt auf unterschiedliche Art und Weise erfasst haben, muss man zur Berechnung von zusammengefassten Maßen das Ergebnis jeder Studie in dieselbe

Übersetzt und adaptiert von: Guyatt GH, Thorlund K, Oxman AD, Walter SD, Patrick D, Furukawa TA, Johnston BC, Karanicolas P, Akl EA, Vist G, Kunz R, Brozek J, Kupper LL, Martin SL, Meerpohl JJ, Alonso-Coello P, Christensen R, Schunemann HJ. GRADE guidelines: 13. Preparing summary of findings tables and evidence profiles-continuous outcomes. J Clin Epidemiol 2013;66:173-83. Korrespondenzadresse: Lisa Schell, Deutsches Cochrane Zentrum, Universitätsklinikum Freiburg, Berliner Allee 29, 79110 Freiburg. Tel.: +49 (0) 761 203-97642; Fax: +49 (0) 761 203-6712. E-Mail: [email protected] (L.K. Schell).

http://dx.doi.org/10.1016/j.zefq.2014.05.002 1865-9217/

334

kontinuierliche Endpunkte

KEYWORDS GRADE; effect size; standardised mean difference; minimally important difference; meta-analysis; continuous outcomes

L.K. Schell et al. Maßeinheit umrechnen. Der älteste und weit verbreitetste Ansatz besteht darin, die Mittelwertdifferenz jeder Studie durch ihre Standardabweichung zu dividieren und die gepoolten Resultate in Standardabweichungs-Einheiten darzustellen (standardisierte Mittelwertdifferenz). Die Nachteile dieses Ansatzes liegen in seiner Empfindlichkeit gegenüber unterschiedlich heterogenen Populationen und darin, dass das Ergebnis schwer zu interpretieren ist. Mögliche Alternativen bestehen darin, die Resultate in der Einheit des geläufigsten und am leichtesten zu interpretierenden Maßes darzustellen, den Endpunkt zu dichotomisieren und relative und absolute Effekte darzustellen, das Verhältnis der Mittelwerte von Kontroll- und Interventionsgruppe darzustellen, oder die Resultate in Einheiten des kleinsten klinisch wichtigen Unterschieds darzustellen. Wir erläutern die Vor- und Nachteile jeder Alternative und bieten einen Leitfaden für Ersteller von Meta-Analysen und Entwickler von Leitlinien an. Kernaussagen: Summary-of-Findings-Tabellen stellen die Qualität der Evidenz und die Größe des Effekts kurz und bündig dar. Wenn kontinuierliche Endpunkte in Summary-of-Findings-Tabellen dargestellt werden, stellt deren Interpretation eine besondere Herausforderung dar, insbesondere wenn die einzelnen Studien dasselbe Konstrukt auf unterschiedliche Art und Weise erfassen. Der am häufigsten verwendete Ansatz, um gepoolte Schätzer von verschiedenen Maßen darzustellen, besteht darin, die Resultate in Standardabweichungs-Einheiten anzugeben. Dieser Ansatz hat jedoch Nachteile hinsichtlich seiner statistischen Eigenschaften und seiner Interpretierbarkeit. Möglicherweise vorzuziehende Alternativen bestehen darin, die Resultate in der natürlichen Einheit des geläufigsten Maßes anzugeben, den Endpunkt zu dichotomisieren und relative und absolute Effekte anzugeben, das Verhältnis der Mittelwerte von Interventions- und Kontrollgruppe darzustellen oder die Resultate in vorher festgelegten Einheiten des kleinsten klinisch wichtigen Unterschieds anzugeben. Summary Presenting continuous outcomes in Summary of Findings tables presents particular challenges to interpretation. When each study uses the same outcome measure, and the units of that measure are intuitively interpretable (e.g., duration of hospitalisation, duration of symptoms), presenting differences in means is usually desirable. When the natural units of the outcome measure are not easily interpretable, choosing a threshold to create a binary outcome and presenting relative and absolute effects become a more attractive alternative. When studies use different measures of the same construct, calculating summary measures requires converting to the same units of measurement for each study. The longest standing and most widely used approach is to divide the difference in means in each study by its standard deviation and present pooled results in standard deviation units (standardised mean difference). Disadvantages of this approach include vulnerability to varying degrees of heterogeneity in the underlying populations and difficulties in interpretation. Alternatives include presenting results in the units of the most popular or interpretable measure, converting to dichotomous measures and presenting relative and absolute effects, presenting the ratio of the means of intervention and control groups, and presenting the results in minimally important difference units. We outline the merits and limitations of each alternative and provide guidance for meta-analysts and guideline developers. Key points: Summary of Findings tables provide succinct presentations of evidence quality and magnitude of effects. Summarising the findings of continuous outcomes presents special challenges to interpretation that become daunting when individual trials use different measures for the same construct. The most commonly used approach to providing pooled estimates for different measures, presenting results in standard deviation units, has limitations related to both statistical properties and interpretability. Potentially preferable alternatives include presenting results in the natural units of the most popular measure, transforming into a binary outcome and presenting relative and absolute effects, presenting the ratio of the means of intervention and control groups, and presenting results in preestablished minimally important difference units.

Einleitung Die ersten 12 Artikel dieser Serie stellten den GRADEAnsatz für systematische Übersichtsarbeiten und für die

Entwicklung von Leitlinien vor [1,2], befassten sich mit der Formulierung der Fragestellung [3,4], stellten das GRADE-Konzept der Qualität der Evidenz und dessen Anwendung dar [5—17], stellten die GRADE-Vorgehensweise

GRADE Leitlinien: 13. Erstellen von Summary-of-Findings-Tabellen und Evidenzprofilen — kontinuierliche Endpunkte zur Berücksichtigung von Ressourcenverbrauch dar [18], beschrieben wie Gesamtbeurteilungen des Vertrauens in die Effektschätzer zustande kommen [19] und diskutierten Summary-of-Findings-Tabellen (SoF-Tabellen) zur Darstellung der Ergebnisse von binären Endpunkten [20]. Dieser 13. Artikel beschäftigt sich mit dem Thema, wie die Ergebnisse von kontinuierlichen Endpunkten in SoF-Tabellen dargestellt werden können. Unsere Empfehlungen unterscheiden sich, je nachdem ob • alle Autoren dasselbe Maß zur Erfassung des Endpunktes verwendet haben und die Zielgruppe mit diesem Maß vertraut ist, • alle Autoren dasselbe oder sehr ähnliche Maße zur Erfassung des Endpunktes verwendet haben und die Zielgruppe mit diesem Maß weniger vertraut ist, • die Autoren unterschiedliche Maße zur Erfassung des Endpunktes verwendet haben.

Möglichkeiten der Darstellung, wenn alle Studien dasselbe Effektmaß verwenden, mit dem die Zielgruppe vertraut ist Im einfachsten Fall haben alle Autoren der Primärstudien dasselbe Maß zur Erfassung des interessierenden kontinuierlichen Endpunktes verwendet und die Zielgruppe kann dieses Maß leicht interpretieren. Dies trifft zum Beispiel auf die Dauer von Ereignissen wie Krankenhausaufenthalte sowie Symptome von Erkrankungen wie Halsschmerzen, Mittelohrentzündung oder Grippe zu. Für solche Endpunkte sollte die SoF-Tabelle eine gewichtete Mittelwertdifferenz enthalten. In Tabelle 1 werden Beispiele für solche Endpunkte aus systematischen Übersichtsarbeiten in einer SoF-Tabelle dargestellt. Jeder dieser Endpunkte ist leicht verständlich und einfach zu interpretieren. Zum Beispiel führte unterstützte Beschäftigung zu einer rund 46 Tage längeren kompetitiven Beschäftigung. Das zugehörige Konfidenzintervall (KI) kann als durchaus eng angesehen werden — diejenigen, die eine Zunahme von 46 Tagen für relevant halten, wären wahrscheinlich auch an einer Zunahme von 35 Tagen interessiert. Dieser bescheidene Effekt kann für die Zielgruppe wichtig sein. Im zweiten Beispiel von Tabelle 1 könnte der durch Zink verursachte Effekt von etwa 10 Stunden weniger Durchfall — also eine Reduktion von 59 auf 49 oder von 170 auf 160 Stunden, wenn man den Bereich der Mittelwerte der Kontrollgruppe heranzieht — für manche Eltern und Kinder wichtig sein und für andere wiederum nicht. Im Idealfall wäre durch empirische Forschung die Einschätzung im Hinblick auf eine relativ kleine Abnahme der Durchfalldauer bekannt. Eine Möglichkeit zur Interpretation der Ergebnisse aus solcher Forschung ist der kleinste klinisch wichtige Unterschied (minimally important difference, MID) [21—23], die kleinste Verringerung der Durchfalldauer, die als relevant erachtet wird. Unsere Einstellung zur Zinkbehandlung könnte sich ändern, je nachdem, ob der Effekt weniger als 1 Stunde oder mehr als 18 Stunden (die Grenzen des 95%Konfidenzintervalls) beträgt und wie diese Grenzen in Relation zur MID stehen. Wenn dem so ist, kann es angebracht sein, das Vertrauen in die Effektschätzer sowohl

335

wegen unzureichender Präzision als auch wegen Inkonsistenz herunterzustufen — in diesem Fall stuften die Autoren aufgrund mangelnden Vertrauens nur für Inkonsistenz herunter. Dies gilt auch für die anderen Beispiele in Tabelle 1, wenn auch mit einer Einschränkung, auf die wir gleich eingehen werden: Eine Mittelwertdifferenz kleiner als die MID kann trotzdem bedeuten, dass ein erheblicher Anteil der Patienten einen wichtigen Nutzen aus der Behandlung zieht.

Möglichkeiten der Darstellung, wenn alle Studien dieselben oder sehr ähnliche Effektmaße verwendet haben, mit denen die Zielgruppe weniger vertraut ist Wenn Ärzte und Patienten mit den Einheiten des Maßes, mit dem der Endpunkt erfasst wird, nicht vertraut sind, wird es schwieriger, die Ergebnisse transparent darzustellen. Tabelle 2 stellt als Beispiel die Daten einer systematischen Übersichtsarbeit zur Wirkung von Kompressionsstrümpfen bei Langstreckenflügen [24] dar. Einer der Endpunkte ist das Vorhandensein von Ödemen. Da jede Studie dasselbe Messinstrument zur Beurteilung von Ödemen genutzt hat, ist es möglich, die zusammengefasste Differenz zwischen den Gruppen (die ,,gewichtete Mittelwertdifferenz‘‘) von 4,7 Einheiten leichter interpretierbar zu machen, indem man die dazugehörige Skala mit angibt (0 = kein Ödem bis 10 = maximales Ödem). Wie man unschwer erkennt, stellen 4,7 Einheiten auf dieser Skala einen großen Unterschied dar. Manchmal ist die Bedeutung von Veränderungen in Maßzahlen unklarer. Dies trifft beispielsweise oft auf Maße zur Erfassung von gesundheitsbezogener Lebensqualität (Health-related Quality of Life, HRLQ) zu. Hierbei kann die MID — in diesem Fall die kleinste Veränderung des HRQL-Testwertes, die Patienten als wichtig erachten — sehr hilfreich sein. Zum Beispiel stellt in einem Maß zur Erfassung der gesundheitsbezogenen Lebensqualität bei Patienten mit chronischer Lungenkrankheit, dessen mögliche Werte im Bereich von 1 bis 7 liegen, eine Veränderung von 0,5 die MID dar [23]. Falls Autoren diese Information zur Hand haben, sollten sie diese in die SoF-Tabelle oder in das Evidenzprofil mit aufnehmen. Falls die Daten der einzelnen Studien es zulassen, kann es günstiger sein, einen Schwellenwert festzulegen und die Resultate dichotom darzustellen. Zum Beispiel nutzten Studien zur Wirkung von thrombolytischer Therapie nach Schlaganfall das Rankin-Instrument, welches Patienten in eine von 6 Behinderungskategorien klassifiziert (,,keine Symptome‘‘ bis hin zu ,,schwere Behinderung‘‘). Die Autoren einer systematischen Übersichtsarbeit zur Wirkung von thrombolytischer Therapie bei Krankenhauspatienten mit Schlaganfall dichotomisierten das Rankin-Instrument und erzeugten so eine ,,schlechtes-Ergebnis‘‘-Kategorie für Patienten, die entweder verstorben waren oder nach den Rankin-Kriterien als mittelschwer oder schwer behindert eingestuft worden waren [25]. Die Reviewer fanden heraus, dass eine thrombolytische Therapie den Anteil der Patienten, die am Ende des Followup-Zeitraums entweder tot oder pflegeabhängig waren, signifikant reduzierte (Odds Ratio [OR]: 0,84; 95%-KI: 0,75; 0,95). Zur vollständigen Interpretation benötigt man die dazugehörige absolute Reduktion: Da das Risiko in der

336 Tabelle 1

L.K. Schell et al. Beispiele für Mittelwertdifferenzen in leicht verständlichen Einheitena

Patienten, Interventionen, Vergleichsinterventionen

Anzahl Teilnehmer (Studien), Follow-upZeitraum

Qualität der Evidenz (GRADE)

Vergleichsintervention (Kontrollgruppe)

Mittelwertdifferenz Interventions- vs. Kontrollgruppe (95%-KI)

Schizophreniea Unterstützende Beschäftigung vs. andere berufliche Ansätze

843 Teilnehmer (5 Studien) 12-24 Monate Follow-up (MW: 19 Monate)

⊕⊕⊕ Moderat wegen Risiko für Bias (Verdacht auf selektives Berichten)

32,3 d kompetitive Beschäftigung

45,9 d (34,7; 57,1) länger in kompetitiver Beschäftigung

Kinder mit akuter Diarrhöb Zink vs. Placebo

4.242 Teilnehmer (13 Studien)

⊕⊕⊕ Moderat wegen Inkonsistenz

Die mittlere Dauer der Diarrhö (h) über die Kontrollgruppen hinweg lag zwischen 59 und 170 h

9,60 (18,25; 0,96) weniger Stunden Diarrhö

Grippaler Infektc NSAR vs. keine NSAR

214 Teilnehmer (2 Studien)

⊕⊕ Niedrig wegen fehlender Präzision und Inkonsistenz

7,33 d

0,23 (-1,75; 1,29) weniger Tage mit Erkältungssymptomen

Operationd Zusätzlicher perioperativer Sauerstoff vs. routinemäßige Sauerstoffgabe

2.963 Teilnehmer (4 Studien)

⊕⊕⊕ Moderat wegen fehlender Präzision

Die mittlere Verweildauer im Krankenhaus (d) über die Kontrollgruppen hinweg lag zwischen 6,4 und 11,9 d

0,86 d (-0,29; 2,00) längere Verweildauer im Krankenhaus

Abkürzungen: d = Tage; KI — Konfidenzintervall; NSAR — nichtsteroidale Antirheumatika; MW - Mittelwert a Kinoshita Y, Furukawa T, Omori IM, Watanabe N, Marshall M, Bond GR, Huxley P, Kingdon D. Supported employment for adults with severe mental illness. Cochrane Database of Systematic Reviews (submitted). b Lazzerini M, Ronfani L. Oral zinc for treating diarrhoea in children. Cochrane Database Syst Rev 2008, Issue 3. Art. No.: CD005436. DOI: 10.1002/14651858.CD005436.pub2. c Kim SY, Chang YJ, Cho HM, Hwang YW, Moon YS. Non-steroidal anti-inflammatory drugs for the common cold. Cochrane Database Syst Rev 2009, Issue 3. Art. No.: CD006362. d Garcia-Alamina J, Devereaux PJ, Sessler D, Leslie K, Perera R, Alonso-Coello P. Supplemented perioperative oxygen to reduce the incidence of surgical site infection: systematic review and meta-analysis of randomized controlled trials (submitted).

Kontrollgruppe ca. 60% beträgt, entspricht ein OR von 0,84 einer Reduktion des Risikos zu sterben oder pflegebedürftig zu werden von mehr als 4% (,,Number Needed to Treat‘‘ [NNT] = 25). In solchen Fällen kann es hilfreich sein, Kliniker, die das Instrument verwenden, in die Festlegung des Schwellenwertes für die Dichotomisierung einzubinden. Ein anderes Beispiel für diesen Ansatz ist ein Review zur Wirkung von Flavonoiden auf die Symptome von Patienten mit Hämorrhoiden [26], bei dem die eingeschlossenen Studien nicht die gleichen Maße zur Erfassung der Symptome verwendet hatten. Jedoch verzeichneten alle Studien bis auf eine die Anteile der Patienten, die frei von Symptomen waren, deren Symptome sich verbesserten (diese beiden Kategorien wurden von den Review-Autoren zur Kategorie ,,verbessert‘‘ zusammengefasst), die noch symptomatisch waren oder deren Symptome sich verschlimmert hatten (beide Kategorien wurden als ,,nicht verbessert‘‘

klassifiziert). In der Primäranalyse fassten die Autoren die Ergebnisse basierend auf der a-priori-Erwartung eines ähnlich hohen und gleich gerichteten Behandlungseffekts über die Studien hinweg zusammen. Sie berichteten ein relatives Risiko von 0,42 — das heißt, eine 58%-ige relative Risikoreduktion — für den unerwünschten Endpunkt ,,keine symptomatische Verbesserung erreicht‘‘ (95% KI: 0,28; 0,61). Dieser Ansatz kann für jede ordinale Skala, ungeachtet ihrer Länge, angewandt werden. Allerdings ist er ist durch seine offensichtliche Anfälligkeit für Bias limitiert: falls es mehr als einen plausiblen Schwellenwert gibt, können Reviewer denjenigen Schwellenwert wählen, der den größten (oder kleinsten) Schätzer des Behandlungseffektes liefert. Allerdings wirkt sich, zumindest in manchen Fällen [27] — und vielleicht in den meisten [28] — die Wahl des Schwellenwertes wenig auf die Größe des relativen Effektes aus. Trotzdem kann die Wahl des Schwellenwertes die

Summary-of Findings-Tabelle: Kompressionsstrümpfe verglichen mit keinen Kompressionsstrümpfen bei Langstreckenflügen.

Endpunkte

Absolute Risiken (95%-KI) Geschätztes Risiko Ohne Strümpfe

Relativer Effekt, OR (95%-KI)

Anzahl Teilnehmer (Studien)

Qualität der Evidenz (GRADE)

0,10 (0,04; 0,25)

2.637 (9 Studien)

⊕⊕⊕ Moderat wegen Indirektheit [15,16]

1.246 (6 Studien)

⊕⊕ Niedrig wegen Risiko für Bias (unverblindetes, unvalidiertes Maß) [7,8]

1.182 (4 Studien)

siehe Kommentarspalte

Kommentar

Korrespondierendes Risiko Mit Strümpfen (95%-KI)

symptomatische tiefe Venenthrombose: abgeleitet vom Surrogatkriterium symptomfreie tiefe Venenthrombose

Niedrig-RisikoPopulation: 5 pro 10.000 Hoch-RisikoPopulation: 18 pro 10.000

Ödem: Werte nach Flug, gemessen auf einer Skala von 0 (kein Ödem) bis 10 (Maximalödem)

Der mittlere Ödem-Wert lag über die Kontrollgruppen hinweg zwischen 6,4 und 8,9

Der mittlere Ödem-Wert in den Interventionsgruppen war durchschnittlich 4,72 Punkte geringer (95%-KI: -4,91; -4,52)

Nebenwirkungen

siehe Kommentarspalte

siehe Kommentarspalte

0,5 pro 10.000 (0; 1,25) 1,8 pro 10.000 (1; 8)

kann nicht geschätzt werden

Die Verträglichkeit der Strümpfe wurde als sehr gut beschrieben: in 4 Studien gab es keine Beschwerden über Nebenwirkungen [24]

Abkürzungen: KI — Konfidenzintervall; OR — Odds Ratio Patienten oder Population: Reisende auf Langstreckenflügen (Dauer mehr als 6 Stunden); Setting: internationaler Luftverkehr; Intervention: Kompressionsstrümpfe; Vergleichsintervention (Kontrollgruppe): ohne Kompressionsstrümpfe

GRADE Leitlinien: 13. Erstellen von Summary-of-Findings-Tabellen und Evidenzprofilen — kontinuierliche Endpunkte

Tabelle 2

337

338

L.K. Schell et al.

Tabelle 3 Fünf Ansätze zur Darstellung der Ergebnisse von kontinuierlichen Endpunkten, wenn die Primärstudien unterschiedliche Instrumente zum Erfassen des gleichen Konstrukts verwendet haben. Ansatz

Vorteile

Nachteile

Empfehlung

SD-Einheiten (standardisierte Mittelwertdifferenz; Effektgröße)

weit verbreitet

Interpretation kann eine Herausforderung darstellen; Kann irreführend sein, je nachdem ob die Population sehr homogen oder heterogen ist

nicht als einzigen Ansatz verwenden

Darstellung in natürlichen Einheiten

kann als näher an den Primärdaten angesehen werden

nur wenige Instrumente werden im klinischen Alltag genügend genutzt, um ihre Einheiten leicht interpretieren zu können

Ansätze zur Konvertierung in natürliche Einheiten beruhen entweder auf SD-Einheiten oder skalieren die Werte um. Wir empfehlen letztere Vorgehensweise. In den seltenen Fällen, in denen Kliniker mit dem Instrument sehr vertraut sind, sollte dieser Ansatz in Erwägung gezogen werden

Relative und absolute Effekte

Klinikern sehr geläufig und daher leicht verständlich; GRADE-Empfehlungen für große und sehr große Effekte können angewendet werden

erfordert Annahmen, die fragwürdig sein können (insbesondere Methoden, die auf SD-Einheiten beruhen)

Wenn die MID bekannt ist, sollte dieser Ansatz gewählt werden anstelle von Ansätzen, die auf SD-Einheiten beruhen Dieser Ansatz sollte immer in Erwägung gezogen werden.

Verhältnis der Mittelwerte

kann von Klinikern leicht interpretiert werden beruht auf weniger fragwürdigen Annahmen als manch andere Ansätze GRADE-Empfehlungen für große und sehr große Effekte können angewendet werden

Kann nicht angewendet werden, wenn Veränderungswerte gemessen werden und daher negative Werte möglich sind Zur Interpretation ist Kenntnis und Interpretation des Mittelwerts der Kontrollgruppe notwendig

Sollte als Ergänzung zu den anderen Ansätzen angesehen werden, insbesondere die Darstellung der relativen und absoluten Effekte

MID-Einheiten

kann von Zielgruppen einfach interpretiert werden nicht empfindlich gegenüber heterogenen Populationen

nur anwendbar, wenn die MID bekannt ist Falls die MID nicht sicher bekannt ist, ist dieser Ansatz weniger attraktiv

Sollte als Ergänzung zu den anderen Ansätzen gesehen werden, insbesondere die Darstellung der relativen und absoluten Effekte

Abkürzungen: SD - Standardabweichung; MID - kleinster klinisch wichtiger Unterschied (minimally important difference)

statistische Signifikanz beeinflussen. Daher sollten Reviewer die Wahl des Schwellenwertes begründen oder die Resultate für alle plausiblen Schwellenwerte berichten (oder beides). Vorzugsweise sollte bereits im Protokoll angegeben werden, wie mit der Wahl des Schwellenwerts umgegangen wird, um

das Risiko zu verringern, dass bei der Auswahl des Schwellenwerts ein Bias entsteht. Bei der Entscheidung, ob ein Endpunkt dichotomisiert werden soll, sollten Review-Autoren auch berücksichtigen, dass hierdurch möglicherweise statistische Power

Anwendung der Ansätze auf das Beispiel zu Dexamethason in der Schmerztherapie nach laparoskopischer Cholezystektomie. absolute Risikoreduktion oder Reduktion der Werte in der Interventionsgruppe

Endpunkte

Geschätztes Risiko oder geschätzter Wert in der Kontrollgruppe

(A) Postoperative Schmerzen, SD-Einheiten: die Autoren nutzten verschiedene Instrumente zur Erfassung von Schmerz. Geringere Werte bedeuten geringere Schmerzen

Der Schmerzwert in den Dexamethason-Gruppen war durchschnittlich 0,79 SDs (-1,41; -0,17) geringer als in den Placebo-Gruppen

(B) Postoperative Schmerzen, natürliche Einheiten: erfasst auf einer Skala von 0 (keine Schmerzen) bis 100 (schlimmster vorstellbarer Schmerz)

Die mittleren postoperativen Schmerzwerte in der Kontrollgruppe lagen zwischen 43 und 54

Der mittlere Schmerzwert in der Interventionsgruppe war durchschnittlich 8,1 (95%-KI:1,8; 14,5) geringer

Relativer Effekt (95%KI)

Anzahl der Teilnehmer (Studien)

Vertrauen in den Effektschätzera (Qualität der Evidenz)

Kommentar

-

539 (5)

⊕⊕b,c Niedrig

Faustregel: 0,2 SD bedeuten einen kleinen, 0,5 SD einen moderaten, 0,8 SD einen großen Unterschied

-

539 (5)

⊕⊕b,c Niedrig

Die Werte wurden geschätzt basierend auf einer SMD von 0,79 (95%-KI: -1,41; -0,17) Der minimal klinisch wichtige Unterschied auf der 0-100 Schmerz-Skala beträgt ungefähr 10

GRADE Leitlinien: 13. Erstellen von Summary-of-Findings-Tabellen und Evidenzprofilen — kontinuierliche Endpunkte

Tabelle 4

339

340

Tabelle 4 (Fortsetzung) (C) erhebliche postoperative Schmerzen: die Autoren nutzten verschiedene Instrumente zur Erfassung von Schmerz

20 pro 100d

In der Interventionsgruppe erreichten mehr Patienten eine klinisch wichtige Verbesserung der Schmerzwerte 0,15 (95%-KI: 0,19; 0,04) (also 15 pro 100 Patienten mit erheblichen postoperativen Schmerzen)

RR=0,25 (0,05; 0,75)

539 (5)

⊕⊕b,c Niedrig

Die Werte wurden geschätzt basierend auf einer SMD von 0,79 (95%-KI: -1,41; -0,17) Diese Methode nimmt an, dass die Werte in Kontroll- und Interventionsgruppe normal verteilt sind und die Varianzen ähnlich sind

(D) Postoperative Schmerzen: die Autoren nutzten verschiedene Instrumente zur Erfassung von Schmerz. Geringere Werte bedeuten geringere Schmerzen

28,1e

3,7 geringere Schmerzwerte (95%-KI: 6,1 geringer; 0,6 geringer)

Verhältnis der Mittelwerte = 0,87 (0,78; 0,98)

539 (5)

⊕⊕b,c Niedrig

Der gewichtete Durchschnitt des mittleren Schmerzwertes der Interventionsgruppe dividiert durch den mittleren Schmerzwert der Kontrollgruppe

(E) Postoperative Schmerzen: die Autoren nutzten verschiedene Instrumente zur Erfassung von Schmerz

Die Schmerzwerte der Interventionsgruppen waren durchschnittlich 0,40 MID-Einheiten (95%-KI: 0,74; 0,07) geringer als die der Kontrollgruppe

-

539 (5)

⊕⊕b,c Niedrig

Ein Effekt, der kleiner ist als ein halber kleinster klinisch wichtiger Unterschied deutet auf einen kleinen oder sehr kleinen Effekt hin

L.K. Schell et al.

Abkürzungen: KI — Konfidenzintervall; SA — Standardabweichung; SMD — standardisierte Mittelwertdifferenz a Bewertung der Qualität von ⊕ (sehr niedrige Qualität) bis ⊕⊕⊕⊕ (hohe Qualität) b Evidenzqualität eingeschränkt durch Inkonsistenz zwischen den Studien c Evidenzqualität eingeschränkt durch fehlende Präzision der Daten (kleine Stichprobengröße oder Ereignisrate) d Die 20% ergeben sich aus dem Anteil der Kontrollgruppe, der Notfall-Schmerzmedikamente benötigte e Rohe (arithmetische) Mittelwerte des durchschnittlichen Ansprechens auf Schmerz über alle 5 Studien hinweg, deren Werte in eine 100-Punkte-Skala transformiert wurden

GRADE Leitlinien: 13. Erstellen von Summary-of-Findings-Tabellen und Evidenzprofilen — kontinuierliche Endpunkte verlorengeht [29]. Dies betrifft insbesondere kontinuierliche Variablen, die sich als signifikant erweisen und durch die Dichotomisierung ihre Signifikanz verlieren. Allerdings werden Nutzer der systematischen Übersichtsarbeit (und noch wichtiger, Patienten und ihre Familien) vor allem daran interessiert sein, ob Patienten einen bedeutsamen Schwellenwert überschreiten. Sie könnten zum Beispiel der Ansicht sein, dass es eine wichtige Trennlinie zwischen depressiven und nicht-depressiven Patienten gibt und möchten nun herausfinden, ob ein Patient diese Trennlinie überschreitet. In diesem Fall spiegelt eine geringere statistische Power oder ein Verlust der statistischen Signifikanz, die durch das Dichotomisieren des Endpunktes entsteht, korrekt wider, dass bezüglich des Anteils der Patienten, die diese Trennlinie überschreiten, eine Unsicherheit besteht. Wenn kontinuierliche Variablen hingegen nur zur besseren Interpretierbarkeit dichotomisiert werden, besteht eine mögliche Option darin, die statistische Signifikanz der Auswertung als kontinuierliche Variable zu berichten und den relativen oder absoluten Effektschätzer, der sich aus der Dichotomisierung ergibt, nur zusätzlich als Interpretationshilfe zur Größe des Effekts mit anzugeben.

Möglichkeiten der Darstellung, wenn die Studien unterschiedliche Maße zur Erfassung des Endpunktes verwendet haben Review-Autoren stehen vor größeren Herausforderungen, wenn Studien das gleiche Konstrukt erfassen, dazu aber unterschiedliche Messinstrumente verwenden. Beispielsweise könnte ein Teil von Studien Depressivität mit dem ,,Beck Depression Inventory‘‘ [30] erfasst haben und ein anderer Teil von Studien mit der ,,Hamilton Rating Scale for Depression‘‘ [31]. Unter diesen Umständen sollte einer von fünf verfügbaren Ansätzen verwendet werden, um gepoolte Effektschätzer darstellen zu können und um die Resultate interpretierbar zu machen. Tabelle 3 fasst die Vorzüge jedes Ansatzes sowie unsere entsprechenden Empfehlungen zusammen. Wir verweisen Leser, die an einer tiefergehenden Darstellung einschließlich Angaben zur Ableitung und statistischen Eigenschaften interessiert sind, auf einen separaten Artikel [32]. Die Tabelle 4 und 5 zeigen die Anwendung der Ansätze anhand zweier Beispiele: Dexamethason zur Schmerztherapie bei Patienten, die sich einer laparoskopischen Cholezystektomie unterziehen [33] (Tabelle 4), und respiratorische Rehabilitation bei chronisch-obstruktiver Lungenerkrankung [34] (Tabelle 5).

Standardabweichungseinheiten: standardisierte Mittelwertdifferenz Eine Möglichkeit, gepoolte Schätzer zu erzeugen, wenn Studien das gleiche Konstrukt mit unterschiedlichen Instrumenten erfasst haben, besteht darin, pro Studie die Differenz der Mittelwerte von Kontroll- und Interventionsgruppe (also die Mittelwertdifferenz) durch die geschätzte Standardabweichung (standard deviation, SD) zu dividieren (Reihe A in Tabelle 4 und 5) [35]. Dieser Wert wird oft als

341

die standardisierte mittlere Differenz (SMD) oder Cohen’s Effektgröße bezeichnet. Die Ergebnisse in SD-Einheiten (als SMD) darzustellen, ist der älteste und meistgebrauchte Ansatz und wird im Cochrane-Handbuch empfohlen [35]. Die Berechnung und Darstellung der Ergebnisse in SD-Einheiten hat jedoch erhebliche Nachteile. Erstens können Kliniker und Patienten diese Art der Ergebnisdarstellung meist nicht nachvollziehen [36]. Zweitens variieren auch die Standardabweichungen, wenn die Variabilität oder Heterogenität der Schwere der Erkrankung zwischen den Studien variiert (und damit die Variabilität der Werte des gewählten Endpunktes). Infolgedessen werden Studien mit heterogenen Patientengruppen kleinere SMDs berichten als Studien mit weniger heterogenen Patienten, selbst wenn der tatsächliche (nicht standardisierte) Schätzer der Mittelwertdifferenz — und damit der absolute Schätzer der Größe des Behandlungseffektes — über alle Studien hinweg ähnlich ist. Schließlich kann durch Darstellung in SD-Einheiten der irreführende Eindruck eines überhöhten Behandlungseffektes entstehen, wenn sehr homogene Patientengruppen eingeschlossen wurden (siehe Beispiel weiter unten). Sowohl in Tabelle 4 als auch in Tabelle 5 lässt die Darstellung in SD-Einheiten auf einen großen Behandlungseffekt schließen. Die Struktur der SoF-Tabelle ist jedoch nicht gut für diese Darstellung geeignet. Bei Verwendung der SMD ist es nicht sinnvoll, die absoluten Werte der Interventionsund Vergleichsgruppen anzugeben, da die Studien zur Erfassung des Endpunktes unterschiedliche Messinstrumente mit unterschiedlichen Einheiten verwendet haben. Ein Lösungsansatz für dieses in den Tabelle 4 und 5 dargestellte Dilemma besteht darin, die SMD anstelle der zwei Spalten darzustellen, in denen normalerweise die absoluten Werte dargestellt werden. Alternativ kann man den Median der Studien, die das bekannteste Maß zur Erfassung des Konstrukts verwendet haben, in der Kontrollgruppen-Spalte angeben und die SMD in der Interventionsgruppen-Spalte. Um die Interpretation einer Metrik zu erleichtern, mit der Kliniker oder Patienten nicht vertraut sind, bieten sich Kommentare zur Darstellung von Faustregeln zur Relevanz verschiedener Effektgrößen an [37] (Zeile (A) in den Tabelle 4 und 5).

Umrechnung in Einheiten des am häufigsten verwendeten Instruments Ein zweiter Ansatz (Zeile B in Tabelle 4 und 5) wandelt die Effektgröße zurück um in die natürlichen Einheiten desjenigen Maßes, mit dem die Zielgruppen am vertrautesten sind. Zum Konvertieren können zwei statistische Ansätze genutzt werden. Der erste Ansatz (dargestellt in Tabelle 4) berechnet die absolute Differenz der Mittelwerte durch Multiplikation der SMD mit dem Schätzer derjenigen SD, die mit dem geläufigsten Instrument assoziiert ist. Für diese Berechnung muss man eine SD auswählen. Wir empfehlen, pro Studie den gewichteten Durchschnitt der SDs der Kontroll- und Interventionsgruppe (entweder Veränderungs- oder Posttestwerte) zu berechnen und dann den Median dieser SDs zu verwenden. Es sind auch Optionen verfügbar, um das Konfidenzintervall in natürlichen Einheiten um den Mittelwert herum zu schätzen, die wir in einem

342 Tabelle 5 Anwendung der Ansätze auf das Beispiel zu chronischer respiratorischer Rehabilitation bei Beeinträchtigung der gesundheitsbezogenen Lebensqualität von Patienten mit Atembeeinträchtigung. Endpunkte

Geschätzter Ausgangs-Wert / Anteil der Patienten der Kontrollgruppe, die eine Besserung erfahren haben

(A) HRQL: die Autoren nutzen verschiedene Instrumente zur Erfassung der HRQL. Höhere Werte bedeuten eine bessere HRQL

Der HRQL-Wert der Interventionsgruppe verbesserte sich durchschnittlich um 0,72 (95%-KI: 0,48; 0,96) SDs mehr als in der Kontrollgruppe

(B) HRQL gemessen auf einer Skala von 1-7

Ausgangswert der Kontrollgruppe: 4,5a Durchschnittliche Verbesserung in der Kontrollgruppe: 0,04

Absolute Zunahme des Anteils der Patienten der Interventionsgruppe, die eine Besserung erfahren haben

Die HRQL verbesserte sich durchschnittlich um 0,71 (95%-KI: 0,48; 0,94) mehr in der Interventionsgruppe als in der Kontrollgruppe

Relativer Effekt (95%- KI)

Anzahl der Teilnehmer (Studien)

Vertrauen in den Effektschätzer (Qualität der Evidenz)

Kommentar

-

818 (16)

⊕⊕⊕⊕ Hoch

Faustregel: 0,2 SDs bedeuten eine kleinen, 0,5 SDs einen moderaten, 0,8 SDs eine großen Unterschied

-

818 (16)

⊕⊕⊕⊕ Hoch

Berechnet durch Transformation aller Werte in den CRQ, dessen MID 0,5 beträgt

OR = 3,36 818 (16) ⊕⊕⊕⊕ Die Berechnung Unterschiede im (2,31; 4,86) Hoch beruht auf Anteil der bewährten MIDs: Patienten, die 0,5 Einheiten des eine wichtige CRQ und 4 Besserung Einheiten des St. erfahren haben: George’s 0,31 (95%-KI: Respiratory 0,22; 0,40) Questionnaire zugunsten der Interventionsgruppe (D) Der momentan empfohlene Ansatz zum Verhältnis der Mittelwerte bezieht sich nur auf Posttest-Daten und kann daher nicht auf Veränderungswerte angewandt werden, welche in diesen Studien angegeben wurden

(C) Anteil der Patienten mit klinisch wichtiger Verbesserung der HRQL

0,30b

L.K. Schell et al.

Abkürzungen: KI - Konfidenzintervall; HRQL - gesundheitsbezogene Lebensqualität; SD - Standardabweichung; CRQ - Chronic Respiratory Questionnaire; OR - Odds Ratio; MID - kleinster klinisch wichtiger Unterschied a ungefährer Durchschnitt der Ausgangs-Werte der Kontrollgruppen der Studien, die den Ausgangs-Wert berichteten. b Dies stellt den Median des Anteils der Patienten der Kontrollgruppen dar, die eine Verbesserung größer als die MID erfahren haben. D.h., in der Studie in der Mitte der Veränderungsverteilung erfuhren 30% der Patienten der Kontrollgruppe eine Verbesserung von mehr als 0,5 (CRQ) oder 4 (St. George’s).

(E) HRQL dargestellt in Einheiten der MID

Tabelle 5 (Fortsetzung)

Der HRQL-Wert verbesserte sich durchschnittlich um 1,75 (95%-KI: 1,37; 2,13) MID-Einheiten mehr in der Interventionsgruppe als in der Kontrollgruppe

-

818 (16)

⊕⊕⊕⊕ Hoch

Ein Effekt von beinahe 2 mal der MID deutet auf einen moderaten bis großen Effekt hin

GRADE Leitlinien: 13. Erstellen von Summary-of-Findings-Tabellen und Evidenzprofilen — kontinuierliche Endpunkte

343

statistisch mehr ins Detail gehenden Artikel beschreiben [32]. In unserem Beispiel wird der Endpunkt durch eine visuelle analoge Skala mit 100 Einheiten erfasst, und die Größe des Effekts beträgt 8,1. Da dieses Ergebnis ohne Kenntnis der MIDs von begrenztem Nutzen wäre, wird im Kommentar die geschätzte MID angegeben (10 Einheiten [38]), was auf eine mäßige Wirkung schließen lässt (Reihe (B) in Tabelle 4). Der zweite statistische Ansatz (dargestellt in Tabelle 5) konvertiert andere Instrumente noch vor dem Poolen und ohne Berechnung der SMD schlicht in die Einheit des geläufigsten Instruments [32]. Als Beispiel hierfür dient der ,,Chronic Respiratory Questionnaire (CRQ)‘‘, dessen Skala von 1-7 reicht. Wir skalierten den Mittelwert und die SD der anderen Instrumente in CRQ-Einheiten um. Da die MID des CRQ 0,5 beträgt ([23], in der Kommentarspalte dargestellt), scheint die mittlere Differenz der Veränderung von 0,71 einen relevanten Effekt der Rehabilitation zu belegen. Dieser zweite Ansatz, die Ergebnisse in Einheiten des geläufigsten Instruments darzustellen, empfiehlt sich vor allem, wenn die Zielgruppe mit diesem Instrument sehr vertraut ist und insbesondere die MID gut etabliert ist [22]. Dennoch kann die Darstellung in natürlichen Einheiten bezogen auf die MID irreführend sein. Würde die Differenz zwischen Rehabilitations- und Kontrollgruppe auf der 7-Punkte-Skala mit der MID von 0,5 beispielsweise 0,4 betragen, könnten Kliniker den Trugschluss ziehen, dass kein Patient von der Behandlung profitiert und es sich nicht lohnt, die Behandlung durchzuführen. Dies wäre jedoch eine Fehlinterpretation, was bei Umrechnung in die absolute Differenz und die NNT offensichtlich wird [39]. So bedeutete zum Beispiel in einer Studie eine Mittelwertdifferenz von 0,43 CRQ-Einheiten, dass 34% der Patienten von der Behandlung profitieren, was einer NNT von ca. 3 entspricht [39].

Konvertierung in relative und absolute Effekte Ein dritter Ansatz (Reihe (C) in den Tabelle 4 und 5) dichotomisiert das kontinuierliche Maß zur Erfassung des Endpunktes und ermöglicht so die Berechnung von relativen und absoluten Effekten. Eine Methode zur Dichotomisierung von kontinuierlichen Daten beruht auf der SMD. Sie setzt voraus, dass die Resultate sowohl der Interventionsals auch der Kontrollgruppe normalverteilt sind und gleiche Varianzen aufweisen [28,40]; diese Annahmen werden üblicherweise auch für die Berechnung der SMDs in MetaAnalysen gemacht. Wir verwenden diesen Ansatz in Reihe C in Tabelle 4. Er deutet auf einen sehr großen relativen Effekt und einen erheblichen absoluten Effekt hin, insbesondere wenn das Basis-Risiko hoch ist. Der Vorteil dieses Ansatzes liegt darin, dass er durch Konsultieren von Tabelle 6 leicht angewandt werden kann. Tabelle 6 stellt die Relation zwischen SMD und Risikodifferenz dar, wobei sich der obere Bereich auf die Konvertierung von unerwünschten Endpunkten (z.B. Schmerz) und der untere Bereich auf die Konvertierung von erwünschten Endpunkten (z.B. Ansprechen auf Behandlung) bezieht. Der Ansatz hat jedoch 3 bedeutsame Nachteile. Erstens ist die Ableitung des dichotomen Endpunktes, der sich durch die Intervention verringert, von dem kontinuierlichen Endpunkt oft nicht offensichtlich. Wir erhalten die Differenz

344 Tabelle 6

L.K. Schell et al. Risikodifferenz abgeleitet von der SMDa

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Für Situationen, in denen das Ereignis unerwünscht ist: Reduktion (oder Zunahme, falls die Intervention schädlich ist) der unerwünschten Ereignisse durch die Intervention Ansprech-Rate der Kontrollgruppe (SMD) -0,2 -0,03 -0,05 -0,07 -0,08 -0,08 -0,08 -0,07 -0,06 -0,04 -0,5 -0,06 -0,11 -0,15 -0,17 -0,19 -0,20 -0,20 -0,17 -0,12 -0,8 -0,08 -0,15 -0,21 -0,25 -0,29 -0,31 -0,31 -0,28 -0,22 -1,0 -0,09 -0,17 -0,24 -0,23 -0,34 -0,37 -0,38 -0,36 -0,29 Für Situationen, in denen das Ereignis erwünscht ist: Zunahme (oder Reduktion, falls die Intervention schädlich ist) des Ansprechens auf die Intervention Ansprech-Rate der Kontrollgruppe (SMD) 0,2 0,04 0,06 0,07 0,08 0,08 0,08 0,07 0,05 0,03 0,5 0,12 0,17 0,19 0,20 0,19 0,17 0,15 0,11 0,06 0,8 0,22 0,28 0,31 0,31 0,29 0,25 0,21 0,15 0,08 1,0 0,29 0,36 0,38 0,38 0,34 0,30 0,24 0,17 0,09 Abkürzung: SMD - standardisierte Mittelwertdifferenz a Ansatz nach Furukawa [40]

zwischen Kontroll- und Interventionsgruppe bezüglich der Anteile von Patienten über einem Schwellenwert, der Schwellenwert kann allerdings willkürlich gewählt sein. In diesem Beispiel (Reihe (C) in Tabelle 4) definierten wir den Schwellenwert als ,,erhebliche postoperative Schmerzen‘‘. Zweitens erfordert dieser Ansatz, dass Autoren den Anteil der Patienten in der Kontrollgruppe angeben, der ein unerwünschtes Ereignis erfährt — in unserem Beispiel der Anteil der Patienten, deren Schmerzwerte über dem Schwellenwert liegen. Diesen Anteil festzulegen kann schwierig sein. Wenn beispielsweise nur angegeben ist, dass die Schmerzwerte der Kontrollgruppe zwischen 43 und 54 liegen und SDs von ca. 15 aufweisen, kann man kaum den Anteil der Patienten in der Kontrollgruppe bestimmen, die keine bedeutsame Verbesserung erfahren haben. Hierfür nutzen wir in unserem Beispiel den Anteil der Patienten der Kontrollgruppe, die notfallmäßig Schmerzmedikamente benötigten. Hier wird letzteres Problem teilweise dadurch gemildert, dass sich die Anteile derjenigen, die profitieren, nur an den Extremwerten der Kontrollproportionen substanziell ändern. Drittens ist dieser Ansatz, da er auf der SMD beruht, sehr anfällig dafür, ob die Studienpopulationen sehr ähnliche Werte im interessierenden Endpunkt aufweisen oder ob die Werte sehr breit streuen. Auch andere statistische Ansätze stützen sich auf die SMD, um kontinuierliche Endpunkte dichotom darzustellen [41,42]. Sie unterliegen ähnlichen Einschränkungen, mit der Ausnahme, dass die Angabe des Risikos in der Kontrollgruppe nicht benötigt wird; einer der Ansätze wird instabil, wenn das zugrunde liegende Risiko kleiner als 20% oder größer als 80% ist [42]. Eine andere Strategie, um Endpunkte zu dichotomisieren und relative und absolute Effektschätzer angeben zu können, beruht auf der Kenntnis der MID. Bei diesem Ansatz geht man davon aus, dass die Daten normalverteilt sind und berechnet dann pro Studie die Anteile der Patienten in der Interventions- und Kontrollgruppe, bei denen sich eine Verbesserung größer als die MID zeigte [32]. Die Ergebnisse werden dann über alle Studien hinweg zusammengefasst. Wenn man diesen Ansatz in Tabelle 5 anwendet, deuten die

Ergebnisse auf einen erheblichen relativen und absoluten Nutzen der respiratorischen Rehabilitation bezogen auf die gesundheitsbezogene Lebensqualität hin. Wenn man nur Posttest-Daten zur Verfügung hat (statt Veränderungswerte), kann man diesen Ansatz ebenfalls anwenden, sofern Evidenz zu einem sinnvollen Schwellenwert existiert. Wenn man beispielsweise weiß, dass Patienten mit einem Wert kleiner als 8 auf der Hamilton Rating Scale for Depression (HAM-D) als nicht-depressiv eingestuft werden, könnte man den Anteil der Patienten unter diesem Schwellenwert untersuchen. Wenn solche sinnvollen Schwellenwerte nicht existieren, kann man trotzdem Posttest-Daten verwenden, wenn man annimmt, dass die minimale klinisch wichtige Veränderung eines Individuums im Durchschnitt der MID zwischen Individuen entspricht. So kann man die Differenz im Anteil derer, die profitieren, zwischen Interventions- und Kontrollgruppe berechnen. Dazu addiert man zum Mittelwert der Kontrollgruppe eine MID-Einheit hinzu und berechnet den Anteil der Patienten jeder Gruppe, die über diesem Schwellenwert liegen.

Verhältnis der Mittelwerte Ein vierter, bisher selten genutzter Ansatz (Zeile D in Tabelle 4) mag für Kliniker ansprechend sein: man berechnet das Verhältnis der Mittelwerte (VdM) zwischen Interventionsund Kontrollgruppe [43]. Der Vorteil dieses Ansatzes liegt darin, dass Studien zusammengefasst werden können, deren Endpunkte in verschiedenen Einheiten dargestellt werden. Des Weiteren ist dieser Ansatz unempfindlich gegenüber heterogenen Populationen (was ein Nachteil der auf SDEinheiten beruhenden Ansätze ist) und er ist klinisch leicht zu interpretieren. Die publizierte VdM-Methode ist jedoch nur für Posttest-Werte konzipiert und wird daher in Tabelle 5, welche Veränderungen gegenüber den Baseline-Werten abbildet, nicht dargestellt. Es ist trotzdem möglich, das Verhältnis von Veränderungswerten zu berechnen, wenn sowohl Interventions- als

GRADE Leitlinien: 13. Erstellen von Summary-of-Findings-Tabellen und Evidenzprofilen — kontinuierliche Endpunkte auch Kontrollgruppe jeder relevanten Studie Veränderungen in die gleiche Richtung aufweisen. Dieses Verhältnis kann manchmal sehr informativ sein. Die Grenzen dieses Ansatzes liegen darin, dass es (1) unwahrscheinlich ist, dass die Veränderungen in Interventions- und Kontrollgruppen über alle Studien hinweg die gleiche Richtung aufweisen und dass (2) irreführende Resultate auftreten können, falls die Veränderung in der Kontrollgruppe sehr klein ist — in diesem Fall ergibt sich auch durch eine mäßig große Veränderung in der Interventionsgruppe eine große und daher irreführende Veränderung der VdM-Werte. Im Dexamethason-Beispiel zur postoperativen Schmerztherapie (Tabelle 4) ergibt sich bei Verwendung des VdM-Ansatzes nur eine relative Schmerzreduktion von 13%, was bedeutet, dass die Schmerzwerte der Interventionsgruppe 87% der Schmerzwerte der Kontrollgruppe betragen. Dieser Effekt erscheint recht bescheiden.

MID-Einheiten Ein letzter Ansatz fasst Studien in ähnlicher Weise wie die SMD zusammen. Dabei dividiert man die Mittelwertdifferenz jeder Studie jedoch durch die mit dem Endpunkt assoziierte MID statt durch die SD [44], sodass das Endergebnis in MID-Einheiten statt in SD-Einheiten angegeben wird. Dieser Ansatz umgeht das Problem, dass die Studien unterschiedliche SDs aufweisen können, was bei Ansätzen, die auf der SMD beruhen, zu verzerrten Effektschätzern führen kann. Des Weiteren kann er leichter interpretiert werden, auch wenn das Risiko besteht, dass eine Differenz kleiner als die MID als unwichtig interpretiert wird, während in Wirklichkeit ein erheblicher Anteil der Patienten von der Behandlung deutlich profitiert. Außerdem wird der Ansatz fragwürdig, wenn die MID nicht auf solider Evidenz beruht. Wie in der Kommentarspalte von Tabelle 4 dargestellt, bewirkt Dexamethason eine Schmerzreduktion von weniger als einer halben MID, was auf einen kleinen oder sehr kleinen Effekt schließen lässt. Tabelle 5 zeigt hingegen einen Effekt von beinahe 2 MID-Einheiten, was auf einen erheblichen Nutzen der respiratorischen Rehabilitation für die HRLQ hindeutet.

Zur Interpretation der fünf Methoden Die vorausgehende Diskussion macht deutlich, dass es keine ideale Methode gibt, um die Resultate von kontinuierlichen Endpunkten interpretierbar zu machen, insbesondere wenn die Studien unterschiedliche Messinstrumente für das gleiche Konstrukt (z.B. Schmerzen, Funktion oder psychisches Befinden) verwendet haben. Angesichts der manchmal fragwürdigen Annahmen, die jeder Ansatz trifft, wäre es beruhigend, wenn die Methoden im Wesentlichen zu gleichen Schlüssen führen würden. Auf das Beispiel der respiratorischen Rehabilitation trifft dies zu: alle Ansätze deuten auf einen moderaten bis großen absoluten Effekt der respiratorischen Rehabilitation auf die HRQL hin. Auf das Beispiel Dexamethason und Schmerz trifft dies jedoch nicht zu. In diesem Fall lassen der SMD (A) und der relative/absolute Effekt (C) auf einen großen Nutzen der Behandlung schließen, während die anderen drei Ansätze auf eine kleine oder sogar unbedeutende Schmerzreduktion

345

hindeuten. Dies liegt daran, dass die eingeschlossenen Patienten sehr homogene Schmerzwerte aufweisen, was zu einer sehr kleinen SD führt. Diese kleine SD lässt dann auf einen großen Effekt schließen, wenn dieser in SD-Einheiten ausgedrückt wird. Diese Einschränkung des SD-Ansatzes wird noch deutlicher, wenn man mit dem MID-Ansatz den relativen und absoluten Effekt berechnet (siehe das Beispiel zur respiratorischen Rehabilitation). Wendet man den MID-Ansatz auf die Daten zu Schmerz nach Cholezystektomie an, ergeben sich sehr unterschiedliche Schätzer für den relativen Effekt (relatives Risiko [RR] 0,64; 95% KI: 0,34; 1,17) und den absoluten Effekt (Risiko Differenz [RD]: 0,03; 95% KI: 0,01; 0,07). Dies steht im Gegensatz zu den großen Punktschätzern und den relativ engen Konfidenzintervallen um sowohl den relativen als auch den absoluten Effekt in Reihe C in Tabelle 4 und unterstreicht die Empfindlichkeit von Methoden, die auf SD-Einheiten beruhen, was sich in unseren Empfehlungen niederschlägt.

Empfehlungen zur besseren Interpretierbarkeit von Meta-Analysen, deren primäre Studien unterschiedliche Instrumente verwenden, um dasselbe zugrunde liegende Konstrukt zu erfassen Wir haben fünf Ansätze beschrieben, die genutzt werden können, um die Interpretation von kontinuierlichen Variablen in Meta-Analysen, deren Primärstudien unterschiedliche Instrumente verwendet haben, zu erleichtern. Review-Autoren sollten denjenigen Ansatz wählen, der zur jeweiligen Situation am besten passt. Dabei können folgende Orientierungshilfen hilfreich sein: 1. Es kann informativ und — falls die klinische Aussage ähnlich ist — beruhigend sein, mehr als eine Darstellung zu verwenden. So kann auch das Risiko einer verzerrten Auswahl der Darstellung reduziert werden, falls die klinischen Aussagen unterschiedlich sind. Wenn die klinischen Aussagen unterschiedlich sind und unklar ist, welche Aussage zutrifft, sollten Review Autoren erwägen, das Vertrauen wegen Inkonsistenz herunterzustufen. In den Tabelle 4 und 5 wird beispielhaft dargestellt, wie man mehr als einen Ansatz innerhalb einer SoF-Tabelle darstellen kann. 2. Wenn ein Instrument im klinischen Alltag regelmäßig verwendet wird und den meisten Lesern einer systematischen Übersichtsarbeit oder Leitlinie geläufig ist, sollte eine der Darstellungen in den natürlichen Einheiten dieses Instruments erfolgen. 3. Kommentare sollten dazu dienen, die Interpretation zu erleichtern (z.B. Faustregeln zur Interpretation der SMD und Angabe der MID, sofern etabliert) 4. Falls möglich, sollten Methoden gewählt werden, die nicht auf SD-Einheiten beruhen. Wenn die Angabe des Ergebnisses in SD-Einheiten erfolgt, sollte eine Interpretationshilfe mit angegeben werden. Bei Ansatz B wäre es besser, die Umrechnungsoption zu wählen statt die SMD mit der SD des geläufigsten Instruments zu multiplizieren. Bei Ansatz C ist es vorzuziehen, relative und

346 absolute Effekte durch Verwendung der MID zu berechnen (falls verfügbar), statt einen der Ansätze zu wählen, die auf SD-Einheiten beruhen. 5. In den meisten Fällen sollte man erwägen, die Größe des Effekts sowohl als Odds Ratio (OR) bzw. relatives Risiko (RR) als auch als Risikodifferenz darzustellen. Dies hat den Vorteil, dass Kliniker mit dieser Darstellung vertraut sind; es hat auch den Vorteil, dass die GRADE-Richtlinien für große und sehr große Effekte (für den relativen Effekt) und die Nützlichkeit für die klinische Entscheidungsfindung (für absolute Effekte) angewendet werden können (Tabelle 3). Da die alleinige Darstellung der relativen Effekte irreführend sein kann, insbesondere wenn die relativen Effekte groß und die absoluten Effekte klein sind, sollte die Zusammenfassung auch auf die Höhe des absoluten Effekts eingehen. 6. Review-Autoren sollten Transparenz herstellen, indem sie die Quellen der verwendeten MID und der verwendeten SDs sowie die zugrunde liegenden Annahmenangeben.

Fazit Kontinuierliche Variablen auf valide Weise so zusammenzufassen, dass sie leicht zu interpretieren sind, ist schwierig. Daher sollten Autoren von systematischen Übersichtsarbeiten und Entwickler von Leitlinien die Ansätze, die wir vorgeschlagen haben, sorgfältig erwägen.

Literatur [1] Guyatt G, Oxman AD, Akl EA, Kunz R, Vist G, Brozek J, et al. GRADE guidelines: 1. Introduction-GRADE evidence profiles and summary of findings tables. J Clin Epidemiol 2011;64(4):383—94. [2] Langer G, Meerpohl JJ, Perleth M, Gartlehner G, KaminskiHartenthaler A, Schunemann H. [GRADE guidelines: 1. Introduction - GRADE evidence profiles and summary of findings tables]. Z Evid Fortbild Qual Gesundhwes 2012;106(5):357—68. [3] Langer G, Meerpohl JJ, Perleth M, Gartlehner G, KaminskiHartenthaler A, Schunemann H. [GRADE guidelines: 2. Framing the question and deciding on important outcomes]. Z Evid Fortbild Qual Gesundhwes 2012;106(5):369—76. [4] Guyatt GH, Oxman AD, Kunz R, Atkins D, Brozek J, Vist G, et al. GRADE guidelines: 2. Framing the question and deciding on important outcomes. J Clin Epidemiol 2011;64(4):395—400. [5] Meerpohl JJ, Langer G, Perleth M, Gartlehner G, KaminskiHartenthaler A, Schunemann H. [GRADE guidelines: 3. Rating the quality of evidence (confidence in the estimates of effect)]. Z Evid Fortbild Qual Gesundhwes 2012;106(6):449—56. [6] Balshem H, Helfand M, Schunemann HJ, Oxman AD, Kunz R, Brozek J, et al. GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol 2011;64(4):401—6. [7] Meerpohl JJ, Langer G, Perleth M, Gartlehner G, KaminskiHartenthaler A, Schunemann H. [GRADE guidelines: 4. Rating the quality of evidence - limitations of clinical trials (risk of bias)]. Z Evid Fortbild Qual Gesundhwes 2012;106(6):457—69. [8] Guyatt GH, Oxman AD, Vist G, Kunz R, Brozek J, AlonsoCoello P, et al. GRADE guidelines: 4. Rating the quality of evidence–study limitations (risk of bias). J Clin Epidemiol 2011;64(4):407—15. [9] Nolting A, Perleth M, Langer G, Meerpohl JJ, Gartlehner G, Kaminski-Hartenthaler A, et al. [GRADE guidelines: 5. Rating

L.K. Schell et al.

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28] [29]

the quality of evidence: publication bias]. Z Evid Fortbild Qual Gesundhwes 2012;106(9):670—6. Guyatt GH, Oxman AD, Montori V, Vist G, Kunz R, Brozek J, et al. GRADE guidelines: 5. Rating the quality of evidence–publication bias. J Clin Epidemiol 2011;64(12):1277—82. Kulig M, Perleth M, Langer G, Meerpohl JJ, Gartlehner G, Kaminski-Hartenthaler A, et al. [GRADE guidelines: 6. Rating the quality of evidence: imprecision]. Z Evid Fortbild Qual Gesundhwes 2012;106(9):677—88. Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADE guidelines 6. Rating the quality of evidence– imprecision. J Clin Epidemiol 2011;64(12):1283—93. Perleth M, Langer G, Meerpohl JJ, Gartlehner G, KaminskiHartenthaler A, Schunemann HJ. [GRADE guidelines: 7. Rating the quality of evidence - inconsistency]. Z Evid Fortbild Qual Gesundhwes 2012;106(10):733—44. Guyatt GH, Oxman AD, Kunz R, Woodcock J, Brozek J, Helfand M, et al. GRADE guidelines: 7. Rating the quality of evidence– inconsistency. J Clin Epidemiol 2011;64(12):1294—302. Rasch A, Perleth M, Langer G, Meerpohl JJ, Gartlehner G, Kaminski-Hartenthaler A, et al. [GRADE guidelines: 8. Rating the quality of evidence - indirectness]. Z Evid Fortbild Qual Gesundhwes 2012;106(10):745—53. Guyatt GH, Oxman AD, Kunz R, Woodcock J, Brozek J, Helfand M, et al. GRADE guidelines: 8. Rating the quality of evidence– indirectness. J Clin Epidemiol 2011;64(12):1303—10. Guyatt GH, Oxman AD, Sultan S, Glasziou P, Akl EA, AlonsoCoello P, et al. GRADE guidelines: 9. Rating up the quality of evidence. J Clin Epidemiol 2011;64(12):1311—6. Brunetti M, Shemilt I, Pregno S, Vale L, Oxman AD, Lord J, et al. GRADE guidelines: 10. Considering resource use and rating the quality of economic evidence. J Clin Epidemiol 2013;66(2):140—50. Guyatt G, Oxman AD, Sultan S, Brozek J, Glasziou P, AlonsoCoello P, et al. GRADE guidelines: 11. Making an overall rating of confidence in effect estimates for a single outcome and for all outcomes. J Clin Epidemiol 2013;66(2):151—7. Guyatt GH, Oxman AD, Santesso N, Helfand M, Vist G, Kunz R, et al. GRADE guidelines: 12. Preparing summary of findings tables-binary outcomes. J Clin Epidemiol 2013;66(2):158—72. Guyatt G, Schunemann H. How can quality of life researchers make their work more useful to health workers and their patients? Qual Life Res 2007;16(7):1097—105. Guyatt GH, Osoba D, Wu AW, Wyrwich KW, Norman GR. Clinical Significance Consensus Meeting G. Methods to explain the clinical significance of health status measures. Mayo Clin Proc 2002;77(4):371—83. Jaeschke R, Singer J, Guyatt GH. Measurement of health status. Ascertaining the minimal clinically important difference. Control Clin Trials 1989;10(4):407—15. Clarke M, Hopewell S, Juszczak E, Eisinga A, Kjeldstrom M. Compression stockings for preventing deep vein thrombosis in airline passengers. Cochrane Database Syst Rev 2006;(2):CD004002. Wardlaw JM, del Zoppo G, Yamaguchi T. Thrombolysis for acute ischaemic stroke. Cochrane Database Syst Rev 2000;(2):CD000213. Alonso-Coello P, Zhou Q, Martinez-Zapata MJ, Mills E, HeelsAnsdell D, Johanson JF, et al. Meta-analysis of flavonoids for the treatment of haemorrhoids. Br J Surg 2006;93(8):909—20. Furukawa TA, Akechi T, Wagenpfeil S, Leucht S. Relative indices of treatment effect may be constant across different definitions of response in schizophrenia trials. Schizophr Res 2011;126(1—3):212—9. Suissa S. Binary methods for continuous outcomes: a parametric alternative. J Clin Epidemiol 1991;44(3):241—8. Altman DG, Royston P. The cost of dichotomising continuous variables. BMJ 2006;332(7549):1080.

Peer Review — voneinander Lernen für mehr Qualität und Sicherheit in der Patientenversorgung [30] Beck A, Steer R, Brown G. Manual for the BDI-II. San Antonio, TX: Psychological Corporation; 1996. [31] Hamilton M. Development of a rating scale for primary depressive illness. Br J Soc Clin Psychol 1967;6(4):278—96. [32] Thorlund K, Walter SD, Johnston BC, Furukawa TA, Guyatt GH. Pooling health-related quality of life outcomes in metaanalysis—–a tutorial and review of methods for enhancing interpretability. Res Synth Methods 2011;2(3):188—203. [33] Karanicolas PJ, Smith SE, Kanbur B, Davies E, Guyatt GH. The impact of prophylactic dexamethasone on nausea and vomiting after laparoscopic cholecystectomy: a systematic review and meta-analysis. Ann Surg 2008;248(5):751—62. [34] Lacasse Y, Goldstein R, Lasserson TJ, Martin S. Pulmonary rehabilitation for chronic obstructive pulmonary disease. Cochrane Database Syst Rev 2006;(4):CD003793. [35] Deeks JJ, Higgins J, Altman DG. Analysing data and undertaking meta-analyses. In: Higgins J, Green S, editors. Cochrane Handbook for Systematic Reviews of Interventions Version 510 (updated March 2011). Chichester, UK: Wiley; 2011. [36] Fern EF, Monroe KB. Effect-size estimates: issues and problems in their interpretation. J Consum Res 1996;23:89—105. [37] Cohen J. Statistical power analysis for the behavioral sciences. Hillsdale, NJ: Erlbaum; 1988.

[38] Dworkin RH, Turk DC, Wyrwich KW, Beaton D, Cleeland CS, Farrar JT, et al. Interpreting the clinical importance of treatment outcomes in chronic pain clinical trials: IMMPACT recommendations. J Pain 2008;9(2):105—21. [39] Guyatt GH, Juniper EF, Walter SD, Griffith LE, Goldstein RS. Interpreting treatment effects in randomised trials. BMJ 1998;316(7132):690—3. [40] Furukawa TA. From effect size into number needed to treat. Lancet 1999;353(9165):1680. [41] Cox DR, Snell EJ. Analysis of binary data. London, UK: Chapman and Hall; 1989. [42] Hasselblad V, Hedges LV. Meta-analysis of screening and diagnostic tests. Psychol Bull 1995;117(1):167—78. [43] Friedrich JO, Adhikari NK, Beyene J. The ratio of means method as an alternative to mean differences for analyzing continuous outcome variables in meta-analysis: a simulation study. BMC Med Res Methodol 2008;8:32. [44] Johnston BC, Thorlund K, Schunemann HJ, Xie F, Murad MH, Montori VM, et al. Improving the interpretation of quality of life evidence in meta-analyses: the application of minimal important difference units. Health Qual Life Outcomes 2010;8: 116.

Peer Review — voneinander Lernen für mehr Qualität und Sicherheit in der Patientenversorgung BÄK legt methodischen Leitfaden

,,Ärztliches Peer Review‘‘ vor ,,Der Goldstandard für die Qualitätsverbesserung der Patientenversorgung ist die Reflexion des eigenen ärztlichen Handelns mit Fachkollegen und nach konkreten Verfahrensregeln. Die Erfahrungen zeigen, dass die Qualität eines solchen Peer Reviews sehr stark von der Kompetenz der Peers abhängt‘‘, erklärte Dr. Günther Jonitz, Vorsitzender der Qualitätssicherungsgremien der Bundesärztekammer und Präsident der Ärztekammer Berlin anlässlich der Vorstellung des Leitfadens ,,Ärztliches Peer Review‘‘. ,,Qualität entsteht unmittelbar auf der Ebene der Patientenversorgung, von Menschen für Menschen. Deshalb müssen Verfahren, die die Qualität verbessern sollen, von Ärzten und anderen Berufsgruppen im konkreten Arbeitsalltag akzeptiert und wirksam werden‘‘. Das von Ärzten für Ärzte aus eigenem professionellem Selbstverständnis heraus entwickelte Verfahren biete die Chance, Qualitätsentwicklung mit geringem bürokratischen Aufwand

347

und direktem Wissenstransfer in die tagtägliche ärztliche Praxis zu integrieren. Nach wie vor gibt es im stationären und im ambulanten Bereich ein zunehmendes Interesse, Peer-ReviewVerfahren in weiteren Fachdisziplinen sowie interprofessionell und sektorenübergreifend zu etablieren. Die Bundesärztekammer (BÄK) kommt diesem Interesse nach und legt mit dem ,,Leitfaden Ärztliches Peer Review‘‘ eine methodische Anleitung zur Implementierung und Durchführung eines Peer-Review-Verfahrens für alle Sektoren des Gesundheitswesens vor. Mit ihrem ,,Curriculum Ärztliches Peer Review‘‘ hat die Bundesärztekammer bereits 2011 ein Qualifizierungskonzept entwickelt, nach dem bis Ende 2013 bereits etwa 500 Peers durch die Landesärztekammern geschult wurden. Die Impulse für eine erweiterte und systematische Verankerung von PeerReview-Verfahren in der ärztlichen Qualitätssicherung gingen in jüngster Zeit vor allem von der Initiative Qualitätsmedizin (IQM) und den Intensivmedizinischen Netzwer-

MAGAZIN

ken unter dem Dach der Deutschen Interdisziplinären Vereinigung für Intensiv- und Notfallmedizin (DIVI) in Kooperation mit den Ärztekammern aus. Weitere Qualitätsinitiativen im deutschsprachigen Raum haben das Peer Review inzwischen implementiert und insbesondere im stationären Bereich populär gemacht. Mit Hilfe dieses praxisorientierten Leitfadens, der auch Musterdokumente und Checklisten beinhaltet, sollen interessierte Fachgesellschaften, Ärztenetze und andere Organisationen bei der Entwicklung eines Peer-Review-Verfahrens unterstützt werden. Zusammen mit dem ,,Curriculum Ärztliches Peer Review‘‘ liegen damit zwei Veröffentlichungen vor, die ärztliche und berufsübergreifende Initiativen unterstützen, die Erfolgsfaktoren von Peer Reviews umzusetzen. Leitfaden ‘‘Ärztliches-Peer-Review’’ [PDF] Leitfaden ‘‘Ärztliches-Peer-Review’’ Checklisten-Musterdokumente [DOC]