Verzerrung der Wirksamkeit bei Real-World-Daten

Möchte man wissen, ob ein Impfstoff hilft oder nicht, dann ist der Königsweg ein kontrolliertes Experiment. Jeder Teilnehmer wird per Zufallsprinzip entweder der Behandlungsgruppe oder der Kontrollgruppe zugewiesen. Die Teilnehmer in der Behandlungsgruppe erhalten den Impfstoff, die Teilnehmer der Kontrollgruppe ein Placebo (z.B. Kochsalzlösung). Am Ende steht immer der Vergleich zwischen beiden Gruppen. Der Unterschied der Gruppen wird berechnet und die statistische Signifikanz geprüft. Damit ist die Frage, ob der Impfstoff hilft oder nicht, beantwortet.

Die Größe Wirksamkeit drückt den Unterschied zwischen der Behandlungs- und Kontrollgruppe elegant in einer einzigen Zahl aus. Es ist schlicht die prozentuale Differenz der Raten zwischen den Gruppen. Angenommen Infektionen treten mit der Rate b Infektion pro 100 Teilnehmer in der Behandlungsgruppe und der Rate k Infektionen pro 100 Teilnehmer in der Kontrollgruppe auf. Dann ist die Wirksamkeit der Intervention bezüglich Infektionen:

w = 100 * (k-b)/k

Bei gleicher Rate von Infektionen (b = k) ergibt sich eine Wirksamkeit w = 0 %. Der Impfstoff hat keinen messbaren Unterschied gebracht. Ist die beobachtete Rate in der Behandlungsgruppe nur halb so groß wie in der Kontrollgruppe (b = 0,5*k), so folgt w = 50 %. Gibt es gar keine Infektionen in der Behandlungsgruppe (b = 0), dann erhält man die Wirksamkeit w = 100 %. Soweit problemlos.

Probleme können aber entstehen, wenn die Ermittlung der Wirksamkeit auf Daten beruht, welche nicht dem oben beschrieben Schema eines randomisierten kontrollierten Experimentes (RCT) folgen. Bei großer Stichprobe garantiert die erwähnte zufällige Verteilung der Teilnehmer auf die beiden Gruppen, dass keine signifikanten Unterschiede bezüglich Risikofaktoren bestehen. Der Anteil Männer ist in beiden Gruppen ähnlich, das mittlere Alter ist ähnlich, Anzahl und Art der Vorerkankungen sind ähnlich, etc … Auch bei Risikofaktoren, die man noch gar nicht kennt, wird kein signifikanter Unterschied bestehen. Nur so kann man sicherstellen, dass am Ende ein unverzerrter Schätzwert der Wirksamkeit steht.

Bei Real-World-Daten zu Impfstoffen sind unterschiedliche Alter in den Gruppen Quelle für viele mögliche Verzerrungen. Zum einen zeigen Studien, dass junge Leute häufiger sozialisieren als ältere Leute. Da jeder Sozialkontakt eine Chance zur Infektion bringt, würde man alleine basierend auf diesem Effekt einen Unterschied in den Gruppen sehen. Bei mehr jungen Leute in der Behandlungsgruppe würde die berechnete Wirksamkeit unter der unverzerrten Wirksamkeit landen und der Impfstoff schlechter aussehen, als er tatsächlich ist. Bei mehr jungen Leuten in der Kontrollgruppe, das ist bei Real-World-Daten zu Coronavirus-Impfstoffen in der Regel der Fall, liegt dann die berechnete Wirksamkeit hingegen über dem unverzerrten Wert.

Bei der Wirksamkeit zu schwerem Verlauf oder Hospitalisierung findet man eine eine Verzerrung in die umgekehrte Richtung. Da ältere Leute im Mittel eine höhere Chance auf einen schweren Verlauf haben, weist eine ältere Behandlungsgruppe (bei Real-World-Daten in der Regel der Fall) überproportional viele schwere Verläufe auf, was die Wirksamkeit unter den unverzerrten Wert drückt. Der Impfstoff scheint also weniger effektiv, als er tatsächlich ist. Eine ältere Kontrollgruppe führt hingegen zu einer Überschätzung der Wirksamkeit des Impfstoffs gegen schweren Verlauf.

Eine deutliche Verzerrung kann auch Genesung bringen. Da Genesung einen Schutz vor Infektion und schwerem Verlauf bietet, wird ein hoher Anteil Genesener in einer Gruppe die entsprechenden Raten drücken. Hier ist die Verzerrung nicht symmetrisch. Bei einem hohen Anteil Genesener in der Kontrollgruppe (Ungeimpfte), wird es dort deutlich weniger Infektionen oder schwere Verläufe geben als bei kompletter Abwesenheit von vorherigen Genesungen. Die berechnete Wirksamkeit landet unter dem unverzerrten Wert und der Erfolg des Impfstoffes wird unterschätzt.

Mehr Genesungen in der Behandlungsgruppe (Geimpfte) dürften hingegen keine so starke Verzerrung bringen. Dies liegt daran, dass der Schutz von Geimpft+Genesen nur etwas höher als der Schutz reiner Genesung ist. Da jeder in dieser Gruppe geimpft wird, ist der Schutz somit nur marginal höher als ohne vorherige Genesungen und die Raten werden entsprechend nur marginal gedrückt. Es wird dann eine Wirksamkeit berechnet, die leicht über dem unverzerrten Wert liegt.

In der Summe betrachtet bringt also jeder Anteil Genesungen eine Verzerrung in Richtung Unterschätzung der Wirksamkeit. Die Verzerrung ist umso größer, je größer der Anteil Genesener ist. Im Gegensatz zu den anderen Variablen, die schon benannt wurden, ist hier also nicht die bloße Gleichverteilung anzustreben, sondern durch vorherige Antikörpertests ein Anteil Null.

Auch Erwartungen können die Wirksamkeit beeinflussen. In kontrollierten Experiment weiß idealerweise kein Teilnehmer, ob er zur Behandlungs- oder Kontrollgruppe gehört. Im echten Leben weiß man hingegen, ob man geimpft ist oder nicht und vermutet entsprechend einen Schutz oder nicht. Die Erwartung eines Schutzes lässt die Vorsicht in den Hintergrund treten und die Bereitschaft zur Sozialisierung steigt. Dadurch sinkt die ermittelte Wirksamkeit gegen Infektionen unter den unverzerrten Wert, welchen man durch ein kontrolliertes Experiment ermittelt hätte. Die Wirksamkeit wird somit unterschätzt. Diesselbe Verzerrung ergibt sich auch, wenn durch staatliche Maßnahmen Geimpfte weniger stark eingeschränkt werden als Ungeimpfte und dadurch mehr sozialisieren.

Eine weitere Quelle für Verzerrungen ist die Abdeckung durch Tests. Bei einem kontrollierten Experiment wird jeder Teilnehmer regelmäßig getestet. Die Testraten in beiden Gruppen sind gleich. Das ist bei Real-World-Daten oft nicht gegeben. Geimpfte unterliegen weniger strengen Testpflichten als Ungeimpfte. Somit entgehen bei Geimpften anteilig mehr Infektionen der Erfassung als bei Ungeimpften. Das gilt vor allem für asymptomatische Infektionen. Asymptomatische Geimpfte kommen der Infektion seltener auf die Spur, da durch die Abwesenheit von Symptomen kein Grund vorliegt, einen Test durchzuführen. Asymptomatische Ungeimpfte würden die Infektion durch die regelmäßigen Tests hingegen eher bemerken. Diese Verzerrung, welche die Wirksamkeit besser aussehen lässt, als sie tatsächlich ist, wird noch dadurch verstärkt, dass der Anteil asymptomatischer Infektionen bei Geimpften zudem höher ist. Dieser Anteil wird also bei Geimpften also nicht nur schlechter erfasst, sondern nimmt in dieser Gruppe gleichzeitig einen größeren Raum ein.

Man sieht, dass die Quellen für Verzerrungen endlos sind. Und wie wichtig kontrollierte Experimente sind. Nur bei diesen wird der unverzerrte Wert gemessen. Bei Real-World-Daten werden häufig Bereinigungen vorgenommen, um der realen Wirksamkeit näher zu kommen, doch dies gerät schnell an Grenzen. Während Bereinigungen nach Alter noch recht einfach sind, ist der Anteil Genesener in den Gruppen oft nicht bekannt. Dazu müsste man bei jedem Teilnehmer einen Antikörpertest durchführen. Bei Stichproben, welche nicht selten in die Millionen reichen, keine einfache Sache. Wie stark sich Erwartungen von Schutz und unterschiedliche Regeln auf die Wirksamkeit auswirken, kann bestenfalls grob geschätzt werden. Ebenso die Dunkelziffer bei asymptomatischen Infektionen. Sorgfältig bereinigte Real-World-Daten haben durchaus Aussagekraft und geben eine gute Vorstellung davon, wo die Wirksamkeit in etwa liegt, aber auch Bereinigung kann sie nicht auf eine Stufe mit den Ergebnissen kontrollierter Experimente bringen.

Leave a comment