Editorial

Wie zuverlässig sind Corona-Tests?
COVID-19-Methoden-Special: SARS-CoV-2-Test-Vergleich

Miriam Colindres


232
Antikörpertests am Fließband: Zwei Mitarbeiter der University of California San Francisco, die an einem Vergleich verschiedener SARS-CoV-2 Antikörper-Tests mitarbeiteten. Foto: UCSF.

(08.06.2020) Dass nicht alle RT-qPCR- sowie Antikörpertests SARS-CoV-2-RNA beziehungsweise anti-SARS-CoV-2-Antikörper mit der gleichen Zuverlässigkeit nachweisen, war zu erwarten. Inzwischen sind die ersten Vergleichstests da, die diese Vermutung bestätigen.

Als Folge der sich rasend ausbreitenden COVID-19-Pandemie wurden schon bald die ersten klinischen Tests zum Nachweis von SARS-CoV-2 entwickelt. Klinisch relevant sind RT-qPCR-Tests zum Nachweis einer akuten Infektion sowie Antikörpertests, um durchgemachte Infektionen festzustellen. Vor allem letztere gerieten aufgrund mangelnder Spezifität in Verruf.

Normalerweise werden Diagnostik-Tests umfassend validiert, bevor sie vermarktet und empfohlen werden, um möglichst genaue Ergebnisse zu gewährleisten. Die Folgen unzuverlässiger Tests können fatal sein: Erkrankte Patienten werden übersehen oder fälschlicherweise als erkrankt diagnostiziert.

Die Güte von Diagnostik-Tests wird anhand ihrer Sensitivität und Spezifität beurteilt. Die Sensitivität gibt die Rate positiver Fälle an, die korrekt als positiv identifiziert werden (richtig-positiv). Je höher die Sensitivität eines Tests ist, desto sicherer erfasst er die Erkrankung. Die Spezifität steht für die Rate der richtig-negativen Befunde. Sie gibt die Wahrscheinlichkeit an, mit der Gesunde durch den Test auch als gesund erkannt werden.

Der Gold-Standard für den Nachweis einer akuten SARS-CoV-2-Infektion sind RT-qPCR-Tests. Die Proben gewinnt man durch einen Abstrich aus dem Rachen oder der Nase des Patienten. Die RT-qPCR funktioniert jedoch nur, solange sich auch Virus-RNA im Körper des Patienten befindet.

Aufgrund der Dringlichkeit wurden viele RT-qPCR-Tests für den Nachweis von SARS-CoV-2 ohne gründliche Validierung durchgewunken. Ihre Überprüfung wurde weitgehend den Herstellern überlassen.

Wissenschaftler der spanischen Firma Genetic PCR Solutions (GPS) stellten bereits am 27. Januar als eine der ersten Gruppen einen SARS-CoV-2-RT-qPCR-Test vor. In einer Vergleichsstudie prüften sie jetzt die Zuverlässigkeit von acht aktuell von der WHO gelisteten RT-qPCR-Protokollen. Ihr eigenes Test-Kit (GPS-Kit) schlossen sie in die noch nicht begutachtete Analyse ein (bioRxiv doi.org/10.1101/2020.04.27.065383).

Zunächst verglich die Gruppe die SARS-CoV-2-Sequenz mit Sequenzen aus der Fledermaus (Bat-CoV, Bat-SARS-like-CoV), dem Schuppentier (Pangolin-CoV) sowie SARS-CoV. Am ähnlichsten waren die Sequenzen von Bat-CoV (knapp 97 Prozent) sowie Pangolin-CoV (knapp 91 Prozent), bei den restlichen lag sie unter 90 Prozent.

Inklusivität und Exklusivität

Anschließend schaute sich das Team die verwendeten Primer-Sequenzen der RT-qPCR-Tests genauer an. Die Inklusivität der Primer bestimmten die Spanier anhand der vorhandenen Fehlpaarungen (Mismatches) mit den anvisierten SARS-CoV-2-Sequenzen. Die Zahl der Mismatches zu Bat-SARS-like-CoV-, Bat-CoV-, Pangolin-CoV- sowie SARS-CoV-Sequenzen ist hingegen ein Maß für die Exklusivität der Primer.

Alle RT-qPCR-Primer zeigten eine vollständige Inklusivität für SARS-CoV-2. Nur der auf das N-Gen abzielende Primer der Universität Hongkong wies vier Fehlpaarungen auf, die sich wahrscheinlich negativ auf die Bindungseigenschaften auswirken. Das Team fand zwar in einzelnen Primern Mismatches. Diese lagen aber nicht in der Nähe des 3‘-Endes, so dass keine relevanten Auswirkungen auf die Bindung der Primer zu erwarten sind.

Bei der Exklusivität fielen dagegen deutlichere Unterschiede zwischen den Test-Kits auf. Die meisten Mismatches entdeckten die Spanier in den Primern ihres eigenen GPS-Tests. Diese enthalten 19 bis 48 Fehlpaarungen zu Sequenzen verwandter Coronaviren. Kreuzreaktivitäten sollten deshalb weitgehend ausgeschlossen sein.

An zweiter Stelle folgte der RT-qPCR-Test der State Key Laboratory of Emerging Infectious Diseases der Universität Hongkong, dessen Primer gegen das S-Gen von SARS-CoV-2 gerichtet sind. Bei diesen existieren 11 bis 25 Fehlpaarungen zu Pangolin-CoV- sowie Bat SARS-like-CoV-Sequenzen.

Auch die Primer der RT-qPCR-Designs IP2 und IP4 des Instituts Pasteur, Paris, enthalten 6 bis 12 beziehungsweise 12 bis 17 Fehlpaarungen. Sie diskriminieren deshalb ausreichend zwischen SARS-CoV-2, SARS-CoV sowie Bat-SARS-like-CoV und verwandten Coronaviren.

Der RT-qPCR-Test der Centers for Disease Control and Prevention (CDC) enthielt ursprünglich drei verschiedene Primer-Sets gegen die Gene N1, N2 und N3. Die Primer-Sequenzen N1 und N2 enthalten genügend Mismatches gegenüber anderen Betacoronaviren-Sequenzen. Lediglich zu manchen Pangolin-CoV-Sequenzen existieren nur sehr wenige Fehlpaarungen. Eine insgesamt geringe Exklusivität zeigte das N3-Primer-Set, das mittlerweile aus dem Test-Kit gestrichen wurde. Auch bei dem CDC-Protokoll sind daher kaum falsch-positive Ergebnisse zu erwarten.

Das RT-qPCR-Protokoll der Charité Berlin wird vermutlich weltweit am häufigsten eingesetzt. Bei diesem wird empfohlen, zunächst gegen das E-Gen zu testen und anschließend mit den RdRp-spezifischen Sonden P1 und P2 einen Bestätigungstest durchzuführen. P2 enthält vier Mismatches zu Bat-CoV, drei bis fünf zu Bat-SARS-like CoV, zwei bis drei zu SARS-CoV sowie zwei bis fünf zu Pangolin-CoV. P1 enthält zwei bis drei Mismatches zu Bat-CoV, Bat-SARS-like-CoV und Pangolin-CoV aber nur einen zu SARS-CoV. Kritisch ist das Primer-Set für das E-Gen, das keinen einzigen Mismatch aufweist.

Das National Institute for Viral Disease Control and Prevention in China entwickelte zwei RT-qPCR-Tests für die Zielgene ORF1ab und N. Die verwendeten Primer enthalten sieben bis neun Fehlpaarungen zu SARS-verwandten Coronaviren beziehungsweise drei bis zehn zu Coronaviren beim N-Gen.

Ähnliches gilt für die Primer des thailändischen RT-qPCR-Tests, die ebenfalls gegen das N-Gen gerichtet sind und insgesamt sechs bis sieben Fehlpaarungen aufweisen, zwei bis sechs davon zu Pangolin-CoV-Sequenzen. Auch der vom National Institute of Infectious Diseases of Japan entwickelte Test enthält zahlreiche Mismatches, darunter drei bis sieben zu Pangolin-CoV.

Schlusslicht mit Kreuzreaktivität

Das Schlusslicht bilden die Primer-Sets der Universität Hongkong, welche die Gene ORF1ab sowie N anvisieren. ORF1ab zeigt gar keine Mismatches zu anderen Coronaviren, der Primer für das N-Gen enthält vier bis fünf. Hier sind Kreuzreaktivitäten zwischen SARS-CoV-2, SARS-CoV und Bat-SARS-like-CoV möglich.

Trotz der unterschiedlichen In-silico-Spezifitäten der untersuchten Primer weisen die Kits eine SARS-CoV-2-Infektion zuverlässig nach. Die Wahrscheinlichkeit, dass ein anderes Coronavirus zu positiven Test-Ergebnissen führt, ist gering, zumal seit 2004 auch keine Infektion mit SARS-CoV mehr aufgetreten ist. Dennoch empfehlen die spanischen Wissenschaftler, die Primer regelmäßig zu überprüfen und auf den neuesten Stand zu bringen.

Großer Antikörpertest-Vergleich

Wie spezifisch SARS-CoV-2-Antikörpertests sind, untersuchte eine große Wissenschaftlergruppe aus Kalifornien (medRxiv doi.org/10.1101/2020.04.25.20074856). Sie kritisiert, dass viele Antikörpertests aufgrund der Notfalllage ohne formelle Zulassung durch die amerikanische Zulassungsbehörde (FDA) voreilig genehmigt wurden, und vermutet, dass viele qualitativ schlechte Tests im Umlauf sind. Mehr als fünfzig Forscher schlossen sich zusammen, um in einer Vergleichsstudie zehn Lateral Flow Assays (LFS) sowie zwei ELISA-Assays zum Nachweis von anti-SARS-CoV-2-Antikörpern hinsichtlich ihrer Sensitivität und Spezifität zu prüfen.

In die noch nicht begutachtete Analyse flossen insgesamt 290 Proben ein. Darunter 130 Plasma- oder Serumproben von 80 symptomatischen SARS-CoV-2-RT-qPCR-positiven Patienten, 108 Negativkontrollen, die aus der Zeit vor dem COVID-19-Ausbruch stammen, sowie 52 Proben von Patienten, die sich einem COVID-19-Test unterzogen hatten, aber negativ getestet wurden.

Unterschiedliche Zeitpunkte

Um die Leistung der Tests in Abhängigkeit vom Fortschreiten der Krankheit zu bewerten, analysierte die Gruppe Proben, die ein bis mehr als zwanzig Tage nach Auftreten der ersten Symptome entnommen worden waren. Das Alter der positiv getesteten Patienten lag zwischen 22 und über 90 Jahre. Für jeden durchgeführten Test wurden sowohl IgM- als auch IgG-Antikörper quantitativ nachgewiesen, alle Proben wurden verblindet.

Nach einem Monat standen die ersten Ergebnisse fest. Die meisten Tests zeigten eine positive Probe korrekt an. Sie waren also ausreichend sensitiv und lieferten eine gute Richtig-Positivrate.

Allerdings hatte der Zeitpunkt der Probenentnahme einen großen Einfluss auf das Ergebnis. Je später dieser nach dem Auftreten erster Symptome lag, desto höher war die Rate positiver Ergebnisse. Wobei die höchste Rate wie erwartet nach frühestens zwei Wochen erreicht wurde. Sie stieg zudem an, wenn die IgM- und IgG-Ergebnisse kombiniert wurden.

So erzielte zum Beispiel der Test der Firma Bioperfectus eine hundertprozentige Positivrate drei Wochen nach der Infektion. Die wenigsten falsch-positiven Ergebnisse produzierten die Tests von Sure Biotech und Wondfo Biotech sowie ein In-house-ELISA-Test der auf Florian Krammers Protokoll von der Icahn School of Medicine at Mount Sinai basierte. Die Spezifität lag hier bei über 95 Prozent. Der IgM-Nachweis fiel für alle getesteten Assays schwächer aus als der IgG-Nachweis (ĸ=0,81-1,00 vs. ĸ=0,95-0,99). Darüber hinaus beobachteten die kalifornischen Wissenschaftler einen Trend zu höheren Positivraten bei Proben von intensivmedizinisch betreuten Patienten gegenüber Patienten mit milden Symptomen.

Die Spezifität der Tests lag zwischen 84 und 100 Prozent. Einige liefern also haufenweise falsch-positive Resultate. Ein LFA-Test ergab sogar 39 falsch-positive Ergebnisse unter 108 getesteten Proben. Bei 15 Proben beobachtete die Gruppe ein mittelstarkes bis starkes positives Signal. Dies könnte auf unspezifische Bindungen von Plasmaproteinen, unspezifische Antikörper oder Kreuzreaktivitäten mit anderen Viren zurückzuführen sein.

Angehobener Schwellenwert

Hob die Gruppe den Schwellenwert für einen positiven Nachweis an, verbesserte sich insgesamt die Spezifität von knapp 95 auf etwa 98 Prozent. Dies ging allerdings auf Kosten der Sensitivität, die von durchschnittlich 66 Prozent auf knapp 57 Prozent fiel.

Den Forschern fiel zudem auf, dass in Proben aus der Zeit vor dem COVID-19-Ausbruch eine kleinere Positivrate gemessen wurde als in Negativ-Proben von Personen, die mit der RT-qPCR auf eine Infektion mit SARS-CoV-2 getestet worden waren. Eine dieser Proben reagierte auf acht verschiedene Tests positiv. Dies könnte entweder auf eine unspezifische Reaktivität des RT-qPCR-Tests hindeuten oder auf eine falsche COVID-19-Diagnose.

Auch bei der Interpretation negativer molekularer Ergebnisse als Ausschluss-Kriterium für eine Infektion ist also Vorsicht geboten.

Die Auswertung des Forscherteams deutet auf eine sehr heterogene Assay-Performance hin. Von zwölf Tests lieferten nur drei verlässliche Ergebnisse. Viele Antikörpertests zum Nachweis von SARS-CoV-2 sind offensichtlich nur unzulänglich validiert und bergen ein hohes Risiko für Kreuzreaktivitäten.

Mittlerweile hat auch ein Antikörpertest von Roche (Elecsys Anti-SARS-CoV-2) eine Eilzulassung von der FDA erhalten. Die Genehmigung ergänzt die Ende April erfolgte CE-Kennzeichnung. Der Elecsys-Test basiert auf einem Doppel-Antigen-Sandwich-Assay, der mit Roches Elektrochemilumineszenz-Verfahren (ECLIA) ausgewertet wird. Als Antigen nutzen die Schweizer eine biotinylierte sowie eine ruthenylierte Variante des Nucleocapsid (N)-Proteins von SARS-CoV-2.

Laut Roche liegt die Spezifität bei mehr als 99,8 Prozent und die Sensitivität bei hundert Prozent. Kreuzreaktivitäten wären damit kaum noch ein Thema, sodass dieser Test zum Gold-Standard für den Nachweis von anti-SARS-CoV-2-Antikörpern werden könnte.



Letzte Änderungen: 08.06.2020