Warum dieser Benchmark existiert und was er testet
KI-gestützte Blutbild Auswertung wird zunehmend in Consumer- und klinischen Workflows eingesetzt, dennoch sind reproduzierbare Bewertungsrahmen, die auf die Labormedizin zugeschnitten sind, nach wie vor selten. Die Fragen, die in diesem Kontext am wichtigsten sind, sind nicht die, die von allgemeinen Benchmarks zur Beantwortung medizinischer Fragen abgedeckt werden: kann eine Engine Eisenmangel von Thalassämie-Eigenschaft trennen, wenn das mittlere korpuskuläre Volumen identisch ist, diagnostiziert sie das Gilbert-Syndrom über als Hepatitis, und erzeugt sie Pathologie in einem vollständig normalen Screening-Panel?
Ein einzelnes Bluttest-Panel enthält typischerweise genug Signal, um mehrere konkurrierende Interpretationen zu unterstützen, und die Aufgabe des interpretierenden Klinikers besteht darin, diese Interpretationen gegeneinander abzuwägen, statt eine Lehrbuchantwort abzurufen. Eine Engine, die bei Lehrbuchfällen gut abschneidet, kann dennoch bei den Fällen scheitern, die am meisten zählen: bei den Fallstricken der Differentialdiagnose, bei den harmlosen Varianten, die isoliert betrachtet alarmierend wirken, und bei den vollständig normalen Panels, die selbstbewusste Assistenten dazu verleiten, eine Pathologie zu „erfinden“.
Dieser Benchmark wurde genau um diese Ausfallmodi herum gebaut. Jeder der fünfzehn Fälle wurde für eine spezifische diagnostische Eigenschaft ausgewählt: eine eisenmangelbedingte Mikrozytose, die klar von einem Beta-Thalassämie-Anlageträger mit identischem mittlerem korpuskulärem Volumen abzugrenzen ist, eine Präsentation wie beim Gilbert-Syndrom, bei der die einzige Auffälligkeit eine isolierte indirekte Hyperbilirubinämie ist, sowie ein Screening-Panel mit fünfzehn Parametern, in dem jede Analyte innerhalb ihres Referenzbereichs liegt. Die Bewertungsrubrik belohnt Engines, die jeden Fall in seinen eigenen Bedingungen lesen, und bestraft Engines, die nach einer selbstsicheren Diagnose greifen, wenn eine solche Diagnose nicht gerechtfertigt ist.
Als Thomas Klein, MD, habe ich das Fall-Panel ausgewählt, weil dies die Muster sind, die Labor-Medizin-Assistenten am häufigsten falsch machen. Der teure Ausfallmodus besteht nicht darin, "eine seltene Erkrankung zu übersehen" – sondern darin, routinemäßige Pathologie bei Patienten zu erfinden, die sie nicht haben. Unser Medizinische Validierung hub beschreibt den umfassenderen Rahmen; diese Seite beschreibt sein angewandtes Ergebnis auf der V11-Engine.
Aktueller Referenz-Run — V11 (April 2026)
Der Referenzlauf vom April 2026 der Kantesti AI Engine V11 ergab eine zusammengesetzte Punktzahl von 99.12% in der vorregistrierten Bewertungsrubrik mit fünfzehn Fällen. Beide Fälle mit dem Hyperdiagnose-Fallstrick erzielten die Höchstpunktzahl. Der Mentzer-Index wurde korrekt in der Differentialdiagnose Eisenmangel versus Thalassämie angewendet.
Die zusammengesetzte Formel kombiniert drei Komponenten: strukturelle Übereinstimmung mit den sieben verpflichtenden Berichtsteilen und sechzehn verpflichtenden Unterabschnitten, klinische Genauigkeit gemessen als Keyword-Recall plus Recall des Bewertungssystems plus eine Validitätsprüfung der Wahrscheinlichkeitsverteilung, und Antwortlatenz gegenüber dem 20-Sekunden-Zielwert für den primären Service-Level. Die exakte Zerlegung ist in der Rubrikformel unten dargestellt.
Die verbleibenden 0,88 Prozentpunkte Kopffreiheit zerfallen fast vollständig in Latenzverluste — drei Phase-2-Fallback-Aufrufe mit jeweils minus 0,05 pro zusammengesetztem Wert trugen etwa 0,60 der 0,88-Punkte-Unterdeckung bei — statt in klinischen Inhalt. Die Engine verpasste in keinem der fünfzehn Fälle eine korrekte Diagnose; wo sie hinterherhinkte, lag das daran, dass sie in einer kleinen Minderheit der Aufrufe geringfügig länger als das 20-Sekunden-Ziel für den primären Pfad benötigte.
Fünfzehn Fälle über sieben medizinische Fachgebiete
Das Fallpanel umfasst sieben Fachgebiete — Hämatologie, Endokrinologie, Stoffwechselmedizin, Hepatologie, Nephrologie, Kardiologie, Rheumatologie — plus zwei dedizierte Hyperdiagnose-Fallenfälle. Jeder Fall ist ein anonymisiertes echtes Patientenprotokoll, das aus dem Kantesti-Klinikdaten-Repository unter schriftlicher informierter Einwilligung entnommen wurde.
Die Entidentifizierung wurde nach dem Safe-Harbor-Ansatz durchgeführt: Alle direkten Identifikatoren wurden entfernt oder ersetzt, und jeder Datensatz erhielt einen Benchmark-internen Fallcode im Format BT-NNN-LABEL. Die Verarbeitung erfolgte gemäß DSGVO Artikel 9(2)(j) für wissenschaftliche Forschung mit geeigneten Schutzmaßnahmen sowie den entsprechenden Bestimmungen der UK-DSGVO. In der veröffentlichten Harness, im technischen Bericht oder in den freigegebenen Datensätzen erscheint keine personenbezogene identifizierende Information.
Warum genau diese Verteilung
Hämatologie erhält drei Fälle, weil mikrozytäre Differentialdiagnosen und makrozytäre Differentialdiagnosen in der realen Laborpraxis die volumenstärksten Fallen sind. Endokrinologie erhält drei, weil die Präsentationen bei Hashimoto, PCOS und Vitamin-D-Mangel unterschiedliche diagnostische Formen trainieren (autoantikörpergetrieben, hormonquotientgetrieben, ein-Marker-getrieben). Die Einzelfall-Spezialgebiete sind dennoch sinnvoll, weil jedes von CKD, ASCVD-Risiko und SLE sein eigenes Punktesystem hat, das die Engine aufrufen soll (KDIGO-Staging, ASCVD-10-Jahresrisiko, 2019 EULAR/ACR-SLE-Kriterien jeweils).
Die vorab registrierte Rubrik, erklärt
Die Vorabregistrierung ist die wichtigste methodische Entscheidung in diesem Benchmark. Jede erwartete Diagnose, jedes klinische Bewertungssystem und jeder Abschnitt des Berichts wurden in Quellcode festgeschrieben , bevor die Engine aufgerufen wurde. Eine nachträgliche Feinjustierung des Rubriks, um die Engine zu begünstigen, ist daher unmöglich.
Drei Komponenten bilden den zusammengesetzten Score. Die strukturelle Komponente trägt 35 Prozent bei und misst, ob die Engine die sieben verpflichtenden Berichtsteile zurückgegeben hat (Kopfzeile, Zusammenfassung, wichtigste Befunde, Differentialdiagnose, Bewertungssysteme, Empfehlungen, Follow-up) sowie die sechzehn verpflichtenden Unterabschnitte innerhalb davon. Das Vorhandensein von Abschnitten wiegt 40 Prozent und das Vorhandensein von Unterabschnitten 60 Prozent innerhalb der strukturellen Berechnung.
Der klinische Komponente trägt 55 Prozent bei und kombiniert drei Dinge: Diagnose-Keyword-Erinnerung (70 Prozent des klinischen Subscores), Erinnerungsleistung der Bewertungssysteme (20 Prozent — berechnet die Engine Mentzer, FIB-4, HOMA-IR, ASCVD-Risiko, KDIGO-Staging, EULAR/ACR-Kriterien, sofern relevant), und einen Plausibilitätscheck der Wahrscheinlichkeits-Summe (10 Prozent — die Differentialdiagnose-Wahrscheinlichkeiten sollten innerhalb des Intervalls [90, 110] aufsummiert sein). Bei Fallenfällen wird eine explizite Hyperdiagnose-Strafe von bis zu 0,30 abgezogen, berechnet als 0,10 pro erfundenem Pathologie-Flag, gedeckelt auf drei Flags.
Der Latenzkomponente trägt 10 Prozent bei. Eine Antwort unter 20 Sekunden erhält die volle 0,10, eine Antwort unter 40 Sekunden erhält 0,05, und alles, was langsamer ist, erhält null. Das 20-Sekunden-Ziel spiegelt das Produktionsziel für den Primary-Path-Service-Level wider; die 40-Sekunden-Obergrenze spiegelt das Fallback-Budget für Phase 2 bei häufigen Engine-Aufrufen wider.
Was die Vorabregistrierung verhindert
Erstparteien-Benchmarks sind berüchtigt dafür, ihre eigenen Zahlen durch nachträgliche Rubrik-Feinjustierung aufzublähen. Das Muster ist fast immer dasselbe: Das Team führt die Engine aus, sieht, wo sie unterperformt, und passt dann still und leise den Rubrik so an, dass die unterperformenden Bereiche weniger zählen. Indem der Rubrik vor dem ersten Engine-Aufruf in Quellcode festgeschrieben und der Harness unter der MIT-Lizenz veröffentlicht wird, wird diese Anpassung in der Versionskontrolle sichtbar. Jeder kann das Repository klonen, die Autorendaten des Rubriks prüfen und verifizieren, dass die Engine-Ergebnisse nicht verwendet wurden, um die Bewertung zu formen.
Hyperdiagnose-Fallen — warum „zu häufiges Rufen“ der eigentliche Ausfallmodus ist
Aggressives Überdiagnostizieren von Pathologie in normalen Screenings ist ein dokumentierter Fehlermodus von medizinischen Assistenzsystemen für Verbraucher. Zu den Folgekosten gehören unnötige Abklärungen, Patientenangst und eine iatrogene Aufarbeitung. Die zwei Fallenfälle in diesem Benchmark sind so gestaltet, dass dieser Fehlermodus sichtbar und bewertbar wird.
🟡 Falle 1 — BT-014-GILBERT
Präsentation. Ein 24-jähriger Mann mit einem Gesamtbilirubin von 2,4 mg/dL. Der direkte Anteil ist normal, Transaminasen und alkalische Phosphatase liegen innerhalb ihrer Referenzbereiche, Retikulozyten sind unauffällig, und Haptoglobin sowie LDH schließen eine Hämolyse aus.
Korrekte Interpretation. Gilbert-Syndrom — eine harmlose UGT1A1-Polymorphie. Die Interpretation sollte keine Hepatitis, Zirrhose, hämolytische Anämie oder biliäre Obstruktion heranziehen.
V11-Ergebnis. Komposit 1,000. Keine der sechs überwachten Over-Diagnosis-Flags erschien als aktive Diagnose.
🟡 Falle 2 — BT-015-GESUND
Präsentation. Eine 35-jährige Frau mit einem fünfzehnparametrigen Routine-Screening-Panel. Jeder Analyt liegt bequem innerhalb seines Referenzbereichs.
Korrekte Interpretation. Beruhigung und Pflege des Lebensstils. Die Auswertung sollte keine grenzwertige Pathologie erfinden, um klinisch nützlich zu wirken.
V11-Ergebnis. Komposit 1.000. Keiner der sieben überwachten Überdiagnose-Flags – Diabetes, Anämie, Hypothyreose, Dyslipidämie, Hepatitis, Nierenerkrankung, Mangel – erschien als aktive Diagnose.
Über beide Fallen hinweg wurden dreizehn überwachte Hyperdiagnose-Flags geprüft. Keines wurde ausgelöst. Dieses Ergebnis ist das Wichtigste für jeden Kliniker, der erwägt, eine KI-Engine als Triage- oder Vorab-Consulting-Tool zu verwenden: Das System hat keine Krankheit erfunden, wo keine existierte..
Mentzer-Index: Eisenmangel von dem Thalassämie-Anlageträger unterscheiden
Ein zweiter Befund mit hohem Mehrwert betrifft die Kombination von Fall BT-001 (Eisenmangelanämie) mit Fall BT-007 (Beta-Thalassämie minor). Beide zeigen eine Mikrozytose und sind eine gut bekannte Stolperfalle für naive Klassifikatoren. Der Mentzer-Index, berechnet als MCV dividiert durch die RBC-Zahl, liegt bei Eisenmangel über 13 und fällt bei Thalassämie-Eigenschaft unter 13.
In BT-001 war die Patientin 34 Jahre alt, weiblich, mit Hämoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, Ferritin 6 ng/mL und erhöhtem TIBC. Der Mentzer-Index von etwa 17,7 stützt einen absoluten Eisenmangel. In BT-007 war der Patient 28 Jahre alt, männlich, mit Mikrozytose (MCV 65,8 fL), aber einer hohen RBC-Zahl von 6,2, einem normalen RDW, normalem Ferritin und HbA2 von 5,6 Prozent. Der Mentzer-Index von etwa 10,6 spricht für eine Thalassämie-Eigenschaft, und das erhöhte HbA2 bestätigt die Beta-Thalassämie minor.
Beide Fälle erzielten 1.000. Die Engine rief den Mentzer-Index in beiden Auswertungen explizit auf und lieferte in jedem Fall die korrekte Diagnose. Dies ist das klinisch beruhigendste Ergebnis im gesamten Benchmark, weil die Fehlklassifikation der Thalassämie-Eigenschaft als Eisenmangel zu einer unangemessenen Eisensupplementierung und verpassten Möglichkeiten für das Familienscreening führt, und weil die Fehlklassifikation des Eisenmangels als Thalassämie eine unkomplizierte Ersetzungstherapie verzögert. Unser Ferritin-Bereichsrichtlinie erklärt den breiteren Differentialkontext.
Pro Fall-Ergebnisse aus dem Lauf im April 2026
Zwölf von fünfzehn Fällen erreichten die Decke des Komposit-Scores von 1.000 im primären Pfad. Drei Fälle wurden über den Fallback von Phase 2 bedient und verloren den 0,05-Latenzbonus, während alle klinischen und strukturellen Inhalte erhalten blieben. In einem Fall fehlte eine einzelne verpflichtende Untersektion; in einem Fall wurde eine nur geringfügig reduzierte Wahrscheinlichkeitsverteilungssumme zurückgegeben.
Der PCOS-Fall (BT-008) verlor in der Antwortstruktur eine einzelne verpflichtende Untersektion — fünfzehn von sechzehn statt sechzehn von sechzehn — wodurch der Strukturscore von 1,000 auf 0,963 gekürzt wurde. Der SLE-Fall (BT-011) lieferte eine marginal verminderte Summe der Wahrscheinlichkeitsverteilung, wodurch der klinische Score auf 0,965 sank, während jeder diagnostische Schlüsselbegriff und jedes Bewertungssystem erhalten blieb. Keiner der beiden Fälle mit suboptimalem Ergebnis verpasste eine korrekte Diagnose.
Was der Headline-Score nicht aussagt
Ein zusammengesetzter Score von 99,12 Prozent nach dieser spezifischen vorab registrierten Bewertungsrichtlinie steht für nahezu Deckenleistung, verdient jedoch eine sorgfältige Einordnung. Das Ergebnis beschreibt das Verhalten der Engine im Vergleich zu fünfzehn sorgfältig ausgewählten anonymisierten Fällen, die jeweils genau einmal bewertet wurden, anhand einer einzigen Bewertungsrichtlinie. Wir machen ausdrücklich klar, was die Zahl feststellt und was nicht.
Der Score sagt, dass die V11-Engine die für diese Auswertung ausgewählten diagnostischen Muster korrekt verarbeitet hat, nach einer Methodik, die veröffentlicht und reproduzierbar ist. Er sagt nicht, dass die Engine bei jedem Bluttest-Panel korrekt ist, das in der Praxis existiert. Er sagt nicht, dass die Engine das klinische Urteilsvermögen ersetzen sollte. Und er sagt nicht, dass die Engine alternative KI-Systeme übertrifft — vergleichende Analysen mit anderen Engines waren für diesen Bericht bewusst nicht im Umfang.
Was der Score feststellt, ist eine Ausgangsbasis. Da die Bewertungsrichtlinie und das Test-Setup öffentlich sind, können zukünftige Versionen der Engine gegen dieselben fünfzehn Fälle bewertet werden, und die Lücke zwischen dem veröffentlichten Score und jeder nachfolgenden Ausführung ist selbst messbar. Das ist der Wert der Vorabregistrierung: sie macht Leistungsbehauptungen zu überprüfbaren Behauptungen.
So reproduzieren Sie diesen Benchmark in 10 Minuten
Für die Reproduktion ist lediglich ein Kantesti-API-Zugangsdatenpaar erforderlich sowie eine Umgebung mit Python 3.10 oder neuer, mit der requests Und reportlab Bibliotheken installiert. Das vollständige Test-Setup ist ein einzelnes, in sich geschlossenes Python-Modul, das unter der MIT-Lizenz veröffentlicht wird.
Vier Schritte für einen frischen Lauf
Eins. Repository klonen: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Zwei. Abhängigkeiten installieren mit pip install -r requirements.txt. Drei. Setzen KANTESTI_USERNAME Und KANTESTI_PASSWORD als Umgebungsvariablen – die Zugangsdaten werden zur Laufzeit gelesen und im Skript ist nichts fest eincodiert. Vier. Ausführen python benchmark_bloodtest.py und die vier Artefakte prüfen, die im Arbeitsverzeichnis ausgegeben werden: eine CSV-Scorecard, eine JSON-Scorecard, ein vollständiger JSON-Dump einschließlich der Rohantworten der Engine und ein menschenlesbarer Markdown-Bericht.
Der Referenzlauf vom 23. April 2026 wird in der results/- Verzeichnis des Repositorys beibehalten. Ein frischer Lauf erzeugt eine neue, zeitgestempelte Scorecard, während der Referenzlauf unverändert bleibt. Wenn Ihr Lauf ein wesentlich anderes Ergebnis liefert, öffnen Sie bitte ein GitHub-Issue mit dem Zeitstempel des Laufs und der in den Antwortmetadaten zurückgegebenen Engine-Version.
Einschränkungen und zukünftige Arbeiten
Vier Einschränkungen verdienen eine ausdrückliche Anerkennung: Stichprobengröße, Single-Shot-Auswertung, Umfang auf eine einzelne Engine und Ursprung der Daten aus einer einzigen Quelle. Jede davon wird in aktiver Folgearbeit adressiert.
Stichprobengröße. Fünfzehn Fälle über acht Fachgebiete hinweg reichen für einen Proof of Concept, aber nicht für Subgruppenanalysen innerhalb eines Fachgebiets. Eine Erweiterung auf fünfzig Fälle ist geplant und wird Gerinnungs-Panels, Screening auf hämatologische Malignome, Schwangerschafts-Panels und pädiatrische Vorstellungen umfassen.
Single-Shot-Auswertung. Jeder Fall wurde einmal bewertet. Große Sprachmodelle zeigen auch bei niedriger Sampling-Temperatur eine nicht-triviale Ausgabevarianz, daher ist ein Multi-Run-Protokoll mit fünf Auswertungen pro Fall und der berichteten Varianz der natürliche nächste Schritt.
Umfang auf eine einzelne Engine. Dieser Bericht charakterisiert eine Engine. Vergleichende Analysen mit alternativen KI-Systemen sind hier nicht im Rahmen; wir könnten sie als separate unabhängige Studie mit geeigneter Methodik verfolgen.
Ursprung der Daten aus einer einzigen Quelle. Die fünfzehn Fälle sind anonymisierte echte Patientendaten aus einem einzelnen klinischen Repository. Sie stellen eine kuratierte Stichprobe dar und sind keine bevölkerungsrepräsentative zufällige Auswahl. Die Ausweitung der Bewertung auf Multi-Center-Daten ist auf der Roadmap.
Die wirkungsvollste geplante Erweiterung ist die Multi-Sprachen-Parität. Die Kantesti AI Engine bedient Nutzer in 75+ Sprachen, und das Ausführen desselben fünfzehn-Fälle-Harness in Türkisch, Deutsch, Spanisch, Französisch und Arabisch wird die Ausgabequalität über die von der Engine unterstützten Sprachen hinweg quantifizieren. Wir werden jeden sprachspezifischen Lauf mit seinem eigenen DOI und einem eigenen Harness-Branch veröffentlichen.