Warum dieser Benchmark existiert und was er testet

KI-gestützte Blutbild Auswertung wird zunehmend in Consumer- und klinischen Workflows eingesetzt, dennoch sind reproduzierbare Bewertungsrahmen, die auf die Labormedizin zugeschnitten sind, nach wie vor selten. Die Fragen, die in diesem Kontext am wichtigsten sind, sind nicht die, die von allgemeinen Benchmarks zur Beantwortung medizinischer Fragen abgedeckt werden: kann eine Engine Eisenmangel von Thalassämie-Eigenschaft trennen, wenn das mittlere korpuskuläre Volumen identisch ist, diagnostiziert sie das Gilbert-Syndrom über als Hepatitis, und erzeugt sie Pathologie in einem vollständig normalen Screening-Panel?

Vorregistrierter Flussdiagramm der Bewertungsmatrix, das zeigt, wie die Kantesti AI Engine — V11 Second Update, 99.80%-Kompositwert bei 100.000 Fällen — gegen eingefrorene Bewertungskriterien evaluiert wird
Abbildung 1: Die Benchmark-Architektur hinter dem 99,80%-Komposit-Score im V11 Second Update-Kohortenmodell mit 100.000 Fällen – jeder Fall, jedes Keyword, jedes Scoring-System ist fest im Quellcode verankert, bevor die Engine auch nur ein einziges PDF sieht, und die Rubrik ist byte-identisch mit der V11-Erstveröffentlichung. Eine nachträgliche Rubrik-Feinabstimmung ist per Design unmöglich.

Ein einzelnes Bluttest-Panel enthält typischerweise genug Signal, um mehrere konkurrierende Interpretationen zu unterstützen, und die Aufgabe des interpretierenden Klinikers besteht darin, diese Interpretationen gegeneinander abzuwägen, statt eine Lehrbuchantwort abzurufen. Eine Engine, die bei Lehrbuchfällen gut abschneidet, kann dennoch bei den Fällen scheitern, die am meisten zählen: bei den Fallstricken der Differentialdiagnose, bei den harmlosen Varianten, die isoliert betrachtet alarmierend wirken, und bei den vollständig normalen Panels, die selbstbewusste Assistenten dazu verleiten, eine Pathologie zu „erfinden“.

Dieser Benchmark wurde genau um diese Ausfallmodi herum gebaut. Jeder der fünfzehn Fälle wurde für eine spezifische diagnostische Eigenschaft ausgewählt: eine eisenmangelbedingte Mikrozytose, die klar von einem Beta-Thalassämie-Anlageträger mit identischem mittlerem korpuskulärem Volumen abzugrenzen ist, eine Präsentation wie beim Gilbert-Syndrom, bei der die einzige Auffälligkeit eine isolierte indirekte Hyperbilirubinämie ist, sowie ein Screening-Panel mit fünfzehn Parametern, in dem jede Analyte innerhalb ihres Referenzbereichs liegt. Die Bewertungsrubrik belohnt Engines, die jeden Fall in seinen eigenen Bedingungen lesen, und bestraft Engines, die nach einer selbstsicheren Diagnose greifen, wenn eine solche Diagnose nicht gerechtfertigt ist.

Als Thomas Klein, MD, habe ich das Fall-Panel ausgewählt, weil dies die Muster sind, die Labor-Medizin-Assistenten am häufigsten falsch machen. Der teure Ausfallmodus besteht nicht darin, "eine seltene Erkrankung zu übersehen" – sondern darin, routinemäßige Pathologie bei Patienten zu erfinden, die sie nicht haben. Unser Medizinische Validierung beschreibt das umfassendere Framework; diese Seite beschreibt den V11 initialen Proof-of-Concept und das V11 Second Update, das ihn auf 100.000 anonymisierte Fälle skaliert hat, die aus einem SQL-gestützten klinischen Repository stammen, das 127 Länder umfasst – unter Verwendung derselben Scoring-Rubrik, byte-identisch, ohne nachträgliche Feinabstimmung.

Aktueller Referenzlauf – V11 Second Update (26. April 2026)

Der Referenzlauf des V11 Second Update vom 26. April 2026 ergab einen zusammengesetzten Score von 99.80% auf derselben vorab registrierten Rubrik, die in der V11-Erstveröffentlichung verwendet wurde, ausgewertet auf 100.000 anonymisierten Fällen entnommen aus dem Kantesti SQL-gestützten klinischen Repository und über 75+ Sprachen und 75+-Sprachen hinweg. Jeder Fall wurde auf dem primären Pfad der Engine abgeschlossen; Aktivierungen von Trap-Case-Hyperdiagnose-Flags blieben bei 0 / 87,412. Der ursprüngliche V11-Lauf vom 23. April 2026 umfasste 15 handkuratierte Fälle (zusammengesetzter Score 99.12%) und validierte die Rubrik; das Second Update behält diese Rubrik byte-identisch bei und erweitert die Auswertung auf eine Kohorte im Bevölkerungsmaßstab.

Zusammengesetzt 99.80% 100.000 von 100.000 Fällen mit Score
1.000 Strukturscore
0.996 Klinischer Score
13.26 s Mittlere Latenz
0 / 87,412 Trap-Falschpositive

Die zusammengesetzte Formel kombiniert drei Komponenten: strukturelle Übereinstimmung mit den sieben verpflichtenden Berichtsteilen und sechzehn verpflichtenden Unterabschnitten, klinische Genauigkeit gemessen als Keyword-Recall plus Recall des Bewertungssystems plus eine Validitätsprüfung der Wahrscheinlichkeitsverteilung, und Antwortlatenz gegenüber dem primären Service-Level-Ziel. Die exakte Zerlegung ist in der Rubrikformel unten dargestellt – keine dieser Gewichte oder Sub-Rubriken wurde für das Second Update geändert.

Zusammengesetzt = 0.35 × Struktur + 0.55 × Klinisch + 0.10 × Latenz

Die verbleibenden 0.20 Prozentpunkte an Spielraum zerfallen fast vollständig in den klinischen Sub-Score – ein kleiner Anteil der Fälle (überwiegend in Hepatologie und Rheumatologie) hatte ein erwartetes Keyword des Scoring-Systems, das in der Interpretation der Engine fehlte, obwohl der diagnostische Inhalt korrekt war. Kein Fall in der 100.000-Fall-Kohorte des Second Updates verfehlte die Diagnose selbst. Die Latenz verbesserte sich von einem Mittelwert von 20.17 s in der V11-Erstveröffentlichung auf 13.26 s im Second Update und spiegelt Optimierungen der Produktions-Engine zwischen den beiden Läufen wider; die Rubrik, der Scoring-Code und der API-Endpunkt sind unverändert.

Die länderspezifischen zusammengesetzten Scores reichten von 0.9971 (Indien) bis 0.9985 (Schweiz) über die 30 am stärksten vertretenen Länder. Der lange Schwanz von 97 zusätzlichen Ländern (≈7.300 Fälle zusammen) zeigte keine systematische Verschlechterung. Die wichtigsten Beitragsleister nach Fallzahl waren die Vereinigten Staaten (10.500), Brasilien (9.500), Spanien (9.000), Italien (8.000), Deutschland (7.800), Frankreich (7.400), Portugal (5.800), Türkiye (3.400), das Vereinigte Königreich (2.900) und Mexiko (2.500).

Von 15 Fällen zu 100.000: Kohortenentwicklung über 127 Länder

Das ursprüngliche V11-Fallpanel umfasste sieben Fachgebiete – Hämatologie, Endokrinologie, Stoffwechselmedizin, Hepatologie, Nephrologie, Kardiologie, Rheumatologie – plus zwei dedizierte Hyperdiagnose-Trap-Fälle, wobei jeder Fall ein anonymisierter echter Patientendatensatz war, der aus dem Kantesti-Klinikdaten-Repository unter schriftlicher informierter Einwilligung entnommen wurde. Das V11 Second Update erweitert die Auswertung auf 100.000 anonymisierte Fälle über 127 Länder hinweg, verteilt auf acht Fachgebiete (die ursprünglichen sieben plus ein dedizierter Bereich für Innere Medizin, der den Trap-Teil absorbiert). Dieselbe Scoring-Rubrik wird in beiden Läufen byte-identisch angewendet.

V11-Initiales Case-Panel-Design — fünfzehn anonymisierte Bluttestfälle über sieben medizinische Fachgebiete plus zwei Hyperdiagnose-Fallenfallfälle; dieselbe Bewertungsmatrix erreichte im V11 Second Update bei 100.000 Fällen einen 99.80%-Kompositwert
Abbildung 2: Design des ursprünglichen V11-Fallpanels für Hämatologie, Endokrinologie, Stoffwechselmedizin, Hepatologie, Nephrologie, Kardiologie, Rheumatologie, plus zwei Trap-Fälle – Morbus Gilbert und ein vollständig normaler Screening-Panel. Das Second Update bewahrt diese Rubrik byte-identisch bei und erweitert die Kohorte auf 100.000 Fälle, die aus dem Kantesti- SQL-Repository stammen.

Die Entidentifizierung wurde nach dem Safe-Harbor-Ansatz durchgeführt: alle direkten Identifikatoren wurden entfernt oder ersetzt, und jeder Datensatz erhielt einen Benchmark-internen Fallcode im Format BT-NNN-LABEL (V11 initial) oder eine stabile anonymisierte case_uid für das Second Update. Die Verarbeitung erfolgte gemäß DSGVO Artikel 9(2)(j) für wissenschaftliche Forschung mit geeigneten Schutzmaßnahmen sowie den entsprechenden Bestimmungen der UK-DSGVO. In der veröffentlichten Harness, im technischen Bericht oder in den freigegebenen Datensätzen erscheint keine personenbezogene identifizierende Information.

V11-Erstveröffentlichung – 15 handkuratierte Fälle

Das ursprüngliche V11-Fallpanel wurde von Dr. Thomas Klein handverlesen kuratiert, um diagnostische Muster zu trainieren, die Labor-Medizin-Assistenten am häufigsten falsch interpretieren. Jeder der fünfzehn Fälle wurde für eine spezifische diagnostische Eigenschaft ausgewählt, die unten aufgeführt ist.

Hämatologie (3) BT-001, BT-006, BT-007 Eisenmangelanämie · B12-Mangel · Betathalassämie minor
Endokrinologie (3) BT-002, BT-008, BT-012 Hashimoto-Thyreoiditis · PCOS mit Insulinresistenz · Schwere Vitamin-D-Mangel
Stoffwechsel (2) BT-003, BT-013 T2DM mit metabolischem Syndrom · Hyperurikämie mit Gicht-Risiko
Hepatologie (2) BT-004, BT-009 NAFLD / NASH · Akute virale Hepatitis
Nephrologie · Kardiologie · Rheumatologie (3) BT-005, BT-010, BT-011 CKD Stadium 3 · Atherogene Dyslipidämie · Systemischer Lupus erythematodes
Fallenfälle (2) BT-014, BT-015 Morbus Gilbert (isolierte indirekte Hyperbilirubinämie) · Vollständig normales Erwachsenenscreening

Warum genau diese Verteilung

Hämatologie erhält drei Fälle, weil mikrozytäre Differentialdiagnosen und makrozytäre Differentialdiagnosen in der realen Laborpraxis die volumenstärksten Fallen sind. Endokrinologie erhält drei, weil die Präsentationen bei Hashimoto, PCOS und Vitamin-D-Mangel unterschiedliche diagnostische Formen trainieren (autoantikörpergetrieben, hormonquotientgetrieben, ein-Marker-getrieben). Die Einzelfall-Spezialgebiete sind dennoch sinnvoll, weil jedes von CKD, ASCVD-Risiko und SLE sein eigenes Punktesystem hat, das die Engine aufrufen soll (KDIGO-Staging, ASCVD-10-Jahresrisiko, 2019 EULAR/ACR-SLE-Kriterien jeweils).

V11 Zweites Update — 100.000 anonymisierte Fälle in 127 Ländern

Das Zweite Update ersetzt das ursprüngliche V11 fest kodierte 15-Fall-Python-Literal durch eine parametrisierte, schreibgeschützte SQL-Abfrage gegen das Kantesti-Clinical-Repository (anonymised_blood_panels). Die Abfrage filtert auf consent_research = 1 AND released_for_benchmark = 1 und wird oben in jedem Benchmark-Lauf zur Transparenz ausgegeben. Die Kohortenverteilung nach Fachgebiet ist unten dargestellt.

Endokrinologie 23.900 Fälle (23,9%) Schilddrüse, PCOS, Vitamin D, gonadale Achse, Hypophyse
Stoffwechselmedizin 21.900 Fälle (21,9%) T2DM, metabolisches Syndrom, Lipidprofile, Hyperurikämie
Hämatologie 15.400 Fälle (15,4%) Mikrozytäre und makrozytäre Differenzialdiagnosen, B12/Folat, Eisenuntersuchungen
Hepatologie 12.400 Fälle (12,4%) NAFLD/NASH, virale Hepatitis, FIB-4, Cholestase
Innere Medizin (inkl. Trap-Subset) 9.000 Fälle (9,0%) Gemischte Präsentationen und 8.723 dedizierte Hyperdiagnose-Trap-Fälle
Kardiologie 7.500 Fälle (7,5%) ASCVD-Risiko, atherogene Dyslipidämie, hs-CRP
Rheumatologie 6.000 Fälle (6,0%) SLE, RA, Vaskulitis, Autoantikörper-Panels (EULAR/ACR-Kriterien)
Nephrologie 4.000 Fälle (4,0%) CKD-Staging (KDIGO), eGFR-Trends, Elektrolytstörungen

Geografische Verteilung — Top 10 Länder

Die Kohorte umfasst 127 Länder (ISO 3166-1 alpha-2). Europa trägt 57.7% bei, die Amerikas 25.4%, Asien-Pazifik 6.2%, benannte Einträge für Nahost/Afrika 3.4% und eine lange Schwänzchen-Verteilung von 97 zusätzlichen Ländern zusammen ungefähr 7.3%. Die zehn größten Beitragsländer sind die Vereinigten Staaten (10,500), Brasilien (9,500), Spanien (9,000), Italien (8,000), Deutschland (7,800), Frankreich (7,400), Portugal (5,800), Türkiye (3,400), das Vereinigte Königreich (2,900) und Mexiko (2,500). Die länderspezifischen zusammengesetzten Scores lagen zwischen 0.9971 (Indien) und 0.9985 (Schweiz).

Die vorab registrierte Rubrik, erklärt

Die Vorabregistrierung ist die wichtigste methodische Entscheidung in diesem Benchmark. Jede erwartete Diagnose, jedes klinische Bewertungssystem und jeder Abschnitt des Berichts wurden in Quellcode festgeschrieben , bevor die Engine aufgerufen wurde. Eine nachträgliche Feinjustierung des Rubriks, um die Engine zu begünstigen, ist daher unmöglich.

Drei Komponenten bilden den zusammengesetzten Score. Die strukturelle Komponente trägt 35 Prozent bei und misst, ob die Engine die sieben verpflichtenden Berichtsteile zurückgegeben hat (Kopfzeile, Zusammenfassung, wichtigste Befunde, Differentialdiagnose, Bewertungssysteme, Empfehlungen, Follow-up) sowie die sechzehn verpflichtenden Unterabschnitte innerhalb davon. Das Vorhandensein von Abschnitten wiegt 40 Prozent und das Vorhandensein von Unterabschnitten 60 Prozent innerhalb der strukturellen Berechnung.

Der klinische Komponente trägt 55 Prozent bei und kombiniert drei Dinge: Diagnose-Keyword-Erinnerung (70 Prozent des klinischen Subscores), Erinnerungsleistung der Bewertungssysteme (20 Prozent — berechnet die Engine Mentzer, FIB-4, HOMA-IR, ASCVD-Risiko, KDIGO-Staging, EULAR/ACR-Kriterien, sofern relevant), und einen Plausibilitätscheck der Wahrscheinlichkeits-Summe (10 Prozent — die Differentialdiagnose-Wahrscheinlichkeiten sollten innerhalb des Intervalls [90, 110] aufsummiert sein). Bei Fallenfällen wird eine explizite Hyperdiagnose-Strafe von bis zu 0,30 abgezogen, berechnet als 0,10 pro erfundenem Pathologie-Flag, gedeckelt auf drei Flags.

Der Latenzkomponente trägt 10 Prozent bei. Eine Antwort unter 20 Sekunden erhält die volle 0,10, eine Antwort unter 40 Sekunden erhält 0,05, und alles, was langsamer ist, erhält null. Das 20-Sekunden-Ziel spiegelt das Produktionsziel für den Primary-Path-Service-Level wider; die 40-Sekunden-Obergrenze spiegelt das Fallback-Budget für Phase 2 bei häufigen Engine-Aufrufen wider.

Terminal-Screenshot des MIT-lizenzierten Kantesti-Benchmark-Harness, der läuft und pro Fall Scores ausgibt — derselbe Harness, jetzt SQL-gesteuert, erzeugte im V11 Second Update im 100.000-Fall-Lauf den 99.80%-Kompositwert
Abbildung 3: Das im Einsatz befindliche Harness — dieselbe Engine, die erzeugt hat 99.80% zusammengesetzter Score in der V11 Second Update 100,000-Fall-Kohorte. Jeder Fall wird als A4-PDF gerendert, an den Produktions-Endpunkt v11 gepostet und anhand der eingefrorenen Bewertungsrubrik bewertet. Das Second Update fügte einen parametrisierten SQL-Case-Loader hinzu; eine geschichtete Zufallsstichprobe der Roh-Engine-Antworten (n = 201) wird neben dem aggregierten Scorecard gespeichert.

Was die Vorabregistrierung verhindert

Erstparteien-Benchmarks sind berüchtigt dafür, ihre eigenen Zahlen durch nachträgliche Rubrik-Feinjustierung aufzublähen. Das Muster ist fast immer dasselbe: Das Team führt die Engine aus, sieht, wo sie unterperformt, und passt dann still und leise den Rubrik so an, dass die unterperformenden Bereiche weniger zählen. Indem der Rubrik vor dem ersten Engine-Aufruf in Quellcode festgeschrieben und der Harness unter der MIT-Lizenz veröffentlicht wird, wird diese Anpassung in der Versionskontrolle sichtbar. Jeder kann das Repository klonen, die Autorendaten des Rubriks prüfen und verifizieren, dass die Engine-Ergebnisse nicht verwendet wurden, um die Bewertung zu formen.

Hyperdiagnose-Fallen — warum „zu häufiges Rufen“ der eigentliche Ausfallmodus ist

Aggressives Überdiagnostizieren von Pathologie in normalen Screenings ist ein dokumentierter Fehlermodus von medizinischen Assistenzsystemen für Verbraucher. Zu den Folgekosten gehören unnötige Abklärungen, Patientenangst und eine iatrogene Aufarbeitung. Die zwei Fallenfälle in diesem Benchmark sind so gestaltet, dass dieser Fehlermodus sichtbar und bewertbar wird.

Gegenüberstellung von Angesicht zu Angesicht: eine naive KI, die Hepatitis auf einem Gilbert-Syndrom-Panel erfindet, versus die Kantesti-Engine, die die harmlose UGT1A1-Polymorphie korrekt identifiziert — Methodik, die über 87.412 Fallenfall-Flag-Gelegenheiten im V11 Second Update Benchmark 99.80% auf null False Positives skaliert wurde
Abbildung 4: Das Trap-Case-Design aus dem V11-Initial-Release — eine Engine, die Gilbert-Syndrom selbstbewusst als Hepatitis etikettiert, oder die grenzwertige Pathologie auf einem vollständig normalen Screen erzeugt, wird bestraft statt belohnt, wenn sie klinisch klingt. Diese Methodik wurde skaliert auf 0 / 87,412 False-Positives im V11 Second Update 100,000-Fall-Lauf, der den 99.80% zusammengesetzten Score erzeugte.

🟡 Falle 1 — BT-014-GILBERT

Präsentation. Ein 24-jähriger Mann mit einem Gesamtbilirubin von 2,4 mg/dL. Der direkte Anteil ist normal, Transaminasen und alkalische Phosphatase liegen innerhalb ihrer Referenzbereiche, Retikulozyten sind unauffällig, und Haptoglobin sowie LDH schließen eine Hämolyse aus.

Korrekte Interpretation. Gilbert-Syndrom — eine harmlose UGT1A1-Polymorphie. Die Interpretation sollte keine Hepatitis, Zirrhose, hämolytische Anämie oder biliäre Obstruktion heranziehen.

V11-Ergebnis. Komposit 1,000. Keine der sechs überwachten Over-Diagnosis-Flags erschien als aktive Diagnose.

🟡 Falle 2 — BT-015-GESUND

Präsentation. Eine 35-jährige Frau mit einem fünfzehnparametrigen Routine-Screening-Panel. Jeder Analyt liegt bequem innerhalb seines Referenzbereichs.

Korrekte Interpretation. Beruhigung und Pflege des Lebensstils. Die Auswertung sollte keine grenzwertige Pathologie erfinden, um klinisch nützlich zu wirken.

V11-Ergebnis. Komposit 1.000. Keiner der sieben überwachten Überdiagnose-Flags – Diabetes, Anämie, Hypothyreose, Dyslipidämie, Hepatitis, Nierenerkrankung, Mangel – erschien als aktive Diagnose.

Über beide Fallen hinweg wurden dreizehn überwachte Hyperdiagnose-Flags geprüft. Keines wurde ausgelöst. Dieses Ergebnis ist das Wichtigste für jeden Kliniker, der erwägt, eine KI-Engine als Triage- oder Vorab-Consulting-Tool zu verwenden: Das System hat keine Krankheit erfunden, wo keine existierte..

Mentzer-Index: Eisenmangel von dem Thalassämie-Anlageträger unterscheiden

Ein zweiter Befund mit hohem Mehrwert betrifft die Kombination von Fall BT-001 (Eisenmangelanämie) mit Fall BT-007 (Beta-Thalassämie minor). Beide zeigen eine Mikrozytose und sind eine gut bekannte Stolperfalle für naive Klassifikatoren. Der Mentzer-Index, berechnet als MCV dividiert durch die RBC-Zahl, liegt bei Eisenmangel über 13 und fällt bei Thalassämie-Eigenschaft unter 13.

In BT-001 war die Patientin 34 Jahre alt, weiblich, mit Hämoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, Ferritin 6 ng/mL und erhöhtem TIBC. Der Mentzer-Index von etwa 17,7 stützt einen absoluten Eisenmangel. In BT-007 war der Patient 28 Jahre alt, männlich, mit Mikrozytose (MCV 65,8 fL), aber einer hohen RBC-Zahl von 6,2, einem normalen RDW, normalem Ferritin und HbA2 von 5,6 Prozent. Der Mentzer-Index von etwa 10,6 spricht für eine Thalassämie-Eigenschaft, und das erhöhte HbA2 bestätigt die Beta-Thalassämie minor.

Eisenmangelanämie Mentzer > 13 Niedriges Ferritin, niedriges TSAT, hohes TIBC, erhöhtes RDW
Beta-Thalassämie-Eigenschaft Mentzer < 13 Normales Ferritin, normales RDW, erhöhtes HbA2 (>3.5%), hohe RBC-Zahl

Beide Fälle erzielten 1.000. Die Engine rief den Mentzer-Index in beiden Auswertungen explizit auf und lieferte in jedem Fall die korrekte Diagnose. Dies ist das klinisch beruhigendste Ergebnis im gesamten Benchmark, weil die Fehlklassifikation der Thalassämie-Eigenschaft als Eisenmangel zu einer unangemessenen Eisensupplementierung und verpassten Möglichkeiten für das Familienscreening führt, und weil die Fehlklassifikation des Eisenmangels als Thalassämie eine unkomplizierte Ersetzungstherapie verzögert. Unser Ferritin-Bereichsrichtlinie erklärt den breiteren Differentialkontext.

Pro-Fall-Ergebnisse aus dem V11-Initial-Referenzlauf (23. April 2026)

Der ursprüngliche V11-Referenzlauf in der 15-Fall-Proof-of-Concept-Kohorte dient als die methodische Grundlage des Second Update: Jede der untenstehenden Pro-Fall-Details zeigt, wie die Rubrik eine echte Engine-Antwort behandelt. Zwölf von fünfzehn Fällen erreichten die Deckelung des zusammengesetzten Primärpfad-Scores von 1.000; drei Fälle wurden über den Phase-2-Fallback bereitgestellt und verloren den 0.05-Latenzbonus, während alle klinischen und strukturellen Inhalte erhalten blieben. Ein Fall hatte eine einzelne verpflichtende Untersektion nicht; einer lieferte eine nur geringfügig reduzierte Summe der Wahrscheinlichkeitsverteilung zurück.

Fall-ID Fachgebiet Zusammengesetzt Latenz Pfad
BT-001-IDAHämatologie1.00017,8 sprimär
BT-006-B12Hämatologie1.00018,4 sprimär
BT-007-THALHämatologie1.00017,0 sprimär
BT-002-HASHEndokrinologie0.95037,0 sFallback
BT-008-PCOSEndokrinologie0.98718,6 sprimär
BT-003-T2DMStoffwechsel1.00019,1 sprimär
BT-013-GICHTStoffwechsel1.00019,4 sprimär
BT-004-NAFLDHepatologie1.00019,6 sprimär
BT-009-VIRHEPHepatologie0.95023,4 sFallback
BT-014-GILBERTFalle1.00018,9 sprimär
BT-005-CKDNephrologie1.00017,4 sprimär
BT-010-ASCVDKardiologie1.00019,7 sprimär
BT-011-SLERheumatologie0.98118,2 sprimär
BT-012-VITDEndokrinologie1.00019,3 sprimär
BT-015-GESUNDFalle1.00018,7 sFallback

Der PCOS-Fall (BT-008) verlor in der Antwortstruktur eine einzelne verpflichtende Untersektion — fünfzehn von sechzehn statt sechzehn von sechzehn — wodurch der Strukturscore von 1,000 auf 0,963 gekürzt wurde. Der SLE-Fall (BT-011) lieferte eine marginal verminderte Summe der Wahrscheinlichkeitsverteilung, wodurch der klinische Score auf 0,965 sank, während jeder diagnostische Schlüsselbegriff und jedes Bewertungssystem erhalten blieb. Keiner der beiden Fälle mit suboptimalem Ergebnis verpasste eine korrekte Diagnose.

V11 Second Update aggregiert — 100.000 Fälle

In Bevölkerungsgröße sind einzelne Fallzeilen nicht menschenlesbar, daher berichtet das Second Update aggregierte Kennzahlen statt einer Tabelle mit 100.000 Zeilen. Die wichtigste aggregierte Kennzahl ist unten dargestellt; Aufschlüsselungen nach Fachgebiet und nach Land werden im technischen Bericht und im Figshare-Deposit veröffentlicht. Eine geschichtete Zufallsstichprobe von n = 201 Roh-Engine-Antworten (deterministischer Seed 20260426) wird im GitHub- results/- Verzeichnis zur Einsicht veröffentlicht.

Zusammengesetzter Score V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 über die 100.000-Fall-Kohorte
Strukturscore (Mittelwert) V11 initial: 0.998 → Second Update: 1.000 Perfekte strukturelle Konformität in Bevölkerungsgröße
Klinischer Score (Mittelwert) V11 initial: 0.998 → Second Update: 0.996 −0.002; kein Fall verfehlte die Diagnose selbst
Latenz — Mittelwert (Spanne) V11 initial: 20,17 s (17,0–37,0 s) → Zweites Update: 13,26 s (9,0–16,94 s) Produktions-Engine-Optimierungen zwischen den Läufen
Engine-Pfad = primär V11 initial: 12 / 15 → Zweites Update: 100,000 / 100,000 Es war zu keinem Zeitpunkt während des Laufs ein Fallback für Phase 2 erforderlich
Trap-Subset-Hyperdiagnose-Flags V11 initial: 0 / 13 → Zweites Update: 0 / 87,412 Keine falsch-positiven Ergebnisse auf Populationsebene (8.723 überwachte Trap-Fälle)

Was der Headline-Score nicht aussagt

Eine zusammengesetzte Punktzahl von 99,80 Prozent nach dieser speziellen vorab registrierten Bewertungsrubrik, in einer anonymisierten Kohorte mit 100.000 Fällen über 127 Länder hinweg, entspricht nahezu einer Leistung an der Obergrenze — aber sie verdient eine sorgfältige Einordnung. Das Ergebnis beschreibt das Verhalten der Engine im Abgleich mit der Rubrik, die wir in V11 in den Quellcode festgelegt haben; es ist keine universelle Aussage über die Korrektheit der Engine für jedes Bluttest-Panel, das in der realen Welt existiert.

Die Punktzahl besagt, dass die Engine die für diese Auswertung ausgewählten diagnostischen Muster korrekt über eine Kohorte auf Populationsebene hinweg verarbeitet hat, anhand einer Methodik, die veröffentlicht und reproduzierbar ist. Sie sagt nicht, dass die Engine für jedes Bluttest-Panel, das in der realen Welt existiert, korrekt ist. Sie sagt nicht, dass die Engine das klinische Urteilsvermögen ersetzen sollte. Und sie sagt nicht, dass die Engine alternative KI-Systeme übertrifft — vergleichende Analysen mit anderen Engines waren für diesen Bericht bewusst nicht im Umfang.

Was die Punktzahl jedoch festlegt, ist eine Ausgangsbasis. Da Rubrik und Harness öffentlich sind, können zukünftige Versionen der Engine anhand derselben Rubrik bewertet werden — angewendet auf die V11-Initial-15-Fälle, die Zweites-Update-100.000-Fälle-Kohorte oder jede nachfolgende Erweiterung — und die Lücke zwischen der veröffentlichten Punktzahl und jedem nachfolgenden Lauf ist selbst messbar. Das ist der Wert der Vorabregistrierung: sie macht Leistungsbehauptungen zu überprüfbaren Behauptungen.

So reproduzieren Sie diesen Benchmark in 10 Minuten

Für die Reproduktion ist lediglich ein Kantesti-API-Zugangsdatenpaar erforderlich sowie eine Umgebung mit Python 3.10 oder neuer, mit der requests Und reportlab Bibliotheken installiert. Das vollständige Test-Setup ist ein einzelnes, in sich geschlossenes Python-Modul, das unter der MIT-Lizenz veröffentlicht wird.

Reproduzierbarkeits-Netzwerkdiagramm, das den V11 Second-Update-Benchmark (99.80%-Komposit, 100.000 Fälle, 127 Länder) zeigt, gespiegelt über Figshare, ResearchGate, Academia.edu und GitHub, wobei der Figshare-DOI als kanonischer Anker dient
Abbildung 5: Der V11-Zweites-Update-Benchmark — 99,80% zusammengesetzte Punktzahl bei 100.000 Fällen über 127 Länder — wird über vier Forschungsplattformen gespiegelt. Die Figshare-DOI ist der kanonische wissenschaftliche Identifikator; ResearchGate (Publikation 404175463), Academia.edu (Paper 165956808) und GitHub hosten parallele Kopien mit dem SQL-gestützten Harness, der geschichteten Zufallsstichprobe der Rohantworten und den pro Land/pro Fachgebiet erstellten Scorecards.

Vier Schritte für einen frischen Lauf

Eins. Repository klonen: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Zwei. Abhängigkeiten installieren mit pip install -r requirements.txt (Das Zweite Update ergänzt mysql-connector-python ≥ 8.0 für den SQL-Case-Loader). Drei. Setzen KANTESTI_USERNAME Und KANTESTI_PASSWORD als Umgebungsvariablen für die Engine-API. Für den SQL-Case-Loader des Zweiten Updates setze außerdem KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, Und KANTESTI_DB_PASSWORD — der Loader verbindet sich über eine Nur-Lese-Rolle (bench_reader) die keine Berechtigungen zur Identifizierung von Tabellen hat. Vier. Ausführen python benchmark_bloodtest.py --limit 100000 für den vollständigen Second-Update-Lauf oder python benchmark_bloodtest.py --limit 1000 für schnelle Iterationen. Die Ausgaben landen in ./benchmark_results/: ein CSV-Scorecard mit Spalten pro Land und pro Fachgebiet, ein JSON-Aggregat, eine geschichtete-zufällige Rohantwort-Stichprobe und ein Markdown-Bericht.

Die Referenzläufe vom 23. April 2026 (V11 initial, 15 Fälle) und vom 26. April 2026 (V11 Second Update, 100.000 Fälle) werden im results/- Verzeichnis des Repositorys beibehalten. Ein frischer Lauf erzeugt eine neue, zeitgestempelte Scorecard, während die Referenzläufe unangetastet bleiben. Wenn Ihr Lauf ein wesentlich anderes Ergebnis liefert, öffnen Sie bitte ein GitHub-Issue mit dem Zeitstempel des Laufs und der Engine-Version, die in den Antwort-Metadaten zurückgegeben wird.

Einschränkungen und zukünftige Arbeiten

Selbst bei 100.000 Fällen über 127 Länder hinweg verdienen vier Einschränkungen eine ausdrückliche Anerkennung: Unterabdeckung von Ländern mit langer Schwanzverteilung, Einmalbewertung, Umfang auf eine einzelne Engine und Ursprung der Daten aus einer einzigen Quelle. Jede davon wird in aktiver Folgearbeit adressiert.

Abdeckung von Ländern mit langer Schwanzverteilung. Das Second Update umfasst 127 Länder, aber die Verteilung ist unausgewogen — die Top-10-Beiträger entfallen auf ≈66.4% der Fälle, und der lange Schwanz von 97 zusätzlichen Ländern trägt zusammen ≈7.3% bei (zusammen grob 7.300 Fälle, im Durchschnitt ~75 Fälle pro Land). Daher sind die länderspezifischen Kompositwerte in diesem langen Schwanz rauschiger, als die Schlagzeilenwerte vermuten lassen. Zukünftige Läufe werden bevorzugt aus unterabgedeckten Ländern rekrutieren, um die Schätzungen je Jurisdiktion zu festigen.

Single-Shot-Auswertung. Jeder Fall im Kollektiv wurde einmal bewertet. Große Sprachmodelle zeigen auch bei niedriger Sampling-Temperatur eine nicht-triviale Ausgabeschwankung, daher ist ein Multi-Run-Protokoll mit fünf Bewertungen pro Fall und ausgewiesener Varianz der natürliche nächste Schritt — insbesondere auf der Trap-Case-Teilmenge, wo Konsistenz unter Sampling-Jitter Teil der Sicherheitsbehauptung ist.

Umfang auf eine einzelne Engine. Dieser Bericht charakterisiert eine Engine. Vergleichende Analysen mit alternativen KI-Systemen sind hier nicht im Umfang; wir können sie als separate unabhängige Studie mit geeigneter Methodik verfolgen, gegen denselben MIT-lizenzierten Harness.

Ursprung der Daten aus einer einzigen Quelle. Die 100.000 Fälle sind anonymisierte echte Patientendaten, die aus einem einzigen klinischen Repository stammen (das Kantesti SQL-gestützte Clinical Data Warehouse). Sie repräsentieren einen kuratierten Produktions-Stream und sind auf globaler Ebene keine bevölkerungsrepräsentative Zufallsstichprobe. Die Erweiterung der Bewertung auf extern bezogene Multi-Center-Daten ist auf der Roadmap.

Über diese vier hinaus ist die wirkungsvollste geplante Erweiterung die mehrsprachige Parität je Jurisdiktion. Die Kantesti AI Engine bedient Nutzer in 75+ Sprachen, und das Ausführen sprach-geschichteter Second-Update-Subkohorten (Türkisch, Deutsch, Spanisch, Französisch, Italienisch, Portugiesisch, Arabisch, Mandarin) wird die Ausgabequalität über die unterstützten Sprachen der Engine hinweg quantifizieren. Jede sprach-geschichtete Analyse wird mit ihrem eigenen DOI und einem Harness-Branch veröffentlicht.