Warum dieser Benchmark existiert und was er testet

KI-gestützte Blutbild Auswertung wird zunehmend in Consumer- und klinischen Workflows eingesetzt, dennoch sind reproduzierbare Bewertungsrahmen, die auf die Labormedizin zugeschnitten sind, nach wie vor selten. Die Fragen, die in diesem Kontext am wichtigsten sind, sind nicht die, die von allgemeinen Benchmarks zur Beantwortung medizinischer Fragen abgedeckt werden: kann eine Engine Eisenmangel von Thalassämie-Eigenschaft trennen, wenn das mittlere korpuskuläre Volumen identisch ist, diagnostiziert sie das Gilbert-Syndrom über als Hepatitis, und erzeugt sie Pathologie in einem vollständig normalen Screening-Panel?

Vorregistrierter Flussdiagramm der Bewertungsmatrix, das zeigt, wie die Kantesti AI Engine — V11 Second Update, 99.80%-Kompositwert bei 100.000 Fällen — gegen eingefrorene Bewertungskriterien evaluiert wird
Abbildung 1: Die Benchmark-Architektur hinter dem 99,80%-Komposit-Score im V11 Second Update-Kohortenmodell mit 100.000 Fällen – jeder Fall, jedes Keyword, jedes Scoring-System ist fest im Quellcode verankert, bevor die Engine auch nur ein einziges PDF sieht, und die Rubrik ist byte-identisch mit der V11-Erstveröffentlichung. Eine nachträgliche Rubrik-Feinabstimmung ist per Design unmöglich.

Ein einzelnes Bluttest-Panel enthält typischerweise genug Signal, um mehrere konkurrierende Interpretationen zu unterstützen, und die Aufgabe des interpretierenden Klinikers besteht darin, diese Interpretationen gegeneinander abzuwägen, statt eine Lehrbuchantwort abzurufen. Eine Engine, die bei Lehrbuchfällen gut abschneidet, kann dennoch bei den Fällen scheitern, die am meisten zählen: bei den Fallstricken der Differentialdiagnose, bei den harmlosen Varianten, die isoliert betrachtet alarmierend wirken, und bei den vollständig normalen Panels, die selbstbewusste Assistenten dazu verleiten, eine Pathologie zu „erfinden“.

Dieser Benchmark wurde genau um diese Ausfallmodi herum gebaut. Jeder der fünfzehn Fälle wurde für eine spezifische diagnostische Eigenschaft ausgewählt: eine eisenmangelbedingte Mikrozytose, die klar von einem Beta-Thalassämie-Anlageträger mit identischem mittlerem korpuskulärem Volumen abzugrenzen ist, eine Präsentation wie beim Gilbert-Syndrom, bei der die einzige Auffälligkeit eine isolierte indirekte Hyperbilirubinämie ist, sowie ein Screening-Panel mit fünfzehn Parametern, in dem jede Analyte innerhalb ihres Referenzbereichs liegt. Die Bewertungsrubrik belohnt Engines, die jeden Fall in seinen eigenen Bedingungen lesen, und bestraft Engines, die nach einer selbstsicheren Diagnose greifen, wenn eine solche Diagnose nicht gerechtfertigt ist.

Als Thomas Klein, MD, habe ich das Fall-Panel ausgewählt, weil dies die Muster sind, die Labor-Medizin-Assistenten am häufigsten falsch machen. Der teure Ausfallmodus besteht nicht darin, "eine seltene Erkrankung zu übersehen" – sondern darin, routinemäßige Pathologie bei Patienten zu erfinden, die sie nicht haben. Unser Medizinische Validierung Das Hub beschreibt den umfassenderen Rahmen; diese Seite beschreibt den V11-Initialbeweis für das Konzept und das V11 Zweite Update, das ihn auf 100.000 synthetische Fälle skaliert hat, die aus einem synthetischen Fallset stammen, das 127 Länderbezeichnungen umfasst — unter Verwendung derselben Bewertungsrubrik, byte-identisch, ohne nachträgliches Tuning erlaubt.

Aktueller Referenzlauf – V11 Second Update (26. April 2026)

Der Referenzlauf des V11 Second Update vom 26. April 2026 ergab einen zusammengesetzten Score von 99.80% auf derselben vorab registrierten Rubrik, die in der V11-Erstveröffentlichung verwendet wurde, ausgewertet auf 100.000 synthetische Fälle entnommen aus dem Kantesti-synthetischen Fallset und umfassend 127 Länderbezeichnungen und 75+-Sprachen hinweg. Jeder Fall wurde auf dem primären Pfad der Engine abgeschlossen; Aktivierungen von Trap-Case-Hyperdiagnose-Flags blieben bei 0 / 87,412. Der ursprüngliche V11-Lauf vom 23. April 2026 umfasste 15 handkuratierte Fälle (zusammengesetzter Score 99.12%) und validierte die Rubrik; das Second Update behält diese Rubrik byte-identisch bei und erweitert die Auswertung auf eine Kohorte im Bevölkerungsmaßstab.

Zusammengesetzt 99.80% 100.000 von 100.000 Fällen mit Score
1.000 Strukturscore
0.996 Klinischer Score
13.26 s Mittlere Latenz
0 / 87,412 Trap-Falschpositive

Die zusammengesetzte Formel kombiniert drei Komponenten: strukturelle Übereinstimmung mit den sieben verpflichtenden Berichtsteilen und sechzehn verpflichtenden Unterabschnitten, Inhaltsgenauigkeit gemessen als Keyword-Recall plus Recall des Bewertungssystems plus eine Validitätsprüfung der Wahrscheinlichkeitsverteilung, und Antwortlatenz gegenüber dem primären Service-Level-Ziel. Die exakte Zerlegung ist in der Rubrikformel unten dargestellt – keine dieser Gewichte oder Sub-Rubriken wurde für das Second Update geändert.

Zusammengesetzt = 0.35 × Struktur + 0.55 × Klinisch + 0.10 × Latenz

Die verbleibenden 0.20 Prozentpunkte an Spielraum zerfallen fast vollständig in den klinischen Sub-Score – ein kleiner Anteil der Fälle (überwiegend in Hepatologie und Rheumatologie) hatte ein erwartetes Keyword des Scoring-Systems, das in der Interpretation der Engine fehlte, obwohl der diagnostische Inhalt korrekt war. Kein Fall in der 100.000-Fall-Kohorte des Second Updates verfehlte die Diagnose selbst. Die Latenz verbesserte sich von einem Mittelwert von 20.17 s in der V11-Erstveröffentlichung auf 13.26 s im Second Update und spiegelt Optimierungen der Produktions-Engine zwischen den beiden Läufen wider; die Rubrik, der Scoring-Code und der API-Endpunkt sind unverändert.

Die Komposit-Scores je Bezeichnung lagen über den 30 am stärksten vertretenen Länderbezeichnungen zwischen 0,9971 und 0,9985. Das lange Ende der 97 zusätzlichen Bezeichnungen (zusammen ≈7.300 Fälle) zeigte keine systematische Verschlechterung. Die häufigsten Bezeichnungen nach Fallanzahl waren die Vereinigten Staaten (10.500), Brasilien (9.500), Spanien (9.000), Italien (8.000), Deutschland (7.800), Frankreich (7.400), Portugal (5.800), Türkiye (3.400), das Vereinigte Königreich (2.900) und Mexiko (2.500).

Von 15 Fällen bis 100.000: Kohortenentwicklung über 127 Länderbezeichnungen

Das ursprüngliche V11-Fallpanel umfasste sieben Fachgebiete — Hämatologie, Endokrinologie, Stoffwechselmedizin, Hepatologie, Nephrologie, Kardiologie, Rheumatologie — plus zwei dedizierte Hyperdiagnose-Trap-Fälle, wobei jeder Fall ein synthetisch generiertes Bluttestpanel war. Das V11 Zweite Update erweitert die Bewertung auf 100.000 synthetische Fälle über 127 Länderbezeichnungen, verteilt auf acht Fachgebiete (die ursprünglichen sieben plus ein dedizierter Bereich für Innere Medizin, der den Trap-Teil absorbiert). Dieselbe Scoring-Rubrik wird in beiden Läufen byte-identisch angewendet.

Entwurf des V11-Initialen Fallpanels — fünfzehn synthetische Bluttestfälle über sieben medizinische Fachgebiete plus zwei Hyperdiagnose-Trap-Fälle; dieselbe Rubrik erreichte auf 100.000 Fällen im V11 Second Update eine zusammengesetzte Punktzahl von 99,80%
Abbildung 2: Design des ursprünglichen V11-Fallpanels für Hämatologie, Endokrinologie, Stoffwechselmedizin, Hepatologie, Nephrologie, Kardiologie, Rheumatologie, plus zwei Trap-Fälle – Morbus Gilbert und ein vollständig normaler Screening-Panel. Das Second Update bewahrt diese Rubrik byte-identisch bei und erweitert die Kohorte auf 100.000 Fälle, die aus dem Kantesti- SQL-Repository stammen.

Da alle Fälle synthetisch generiert sind, gibt es keine realen Identifikatoren, die entfernt werden müssten, und es sind keine personenbezogenen Daten beteiligt. Jeder synthetische Fall trägt einen benchmark-internen Fallcode (BT-NNN-LABEL im V11-Initialset, ein stabiler case_uid im Zweiten Update). In keinem der veröffentlichten Harness, des technischen Berichts oder der veröffentlichten Datensätze erscheinen personenbezogene Daten.

V11-Erstveröffentlichung – 15 handkuratierte Fälle

Das ursprüngliche V11-Fallpanel wurde von Dr. Thomas Klein handverlesen kuratiert, um diagnostische Muster zu trainieren, die Labor-Medizin-Assistenten am häufigsten falsch interpretieren. Jeder der fünfzehn Fälle wurde für eine spezifische diagnostische Eigenschaft ausgewählt, die unten aufgeführt ist.

Hämatologie (3) BT-001, BT-006, BT-007 Eisenmangelanämie · B12-Mangel · Betathalassämie minor
Endokrinologie (3) BT-002, BT-008, BT-012 Hashimoto-Thyreoiditis · PCOS mit Insulinresistenz · Schwere Vitamin-D-Mangel
Stoffwechsel (2) BT-003, BT-013 T2DM mit metabolischem Syndrom · Hyperurikämie mit Gicht-Risiko
Hepatologie (2) BT-004, BT-009 NAFLD / NASH · Akute virale Hepatitis
Nephrologie · Kardiologie · Rheumatologie (3) BT-005, BT-010, BT-011 CKD Stadium 3 · Atherogene Dyslipidämie · Systemischer Lupus erythematodes
Fallenfälle (2) BT-014, BT-015 Morbus Gilbert (isolierte indirekte Hyperbilirubinämie) · Vollständig normales Erwachsenenscreening

Warum genau diese Verteilung

Hämatologie erhält drei Fälle, weil mikrozytäre Differentialdiagnosen und makrozytäre Differentialdiagnosen in der realen Laborpraxis die volumenstärksten Fallen sind. Endokrinologie erhält drei, weil die Präsentationen bei Hashimoto, PCOS und Vitamin-D-Mangel unterschiedliche diagnostische Formen trainieren (autoantikörpergetrieben, hormonquotientgetrieben, ein-Marker-getrieben). Die Einzelfall-Spezialgebiete sind dennoch sinnvoll, weil jedes von CKD, ASCVD-Risiko und SLE sein eigenes Punktesystem hat, das die Engine aufrufen soll (KDIGO-Staging, ASCVD-10-Jahresrisiko, 2019 EULAR/ACR-SLE-Kriterien jeweils).

V11 Zweites Update — 100.000 synthetische Fälle über 127 Länderbezeichnungen

Das Zweite Update ersetzt das ursprüngliche V11 hardcodierte 15-Fall-Python-Literal durch ein größeres, programmgesteuert generiertes synthetisches Fallset. Das Fallset wird zu Beginn jedes Laufs geladen und die Konfiguration wird zur Transparenz protokolliert. Die Kohortenverteilung nach Themenbereich ist unten dargestellt.

Endokrinologie 23.900 Fälle (23,9%) Schilddrüse, PCOS, Vitamin D, gonadale Achse, Hypophyse
Stoffwechselmedizin 21.900 Fälle (21,9%) T2DM, metabolisches Syndrom, Lipidprofile, Hyperurikämie
Hämatologie 15.400 Fälle (15,4%) Mikrozytäre und makrozytäre Differenzialdiagnosen, B12/Folat, Eisenuntersuchungen
Hepatologie 12.400 Fälle (12,4%) NAFLD/NASH, virale Hepatitis, FIB-4, Cholestase
Innere Medizin (inkl. Trap-Subset) 9.000 Fälle (9,0%) Gemischte Präsentationen und 8.723 dedizierte Hyperdiagnose-Trap-Fälle
Kardiologie 7.500 Fälle (7,5%) ASCVD-Risiko, atherogene Dyslipidämie, hs-CRP
Rheumatologie 6.000 Fälle (6,0%) SLE, RA, Vaskulitis, Autoantikörper-Panels (EULAR/ACR-Kriterien)
Nephrologie 4.000 Fälle (4,0%) CKD-Staging (KDIGO), eGFR-Trends, Elektrolytstörungen

Synthetische Länderbezeichnungs-Verteilung — Top 10 Bezeichnungen

Die 100.000 synthetischen Fälle tragen 127 Länderbezeichnungen (ISO 3166-1 alpha-2), um die Handhabung des Ortsbezugs zu testen. Zuordnung der Bezeichnungen: Europa 57,7%, die Amerikas 25,4%, Asien-Pazifik 6,2%, benannte Nahost/Afrika-Bezeichnungen 3,4% und ein langes Ende von 97 zusätzlichen Bezeichnungen zusammen grob 7,3%. Die zehn häufigsten Bezeichnungen nach Fallanzahl sind die Vereinigten Staaten (10.500), Brasilien (9.500), Spanien (9.000), Italien (8.000), Deutschland (7.800), Frankreich (7.400), Portugal (5.800), Türkiye (3.400), das Vereinigte Königreich (2.900) und Mexiko (2.500). Die Komposit-Scores je Bezeichnung lagen zwischen 0,9971 und 0,9985. Diese Bezeichnungsanzahlen sind Eigenschaften der generierten Fälle, die zur Erprobung der Handhabung des Ortsbezugs verwendet werden — sie sind keine realen Nutzer und keine reale geografische Abdeckung.

Die vorab registrierte Rubrik, erklärt

Die Vorabregistrierung ist die wichtigste methodische Entscheidung in diesem Benchmark. Jede erwartete Diagnose, jedes klinische Bewertungssystem und jeder Abschnitt des Berichts wurden in Quellcode festgeschrieben , bevor die Engine aufgerufen wurde. Eine nachträgliche Feinjustierung des Rubriks, um die Engine zu begünstigen, ist daher unmöglich.

Drei Komponenten bilden den zusammengesetzten Score. Die strukturelle Komponente trägt 35 Prozent bei und misst, ob die Engine die sieben verpflichtenden Berichtsteile zurückgegeben hat (Kopfzeile, Zusammenfassung, wichtigste Befunde, Differentialdiagnose, Bewertungssysteme, Empfehlungen, Follow-up) sowie die sechzehn verpflichtenden Unterabschnitte innerhalb davon. Das Vorhandensein von Abschnitten wiegt 40 Prozent und das Vorhandensein von Unterabschnitten 60 Prozent innerhalb der strukturellen Berechnung.

Der klinische Komponente trägt 55 Prozent bei und kombiniert drei Dinge: Diagnose-Keyword-Erinnerung (70 Prozent des klinischen Subscores), Erinnerungsleistung der Bewertungssysteme (20 Prozent — berechnet die Engine Mentzer, FIB-4, HOMA-IR, ASCVD-Risiko, KDIGO-Staging, EULAR/ACR-Kriterien, sofern relevant), und einen Plausibilitätscheck der Wahrscheinlichkeits-Summe (10 Prozent — die Differentialdiagnose-Wahrscheinlichkeiten sollten innerhalb des Intervalls [90, 110] aufsummiert sein). Bei Fallenfällen wird eine explizite Hyperdiagnose-Strafe von bis zu 0,30 abgezogen, berechnet als 0,10 pro erfundenem Pathologie-Flag, gedeckelt auf drei Flags.

Der Latenzkomponente trägt 10 Prozent bei. Eine Antwort unter 20 Sekunden erhält die volle 0,10, eine Antwort unter 40 Sekunden erhält 0,05, und alles, was langsamer ist, erhält null. Das 20-Sekunden-Ziel spiegelt das Produktionsziel für den Primary-Path-Service-Level wider; die 40-Sekunden-Obergrenze spiegelt das Fallback-Budget für Phase 2 bei häufigen Engine-Aufrufen wider.

Terminal-Screenshot des MIT-lizenzierten Kantesti-Benchmark-Harness, der läuft und pro Fall Scores ausgibt — derselbe Harness, jetzt SQL-gesteuert, erzeugte im V11 Second Update im 100.000-Fall-Lauf den 99.80%-Kompositwert
Abbildung 3: Das im Einsatz befindliche Harness — dieselbe Engine, die erzeugt hat 99.80% zusammengesetzter Score in der V11 Second Update 100,000-Fall-Kohorte. Jeder Fall wird als A4-PDF gerendert, an den Produktions-Endpunkt v11 gepostet und anhand der eingefrorenen Bewertungsrubrik bewertet. Das Second Update fügte einen parametrisierten SQL-Case-Loader hinzu; eine geschichtete Zufallsstichprobe der Roh-Engine-Antworten (n = 201) wird neben dem aggregierten Scorecard gespeichert.

Was die Vorabregistrierung verhindert

Erstparteien-Benchmarks sind berüchtigt dafür, ihre eigenen Zahlen durch nachträgliche Rubrik-Feinjustierung aufzublähen. Das Muster ist fast immer dasselbe: Das Team führt die Engine aus, sieht, wo sie unterperformt, und passt dann still und leise den Rubrik so an, dass die unterperformenden Bereiche weniger zählen. Indem der Rubrik vor dem ersten Engine-Aufruf in Quellcode festgeschrieben und der Harness unter der MIT-Lizenz veröffentlicht wird, wird diese Anpassung in der Versionskontrolle sichtbar. Jeder kann das Repository klonen, die Autorendaten des Rubriks prüfen und verifizieren, dass die Engine-Ergebnisse nicht verwendet wurden, um die Bewertung zu formen.

Hyperdiagnose-Fallen — warum „zu häufiges Rufen“ der eigentliche Ausfallmodus ist

Aggressives Überdiagnostizieren von Pathologie in normalen Screenings ist ein dokumentierter Fehlermodus von medizinischen Assistenzsystemen für Verbraucher. Zu den Folgekosten gehören unnötige Abklärungen, Patientenangst und eine iatrogene Aufarbeitung. Die zwei Fallenfälle in diesem Benchmark sind so gestaltet, dass dieser Fehlermodus sichtbar und bewertbar wird.

Gegenüberstellung von Angesicht zu Angesicht: eine naive KI, die Hepatitis auf einem Gilbert-Syndrom-Panel erfindet, versus die Kantesti-Engine, die die harmlose UGT1A1-Polymorphie korrekt identifiziert — Methodik, die über 87.412 Fallenfall-Flag-Gelegenheiten im V11 Second Update Benchmark 99.80% auf null False Positives skaliert wurde
Abbildung 4: Das Trap-Case-Design aus dem V11-Initial-Release — eine Engine, die Gilbert-Syndrom selbstbewusst als Hepatitis etikettiert, oder die grenzwertige Pathologie auf einem vollständig normalen Screen erzeugt, wird bestraft statt belohnt, wenn sie klinisch klingt. Diese Methodik wurde skaliert auf 0 / 87,412 False-Positives im V11 Second Update 100,000-Fall-Lauf, der den 99.80% zusammengesetzten Score erzeugte.

🟡 Falle 1 — BT-014-GILBERT

Präsentation. Ein 24-jähriger Mann mit einem Gesamtbilirubin von 2,4 mg/dL. Der direkte Anteil ist normal, Transaminasen und alkalische Phosphatase liegen innerhalb ihrer Referenzbereiche, Retikulozyten sind unauffällig, und Haptoglobin sowie LDH schließen eine Hämolyse aus.

Korrekte Interpretation. Gilbert-Syndrom — eine harmlose UGT1A1-Polymorphie. Die Interpretation sollte keine Hepatitis, Zirrhose, hämolytische Anämie oder biliäre Obstruktion heranziehen.

V11-Ergebnis. Komposit 1,000. Keine der sechs überwachten Over-Diagnosis-Flags erschien als aktive Diagnose.

🟡 Falle 2 — BT-015-GESUND

Präsentation. Eine 35-jährige Frau mit einem fünfzehnparametrigen Routine-Screening-Panel. Jeder Analyt liegt bequem innerhalb seines Referenzbereichs.

Korrekte Interpretation. Beruhigung und Pflege des Lebensstils. Die Auswertung sollte keine grenzwertige Pathologie erfinden, um klinisch nützlich zu wirken.

V11-Ergebnis. Komposit 1.000. Keiner der sieben überwachten Überdiagnose-Flags – Diabetes, Anämie, Hypothyreose, Dyslipidämie, Hepatitis, Nierenerkrankung, Mangel – erschien als aktive Diagnose.

Über beide Fallen hinweg wurden dreizehn überwachte Hyperdiagnose-Flags geprüft. Keines wurde ausgelöst. Dieses Ergebnis ist das Wichtigste für jeden Kliniker, der erwägt, eine KI-Engine als Triage- oder Vorab-Consulting-Tool zu verwenden: Das System hat keine Krankheit erfunden, wo keine existierte..

Mentzer-Index: Eisenmangel von dem Thalassämie-Anlageträger unterscheiden

Ein zweiter Befund mit hohem Mehrwert betrifft die Kombination von Fall BT-001 (Eisenmangelanämie) mit Fall BT-007 (Beta-Thalassämie minor). Beide zeigen eine Mikrozytose und sind eine gut bekannte Stolperfalle für naive Klassifikatoren. Der Mentzer-Index, berechnet als MCV dividiert durch die RBC-Zahl, liegt bei Eisenmangel über 13 und fällt bei Thalassämie-Eigenschaft unter 13.

In BT-001 war die Patientin 34 Jahre alt, weiblich, mit Hämoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, Ferritin 6 ng/mL und erhöhtem TIBC. Der Mentzer-Index von etwa 17,7 stützt einen absoluten Eisenmangel. In BT-007 war der Patient 28 Jahre alt, männlich, mit Mikrozytose (MCV 65,8 fL), aber einer hohen RBC-Zahl von 6,2, einem normalen RDW, normalem Ferritin und HbA2 von 5,6 Prozent. Der Mentzer-Index von etwa 10,6 spricht für eine Thalassämie-Eigenschaft, und das erhöhte HbA2 bestätigt die Beta-Thalassämie minor.

Eisenmangelanämie Mentzer > 13 Niedriges Ferritin, niedriges TSAT, hohes TIBC, erhöhtes RDW
Beta-Thalassämie-Eigenschaft Mentzer < 13 Normales Ferritin, normales RDW, erhöhtes HbA2 (>3.5%), hohe RBC-Zahl

Beide Fälle erzielten 1.000. Die Engine rief den Mentzer-Index in beiden Auswertungen explizit auf und lieferte in jedem Fall die korrekte Diagnose. Dies ist das klinisch beruhigendste Ergebnis im gesamten Benchmark, weil die Fehlklassifikation der Thalassämie-Eigenschaft als Eisenmangel zu einer unangemessenen Eisensupplementierung und verpassten Möglichkeiten für das Familienscreening führt, und weil die Fehlklassifikation des Eisenmangels als Thalassämie eine unkomplizierte Ersetzungstherapie verzögert. Unser Ferritin-Bereichsrichtlinie erklärt den breiteren Differentialkontext.

Pro-Fall-Ergebnisse aus dem V11-Initial-Referenzlauf (23. April 2026)

Der ursprüngliche V11-Referenzlauf in der 15-Fall-Proof-of-Concept-Kohorte dient als die methodische Grundlage des Second Update: Jede der untenstehenden Pro-Fall-Details zeigt, wie die Rubrik eine echte Engine-Antwort behandelt. Zwölf von fünfzehn Fällen erreichten die Deckelung des zusammengesetzten Primärpfad-Scores von 1.000; drei Fälle wurden über den Phase-2-Fallback bereitgestellt und verloren den 0.05-Latenzbonus, während alle klinischen und strukturellen Inhalte erhalten blieben. Ein Fall hatte eine einzelne verpflichtende Untersektion nicht; einer lieferte eine nur geringfügig reduzierte Summe der Wahrscheinlichkeitsverteilung zurück.

Fall-ID Fachgebiet Zusammengesetzt Latenz Pfad
BT-001-IDAHämatologie1.00017,8 sprimär
BT-006-B12Hämatologie1.00018,4 sprimär
BT-007-THALHämatologie1.00017,0 sprimär
BT-002-HASHEndokrinologie0.95037,0 sFallback
BT-008-PCOSEndokrinologie0.98718,6 sprimär
BT-003-T2DMStoffwechsel1.00019,1 sprimär
BT-013-GICHTStoffwechsel1.00019,4 sprimär
BT-004-NAFLDHepatologie1.00019,6 sprimär
BT-009-VIRHEPHepatologie0.95023,4 sFallback
BT-014-GILBERTFalle1.00018,9 sprimär
BT-005-CKDNephrologie1.00017,4 sprimär
BT-010-ASCVDKardiologie1.00019,7 sprimär
BT-011-SLERheumatologie0.98118,2 sprimär
BT-012-VITDEndokrinologie1.00019,3 sprimär
BT-015-GESUNDFalle1.00018,7 sFallback

Der PCOS-Fall (BT-008) verlor in der Antwortstruktur eine einzelne verpflichtende Untersektion — fünfzehn von sechzehn statt sechzehn von sechzehn — wodurch der Strukturscore von 1,000 auf 0,963 gekürzt wurde. Der SLE-Fall (BT-011) lieferte eine marginal verminderte Summe der Wahrscheinlichkeitsverteilung, wodurch der klinische Score auf 0,965 sank, während jeder diagnostische Schlüsselbegriff und jedes Bewertungssystem erhalten blieb. Keiner der beiden Fälle mit suboptimalem Ergebnis verpasste eine korrekte Diagnose.

V11 Second Update aggregiert — 100.000 Fälle

Auf Bevölkerungsebene sind einzelne Fallzeilen nicht menschenlesbar, daher berichtet das Zweite Update aggregierte Kennzahlen statt einer 100.000-Zeilen-Tabelle. Die wichtigste aggregierte Kennzahl ist unten dargestellt; Aufschlüsselungen nach Fachgebiet und nach Länderbezeichnung werden im technischen Bericht und im Figshare-Deposit veröffentlicht. Eine geschichtete Zufallsstichprobe von n = 201 Roh-Engine-Antworten (deterministischer Seed 20260426) wird im GitHub- results/- Verzeichnis zur Einsicht veröffentlicht.

Zusammengesetzter Score V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 über die 100.000-Fall-Kohorte
Strukturscore (Mittelwert) V11 initial: 0.998 → Second Update: 1.000 Perfekte strukturelle Konformität in Bevölkerungsgröße
Klinischer Score (Mittelwert) V11 initial: 0.998 → Second Update: 0.996 −0.002; kein Fall verfehlte die Diagnose selbst
Latenz — Mittelwert (Spanne) V11 initial: 20,17 s (17,0–37,0 s) → Zweites Update: 13,26 s (9,0–16,94 s) Produktions-Engine-Optimierungen zwischen den Läufen
Engine-Pfad = primär V11 initial: 12 / 15 → Zweites Update: 100,000 / 100,000 Es war zu keinem Zeitpunkt während des Laufs ein Fallback für Phase 2 erforderlich
Trap-Subset-Hyperdiagnose-Flags V11 initial: 0 / 13 → Zweites Update: 0 / 87,412 Keine falsch-positiven Ergebnisse auf Populationsebene (8.723 überwachte Trap-Fälle)

Was der Headline-Score nicht aussagt

Ein Komposit-Score von 99,80 Prozent unter dieser speziellen vorab registrierten Bewertungsrubrik, auf einer 100.000-Fall-synthetischen Kohorte über 127 Länderbezeichnungen hinweg, entspricht nahezu einer Ceiling-Performance — aber es verdient eine sorgfältige Einordnung. Das Ergebnis beschreibt das Verhalten der Engine gegenüber der Bewertungsrubrik, zu der wir uns in V11 im Quellcode verpflichtet haben; es ist keine universelle Aussage über die Korrektheit der Engine für jedes existierende Bluttestpanel in der realen Welt.

Die Punktzahl besagt, dass die Engine die für diese Auswertung ausgewählten diagnostischen Muster korrekt über eine Kohorte auf Populationsebene hinweg verarbeitet hat, anhand einer Methodik, die veröffentlicht und reproduzierbar ist. Sie sagt nicht, dass die Engine für jedes Bluttest-Panel, das in der realen Welt existiert, korrekt ist. Sie sagt nicht, dass die Engine das klinische Urteilsvermögen ersetzen sollte. Und sie sagt nicht, dass die Engine alternative KI-Systeme übertrifft — vergleichende Analysen mit anderen Engines waren für diesen Bericht bewusst nicht im Umfang.

Was die Punktzahl jedoch festlegt, ist eine Ausgangsbasis. Da Rubrik und Harness öffentlich sind, können zukünftige Versionen der Engine anhand derselben Rubrik bewertet werden — angewendet auf die V11-Initial-15-Fälle, die Zweites-Update-100.000-Fälle-Kohorte oder jede nachfolgende Erweiterung — und die Lücke zwischen der veröffentlichten Punktzahl und jedem nachfolgenden Lauf ist selbst messbar. Das ist der Wert der Vorabregistrierung: sie macht Leistungsbehauptungen zu überprüfbaren Behauptungen.

So reproduzieren Sie diesen Benchmark in 10 Minuten

Für die Reproduktion ist lediglich ein Kantesti-API-Zugangsdatenpaar erforderlich sowie eine Umgebung mit Python 3.10 oder neuer, mit der requests Und reportlab Bibliotheken installiert. Das vollständige Test-Setup ist ein einzelnes, in sich geschlossenes Python-Modul, das unter der MIT-Lizenz veröffentlicht wird.

Reproduzierbarkeits-Netzwerkdiagramm, das den V11-Second-Update-Benchmark zeigt (99,80% Komposit, 100.000 Fälle, 127 Länderlabels), gespiegelt über Figshare, ResearchGate, Academia.edu und GitHub, wobei der Figshare-DOI als kanonischer Anker dient
Abbildung 5: Der V11-Zweites-Update-Benchmark — 99,80% Komposit-Score über 100.000 Fälle hinweg über 127 Länderbezeichnungen hinweg — wird über vier Forschungsplattformen gespiegelt. Der Figshare-DOI ist der kanonische wissenschaftliche Identifikator; ResearchGate (Publication 404175463), Academia.edu (Paper 165956808) und GitHub hosten parallele Kopien mit dem Benchmark-Harness, der geschichteten Zufallsstichprobe der Rohantworten und den länderspezifischen/fachspezifischen Scorecards.

Vier Schritte für einen frischen Lauf

Eins. Repository klonen: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Zwei. Abhängigkeiten installieren mit pip install -r requirements.txt (Das Zweite Update ergänzt mysql-connector-python ≥ 8.0 für den SQL-Case-Loader). Drei. Setzen KANTESTI_USERNAME Und KANTESTI_PASSWORD als Umgebungsvariablen für die Engine-API. Für den SQL-Case-Loader des Zweiten Updates setze außerdem KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, Und KANTESTI_DB_PASSWORD — der Loader verbindet sich über eine Nur-Lese-Rolle (bench_reader) die keine Berechtigungen zur Identifizierung von Tabellen hat. Vier. Ausführen python benchmark_bloodtest.py --limit 100000 für den vollständigen Second-Update-Lauf oder python benchmark_bloodtest.py --limit 1000 für schnelle Iterationen. Die Ausgaben landen in ./benchmark_results/: eine CSV-Scorecard mit Spalten für Land/Label und Fachgebiet, ein JSON-Aggregat, eine geschichtet-zufällige Rohantwort-Stichprobe und ein Markdown-Bericht.

Die Referenzläufe vom 23. April 2026 (V11 initial, 15 Fälle) und vom 26. April 2026 (V11 Second Update, 100.000 Fälle) werden im results/- Verzeichnis des Repositorys beibehalten. Ein frischer Lauf erzeugt eine neue, zeitgestempelte Scorecard, während die Referenzläufe unangetastet bleiben. Wenn Ihr Lauf ein wesentlich anderes Ergebnis liefert, öffnen Sie bitte ein GitHub-Issue mit dem Zeitstempel des Laufs und der Engine-Version, die in den Antwort-Metadaten zurückgegeben wird.

Einschränkungen und zukünftige Arbeiten

Selbst bei 100.000 Fällen über 127 Länderlabels hinweg verdienen vier Einschränkungen eine explizite Anerkennung: Unterabtastung von Long-Tail-Labels, Single-Shot-Evaluierung, Single-Engine-Scope und Single-Source-Datenursprung. Jede davon wird in aktiver Nachfolgearbeit adressiert.

Abdeckung von Long-Tail-Labels. Das Second Update umfasst 127 Länderlabels, aber die Verteilung ist unausgewogen — die Top 10 Labels machen ≈66,4% der Fälle aus, und der Long Tail aus 97 zusätzlichen Labels trägt zusammen ≈7,3% bei (etwa 7.300 Fälle kombiniert, ~75 Fälle pro Label im Durchschnitt). Pro-Label-Komposits in diesem Long Tail sind daher rauschiger, als die Schlagzeilenwerte vermuten lassen. Künftige Läufe werden die Zuordnung der Labels neu ausbalancieren, um die Pro-Label-Schätzungen zu festigen.

Single-Shot-Auswertung. Jeder Fall im Kollektiv wurde einmal bewertet. Große Sprachmodelle zeigen auch bei niedriger Sampling-Temperatur eine nicht-triviale Ausgabeschwankung, daher ist ein Multi-Run-Protokoll mit fünf Bewertungen pro Fall und ausgewiesener Varianz der natürliche nächste Schritt — insbesondere auf der Trap-Case-Teilmenge, wo Konsistenz unter Sampling-Jitter Teil der Sicherheitsbehauptung ist.

Umfang auf eine einzelne Engine. Dieser Bericht charakterisiert eine Engine. Vergleichende Analysen mit alternativen KI-Systemen sind hier nicht im Umfang; wir können sie als separate unabhängige Studie mit geeigneter Methodik verfolgen, gegen denselben MIT-lizenzierten Harness.

Synthetische Daten. Die 100.000 Fälle werden synthetisch generiert, nicht synthetische Fälle, und die Ergebnisse übertragen sich nicht auf die klinische Leistung in der realen Welt. Eine Evaluierung mit echten, einwilligungsbasierten, extern bezogenen Daten würde eine angemessene ethische Aufsicht erfordern und liegt außerhalb des Umfangs dieses synthetischen Benchmarks.

Über diese vier hinaus ist die wirkungsvollste geplante Erweiterung die mehrsprachige Parität je Jurisdiktion. Die Kantesti AI Engine bedient Nutzer in 75+ Sprachen, und das Ausführen sprach-geschichteter Second-Update-Subkohorten (Türkisch, Deutsch, Spanisch, Französisch, Italienisch, Portugiesisch, Arabisch, Mandarin) wird die Ausgabequalität über die unterstützten Sprachen der Engine hinweg quantifizieren. Jede sprach-geschichtete Analyse wird mit ihrem eigenen DOI und einem Harness-Branch veröffentlicht.