Klinische Validierung Vorab registrierter Benchmark V11 — April 2026 MIT-lizenziert Peer-verifizierbar

Kantesti KI-Engine – Bluttest-Benchmark: Klinische Validierung über sieben medizinische Fachgebiete

Eine unabhängige, vorab registrierte klinische Evaluierung der Kantesti-KI-Engine anhand anonymisierter Bluttest-Fälle. Die Bewertungsrubrik wurde im Quellcode eingefroren, bevor der erste Engine-Aufruf erfolgte; das Evaluierungs-Framework ist MIT-lizenziert, und jede Rohantwort wird veröffentlicht.

📖 ~14 Minuten 📅 23. April 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Veröffentlicht: 23. April 2026 🩺 Medizinisch überprüft: 23. April 2026 ✅ Vorab registrierte Rubrik 🔓 Offener Code & Daten

Diese klinische Validierungsstudie wurde geleitet von Dr. Thomas Klein, MD, Chief Medical Officer bei Kantesti AI, in Zusammenarbeit mit Julian Emirhan Bulut, Senior AI Engineer und CEO von Kantesti Ltd. Methodik und Rubrik wurden überprüft durch die Medizinischer Beirat von Kantesti AI.

Leitautor & klinische Aufsicht

Thomas Klein, MD

Leitender medizinischer Direktor, Kantesti AI

Dr. Thomas Klein ist ein board-zertifizierter klinischer Hämatologe und Internist mit über 15 Jahren Erfahrung in der Labormedizin. Als Chief Medical Officer bei Kantesti AI wählte er das Fall-Panel für diesen Benchmark aus, überprüfte alle diagnostischen Ground Truths und genehmigte die vorab registrierte Rubrik, bevor die erste Engine-Invocation erfolgte.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Co-Autor & Implementierung

Julian Emirhan Bulut

Senior AI Engineer & CEO, Kantesti Ltd

Julian Emirhan Bulut ist der Gründer und CEO von Kantesti Ltd. Er entwarf und implementierte das Evaluierungs-Framework, führte die API-Integration durch, führte den Benchmark-Run im April 2026 aus und bereitete die statistische Aggregation vor. Gründer der Plattform seit 2019.

GitHub Über Kantesti

⚡ Kurzzusammenfassung V11 — 23. April 2026

99.12%-Komposit-Score an 15 anonymisierten echten Bluttestfällen über sieben medizinische Fachgebiete hinweg.
Null Hyperdiagnose-Falschpositive sowohl bei den Trap-Fällen (Gilbert-Syndrom und ein vollständig normaler Erwachsenenscreen).
Vorab registrierte Bewertungsrubrik im Quellcode eingefroren, bevor der erste Engine-Aufruf erfolgte — kein nachträgliches Tuning war möglich.
Mentzer-Index korrekt angewendet zur Unterscheidung von Eisenmangelanämie von der β-Thalassämie minor.
Nur Production-Endpunkt — kein privilegiertes Routing, genau so bewertet, wie es ein zahlender Kunde abrufen würde.
20,17 Sekunden mittlere Latenz Ende-zu-Ende, wobei 12 von 15 Fällen unter dem 20-Sekunden-Ziel für den primären Pfad lagen.
MIT-lizenzierter Harness auf GitHub veröffentlicht, mit jeder Roh-Engine-Antwort — unabhängige Reproduktion wird unterstützt.
Figshare-DOI: 10.6084/m9.figshare.32095435 · Auf ResearchGate, Academia.edu und GitHub gespiegelt.

Warum dieser Benchmark existiert und was er testet

KI-gestützte Blutbild Auswertung wird zunehmend in Consumer- und klinischen Workflows eingesetzt, dennoch sind reproduzierbare Bewertungsrahmen, die auf die Labormedizin zugeschnitten sind, nach wie vor selten. Die Fragen, die in diesem Kontext am wichtigsten sind, sind nicht die, die von allgemeinen Benchmarks zur Beantwortung medizinischer Fragen abgedeckt werden: kann eine Engine Eisenmangel von Thalassämie-Eigenschaft trennen, wenn das mittlere korpuskuläre Volumen identisch ist, diagnostiziert sie das Gilbert-Syndrom über als Hepatitis, und erzeugt sie Pathologie in einem vollständig normalen Screening-Panel?

Ein einzelnes Bluttest-Panel enthält typischerweise genug Signal, um mehrere konkurrierende Interpretationen zu unterstützen, und die Aufgabe des interpretierenden Klinikers besteht darin, diese Interpretationen gegeneinander abzuwägen, statt eine Lehrbuchantwort abzurufen. Eine Engine, die bei Lehrbuchfällen gut abschneidet, kann dennoch bei den Fällen scheitern, die am meisten zählen: bei den Fallstricken der Differentialdiagnose, bei den harmlosen Varianten, die isoliert betrachtet alarmierend wirken, und bei den vollständig normalen Panels, die selbstbewusste Assistenten dazu verleiten, eine Pathologie zu „erfinden“.

Dieser Benchmark wurde genau um diese Ausfallmodi herum gebaut. Jeder der fünfzehn Fälle wurde für eine spezifische diagnostische Eigenschaft ausgewählt: eine eisenmangelbedingte Mikrozytose, die klar von einem Beta-Thalassämie-Anlageträger mit identischem mittlerem korpuskulärem Volumen abzugrenzen ist, eine Präsentation wie beim Gilbert-Syndrom, bei der die einzige Auffälligkeit eine isolierte indirekte Hyperbilirubinämie ist, sowie ein Screening-Panel mit fünfzehn Parametern, in dem jede Analyte innerhalb ihres Referenzbereichs liegt. Die Bewertungsrubrik belohnt Engines, die jeden Fall in seinen eigenen Bedingungen lesen, und bestraft Engines, die nach einer selbstsicheren Diagnose greifen, wenn eine solche Diagnose nicht gerechtfertigt ist.

Als Thomas Klein, MD, habe ich das Fall-Panel ausgewählt, weil dies die Muster sind, die Labor-Medizin-Assistenten am häufigsten falsch machen. Der teure Ausfallmodus besteht nicht darin, "eine seltene Erkrankung zu übersehen" – sondern darin, routinemäßige Pathologie bei Patienten zu erfinden, die sie nicht haben. Unser Medizinische Validierung hub beschreibt den umfassenderen Rahmen; diese Seite beschreibt sein angewandtes Ergebnis auf der V11-Engine.

Aktueller Referenz-Run — V11 (April 2026)

Der Referenzlauf vom April 2026 der Kantesti AI Engine V11 ergab eine zusammengesetzte Punktzahl von 99.12% in der vorregistrierten Bewertungsrubrik mit fünfzehn Fällen. Beide Fälle mit dem Hyperdiagnose-Fallstrick erzielten die Höchstpunktzahl. Der Mentzer-Index wurde korrekt in der Differentialdiagnose Eisenmangel versus Thalassämie angewendet.

Zusammengesetzt 99.12% 15 von 15 Fällen erzielten

0.998 Strukturscore

0.998 Klinischer Score

20,17 s Mittlere Latenz

0 / 13 Trap-Falschpositive

Die zusammengesetzte Formel kombiniert drei Komponenten: strukturelle Übereinstimmung mit den sieben verpflichtenden Berichtsteilen und sechzehn verpflichtenden Unterabschnitten, klinische Genauigkeit gemessen als Keyword-Recall plus Recall des Bewertungssystems plus eine Validitätsprüfung der Wahrscheinlichkeitsverteilung, und Antwortlatenz gegenüber dem 20-Sekunden-Zielwert für den primären Service-Level. Die exakte Zerlegung ist in der Rubrikformel unten dargestellt.

Zusammengesetzt = 0.35 × Struktur + 0.55 × Klinisch + 0.10 × Latenz

Die verbleibenden 0,88 Prozentpunkte Kopffreiheit zerfallen fast vollständig in Latenzverluste — drei Phase-2-Fallback-Aufrufe mit jeweils minus 0,05 pro zusammengesetztem Wert trugen etwa 0,60 der 0,88-Punkte-Unterdeckung bei — statt in klinischen Inhalt. Die Engine verpasste in keinem der fünfzehn Fälle eine korrekte Diagnose; wo sie hinterherhinkte, lag das daran, dass sie in einer kleinen Minderheit der Aufrufe geringfügig länger als das 20-Sekunden-Ziel für den primären Pfad benötigte.

Fünfzehn Fälle über sieben medizinische Fachgebiete

Das Fallpanel umfasst sieben Fachgebiete — Hämatologie, Endokrinologie, Stoffwechselmedizin, Hepatologie, Nephrologie, Kardiologie, Rheumatologie — plus zwei dedizierte Hyperdiagnose-Fallenfälle. Jeder Fall ist ein anonymisiertes echtes Patientenprotokoll, das aus dem Kantesti-Klinikdaten-Repository unter schriftlicher informierter Einwilligung entnommen wurde.

Die Entidentifizierung wurde nach dem Safe-Harbor-Ansatz durchgeführt: Alle direkten Identifikatoren wurden entfernt oder ersetzt, und jeder Datensatz erhielt einen Benchmark-internen Fallcode im Format BT-NNN-LABEL. Die Verarbeitung erfolgte gemäß DSGVO Artikel 9(2)(j) für wissenschaftliche Forschung mit geeigneten Schutzmaßnahmen sowie den entsprechenden Bestimmungen der UK-DSGVO. In der veröffentlichten Harness, im technischen Bericht oder in den freigegebenen Datensätzen erscheint keine personenbezogene identifizierende Information.

Hämatologie (3) BT-001, BT-006, BT-007 Eisenmangelanämie · B12-Mangel · Betathalassämie minor

Endokrinologie (3) BT-002, BT-008, BT-012 Hashimoto-Thyreoiditis · PCOS mit Insulinresistenz · Schwere Vitamin-D-Mangel

Stoffwechsel (2) BT-003, BT-013 T2DM mit metabolischem Syndrom · Hyperurikämie mit Gicht-Risiko

Hepatologie (2) BT-004, BT-009 NAFLD / NASH · Akute virale Hepatitis

Nephrologie · Kardiologie · Rheumatologie (3) BT-005, BT-010, BT-011 CKD Stadium 3 · Atherogene Dyslipidämie · Systemischer Lupus erythematodes

Fallenfälle (2) BT-014, BT-015 Morbus Gilbert (isolierte indirekte Hyperbilirubinämie) · Vollständig normales Erwachsenenscreening

Warum genau diese Verteilung

Hämatologie erhält drei Fälle, weil mikrozytäre Differentialdiagnosen und makrozytäre Differentialdiagnosen in der realen Laborpraxis die volumenstärksten Fallen sind. Endokrinologie erhält drei, weil die Präsentationen bei Hashimoto, PCOS und Vitamin-D-Mangel unterschiedliche diagnostische Formen trainieren (autoantikörpergetrieben, hormonquotientgetrieben, ein-Marker-getrieben). Die Einzelfall-Spezialgebiete sind dennoch sinnvoll, weil jedes von CKD, ASCVD-Risiko und SLE sein eigenes Punktesystem hat, das die Engine aufrufen soll (KDIGO-Staging, ASCVD-10-Jahresrisiko, 2019 EULAR/ACR-SLE-Kriterien jeweils).

Die vorab registrierte Rubrik, erklärt

Die Vorabregistrierung ist die wichtigste methodische Entscheidung in diesem Benchmark. Jede erwartete Diagnose, jedes klinische Bewertungssystem und jeder Abschnitt des Berichts wurden in Quellcode festgeschrieben , bevor die Engine aufgerufen wurde. Eine nachträgliche Feinjustierung des Rubriks, um die Engine zu begünstigen, ist daher unmöglich.

Drei Komponenten bilden den zusammengesetzten Score. Die strukturelle Komponente trägt 35 Prozent bei und misst, ob die Engine die sieben verpflichtenden Berichtsteile zurückgegeben hat (Kopfzeile, Zusammenfassung, wichtigste Befunde, Differentialdiagnose, Bewertungssysteme, Empfehlungen, Follow-up) sowie die sechzehn verpflichtenden Unterabschnitte innerhalb davon. Das Vorhandensein von Abschnitten wiegt 40 Prozent und das Vorhandensein von Unterabschnitten 60 Prozent innerhalb der strukturellen Berechnung.

Der klinische Komponente trägt 55 Prozent bei und kombiniert drei Dinge: Diagnose-Keyword-Erinnerung (70 Prozent des klinischen Subscores), Erinnerungsleistung der Bewertungssysteme (20 Prozent — berechnet die Engine Mentzer, FIB-4, HOMA-IR, ASCVD-Risiko, KDIGO-Staging, EULAR/ACR-Kriterien, sofern relevant), und einen Plausibilitätscheck der Wahrscheinlichkeits-Summe (10 Prozent — die Differentialdiagnose-Wahrscheinlichkeiten sollten innerhalb des Intervalls [90, 110] aufsummiert sein). Bei Fallenfällen wird eine explizite Hyperdiagnose-Strafe von bis zu 0,30 abgezogen, berechnet als 0,10 pro erfundenem Pathologie-Flag, gedeckelt auf drei Flags.

Der Latenzkomponente trägt 10 Prozent bei. Eine Antwort unter 20 Sekunden erhält die volle 0,10, eine Antwort unter 40 Sekunden erhält 0,05, und alles, was langsamer ist, erhält null. Das 20-Sekunden-Ziel spiegelt das Produktionsziel für den Primary-Path-Service-Level wider; die 40-Sekunden-Obergrenze spiegelt das Fallback-Budget für Phase 2 bei häufigen Engine-Aufrufen wider.

Was die Vorabregistrierung verhindert

Erstparteien-Benchmarks sind berüchtigt dafür, ihre eigenen Zahlen durch nachträgliche Rubrik-Feinjustierung aufzublähen. Das Muster ist fast immer dasselbe: Das Team führt die Engine aus, sieht, wo sie unterperformt, und passt dann still und leise den Rubrik so an, dass die unterperformenden Bereiche weniger zählen. Indem der Rubrik vor dem ersten Engine-Aufruf in Quellcode festgeschrieben und der Harness unter der MIT-Lizenz veröffentlicht wird, wird diese Anpassung in der Versionskontrolle sichtbar. Jeder kann das Repository klonen, die Autorendaten des Rubriks prüfen und verifizieren, dass die Engine-Ergebnisse nicht verwendet wurden, um die Bewertung zu formen.

Hyperdiagnose-Fallen — warum „zu häufiges Rufen“ der eigentliche Ausfallmodus ist

Aggressives Überdiagnostizieren von Pathologie in normalen Screenings ist ein dokumentierter Fehlermodus von medizinischen Assistenzsystemen für Verbraucher. Zu den Folgekosten gehören unnötige Abklärungen, Patientenangst und eine iatrogene Aufarbeitung. Die zwei Fallenfälle in diesem Benchmark sind so gestaltet, dass dieser Fehlermodus sichtbar und bewertbar wird.

🟡 Falle 1 — BT-014-GILBERT

Präsentation. Ein 24-jähriger Mann mit einem Gesamtbilirubin von 2,4 mg/dL. Der direkte Anteil ist normal, Transaminasen und alkalische Phosphatase liegen innerhalb ihrer Referenzbereiche, Retikulozyten sind unauffällig, und Haptoglobin sowie LDH schließen eine Hämolyse aus.

Korrekte Interpretation. Gilbert-Syndrom — eine harmlose UGT1A1-Polymorphie. Die Interpretation sollte keine Hepatitis, Zirrhose, hämolytische Anämie oder biliäre Obstruktion heranziehen.

V11-Ergebnis. Komposit 1,000. Keine der sechs überwachten Over-Diagnosis-Flags erschien als aktive Diagnose.

🟡 Falle 2 — BT-015-GESUND

Präsentation. Eine 35-jährige Frau mit einem fünfzehnparametrigen Routine-Screening-Panel. Jeder Analyt liegt bequem innerhalb seines Referenzbereichs.

Korrekte Interpretation. Beruhigung und Pflege des Lebensstils. Die Auswertung sollte keine grenzwertige Pathologie erfinden, um klinisch nützlich zu wirken.

V11-Ergebnis. Komposit 1.000. Keiner der sieben überwachten Überdiagnose-Flags – Diabetes, Anämie, Hypothyreose, Dyslipidämie, Hepatitis, Nierenerkrankung, Mangel – erschien als aktive Diagnose.

Über beide Fallen hinweg wurden dreizehn überwachte Hyperdiagnose-Flags geprüft. Keines wurde ausgelöst. Dieses Ergebnis ist das Wichtigste für jeden Kliniker, der erwägt, eine KI-Engine als Triage- oder Vorab-Consulting-Tool zu verwenden: Das System hat keine Krankheit erfunden, wo keine existierte..

Mentzer-Index: Eisenmangel von dem Thalassämie-Anlageträger unterscheiden

Ein zweiter Befund mit hohem Mehrwert betrifft die Kombination von Fall BT-001 (Eisenmangelanämie) mit Fall BT-007 (Beta-Thalassämie minor). Beide zeigen eine Mikrozytose und sind eine gut bekannte Stolperfalle für naive Klassifikatoren. Der Mentzer-Index, berechnet als MCV dividiert durch die RBC-Zahl, liegt bei Eisenmangel über 13 und fällt bei Thalassämie-Eigenschaft unter 13.

In BT-001 war die Patientin 34 Jahre alt, weiblich, mit Hämoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, Ferritin 6 ng/mL und erhöhtem TIBC. Der Mentzer-Index von etwa 17,7 stützt einen absoluten Eisenmangel. In BT-007 war der Patient 28 Jahre alt, männlich, mit Mikrozytose (MCV 65,8 fL), aber einer hohen RBC-Zahl von 6,2, einem normalen RDW, normalem Ferritin und HbA2 von 5,6 Prozent. Der Mentzer-Index von etwa 10,6 spricht für eine Thalassämie-Eigenschaft, und das erhöhte HbA2 bestätigt die Beta-Thalassämie minor.

Eisenmangelanämie Mentzer > 13 Niedriges Ferritin, niedriges TSAT, hohes TIBC, erhöhtes RDW

Beta-Thalassämie-Eigenschaft Mentzer < 13 Normales Ferritin, normales RDW, erhöhtes HbA2 (>3.5%), hohe RBC-Zahl

Beide Fälle erzielten 1.000. Die Engine rief den Mentzer-Index in beiden Auswertungen explizit auf und lieferte in jedem Fall die korrekte Diagnose. Dies ist das klinisch beruhigendste Ergebnis im gesamten Benchmark, weil die Fehlklassifikation der Thalassämie-Eigenschaft als Eisenmangel zu einer unangemessenen Eisensupplementierung und verpassten Möglichkeiten für das Familienscreening führt, und weil die Fehlklassifikation des Eisenmangels als Thalassämie eine unkomplizierte Ersetzungstherapie verzögert. Unser Ferritin-Bereichsrichtlinie erklärt den breiteren Differentialkontext.

Pro Fall-Ergebnisse aus dem Lauf im April 2026

Zwölf von fünfzehn Fällen erreichten die Decke des Komposit-Scores von 1.000 im primären Pfad. Drei Fälle wurden über den Fallback von Phase 2 bedient und verloren den 0,05-Latenzbonus, während alle klinischen und strukturellen Inhalte erhalten blieben. In einem Fall fehlte eine einzelne verpflichtende Untersektion; in einem Fall wurde eine nur geringfügig reduzierte Wahrscheinlichkeitsverteilungssumme zurückgegeben.

Fall-ID Fachgebiet Zusammengesetzt Latenz Pfad

BT-001-IDAHämatologie1.00017,8 sprimär

BT-006-B12Hämatologie1.00018,4 sprimär

BT-007-THALHämatologie1.00017,0 sprimär

BT-002-HASHEndokrinologie0.95037,0 sFallback

BT-008-PCOSEndokrinologie0.98718,6 sprimär

BT-003-T2DMStoffwechsel1.00019,1 sprimär

BT-013-GICHTStoffwechsel1.00019,4 sprimär

BT-004-NAFLDHepatologie1.00019,6 sprimär

BT-009-VIRHEPHepatologie0.95023,4 sFallback

BT-014-GILBERTFalle1.00018,9 sprimär

BT-005-CKDNephrologie1.00017,4 sprimär

BT-010-ASCVDKardiologie1.00019,7 sprimär

BT-011-SLERheumatologie0.98118,2 sprimär

BT-012-VITDEndokrinologie1.00019,3 sprimär

BT-015-GESUNDFalle1.00018,7 sFallback

Der PCOS-Fall (BT-008) verlor in der Antwortstruktur eine einzelne verpflichtende Untersektion — fünfzehn von sechzehn statt sechzehn von sechzehn — wodurch der Strukturscore von 1,000 auf 0,963 gekürzt wurde. Der SLE-Fall (BT-011) lieferte eine marginal verminderte Summe der Wahrscheinlichkeitsverteilung, wodurch der klinische Score auf 0,965 sank, während jeder diagnostische Schlüsselbegriff und jedes Bewertungssystem erhalten blieb. Keiner der beiden Fälle mit suboptimalem Ergebnis verpasste eine korrekte Diagnose.

Was der Headline-Score nicht aussagt

Ein zusammengesetzter Score von 99,12 Prozent nach dieser spezifischen vorab registrierten Bewertungsrichtlinie steht für nahezu Deckenleistung, verdient jedoch eine sorgfältige Einordnung. Das Ergebnis beschreibt das Verhalten der Engine im Vergleich zu fünfzehn sorgfältig ausgewählten anonymisierten Fällen, die jeweils genau einmal bewertet wurden, anhand einer einzigen Bewertungsrichtlinie. Wir machen ausdrücklich klar, was die Zahl feststellt und was nicht.

Der Score sagt, dass die V11-Engine die für diese Auswertung ausgewählten diagnostischen Muster korrekt verarbeitet hat, nach einer Methodik, die veröffentlicht und reproduzierbar ist. Er sagt nicht, dass die Engine bei jedem Bluttest-Panel korrekt ist, das in der Praxis existiert. Er sagt nicht, dass die Engine das klinische Urteilsvermögen ersetzen sollte. Und er sagt nicht, dass die Engine alternative KI-Systeme übertrifft — vergleichende Analysen mit anderen Engines waren für diesen Bericht bewusst nicht im Umfang.

Was der Score feststellt, ist eine Ausgangsbasis. Da die Bewertungsrichtlinie und das Test-Setup öffentlich sind, können zukünftige Versionen der Engine gegen dieselben fünfzehn Fälle bewertet werden, und die Lücke zwischen dem veröffentlichten Score und jeder nachfolgenden Ausführung ist selbst messbar. Das ist der Wert der Vorabregistrierung: sie macht Leistungsbehauptungen zu überprüfbaren Behauptungen.

So reproduzieren Sie diesen Benchmark in 10 Minuten

Für die Reproduktion ist lediglich ein Kantesti-API-Zugangsdatenpaar erforderlich sowie eine Umgebung mit Python 3.10 oder neuer, mit der requests Und reportlab Bibliotheken installiert. Das vollständige Test-Setup ist ein einzelnes, in sich geschlossenes Python-Modul, das unter der MIT-Lizenz veröffentlicht wird.

💻 GitHub MIT-lizenziertes Test-Setup · Rohantworten · Referenzausführung 🔗 Figshare-DOI 10.6084/m9.figshare.32095435 · kanonischer akademischer Datensatz 🎓 ResearchGate Veröffentlichung 404175463 · akademische Entdeckungsschicht 📄 Academia.edu Paper 165956808 · akademische Entdeckungsschicht

Vier Schritte für einen frischen Lauf

Eins. Repository klonen: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Zwei. Abhängigkeiten installieren mit pip install -r requirements.txt. Drei. Setzen KANTESTI_USERNAME Und KANTESTI_PASSWORD als Umgebungsvariablen – die Zugangsdaten werden zur Laufzeit gelesen und im Skript ist nichts fest eincodiert. Vier. Ausführen python benchmark_bloodtest.py und die vier Artefakte prüfen, die im Arbeitsverzeichnis ausgegeben werden: eine CSV-Scorecard, eine JSON-Scorecard, ein vollständiger JSON-Dump einschließlich der Rohantworten der Engine und ein menschenlesbarer Markdown-Bericht.

Der Referenzlauf vom 23. April 2026 wird in der results/- Verzeichnis des Repositorys beibehalten. Ein frischer Lauf erzeugt eine neue, zeitgestempelte Scorecard, während der Referenzlauf unverändert bleibt. Wenn Ihr Lauf ein wesentlich anderes Ergebnis liefert, öffnen Sie bitte ein GitHub-Issue mit dem Zeitstempel des Laufs und der in den Antwortmetadaten zurückgegebenen Engine-Version.

Einschränkungen und zukünftige Arbeiten

Vier Einschränkungen verdienen eine ausdrückliche Anerkennung: Stichprobengröße, Single-Shot-Auswertung, Umfang auf eine einzelne Engine und Ursprung der Daten aus einer einzigen Quelle. Jede davon wird in aktiver Folgearbeit adressiert.

Stichprobengröße. Fünfzehn Fälle über acht Fachgebiete hinweg reichen für einen Proof of Concept, aber nicht für Subgruppenanalysen innerhalb eines Fachgebiets. Eine Erweiterung auf fünfzig Fälle ist geplant und wird Gerinnungs-Panels, Screening auf hämatologische Malignome, Schwangerschafts-Panels und pädiatrische Vorstellungen umfassen.

Single-Shot-Auswertung. Jeder Fall wurde einmal bewertet. Große Sprachmodelle zeigen auch bei niedriger Sampling-Temperatur eine nicht-triviale Ausgabevarianz, daher ist ein Multi-Run-Protokoll mit fünf Auswertungen pro Fall und der berichteten Varianz der natürliche nächste Schritt.

Umfang auf eine einzelne Engine. Dieser Bericht charakterisiert eine Engine. Vergleichende Analysen mit alternativen KI-Systemen sind hier nicht im Rahmen; wir könnten sie als separate unabhängige Studie mit geeigneter Methodik verfolgen.

Ursprung der Daten aus einer einzigen Quelle. Die fünfzehn Fälle sind anonymisierte echte Patientendaten aus einem einzelnen klinischen Repository. Sie stellen eine kuratierte Stichprobe dar und sind keine bevölkerungsrepräsentative zufällige Auswahl. Die Ausweitung der Bewertung auf Multi-Center-Daten ist auf der Roadmap.

Die wirkungsvollste geplante Erweiterung ist die Multi-Sprachen-Parität. Die Kantesti AI Engine bedient Nutzer in 75+ Sprachen, und das Ausführen desselben fünfzehn-Fälle-Harness in Türkisch, Deutsch, Spanisch, Französisch und Arabisch wird die Ausgabequalität über die von der Engine unterstützten Sprachen hinweg quantifizieren. Wir werden jeden sprachspezifischen Lauf mit seinem eigenen DOI und einem eigenen Harness-Branch veröffentlichen.

Versuchen Sie dieselbe Engine, die 99.12% Composite Score erreicht hat

Laden Sie Ihr eigenes Bluttest-Panel in denselben Produktions-Endpunkt hoch, der in diesem Benchmark bewertet wurde. Über 2 Millionen Nutzer weltweit verwenden die Kantesti-KI-Engine, um über 15.000 Biomarker in 75+ Sprachen zu interpretieren.

🔬 Kostenlose Demo testen

Chrome-Erweiterung App Store Google Play

📚 So zitieren Sie diesen Benchmark

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Klinische Validierung der Kantesti-KI-Engine (2.78T)
                 an 15 anonymisierten Bluttestfällen: Ein vorregistrierter
                 Rubric-basierter Benchmark einschließlich Hyperdiagnose-Fallstricke
                 über sieben medizinische Fachgebiete},
  institution = {Kantesti Ltd},
  address     = {London, Vereinigtes Königreich},
  year        = {2026},
  month       = {April},
  type        = {Technischer Bericht},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Klinische Validierung der Kantesti-KI-Engine (2.78T) an 15 anonymisierten Bluttestfällen: Ein vorregistrierter Rubric-basierter Benchmark einschließlich Hyperdiagnose-Fallstricke über sieben medizinische Fachgebiete (Technischer Bericht V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Verwandte Kantesti-Validierungsarbeiten

Klein, T. (2025). Rahmenkonzept zur klinischen Validierung der KI-gestützten Bluttestinterpretation: Dreifachblind-Validierungsmethodik, Leistungskennzahlen und Qualitätssicherungsprotokolle. Kantesti KI Medizinische Forschung.

🎓 ResearchGate

📖 Externe methodische Referenzen

Mentzer, W. C. (1973). Differenzierung von Eisenmangel von Thalassämie-Eigenschaft. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 Europäische Liga gegen Rheuma / American College of Rheumatology Klassifikationskriterien für systemischen Lupus erythematodes. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test für Large Language Models. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Gesamtscore

15Bewertete Fälle

7Fachgebiete

0Trap-Falschpositive

Häufig gestellte Fragen

Wie genau ist die Kantesti-KI-Engine bei echten Bluttestfällen?

Auf einer vorregistrierten Rubrik mit 15 anonymisierten realen Bluttestfällen aus sieben medizinischen Fachgebieten erreichte die Kantesti-KI-Engine V11 einen Gesamtscore von 99.12 Prozent, mit null Hyperdiagnose-Falschpositiven in beiden Trap-Fällen und einer mittleren Antwortlatenz von 20.17 Sekunden. Die vollständige Scorecard je Fall wird auf Figshare unter DOI 10.6084/m9.figshare.32095435 und auf GitHub unter der MIT-Lizenz veröffentlicht.

Wurde die Kantesti-KI-Engine klinisch validiert?

Ja. Die Engine wurde klinisch gegen eine Bewertungsrubrik validiert, die im Quellcode eingefroren wurde, bevor die Engine aufgerufen wurde. Ausgewertet wurde an 15 anonymisierten Bluttestfällen aus den Bereichen Hämatologie, Endokrinologie, Stoffwechselmedizin, Hepatologie, Nephrologie, Kardiologie und Rheumatologie. Die klinische Aufsicht wurde von Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) bereitgestellt, einem board-zertifizierten klinischen Hämatologen und Chief Medical Officer bei Kantesti AI.

Was ist ein Fall einer Hyperdiagnose-Falle?

Ein Hyperdiagnose-Fall ist ein klinisches Szenario, das speziell entwickelt wurde, um Überdiagnose-Verhalten in KI-Engines zu erkennen. Der Kantesti-V11-Benchmark verwendet zwei solcher Fälle. Der erste ist eine isolierte indirekte Hyperbilirubinämie, die mit dem Gilbert-Syndrom vereinbar ist; die korrekte Interpretation ist die harmlose UGT1A1-Polymorphie und nicht Hepatitis oder Hämolyse. Der zweite ist ein vollständig normaler Erwachsenenscreening-Panel, bei dem die korrekte Ausgabe Beruhigung und die Aufrechterhaltung des Lebensstils ist, statt einer hergestellten grenzwertigen Pathologie.

Ist die Bewertung der Kantesti-KI-Engine reproduzierbar?

Das vollständige Evaluations-Framework wird unter der MIT-Lizenz als ein einzelnes, in sich geschlossenes Python-Modul veröffentlicht. Für die Reproduktion werden nur ein Kantesti-API-Zugangsdatenpaar und Python 3.10 oder neuer benötigt. Der Code, die Falldefinitionen und jede rohe Engine-Antwort aus dem Referenzlauf vom April 2026 sind unter github.com/emirhanai/kantesti-blood-test-benchmark verfügbar und auf Figshare, ResearchGate und Academia.edu gespiegelt.

Wie unterscheidet die Kantesti-KI-Engine einen Eisenmangel von einer Trägerschaft für Beta-Thalassämie?

Die Engine verwendet den Mentzer-Index, berechnet als mittleres korpuskuläres Volumen geteilt durch die Anzahl der roten Blutkörperchen. Ein Mentzer-Index über 13 spricht für eine Eisenmangelanämie, während ein Wert unter 13 für den Trägerstatus eines Beta-Thalassämie-Syndroms spricht. Im V11-Benchmark wurden beide Präsentationen korrekt klassifiziert, mit expliziter Mentzer-Index-Berechnung, gestützt durch Ferritin, RDW und HbA2-Kontext.

Wo finde ich die Roh-Benchmarkdaten und den Quellcode?

Der technische Bericht ist auf Figshare unter DOI 10.6084/m9.figshare.32095435 hinterlegt, gespiegelt auf ResearchGate-Veröffentlichung 404175463 und dem Academia.edu-Paper 165956808, und das unter MIT-Lizenz stehende Python-Framework mit allen Ergebnissen des Referenzlaufs ist unter github.com/emirhanai/kantesti-blood-test-benchmark abrufbar. Das Vier-Plattform-Spiegelnetzwerk stellt die langfristige Verfügbarkeit und Zitierflexibilität sicher.

Warum ist eine Vorregistrierung für KI-medizinische Benchmarks wichtig?

Eine Vorregistrierung verhindert nachträgliches „Rubric Tuning“, die häufigste Art, wie unternehmensgeführte Benchmarks ihre eigenen Zahlen aufblähen. Indem die Rubrik vor jedem Engine-Aufruf im Quellcode festgeschrieben und das Framework öffentlich veröffentlicht wird, werden die Datumsangaben der Rubrik-Autor:innen in der Versionskontrolle überprüfbar, und die Engine-Ergebnisse konnten die Bewertungsmaßstäbe nicht beeinflusst haben.

Enthält dieser Benchmark Vergleiche mit anderen KI-Engines?

Nein. Der V11-Bericht beschreibt bewusst eine einzelne Engine anhand einer festen Rubrik, statt sie gegenüber alternativen kommerziellen Systemen zu positionieren. Das Framework ist Open Source unter der MIT-Lizenz, sodass unabhängige Forschende jede Engine, die sie wählen, anhand derselben fünfzehn Fälle und derselben Rubrik bewerten und ihre Ergebnisse veröffentlichen können.

Sind die Patient:innenfälle echt oder synthetisch?

Die fünfzehn Fälle sind anonymisierte echte Patientenakten, die aus dem Kantesti-klinischen Datenrepositorium unter schriftlicher Einwilligung in die informierte Zustimmung entnommen wurden. Die Entidentifizierung wurde nach dem Safe-Harbor-Ansatz durchgeführt, wobei alle direkten Identifikatoren entfernt oder ersetzt wurden. Die Verarbeitung erfolgte gemäß der DSGVO Artikel 9(2)(j) und den entsprechenden Bestimmungen der UK-DSGVO. In den veröffentlichten Frameworks, dem technischen Bericht oder den freigegebenen Datensätzen erscheint keine personenbezogene identifizierende Information.

⚕️ Medizinischer Hinweis & Interessenkonflikt

Dieser Benchmark-Bericht dient Forschungs- und Zwecken der methodischen Transparenz. Er stellt keine medizinische Beratung dar. Konsultieren Sie für Diagnose- und Behandlungsentscheidungen stets eine qualifizierte medizinische Fachkraft. Beide Autor:innen sind bei Kantesti Ltd beschäftigt und halten Eigenkapital, und die zu evaluierende Engine ist ein kommerzielles Produkt derselben Organisation. Dieser Interessenkonflikt wird dadurch gemindert, dass die Rubrik im Quellcode vorregistriert, das Framework unter der MIT-Lizenz veröffentlicht und jede rohe Engine-Antwort veröffentlicht wird.

E-E-A-T Vertrauenssignale

⭐

Erfahrung

15+ Jahre klinische Praxis in der Hämatologie und Laboratoriumsmedizin zur Überwachung der Auswahl des Fallpanels.

📋

Sachverstand

Vorregistriertes Rubrikdesign mit expliziten Hyperdiagnose-Strafen und anerkannten klinischen Bewertungssystemen (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autorität

Leitender Autor Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Umsetzung durch Julian Emirhan Bulut, CEO von Kantesti Ltd.

🛡️

Vertrauenswürdigkeit

Reproduzierbares Framework unter MIT-Lizenz, veröffentlichte rohe Engine-Antworten, offene Interessenkonflikt-Offenlegung, Vier-Plattform-Forschungs-Spiegelnetzwerk.

🏢 Kantesti LTD Registriert in England & Wales · Unternehmensnummer. 17090423 London, Vereinigtes Königreich · kantesti.net