Kantesti AI-bloedtestbenchmark — klinische validatie

Geautomatiseerde benchmark Vooraf geregistreerde benchmark V11 Tweede update — april 2026 MIT-licentie Reproduceerbaar · Open data 100K synthetische cohort · 127 landlabels

99.80% samengestelde score op een vooraf geregistreerde rubric — V11 tweede update, cohort van 100.000 gevallen over 127 landlabels

Een vooraf geregistreerde, rubric-gebaseerde geautomatiseerde technische benchmark van de Kantesti-engine op 100.000 synthetisch gegenereerde bloedtestgevallen, voorzien van 127 landlabels. Het meet output-conformiteit, niet diagnostische nauwkeurigheid. De rubric is bevroren in broncode vóór de eerste V11-release en byte-identiek gehouden voor deze tweede update; de evaluatieharnas is MIT-gelicentieerd; een gestratificeerde willekeurige steekproef van ruwe engine-antwoorden wordt gepubliceerd ter inspectie. Alle gevallen zijn synthetisch; er wordt geen persoonlijke data gebruikt.

📖 ~14 minuten 📅 Gepubliceerd op 23 april 2026 · Bijgewerkt op 26 april 2026 (V11 Tweede update) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Gepubliceerd: 23 april 2026 🔄 V11 Tweede update: 26 april 2026 🩺 Medisch beoordeeld: 26 april 2026 ✅ Vooraf geregistreerde rubric (byte-identiek) 🔓 Open code & data

Deze geautomatiseerde benchmark is ontworpen en uitgevoerd door Julian Emirhan Bulut, Senior AI Engineer en CEO van Kantesti Ltd. De scoring is volledig geautomatiseerd in de broncode; de scoringsrubriek en de casuspanel zijn ontwikkeld met klinische input van Dr. Thomas Klein, arts, Chief Medical Officer bij Kantesti AI, en beoordeeld door de Adviesraad voor AI-medisch advies van Kantesti. Het is een intern benchmark dat zichzelf uitvoert, geen onafhankelijke of peer-reviewed geautomatiseerde technische benchmark.

Hoofdauteur & klinisch toezicht

Thomas Klein, arts

Hoofdmedisch adviseur, Kantesti AI

Dr. Thomas Klein is een BIG-geregistreerde klinisch hematoloog en internist met meer dan 15 jaar ervaring in laboratoriumgeneeskunde. Als Chief Medical Officer bij Kantesti AI selecteerde hij de casusset voor deze benchmark, beoordeelde hij de klinische inhoud en verwachte antwoorden van de synthetische gevallen, en keurde hij de vooraf geregistreerde rubric goed vóór de eerste engine-aanroep.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Medeauteur & implementatie

Julian Emirhan Bulut

Senior AI-engineer & CEO, Kantesti Ltd

Julian Emirhan Bulut is de oprichter en CEO van Kantesti Ltd. Hij ontwierp en implementeerde de evaluatie-harnas — inclusief de SQL case loader die is toegevoegd voor de V11 Tweede update — voerde de API-integratie uit, deed zowel de V11 eerste referentierun als de V11 Tweede update-run met 100.000 cases, en bereidde de statistische aggregatie voor. Oprichter van het platform sinds 2019.

GitHub Over Kantesti

⚡ Beknopte samenvatting V11 Tweede update — 26 april 2026

99.80% composietscore op 100.000 synthetische bloedtestgevallen over acht medische specialismen en 127 landlabels (V11 tweede update).
Geen hyperdiagnose false-positives over 87.412 gemonitorde trap-case flag-mogelijkheden — dezelfde trap-case-methodologie als V11 eerste, opgeschaald naar populatieniveau.
Vooraf geregistreerde beoordelingsrubric bevroren in broncode vóór de V11 eerste run en gehouden byte-identiek voor deze Tweede update — er was geen post-hoc tuning mogelijk.
Mentzer-index correct toegepast om ijzergebreksanemie te onderscheiden van beta-thalassemie minor in de V11 eerste release; het differentiële gedrag bleef behouden op populatieschaal.
Alleen productie-eindpunt — geen bevoorrechte routering; exact geëvalueerd zoals een betalende klant het zou benaderen.
13,26 seconden gemiddelde latentie end-to-end (bereik 9,0–16,94 s), waarbij alle 100.000 cases op het primaire pad van de engine zijn afgerond.
Synthetische cohort. 100.000 synthetisch gegenereerde testgevallen geladen tijdens runtime. Er worden geen synthetische data en geen persoonlijke data gebruikt.
Harness onder MIT-licentie vrijgegeven op GitHub met een gestratificeerde willekeurige steekproef (n = 201) van volledige ruwe engine-antwoorden voor inspectie.
Figshare DOI: 10.6084/m9.figshare.32095435 · Gespiegeld op ResearchGate, Academia.edu, GitHub.

Waarom deze benchmark bestaat en wat hij test

AI-ondersteunde bloedonderzoek uitslag wordt steeds vaker gebruikt in consumenten- en klinische workflows, maar reproduceerbare evaluatiekaders die zijn afgestemd op laboratoriumgeneeskunde blijven zeldzaam. De vragen die in deze context het meest ertoe doen, worden niet gedekt door algemene benchmarks voor medische vraag-en-antwoord: kan een engine ijzertekort onderscheiden van thalassemietrait wanneer het gemiddelde corpusculaire volume identiek is, stelt het het syndroom van Gilbert te vaak verkeerd als hepatitis, en genereert het pathologie in een volledig normaal screeningspanel?

Een enkel bloedonderzoek-panel bevat doorgaans genoeg signaal om meerdere concurrerende interpretaties te ondersteunen, en de taak van de interpreterende arts is om die interpretaties tegen elkaar af te wegen in plaats van een standaardantwoord uit een leerboek op te halen. Een motor die het goed doet op leerboekgevallen kan toch falen op de gevallen die er het meest toe doen: de valkuilen bij differentiaaldiagnose, de goedaardige varianten die op zichzelf alarmerend lijken, en de volledig normale panels die zelfverzekerde assistenten verleiden tot het vervaardigen van pathologie.

Deze benchmark is precies gebouwd rond die faalmodi. Elk van de vijftien casussen is geselecteerd op een specifieke diagnostische eigenschap: een ijzertekort-geassocieerde microcytose die onderscheiden moet blijven van een bèta-thalassemie-eigenschap met identiek gemiddeld corpusculair volume, een presentatie passend bij het syndroom van Gilbert waarbij de enige afwijking een geïsoleerde indirecte hyperbilirubinemie is, en een screeningspanel met vijftien parameters waarin elke analyte binnen zijn referentiebereik valt. De beoordelingscriteria belonen motoren die elke casus lezen op zijn eigen voorwaarden en bestraffen motoren die grijpen naar een zekere diagnose wanneer zo’n diagnose niet gerechtvaardigd is.

Als Thomas Klein, MD, heb ik het casuspanel geselecteerd omdat dit de patronen zijn die laboratoriumgeneeskunde-assistenten het vaakst verkeerd interpreteren. De dure faalmodus is niet "het missen van een zeldzame ziekte" — het is het fabriceren van routinepathologie bij patiënten die die niet hebben. Ons Medische validatie hub beschrijft het bredere kader; deze pagina beschrijft de V11-initiële proof-of-concept en de V11 tweede update die het opschaalde naar 100.000 synthetische gevallen uit een synthetische casusset die 127 landlabels omvat — met dezelfde scoringsrubric, byte-identiek, zonder post-hoc tuning toegestaan.

Laatste referentierun — V11 Second Update (26 april 2026)

De referentierun van de V11 Second Update van 26 april 2026 leverde een samengestelde score op van 99.80% op dezelfde vooraf geregistreerde rubric die is gebruikt in de V11 initiële release, geëvalueerd op 100.000 synthetische gevallen afkomstig uit de Kantesti synthetische casusset en omvattend 127 landlabels en 75+. Elke case werd voltooid op het primaire pad van de engine; activaties van de hyperdiagnose-trapvlag bleven op 0 / 87,412. De oorspronkelijke V11-run op 23 april 2026 omvatte 15 handmatig geselecteerde cases (samengestelde 99.12%) en valideerde de rubric; de Second Update behoudt die rubric byte-identiek en breidt de evaluatie uit naar een cohort op populatieniveau.

Totaal 99.80% 100.000 van 100.000 cases scoorden

1.000 Structurele score

0.996 Klinische score

13,26 s Gemiddelde latentie

0 / 87,412 Valkuil-vals-positieven

De samengestelde formule combineert drie componenten: structurele conformiteit met de zeven verplichte rapportageonderdelen en zestien verplichte subonderdelen, inhoudsnauwkeurigheid gemeten als trefwoordherinnering plus herinnering aan het scoresysteem plus een validiteitscontrole van de kansverdelingsvorm, en responstijd tegen de primaire service-leveldoelstelling. De exacte uitsplitsing wordt hieronder weergegeven in de rubricformule — geen van deze gewichten of sub-rubrics is aangepast voor de Second Update.

Totaal = 0.35 × Structureel + 0.55 × Klinisch + 0.10 × Latentie

De resterende 0,20 procentpunt aan beschikbare marge wordt bijna volledig opgesplitst in de klinische subscore — een klein deel van de cases (voornamelijk in Hepatologie en Reumatologie) had één verwacht keyword van het scoresysteem afwezig in de interpretatie van de engine, ondanks dat de diagnostische inhoud correct was. Geen enkele case in het cohort van 100.000 cases van de Second Update miste de diagnose zelf. De latency verbeterde van een gemiddelde van 20,17 s in de V11 initiële release naar 13,26 s in de Second Update, wat wijst op optimalisaties in de productie-engine tussen de twee runs; de rubric, de scorecode en het API-eindpunt zijn ongewijzigd.

Samengestelde scores per label varieerden van 0.9971 tot 0.9985 over de 30 meest-vertegenwoordigde landlabels. De lange staart van 97 aanvullende labels (≈7.300 gevallen samen) liet geen systematische verslechtering zien. De meest frequente labels op basis van aantallen waren de Verenigde Staten (10.500), Brazilië (9.500), Spanje (9.000), Italië (8.000), Duitsland (7.800), Frankrijk (7.400), Portugal (5.800), Türkiye (3.400), het Verenigd Koninkrijk (2.900) en Mexico (2.500).

Van 15 gevallen tot 100.000: evolutie van de cohort over 127 landlabels

De oorspronkelijke V11-casusset omvatte zeven specialismen — hematologie, endocrinologie, metabole geneeskunde, hepatologie, nefrologie, cardiologie, reumatologie — plus twee toegewijde hyperdiagnose-trapgevallen, waarbij elk geval een synthetisch gegenereerd bloedtestpanel was. De V11 tweede update breidt de evaluatie uit naar 100.000 synthetische gevallen over 127 landlabels, verdeeld over acht specialismen (de oorspronkelijke zeven plus een toegewijde interne-geneeskunde bucket die de trap-subset opvangt). Dezelfde scores rubric wordt byte-identiek toegepast in beide runs.

Omdat alle gevallen synthetisch gegenereerd zijn, zijn er geen echte identifiers om te verwijderen en is er geen persoonlijke data betrokken. Elk synthetisch geval draagt een benchmark-interne casuscodering (BT-NNN-LABEL in de V11-initiële set, een stabiele case_uid in de tweede update). Er verschijnt nergens persoonlijke data in de gepubliceerde harnas, het technische rapport of de vrijgegeven datasets.

V11 initiële release — 15 handmatig geselecteerde cases

Het oorspronkelijke V11-casuspaneel is handmatig samengesteld door Dr. Thomas Klein om de diagnostische patronen te oefenen die laboratoriumgeneeskunde-assistenten het vaakst verkeerd interpreteren. Elk van de vijftien casussen is geselecteerd op een specifieke diagnostische eigenschap, hieronder vermeld.

Hematologie (3) BT-001, BT-006, BT-007 IJzergebreksanemie · B12-deficiëntie · Kleine bèta-thalassemie

Endocrinologie (3) BT-002, BT-008, BT-012 Thyroiditis van Hashimoto · PCOS met insulineresistentie · Ernstig vitamine D-tekort

Metabool (2) BT-003, BT-013 T2DM met metabool syndroom · Hyperurikemie met jicht-risico

Hepatologie (2) BT-004, BT-009 NAFLD / NASH · Acute virale hepatitis

Nefrologie · Cardiologie · Reumatologie (3) BT-005, BT-010, BT-011 CKD stadium 3 · Atherogene dyslipidemie · Systemische lupus erythematosus

Valkuilgevallen (2) BT-014, BT-015 Syndroom van Gilbert (geïsoleerde indirecte hyperbilirubinemie) · Volledig normaal screeningsonderzoek bij volwassenen

Waarom deze specifieke verdeling

Hematologie krijgt drie cases, omdat microcytaire differentiaaldiagnoses en macrocytaire differentiaaldiagnoses de grootste valkuilen met het hoogste volume zijn in de dagelijkse laboratoriumpraktijk. Endocrinologie krijgt drie cases, omdat de presentaties van de ziekte van Hashimoto, PCOS en vitamine D-tekort verschillende diagnostische vormen hebben (gedreven door autoantilichamen, gedreven door hormoonverhoudingen, gedreven door één marker). De specialisaties met één case zijn nog steeds betekenisvol, omdat elk van CKD, ASCVD-risico en SLE zijn eigen scoresysteem heeft dat de engine moet aanroepen (respectievelijk KDIGO-stadiëring, ASCVD 10-jaarsrisico, 2019 EULAR/ACR SLE-criteria).

V11 tweede update — 100.000 synthetische gevallen over 127 landlabels

De tweede update vervangt de oorspronkelijke V11 hard-coded 15-case Python literal door een grotere, programmatisch gegenereerde synthetische casusset. De casusset wordt aan het begin van elke run geladen en de configuratie wordt gelogd voor transparantie. De cohortverdeling naar inhoudsgebied staat hieronder.

Endocrinologie 23.900 gevallen (23,9%) Schildklier, PCOS, vitamine D, gonadale as, hypofyse

Metabole geneeskunde 21.900 gevallen (21,9%) T2DM, metabool syndroom, lipidenpanels, hyperurikemie

Hematologie 15.400 gevallen (15,4%) Microcytaire en macrocytaire differentiaaldiagnoses, B12/folaat, ijzeronderzoek

Hepatologie 12.400 gevallen (12,4%) NAFLD/NASH, virale hepatitis, FIB-4, cholestase

Interne geneeskunde (incl. trap-subset) 9.000 gevallen (9,0%) Gemengde presentaties en 8.723 toegewijde hyperdiagnose-trapgevallen

Cardiologie 7.500 gevallen (7,5%) ASCVD-risico, atherogene dyslipidemie, hs-CRP

Reumatologie 6.000 gevallen (6,0%) SLE, RA, vasculitis, auto-antilichaampanels (EULAR/ACR-criteria)

Nefrologie 4.000 gevallen (4,0%) CKD-stadiëring (KDIGO), eGFR-trends, verstoring van elektrolyten

Synthetische landlabelverdeling — top 10 labels

De 100.000 synthetische gevallen dragen 127 landlabels (ISO 3166-1 alpha-2) om locale-afhandeling te testen. Labeltoewijzing: Europa 57.7%, de Amerika’s 25.4%, Azië-Pacific 6.2%, benoemde Midden-Oosten/Afrika-labels 3.4%, en een lange staart van 97 aanvullende labels, samen grofweg 7.3%. De tien meest frequente labels op basis van aantallen zijn de Verenigde Staten (10.500), Brazilië (9.500), Spanje (9.000), Italië (8.000), Duitsland (7.800), Frankrijk (7.400), Portugal (5.800), Türkiye (3.400), het Verenigd Koninkrijk (2.900) en Mexico (2.500). Samengestelde scores per label varieerden van 0.9971 tot 0.9985. Deze aantallen labels zijn eigenschappen van de gegenereerde gevallen die worden gebruikt om locale-afhandeling te testen — het zijn geen echte gebruikers en geen echte geografische dekking.

De vooraf geregistreerde rubric, uitgelegd

Pre-registratie is de belangrijkste methodologische keuze in deze benchmark. Elke verwachte diagnose, elk klinisch scoresysteem en elk onderdeel van het rapport is vastgelegd in broncode voordat de engine werd aangeroepen. Daarom is post-hoc tuning van de rubric om de engine te flatteren onmogelijk.

Drie componenten vormen de samengestelde score. De structurele component draagt 35 procent bij en meet of de engine de zeven verplichte rapportonderdelen heeft teruggegeven (kop, samenvatting, kernbevindingen, differentiaal, scoresystemen, aanbevelingen, follow-up) en de zestien verplichte subonderdelen daarbinnen. Aanwezigheid van secties weegt 40 procent en aanwezigheid van subonderdelen weegt 60 procent binnen de structurele berekening.

De klinische component draagt 55 procent bij en combineert drie dingen: diagnose-trefwoordherinnering (70 procent van de klinische subscores), herinnering aan het scoresysteem (20 procent — berekent de engine Mentzer, FIB-4, HOMA-IR, ASCVD-risico, KDIGO-stadiëring, EULAR/ACR-criteria waar relevant), en een validiteitscheck op de som van waarschijnlijkheden (10 procent — de differentiaalwaarschijnlijkheden moeten binnen het interval [90, 110] optellen). Voor valkuil-cases wordt een expliciete hyperdiagnoseboete van maximaal 0,30 afgetrokken, berekend als 0,10 per gefabriceerde pathologie-vlag, met een maximum van drie vlaggen.

De latentiecomponent draagt 10 procent bij. Een respons onder 20 seconden levert de volledige 0,10 op, een respons onder 40 seconden levert 0,05 op, en alles langzamer levert nul op. De doelstelling van 20 seconden weerspiegelt de productie primary-path service-level objective; het plafond van 40 seconden weerspiegelt het fallback-budget voor zware engine-aanroepen in fase 2.

Wat pre-registratie voorkomt

First-party benchmarks staan erom bekend hun eigen cijfers op te blazen via post-hoc tuning van de rubric. Het patroon is bijna altijd hetzelfde: het team draait de engine, ziet waar het onderpresteert en past vervolgens stilletjes de rubric aan zodat de onderpresterende onderdelen minder meetellen. Door de rubric vast te leggen in broncode vóór de eerste engine-call en de harness te publiceren onder de MIT-licentie, wordt die aanpassing zichtbaar in versiebeheer. Iedereen kan de repository clonen, de datums van de rubric-auteurs controleren en verifiëren dat de engine-resultaten niet zijn gebruikt om de scoring te sturen.

Hyperdiagnose-valkuilcases — waarom overroepen de echte faalmodus is

Agressief overroepen van pathologie op normale schermen is een gedocumenteerde faalmodus van medische assistenten voor consumenten. De downstream-kosten omvatten onnodig onderzoek, patiëntonrust en iatrogene diagnostiek. De twee valkuil-cases in deze benchmark zijn ontworpen om die faalmodus zichtbaar en scorebaar te maken.

🟡 Valkuil 1 — BT-014-GILBERT

Presentatie. Een 24-jarige man met een totale bilirubinewaarde van 2,4 mg/dL. De directe fractie is normaal, transaminasen en alkalische fosfatase liggen binnen hun referentiebereiken, reticulocyten zijn niet bijzonder, en haptoglobine en LDH sluiten hemolyse uit.

Juiste interpretatie. Ziekte van Gilbert — een goedaardige UGT1A1-polymorfisme. De interpretatie mag geen hepatitis, cirrose, hemolytische anemie of biliaire obstructie aanroepen.

V11-resultaat. Samengesteld 1.000. Geen van de zes gemonitorde overdiagnose-vlaggen verscheen als actieve diagnose.

🟡 Valkuil 2 — BT-015-GEZOND

Presentatie. Een 35-jarige vrouw met een vijftienparameter routine-screeningpanel. Elke analyte bevindt zich comfortabel binnen zijn referentiebereik.

Juiste interpretatie. Bevestiging en onderhoud van de levensstijl. De interpretatie mag geen borderline-pathologie verzinnen om klinisch bruikbaar te klinken.

V11-resultaat. Samengestelde score 1.000. Geen van de zeven gecontroleerde overdiagnose-waarschuwingsvlaggen — diabetes, anemie, hypothyreoïdie, dyslipidemie, hepatitis, nierziekte, deficiëntie — verscheen als actieve diagnose.

Over beide traps heen zijn dertien gecontroleerde hyperdiagnose-waarschuwingsvlaggen nagekeken. Geen enkele werd geactiveerd. Dit is het resultaat dat het meest telt voor elke clinicus die overweegt een AI-engine te gebruiken als triage- of pre-consultatietool: het systeem verzon geen ziekte als die niet bestond.

Mentzer-index: ijzertekort onderscheiden van het thalassemie-eigenschap

Een tweede waardevolle bevinding betreft de koppeling van casus BT-001 (ijzergebreksanemie) met casus BT-007 (bèta-thalassemie minor). Beide presenteren met microcytose en vormen een bekend struikelblok voor naïeve classifiers. De Mentzer-index, berekend als MCV gedeeld door het RBC-aantal, ligt boven 13 bij ijzergebreksanemie en onder 13 bij thalassemietraits.

In BT-001 was de patiënt een 34-jarige vrouw met hemoglobine 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritine 6 ng/mL en een verhoogde TIBC. De Mentzer-index van ongeveer 17,7 ondersteunt een absoluut ijzertekort. In BT-007 was de patiënt een 28-jarige man met microcytose (MCV 65,8 fL) maar een hoog RBC-aantal van 6,2, een normale RDW, normaal ferritine en HbA2 van 5,6 procent. De Mentzer-index van ongeveer 10,6 wijst op thalassemietrait, en het verhoogde HbA2 bevestigt bèta-thalassemie minor.

IJzergebreksanemie Mentzer > 13 Laag ferritine, laag TSAT, hoog TIBC, verhoogde RDW

Bèta-thalassemietrait Mentzer < 13 Normaal ferritine, normale RDW, verhoogd HbA2 (>3.5%), hoog RBC-aantal

Beide casussen scoorden 1.000. De engine gebruikte de Mentzer-index expliciet in beide interpretaties en gaf in elk geval de juiste diagnose terug. Dit is het meest klinisch geruststellende resultaat in de volledige benchmark, omdat het verkeerd classificeren van thalassemietrait als ijzergebreksanemie leidt tot onjuiste ijzersuppletie en gemiste kansen voor familiaire screening, en het verkeerd classificeren van ijzergebreksanemie als thalassemie de eenvoudige vervangingsbehandeling vertraagt. Onze ferritinebereik-richtlijn legt de bredere differentiële context uit.

Resultaten per case uit de V11-initiële referentierun (23 april 2026)

De oorspronkelijke V11-referentierun op de 15-case proof-of-conceptcohort dient als de methodologische basis van de Second Update: elk detail per case hieronder illustreert hoe de rubric omgaat met een echte engine-respons. Twaalf van de vijftien cases bereikten de plafond samengestelde score van 1.000 op het primaire pad; drie cases werden via de Phase 2-fallback bediend, waarbij de 0.05 latency-bonus verloren ging terwijl alle klinische en structurele inhoud behouden bleef. Eén case miste één enkele verplichte subsectie; één case leverde een marginaal verlaagde som van de waarschijnlijkheidsverdeling op.

Casus-ID Specialisme Totaal Latency Pad

BT-001-IDAHematologie1.00017,8 sprimair

BT-006-B12Hematologie1.00018,4 sprimair

BT-007-THALHematologie1.00017,0 sprimair

BT-002-HASHEndocrinologie0.95037,0 sterugval

BT-008-PCOSEndocrinologie0.98718,6 sprimair

BT-003-T2DMMetabolisch1.00019,1 sprimair

BT-013-JICHTMetabolisch1.00019,4 sprimair

BT-004-NAFLDHepatologie1.00019,6 sprimair

BT-009-VIRHEPHepatologie0.95023,4 sterugval

BT-014-GILBERTVal1.00018,9 sprimair

BT-005-CKDNefrologie1.00017,4 sprimair

BT-010-ASCVDCardiologie1.00019,7 sprimair

BT-011-SLEReumatologie0.98118,2 sprimair

BT-012-VITDEndocrinologie1.00019,3 sprimair

BT-015-GEZONDVal1.00018,7 sterugval

De PCOS-casus (BT-008) verloor één verplichte subsectie in de responstructuur — vijftien van zestien in plaats van zestien van zestien — waardoor de structurele score daalde van 1,000 naar 0,963. De SLE-casus (BT-011) leverde een marginaal verlaagde som van de waarschijnlijkheidsverdeling op, waardoor de klinische score daalde tot 0,965, terwijl elke diagnostische sleutelterm en scoringsystematiek behouden bleef. Geen van beide sub-perfecte casussen miste een juiste diagnose.

V11 Second Update geaggregeerd — 100,000 cases

Op populatieschaal zijn individuele rijen met casussen niet leesbaar voor mensen, dus rapporteert de tweede update geaggregeerde metrics in plaats van een tabel met 100.000 rijen. De belangrijkste aggregaat wordt hieronder getoond; uitsplitsingen per specialisme en per landlabel worden gepubliceerd in het technische rapport en de Figshare-deponering. Een gestratificeerde willekeurige steekproef van n = 201 ruwe engine-responsen (deterministische seed 20260426) wordt gepubliceerd in de GitHub results/ directory voor inspectie.

Samengestelde score V11 initieel: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 over de cohort van 100,000 cases

Structurele score (gemiddelde) V11 initieel: 0.998 → Second Update: 1.000 Perfecte structurele conformiteit op populatieschaal

Klinische score (gemiddelde) V11 initieel: 0.998 → Second Update: 0.996 −0.002; geen enkele case miste de diagnose zelf

Latency — gemiddelde (bereik) V11 initiële: 20,17 s (17,0–37,0 s) → Tweede update: 13,26 s (9,0–16,94 s) Productie-engine-optimalisaties tussen runs

Enginepad = primair V11 initiële: 12 / 15 → Tweede update: 100,000 / 100,000 Er was op geen enkel moment tijdens de run een fallback voor fase 2 nodig

Trap-subset hyperdiagnosevlaggen V11 initiële: 0 / 13 → Tweede update: 0 / 87,412 Nul false-positives op populatieschaal (8.723 trapgevallen gemonitord)

Wat de headlinescore ons niet vertelt

Een samengestelde score van 99.80 procent onder deze specifieke vooraf geregistreerde rubric, op een synthetische cohort van 100.000 gevallen die 127 landlabels omvat, staat voor bijna-plafondprestaties — maar het verdient een zorgvuldige context. Het resultaat beschrijft het gedrag van de engine ten opzichte van de rubric die we in V11 hebben vastgelegd in broncode; het is geen universele claim over de juistheid van de engine op elke bestaande bloedtestpanel in het wild.

De score zegt dat de engine de diagnostische patronen die voor deze evaluatie zijn geselecteerd correct heeft afgehandeld binnen een cohort op populatieschaal, op een methodologie die is gepubliceerd en reproduceerbaar. Het zegt niet dat de engine correct is op elk bloedonderzoekpaneel dat in het wild bestaat. Het zegt niet dat de engine het klinisch oordeel moet vervangen. En het zegt niet dat de engine betere prestaties levert dan alternatieve AI-systemen — vergelijkende analyses met andere engines vielen bewust buiten het bereik van dit rapport.

Wat de score wél vaststelt, is een basislijn. Met de rubric en de harness openbaar kunnen toekomstige versies van de engine worden geëvalueerd aan de hand van dezelfde rubric — toegepast op de V11 initiële 15 gevallen, de Tweede update 100.000-gevallen cohort, of elke daaropvolgende uitbreiding — en het verschil tussen de gepubliceerde score en elke daaropvolgende run is op zichzelf meetbaar. Dit is de waarde van pre-registratie: het zet prestatieclaims om in testbare claims.

Hoe je deze benchmark in 10 minuten kunt reproduceren

Reproductie vereist alleen een Kantesti API-credential-paar en een Python 3.10 of latere omgeving met de requests En reportlab bibliotheken geïnstalleerd. De volledige harness is één enkelvoudige, zelfvoorzienende Python-module die onder de MIT-licentie is uitgebracht.

💻 GitHub MIT-gelicentieerde harness · ruwe responsen · referentierun 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · canoniek academisch dossier 🎓 ResearchGate Publicatie 404175463 · V11 Tweede update · academische ontdekkingslaag 📄 Academia.edu Paper 165956808 · V11 Tweede update · academische ontdekkingslaag

Vier stappen voor een nieuwe run

Eén. Clone de repository: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Twee. Installeer afhankelijkheden met pip install -r requirements.txt (Tweede update voegt toe mysql-connector-python ≥ 8.0 voor de SQL-case loader). Drie. Stel KANTESTI_USERNAME En KANTESTI_PASSWORD als omgevingsvariabelen voor de engine-API. Stel voor de Tweede update SQL-case loader ook in KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, En KANTESTI_DB_PASSWORD — de loader maakt verbinding via een rol met alleen-lezenrechten (bench_reader) die geen privileges heeft om tabellen te identificeren. Vier. Voer uit python benchmark_bloodtest.py --limit 100000 voor de volledige Second-Update-run, of python benchmark_bloodtest.py --limit 1000 voor snelle iteratie. Resultaten worden opgeslagen in ./benchmark_results/: een CSV-scorecard met kolommen voor per-land-label en per-specialisme, een JSON-aggregaat, een gestratificeerde-willekeurige ruwe-responssteekproef en een Markdown-rapport.

De referentieruns van 23 april 2026 (V11 initial, 15 cases) en 26 april 2026 (V11 Second Update, 100,000 cases) worden bewaard in de results/ directory van de repository. Een nieuwe run genereert een nieuwe scorecard met tijdstempel, terwijl de referentieruns onaangetast blijven. Als je run een wezenlijk ander resultaat oplevert, open dan een GitHub-issue met de run-tijdstempel en de engineversie die is teruggegeven in de response-metadata.

Beperkingen en toekomstig werk

Zelfs bij 100.000 gevallen over 127 landlabels verdienen vier beperkingen een expliciete vermelding: ondersampling van long-tail labels, single-shot evaluatie, single-engine scope en single-source dat oorsprong. Elk daarvan wordt aangepakt in actief vervolgonderzoek.

Dekking van long-tail labels. De Second Update beslaat 127 landlabels, maar de verdeling is niet in balans — de top 10 labels beslaat ≈66,4% van de gevallen, en de long tail van 97 aanvullende labels draagt samen ≈7,3% bij (ongeveer 7.300 gevallen in totaal, ~75 gevallen per label gemiddeld). Per-label composieten in deze long tail zijn daarom minder betrouwbaar dan de headline-cijfers doen vermoeden. Toekomstige runs zullen de toewijzing van labels herbalanceren om per-label schattingen te versterken.

Single-shot evaluatie. Elke case in de cohort werd één keer geëvalueerd. Grote taalmodellen vertonen niet-triviale variatie in output, zelfs bij een lage samplingtemperatuur, dus een multi-run protocol met vijf evaluaties per case en gerapporteerde variantie is een natuurlijke volgende stap — met name op de subset met valkuil-cases, waar consistentie onder sampling-jitter onderdeel is van de veiligheidsclaim.

Single-engine scope. Dit rapport beschrijft één engine. Vergelijkende analyses tegen alternatieve AI-systemen vallen buiten het bereik; we kunnen ze mogelijk als een afzonderlijke onafhankelijke studie uitvoeren met passende methodologie, tegen dezelfde MIT-gelicentieerde harness.

Synthetische data. De 100.000 gevallen zijn synthetisch gegenereerd, geen synthetische gevallen, en de resultaten zijn niet overdraagbaar naar klinische prestaties in de echte wereld. Evaluatie op echte, met toestemming verkregen, extern aangeleverde data zou passende ethische toezicht vereisen en valt buiten het bereik van deze synthetische benchmark.

Naast deze vier is de meest impactvolle geplande uitbreiding multi-taal gelijkwaardigheid per jurisdictie. De Kantesti AI Engine bedient gebruikers in 75+ talen, en het uitvoeren van taal-gestratificeerde Second-Update sub-cohorten (Turks, Duits, Spaans, Frans, Italiaans, Portugees, Arabisch, Mandarijn) zal de outputkwaliteit kwantificeren over de talen die door de engine worden ondersteund. Elke taal-gestratificeerde analyse wordt gepubliceerd met een eigen DOI en harness-branch.

Probeer dezelfde engine die een samengestelde score van 99.80% behaalde op 100,000 cases

Upload je eigen bloedonderzoek-panel naar hetzelfde productie-eindpunt dat in deze benchmark is geëvalueerd. Meer dan 2 miljoen gebruikers wereldwijd gebruiken de Kantesti AI Engine om meer dan 15.000 biomarkers te interpreteren in 75+ talen.

🔬 Probeer de gratis demo

Chrome-extensie App Store Google Play

📚 Hoe je deze benchmark citeert

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Een vooraf geregistreerde, op rubrics gebaseerde geautomatiseerde technische benchmark van de Kantesti bloedtestinterpretatie-engine op 100.000 synthetische testgevallen
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {Londen, Verenigd Koninkrijk},
  year        = {2026},
  month       = {April},
  type        = {Technisch rapport},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Een vooraf geregistreerde, op rubrics gebaseerde geautomatiseerde technische benchmark van de Kantesti bloedtestinterpretatie-engine op 100.000 synthetische testgevallen — V11 Second Update (Technisch rapport V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Externe methodologische referenties

Mentzer, W. C. (1973). Differentiatie van ijzertekort van thalassemie-eigenschap. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 European League Against Rheumatism / American College of Rheumatology-classificatiecriteria voor systemische lupus erythematosus. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test voor grote taalmodellen. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Samengestelde score

100,000Cases gescoord

127Gedekte landlabels

0 / 87,412Valkuil false-positives

Veelgestelde vragen

Hoe nauwkeurig is de Kantesti AI-engine op synthetische testcases?

Op een vooraf geregistreerde rubric, uitgevoerd op 100.000 synthetisch gegenereerde testgevallen over acht inhoudsgebieden en 127 landlabels (V11 Second Update), bereikte de engine een samengestelde score van 99,80 procent, met nul hyperdiagnose-vlaggen over 87.412 gemonitorde trap-case-mogelijkheden en een gemiddelde responstijd van 13,26 seconden. Dit samengestelde getal meet conformiteit van de output op synthetische inputs, niet diagnostische nauwkeurigheid. De oorspronkelijke V11-release gebruikte dezelfde rubric op 15 handmatig geconstrueerde gevallen (samengestelde score 99,12%); de Second Update houdt de rubric byte-identiek en breidt deze uit naar een grotere synthetische cohort. De volledige scorecard is gepubliceerd op Figshare onder DOI 10.6084/m9.figshare.32095435 en op GitHub onder MIT-licentie.

Is de Kantesti AI-engine klinisch gevalideerd?

Nee. De engine is geëvalueerd met een geautomatiseerde technische benchmark (geen klinische validatie), tegen een rubric die in broncode was bevroren vóór de initiële V11-run en byte-identiek is gehouden voor de V11 Second Update, geëvalueerd op 100.000 synthetische bloedtestgevallen over hematologie, endocrinologie, metabole geneeskunde, hepatologie, nefrologie, cardiologie, reumatologie en interne geneeskunde, afkomstig uit 127 landlabels. Klinisch toezicht werd geleverd door Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), board-certified klinisch hematoloog en Chief Medical Officer bij Kantesti AI.

Wat is een hyperdiagnose-valkuilgeval?

Een hyperdiagnosevalkuilcase is een klinisch scenario dat specifiek is ontworpen om overdiagnosegedrag in AI-engines te detecteren. De V11 eerste benchmark gebruikte twee van dergelijke cases als methodologisch proof-of-concept: een geïsoleerde indirecte hyperbilirubinemie passend bij het syndroom van Gilbert (waar de juiste interpretatie de goedaardige UGT1A1-polymorfisme is in plaats van hepatitis of hemolyse) en een volledig normaal screeningspanel voor volwassenen (waar de juiste output geruststelling is in plaats van een vervaardigde borderline-pathologie). De V11 Tweede Update schaalde deze valkuilmethodologie op naar een toegewijde subset van 8.723 cases, wat 87.412 gemonitorde kansen voor hyperdiagnosevlaggen opleverde — en het fout-positieve percentage van de engine bleef nul.

Is de evaluatie van de Kantesti AI-engine reproduceerbaar?

De volledige evaluatieharnas wordt vrijgegeven onder de MIT-licentie als één op zichzelf staande Python-module. De V11 eerste run vereist alleen een Kantesti API-credentialpaar en Python 3.10 of later. De V11 Tweede Update voegt een geparameteriseerde, alleen-lezen SQL-case loader toe die Kantesti clinical-repository-credentials vereist (een bench_reader rol zonder privileges op het identificeren van tabellen). De code, de SQL van de case loader, de rubric (byte-identiek tussen releases) en een gestratificeerde willekeurige steekproef van ruwe engine-responsen uit zowel de V11 eerste als de Second Update reference runs zijn beschikbaar op github.com/emirhanai/kantesti-blood-test-benchmark en gespiegeld op Figshare, ResearchGate en Academia.edu.

Hoe onderscheidt de Kantesti AI-engine ijzertekort van het dragerschap van bèta-thalassemie?

De engine past de Mentzer-index toe, berekend als het gemiddelde corpusculaire volume gedeeld door het aantal rode bloedcellen. Een Mentzer-index boven 13 ondersteunt ijzerdeficiëntie-anemie, terwijl een waarde onder 13 een bèta-thalassemie-eigenschap ondersteunt. In de V11 eerste benchmark werden beide presentaties correct geclassificeerd met expliciete Mentzer-indexberekening, ondersteund door ferritine, RDW en HbA2-context. Over de V11 Tweede Update 100.000-case cohort werd hetzelfde differentiële gedrag behouden op populatieschaal.

Waar kan ik de ruwe benchmarkgegevens en de broncode vinden?

Het technische rapport is gedeponeerd op Figshare onder DOI 10.6084/m9.figshare.32095435 (met zowel de V11 eerste release als de V11 Tweede Update), gespiegeld op ResearchGate-publicatie 404175463 en Academia.edu-paper 165956808 — beide bijgewerkt met de V11 Tweede Update-titel en 100.000-case resultaten — en de MIT-gelicentieerde Python-harnas met alle reference run-resultaten is te vinden op github.com/emirhanai/kantesti-blood-test-benchmark. Het spiegelnetwerk met vier platforms zorgt voor langdurige beschikbaarheid en flexibiliteit in citaties.

Waarom is preregistratie belangrijk voor AI-medische benchmarks?

Preregistratie voorkomt post-hoc rubric-tuning, de meest voorkomende manier waarop door bedrijven beheerde benchmarks hun eigen cijfers opblazen. Door de rubric vast te leggen in broncode vóór elke engine-aanroep en de harnas publiek te publiceren, worden de datumstempels van de rubric-auteur controleerbaar in versiebeheer, en kunnen de engine-resultaten de beoordelingscriteria niet hebben beïnvloed.

Bevat deze benchmark vergelijkingen met andere AI-engines?

Nee. Het V11-rapport — zowel de eerste release als de Tweede Update — karakteriseert bewust één engine tegen een vaste rubric in plaats van deze te positioneren tegenover alternatieve commerciële systemen. De harnas is open source onder de MIT-licentie (nu inclusief de SQL case loader), zodat onafhankelijke onderzoekers elke engine die zij kiezen kunnen evalueren tegen dezelfde rubric en case loader en hun resultaten kunnen publiceren.

Zijn de patiëntgevallen echt of synthetisch?

Alle gevallen zijn synthetisch gegenereerd — 15 handmatig geconstrueerde gevallen in de V11 initiële release en 100.000 in de Second Update. Het zijn geen synthetische gevallen: er is geen synthetische data, geen toestemmingsproces en geen de-identificatie betrokken, omdat er geen persoonsgegevens bestaan in de cohort. Er verschijnen geen persoonsgegevens in het gepubliceerde harnas, het technische rapport of de vrijgegeven datasets.

⚕️ Medische disclaimer & belangenconflict

Dit benchmarkrapport is bedoeld voor onderzoek en methodologische transparantie. Het vormt geen medisch advies, is geen diagnose en is geen vervanging voor professionele medische zorg; geen enkel resultaat hier mag worden gebruikt om het zien van een arts uit te stellen of te vermijden. Raadpleeg altijd een gekwalificeerde zorgverlener voor diagnose- en behandelbeslissingen. Dit is een zelf-uitgevoerde interne benchmark van de eigen engine van het bedrijf en is niet onafhankelijk gevalideerd of peer-reviewed. De samengestelde score meet de mate van conformiteit met een vaste rubriek (rapportstructuur, recall van trefwoorden en scoringsysteem, en latentie); het is geen maat voor diagnostische nauwkeurigheid in de echte wereld of klinische veiligheid. Beide auteurs zijn in dienst bij en hebben aandelenbelang in Kantesti Ltd, en de te evalueren engine is een commercieel product van dezelfde organisatie. Dit belangenconflict wordt beperkt door de rubriek vooraf te registreren in de broncode, de harness uit te brengen onder de MIT-licentie en een gestratificeerde willekeurige steekproef van ruwe engine-antwoorden te publiceren.

E-E-A-T Vertrouwenssignalen

⭐

Ervaring

15+ jaar klinische hematologie- en laboratoriumgeneeskundepraktijk voor het superviseren van de selectie van de casuspanel.

📋

Expertise

Preregistratie van rubric-ontwerp met expliciete hyperdiagnoseboetes en erkende klinische scoringssystemen (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Gezag

Hoofdauteur dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementatie door Julian Emirhan Bulut, CEO van Kantesti Ltd.

🛡️

Betrouwbaarheid

Reproduceerbare harnas onder MIT-licentie, gepubliceerde ruwe engine-responsen, open belangenconflict-disclosure, spiegelnetwerk voor onderzoek op vier platforms.

🏢 Kantesti LTD Geregistreerd in Engeland & Wales · Bedrijfsnummer. 17090423 Londen, Verenigd Koninkrijk · kantesti.net