Waarom deze benchmark bestaat en wat hij test

AI-ondersteunde bloedonderzoek uitslag wordt steeds vaker gebruikt in consumenten- en klinische workflows, maar reproduceerbare evaluatiekaders die zijn afgestemd op laboratoriumgeneeskunde blijven zeldzaam. De vragen die in deze context het meest ertoe doen, worden niet gedekt door algemene benchmarks voor medische vraag-en-antwoord: kan een engine ijzertekort onderscheiden van thalassemietrait wanneer het gemiddelde corpusculaire volume identiek is, stelt het het syndroom van Gilbert te vaak verkeerd als hepatitis, en genereert het pathologie in een volledig normaal screeningspanel?

Vooraf geregistreerd rubric-stroomdiagram dat laat zien hoe de Kantesti AI Engine — V11 Tweede Update, 99.80% composietscore op 100.000 cases — wordt geëvalueerd tegen bevroren scoringscriteria
Afbeelding 1: De benchmark-architectuur achter de 99.80% composietscore op de V11 Second Update 100.000-case cohort — elke case, elke keyword, elk scoresysteem is vastgelegd in broncode voordat de engine ook maar één PDF ziet, en de rubric is byte-identiek aan de V11 initiële release. Nabeoordelings-tuning van de rubric is onmogelijk volgens ontwerp.

Een enkel bloedonderzoek-panel bevat doorgaans genoeg signaal om meerdere concurrerende interpretaties te ondersteunen, en de taak van de interpreterende arts is om die interpretaties tegen elkaar af te wegen in plaats van een standaardantwoord uit een leerboek op te halen. Een motor die het goed doet op leerboekgevallen kan toch falen op de gevallen die er het meest toe doen: de valkuilen bij differentiaaldiagnose, de goedaardige varianten die op zichzelf alarmerend lijken, en de volledig normale panels die zelfverzekerde assistenten verleiden tot het vervaardigen van pathologie.

Deze benchmark is precies gebouwd rond die faalmodi. Elk van de vijftien casussen is geselecteerd op een specifieke diagnostische eigenschap: een ijzertekort-geassocieerde microcytose die onderscheiden moet blijven van een bèta-thalassemie-eigenschap met identiek gemiddeld corpusculair volume, een presentatie passend bij het syndroom van Gilbert waarbij de enige afwijking een geïsoleerde indirecte hyperbilirubinemie is, en een screeningspanel met vijftien parameters waarin elke analyte binnen zijn referentiebereik valt. De beoordelingscriteria belonen motoren die elke casus lezen op zijn eigen voorwaarden en bestraffen motoren die grijpen naar een zekere diagnose wanneer zo’n diagnose niet gerechtvaardigd is.

Als Thomas Klein, MD, heb ik het casuspanel geselecteerd omdat dit de patronen zijn die laboratoriumgeneeskunde-assistenten het vaakst verkeerd interpreteren. De dure faalmodus is niet "het missen van een zeldzame ziekte" — het is het fabriceren van routinepathologie bij patiënten die die niet hebben. Ons Medische validatie hub beschrijft het bredere kader; deze pagina beschrijft de V11-initiële proof-of-concept en de V11 tweede update die het opschaalde naar 100.000 synthetische gevallen uit een synthetische casusset die 127 landlabels omvat — met dezelfde scoringsrubric, byte-identiek, zonder post-hoc tuning toegestaan.

Laatste referentierun — V11 Second Update (26 april 2026)

De referentierun van de V11 Second Update van 26 april 2026 leverde een samengestelde score op van 99.80% op dezelfde vooraf geregistreerde rubric die is gebruikt in de V11 initiële release, geëvalueerd op 100.000 synthetische gevallen afkomstig uit de Kantesti synthetische casusset en omvattend 127 landlabels en 75+. Elke case werd voltooid op het primaire pad van de engine; activaties van de hyperdiagnose-trapvlag bleven op 0 / 87,412. De oorspronkelijke V11-run op 23 april 2026 omvatte 15 handmatig geselecteerde cases (samengestelde 99.12%) en valideerde de rubric; de Second Update behoudt die rubric byte-identiek en breidt de evaluatie uit naar een cohort op populatieniveau.

Totaal 99.80% 100.000 van 100.000 cases scoorden
1.000 Structurele score
0.996 Klinische score
13,26 s Gemiddelde latentie
0 / 87,412 Valkuil-vals-positieven

De samengestelde formule combineert drie componenten: structurele conformiteit met de zeven verplichte rapportageonderdelen en zestien verplichte subonderdelen, inhoudsnauwkeurigheid gemeten als trefwoordherinnering plus herinnering aan het scoresysteem plus een validiteitscontrole van de kansverdelingsvorm, en responstijd tegen de primaire service-leveldoelstelling. De exacte uitsplitsing wordt hieronder weergegeven in de rubricformule — geen van deze gewichten of sub-rubrics is aangepast voor de Second Update.

Totaal = 0.35 × Structureel + 0.55 × Klinisch + 0.10 × Latentie

De resterende 0,20 procentpunt aan beschikbare marge wordt bijna volledig opgesplitst in de klinische subscore — een klein deel van de cases (voornamelijk in Hepatologie en Reumatologie) had één verwacht keyword van het scoresysteem afwezig in de interpretatie van de engine, ondanks dat de diagnostische inhoud correct was. Geen enkele case in het cohort van 100.000 cases van de Second Update miste de diagnose zelf. De latency verbeterde van een gemiddelde van 20,17 s in de V11 initiële release naar 13,26 s in de Second Update, wat wijst op optimalisaties in de productie-engine tussen de twee runs; de rubric, de scorecode en het API-eindpunt zijn ongewijzigd.

Samengestelde scores per label varieerden van 0.9971 tot 0.9985 over de 30 meest-vertegenwoordigde landlabels. De lange staart van 97 aanvullende labels (≈7.300 gevallen samen) liet geen systematische verslechtering zien. De meest frequente labels op basis van aantallen waren de Verenigde Staten (10.500), Brazilië (9.500), Spanje (9.000), Italië (8.000), Duitsland (7.800), Frankrijk (7.400), Portugal (5.800), Türkiye (3.400), het Verenigd Koninkrijk (2.900) en Mexico (2.500).

Van 15 gevallen tot 100.000: evolutie van de cohort over 127 landlabels

De oorspronkelijke V11-casusset omvatte zeven specialismen — hematologie, endocrinologie, metabole geneeskunde, hepatologie, nefrologie, cardiologie, reumatologie — plus twee toegewijde hyperdiagnose-trapgevallen, waarbij elk geval een synthetisch gegenereerd bloedtestpanel was. De V11 tweede update breidt de evaluatie uit naar 100.000 synthetische gevallen over 127 landlabels, verdeeld over acht specialismen (de oorspronkelijke zeven plus een toegewijde interne-geneeskunde bucket die de trap-subset opvangt). Dezelfde scores rubric wordt byte-identiek toegepast in beide runs.

Ontwerp van het V11 initiële case-panel — vijftien synthetische bloedtestgevallen over zeven medische specialismen plus twee hyperdiagnose-trap-cases; dezelfde rubric behaalde een samengestelde score van 99,80% op 100.000 gevallen in de V11 Second Update
Figuur 2: Ontwerp van het initiële V11-casemodel voor hematologie, endocrinologie, metabole geneeskunde, hepatologie, nefrologie, cardiologie, reumatologie, plus twee trapcases — syndroom van Gilbert en een volledig normaal screeningspanel. De Second Update behoudt deze rubric byte-identiek terwijl het cohort wordt uitgebreid tot 100.000 cases uit de Kantesti SQL-repository.

Omdat alle gevallen synthetisch gegenereerd zijn, zijn er geen echte identifiers om te verwijderen en is er geen persoonlijke data betrokken. Elk synthetisch geval draagt een benchmark-interne casuscodering (BT-NNN-LABEL in de V11-initiële set, een stabiele case_uid in de tweede update). Er verschijnt nergens persoonlijke data in de gepubliceerde harnas, het technische rapport of de vrijgegeven datasets.

V11 initiële release — 15 handmatig geselecteerde cases

Het oorspronkelijke V11-casuspaneel is handmatig samengesteld door Dr. Thomas Klein om de diagnostische patronen te oefenen die laboratoriumgeneeskunde-assistenten het vaakst verkeerd interpreteren. Elk van de vijftien casussen is geselecteerd op een specifieke diagnostische eigenschap, hieronder vermeld.

Hematologie (3) BT-001, BT-006, BT-007 IJzergebreksanemie · B12-deficiëntie · Kleine bèta-thalassemie
Endocrinologie (3) BT-002, BT-008, BT-012 Thyroiditis van Hashimoto · PCOS met insulineresistentie · Ernstig vitamine D-tekort
Metabool (2) BT-003, BT-013 T2DM met metabool syndroom · Hyperurikemie met jicht-risico
Hepatologie (2) BT-004, BT-009 NAFLD / NASH · Acute virale hepatitis
Nefrologie · Cardiologie · Reumatologie (3) BT-005, BT-010, BT-011 CKD stadium 3 · Atherogene dyslipidemie · Systemische lupus erythematosus
Valkuilgevallen (2) BT-014, BT-015 Syndroom van Gilbert (geïsoleerde indirecte hyperbilirubinemie) · Volledig normaal screeningsonderzoek bij volwassenen

Waarom deze specifieke verdeling

Hematologie krijgt drie cases, omdat microcytaire differentiaaldiagnoses en macrocytaire differentiaaldiagnoses de grootste valkuilen met het hoogste volume zijn in de dagelijkse laboratoriumpraktijk. Endocrinologie krijgt drie cases, omdat de presentaties van de ziekte van Hashimoto, PCOS en vitamine D-tekort verschillende diagnostische vormen hebben (gedreven door autoantilichamen, gedreven door hormoonverhoudingen, gedreven door één marker). De specialisaties met één case zijn nog steeds betekenisvol, omdat elk van CKD, ASCVD-risico en SLE zijn eigen scoresysteem heeft dat de engine moet aanroepen (respectievelijk KDIGO-stadiëring, ASCVD 10-jaarsrisico, 2019 EULAR/ACR SLE-criteria).

V11 tweede update — 100.000 synthetische gevallen over 127 landlabels

De tweede update vervangt de oorspronkelijke V11 hard-coded 15-case Python literal door een grotere, programmatisch gegenereerde synthetische casusset. De casusset wordt aan het begin van elke run geladen en de configuratie wordt gelogd voor transparantie. De cohortverdeling naar inhoudsgebied staat hieronder.

Endocrinologie 23.900 gevallen (23,9%) Schildklier, PCOS, vitamine D, gonadale as, hypofyse
Metabole geneeskunde 21.900 gevallen (21,9%) T2DM, metabool syndroom, lipidenpanels, hyperurikemie
Hematologie 15.400 gevallen (15,4%) Microcytaire en macrocytaire differentiaaldiagnoses, B12/folaat, ijzeronderzoek
Hepatologie 12.400 gevallen (12,4%) NAFLD/NASH, virale hepatitis, FIB-4, cholestase
Interne geneeskunde (incl. trap-subset) 9.000 gevallen (9,0%) Gemengde presentaties en 8.723 toegewijde hyperdiagnose-trapgevallen
Cardiologie 7.500 gevallen (7,5%) ASCVD-risico, atherogene dyslipidemie, hs-CRP
Reumatologie 6.000 gevallen (6,0%) SLE, RA, vasculitis, auto-antilichaampanels (EULAR/ACR-criteria)
Nefrologie 4.000 gevallen (4,0%) CKD-stadiëring (KDIGO), eGFR-trends, verstoring van elektrolyten

Synthetische landlabelverdeling — top 10 labels

De 100.000 synthetische gevallen dragen 127 landlabels (ISO 3166-1 alpha-2) om locale-afhandeling te testen. Labeltoewijzing: Europa 57.7%, de Amerika’s 25.4%, Azië-Pacific 6.2%, benoemde Midden-Oosten/Afrika-labels 3.4%, en een lange staart van 97 aanvullende labels, samen grofweg 7.3%. De tien meest frequente labels op basis van aantallen zijn de Verenigde Staten (10.500), Brazilië (9.500), Spanje (9.000), Italië (8.000), Duitsland (7.800), Frankrijk (7.400), Portugal (5.800), Türkiye (3.400), het Verenigd Koninkrijk (2.900) en Mexico (2.500). Samengestelde scores per label varieerden van 0.9971 tot 0.9985. Deze aantallen labels zijn eigenschappen van de gegenereerde gevallen die worden gebruikt om locale-afhandeling te testen — het zijn geen echte gebruikers en geen echte geografische dekking.

De vooraf geregistreerde rubric, uitgelegd

Pre-registratie is de belangrijkste methodologische keuze in deze benchmark. Elke verwachte diagnose, elk klinisch scoresysteem en elk onderdeel van het rapport is vastgelegd in broncode voordat de engine werd aangeroepen. Daarom is post-hoc tuning van de rubric om de engine te flatteren onmogelijk.

Drie componenten vormen de samengestelde score. De structurele component draagt 35 procent bij en meet of de engine de zeven verplichte rapportonderdelen heeft teruggegeven (kop, samenvatting, kernbevindingen, differentiaal, scoresystemen, aanbevelingen, follow-up) en de zestien verplichte subonderdelen daarbinnen. Aanwezigheid van secties weegt 40 procent en aanwezigheid van subonderdelen weegt 60 procent binnen de structurele berekening.

De klinische component draagt 55 procent bij en combineert drie dingen: diagnose-trefwoordherinnering (70 procent van de klinische subscores), herinnering aan het scoresysteem (20 procent — berekent de engine Mentzer, FIB-4, HOMA-IR, ASCVD-risico, KDIGO-stadiëring, EULAR/ACR-criteria waar relevant), en een validiteitscheck op de som van waarschijnlijkheden (10 procent — de differentiaalwaarschijnlijkheden moeten binnen het interval [90, 110] optellen). Voor valkuil-cases wordt een expliciete hyperdiagnoseboete van maximaal 0,30 afgetrokken, berekend als 0,10 per gefabriceerde pathologie-vlag, met een maximum van drie vlaggen.

De latentiecomponent draagt 10 procent bij. Een respons onder 20 seconden levert de volledige 0,10 op, een respons onder 40 seconden levert 0,05 op, en alles langzamer levert nul op. De doelstelling van 20 seconden weerspiegelt de productie primary-path service-level objective; het plafond van 40 seconden weerspiegelt het fallback-budget voor zware engine-aanroepen in fase 2.

Eind-screenshot van de MIT-gelicentieerde Kantesti benchmark-harnas die draait en per-case scores uitstuurt — dezelfde harnas, nu SQL-gestuurd, produceerde de 99.80% composietscore op de V11 Tweede Update 100.000-case run
Figuur 3: De testomgeving in uitvoering — dezelfde engine die heeft geproduceerd 99.80% samengestelde score in de V11 Second Update 100,000-case cohort. Elke case wordt weergegeven als een A4-pdf, geplaatst op het productie-V11-eindpunt en gescoord tegen de bevroren rubric. De Second Update voegde een geparametriseerde SQL-case loader toe; een gestratificeerde willekeurige steekproef van ruwe engine-responsen (n = 201) wordt naast het geaggregeerde scorecard opgeslagen.

Wat pre-registratie voorkomt

First-party benchmarks staan erom bekend hun eigen cijfers op te blazen via post-hoc tuning van de rubric. Het patroon is bijna altijd hetzelfde: het team draait de engine, ziet waar het onderpresteert en past vervolgens stilletjes de rubric aan zodat de onderpresterende onderdelen minder meetellen. Door de rubric vast te leggen in broncode vóór de eerste engine-call en de harness te publiceren onder de MIT-licentie, wordt die aanpassing zichtbaar in versiebeheer. Iedereen kan de repository clonen, de datums van de rubric-auteurs controleren en verifiëren dat de engine-resultaten niet zijn gebruikt om de scoring te sturen.

Hyperdiagnose-valkuilcases — waarom overroepen de echte faalmodus is

Agressief overroepen van pathologie op normale schermen is een gedocumenteerde faalmodus van medische assistenten voor consumenten. De downstream-kosten omvatten onnodig onderzoek, patiëntonrust en iatrogene diagnostiek. De twee valkuil-cases in deze benchmark zijn ontworpen om die faalmodus zichtbaar en scorebaar te maken.

Zij-aan-zij vergelijking van een naïeve AI die hepatitis fabriceert op een syndroom-van-Gilbert-panel versus de Kantesti-engine die het goedaardige UGT1A1-polymorfisme correct identificeert — methodologie die opschaalde tot nul false-positives over 87.412 valkuil-vlagkansen in de V11 Tweede Update 99.80% benchmark
Figuur 4: Het trap-case-ontwerp uit de V11-initiële release — een engine die het syndroom van Gilbert met vertrouwen als hepatitis labelt, of die grenspathologie vervaardigt op een volledig normaal scherm, wordt bestraft in plaats van beloond omdat hij klinisch klinkt. Deze methodologie werd opgeschaald naar 0 / 87,412 false-positives in de V11 Second Update 100,000-case run die de 99.80% samengestelde score opleverde.

🟡 Valkuil 1 — BT-014-GILBERT

Presentatie. Een 24-jarige man met een totale bilirubinewaarde van 2,4 mg/dL. De directe fractie is normaal, transaminasen en alkalische fosfatase liggen binnen hun referentiebereiken, reticulocyten zijn niet bijzonder, en haptoglobine en LDH sluiten hemolyse uit.

Juiste interpretatie. Ziekte van Gilbert — een goedaardige UGT1A1-polymorfisme. De interpretatie mag geen hepatitis, cirrose, hemolytische anemie of biliaire obstructie aanroepen.

V11-resultaat. Samengesteld 1.000. Geen van de zes gemonitorde overdiagnose-vlaggen verscheen als actieve diagnose.

🟡 Valkuil 2 — BT-015-GEZOND

Presentatie. Een 35-jarige vrouw met een vijftienparameter routine-screeningpanel. Elke analyte bevindt zich comfortabel binnen zijn referentiebereik.

Juiste interpretatie. Bevestiging en onderhoud van de levensstijl. De interpretatie mag geen borderline-pathologie verzinnen om klinisch bruikbaar te klinken.

V11-resultaat. Samengestelde score 1.000. Geen van de zeven gecontroleerde overdiagnose-waarschuwingsvlaggen — diabetes, anemie, hypothyreoïdie, dyslipidemie, hepatitis, nierziekte, deficiëntie — verscheen als actieve diagnose.

Over beide traps heen zijn dertien gecontroleerde hyperdiagnose-waarschuwingsvlaggen nagekeken. Geen enkele werd geactiveerd. Dit is het resultaat dat het meest telt voor elke clinicus die overweegt een AI-engine te gebruiken als triage- of pre-consultatietool: het systeem verzon geen ziekte als die niet bestond.

Mentzer-index: ijzertekort onderscheiden van het thalassemie-eigenschap

Een tweede waardevolle bevinding betreft de koppeling van casus BT-001 (ijzergebreksanemie) met casus BT-007 (bèta-thalassemie minor). Beide presenteren met microcytose en vormen een bekend struikelblok voor naïeve classifiers. De Mentzer-index, berekend als MCV gedeeld door het RBC-aantal, ligt boven 13 bij ijzergebreksanemie en onder 13 bij thalassemietraits.

In BT-001 was de patiënt een 34-jarige vrouw met hemoglobine 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritine 6 ng/mL en een verhoogde TIBC. De Mentzer-index van ongeveer 17,7 ondersteunt een absoluut ijzertekort. In BT-007 was de patiënt een 28-jarige man met microcytose (MCV 65,8 fL) maar een hoog RBC-aantal van 6,2, een normale RDW, normaal ferritine en HbA2 van 5,6 procent. De Mentzer-index van ongeveer 10,6 wijst op thalassemietrait, en het verhoogde HbA2 bevestigt bèta-thalassemie minor.

IJzergebreksanemie Mentzer > 13 Laag ferritine, laag TSAT, hoog TIBC, verhoogde RDW
Bèta-thalassemietrait Mentzer < 13 Normaal ferritine, normale RDW, verhoogd HbA2 (>3.5%), hoog RBC-aantal

Beide casussen scoorden 1.000. De engine gebruikte de Mentzer-index expliciet in beide interpretaties en gaf in elk geval de juiste diagnose terug. Dit is het meest klinisch geruststellende resultaat in de volledige benchmark, omdat het verkeerd classificeren van thalassemietrait als ijzergebreksanemie leidt tot onjuiste ijzersuppletie en gemiste kansen voor familiaire screening, en het verkeerd classificeren van ijzergebreksanemie als thalassemie de eenvoudige vervangingsbehandeling vertraagt. Onze ferritinebereik-richtlijn legt de bredere differentiële context uit.

Resultaten per case uit de V11-initiële referentierun (23 april 2026)

De oorspronkelijke V11-referentierun op de 15-case proof-of-conceptcohort dient als de methodologische basis van de Second Update: elk detail per case hieronder illustreert hoe de rubric omgaat met een echte engine-respons. Twaalf van de vijftien cases bereikten de plafond samengestelde score van 1.000 op het primaire pad; drie cases werden via de Phase 2-fallback bediend, waarbij de 0.05 latency-bonus verloren ging terwijl alle klinische en structurele inhoud behouden bleef. Eén case miste één enkele verplichte subsectie; één case leverde een marginaal verlaagde som van de waarschijnlijkheidsverdeling op.

Casus-ID Specialisme Totaal Latency Pad
BT-001-IDAHematologie1.00017,8 sprimair
BT-006-B12Hematologie1.00018,4 sprimair
BT-007-THALHematologie1.00017,0 sprimair
BT-002-HASHEndocrinologie0.95037,0 sterugval
BT-008-PCOSEndocrinologie0.98718,6 sprimair
BT-003-T2DMMetabolisch1.00019,1 sprimair
BT-013-JICHTMetabolisch1.00019,4 sprimair
BT-004-NAFLDHepatologie1.00019,6 sprimair
BT-009-VIRHEPHepatologie0.95023,4 sterugval
BT-014-GILBERTVal1.00018,9 sprimair
BT-005-CKDNefrologie1.00017,4 sprimair
BT-010-ASCVDCardiologie1.00019,7 sprimair
BT-011-SLEReumatologie0.98118,2 sprimair
BT-012-VITDEndocrinologie1.00019,3 sprimair
BT-015-GEZONDVal1.00018,7 sterugval

De PCOS-casus (BT-008) verloor één verplichte subsectie in de responstructuur — vijftien van zestien in plaats van zestien van zestien — waardoor de structurele score daalde van 1,000 naar 0,963. De SLE-casus (BT-011) leverde een marginaal verlaagde som van de waarschijnlijkheidsverdeling op, waardoor de klinische score daalde tot 0,965, terwijl elke diagnostische sleutelterm en scoringsystematiek behouden bleef. Geen van beide sub-perfecte casussen miste een juiste diagnose.

V11 Second Update geaggregeerd — 100,000 cases

Op populatieschaal zijn individuele rijen met casussen niet leesbaar voor mensen, dus rapporteert de tweede update geaggregeerde metrics in plaats van een tabel met 100.000 rijen. De belangrijkste aggregaat wordt hieronder getoond; uitsplitsingen per specialisme en per landlabel worden gepubliceerd in het technische rapport en de Figshare-deponering. Een gestratificeerde willekeurige steekproef van n = 201 ruwe engine-responsen (deterministische seed 20260426) wordt gepubliceerd in de GitHub results/ directory voor inspectie.

Samengestelde score V11 initieel: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 over de cohort van 100,000 cases
Structurele score (gemiddelde) V11 initieel: 0.998 → Second Update: 1.000 Perfecte structurele conformiteit op populatieschaal
Klinische score (gemiddelde) V11 initieel: 0.998 → Second Update: 0.996 −0.002; geen enkele case miste de diagnose zelf
Latency — gemiddelde (bereik) V11 initiële: 20,17 s (17,0–37,0 s) → Tweede update: 13,26 s (9,0–16,94 s) Productie-engine-optimalisaties tussen runs
Enginepad = primair V11 initiële: 12 / 15 → Tweede update: 100,000 / 100,000 Er was op geen enkel moment tijdens de run een fallback voor fase 2 nodig
Trap-subset hyperdiagnosevlaggen V11 initiële: 0 / 13 → Tweede update: 0 / 87,412 Nul false-positives op populatieschaal (8.723 trapgevallen gemonitord)

Wat de headlinescore ons niet vertelt

Een samengestelde score van 99.80 procent onder deze specifieke vooraf geregistreerde rubric, op een synthetische cohort van 100.000 gevallen die 127 landlabels omvat, staat voor bijna-plafondprestaties — maar het verdient een zorgvuldige context. Het resultaat beschrijft het gedrag van de engine ten opzichte van de rubric die we in V11 hebben vastgelegd in broncode; het is geen universele claim over de juistheid van de engine op elke bestaande bloedtestpanel in het wild.

De score zegt dat de engine de diagnostische patronen die voor deze evaluatie zijn geselecteerd correct heeft afgehandeld binnen een cohort op populatieschaal, op een methodologie die is gepubliceerd en reproduceerbaar. Het zegt niet dat de engine correct is op elk bloedonderzoekpaneel dat in het wild bestaat. Het zegt niet dat de engine het klinisch oordeel moet vervangen. En het zegt niet dat de engine betere prestaties levert dan alternatieve AI-systemen — vergelijkende analyses met andere engines vielen bewust buiten het bereik van dit rapport.

Wat de score wél vaststelt, is een basislijn. Met de rubric en de harness openbaar kunnen toekomstige versies van de engine worden geëvalueerd aan de hand van dezelfde rubric — toegepast op de V11 initiële 15 gevallen, de Tweede update 100.000-gevallen cohort, of elke daaropvolgende uitbreiding — en het verschil tussen de gepubliceerde score en elke daaropvolgende run is op zichzelf meetbaar. Dit is de waarde van pre-registratie: het zet prestatieclaims om in testbare claims.

Hoe je deze benchmark in 10 minuten kunt reproduceren

Reproductie vereist alleen een Kantesti API-credential-paar en een Python 3.10 of latere omgeving met de requests En reportlab bibliotheken geïnstalleerd. De volledige harness is één enkelvoudige, zelfvoorzienende Python-module die onder de MIT-licentie is uitgebracht.

Reproduceerbaarheidsnetwerkdiagram dat de V11 Second Update-benchmark toont (99,80% samengestelde score, 100.000 gevallen, 127 landlabels) gespiegeld over Figshare, ResearchGate, Academia.edu en GitHub met de Figshare DOI als canoniek anker
Figuur 5: De V11 Tweede update-benchmark — 99.80% samengestelde score op 100.000 gevallen over 127 landlabels — wordt gespiegeld over vier onderzoeksplatforms. De Figshare DOI is de canonieke wetenschappelijke identificatie; ResearchGate (publicatie 404175463), Academia.edu (paper 165956808) en GitHub hosten parallelle kopieën met de benchmark-harnas, de gestratificeerde willekeurige steekproef van ruwe responsen en de per-land-label/per-specialisme scorecards.

Vier stappen voor een nieuwe run

Eén. Clone de repository: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Twee. Installeer afhankelijkheden met pip install -r requirements.txt (Tweede update voegt toe mysql-connector-python ≥ 8.0 voor de SQL-case loader). Drie. Stel KANTESTI_USERNAME En KANTESTI_PASSWORD als omgevingsvariabelen voor de engine-API. Stel voor de Tweede update SQL-case loader ook in KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, En KANTESTI_DB_PASSWORD — de loader maakt verbinding via een rol met alleen-lezenrechten (bench_reader) die geen privileges heeft om tabellen te identificeren. Vier. Voer uit python benchmark_bloodtest.py --limit 100000 voor de volledige Second-Update-run, of python benchmark_bloodtest.py --limit 1000 voor snelle iteratie. Resultaten worden opgeslagen in ./benchmark_results/: een CSV-scorecard met kolommen voor per-land-label en per-specialisme, een JSON-aggregaat, een gestratificeerde-willekeurige ruwe-responssteekproef en een Markdown-rapport.

De referentieruns van 23 april 2026 (V11 initial, 15 cases) en 26 april 2026 (V11 Second Update, 100,000 cases) worden bewaard in de results/ directory van de repository. Een nieuwe run genereert een nieuwe scorecard met tijdstempel, terwijl de referentieruns onaangetast blijven. Als je run een wezenlijk ander resultaat oplevert, open dan een GitHub-issue met de run-tijdstempel en de engineversie die is teruggegeven in de response-metadata.

Beperkingen en toekomstig werk

Zelfs bij 100.000 gevallen over 127 landlabels verdienen vier beperkingen een expliciete vermelding: ondersampling van long-tail labels, single-shot evaluatie, single-engine scope en single-source dat oorsprong. Elk daarvan wordt aangepakt in actief vervolgonderzoek.

Dekking van long-tail labels. De Second Update beslaat 127 landlabels, maar de verdeling is niet in balans — de top 10 labels beslaat ≈66,4% van de gevallen, en de long tail van 97 aanvullende labels draagt samen ≈7,3% bij (ongeveer 7.300 gevallen in totaal, ~75 gevallen per label gemiddeld). Per-label composieten in deze long tail zijn daarom minder betrouwbaar dan de headline-cijfers doen vermoeden. Toekomstige runs zullen de toewijzing van labels herbalanceren om per-label schattingen te versterken.

Single-shot evaluatie. Elke case in de cohort werd één keer geëvalueerd. Grote taalmodellen vertonen niet-triviale variatie in output, zelfs bij een lage samplingtemperatuur, dus een multi-run protocol met vijf evaluaties per case en gerapporteerde variantie is een natuurlijke volgende stap — met name op de subset met valkuil-cases, waar consistentie onder sampling-jitter onderdeel is van de veiligheidsclaim.

Single-engine scope. Dit rapport beschrijft één engine. Vergelijkende analyses tegen alternatieve AI-systemen vallen buiten het bereik; we kunnen ze mogelijk als een afzonderlijke onafhankelijke studie uitvoeren met passende methodologie, tegen dezelfde MIT-gelicentieerde harness.

Synthetische data. De 100.000 gevallen zijn synthetisch gegenereerd, geen synthetische gevallen, en de resultaten zijn niet overdraagbaar naar klinische prestaties in de echte wereld. Evaluatie op echte, met toestemming verkregen, extern aangeleverde data zou passende ethische toezicht vereisen en valt buiten het bereik van deze synthetische benchmark.

Naast deze vier is de meest impactvolle geplande uitbreiding multi-taal gelijkwaardigheid per jurisdictie. De Kantesti AI Engine bedient gebruikers in 75+ talen, en het uitvoeren van taal-gestratificeerde Second-Update sub-cohorten (Turks, Duits, Spaans, Frans, Italiaans, Portugees, Arabisch, Mandarijn) zal de outputkwaliteit kwantificeren over de talen die door de engine worden ondersteund. Elke taal-gestratificeerde analyse wordt gepubliceerd met een eigen DOI en harness-branch.