Kantesti AI-bloedtestbenchmark — klinische validatie

Klinische validatie Vooraf geregistreerde benchmark V11 — april 2026 MIT-licentie Door peers verifieerbaar

99.12% samengestelde score op een vooraf geregistreerde rubric met nul hyperdiagnose vals-positieven

Een onafhankelijke, vooraf geregistreerde klinische evaluatie van de Kantesti AI-engine op geanonimiseerde bloedtestcases. De beoordelingscriteria zijn bevroren in broncode vóór de eerste engine-aanroep, de evaluatieomgeving is MIT-gelicentieerd en elke ruwe respons wordt gepubliceerd.

📖 ~14 minuten 📅 23 april 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Gepubliceerd: 23 april 2026 🩺 Medisch beoordeeld: 23 april 2026 ✅ Vooraf geregistreerde rubric 🔓 Open code & data

Deze klinische validatiestudie werd geleid door Dr. Thomas Klein, arts, Chief Medical Officer bij Kantesti AI, in samenwerking met Julian Emirhan Bulut, Senior AI-engineer en CEO van Kantesti Ltd. Methodologie en rubric beoordeeld door de Adviesraad voor AI-medisch advies van Kantesti.

Hoofdauteur & klinisch toezicht

Thomas Klein, arts

Hoofdmedisch adviseur, Kantesti AI

Dr. Thomas Klein is een board-gecertificeerde klinisch hematoloog en internist met meer dan 15 jaar ervaring in laboratoriumgeneeskunde. Als Chief Medical Officer bij Kantesti AI selecteerde hij de casuspanel voor deze benchmark, beoordeelde hij alle diagnostische ground truths en keurde hij de vooraf geregistreerde rubric goed vóór de eerste engine-invocation.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Medeauteur & implementatie

Julian Emirhan Bulut

Senior AI-engineer & CEO, Kantesti Ltd

Julian Emirhan Bulut is de oprichter en CEO van Kantesti Ltd. Hij ontwierp en implementeerde de evaluatieomgeving, voerde de API-integratie uit, leidde de benchmarkrun van april 2026 en bereidde de statistische aggregatie voor. Oprichter van het platform sinds 2019.

GitHub Over Kantesti

⚡ Beknopte samenvatting V11 — 23 april 2026

99.12% samengestelde score op 15 geanonimiseerde echte bloedtestgevallen van zeven medische specialismen.
Geen hyperdiagnose false-positives op beide trapgevallen (het syndroom van Gilbert en een volledig normaal volwassen screeningsonderzoek).
Vooraf geregistreerde beoordelingsrubric vastgelegd in broncode vóór de eerste engine-aanroep — er was geen post-hoc tuning mogelijk.
Mentzer-index correct toegepast om ijzergebreksanemie te onderscheiden van beta-thalassemie minor.
Alleen productie-eindpunt — geen bevoorrechte routering; exact geëvalueerd zoals een betalende klant het zou benaderen.
Gemiddelde latentie van 20,17 seconde end-to-end, waarbij 12 van de 15 gevallen onder de primaire-paddoelstelling van 20 seconden vielen.
Harness onder MIT-licentie uitgebracht op GitHub met elke rauwe engine-respons — onafhankelijke reproductie wordt ondersteund.
Figshare DOI: 10.6084/m9.figshare.32095435 · Gespiegeld op ResearchGate, Academia.edu, GitHub.

Waarom deze benchmark bestaat en wat hij test

AI-ondersteunde bloedonderzoek uitslag wordt steeds vaker gebruikt in consumenten- en klinische workflows, maar reproduceerbare evaluatiekaders die zijn afgestemd op laboratoriumgeneeskunde blijven zeldzaam. De vragen die in deze context het meest ertoe doen, worden niet gedekt door algemene benchmarks voor medische vraag-en-antwoord: kan een engine ijzertekort onderscheiden van thalassemietrait wanneer het gemiddelde corpusculaire volume identiek is, stelt het het syndroom van Gilbert te vaak verkeerd als hepatitis, en genereert het pathologie in een volledig normaal screeningspanel?

Een enkel bloedonderzoek-panel bevat doorgaans genoeg signaal om meerdere concurrerende interpretaties te ondersteunen, en de taak van de interpreterende arts is om die interpretaties tegen elkaar af te wegen in plaats van een standaardantwoord uit een leerboek op te halen. Een motor die het goed doet op leerboekgevallen kan toch falen op de gevallen die er het meest toe doen: de valkuilen bij differentiaaldiagnose, de goedaardige varianten die op zichzelf alarmerend lijken, en de volledig normale panels die zelfverzekerde assistenten verleiden tot het vervaardigen van pathologie.

Deze benchmark is precies gebouwd rond die faalmodi. Elk van de vijftien casussen is geselecteerd op een specifieke diagnostische eigenschap: een ijzertekort-geassocieerde microcytose die onderscheiden moet blijven van een bèta-thalassemie-eigenschap met identiek gemiddeld corpusculair volume, een presentatie passend bij het syndroom van Gilbert waarbij de enige afwijking een geïsoleerde indirecte hyperbilirubinemie is, en een screeningspanel met vijftien parameters waarin elke analyte binnen zijn referentiebereik valt. De beoordelingscriteria belonen motoren die elke casus lezen op zijn eigen voorwaarden en bestraffen motoren die grijpen naar een zekere diagnose wanneer zo’n diagnose niet gerechtvaardigd is.

Als Thomas Klein, MD, heb ik het casuspanel geselecteerd omdat dit de patronen zijn die laboratoriumgeneeskunde-assistenten het vaakst verkeerd interpreteren. De dure faalmodus is niet "het missen van een zeldzame ziekte" — het is het fabriceren van routinepathologie bij patiënten die die niet hebben. Ons Medische validatie hub beschrijft het bredere kader; deze pagina beschrijft het toegepaste resultaat op de V11-engine.

Laatste referentierun — V11 (april 2026)

De referentierun van april 2026 van de Kantesti AI Engine V11 leverde een totaalscore op van 99.12% op de vooraf geregistreerde rubric met vijftien casussen. Beide valkuil-casussen voor hyperdiagnose scoorden op het maximum. De Mentzer-index werd correct toegepast op het differentiaaldiagnostisch onderscheid tussen ijzertekort en thalassemie.

Totaal 99.12% 15 van 15 casussen scoorden

0.998 Structurele score

0.998 Klinische score

20,17 s Gemiddelde latentie

0 / 13 Valkuil-vals-positieven

De samengestelde formule combineert drie componenten: structurele conformiteit met de zeven verplichte rapportageonderdelen en zestien verplichte subonderdelen, klinische nauwkeurigheid gemeten als trefwoordherinnering plus herinnering aan het scoresysteem plus een validiteitscontrole van de kansverdelingsvorm, en responstijd ten opzichte van de primaire service-level target van 20 seconden. De exacte uitsplitsing wordt hieronder weergegeven in de rubricformule.

Totaal = 0.35 × Structureel + 0.55 × Klinisch + 0.10 × Latentie

De resterende 0,88 procentpunt aan headroom valt bijna volledig uiteen in latencyverlies — drie aanroepen als fallback voor fase 2 met elk -0,05 composiet leverden samen ongeveer 0,60 van het tekort van 0,88 punt — in plaats van in klinische inhoud. De engine miste geen enkele juiste diagnose in een van de vijftien gevallen; waar hij tekortschiet, deed hij dat door in een kleine minderheid van de aanroepen iets langer te duren dan de primaire-doelstelling van 20 seconden.

Vijftien cases over zeven medische specialismen

Het casuspanel omvat zeven specialismen — hematologie, endocrinologie, metabole geneeskunde, hepatologie, nefrologie, cardiologie, reumatologie — plus twee toegewijde hyperdiagnose-valkuilgevallen. Elk geval is een geanonimiseerd echt patiëntendossier dat is ontleend aan de Kantesti-clinische databank onder schriftelijke geïnformeerde toestemming.

De-identificatie werd uitgevoerd volgens de Safe Harbor-aanpak: alle directe identificatoren werden verwijderd of vervangen, en elk dossier kreeg een benchmark-interne casuscodering in het formaat BT-NNN-LABEL. De verwerking werd uitgevoerd in overeenstemming met GDPR artikel 9(2)(j) voor wetenschappelijk onderzoek met passende waarborgen, en de overeenkomstige bepalingen van de UK GDPR. Er verschijnt nergens persoonlijk identificeerbare informatie in de gepubliceerde harness, het technische rapport of de vrijgegeven datasets.

Hematologie (3) BT-001, BT-006, BT-007 IJzergebreksanemie · B12-deficiëntie · Kleine bèta-thalassemie

Endocrinologie (3) BT-002, BT-008, BT-012 Thyroiditis van Hashimoto · PCOS met insulineresistentie · Ernstig vitamine D-tekort

Metabool (2) BT-003, BT-013 T2DM met metabool syndroom · Hyperurikemie met jicht-risico

Hepatologie (2) BT-004, BT-009 NAFLD / NASH · Acute virale hepatitis

Nefrologie · Cardiologie · Reumatologie (3) BT-005, BT-010, BT-011 CKD stadium 3 · Atherogene dyslipidemie · Systemische lupus erythematosus

Valkuilgevallen (2) BT-014, BT-015 Syndroom van Gilbert (geïsoleerde indirecte hyperbilirubinemie) · Volledig normaal screeningsonderzoek bij volwassenen

Waarom deze specifieke verdeling

Hematologie krijgt drie cases, omdat microcytaire differentiaaldiagnoses en macrocytaire differentiaaldiagnoses de grootste valkuilen met het hoogste volume zijn in de dagelijkse laboratoriumpraktijk. Endocrinologie krijgt drie cases, omdat de presentaties van de ziekte van Hashimoto, PCOS en vitamine D-tekort verschillende diagnostische vormen hebben (gedreven door autoantilichamen, gedreven door hormoonverhoudingen, gedreven door één marker). De specialisaties met één case zijn nog steeds betekenisvol, omdat elk van CKD, ASCVD-risico en SLE zijn eigen scoresysteem heeft dat de engine moet aanroepen (respectievelijk KDIGO-stadiëring, ASCVD 10-jaarsrisico, 2019 EULAR/ACR SLE-criteria).

De vooraf geregistreerde rubric, uitgelegd

Pre-registratie is de belangrijkste methodologische keuze in deze benchmark. Elke verwachte diagnose, elk klinisch scoresysteem en elk onderdeel van het rapport is vastgelegd in broncode voordat de engine werd aangeroepen. Daarom is post-hoc tuning van de rubric om de engine te flatteren onmogelijk.

Drie componenten vormen de samengestelde score. De structurele component draagt 35 procent bij en meet of de engine de zeven verplichte rapportonderdelen heeft teruggegeven (kop, samenvatting, kernbevindingen, differentiaal, scoresystemen, aanbevelingen, follow-up) en de zestien verplichte subonderdelen daarbinnen. Aanwezigheid van secties weegt 40 procent en aanwezigheid van subonderdelen weegt 60 procent binnen de structurele berekening.

De klinische component draagt 55 procent bij en combineert drie dingen: diagnose-trefwoordherinnering (70 procent van de klinische subscores), herinnering aan het scoresysteem (20 procent — berekent de engine Mentzer, FIB-4, HOMA-IR, ASCVD-risico, KDIGO-stadiëring, EULAR/ACR-criteria waar relevant), en een validiteitscheck op de som van waarschijnlijkheden (10 procent — de differentiaalwaarschijnlijkheden moeten binnen het interval [90, 110] optellen). Voor valkuil-cases wordt een expliciete hyperdiagnoseboete van maximaal 0,30 afgetrokken, berekend als 0,10 per gefabriceerde pathologie-vlag, met een maximum van drie vlaggen.

De latentiecomponent draagt 10 procent bij. Een respons onder 20 seconden levert de volledige 0,10 op, een respons onder 40 seconden levert 0,05 op, en alles langzamer levert nul op. De doelstelling van 20 seconden weerspiegelt de productie primary-path service-level objective; het plafond van 40 seconden weerspiegelt het fallback-budget voor zware engine-aanroepen in fase 2.

Wat pre-registratie voorkomt

First-party benchmarks staan erom bekend hun eigen cijfers op te blazen via post-hoc tuning van de rubric. Het patroon is bijna altijd hetzelfde: het team draait de engine, ziet waar het onderpresteert en past vervolgens stilletjes de rubric aan zodat de onderpresterende onderdelen minder meetellen. Door de rubric vast te leggen in broncode vóór de eerste engine-call en de harness te publiceren onder de MIT-licentie, wordt die aanpassing zichtbaar in versiebeheer. Iedereen kan de repository clonen, de datums van de rubric-auteurs controleren en verifiëren dat de engine-resultaten niet zijn gebruikt om de scoring te sturen.

Hyperdiagnose-valkuilcases — waarom overroepen de echte faalmodus is

Agressief overroepen van pathologie op normale schermen is een gedocumenteerde faalmodus van medische assistenten voor consumenten. De downstream-kosten omvatten onnodig onderzoek, patiëntonrust en iatrogene diagnostiek. De twee valkuil-cases in deze benchmark zijn ontworpen om die faalmodus zichtbaar en scorebaar te maken.

🟡 Valkuil 1 — BT-014-GILBERT

Presentatie. Een 24-jarige man met een totale bilirubinewaarde van 2,4 mg/dL. De directe fractie is normaal, transaminasen en alkalische fosfatase liggen binnen hun referentiebereiken, reticulocyten zijn niet bijzonder, en haptoglobine en LDH sluiten hemolyse uit.

Juiste interpretatie. Ziekte van Gilbert — een goedaardige UGT1A1-polymorfisme. De interpretatie mag geen hepatitis, cirrose, hemolytische anemie of biliaire obstructie aanroepen.

V11-resultaat. Samengesteld 1.000. Geen van de zes gemonitorde overdiagnose-vlaggen verscheen als actieve diagnose.

🟡 Valkuil 2 — BT-015-GEZOND

Presentatie. Een 35-jarige vrouw met een vijftienparameter routine-screeningpanel. Elke analyte bevindt zich comfortabel binnen zijn referentiebereik.

Juiste interpretatie. Bevestiging en onderhoud van de levensstijl. De interpretatie mag geen borderline-pathologie verzinnen om klinisch bruikbaar te klinken.

V11-resultaat. Samengestelde score 1.000. Geen van de zeven gecontroleerde overdiagnose-waarschuwingsvlaggen — diabetes, anemie, hypothyreoïdie, dyslipidemie, hepatitis, nierziekte, deficiëntie — verscheen als actieve diagnose.

Over beide traps heen zijn dertien gecontroleerde hyperdiagnose-waarschuwingsvlaggen nagekeken. Geen enkele werd geactiveerd. Dit is het resultaat dat het meest telt voor elke clinicus die overweegt een AI-engine te gebruiken als triage- of pre-consultatietool: het systeem verzon geen ziekte als die niet bestond.

Mentzer-index: ijzertekort onderscheiden van het thalassemie-eigenschap

Een tweede waardevolle bevinding betreft de koppeling van casus BT-001 (ijzergebreksanemie) met casus BT-007 (bèta-thalassemie minor). Beide presenteren met microcytose en vormen een bekend struikelblok voor naïeve classifiers. De Mentzer-index, berekend als MCV gedeeld door het RBC-aantal, ligt boven 13 bij ijzergebreksanemie en onder 13 bij thalassemietraits.

In BT-001 was de patiënt een 34-jarige vrouw met hemoglobine 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritine 6 ng/mL en een verhoogde TIBC. De Mentzer-index van ongeveer 17,7 ondersteunt een absoluut ijzertekort. In BT-007 was de patiënt een 28-jarige man met microcytose (MCV 65,8 fL) maar een hoog RBC-aantal van 6,2, een normale RDW, normaal ferritine en HbA2 van 5,6 procent. De Mentzer-index van ongeveer 10,6 wijst op thalassemietrait, en het verhoogde HbA2 bevestigt bèta-thalassemie minor.

IJzergebreksanemie Mentzer > 13 Laag ferritine, laag TSAT, hoog TIBC, verhoogde RDW

Bèta-thalassemietrait Mentzer < 13 Normaal ferritine, normale RDW, verhoogd HbA2 (>3.5%), hoog RBC-aantal

Beide casussen scoorden 1.000. De engine gebruikte de Mentzer-index expliciet in beide interpretaties en gaf in elk geval de juiste diagnose terug. Dit is het meest klinisch geruststellende resultaat in de volledige benchmark, omdat het verkeerd classificeren van thalassemietrait als ijzergebreksanemie leidt tot onjuiste ijzersuppletie en gemiste kansen voor familiaire screening, en het verkeerd classificeren van ijzergebreksanemie als thalassemie de eenvoudige vervangingsbehandeling vertraagt. Onze ferritinebereik-richtlijn legt de bredere differentiële context uit.

Resultaten per geval van de run in april 2026

Twaalf van de vijftien casussen behaalden de plafondscore van 1.000 op het primaire pad. Drie casussen werden via de Phase 2-fallback bediend, waarbij de 0,05 latentiebonus verloren ging terwijl alle klinische en structurele inhoud behouden bleef. Eén casus miste één verplichte subsectie; één casus leverde een marginaal verlaagde som van de waarschijnlijkheidsverdeling op.

Casus-ID Specialisme Totaal Latency Pad

BT-001-IDAHematologie1.00017,8 sprimair

BT-006-B12Hematologie1.00018,4 sprimair

BT-007-THALHematologie1.00017,0 sprimair

BT-002-HASHEndocrinologie0.95037,0 sterugval

BT-008-PCOSEndocrinologie0.98718,6 sprimair

BT-003-T2DMMetabolisch1.00019,1 sprimair

BT-013-JICHTMetabolisch1.00019,4 sprimair

BT-004-NAFLDHepatologie1.00019,6 sprimair

BT-009-VIRHEPHepatologie0.95023,4 sterugval

BT-014-GILBERTVal1.00018,9 sprimair

BT-005-CKDNefrologie1.00017,4 sprimair

BT-010-ASCVDCardiologie1.00019,7 sprimair

BT-011-SLEReumatologie0.98118,2 sprimair

BT-012-VITDEndocrinologie1.00019,3 sprimair

BT-015-GEZONDVal1.00018,7 sterugval

De PCOS-casus (BT-008) verloor één verplichte subsectie in de responstructuur — vijftien van zestien in plaats van zestien van zestien — waardoor de structurele score daalde van 1,000 naar 0,963. De SLE-casus (BT-011) leverde een marginaal verlaagde som van de waarschijnlijkheidsverdeling op, waardoor de klinische score daalde tot 0,965, terwijl elke diagnostische sleutelterm en scoringsystematiek behouden bleef. Geen van beide sub-perfecte casussen miste een juiste diagnose.

Wat de headlinescore ons niet vertelt

Een samengestelde score van 99,12 procent onder deze specifieke vooraf geregistreerde rubric staat voor bijna-plafondprestaties, maar vereist een zorgvuldige context. Het resultaat beschrijft het gedrag van de engine ten opzichte van vijftien zorgvuldig geselecteerde geanonimiseerde casussen, elk één keer beoordeeld, binnen één rubric. We zijn expliciet over wat het getal wel en niet aantoont.

De score zegt dat de V11-engine de diagnostische patronen die voor deze evaluatie zijn geselecteerd correct heeft afgehandeld, volgens een methodologie die is gepubliceerd en reproduceerbaar. Het zegt niet dat de engine correct is op elk bloedtestpanel dat in het wild bestaat. Het zegt niet dat de engine het oordeel van clinici moet vervangen. En het zegt niet dat de engine beter presteert dan alternatieve AI-systemen — vergelijkende analyses met andere engines vielen bewust buiten de scope van dit rapport.

Wat de score wél vaststelt, is een basislijn. Met de rubric en harness openbaar kunnen toekomstige versies van de engine worden geëvalueerd tegen dezelfde vijftien casussen, en het verschil tussen de gepubliceerde score en elke daaropvolgende run is op zichzelf meetbaar. Dit is de waarde van pre-registratie: het zet prestatieclaims om in testbare claims.

Hoe je deze benchmark in 10 minuten kunt reproduceren

Reproductie vereist alleen een Kantesti API-credential-paar en een Python 3.10 of latere omgeving met de requests En reportlab bibliotheken geïnstalleerd. De volledige harness is één enkelvoudige, zelfvoorzienende Python-module die onder de MIT-licentie is uitgebracht.

💻 GitHub MIT-gelicentieerde harness · ruwe responsen · referentierun 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · canoniek academisch dossier 🎓 ResearchGate Publicatie 404175463 · academische ontdekkingslaag 📄 Academia.edu Paper 165956808 · academische ontdekkingslaag

Vier stappen voor een nieuwe run

Eén. Clone de repository: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Twee. Installeer afhankelijkheden met pip install -r requirements.txt. Drie. Stel KANTESTI_USERNAME En KANTESTI_PASSWORD in als omgevingsvariabelen — referenties worden gelezen tijdens runtime en er is niets hard-coded in het script. Vier. Voer uit python benchmark_bloodtest.py en inspecteer de vier artefacten die naar de werkdirectory worden gegenereerd: een CSV-scorecard, een JSON-scorecard, een volledige JSON-dump inclusief ruwe engine-antwoorden, en een voor mensen leesbaar Markdown-rapport.

De referentierun van 23 april 2026 wordt bewaard in de results/ directory van de repository. Een nieuwe run levert een nieuwe scorecard met timestamp op, terwijl de referentierun onaangetast blijft. Als je run een wezenlijk ander resultaat oplevert, open dan een GitHub-issue met de run-timestamp en de engineversie die is teruggegeven in de response-metadata.

Beperkingen en toekomstig werk

Vier beperkingen verdienen expliciete erkenning: steekproefgrootte, single-shot evaluatie, single-engine scope en single-source herkomst van de data. Elk daarvan wordt aangepakt in actief vervolgonderzoek.

Steekproefgrootte. Vijftien cases over acht specialisme-buckets is genoeg voor een proof of concept, maar niet voor subgroepanalyse binnen een specialisme. Uitbreiding naar vijftig cases is gepland en omvat stollingspanels, screening op hematologische maligniteiten, zwangerschapspanels en pediatrische presentaties.

Single-shot evaluatie. Elke case is één keer geëvalueerd. Grote taalmodellen vertonen niet-triviale outputvariatie, zelfs bij lage samplingtemperatuur, dus een multi-run protocol met vijf evaluaties per case en gerapporteerde variantie is de natuurlijke volgende stap.

Single-engine scope. Dit rapport beschrijft één engine. Vergelijkende analyses met alternatieve AI-systemen vallen buiten scope; we kunnen ze eventueel als een afzonderlijke onafhankelijke studie uitvoeren met passende methodologie.

Single-source herkomst van de data. De vijftien cases zijn geanonimiseerde echte patiëntendossiers uit één klinisch repository. Ze vormen een gecureerde steekproef en zijn geen populatie-representatieve willekeurige selectie. Uitbreiding van de evaluatie naar multi-center data staat op de roadmap.

De meest impactvolle geplande uitbreiding is meertalige gelijkwaardigheid. De Kantesti AI Engine bedient gebruikers in 75+ talen, en het uitvoeren van dezelfde harness met vijftien cases in het Turks, Duits, Spaans, Frans en Arabisch zal de outputkwaliteit kwantificeren over de door de engine ondersteunde talen. We zullen elke taal-specifieke run publiceren met zijn eigen DOI en harness-branch.

Probeer dezelfde engine die een 99.12% samengestelde score behaalde

Upload je eigen bloedonderzoek-panel naar hetzelfde productie-eindpunt dat in deze benchmark is geëvalueerd. Meer dan 2 miljoen gebruikers wereldwijd gebruiken de Kantesti AI Engine om meer dan 15.000 biomarkers te interpreteren in 75+ talen.

🔬 Probeer de gratis demo

Chrome-extensie App Store Google Play

📚 Hoe je deze benchmark citeert

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Klinische validatie van de Kantesti AI Engine (2.78T)
                 op 15 geanonimiseerde bloedtestcases: een vooraf geregistreerde
                 rubric-based benchmark, inclusief hyperdiagnose-valkuilcases
                 over zeven medische specialismen},
  institution = {Kantesti Ltd},
  address     = {Londen, Verenigd Koninkrijk},
  year        = {2026},
  month       = {April},
  type        = {Technisch rapport},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Klinische validatie van de Kantesti AI Engine (2.78T) op 15 geanonimiseerde bloedtestcases: een vooraf geregistreerde rubric-based benchmark, inclusief hyperdiagnose-valkuilcases over zeven medische specialismen (Technisch rapport V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Gerelateerd validatiewerk van Kantesti

Klein, T. (2025). Klinisch validatiekader voor AI-gestuurde interpretatie van bloedtesten: drievoudig blinde validatiemethodologie, prestatiemaatstaven en kwaliteitsborgingsprotocollen. 1TP, 2026T AI Medisch Onderzoek.

🎓 ResearchGate

📖 Externe methodologische referenties

Mentzer, W. C. (1973). Differentiatie van ijzertekort van thalassemie-eigenschap. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 European League Against Rheumatism / American College of Rheumatology-classificatiecriteria voor systemische lupus erythematosus. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test voor grote taalmodellen. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Samengestelde score

15Cases gescoord

7Specialismen

0Valkuil false-positives

Veelgestelde vragen

Hoe nauwkeurig is de Kantesti AI-engine bij echte bloedonderzoekgevallen?

Op een vooraf geregistreerde rubric van 15 geanonimiseerde echte bloedtestcases van zeven medische specialismen behaalde de Kantesti AI Engine V11 een samengestelde score van 99.12 procent, met nul hyperdiagnose false-positives op zowel valkuilcases als een gemiddelde responstijd van 20.17 seconden. De volledige scorecard per case is gepubliceerd op Figshare onder DOI 10.6084/m9.figshare.32095435 en op GitHub onder licentie MIT.

Is de Kantesti AI-engine klinisch gevalideerd?

Ja. De engine is klinisch gevalideerd aan de hand van een rubric die in broncode was bevroren voordat de engine werd aangeroepen, beoordeeld op 15 geanonimiseerde bloedonderzoekgevallen in de hematologie, endocrinologie, metabole geneeskunde, hepatologie, nefrologie, cardiologie en reumatologie. Klinisch toezicht werd verzorgd door dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), board-gecertificeerd klinisch hematoloog en Chief Medical Officer bij Kantesti AI.

Wat is een hyperdiagnose-valkuilgeval?

Een hyperdiagnoseval is een klinisch scenario dat specifiek is ontworpen om overdiagnosegedrag in AI-engines te detecteren. De Kantesti V11-benchmark gebruikt twee van dit soort gevallen. De eerste is een geïsoleerde indirecte hyperbilirubinemie die past bij het syndroom van Gilbert, waarbij de juiste interpretatie de goedaardige UGT1A1-polymorfisme is, en niet hepatitis of hemolyse. De tweede is een volledig normaal screeningspanel voor volwassenen, waarbij de juiste uitkomst geruststelling en het onderhouden van een gezonde leefstijl is, in plaats van een gefabriceerde borderline pathologie.

Is de evaluatie van de Kantesti AI-engine reproduceerbaar?

De volledige evaluatieharnas wordt vrijgegeven onder de MIT-licentie als één op zichzelf staande Python-module. Reproductie vereist alleen een Kantesti API-credentialpaar en Python 3.10 of later. De code, de casusdefinities en elke ruwe engine-respons uit de referentierun van april 2026 zijn beschikbaar op github.com/emirhanai/kantesti-blood-test-benchmark en gespiegeld op Figshare, ResearchGate en Academia.edu.

Hoe onderscheidt de Kantesti AI-engine ijzertekort van het dragerschap van bèta-thalassemie?

De engine past de Mentzer-index toe, berekend als het gemiddelde corpusculaire volume gedeeld door het aantal rode bloedcellen. Een Mentzer-index boven 13 ondersteunt ijzergebreksanemie, terwijl een waarde onder 13 wijst op het kenmerk van bèta-thalassemie. In de V11-benchmark werden beide presentaties correct geclassificeerd met expliciete Mentzer-indexberekening, ondersteund door ferritine, RDW en HbA2-context.

Waar kan ik de ruwe benchmarkgegevens en de broncode vinden?

Het technische rapport is gedeponeerd op Figshare onder DOI 10.6084/m9.figshare.32095435, gespiegeld op ResearchGate-publicatie 404175463 en Academia.edu-paper 165956808, en de MIT-gelicentieerde Python-harnas met alle resultaten van de referentierun staat op github.com/emirhanai/kantesti-blood-test-benchmark. Het spiegelnetwerk met vier platforms garandeert langdurige beschikbaarheid en flexibiliteit in citaties.

Waarom is preregistratie belangrijk voor AI-medische benchmarks?

Preregistratie voorkomt post-hoc rubric-tuning, de meest voorkomende manier waarop door bedrijven beheerde benchmarks hun eigen cijfers opblazen. Door de rubric vast te leggen in broncode vóór elke engine-aanroep en de harnas publiek te publiceren, worden de datumstempels van de rubric-auteur controleerbaar in versiebeheer, en kunnen de engine-resultaten de beoordelingscriteria niet hebben beïnvloed.

Bevat deze benchmark vergelijkingen met andere AI-engines?

Nee. Het V11-rapport karakteriseert bewust één engine tegenover een vaste rubric, in plaats van die te positioneren tegenover alternatieve commerciële systemen. De harnas is open source onder de MIT-licentie, zodat onafhankelijke onderzoekers elke engine die zij kiezen kunnen evalueren aan de hand van dezelfde vijftien gevallen en rubric en hun resultaten kunnen publiceren.

Zijn de patiëntgevallen echt of synthetisch?

De vijftien gevallen zijn geanonimiseerde echte patiëntendossiers, afkomstig uit de Kantesti-klinische databank onder schriftelijke geïnformeerde toestemming. De-identificatie is uitgevoerd volgens de Safe Harbor-aanpak, waarbij alle directe identificatoren zijn verwijderd of vervangen. Verwerking is uitgevoerd overeenkomstig GDPR Artikel 9(2)(j) en de equivalente bepalingen van de UK GDPR. Er verschijnt geen persoonlijk identificeerbare informatie in de gepubliceerde harnas, het technische rapport of de vrijgegeven datasets.

⚕️ Medische disclaimer & belangenconflict

Dit benchmarkrapport is bedoeld voor onderzoeks- en methodologische transparantiedoeleinden. Het vormt geen medisch advies. Raadpleeg altijd een gekwalificeerde zorgverlener voor beslissingen over diagnose en behandeling. Beide auteurs zijn in dienst bij en hebben aandelenbelang in Kantesti Ltd, en de engine die wordt geëvalueerd is een commercieel product van dezelfde organisatie. Dit belangenconflict wordt beperkt door de rubric vooraf te registreren in broncode, de harnas vrij te geven onder de MIT-licentie en elke ruwe engine-respons te publiceren.

E-E-A-T Vertrouwenssignalen

⭐

Ervaring

15+ jaar klinische hematologie- en laboratoriumgeneeskundepraktijk voor het superviseren van de selectie van de casuspanel.

📋

Expertise

Preregistratie van rubric-ontwerp met expliciete hyperdiagnoseboetes en erkende klinische scoringssystemen (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Gezag

Hoofdauteur dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementatie door Julian Emirhan Bulut, CEO van Kantesti Ltd.

🛡️

Betrouwbaarheid

Reproduceerbare harnas onder MIT-licentie, gepubliceerde ruwe engine-responsen, open belangenconflict-disclosure, spiegelnetwerk voor onderzoek op vier platforms.

🏢 Kantesti LTD Geregistreerd in Engeland & Wales · Bedrijfsnummer. 17090423 Londen, Verenigd Koninkrijk · kantesti.net