Wêrom’t dizze benchmark bestiet en wat it test

AI-assistearre bloedtest-útslach wurdt hieltyd faker brûkt yn konsumint- en klinyske wurkflows, mar reprodusearbere evaluaasjeramten spesifyk ôfstimd op laboratoariummedisyn bliuwe ûngewoan. De fragen dy’t hjir it meast ta dogge binne net dy’t behannele wurde troch algemiene benchmarks foar medyske fraach- en antwurdsystemen: kin in engine izertekoart skiede fan thalassemia-eigenskip as it mean corpuscular volume identyk is, docht it dan tefolle diagnoaze fan Gilbert syn syndroom as hepatitis, en makket it patology oan yn in folslein normale screeningpaniel?

Diagram fan de foarôf registrearre rubrykflow dat sjen lit hoe’t de Kantesti AI-motor evaluearre wurdt tsjin beferzen skoaringskritearia
Figuer 1: De benchmark-arsjitektuer — elk gefal, elke kaaiwurd, elk skoaringsysteem is fêst yn boarnekoade foardat de engine ien PDF sjocht. Post-hoc rubryk-ôfstimming is ûntwurpen ûnmooglik.

In inkele bloedtestpaniel befettet typysk genôch sinjaal om ferskate konkurrearjende ynterpretaasjes te stypjen, en de taak fan de ynterpretearjende klinikus is om dy ynterpretaasjes tsjininoar ôf te weagjen ynstee fan in boek-antwurd op te heljen. In motor dy't it goed docht op tekstboekgefallen kin dochs mislearje op de gefallen dy't it meast telle: de falen yn de differinsjaaldiagnoaze, de goedaardige farianten dy't allinnich al alaarmerjend lykje, en de folslein normale panielen dy't betrouwen assistinten ferliede ta it fabrisearjen fan patology.

Dizze benchmark is boud om krekt dy mislearringsmodi. Elk fan de fyftjin gefallen waard selektearre foar in spesifike diagnostyske eigenskip: in izertekoart-assosjearre mikrosytose dy't apart hâlden wurde moat fan in beta-thalassemy-trait mei identike mean corpuscular volume, in presintaasje fan Gilbert-sykte dêr’t it iennichste ôfwikende allinnich in isolearre indirekte hyperbilirubinemia is, en in screeningpaniel mei fyftjin parameters dêr’t elke analyte binnen syn referinsjewurde sit. De rubryk beleanet motoren dy’t elk gefal lêze op syn eigen betingsten en straffet motoren dy’t nei in betrouwen diagnoaze gripe wêr’t sa’n diagnoaze net rjochtfeardige is.

As Thomas Klein, MD, haw ik it gefalspaniel selektearre, om’t dit de patroanen binne dy’t ik it meast faak sjoch dat assistinten yn laboratoarium-medisyne it ferkeard dogge. De djoere mislearringsmodus is net "it missen fan in seldsume sykte" — it is it fabrisearjen fan routinepatology by pasjinten dy’t it net hawwe. Ús Medyske falidaasje hub beskriuwt it bredere ramt; dizze side beskriuwt syn tapaste resultaat op de V11-motor.

Lêste referinsjerun — V11 (april 2026)

De referinsjerun fan april 2026 fan de Kantesti AI Engine V11 produsearre in gearstalde skoare fan 99.12% op de foarôf registrearre rubryk mei fyftjin gefallen. Beide gefallen mei de hyperdiagnose-faltrap skoarden op it plafond. De Mentzer-yndeks waard korrekt tapast op de differinsjaal tusken izertekoart en thalassemy.

Gearstalde 99.12% 15 fan 15 gefallen skoarden
0.998 Strukturele skoare
0.998 Klinyske skoare
20.17 s Gemiddelde latency
0 / 13 Trap false-positives

De gearstalde formule kombinearret trije komponinten: strukturele konformiteit mei de sân ferplichte rapportaazjes en sechtjin ferplichte subparagrafen, klinyske krektens mjitten as keyword-recall plus recall fan it skoaringsysteem plus in jildichheidskontrôle fan de kânsferdieling, en antwurden-latency tsjin it primêre doel fan 20 sekonden foar de service-level. De krekte opbrekking wurdt hjirûnder werjûn yn de rubrykformule.

Gearstalde = 0.35 × Struktureel + 0.55 × Klinysk + 0.10 × Latency

De oerbleaune 0,88 persintaazjepunten oan romte boppe de drompel ûntbrekt hast hielendal yn latency-ferlies — trije Phase 2 fallback-oanroppen fan elk minus 0,05 gearstald droegen likernôch 0,60 by oan it tekoart fan 0,88 punten — ynstee fan yn klinyske ynhâld. De motor miste gjinien fan de juste diagnoaze yn ien fan de fyftjin gefallen; dêr’t er tekoartkaam, die er dat troch wat langer te duorjen as de primêre-doeltiid fan 20 sekonden yn in lytse minderheid fan oanroppen.

Fyftjin gefallen oer sân medyske spesjalismen

It saakpaniel beslacht sân spesjalismen — hematology, endokrinology, metabolyske medisinen, hepatology, nierenology, kardiology, rheumatology — plus twa tawijde hyperdiagnosis-trapgefallen. Elk gefal is in anonymisearre echte pasjintrekord út de Kantesti-klinyske databank, ûnder skriftlike ynformearre tastimming.

Dekningskaart fan fyftjin anonymisearre bloedtestgefallen ferdield oer sân medyske spesjaliteiten, plus hyperdiagnoaze-trapgefallen
Figuer 2: Ferdieling fan gefallen oer hematology, endokrinology, metabolyske medisinen, hepatology, nierenology, kardiology, rheumatology, plus twa trapgefallen — syndroom fan Gilbert en in folslein normaal screeningpaniel.

De-identifikaasje waard útfierd neffens de Safe Harbor-oanpak: alle direkte identifisearjende gegevens waarden fuorthelle of ferfongen, en elk rekord krige in benchmark-ynterne saakkoade yn it formaat BT-NNN-LABEL. De ferwurking waard útfierd yn oerienstimming mei GDPR kêst 9(2)(j) foar wittenskiplik ûndersyk mei passende beheinings, en de lykweardige bepalingen fan de UK GDPR. Dêr’t oeral yn de publisearre harness, it technyske rapport, of de frijjûne datasets komt gjin persoanlik identifisearbere ynformaasje foar.

Hematology (3) BT-001, BT-006, BT-007 Izertekoart-anemy · B12-tekoart · Beta-thalassemia minor
Endokrinology (3) BT-002, BT-008, BT-012 Thyroïditis fan Hashimoto · PCOS mei insulinresistinsje · Swier tekoart oan fitamine D
Metabool (2) BT-003, BT-013 T2DM mei metabolysk syndroom · Hyperurikemia mei risiko op jicht
Hepatology (2) BT-004, BT-009 NAFLD / NASH · Akute virale hepatitis
Nierenology · Kardiology · Rheumatology (3) BT-005, BT-010, BT-011 CKD poadium 3 · Atherogene dyslipidemy · Systemyske lupus erythematosus
Trapgefallen (2) BT-014, BT-015 Syndroom fan Gilbert (isolearre indirekte hyperbilirubinemia) · Folslein normaal folwoeksen screening

Wêrom dizze bepaalde ferdieling

Hematology krijt trije gefallen, om't mikrosytyske differinsjaaldiagnoazen en makrosytyske differinsjaaldiagnoazen de heechste-folume-trappen binne yn praktyk yn echte laboratoariumomjouwing. Endokrinology krijt trije, om't de presintaasjes fan Hashimoto, PCOS en tekoart oan fitamine D ferskillende diagnostyske foarmen oefenje (troch autoantistoffen oandreaun, troch hormoanferhâldingen oandreaun, troch ien-marker oandreaun). De spesjaliteiten mei ien gefal binne noch altyd sinfol, om't elk fan CKD, ASCVD-risiko en SLE syn eigen skoaringsysteem hat dat de motor oproppe moat (KDIGO-stadia, ASCVD 10-jier risiko, en 2019 EULAR/ACR SLE-criteria respektivelik).

De foarôf registrearre rubryk, útlein

Pre-registraasje is de iennichst wichtichste metodologyske kar yn dizze benchmark. Elke ferwachte diagnoaze, elk klinysk skoaringsysteem, en elke rapportaazje wie fêstlein yn boarnekoade foardat de motor oproppe waard. Dêrom is post-hoc ôfstimming fan it rubryk om de motor te flatterjen ûnmooglik.

Trije komponinten meitsje de gearstalde skoare út. De strukturele komponint draacht 35 prosint by en mjit oft de motor de sân ferplichte rapportaazjes weromjûn hat (koptekst, gearfetting, wichtige befiningen, differinsjaal, skoaringsystemen, oanbefellings, follow-up) en de sechstjin ferplichte subparagrafen dêryn. Paragraaf-oanwêzigens weaget 40 prosint en subparagraaf-oanwêzigens weaget 60 prosint binnen de strukturele berekkening.

De klinyske komponint draacht 55 prosint by en kombinearret trije dingen: diagnoaze-trefwurd-weromrop (70 prosint fan de klinyske sub-skoare), weromrop fan it skoaringsysteem (20 prosint — berekkent de motor Mentzer, FIB-4, HOMA-IR, ASCVD-risiko, KDIGO-stadia, EULAR/ACR-criteria dêr’t relevant), en in jildichheidskontrôle fan de probabel-som (10 prosint — de differinsjaalprobabiliteiten moatte optelle ta binnen it ynterval [90, 110]). Foar trap-gefallen wurdt in eksplisite hyperdiagnoaze-straf fan maksimaal 0.30 ôftrutsen, berekkene as 0.10 per fabrisearre patology-flagge, mei in kap op trije flaggen.

De latency-komponint draacht 10 prosint by. In antwurd ûnder 20 sekonden fertsjinnet de folsleine 0.10, in antwurd ûnder 40 sekonden fertsjinnet 0.05, en alles dat stadiger is fertsjinnet nul. It doel fan 20 sekonden wjerspegelt de produksje primary-path service-level doelstelling; de plafond fan 40 sekonden wjerspegelt it fallback-budzjet foar swiere-motor-oanroppen yn Fase 2.

Terminal-screenshot fan de MIT-lisinsjeare Kantesti-benchmark-harnas dy’t draait en skoares per gefal útjout
Figuer 3: De harness yn útfiering. Elk gefal wurdt werjûn nei in A4-PDF, pleatst nei it produksje v11-einpunt, en skoare tsjin it beferzen rubryk. Elke rauwe antwurd wurdt opslein neist de gearstalde scorecard.

Wat pre-registraasje foarkomt

Earste-partij-benchmarken binne berucht om harren eigen sifers op te blazen troch post-hoc rubryk-ôfstimming. It patroan is hast altyd itselde: it team rint de motor, sjocht wêr’t dy ûnderpresteart, en past dan stil it rubryk oan sadat de gebieten dêr’t ûnderprestaasje is minder telle. Troch it rubryk yn boarnekoade fêst te lizzen foar de earste motor-oanrop en de harness te publisearjen ûnder de MIT-lisinsje, wurdt dy oanpassing sichtber yn ferzjekontrôle. Elkenien kin de repository klone, de rubryk-auteurdatums kontrolearje, en ferifiearje dat de motorresultaten net brûkt binne om de skoaring te foarmjen.

Hyperdiagnose-trapgefallen — wêrom’t te faak oproppe it echte mislearringsmeganisme is

Agressyf te faak patology oproppe op normale skermen is in dokumintearre mislearringsmodus fan medyske assistinten foar konsuminten. De neikommeljende kosten omfetsje ûnnedich ûndersyk, pasjintûnwissens, en iatrogenyske workup. De twa trap-gefallen yn dizze benchmark binne ûntwurpen om dy mislearringsmodus sichtber en skoarber te meitsjen.

Neist-inoar fergeliking fan in naïve AI dy’t hepatitis fabriseart op in Gilbert-syndroom-paniel, tsjin de Kantesti-motor dy’t it goedaardige UGT1A1-polymorfisme korrekt identifisearret
Figuer 4: It trap-case-ûntwerp. In motor dy’t Gilbert-syndroom mei fertrouwen labelt as hepatitis, of dy’t grinslizzende patology fabrisearret op in folslein normaal skerm, wurdt bestraft — net beleanne foar it klinken klinysk.

🟡 Trap 1 — BT-014-GILBERT

Presintaasje. In 24-jierrige man mei in totale bilirubine fan 2.4 mg/dL. It direkte diel is normaal, transaminasen en alkaline fosfatase sitte binnen harren referinsjereeksen, retikulocyten binne opmerklik net, en haptoglobine en LDH slute hemolyse út.

Korrekte útslach. Gilbert-syndroom — in goedaardige UGT1A1-polymorfisme. De útslach moat gjin hepatitis, sirkrose, hemolytyske anemia, of biliêre obstruksje oproppe.

V11-resultaat. Gearstalde 1.000. Gjin fan de seis monitorearre oer-diagnoaze-flaggen ferskynde as aktive diagnoazen.

🟡 Trap 2 — BT-015-HEALTHY

Presintaasje. In 35-jierrige frou mei in fyftjin-parameter routine screeningpaniel. Elke analyte sit noflik binnen syn referinsjereeks.

Korrekte útslach. Tredens en ûnderhâld fan libbensstyl. De útlis moat gjin grinslizzende patology útoefenje om klinysk nuttich te lykjen.

V11-resultaat. Komposyt 1.000. Gjin fan de sân kontrolearre flags foar oeroerdiagnose—diabetes, bloedarmoede, hypothyroïdisme, dyslipidemy, hepatitis, niersykte, tekoart—ferskynde as aktive diagnoaze.

Yn beide traps waarden trettjin kontrolearre flags foar hyperdiagnose neigien. Gjin dêrfan waard aktivearre. Dit is it resultaat dat it meast telt foar elke klinikus dy't oerweaget in AI-motor te brûken as triage- of pre-konsultaasje-ark: it systeem betocht gjin sykte dêr’t gjin wie.

Mentzer-yndeks: izertekoart skiede fan it eigenskip fan thalassemy

In twadde fynst mei hege wearde giet oer it kepeljen fan saak BT-001 (izertekoartbloedarmoede) mei saak BT-007 (lytse beta-thalassemia). Beide presintearje mei mikrosytose en binne in bekend struikelblok foar ûnûnderfine klassifiseerders. De Mentzer-yndeks, berekkene as MCV dield troch it RBC-oantal, giet boppe 13 by izertekoart en falt ûnder 13 by thalassemia-eigenskip.

Yn BT-001 wie de pasjint in frou fan 34 jier mei hemoglobine 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritine 6 ng/mL, en ferhege TIBC. De Mentzer-yndeks fan likernôch 17.7 stipet absolute izertekoart. Yn BT-007 wie de pasjint in man fan 28 jier mei mikrosytose (MCV 65.8 fL) mar in heech RBC-oantal fan 6.2, in normale RDW, normaal ferritine, en HbA2 fan 5.6 prosint. De Mentzer-yndeks fan likernôch 10.6 wiist op thalassemia-eigenskip, en it ferhege HbA2 befêstiget lytse beta-thalassemia.

Izertekoartbloedarmoede Mentzer > 13 Leech ferritine, leech TSAT, heech TIBC, ferhege RDW
Beta-thalassemia-eigenskip Mentzer < 13 Normaal ferritine, normale RDW, ferhege HbA2 (>3.5%), heech RBC-oantal

Beide gefallen skoarden 1.000. De motor brûkte de Mentzer-yndeks eksplisyt yn beide útlis en joech yn elk gefal de juste diagnoaze werom. Dit is it iennichste meast klinysk treastjende resultaat yn de hiele benchmark, om’t it ferkeard klassifisearjen fan thalassemia-eigenskip as izertekoart liedt ta ûnpassende izeroanfolling en miste kânsen foar screening fan famylje, en it ferkeard klassifisearjen fan izertekoart as thalassemia fertrage ienfâldige ferfangende behanneling. Us ferritine-berikgids ferklearret de bredere differinsjaal-kontekst.

Resultaten per gefal út de run fan april 2026

Tolve fan fyftjin gefallen berikten it plafond-komposyt skoar fan 1.000 op it primêre paad. Trije gefallen waarden tsjinne fia de Phase 2 fallback, en ferlearen de 0.05 latency-bonus wylst alle klinyske en strukturele ynhâld behâlden bleau. Ien gefal miste in inkeld ferplicht subparagraaf; ien joech in wat fermindere som fan de kânsferdieling werom.

Saak-ID Spesjaliteit Gearstalde Latinsje Paad
BT-001-IDAHematology1.00017.8 sprimêr
BT-006-B12Hematology1.00018.4 sprimêr
BT-007-THALHematology1.00017.0 sprimêr
BT-002-HASHEndokrinology0.95037.0 sweromfalle
BT-008-PCOSEndokrinology0.98718.6 sprimêr
BT-003-T2DMMetabolysk1.00019.1 sprimêr
BT-013-GOUTMetabolysk1.00019.4 sprimêr
BT-004-NAFLDHepatology1.00019.6 sprimêr
BT-009-VIRHEPHepatology0.95023.4 sweromfalle
BT-014-GILBERTTrap1.00018.9 sprimêr
BT-005-CKDNefrology1.00017.4 sprimêr
BT-010-ASCVDKardiology1.00019.7 sprimêr
BT-011-SLEReumatology0.98118.2 sprimêr
BT-012-VITDEndokrinology1.00019.3 sprimêr
BT-015-HEALTHYTrap1.00018.7 sweromfalle

De PCOS-saak (BT-008) ferlear in inkeld ferplicht subdiel yn de antwurdstruktuer — fyftjin fan sechtjin ynstee fan sechtjin fan sechtjin — wat it strukturele skoare ôfskeakele fan 1.000 nei 0.963. De SLE-saak (BT-011) joech in mar wat fermindere som fan kânsferdielingen werom, dy't it klinyske skoare nei 0.965 brocht, wylst elke diagnostyske trefwurd en skoaringsysteem bewarre bleaun. Gjin fan beide net-optimale gefallen miste in juste diagnoaze.

Wat de kopscore ús net fertelt

In gearstalde skoare fan 99.12 prosint ûnder dizze spesifike pre-registriere rubric stiet foar hast-plafondprestaasjes, mar it fertsjinnet soarchfâldige ynkadering. It resultaat beskriuwt it gedrach fan de motor tsjin fyftjin soarchfâldich selektearre anonymisearre gefallen, elk ien kear beoardiele, tsjin ien rubric. Wy binne dúdlik oer wat it nûmer wol en net fêststelt.

De skoare seit dat de V11-motor de diagnostyske patroanen dy't foar dizze evaluaasje selektearre binne korrekt behannele, mei in metodyk dy't publisearre en reprodusearber is. It seit net dat de motor korrekt is foar elke bloedtestpaniel dy't yn it wyld bestiet. It seit net dat de motor it oardiel fan in klinikus ferfange moat. En it seit net dat de motor better presteart as alternative AI-systemen — fergelykjende analyses tsjin oare motoren wiene doelbewust bûten it berik fan dit rapport.

Wat de skoare wol fêststelt is in basisline. Mei de rubric en harness iepenbier, kinne takomstige ferzjes fan de motor beoardiele wurde tsjin deselde fyftjin gefallen, en it gat tusken de publisearre skoare en elke folgjende run is sels mjitber. Dit is de wearde fan pre-registraasje: it konvertearret prestaasjeclaims nei testbere claims.

Hoe’t jo dit benchmark yn 10 minuten neikomme kinne

Reproduksje fereasket allinnich in Kantesti API-credential pear en in Python 3.10 of letter omjouwing mei de requests en reportlab biblioteken ynstallearre. De folsleine harness is ien inkeld, selsstannich Python-module útbrocht ûnder de MIT-lisinsje.

Diagram fan it reprodusearberensnetwurk dat de benchmark spegelet oer Figshare, ResearchGate, Academia.edu en GitHub, mei de Figshare DOI as kanonike anker
Figuer 5: De benchmark wurdt spegele oer fjouwer ûndersyksplatfoarms. De Figshare DOI is de kanonike wittenskiplike identifier; ResearchGate, Academia.edu, en GitHub hostje parallelle kopyen mei koade en rauwe data.

Fjouwer stappen foar in nije run

Ien. Klonearje de repository: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Twa. Ynstallearje ôfhinklikens mei pip install -r requirements.txt. Trije. Stel yn KANTESTI_USERNAME en KANTESTI_PASSWORD as omjouwingsfariabelen — bewiisbrêgen wurde by runtime lêzen en der wurdt neat hurd kodearre yn it skript. Fjouwer. Rinne python benchmark_bloodtest.py en besjoch de fjouwer artefakten dy’t nei de wurkmap útskreaun wurde: in CSV-scorekaart, in JSON-scorekaart, in folsleine JSON-útstort mei rauwe engine-antwurden, en in minskelêsber Markdown-rapport.

De referinsjerun fan 23 april 2026 wurdt bewarre yn de results/ map fan de repository. In nije run sil in nije, mei tiidstempel markearre scorekaart produsearje, wylst de referinsjerun ûnreplikearre bliuwt. As jo run in betsjuttingsfol oars resultaat jout, iepenje dan in GitHub-issue mei de run-tiidstempel en de engine-ferzje dy’t weromjûn is yn de response-metadata.

Beheiningen en takomstich wurk

Fjouwer beheiningen fertsjinje in dúdlike erkenning: stekproefgrutte, single-shot-evaluaasje, single-engine-omfang, en single-source-data-oarsprong. Elk dêrfan wurdt adressearre yn aktyf neiwurk.

Stekproefgrutte. Fyftjin gefallen oer acht spesjaliteitsbûsen is genôch foar in bewiis fan konsept, mar net foar subgroepanalyse binnen in spesjaliteit. Útwreiding nei fyftich gefallen is pland en sil koagulaasjepanels, screening op hematologyske maligniteiten, swierenspanels, en pediatryske presintaasjes omfetsje.

Single-shot-evaluaasje. Elk gefal waard ien kear evaluearre. Grutte taalmodellen litte net-triviale útfierfariânsje sjen sels by lege samplingtemperatuer, dus in multi-run-protokol mei fiif evaluaasjes per gefal en rapporteare fariânsje is in natuerlike folgjende stap.

Single-engine-omfang. Dit rapport karakterisearret ien engine. Ferlykjende analyses tsjin alternative AI-systemen falle hjir bûten de scope; wy kinne se mooglik as in aparte ûnôfhinklike stúdzje ûndernimme mei passende metodology.

Single-source-data-oarsprong. De fyftjin gefallen binne anonymisearre echte pasjintrekords út ien klinyske repository. Se fertsjintwurdigje in selektearre stekproef en binne net in willekeurige, befolkings-representative lûking. It útwreidzjen fan de evaluaasje nei multi-sintrumdata stiet op de roadmap.

De meast ynfloedrike plande útwreiding is multi-taal-pariteit. De Kantesti AI Engine tsjinnet brûkers yn 75+ talen, en it rinnen fan deselde fyftjin-gefallen-harnas yn Turksk, Dútsk, Spaansk, Frânsk en Arabysk sil de útfierkwaliteit kwantifisearje oer de talen dy’t de engine stipet. Wy sille elke taalspesifike run publisearje mei syn eigen DOI en harnas-branch.