Kantesti AI bloedtestbenchmark — klinyske validaasje

Automatyske benchmark Foarôf registrearre benchmark V11 Twadde update — april 2026 MIT-lisinsje Reprodusearber · Iepen gegevens 100K syntetyske kohort · 127 lânlabels

99.80% gearstalde skoare op in foarôf registrearre rubryk — V11 twadde update, kohort fan 100,000 gefallen oer 127 lânlabels

In foarôf registrearre, rubryk-basearre automatyske technyske benchmark fan de Kantesti-motor op 100,000 syntetysk generearre bloedtestgefallen mei 127 lânlabels. It mjit konformiteit fan útfier, net diagnostyske krektens. De rubryk waard beferzen yn boarnekoade foar de earste V11-útjefte en bleau byte-identyk foar dizze twadde update; de evaluaasjefasiliteit is MIT-lisinsjeare; in stratifeare willekeurige stekproef fan rauwe motor-antwurden wurdt publisearre foar ynspeksje. Alle gefallen binne syntetysk; der wurdt gjin persoanlike gegevens brûkt.

📖 ~14 minuten 📅 Publisearre op 23 april 2026 · Bywurke op 26 april 2026 (V11 Twadde update) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publisearre: 23 april 2026 🔄 V11 Twadde update: 26 april 2026 🩺 Medysk besjoen: 26 april 2026 ✅ Foarôf registrearre rubryk (byte-identeitysk) 🔓 Iepen koade & gegevens

Dizze automatyske benchmark is ûntwurpen en útfierd troch Julian Emirhan Bulut, Senior AI-yngenieur en CEO fan Kantesti Ltd. De skoaring is folslein automatysk yn boarnekoade; it skoaringskader en it saakpaniel binne ûntwikkele mei klinyske ynput fan Dr. Thomas Klein, MD, Chief Medical Officer by Kantesti AI, en besjoen troch de Medyske Advysried fan Kantesti AI. It is in sels-útfierde ynterne benchmark, net in ûnôfhinklike of troch peers besjoen automatyske technyske benchmark.

Haadskriuwer & klinysk tafersjoch

Thomas Klein, dokter

Haadmedysk Offisier, Kantesti AI

Dr. Thomas Klein is in board-sertifisearre klinysk hematolooch en internist mei mear as 15 jier ûnderfining yn laboratoariummedisinen. As Chief Medical Officer by Kantesti AI selektearre hy it gefallenset foar dizze benchmark, besjoen de klinyske ynhâld en ferwachte antwurden fan de syntetyske gefallen, en goedkard de foarôf registrearre rubryk foarôfgeand oan de earste motor-oanrop.

ORCID 0009-0009-1490-1321 Undersykspoarte Google Scholar

Co-auteur & ymplemintaasje

Julian Emirhan Bulut

Senior AI-yngenieur & CEO, Kantesti Ltd

Julian Emirhan Bulut is de oprjochter en CEO fan Kantesti Ltd. Hy ûntwurp en ymplementearre it evaluaasjearranzjemint — ynklusyf de SQL-case-loader tafoege foar de V11 Twadde update — die de API-yntegraasje, útfierde sawol de V11 earste referinsjerun as de V11 Twadde update-run fan 100.000 gefallen, en tariede de statistyske aggregaasje. Oprjochter fan it platfoarm sûnt 2019.

GitHub Oer Kantesti

⚡ Koarte gearfetting V11 Twadde update — 26 april 2026

99.80%-komposysjescore op 100,000 syntetyske bloedtestgefallen oer acht medyske spesjalismen en 127 lânlabels (V11 twadde update).
Gjin falsk-positive hyperdiagnoaze oer 87.412 monitorearre trap-case flag-mooglikheden — deselde trap-case-metoade as yn de V11 earste, skaleare nei populaasjenivo.
Foarôf registrearre rubryk beferzen yn boarnekoade foar de V11 earste run en bleau byte-identeitysk foar dizze Twadde update — der wie gjin mooglikheid ta post-hoc ôfstimming.
Mentzer-yndeks korrekt tapast om izertekoart-anemy fan beta-thalassemia minor te ûnderskieden yn de V11 earste útjefte; it differinsjaal gedrach waard behâlden op populaasjeskaal.
Allinnich produksje-eindpunt — gjin befoarrjochte routing, evaluearre krekt sa’t in beteljende klant der tagong ta krijt.
13.26 sekonden gemiddelde latency ein-oan-ein (berik 9.0–16.94 s), mei alle 100.000 gefallen dy't op de primêre paad fan de motor foltôge.
Syntetyske kohort. 100,000 syntetysk generearre testgefallen laden by runtime. Der wurdt gjin syntetyske gegevens en gjin persoanlike gegevens brûkt.
MIT-lisinsje harness frijjûn op GitHub mei in stratifisearre willekeurige stekproef (n = 201) fan folsleine rauwe motor-antwurden foar ynspeksje.
Figshare DOI: 10.6084/m9.figshare.32095435 · Spegele op ResearchGate, Academia.edu, GitHub.

Wêrom’t dizze benchmark bestiet en wat it test

AI-assistearre bloedtest-útslach wurdt hieltyd faker brûkt yn konsumint- en klinyske wurkflows, mar reprodusearbere evaluaasjeramten spesifyk ôfstimd op laboratoariummedisyn bliuwe ûngewoan. De fragen dy’t hjir it meast ta dogge binne net dy’t behannele wurde troch algemiene benchmarks foar medyske fraach- en antwurdsystemen: kin in engine izertekoart skiede fan thalassemia-eigenskip as it mean corpuscular volume identyk is, docht it dan tefolle diagnoaze fan Gilbert syn syndroom as hepatitis, en makket it patology oan yn in folslein normale screeningpaniel?

In inkele bloedtestpaniel befettet typysk genôch sinjaal om ferskate konkurrearjende ynterpretaasjes te stypjen, en de taak fan de ynterpretearjende klinikus is om dy ynterpretaasjes tsjininoar ôf te weagjen ynstee fan in boek-antwurd op te heljen. In motor dy't it goed docht op tekstboekgefallen kin dochs mislearje op de gefallen dy't it meast telle: de falen yn de differinsjaaldiagnoaze, de goedaardige farianten dy't allinnich al alaarmerjend lykje, en de folslein normale panielen dy't betrouwen assistinten ferliede ta it fabrisearjen fan patology.

Dizze benchmark is boud om krekt dy mislearringsmodi. Elk fan de fyftjin gefallen waard selektearre foar in spesifike diagnostyske eigenskip: in izertekoart-assosjearre mikrosytose dy't apart hâlden wurde moat fan in beta-thalassemy-trait mei identike mean corpuscular volume, in presintaasje fan Gilbert-sykte dêr’t it iennichste ôfwikende allinnich in isolearre indirekte hyperbilirubinemia is, en in screeningpaniel mei fyftjin parameters dêr’t elke analyte binnen syn referinsjewurde sit. De rubryk beleanet motoren dy’t elk gefal lêze op syn eigen betingsten en straffet motoren dy’t nei in betrouwen diagnoaze gripe wêr’t sa’n diagnoaze net rjochtfeardige is.

As Thomas Klein, MD, haw ik it gefalspaniel selektearre, om’t dit de patroanen binne dy’t ik it meast faak sjoch dat assistinten yn laboratoarium-medisyne it ferkeard dogge. De djoere mislearringsmodus is net "it missen fan in seldsume sykte" — it is it fabrisearjen fan routinepatology by pasjinten dy’t it net hawwe. Ús Medyske falidaasje hub beskriuwt it bredere ramt; dizze side beskriuwt de V11 earste proof-of-concept en de V11 twadde update dy't it skaalde nei 100,000 syntetyske gefallen lutsen út in syntetyske gefallenset oer 127 lânlabels — mei deselde skoaringsrubryk, byte-identyk, sûnder tastimming foar post-hoc ôfstimming.

Lêste referinsjerun — V11 Twadde Update (26 april 2026)

De referinsjerun fan de V11 Twadde Update fan 26 april 2026 levere in gearstalde skoare fan 99.80% op de selde foarôf registrearre rubryk brûkt yn de V11 earste release, evaluearre op 100,000 syntetyske gefallen lutsen út de Kantesti syntetyske gefallenset en omfiemjend 127 lânlabels en 75+ talen. Elk gefal wie foltôge op it primêre paad fan de motor; trap-case hyperdiagnose-flag-aktivearrings bleaunen op 0 / 87,412. De orizjinele V11-run fan 23 april 2026 omfette 15 troch minsken selektearre gefallen (gearstalde 99.12%) en validearre de rubryk; de Twadde Update hâldt dy rubryk byte-identyk en wreidet de evaluaasje út nei in kohort op populaasjeskaal.

Gearstalde 99.80% 100.000 fan 100.000 gefallen skoarden

1.000 Strukturele skoare

0.996 Klinyske skoare

13.26 s Gemiddelde latency

0 / 87,412 Trap false-positives

De gearstalde formule kombinearret trije komponinten: strukturele konformiteit mei de sân ferplichte rapportaazjes en sechtjin ferplichte subparagrafen, ynhâldsakkuraatens mjitten as keyword-recall plus recall fan it skoaringsysteem plus in jildichheidskontrôle fan de kânsferdieling, en antwurden-latency tsjin it doel foar service-level op it primêre paad. De krekte opbou wurdt hjirûnder werjûn yn de rubrykformule — gjin fan dizze gewichten of sub-rubryken waarden oanpast foar de Twadde Update.

Gearstalde = 0.35 × Struktureel + 0.55 × Klinysk + 0.10 × Latency

De oerbleaune 0.20 persintaazjepunten fan romte dekomponearret hast hielendal yn de klinyske sub-skoare — in lyts part fan de gefallen (benammen yn Hepatology en Rheumatology) hie ien ferwachte kaaiwurd fan it skoaringsysteem ûntbrekkend yn de ynterpretaasje fan de motor, nettsjinsteande dat de diagnostyske ynhâld korrekt wie. Gjin gefal yn it 100.000-case Twadde-Update-kohort miste de diagnoaze sels. De latency ferbettere fan in gemiddelde fan 20.17 s yn de V11 earste release nei 13.26 s yn de Twadde Update, wat wjerspegelet produksje-motoroptimalisaasjes tusken de twa runs; de rubryk, de skoaringskoade, en it API-einpunt binne net feroare.

Gearstalde skoaren per label fariearren fan 0.9971 oant 0.9985 oer de 30 meast-foarkommende lânlabels. De lange sturt fan 97 ekstra labels (≈7,300 gefallen kombinearre) liet gjin systematyske efterútgong sjen. De meast foarkommende labels neffens oantal gefallen wiene de Feriene Steaten (10,500), Brazylje (9,500), Spanje (9,000), Itaalje (8,000), Dútslân (7,800), Frankryk (7,400), Portugal (5,800), Türkiye (3,400), it Feriene Keninkryk (2,900), en Meksiko (2,500).

Fan 15 gefallen oant 100,000: kohort-evolúsje oer 127 lânlabels

It oarspronklike V11-gefallenset omfette sân spesjalismen — hematology, endokrinology, metabolike medisinen, hepatology, nefrology, kardiology, reumatology — plus twa tawijde hyperdiagnose-trapgefallen, mei elk gefal in syntetysk generearre bloedtestpaniel. De V11 twadde update wreidet de evaluaasje út nei 100,000 syntetyske gefallen oer 127 lânlabels, ferdield oer acht spesjalismen (de orizjinele sân plus in tawijd bucket foar ynterne medisinen dy’t it trap-subset opnimt). Deselde skoaringsrubryk wurdt byte-identyk tapast oer beide runs.

Om't alle gefallen syntetysk generearre binne, binne der gjin echte identifiers om te ferwiderjen en is der gjin persoanlike gegevens belutsen. Elk syntetysk gefal draacht in benchmark-ynterne gefal-koade (BT-NNN-LABEL yn de V11 earste set, in stabile case_uid yn de twadde update). Der ferskynt nergens persoanlike gegevens yn de publisearre fasiliteit, it technyske rapport, of de útbrochte datasets.

V11 earste release — 15 troch minsken selektearre gefallen

It orizjinele V11-kasuspaneel waard mei de hân gearstald troch dr. Thomas Klein om de diagnostyske patroanen te oefenjen dêr’t laboratoarium-medyske assistinten it meast faak ferkeard op dogge. Elk fan de fyftjin gefallen waard selektearre foar in spesifike diagnostyske eigenskip, hjirûnder neamd.

Hematology (3) BT-001, BT-006, BT-007 Izertekoart-anemy · B12-tekoart · Beta-thalassemia minor

Endokrinology (3) BT-002, BT-008, BT-012 Thyroïditis fan Hashimoto · PCOS mei insulinresistinsje · Swier tekoart oan fitamine D

Metabool (2) BT-003, BT-013 T2DM mei metabolysk syndroom · Hyperurikemia mei risiko op jicht

Hepatology (2) BT-004, BT-009 NAFLD / NASH · Akute virale hepatitis

Nierenology · Kardiology · Rheumatology (3) BT-005, BT-010, BT-011 CKD poadium 3 · Atherogene dyslipidemy · Systemyske lupus erythematosus

Trapgefallen (2) BT-014, BT-015 Syndroom fan Gilbert (isolearre indirekte hyperbilirubinemia) · Folslein normaal folwoeksen screening

Wêrom dizze bepaalde ferdieling

Hematology krijt trije gefallen, om't mikrosytyske differinsjaaldiagnoazen en makrosytyske differinsjaaldiagnoazen de heechste-folume-trappen binne yn praktyk yn echte laboratoariumomjouwing. Endokrinology krijt trije, om't de presintaasjes fan Hashimoto, PCOS en tekoart oan fitamine D ferskillende diagnostyske foarmen oefenje (troch autoantistoffen oandreaun, troch hormoanferhâldingen oandreaun, troch ien-marker oandreaun). De spesjaliteiten mei ien gefal binne noch altyd sinfol, om't elk fan CKD, ASCVD-risiko en SLE syn eigen skoaringsysteem hat dat de motor oproppe moat (KDIGO-stadia, ASCVD 10-jier risiko, en 2019 EULAR/ACR SLE-criteria respektivelik).

V11 twadde update — 100,000 syntetyske gefallen oer 127 lânlabels

De twadde update ferfangt de oarspronklike V11 hard-coded 15-gefallen Python-literal troch in grutter, programmatorysk generearre syntetyske gefallenset. De gefallenset wurdt oan it begjin fan elke run laden en de konfiguraasje wurdt logge foar transparânsje. De kohortferdieling nei ynhâldgebiet wurdt hjirûnder werjûn.

Endokrinology 23.900 gefallen (23.9%) Skildklier, PCOS, fitamine D, gonadale as, hypofyse

Metabolike medisinen 21.900 gefallen (21.9%) T2DM, metabolysk syndroom, lipidpanielen, hyperurikemia

Hematology 15.400 gefallen (15.4%) Mikrosytyske en makrosytyske differinsjaasjes, B12/folaat, izerstúdzjes

Hepatology 12.400 gefallen (12.4%) NAFLD/NASH, virale hepatitis, FIB-4, cholestasis

Ynterne medisinen (ynkl. trap-subset) 9.000 gefallen (9.0%) Mingde presintaasjes en 8.723 tawijde hyperdiagnostyske trap-gefallen

Kardiology 7.500 gefallen (7.5%) ASCVD-risiko, aterogene dyslipidemy, hs-CRP

Reumatology 6.000 gefallen (6.0%) SLE, RA, vasculitis, autoantibody-panielen (EULAR/ACR-criteria)

Nefrology 4.000 gefallen (4.0%) CKD-stadiëring (KDIGO), eGFR-trends, elektrolytfersteuring

Syntetyske ferdieling fan lânlabels — top 10 labels

De 100,000 syntetyske gefallen drage 127 lânlabels (ISO 3166-1 alpha-2) om locale-ôfhanneling te testen. Label-tawizing: Jeropa 57.7%, de Amearika’s 25.4%, Azië-Stille Oseaan 6.2%, neamde Midden-Easten/Aafrika-labels 3.4%, en in lange sturt fan 97 ekstra labels rûchwei 7.3% kombinearre. De tsien meast foarkommende labels neffens oantal gefallen binne de Feriene Steaten (10,500), Brazylje (9,500), Spanje (9,000), Itaalje (8,000), Dútslân (7,800), Frankryk (7,400), Portugal (5,800), Türkiye (3,400), it Feriene Keninkryk (2,900), en Meksiko (2,500). Gearstalde skoaren per label fariearren fan 0.9971 oant 0.9985. Dizze label-tellingen binne eigenskippen fan de generearre gefallen dy’t brûkt wurde om locale-ôfhanneling te testen — se binne net echte brûkers en net echte geografyske dekking.

De foarôf registrearre rubryk, útlein

Pre-registraasje is de iennichst wichtichste metodologyske kar yn dizze benchmark. Elke ferwachte diagnoaze, elk klinysk skoaringsysteem, en elke rapportaazje wie fêstlein yn boarnekoade foardat de motor oproppe waard. Dêrom is post-hoc ôfstimming fan it rubryk om de motor te flatterjen ûnmooglik.

Trije komponinten meitsje de gearstalde skoare út. De strukturele komponint draacht 35 prosint by en mjit oft de motor de sân ferplichte rapportaazjes weromjûn hat (koptekst, gearfetting, wichtige befiningen, differinsjaal, skoaringsystemen, oanbefellings, follow-up) en de sechstjin ferplichte subparagrafen dêryn. Paragraaf-oanwêzigens weaget 40 prosint en subparagraaf-oanwêzigens weaget 60 prosint binnen de strukturele berekkening.

De klinyske komponint draacht 55 prosint by en kombinearret trije dingen: diagnoaze-trefwurd-weromrop (70 prosint fan de klinyske sub-skoare), weromrop fan it skoaringsysteem (20 prosint — berekkent de motor Mentzer, FIB-4, HOMA-IR, ASCVD-risiko, KDIGO-stadia, EULAR/ACR-criteria dêr’t relevant), en in jildichheidskontrôle fan de probabel-som (10 prosint — de differinsjaalprobabiliteiten moatte optelle ta binnen it ynterval [90, 110]). Foar trap-gefallen wurdt in eksplisite hyperdiagnoaze-straf fan maksimaal 0.30 ôftrutsen, berekkene as 0.10 per fabrisearre patology-flagge, mei in kap op trije flaggen.

De latency-komponint draacht 10 prosint by. In antwurd ûnder 20 sekonden fertsjinnet de folsleine 0.10, in antwurd ûnder 40 sekonden fertsjinnet 0.05, en alles dat stadiger is fertsjinnet nul. It doel fan 20 sekonden wjerspegelt de produksje primary-path service-level doelstelling; de plafond fan 40 sekonden wjerspegelt it fallback-budzjet foar swiere-motor-oanroppen yn Fase 2.

Wat pre-registraasje foarkomt

Earste-partij-benchmarken binne berucht om harren eigen sifers op te blazen troch post-hoc rubryk-ôfstimming. It patroan is hast altyd itselde: it team rint de motor, sjocht wêr’t dy ûnderpresteart, en past dan stil it rubryk oan sadat de gebieten dêr’t ûnderprestaasje is minder telle. Troch it rubryk yn boarnekoade fêst te lizzen foar de earste motor-oanrop en de harness te publisearjen ûnder de MIT-lisinsje, wurdt dy oanpassing sichtber yn ferzjekontrôle. Elkenien kin de repository klone, de rubryk-auteurdatums kontrolearje, en ferifiearje dat de motorresultaten net brûkt binne om de skoaring te foarmjen.

Hyperdiagnose-trapgefallen — wêrom’t te faak oproppe it echte mislearringsmeganisme is

Agressyf te faak patology oproppe op normale skermen is in dokumintearre mislearringsmodus fan medyske assistinten foar konsuminten. De neikommeljende kosten omfetsje ûnnedich ûndersyk, pasjintûnwissens, en iatrogenyske workup. De twa trap-gefallen yn dizze benchmark binne ûntwurpen om dy mislearringsmodus sichtber en skoarber te meitsjen.

🟡 Trap 1 — BT-014-GILBERT

Presintaasje. In 24-jierrige man mei in totale bilirubine fan 2.4 mg/dL. It direkte diel is normaal, transaminasen en alkaline fosfatase sitte binnen harren referinsjereeksen, retikulocyten binne opmerklik net, en haptoglobine en LDH slute hemolyse út.

Korrekte útslach. Gilbert-syndroom — in goedaardige UGT1A1-polymorfisme. De útslach moat gjin hepatitis, sirkrose, hemolytyske anemia, of biliêre obstruksje oproppe.

V11-resultaat. Gearstalde 1.000. Gjin fan de seis monitorearre oer-diagnoaze-flaggen ferskynde as aktive diagnoazen.

🟡 Trap 2 — BT-015-HEALTHY

Presintaasje. In 35-jierrige frou mei in fyftjin-parameter routine screeningpaniel. Elke analyte sit noflik binnen syn referinsjereeks.

Korrekte útslach. Tredens en ûnderhâld fan libbensstyl. De útlis moat gjin grinslizzende patology útoefenje om klinysk nuttich te lykjen.

V11-resultaat. Komposyt 1.000. Gjin fan de sân kontrolearre flags foar oeroerdiagnose—diabetes, bloedarmoede, hypothyroïdisme, dyslipidemy, hepatitis, niersykte, tekoart—ferskynde as aktive diagnoaze.

Yn beide traps waarden trettjin kontrolearre flags foar hyperdiagnose neigien. Gjin dêrfan waard aktivearre. Dit is it resultaat dat it meast telt foar elke klinikus dy't oerweaget in AI-motor te brûken as triage- of pre-konsultaasje-ark: it systeem betocht gjin sykte dêr’t gjin wie.

Mentzer-yndeks: izertekoart skiede fan it eigenskip fan thalassemy

In twadde fynst mei hege wearde giet oer it kepeljen fan saak BT-001 (izertekoartbloedarmoede) mei saak BT-007 (lytse beta-thalassemia). Beide presintearje mei mikrosytose en binne in bekend struikelblok foar ûnûnderfine klassifiseerders. De Mentzer-yndeks, berekkene as MCV dield troch it RBC-oantal, giet boppe 13 by izertekoart en falt ûnder 13 by thalassemia-eigenskip.

Yn BT-001 wie de pasjint in frou fan 34 jier mei hemoglobine 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritine 6 ng/mL, en ferhege TIBC. De Mentzer-yndeks fan likernôch 17.7 stipet absolute izertekoart. Yn BT-007 wie de pasjint in man fan 28 jier mei mikrosytose (MCV 65.8 fL) mar in heech RBC-oantal fan 6.2, in normale RDW, normaal ferritine, en HbA2 fan 5.6 prosint. De Mentzer-yndeks fan likernôch 10.6 wiist op thalassemia-eigenskip, en it ferhege HbA2 befêstiget lytse beta-thalassemia.

Izertekoartbloedarmoede Mentzer > 13 Leech ferritine, leech TSAT, heech TIBC, ferhege RDW

Beta-thalassemia-eigenskip Mentzer < 13 Normaal ferritine, normale RDW, ferhege HbA2 (>3.5%), heech RBC-oantal

Beide gefallen skoarden 1.000. De motor brûkte de Mentzer-yndeks eksplisyt yn beide útlis en joech yn elk gefal de juste diagnoaze werom. Dit is it iennichste meast klinysk treastjende resultaat yn de hiele benchmark, om’t it ferkeard klassifisearjen fan thalassemia-eigenskip as izertekoart liedt ta ûnpassende izeroanfolling en miste kânsen foar screening fan famylje, en it ferkeard klassifisearjen fan izertekoart as thalassemia fertrage ienfâldige ferfangende behanneling. Us ferritine-berikgids ferklearret de bredere differinsjaal-kontekst.

Per-case resultaten út de V11 earste referinsjerun (23 april 2026)

De oarspronklike V11 referinsjerun op de 15-case proof-of-concept kohort tsjinnet as de metodologyske basis fan de Twadde Update: elk per-case detail hjirûnder lit sjen hoe’t de rubryk omgiet mei in echt motor-antwurd. Tolve fan fyftjin cases berikten it plafond fan de gearstalde skoare fan 1.000 op it primêre paad; trije cases waarden tsjinne fia de Phase 2 fallback, en ferlearen de 0.05 latency-bonus wylst alle klinyske en strukturele ynhâld bewarre bleau. Ien case miste in inkeld ferplicht subparagraaf; ien joech in wat fermindere kânsferdielingssom werom.

Saak-ID Spesjaliteit Gearstalde Latinsje Paad

BT-001-IDAHematology1.00017.8 sprimêr

BT-006-B12Hematology1.00018.4 sprimêr

BT-007-THALHematology1.00017.0 sprimêr

BT-002-HASHEndokrinology0.95037.0 sweromfalle

BT-008-PCOSEndokrinology0.98718.6 sprimêr

BT-003-T2DMMetabolysk1.00019.1 sprimêr

BT-013-GOUTMetabolysk1.00019.4 sprimêr

BT-004-NAFLDHepatology1.00019.6 sprimêr

BT-009-VIRHEPHepatology0.95023.4 sweromfalle

BT-014-GILBERTTrap1.00018.9 sprimêr

BT-005-CKDNefrology1.00017.4 sprimêr

BT-010-ASCVDKardiology1.00019.7 sprimêr

BT-011-SLEReumatology0.98118.2 sprimêr

BT-012-VITDEndokrinology1.00019.3 sprimêr

BT-015-HEALTHYTrap1.00018.7 sweromfalle

De PCOS-saak (BT-008) ferlear in inkeld ferplicht subdiel yn de antwurdstruktuer — fyftjin fan sechtjin ynstee fan sechtjin fan sechtjin — wat it strukturele skoare ôfskeakele fan 1.000 nei 0.963. De SLE-saak (BT-011) joech in mar wat fermindere som fan kânsferdielingen werom, dy't it klinyske skoare nei 0.965 brocht, wylst elke diagnostyske trefwurd en skoaringsysteem bewarre bleaun. Gjin fan beide net-optimale gefallen miste in juste diagnoaze.

V11 Twadde Update gearfetting — 100,000 cases

Op skaal fan de befolking binne yndividuele rigen fan gefallen net lêsber foar minsken, dus de twadde update rapportearret gearstalde maatregels ynstee fan in tabel fan 100,000 rigen. De wichtichste gearfetting wurdt hjirûnder werjûn; ferdielings per spesjaliteit en per lânlabel wurde publisearre yn it technyske rapport en de Figshare-deposysje. In stratifeare willekeurige stekproef fan n = 201 rauwe motor-antwurden (deterministyske seed 20260426) wurdt publisearre yn de GitHub results/ map foar ynspeksje.

Gearstalde skoare V11 earst: 0.9912 (99.12%) → Twadde Update: 0.9980 (99.80%) Δ = +0.0068 oer de 100,000-case kohort

Strukturele skoare (gemiddelde) V11 earst: 0.998 → Twadde Update: 1.000 Perfekte strukturele konformiteit op populaasjeskaal

Klinyske skoare (gemiddelde) V11 earst: 0.998 → Twadde Update: 0.996 −0.002; gjin case miste de diagnoaze sels

Latinsje — gemiddelde (berik) V11 earste: 20.17 s (17.0–37.0 s) → Twadde update: 13.26 s (9.0–16.94 s) Produksjemotor-optimisaasjes tusken runs

Motorpaad = primêr V11 earste: 12 / 15 → Twadde update: 100,000 / 100,000 Der wie op gjin inkel momint tidens de run in fallback foar Fase 2 nedich

Trap-subset hyperdiagnostyske warskôgings V11 earste: 0 / 13 → Twadde update: 0 / 87,412 Gjin falske posityven op skaal fan de befolking (8,723 trap-gefallen kontrolearre)

Wat de kopscore ús net fertelt

In gearstalde skoare fan 99.80 prosint ûnder dizze spesifike foarôf registrearre rubryk, op in syntetyske kohort fan 100,000 gefallen oer 127 lânlabels, stiet foar hast-plafondprestaasjes — mar it fertsjinnet soarchfâldige ynkadering. It resultaat beskriuwt it gedrach fan de motor tsjin de rubryk dêr’t wy ús oan holden yn boarnekoade yn V11; it is gjin universele claim oer de korrektens fan de motor op elk bloedtestpaniel dat yn it wyld bestiet.

De skoare seit dat de motor de diagnostyske patroanen dy’t selektearre binne foar dizze evaluaasje korrekt ôfhannelje hat oer in kohort op skaal fan de befolking, mei in metodyk dy’t publisearre en reprodusearber is. It seit net dat de motor korrekt is op elke bloedtestpaniel dy’t yn it wyld bestiet. It seit net dat de motor it oardiel fan klinisy ferfange moat. En it seit net dat de motor better presteart as alternative AI-systemen — fergelykjende analyses tsjin oare motoren wiene doelbewust bûten it berik fan dit rapport.

Wat de skoare wol fêststelt is in basisline. Mei de rubryk en de harness iepenbier, kinne takomstige ferzjes fan de motor evaluearre wurde tsjin deselde rubryk — tapast op de V11 earste 15 gefallen, de Twadde update 100,000-gefallen kohort, of elke folgjende útwreiding — en it gat tusken de publisearre skoare en elke folgjende run is sels mjitber. Dat is de wearde fan pre-registraasje: it konvertearret prestaasjeclaims nei testbere claims.

Hoe’t jo dit benchmark yn 10 minuten neikomme kinne

Reproduksje fereasket allinnich in Kantesti API-credential pear en in Python 3.10 of letter omjouwing mei de requests en reportlab biblioteken ynstallearre. De folsleine harness is ien inkeld, selsstannich Python-module útbrocht ûnder de MIT-lisinsje.

💻 GitHub MIT-lisinsje harness · rauwe antwurden · referinsjerun 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanonike akademyske rekord 🎓 Undersykspoarte Publikaasje 404175463 · V11 Twadde update · akademyske ûntdekkingslaach 📄 Academia.edu Paper 165956808 · V11 Twadde update · akademyske ûntdekkingslaach

Fjouwer stappen foar in nije run

Ien. Klonearje de repository: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Twa. Ynstallearje ôfhinklikens mei pip install -r requirements.txt (Twadde update foeget ta mysql-connector-python ≥ 8.0 foar de SQL-case loader). Trije. Stel yn KANTESTI_USERNAME en KANTESTI_PASSWORD as omjouwingsfariabelen foar de motor-API. Foar de Twadde update SQL case loader, set ek KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, en KANTESTI_DB_PASSWORD — de loader ferbynt fia in allinnich-lêze rol (bench_reader) dy't gjin privileezjes hat foar it identifisearjen fan tabellen. Fjouwer. Rinne python benchmark_bloodtest.py --limit 100000 foar de folsleine Second-Update-run, of python benchmark_bloodtest.py --limit 1000 foar flugge iteratie. Utfier komt telâne yn ./benchmark_results/: in CSV-scorecard mei per-lân-label en per-spesjaliteit kolommen, in JSON-aggregaat, in stratified-random rauwe-antwurd-sample, en in Markdown-rapport.

De referinsjeruns fan 23 april 2026 (V11 earste, 15 gefallen) en 26 april 2026 (V11 Second Update, 100,000 gefallen) wurde bewarre yn de results/ map fan it repository. In nije run sil in nije, mei-timestampke scorecard generearje wylst de referinsjeruns ûnreplike litte. As jo run in betsjutlik oars resultaat jout, iepenje dan asjebleaft in GitHub-issue mei de run-timestamp en de engine-ferzje dy’t weromjûn is yn de response-metadata.

Beheiningen en takomstich wurk

Sels by 100.000 gefallen oer 127 lân-labels hinne, fertsjinje fjouwer beheiningen in dúdlike oantekening: undersampling fan long-tail labels, single-shot evaluaasje, single-engine omfang, en single-source gegevensboarne. Elk dêrfan wurdt oanpakt yn aktyf follow-up wurk.

Dekking fan long-tail labels. De Twadde Update rint oer 127 lân-labels, mar de ferdieling is net balansearre — de top 10 labels steane foar ≈66.4% fan de gefallen, en de long tail fan 97 ekstra labels draacht tegearre ≈7.3% by (sa’n 7.300 gefallen yn totaal, ~75 gefallen per label gemiddeld). Per-label-kompositen yn dizze long tail binne dêrom lûder as de headline-sifers suggerearje. Takomstige runs sille de label-tawizing werbalansearje om per-label-skattingen fêst te lizzen.

Single-shot-evaluaasje. Elk gefal yn de kohort waard ien kear evaluearre. Grutte taalmodellen litte net-triviale fariânsje yn útfier sjen sels by lege samplingtemperatuer, dus in multi-run-protokol mei fiif evaluaasjes per gefal en rapporteare fariânsje is in natuerlike folgjende stap — benammen op de trap-case-subset, dêr’t konsistinsje ûnder sampling-jitter diel is fan de feiligensclaim.

Single-engine-omfang. Dit rapport karakterisearret ien engine. Ferlykjende analyses tsjin alternative AI-systemen falle bûten it omfang hjir; wy kinne se mooglik as in aparte ûnôfhinklike stúdzje ûndernimme mei passende metodology, tsjin deselde MIT-lisinsje-harnas.

Syntetyske gegevens. De 100.000 gefallen binne syntetysk generearre, net syntetyske gefallen, en de resultaten oersette net nei klinyske prestaasjes yn de echte wrâld. Evaluaasje op echte, tastiene, ekstern boarne gegevens soe passende etyske oersjoch fereaskje en falt bûten it berik fan dizze syntetyske benchmark.

Bûten dizze fjouwer is de meast ynfloedrike plande útwreiding multi-taal-pariteit per jurisdiksje. De Kantesti AI Engine tsjinnet brûkers yn 75+ talen, en it draaien fan taal-stratifisearre Second-Update-subkohorten (Turksk, Dútsk, Spaansk, Frânsk, Italiaansk, Portugeesk, Arabysk, Mandaryn) sil de útfierkwaliteit kwantifisearje oer de troch de engine stipe talen. Elke taal-stratifisearre analyse sil publisearre wurde mei syn eigen DOI en harnas-branch.

Besykje deselde engine dy’t 99.80% komposite skoare helle op 100,000 gefallen

Upload jo eigen bloedtestpaniel nei itselde produksje-eindpunt dat yn dizze benchmark evaluearre is. Mear as 2 miljoen brûkers wrâldwiid brûke de Kantesti AI Engine om mear as 15,000 biomerkers te ynterpretearjen yn 75+ talen.

🔬 Besykje fergese demo

Chrome-útwreiding App Store Google Play

📚 Hoe sitte dizze benchmark oan

BibTeX

@techreport{klein2026kantesti_v11_second_update,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {A Pre-Registered, Rubric-Based Automated Technical  
                 Benchmark of the Kantesti Blood-Test Interpretation  
                 Engine on 100,000 Synthetic Test Cases  
                 --- V11 Second Update},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11 (Second Update)},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Technical Report V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Eksterne metodologyske referinsjes

Mentzer, W. C. (1973). It ûnderskieden fan izertekoart fan thalassemy-karakter. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 Jeropeeske Liga tsjin Rheumatisme / Amerikaanske kolleezje foar Rheumatology klassifikaasjekritearia foar systemyske lupus erythematosus. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medysk domein hallusinaasjetest foar grutte taalmodellen. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Komposit skoare

100,000Skoarde gefallen

127Dekte Lân-Labels

0 / 87,412Trap falsk-posityven

Faak stelde fragen

Hoe akkuraat is de Kantesti AI-motor op syntetyske testgefallen?

Op in pre-registered rubric, útfierd op 100.000 syntetysk generearre testgefallen oer acht ynhâldsgebieten en 127 lân-labels (V11 Second Update), berikte de engine in komposit skoare fan 99.80 prosint, mei nul hyperdiagnose-flags oer 87.412 monitorearre trap-case kânsen en in gemiddelde antwurdlatinsje fan 13.26 sekonden. Dit komposit mjit konformiteit fan útfier op syntetyske ynput, net diagnostyske krektens. De oarspronklike V11-release brûkte deselde rubric op 15 troch de hân konstruearre gefallen (komposit 99.12%); de Twadde Update hâldt de rubric byte-identyk en wreidet dy út nei in grutter syntetysk kohort. It folsleine scorecard wurdt publisearre op Figshare ûnder DOI 10.6084/m9.figshare.32095435 en op GitHub ûnder MIT-lisinsje.

Is de Kantesti AI-motor klinysk falidearre?

Nee. De engine is evaluearre mei in automatyske technyske benchmark (net in klinyske validaasje), tsjin in rubric dy't yn boarnekoade beferzen waard foar de earste V11-run en byte-identyk bleaun is foar de V11 Twadde Update, evaluearre op 100.000 syntetyske bloed-testgefallen oer hematology, endokrinology, metabolyske medisinen, hepatology, nefrology, kardiology, reumatology, en ynterne medisinen, lutsen út 127 lân-labels. Klinysk oersjoch waard levere troch Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), board-sertifisearre klinysk hematolooch en Chief Medical Officer by Kantesti AI.

Wat is in hyperdiagnoaze-trapgefal?

In hyperdiagnose-trapgefal is in klinysk senario dat spesifyk ûntwurpen is om oer-diagnostysk gedrach yn AI-motoren te detektearjen. De V11 earste benchmark brûkte twa fan sokke gefallen as metodologysk proof-of-concept: in isolearre yndirekte hyperbilirubinaemie dy't past by it syndroom fan Gilbert (wêrby’t de juste útlis de goedaardige UGT1A1-polymorfisme is ynstee fan hepatitis of hemolyse) en in folslein normaal folwoeksen screeningpaniel (wêrby’t de juste útfier gerêststelling is ynstee fan in makke grinslizzende patology). De V11 Twadde Update skaalde dizze trap-case-metodyk nei in tawijd subset fan 8.723 gefallen, wat 87.412 monitorearre kânsen op hyperdiagnose-flaggen oplevere — en it falsk-positive taryf fan de motor bleau op nul.

Is de evaluaasje fan de Kantesti AI-motor werhellber?

De folsleine evaluaasjefasiliteit wurdt útbrocht ûnder de MIT-lisinsje as ien selsstannich Python-module. De V11 earste run fereasket allinnich in Kantesti API-credential pear en Python 3.10 of letter. De V11 Twadde Update foeget in parameterisearre, allinnich-lêzen SQL-case loader ta dy’t Kantesti klinysk-repository-credentials fereasket (in bench_reader rol sûnder privileezjes foar it identifisearjen fan tabellen). De koade, de SQL fan de case loader, de rubryk (byte-identeik tusken releases), en in stratifeare willekeurige sample fan rauwe motor-útfieringen út sawol de V11 earste as de Twadde Update referinsjeruns binne beskikber op github.com/emirhanai/kantesti-blood-test-benchmark en spegele op Figshare, ResearchGate, en Academia.edu.

Hoe ûnderskiedt de Kantesti AI-motor izertekoart fan it skaaimerk fan beta-talassemy?

De motor tapast de Mentzer-yndeks, berekkene as it gemiddelde korpuskulêre folume dield troch it oantal reade bloedsellen. In Mentzer-yndeks boppe 13 stipet izertekoart-anemy, wylst in wearde ûnder 13 it trait fan beta-thalassemy stipet. Yn de V11 earste benchmark waarden beide presintaasjes korrekt klassifisearre mei dúdlike Mentzer-yndeksberekkening, stipe troch ferritine, RDW, en HbA2-kontekst. Oer de V11 Twadde Update 100.000-case kohort waard itselde differinsjaal gedrach bewarre op populationskaal.

Wêr kin ik de rauwe benchmarkgegevens en boarnekoade fine?

It technyske rapport wurdt deponearre op Figshare ûnder DOI 10.6084/m9.figshare.32095435 (dat sawol de V11 earste release as de V11 Twadde Update omfiemet), spegele op ResearchGate-publicaasje 404175463 en Academia.edu-papier 165956808 — beide bywurke mei de V11 Twadde Update-titel en 100.000-case resultaten — en de MIT-lisinsjeare Python-fasiliteit mei alle referinsjerunresultaten is te finen op github.com/emirhanai/kantesti-blood-test-benchmark. It spegelnetwurk mei fjouwer platfoarms soarget foar lange-termyn beskikberens en fleksibiliteit yn sitaten.

Wêrom is pre-registraasje wichtich foar AI-medyske benchmarks?

Pre-registraasje foarkomt post-hoc rubryk-tuning, dat is de iennichste meast foarkommende manier wêrop bedriuws-rinnen benchmarks harren eigen sifers opblaze. Troch de rubryk yn boarnekoade te befriezen foardat der ek mar ien motor-oprop dien wurdt en de fasiliteit iepenbier te publisearjen, wurde de datumstempels fan de rubryk-auteur ynspektearber yn ferzjekontrôle, en kinne de motorresultaten de skoaringskritearia net beynfloede hawwe.

Befettet dizze benchmark fergelikingen mei oare AI-motoren?

Nee. It V11-rapport — sawol de earste release as de Twadde Update — karakterisearret doelbewust ien motor tsjin in fêste rubryk ynstee fan it te pleatsen tsjin alternative kommersjele systemen. De fasiliteit is iepen boarne ûnder MIT-lisinsje (no ek mei de SQL-case loader), sadat ûnôfhinklike ûndersikers elke motor dy’t se kieze kinne evaluearje tsjin deselde rubryk en case loader en harren resultaten publisearje.

Binne de pasjintgefallen echt of syntetysk?

Alle gefallen binne syntetysk generearre — 15 troch de hân konstruearre gefallen yn de V11 earste release en 100.000 yn de Twadde Update. Se binne gjin syntetyske gefallen: der binne gjin syntetyske gegevens, gjin tastimmingsproses, en gjin de-identifikaasje belutsen, om’t der gjin persoanlike gegevens yn it kohort besteane. Der ferskynt gjin persoanlike gegevens yn de publisearre harnas, it technyske rapport, of de útbrochte datasets.

⚕️ Medyske warskôging & konflikt fan belang

Dit benchmarkrapport is foar ûndersyk en metodologyske transparânsje. It foarmet gjin medysk advys, is gjin diagnoaze, en is gjin ferfanging foar profesjonele medyske soarch; gjin resultaat hjir moat brûkt wurde om it besykjen fan in dokter út te stellen of te foarkommen. Rieplachtsje altyd in kwalifisearre soarchferliener foar diagnoaze- en behannelbeslissingen. Dit is in sels-útfierde ynterne benchmark fan de eigen motor fan it bedriuw en is net ûnôfhinklik validearre of troch peers besjoen. De gearstalde skoare mjit neilibjen fan in fêststeld kader (rapportstruktuer, keyword- en skoaringsysteem-weromrop, en latency); it is gjin mjitting fan echte wrâld diagnostyske akkuraatens of klinyske feiligens. Beide auteurs binne yn tsjinst by en hawwe oandielen yn Kantesti Ltd, en de motor dy't evaluearre wurdt is in kommersjeel produkt fan deselde organisaasje. Dit belangenkonflikt wurdt beheind troch it foarôf registrearjen fan it kader yn boarnekoade, it frijjaan fan de harness ûnder de MIT-licence, en it publisearjen fan in stratified random sample fan rauwe motor-antwurden.

E-E-A-T fertrouwensignalen

⭐

Ûnderfining

15+ jier ûnderfining yn klinyske hematology en laboratoariummedisinen, mei tafersjoch op de seleksje fan it casepaniel.

📋

Ekspertize

Pre-registraasje fan rubrykûntwerp mei eksplisite hyperdiagnose-straffen en erkende klinyske skoaringssystemen (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoriteit

Haadauteur dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Ymplemintaasje troch Julian Emirhan Bulut, CEO fan Kantesti Ltd.

🛡️

Betrouberens

MIT-lisinsjeare reprodusearbere fasiliteit, rauwe motorantwurden publisearre, iepen konflikt-of-belang-ûntbleating, spegelnetwurk foar ûndersyk mei fjouwer platfoarms.

🏢 Kantesti LTD Registrearre yn Ingelân & Wales · Bedriuw nûmer. 17090423 Londen, Feriene Keninkryk · kantesti.net