Wêrom’t dizze benchmark bestiet en wat it test

AI-assistearre bloedtest-útslach wurdt hieltyd faker brûkt yn konsumint- en klinyske wurkflows, mar reprodusearbere evaluaasjeramten spesifyk ôfstimd op laboratoariummedisyn bliuwe ûngewoan. De fragen dy’t hjir it meast ta dogge binne net dy’t behannele wurde troch algemiene benchmarks foar medyske fraach- en antwurdsystemen: kin in engine izertekoart skiede fan thalassemia-eigenskip as it mean corpuscular volume identyk is, docht it dan tefolle diagnoaze fan Gilbert syn syndroom as hepatitis, en makket it patology oan yn in folslein normale screeningpaniel?

Diagram fan de foarôf registrearre rubryk-flow dat sjen lit hoe’t de Kantesti AI Engine — V11 Twadde Update, 99.80% kompositscore op 100.000 gefallen — evaluearre wurdt tsjin beferzen skoarkritearia
Figuer 1: De benchmark-arsjitektuer efter de 99.80%-komposysjescore op de V11 Twadde Update 100.000-case-kohort — elke saak, elke kaaiwurd, elk skoaringsysteem is fêst yn boarnekoade foardat de motor ien PDF sjocht, en de rubryk is byte-identyk oan de V11 earste release. Post-hoc rubryk-tuning is ûntwurpen ûnmooglik.

In inkele bloedtestpaniel befettet typysk genôch sinjaal om ferskate konkurrearjende ynterpretaasjes te stypjen, en de taak fan de ynterpretearjende klinikus is om dy ynterpretaasjes tsjininoar ôf te weagjen ynstee fan in boek-antwurd op te heljen. In motor dy't it goed docht op tekstboekgefallen kin dochs mislearje op de gefallen dy't it meast telle: de falen yn de differinsjaaldiagnoaze, de goedaardige farianten dy't allinnich al alaarmerjend lykje, en de folslein normale panielen dy't betrouwen assistinten ferliede ta it fabrisearjen fan patology.

Dizze benchmark is boud om krekt dy mislearringsmodi. Elk fan de fyftjin gefallen waard selektearre foar in spesifike diagnostyske eigenskip: in izertekoart-assosjearre mikrosytose dy't apart hâlden wurde moat fan in beta-thalassemy-trait mei identike mean corpuscular volume, in presintaasje fan Gilbert-sykte dêr’t it iennichste ôfwikende allinnich in isolearre indirekte hyperbilirubinemia is, en in screeningpaniel mei fyftjin parameters dêr’t elke analyte binnen syn referinsjewurde sit. De rubryk beleanet motoren dy’t elk gefal lêze op syn eigen betingsten en straffet motoren dy’t nei in betrouwen diagnoaze gripe wêr’t sa’n diagnoaze net rjochtfeardige is.

As Thomas Klein, MD, haw ik it gefalspaniel selektearre, om’t dit de patroanen binne dy’t ik it meast faak sjoch dat assistinten yn laboratoarium-medisyne it ferkeard dogge. De djoere mislearringsmodus is net "it missen fan in seldsume sykte" — it is it fabrisearjen fan routinepatology by pasjinten dy’t it net hawwe. Ús Medyske falidaasje hub beskriuwt it bredere ramt; dizze side beskriuwt de V11 earste proof-of-concept en de V11 twadde update dy't it skaalde nei 100,000 syntetyske gefallen lutsen út in syntetyske gefallenset oer 127 lânlabels — mei deselde skoaringsrubryk, byte-identyk, sûnder tastimming foar post-hoc ôfstimming.

Lêste referinsjerun — V11 Twadde Update (26 april 2026)

De referinsjerun fan de V11 Twadde Update fan 26 april 2026 levere in gearstalde skoare fan 99.80% op de selde foarôf registrearre rubryk brûkt yn de V11 earste release, evaluearre op 100,000 syntetyske gefallen lutsen út de Kantesti syntetyske gefallenset en omfiemjend 127 lânlabels en 75+ talen. Elk gefal wie foltôge op it primêre paad fan de motor; trap-case hyperdiagnose-flag-aktivearrings bleaunen op 0 / 87,412. De orizjinele V11-run fan 23 april 2026 omfette 15 troch minsken selektearre gefallen (gearstalde 99.12%) en validearre de rubryk; de Twadde Update hâldt dy rubryk byte-identyk en wreidet de evaluaasje út nei in kohort op populaasjeskaal.

Gearstalde 99.80% 100.000 fan 100.000 gefallen skoarden
1.000 Strukturele skoare
0.996 Klinyske skoare
13.26 s Gemiddelde latency
0 / 87,412 Trap false-positives

De gearstalde formule kombinearret trije komponinten: strukturele konformiteit mei de sân ferplichte rapportaazjes en sechtjin ferplichte subparagrafen, ynhâldsakkuraatens mjitten as keyword-recall plus recall fan it skoaringsysteem plus in jildichheidskontrôle fan de kânsferdieling, en antwurden-latency tsjin it doel foar service-level op it primêre paad. De krekte opbou wurdt hjirûnder werjûn yn de rubrykformule — gjin fan dizze gewichten of sub-rubryken waarden oanpast foar de Twadde Update.

Gearstalde = 0.35 × Struktureel + 0.55 × Klinysk + 0.10 × Latency

De oerbleaune 0.20 persintaazjepunten fan romte dekomponearret hast hielendal yn de klinyske sub-skoare — in lyts part fan de gefallen (benammen yn Hepatology en Rheumatology) hie ien ferwachte kaaiwurd fan it skoaringsysteem ûntbrekkend yn de ynterpretaasje fan de motor, nettsjinsteande dat de diagnostyske ynhâld korrekt wie. Gjin gefal yn it 100.000-case Twadde-Update-kohort miste de diagnoaze sels. De latency ferbettere fan in gemiddelde fan 20.17 s yn de V11 earste release nei 13.26 s yn de Twadde Update, wat wjerspegelet produksje-motoroptimalisaasjes tusken de twa runs; de rubryk, de skoaringskoade, en it API-einpunt binne net feroare.

Gearstalde skoaren per label fariearren fan 0.9971 oant 0.9985 oer de 30 meast-foarkommende lânlabels. De lange sturt fan 97 ekstra labels (≈7,300 gefallen kombinearre) liet gjin systematyske efterútgong sjen. De meast foarkommende labels neffens oantal gefallen wiene de Feriene Steaten (10,500), Brazylje (9,500), Spanje (9,000), Itaalje (8,000), Dútslân (7,800), Frankryk (7,400), Portugal (5,800), Türkiye (3,400), it Feriene Keninkryk (2,900), en Meksiko (2,500).

Fan 15 gefallen oant 100,000: kohort-evolúsje oer 127 lânlabels

It oarspronklike V11-gefallenset omfette sân spesjalismen — hematology, endokrinology, metabolike medisinen, hepatology, nefrology, kardiology, reumatology — plus twa tawijde hyperdiagnose-trapgefallen, mei elk gefal in syntetysk generearre bloedtestpaniel. De V11 twadde update wreidet de evaluaasje út nei 100,000 syntetyske gefallen oer 127 lânlabels, ferdield oer acht spesjalismen (de orizjinele sân plus in tawijd bucket foar ynterne medisinen dy’t it trap-subset opnimt). Deselde skoaringsrubryk wurdt byte-identyk tapast oer beide runs.

Untwerp fan de V11 earste case-panel — fyftjin syntetyske bloed-testgefallen oer sân medyske spesjaliteiten plus twa hyperdiagnose-trapgefallen; deselde rubric berikte in 99.80% komposit skoare op 100.000 gefallen yn de V11 Second Update
Figuer 2: Untwerp fan it orizjinele V11 casepaniel oer hematology, endokrinology, metabolike medisinen, hepatology, nefrology, kardiology, rheumatology, plus twa trap-gefallen — Gilbert’s syndroom en in folslein normaal screeningpaniel. De Twadde Update behâldt dizze rubryk byte-identyk wylst it kohort útwreidet nei 100.000 gefallen út de Kantesti SQL-repository.

Om't alle gefallen syntetysk generearre binne, binne der gjin echte identifiers om te ferwiderjen en is der gjin persoanlike gegevens belutsen. Elk syntetysk gefal draacht in benchmark-ynterne gefal-koade (BT-NNN-LABEL yn de V11 earste set, in stabile case_uid yn de twadde update). Der ferskynt nergens persoanlike gegevens yn de publisearre fasiliteit, it technyske rapport, of de útbrochte datasets.

V11 earste release — 15 troch minsken selektearre gefallen

It orizjinele V11-kasuspaneel waard mei de hân gearstald troch dr. Thomas Klein om de diagnostyske patroanen te oefenjen dêr’t laboratoarium-medyske assistinten it meast faak ferkeard op dogge. Elk fan de fyftjin gefallen waard selektearre foar in spesifike diagnostyske eigenskip, hjirûnder neamd.

Hematology (3) BT-001, BT-006, BT-007 Izertekoart-anemy · B12-tekoart · Beta-thalassemia minor
Endokrinology (3) BT-002, BT-008, BT-012 Thyroïditis fan Hashimoto · PCOS mei insulinresistinsje · Swier tekoart oan fitamine D
Metabool (2) BT-003, BT-013 T2DM mei metabolysk syndroom · Hyperurikemia mei risiko op jicht
Hepatology (2) BT-004, BT-009 NAFLD / NASH · Akute virale hepatitis
Nierenology · Kardiology · Rheumatology (3) BT-005, BT-010, BT-011 CKD poadium 3 · Atherogene dyslipidemy · Systemyske lupus erythematosus
Trapgefallen (2) BT-014, BT-015 Syndroom fan Gilbert (isolearre indirekte hyperbilirubinemia) · Folslein normaal folwoeksen screening

Wêrom dizze bepaalde ferdieling

Hematology krijt trije gefallen, om't mikrosytyske differinsjaaldiagnoazen en makrosytyske differinsjaaldiagnoazen de heechste-folume-trappen binne yn praktyk yn echte laboratoariumomjouwing. Endokrinology krijt trije, om't de presintaasjes fan Hashimoto, PCOS en tekoart oan fitamine D ferskillende diagnostyske foarmen oefenje (troch autoantistoffen oandreaun, troch hormoanferhâldingen oandreaun, troch ien-marker oandreaun). De spesjaliteiten mei ien gefal binne noch altyd sinfol, om't elk fan CKD, ASCVD-risiko en SLE syn eigen skoaringsysteem hat dat de motor oproppe moat (KDIGO-stadia, ASCVD 10-jier risiko, en 2019 EULAR/ACR SLE-criteria respektivelik).

V11 twadde update — 100,000 syntetyske gefallen oer 127 lânlabels

De twadde update ferfangt de oarspronklike V11 hard-coded 15-gefallen Python-literal troch in grutter, programmatorysk generearre syntetyske gefallenset. De gefallenset wurdt oan it begjin fan elke run laden en de konfiguraasje wurdt logge foar transparânsje. De kohortferdieling nei ynhâldgebiet wurdt hjirûnder werjûn.

Endokrinology 23.900 gefallen (23.9%) Skildklier, PCOS, fitamine D, gonadale as, hypofyse
Metabolike medisinen 21.900 gefallen (21.9%) T2DM, metabolysk syndroom, lipidpanielen, hyperurikemia
Hematology 15.400 gefallen (15.4%) Mikrosytyske en makrosytyske differinsjaasjes, B12/folaat, izerstúdzjes
Hepatology 12.400 gefallen (12.4%) NAFLD/NASH, virale hepatitis, FIB-4, cholestasis
Ynterne medisinen (ynkl. trap-subset) 9.000 gefallen (9.0%) Mingde presintaasjes en 8.723 tawijde hyperdiagnostyske trap-gefallen
Kardiology 7.500 gefallen (7.5%) ASCVD-risiko, aterogene dyslipidemy, hs-CRP
Reumatology 6.000 gefallen (6.0%) SLE, RA, vasculitis, autoantibody-panielen (EULAR/ACR-criteria)
Nefrology 4.000 gefallen (4.0%) CKD-stadiëring (KDIGO), eGFR-trends, elektrolytfersteuring

Syntetyske ferdieling fan lânlabels — top 10 labels

De 100,000 syntetyske gefallen drage 127 lânlabels (ISO 3166-1 alpha-2) om locale-ôfhanneling te testen. Label-tawizing: Jeropa 57.7%, de Amearika’s 25.4%, Azië-Stille Oseaan 6.2%, neamde Midden-Easten/Aafrika-labels 3.4%, en in lange sturt fan 97 ekstra labels rûchwei 7.3% kombinearre. De tsien meast foarkommende labels neffens oantal gefallen binne de Feriene Steaten (10,500), Brazylje (9,500), Spanje (9,000), Itaalje (8,000), Dútslân (7,800), Frankryk (7,400), Portugal (5,800), Türkiye (3,400), it Feriene Keninkryk (2,900), en Meksiko (2,500). Gearstalde skoaren per label fariearren fan 0.9971 oant 0.9985. Dizze label-tellingen binne eigenskippen fan de generearre gefallen dy’t brûkt wurde om locale-ôfhanneling te testen — se binne net echte brûkers en net echte geografyske dekking.

De foarôf registrearre rubryk, útlein

Pre-registraasje is de iennichst wichtichste metodologyske kar yn dizze benchmark. Elke ferwachte diagnoaze, elk klinysk skoaringsysteem, en elke rapportaazje wie fêstlein yn boarnekoade foardat de motor oproppe waard. Dêrom is post-hoc ôfstimming fan it rubryk om de motor te flatterjen ûnmooglik.

Trije komponinten meitsje de gearstalde skoare út. De strukturele komponint draacht 35 prosint by en mjit oft de motor de sân ferplichte rapportaazjes weromjûn hat (koptekst, gearfetting, wichtige befiningen, differinsjaal, skoaringsystemen, oanbefellings, follow-up) en de sechstjin ferplichte subparagrafen dêryn. Paragraaf-oanwêzigens weaget 40 prosint en subparagraaf-oanwêzigens weaget 60 prosint binnen de strukturele berekkening.

De klinyske komponint draacht 55 prosint by en kombinearret trije dingen: diagnoaze-trefwurd-weromrop (70 prosint fan de klinyske sub-skoare), weromrop fan it skoaringsysteem (20 prosint — berekkent de motor Mentzer, FIB-4, HOMA-IR, ASCVD-risiko, KDIGO-stadia, EULAR/ACR-criteria dêr’t relevant), en in jildichheidskontrôle fan de probabel-som (10 prosint — de differinsjaalprobabiliteiten moatte optelle ta binnen it ynterval [90, 110]). Foar trap-gefallen wurdt in eksplisite hyperdiagnoaze-straf fan maksimaal 0.30 ôftrutsen, berekkene as 0.10 per fabrisearre patology-flagge, mei in kap op trije flaggen.

De latency-komponint draacht 10 prosint by. In antwurd ûnder 20 sekonden fertsjinnet de folsleine 0.10, in antwurd ûnder 40 sekonden fertsjinnet 0.05, en alles dat stadiger is fertsjinnet nul. It doel fan 20 sekonden wjerspegelt de produksje primary-path service-level doelstelling; de plafond fan 40 sekonden wjerspegelt it fallback-budzjet foar swiere-motor-oanroppen yn Fase 2.

Terminal-screenshot fan de MIT-lisinsjeare Kantesti benchmark-fasiliteit dy’t draait en per-case skoares útjout — deselde fasiliteit, no SQL-oandreaun, produsearre de 99.80% kompositscore yn de V11 Twadde Update 100.000-case run
Figuer 3: De harness yn útfiering — deselde motor dy’t produsearre 99.80% gearstalde op de V11 Twadde Update 100,000-case kohort. Elke case wurdt werjûn as in A4 PDF, pleatst nei it produksje v11-einpunt, en skoare tsjin de beferzen rubryk. De Twadde Update foege in parameterisearre SQL-case loader ta; in stratifeare willekeurige stekproef fan rauwe motor-antwurden (n = 201) wurdt bewarre neist de gearstalde scorecard.

Wat pre-registraasje foarkomt

Earste-partij-benchmarken binne berucht om harren eigen sifers op te blazen troch post-hoc rubryk-ôfstimming. It patroan is hast altyd itselde: it team rint de motor, sjocht wêr’t dy ûnderpresteart, en past dan stil it rubryk oan sadat de gebieten dêr’t ûnderprestaasje is minder telle. Troch it rubryk yn boarnekoade fêst te lizzen foar de earste motor-oanrop en de harness te publisearjen ûnder de MIT-lisinsje, wurdt dy oanpassing sichtber yn ferzjekontrôle. Elkenien kin de repository klone, de rubryk-auteurdatums kontrolearje, en ferifiearje dat de motorresultaten net brûkt binne om de skoaring te foarmjen.

Hyperdiagnose-trapgefallen — wêrom’t te faak oproppe it echte mislearringsmeganisme is

Agressyf te faak patology oproppe op normale skermen is in dokumintearre mislearringsmodus fan medyske assistinten foar konsuminten. De neikommeljende kosten omfetsje ûnnedich ûndersyk, pasjintûnwissens, en iatrogenyske workup. De twa trap-gefallen yn dizze benchmark binne ûntwurpen om dy mislearringsmodus sichtber en skoarber te meitsjen.

Side-by-side fergeliking fan in naïve AI dy’t hepatitis fabrisearret op in Gilbert-syndroompaniel tsjin de Kantesti-motor dy’t it goedaardige UGT1A1-polymorfisme korrekt identifisearret — metodyk dy’t skaalde nei nul falsk-positive resultaten oer 87.412 trap-flag-kânsen yn de V11 Twadde Update 99.80% benchmark
Figuer 4: It trap-case ûntwerp út de V11 earste útjefte — in motor dy’t Gilbert syn syndroom mei fertrouwen labelt as hepatitis, of dy’t grinzen patologysk makket op in folslein normale skermôfbylding, wurdt bestraft ynstee fan beleanne foar it klinken fan klinysk. Dizze metodyk waard skale nei 0 / 87,412 false-positives oer de V11 Twadde Update 100,000-case run dy’t de 99.80% gearstalde skoare produsearre.

🟡 Trap 1 — BT-014-GILBERT

Presintaasje. In 24-jierrige man mei in totale bilirubine fan 2.4 mg/dL. It direkte diel is normaal, transaminasen en alkaline fosfatase sitte binnen harren referinsjereeksen, retikulocyten binne opmerklik net, en haptoglobine en LDH slute hemolyse út.

Korrekte útslach. Gilbert-syndroom — in goedaardige UGT1A1-polymorfisme. De útslach moat gjin hepatitis, sirkrose, hemolytyske anemia, of biliêre obstruksje oproppe.

V11-resultaat. Gearstalde 1.000. Gjin fan de seis monitorearre oer-diagnoaze-flaggen ferskynde as aktive diagnoazen.

🟡 Trap 2 — BT-015-HEALTHY

Presintaasje. In 35-jierrige frou mei in fyftjin-parameter routine screeningpaniel. Elke analyte sit noflik binnen syn referinsjereeks.

Korrekte útslach. Tredens en ûnderhâld fan libbensstyl. De útlis moat gjin grinslizzende patology útoefenje om klinysk nuttich te lykjen.

V11-resultaat. Komposyt 1.000. Gjin fan de sân kontrolearre flags foar oeroerdiagnose—diabetes, bloedarmoede, hypothyroïdisme, dyslipidemy, hepatitis, niersykte, tekoart—ferskynde as aktive diagnoaze.

Yn beide traps waarden trettjin kontrolearre flags foar hyperdiagnose neigien. Gjin dêrfan waard aktivearre. Dit is it resultaat dat it meast telt foar elke klinikus dy't oerweaget in AI-motor te brûken as triage- of pre-konsultaasje-ark: it systeem betocht gjin sykte dêr’t gjin wie.

Mentzer-yndeks: izertekoart skiede fan it eigenskip fan thalassemy

In twadde fynst mei hege wearde giet oer it kepeljen fan saak BT-001 (izertekoartbloedarmoede) mei saak BT-007 (lytse beta-thalassemia). Beide presintearje mei mikrosytose en binne in bekend struikelblok foar ûnûnderfine klassifiseerders. De Mentzer-yndeks, berekkene as MCV dield troch it RBC-oantal, giet boppe 13 by izertekoart en falt ûnder 13 by thalassemia-eigenskip.

Yn BT-001 wie de pasjint in frou fan 34 jier mei hemoglobine 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritine 6 ng/mL, en ferhege TIBC. De Mentzer-yndeks fan likernôch 17.7 stipet absolute izertekoart. Yn BT-007 wie de pasjint in man fan 28 jier mei mikrosytose (MCV 65.8 fL) mar in heech RBC-oantal fan 6.2, in normale RDW, normaal ferritine, en HbA2 fan 5.6 prosint. De Mentzer-yndeks fan likernôch 10.6 wiist op thalassemia-eigenskip, en it ferhege HbA2 befêstiget lytse beta-thalassemia.

Izertekoartbloedarmoede Mentzer > 13 Leech ferritine, leech TSAT, heech TIBC, ferhege RDW
Beta-thalassemia-eigenskip Mentzer < 13 Normaal ferritine, normale RDW, ferhege HbA2 (>3.5%), heech RBC-oantal

Beide gefallen skoarden 1.000. De motor brûkte de Mentzer-yndeks eksplisyt yn beide útlis en joech yn elk gefal de juste diagnoaze werom. Dit is it iennichste meast klinysk treastjende resultaat yn de hiele benchmark, om’t it ferkeard klassifisearjen fan thalassemia-eigenskip as izertekoart liedt ta ûnpassende izeroanfolling en miste kânsen foar screening fan famylje, en it ferkeard klassifisearjen fan izertekoart as thalassemia fertrage ienfâldige ferfangende behanneling. Us ferritine-berikgids ferklearret de bredere differinsjaal-kontekst.

Per-case resultaten út de V11 earste referinsjerun (23 april 2026)

De oarspronklike V11 referinsjerun op de 15-case proof-of-concept kohort tsjinnet as de metodologyske basis fan de Twadde Update: elk per-case detail hjirûnder lit sjen hoe’t de rubryk omgiet mei in echt motor-antwurd. Tolve fan fyftjin cases berikten it plafond fan de gearstalde skoare fan 1.000 op it primêre paad; trije cases waarden tsjinne fia de Phase 2 fallback, en ferlearen de 0.05 latency-bonus wylst alle klinyske en strukturele ynhâld bewarre bleau. Ien case miste in inkeld ferplicht subparagraaf; ien joech in wat fermindere kânsferdielingssom werom.

Saak-ID Spesjaliteit Gearstalde Latinsje Paad
BT-001-IDAHematology1.00017.8 sprimêr
BT-006-B12Hematology1.00018.4 sprimêr
BT-007-THALHematology1.00017.0 sprimêr
BT-002-HASHEndokrinology0.95037.0 sweromfalle
BT-008-PCOSEndokrinology0.98718.6 sprimêr
BT-003-T2DMMetabolysk1.00019.1 sprimêr
BT-013-GOUTMetabolysk1.00019.4 sprimêr
BT-004-NAFLDHepatology1.00019.6 sprimêr
BT-009-VIRHEPHepatology0.95023.4 sweromfalle
BT-014-GILBERTTrap1.00018.9 sprimêr
BT-005-CKDNefrology1.00017.4 sprimêr
BT-010-ASCVDKardiology1.00019.7 sprimêr
BT-011-SLEReumatology0.98118.2 sprimêr
BT-012-VITDEndokrinology1.00019.3 sprimêr
BT-015-HEALTHYTrap1.00018.7 sweromfalle

De PCOS-saak (BT-008) ferlear in inkeld ferplicht subdiel yn de antwurdstruktuer — fyftjin fan sechtjin ynstee fan sechtjin fan sechtjin — wat it strukturele skoare ôfskeakele fan 1.000 nei 0.963. De SLE-saak (BT-011) joech in mar wat fermindere som fan kânsferdielingen werom, dy't it klinyske skoare nei 0.965 brocht, wylst elke diagnostyske trefwurd en skoaringsysteem bewarre bleaun. Gjin fan beide net-optimale gefallen miste in juste diagnoaze.

V11 Twadde Update gearfetting — 100,000 cases

Op skaal fan de befolking binne yndividuele rigen fan gefallen net lêsber foar minsken, dus de twadde update rapportearret gearstalde maatregels ynstee fan in tabel fan 100,000 rigen. De wichtichste gearfetting wurdt hjirûnder werjûn; ferdielings per spesjaliteit en per lânlabel wurde publisearre yn it technyske rapport en de Figshare-deposysje. In stratifeare willekeurige stekproef fan n = 201 rauwe motor-antwurden (deterministyske seed 20260426) wurdt publisearre yn de GitHub results/ map foar ynspeksje.

Gearstalde skoare V11 earst: 0.9912 (99.12%) → Twadde Update: 0.9980 (99.80%) Δ = +0.0068 oer de 100,000-case kohort
Strukturele skoare (gemiddelde) V11 earst: 0.998 → Twadde Update: 1.000 Perfekte strukturele konformiteit op populaasjeskaal
Klinyske skoare (gemiddelde) V11 earst: 0.998 → Twadde Update: 0.996 −0.002; gjin case miste de diagnoaze sels
Latinsje — gemiddelde (berik) V11 earste: 20.17 s (17.0–37.0 s) → Twadde update: 13.26 s (9.0–16.94 s) Produksjemotor-optimisaasjes tusken runs
Motorpaad = primêr V11 earste: 12 / 15 → Twadde update: 100,000 / 100,000 Der wie op gjin inkel momint tidens de run in fallback foar Fase 2 nedich
Trap-subset hyperdiagnostyske warskôgings V11 earste: 0 / 13 → Twadde update: 0 / 87,412 Gjin falske posityven op skaal fan de befolking (8,723 trap-gefallen kontrolearre)

Wat de kopscore ús net fertelt

In gearstalde skoare fan 99.80 prosint ûnder dizze spesifike foarôf registrearre rubryk, op in syntetyske kohort fan 100,000 gefallen oer 127 lânlabels, stiet foar hast-plafondprestaasjes — mar it fertsjinnet soarchfâldige ynkadering. It resultaat beskriuwt it gedrach fan de motor tsjin de rubryk dêr’t wy ús oan holden yn boarnekoade yn V11; it is gjin universele claim oer de korrektens fan de motor op elk bloedtestpaniel dat yn it wyld bestiet.

De skoare seit dat de motor de diagnostyske patroanen dy’t selektearre binne foar dizze evaluaasje korrekt ôfhannelje hat oer in kohort op skaal fan de befolking, mei in metodyk dy’t publisearre en reprodusearber is. It seit net dat de motor korrekt is op elke bloedtestpaniel dy’t yn it wyld bestiet. It seit net dat de motor it oardiel fan klinisy ferfange moat. En it seit net dat de motor better presteart as alternative AI-systemen — fergelykjende analyses tsjin oare motoren wiene doelbewust bûten it berik fan dit rapport.

Wat de skoare wol fêststelt is in basisline. Mei de rubryk en de harness iepenbier, kinne takomstige ferzjes fan de motor evaluearre wurde tsjin deselde rubryk — tapast op de V11 earste 15 gefallen, de Twadde update 100,000-gefallen kohort, of elke folgjende útwreiding — en it gat tusken de publisearre skoare en elke folgjende run is sels mjitber. Dat is de wearde fan pre-registraasje: it konvertearret prestaasjeclaims nei testbere claims.

Hoe’t jo dit benchmark yn 10 minuten neikomme kinne

Reproduksje fereasket allinnich in Kantesti API-credential pear en in Python 3.10 of letter omjouwing mei de requests en reportlab biblioteken ynstallearre. De folsleine harness is ien inkeld, selsstannich Python-module útbrocht ûnder de MIT-lisinsje.

Reproducibility-netwurkdiagram dat de V11 Second Update benchmark toant (99.80% komposit, 100.000 gefallen, 127 lân-labels) spegele oer Figshare, ResearchGate, Academia.edu en GitHub mei de Figshare DOI as kanonike anker
Figuer 5: De V11 Twadde update benchmark — 99.80% gearstalde skoare op 100,000 gefallen oer 127 lânlabels — wurdt spegele oer fjouwer ûndersyksplatfoarms. De Figshare DOI is de kanonike wittenskiplike identifier; ResearchGate (publikaasje 404175463), Academia.edu (paper 165956808), en GitHub hostje parallelle kopyen mei de benchmark-harnas, de stratified random sample fan rauwe antwurden, en de per-lân-label/per-spesjaliteit scorecards.

Fjouwer stappen foar in nije run

Ien. Klonearje de repository: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Twa. Ynstallearje ôfhinklikens mei pip install -r requirements.txt (Twadde update foeget ta mysql-connector-python ≥ 8.0 foar de SQL-case loader). Trije. Stel yn KANTESTI_USERNAME en KANTESTI_PASSWORD as omjouwingsfariabelen foar de motor-API. Foar de Twadde update SQL case loader, set ek KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, en KANTESTI_DB_PASSWORD — de loader ferbynt fia in allinnich-lêze rol (bench_reader) dy't gjin privileezjes hat foar it identifisearjen fan tabellen. Fjouwer. Rinne python benchmark_bloodtest.py --limit 100000 foar de folsleine Second-Update-run, of python benchmark_bloodtest.py --limit 1000 foar flugge iteratie. Utfier komt telâne yn ./benchmark_results/: in CSV-scorecard mei per-lân-label en per-spesjaliteit kolommen, in JSON-aggregaat, in stratified-random rauwe-antwurd-sample, en in Markdown-rapport.

De referinsjeruns fan 23 april 2026 (V11 earste, 15 gefallen) en 26 april 2026 (V11 Second Update, 100,000 gefallen) wurde bewarre yn de results/ map fan it repository. In nije run sil in nije, mei-timestampke scorecard generearje wylst de referinsjeruns ûnreplike litte. As jo run in betsjutlik oars resultaat jout, iepenje dan asjebleaft in GitHub-issue mei de run-timestamp en de engine-ferzje dy’t weromjûn is yn de response-metadata.

Beheiningen en takomstich wurk

Sels by 100.000 gefallen oer 127 lân-labels hinne, fertsjinje fjouwer beheiningen in dúdlike oantekening: undersampling fan long-tail labels, single-shot evaluaasje, single-engine omfang, en single-source gegevensboarne. Elk dêrfan wurdt oanpakt yn aktyf follow-up wurk.

Dekking fan long-tail labels. De Twadde Update rint oer 127 lân-labels, mar de ferdieling is net balansearre — de top 10 labels steane foar ≈66.4% fan de gefallen, en de long tail fan 97 ekstra labels draacht tegearre ≈7.3% by (sa’n 7.300 gefallen yn totaal, ~75 gefallen per label gemiddeld). Per-label-kompositen yn dizze long tail binne dêrom lûder as de headline-sifers suggerearje. Takomstige runs sille de label-tawizing werbalansearje om per-label-skattingen fêst te lizzen.

Single-shot-evaluaasje. Elk gefal yn de kohort waard ien kear evaluearre. Grutte taalmodellen litte net-triviale fariânsje yn útfier sjen sels by lege samplingtemperatuer, dus in multi-run-protokol mei fiif evaluaasjes per gefal en rapporteare fariânsje is in natuerlike folgjende stap — benammen op de trap-case-subset, dêr’t konsistinsje ûnder sampling-jitter diel is fan de feiligensclaim.

Single-engine-omfang. Dit rapport karakterisearret ien engine. Ferlykjende analyses tsjin alternative AI-systemen falle bûten it omfang hjir; wy kinne se mooglik as in aparte ûnôfhinklike stúdzje ûndernimme mei passende metodology, tsjin deselde MIT-lisinsje-harnas.

Syntetyske gegevens. De 100.000 gefallen binne syntetysk generearre, net syntetyske gefallen, en de resultaten oersette net nei klinyske prestaasjes yn de echte wrâld. Evaluaasje op echte, tastiene, ekstern boarne gegevens soe passende etyske oersjoch fereaskje en falt bûten it berik fan dizze syntetyske benchmark.

Bûten dizze fjouwer is de meast ynfloedrike plande útwreiding multi-taal-pariteit per jurisdiksje. De Kantesti AI Engine tsjinnet brûkers yn 75+ talen, en it draaien fan taal-stratifisearre Second-Update-subkohorten (Turksk, Dútsk, Spaansk, Frânsk, Italiaansk, Portugeesk, Arabysk, Mandaryn) sil de útfierkwaliteit kwantifisearje oer de troch de engine stipe talen. Elke taal-stratifisearre analyse sil publisearre wurde mei syn eigen DOI en harnas-branch.