Miks see võrdlusnäitaja olemas on ja mida see testib

AI-toega vereanalüüsi tulemuste tõlgendamist kasutatakse üha enam nii tarbija- kui ka kliinilistes töövoogudes, kuid reprodutseeritavad hindamisraamistikud, mis on kohandatud laborimeditsiinile, on endiselt haruldased. Selles kontekstis kõige olulisemad küsimused ei ole need, mida katavad üldised meditsiinilise küsimuse-vastuse võrdlusülesanded: kas mootor suudab eristada rauavaegust talasseemia tunnusest, kui keskmine erütrotsüütide maht on identne; kas see ülediagnoosib Gilberti sündroomi hepatiidina; ja kas see tekitab patoloogiat täielikult normaalses sõeluuringu paneelis?

Eelregistreeritud hindamisrubriigi vooskeem, mis näitab, kuidas Kantesti AI mootorit hinnatakse külmutatud hindamiskriteeriumide alusel
Joonis 1: Võrdluse arhitektuur — iga juhtum, iga märksõna, iga hindamissüsteem on fikseeritud lähtekoodis enne, kui mootor näeb ühtegi PDF-i. Järelehäälestus hindamisskeemi osas ei ole disaini järgi võimalik.

Üksik vereanalüüsi paneel sisaldab tavaliselt piisavalt signaali, et toetada mitut konkureerivat tõlgendust, ning tõlgendava arsti ülesanne on kaaluda neid tõlgendusi omavahel, mitte otsida õpikust “õiget vastust”. Hea jõudlusega mootor õpikujuhtumites võib siiski läbi kukkuda just kõige olulisematel juhtudel: diferentsiaaldiagnoosi lõksudes, healoomulistes variantides, mis näivad üksinda vaadates murettekitavad, ning täielikult normaalsetes paneelides, mis panevad enesekindlad abistajad tootma patoloogiat.

See võrdluskomplekt loodi täpselt nende läbikukkumisviiside ümber. Kõik viisteist juhtumit valiti kindla diagnostilise omaduse järgi: rauavaeguslik mikrotsütoos, mida tuleb hoida eraldi beetatalasseemia tunnusest, millel on identne keskmine erütrotsüütide maht; Gilberti sündroomi esitus, kus ainus kõrvalekalle on isoleeritud kaudne hüperbilirubineemia; ning viieteistparameetriline sõeluspaneel, milles iga analüüt jääb oma referentsvahemikku. Hindamisskeem premeerib mootoreid, mis loevad iga juhtumit selle enda tingimustel, ning karistab mootoreid, mis jõuavad enesekindla diagnoosini, kui sellist diagnoosi ei ole põhjendatud.

Dr Thomas Kleinina valisin juhtumipaneeli, sest need on mustrid, mida laborimeditsiini abistajad kõige sagedamini valesti mõistavad. Kulukas läbikukkumisviis ei ole "haruldase haiguse vahelejätmine" — see on rutiinse patoloogia väljamõtlemine patsientidel, kellel seda ei ole. Meie Meditsiiniline valideerimine hub kirjeldab laiemat raamistikku; see leht kirjeldab selle rakendatud tulemust V11 mootoris.

Viimane võrdlusjooks — V11 (aprill 2026)

Kantesti AI mootori V11 aprilli 2026 võrdlusanalüüsi jooks andis liitskoori 99.12% eelregistreeritud viieteistkümne juhtumi hindamisskeemis. Mõlemad hüperdiagnoosi lõksu juhtumid said maksimumskoori. Mentzeri indeks rakendati õigesti rauavaeguse ja talasseemia diferentsiaali puhul.

Liit 99.12% 15/15 juhtumit said
0.998 Struktuurne skoor
0.998 Kliiniline skoor
20,17 s Keskmine latentsus
0 / 13 Lõksu valepositiivid

Liitvalem ühendab kolm komponenti: struktuurne vastavus seitsme kohustusliku aruandlõigu ja kuusteist kohustusliku alalõiguga, kliiniline täpsus mõõdetuna märksõna-taastena (keyword recall) pluss skoorimissüsteemi taastena (scoring-system recall) pluss tõenäosusjaotuse kehtivuse kontrollina ning vastuse latentsus võrreldes 20-sekundilise esmase teenustaseme sihtmärgiga. Täpne jaotus on näidatud allolevas hindamisskeemi valemis.

Liit = 0.35 × Struktuur + 0.55 × Kliiniline + 0.10 × Latentsus

Ülejäänud 0,88 protsendipunkti „varuruumi“ jaotus laguneb peaaegu täielikult latentsuskadudeks — kolm 2. faasi tagavarakõne (fallback) väljakutset, millest igaühe komposiit oli miinus 0,05, andsid kokku umbes 0,60 0,88-punktilisest puudujäägist — mitte kliiniliseks sisuks. Mootor ei jätnud üheski viieteistkümnest juhtumist vahele ühtki õiget diagnoosi; kui ta jäi alla, siis tegi seda väheses osas väljakutsetest, võttes veidi kauem kui 20-sekundiline esmane sihtaja.

Viisteist juhtumit seitsmest meditsiinierialast

Juhtumipaneel hõlmab seitset eriala — hematoloogia, endokrinoloogia, metaboolne meditsiin, hepatoloogia, nefroloogia, kardioloogia, reumatoloogia — ning lisaks kahte pühendatud hüperdiagnoosi lõksu (hyperdiagnosis trap) juhtumit. Iga juhtum on anonümiseeritud tegeliku patsiendi andmekirje, mis on pärit Kantesti kliiniliste andmete hoidlast kirjaliku teadliku nõusoleku alusel.

Katvuse kaart viieteistkümne anonümiseeritud vereanalüüsi juhtumi kohta, jaotatuna seitsme meditsiinieriala vahel, lisaks hüperdiagnoosi lõksujuhtumitele
Joonis 2: Juhtumite jaotus hematoloogia, endokrinoloogia, metaboolse meditsiini, hepatoloogia, nefroloogia, kardioloogia, reumatoloogia vahel, lisaks kaks lõksujuhtumit — Gilberti sündroom ja täielikult normaalne sõeluuringupaneel.

De-identifitseerimine tehti Safe Harbori lähenemise järgi: kõik otsesed identifikaatorid eemaldati või asendati ning igale kirjele määrati võrdlusalus-sisene juhtumikood vormingus BT-NNN-LABEL. Töötlemine viidi läbi kooskõlas GDPR artikliga 9(2)(j) teaduslikuks uurimistööks koos asjakohaste kaitsemeetmetega ning vastavate Ühendkuningriigi GDPR-i sätetega. Üheski avaldatud „harness’is“, tehnilises aruandes ega avaldatud andmekogumites ei esine isikuandmeid, mis võimaldaksid isikut tuvastada.

Hematoloogia (3) BT-001, BT-006, BT-007 Rauavaegusaneemia · B12 puudus · Beeta-talasseemia minor
Endokrinoloogia (3) BT-002, BT-008, BT-012 Hashimoto türeoidiit · PCOS koos insuliiniresistentsusega · Raske D-vitamiini puudus
Metaboolne (2) BT-003, BT-013 T2DM koos metaboolse sündroomiga · Hüpereurikeemia koos podagra riskiga
Hepatoloogia (2) BT-004, BT-009 NAFLD / NASH · Äge viirushepatiit
Nefroloogia · Kardioloogia · Reumatoloogia (3) BT-005, BT-010, BT-011 KKT (CKD) staadium 3 · Aterogeenne düslipideemia · Süsteemne erütematoosne luupus
Lõksujuhtumid (2) BT-014, BT-015 Gilberti sündroom (isoleeritud kaudse hüperbilirubineemia) · Täiesti normaalne täiskasvanu sõeluuring

Miks just see jaotus

Hematoloogia saab kolm juhtumit, sest mikrotsütaarsed diferentsiaaldiagnoosid ja makrotsütaarsed diferentsiaaldiagnoosid on reaalsetes laboripraktikates suurima mahuga lõksud. Endokrinoloogia saab kolm juhtumit, sest Hashimoto tõve, PCOS-i ja D-vitamiini puuduse esinemisvormid treenivad erinevaid diagnostilisi mustreid (autoantikehade juhitud, hormoonide suhte juhitud, ühe markeri juhitud). Ühe juhtumi erialad on endiselt tähenduslikud, sest igal neist — K K D, ASCVD riski ja SLE — on oma hindamissüsteem, mida mootor peaks kasutama (vastavalt KDIGO staadium, ASCVD 10-aastane risk, 2019 EULAR/ACR SLE kriteeriumid).

Eelregistreeritud hindamisjuhis, selgitatud

Eelregistreerimine on selles võrdluses kõige olulisem metoodiline valik. Iga oodatud diagnoos, iga kliiniline hindamissüsteem ja iga aruande osa pühendati lähtekoodile enne kui mootor käivitati. Seega ei ole võimalik rubriiki tagantjärele kohandada, et mootorit soosida.

Komposiitpunkti moodustavad kolm komponenti. struktuurne komponent annab 35 protsenti ja mõõdab, kas mootor tagastas seitse kohustuslikku aruandeosa (päis, kokkuvõte, peamised leiud, diferentsiaal, hindamissüsteemid, soovitused, järelkontroll) ning nende sees olevad kuusteist kohustuslikku alajaotust. Jaotise olemasolu kaalub struktuurses arvutuses 40 protsenti ja alajaotise olemasolu 60 protsenti.

The kliiniline komponent annab 55 protsenti ja koondab kolm asja: diagnoosi- märksõna meeldetuletus (70 protsenti kliinilisest alamkoondist), hindamissüsteemi meeldetuletus (20 protsenti — kas mootor arvutab asjakohaselt Mentzeri, FIB-4, HOMA-IR, ASCVD riski, KDIGO staadiumi, EULAR/ACR kriteeriumid) ning tõenäosuste summa paikapidavuse kontroll (10 protsenti — diferentsiaalsete tõenäosuste summa peab jääma vahemikku [90, 110]). Lõksujuhtumite korral lahutatakse selgesõnaline hüperdiagnoosi karistus kuni 0.30, arvutatuna 0.10 iga väljamõeldud patoloogia lipu eest, maksimaalselt kolm lippu.

The latentsuskomponent annab 10 protsenti. Vastus alla 20 sekundi annab täissumma 0.10, vastus alla 40 sekundi annab 0.05 ja kõik, mis on aeglasem, annab nulli. 20-sekundiline siht peegeldab tootmise primaarse primary-path teenuse taseme eesmärki; 40-sekundiline lagi peegeldab 2. faasi varuressurssi raskete mootorikõnede jaoks.

Lõppkuva MIT-litsentsiga Kantesti võrdluskatsetest (benchmark harness), mis töötab ja väljastab juhtumipõhised skoorid
Joonis 3: Rakenduse testikoda. Iga juhtum renderdatakse A4 PDF-iks, postitatakse tootmise v11 lõpp-punkti ja hinnatakse külmutatud rubriigi alusel. Iga toorvastus salvestatakse koos koondatud skoorikaardiga.

Mida eelregistreerimine väldib

Esimese osapoole võrdlused on tuntud selle poolest, et nad paisutavad oma numbreid tagantjärele rubriiki kohandades. Muster on peaaegu alati sama: meeskond käivitab mootori, näeb, kus see alajääb, ja kohandab seejärel vaikselt rubriiki nii, et alajäävad valdkonnad loevad vähem. Kui rubriik pühendatakse lähtekoodile enne esimest mootorikõnet ja testikoda avaldatakse MIT-litsentsi all, muutub see kohandamine nähtavaks versioonihalduses. Igaüks saab hoidla kloonida, kontrollida rubriigi autori kuupäevi ja veenduda, et mootori tulemusi ei kasutatud skoori kujundamiseks.

Hüperdiagnoosi lõksu juhtumid — miks üle-pakkumine on tegelik läbikukkumise viis

Patoloogia agressiivne üle-ülestõstmine normaalsetel skriiningutel on tarbijale suunatud meditsiiniliste abistajate dokumenteeritud tõrkeviis. Selle tagajärgede hulka kuuluvad tarbetu uuring, patsiendi ärevus ja iatrogeenne diagnostika. Selle võrdluse kaks lõksujuhtumit on loodud selle tõrkeviisi nähtavaks ja hinnatavaks muutmiseks.

Kõrvuti võrdlus, kus naiivne tehisintellekt fabritseerib Gilbert’i sündroomi paneelil hepatiidi, võrreldes Kantesti mootoriga, mis tuvastab õigesti healoomulise UGT1A1 polümorfismi
Joonis 4: Lõksujuhtumi disain. Mootor, mis märgistab enesekindlalt Gilberti sündroomi hepatiidiks või tekitab piiriülese patoloogia täiesti normaalsel skriiningul, saab karistuse — mitte tasu selle eest, et kõlab kliiniliselt.

🟡 Lõks 1 — BT-014-GILBERT

Esitlus. 24-aastane mees, kelle üldbilirubiini tase on 2.4 mg/dL. Otsene fraktsioon on normaalne, transaminaasid ja alkaalne fosfataas jäävad oma referentsvahemikesse, retikulotsüüdid on silmapaistmatud ning haptoglobiin ja LDH välistavad hemolüüsi.

Õige tõlgendus. Gilberti sündroom — healoomuline UGT1A1 polümorfism. Tõlgendus ei tohiks kutsuda esile hepatiiti, tsirroosi, hemolüütilist aneemiat ega sapiteede obstruktsiooni.

V11 tulemus. Komposiit 1.000. Ükski kuuest jälgitavast üle-diagnoosimise lipust ei ilmunud aktiivsete diagnoosidena.

🟡 Lõks 2 — BT-015-HEALTHY

Esitlus. 35-aastane naine, kellel on viieteist parameetriga rutiinne sõeluuringu paneel. Iga analüüt asub mugavalt oma referentsvahemikus.

Õige tõlgendus. Kinnitamine ja elustiili säilitamine. Tõlgendus ei tohiks luua piiriülest patoloogiat, et kõlada kliiniliselt kasulikuna.

V11 tulemus. Komposiit 1.000. Ükski seitsmest jälgitud ülediagnoosimise märgistusest — diabeet, aneemia, hüpotüreoos, düslipideemia, hepatiit, neeruhaigus, puudulikkus — ei esinenud aktiivsete diagnoosidena.

Mõlemas lõksus kontrolliti kokku 13 jälgitud hüperdiagnoosimise märgistust. Ükski neist ei käivitunud. See on tulemus, mis on kõige olulisem igale kliinikule, kes kaalub AI-mootori kasutamist triaaži- või eelkonsultatsiooni tööriistana: süsteem ei leiutanud haigust, kui seda ei olnud.

Mentzeri indeks: rauapuuduse eristamine talasseemia kandlusest

Teine kõrge väärtusega leid puudutab juhtumite sidumist: juhtum BT-001 (rauavaegusaneemia) koos juhtumiga BT-007 (beeta-talasseemia minor). Mõlemad avalduvad mikrotsütoosiga ning on hästi tuntud komistuskivi naiivsetele klassifikaatoritele. Mentzeri indeks, mis arvutatakse MCV jagatuna RBC arvuga, on rauavaeguse korral üle 13 ja talasseemia tunnuse korral alla 13.

BT-001 puhul oli patsient 34-aastane naine, kelle hemoglobiin oli 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritiin 6 ng/mL ja TIBC oli suurenenud. Mentzeri indeks ligikaudu 17,7 toetab absoluutset rauavaegust. BT-007 puhul oli patsient 28-aastane mees, kellel oli mikrotsütoos (MCV 65,8 fL), kuid kõrge RBC arv 6,2, normaalne RDW, normaalne ferritiin ja HbA2 5,6 protsenti. Mentzeri indeks ligikaudu 10,6 viitab talasseemia tunnusele ning suurenenud HbA2 kinnitab beeta-talasseemia minor’i.

Rauavaegusaneemia Mentzer > 13 Madal ferritiin, madal TSAT, kõrge TIBC, suurenenud RDW
Beeta-talasseemia tunnus Mentzer < 13 Normaalne ferritiin, normaalne RDW, suurenenud HbA2 (>3.5%), kõrge RBC arv

Mõlemad juhtumid said skooriks 1.000. Mootor kasutas Mentzeri indeksit mõlemas tõlgenduses sõnaselgelt ning tagastas igal korral õige diagnoosi. See on kogu võrdlusaluse üks kõige kliiniliselt rahustavam tulemus, sest talasseemia tunnuse valesti liigitamine rauavaeguseks viib sobimatu raua lisamiseni ja jätab kasutamata perekondliku sõeluuringu võimalused ning rauavaeguse valesti liigitamine talasseemiaks viivitab lihtsa asendusraviga. Meie ferritiini vahemiku juhend selgitab laiemat diferentsiaaldiagnostika konteksti.

Juhtumipõhised tulemused 2026. aasta aprilli jooksust

Viieteistkümnest juhtumist saavutas 12 esmasel teel ülemmäära komposiit-skoori 1.000. Kolm juhtumit teenindati 2. faasi tagavarameetodi kaudu, kaotades 0,05 latentsuse boonuse, kuid säilitades kogu kliinilise ja struktuurse sisu. Ühel juhul puudus üksainus kohustuslik alajaotis; ühel juhul tagastas marginaalselt vähendatud tõenäosusjaotuse summa.

Juhtumi ID Eriala Liit Latentsus Tee
BT-001-IDAHematoloogia1.00017,8 sesmane
BT-006-B12Hematoloogia1.00018,4 sesmane
BT-007-THALHematoloogia1.00017,0 sesmane
BT-002-HASHEndokrinoloogia0.95037,0 svaruvõimalus
BT-008-PCOSEndokrinoloogia0.98718,6 sesmane
BT-003-T2DMAinevahetus1.00019,1 sesmane
BT-013-GOUTAinevahetus1.00019,4 sesmane
BT-004-NAFLDHepatoloogia1.00019,6 sesmane
BT-009-VIRHEPHepatoloogia0.95023,4 svaruvõimalus
BT-014-GILBERTLõks1.00018,9 sesmane
BT-005-CKDNefroloogia1.00017,4 sesmane
BT-010-ASCVDKardioloogia1.00019,7 sesmane
BT-011-SLEReumatoloogia0.98118,2 sesmane
BT-012-VITDEndokrinoloogia1.00019,3 sesmane
BT-015-HEALTHYLõks1.00018,7 svaruvõimalus

PCOS-i juhtum (BT-008) kaotas vastuse struktuurist ühe kohustusliku alajaotuse — kuusteist kuueteistkümnest asemel viisteist kuueteistkümnest — mis vähendas struktuuripunkti 1,000-lt 0,963-ni. SLE-i juhtum (BT-011) tagastas marginaalselt vähendatud tõenäosusjaotuse summa, mis langetas kliinilise punkti 0,965-ni, säilitades samal ajal kõik diagnostilised märksõnad ja punktisüsteemi. Ükski neist ideaalsusest madalamal juhtumist ei jätnud õiget diagnoosi vahele.

Mida pealkirja skoor meile ei ütle

Selle konkreetse eelregistreeritud hindamisraamistiku alusel saadud liitpunktisumma 99,12 protsenti tähendab peaaegu lae tasemel sooritust, kuid seda tuleb hoolikalt kontekstualiseerida. Tulemus kirjeldab mootori käitumist viieteistkümne hoolikalt valitud anonümiseeritud juhtumi suhtes, hinnates igaüht üks kord, kasutades ühtainsat hindamisraamistikku. Me täpsustame selgelt, mida number näitab ja mida see ei tõesta.

Punktisumma ütleb, et V11 mootor käsitles selle hindamise jaoks valitud diagnostilisi mustreid õigesti, metoodikaga, mis on avaldatud ja taasesitatav. See ei ütle, et mootor on õige iga olemasoleva vereanalüüsi paneeli puhul. See ei ütle, et mootor peaks asendama kliiniku otsust. Ja see ei ütle, et mootor on parem alternatiivsetest tehisintellekti süsteemidest — võrdlevad analüüsid teiste mootorite vastu jäeti käesoleva aruande ulatusest teadlikult välja.

Mida punktisumma tõepoolest tõestab, on lähtepunkt. Kui hindamisraamistik ja katseplatvorm on avalikud, saab mootori tulevasi versioone hinnata samade viieteistkümne juhtumi põhjal ning vahe avaldatud punktisumma ja mis tahes järgneva jooksu vahel on ise mõõdetav. See on eelregistreerimise väärtus: see muudab tulemusnõuded testitavateks nõueteks.

Kuidas seda võrdlusnäitajat 10 minutiga korrata

Taasesitamiseks on vaja vaid Kantesti API mandaadi paari ja Python 3.10 või uuemat keskkonda koos requests ja reportlab teegid on paigaldatud. Täielik katseplatvorm on üksainus iseseisev Python-moodul, mis on välja antud MIT-litsentsi alusel.

Reprodutseeritavuse võrgudiagramm, mis näitab, et võrdlus on peegeldatud Figshare’is, ResearchGate’is, Academia.edu’s ja GitHubis, kusjuures Figshare DOI on kanooniline ankur
Joonis 5: Võrdlus on peegeldatud neljal teadusplatvormil. Figshare DOI on kanooniline teaduslik identifikaator; ResearchGate, Academia.edu ja GitHub majutavad paralleelseid koopiaid koos koodi ja toorandmetega.

Neli sammu värske jooksu jaoks

Üks. Klooni hoidla: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Kaks. Installi sõltuvused käsuga pip install -r requirements.txt. Kolm. Määra KANTESTI_USERNAME ja KANTESTI_PASSWORD keskkonnamuutujatena — mandaadid loetakse käitusajal ja skriptis ei ole midagi kõvakodeeritud. Neli. Käivita python benchmark_bloodtest.py ja vaata töökaustas loodud nelja artefakti: CSV skoorikaart, JSON skoorikaart, täielik JSON-i väljavõte koos toorete mootori vastustega ning inimloetav Markdowni aruanne.

Võrdlusjooks 23. aprillist 2026 on säilitatud results/ hoidla kataloogis. Uus jooks loob uue ajatempliga skoorikaardi, jättes võrdlusjooksu puutumata. Kui sinu jooks annab sisuliselt erineva tulemuse, palun ava GitHubi issue koos jooksu ajatempli ja vastuse metaandmetes tagastatud mootori versiooniga.

Piirangud ja edasine töö

Neli piirangut väärivad selgesõnalist äramärkimist: valimi suurus, ühekordne hindamine, ühe mootori ulatus ja ühe andmeallika päritolu. Kõiki neist käsitletakse aktiivses järeltegevuses.

Valimi suurus. Viisteist juhtu kaheksas erialakategoorias sobib tõestuskatseks, kuid mitte alarühmade analüüsiks eriala sees. Plaanis on laiendada 50 juhuni ning lisada koagulatsioonipaneelid, hematoloogiliste pahaloomuliste kasvajate sõeluuring, raseduspaneelid ja pediaatrilised juhud.

Ühekordne hindamine. Iga juhtum hinnati üks kord. Suured keelemudelid näitavad mitte-triviaalselt väljundite varieeruvust isegi madala proovivõtu temperatuuri korral, seega on loomulik järgmine samm mitme jooksu protokoll: viis hindamist iga juhtumi kohta ja raporteeritud varieeruvus.

Ühe mootori ulatus. Käesolev aruanne iseloomustab üht mootorit. Võrdlevad analüüsid alternatiivsete tehisintellekti süsteemidega jäävad siinsest käsitlusest välja; võime neid käsitleda eraldi sõltumatu uuringuna koos asjakohase metoodikaga.

Ühe andmeallika päritolu. Viisteist juhtumit on anonüümitud päris patsientide andmed, mis pärinevad ühest kliinilisest andmehoidlast. Need esindavad kureeritud valimit ega ole populatsiooni esindav juhuslik valik. Hindamise laiendamine mitme keskuse andmetele on teekaardil.

Kõige mõjukam planeeritud laiendus on mitmekeelne samaväärsus. Kantesti AI Engine teenindab kasutajaid 75+ keeles ning sama viieteistkümne juhtumi testipaketi käivitamine türgi, saksa, hispaania, prantsuse ja araabia keeles kvantifitseerib väljundi kvaliteedi kogu mootori toetatud keeltes. Avaldame iga keelepõhise jooksu koos oma DOI ja testipaketi haruga.