Kantesti AI vereanalüüsi võrdlusalus — kliiniline valideerimine

Automatiseeritud võrdluskatse Eelregistreeritud võrdlusnäitaja V11 teine uuendus — aprill 2026 MIT-litsentsiga Korratav · Avatud andmed 100K sünteetiline kohort · 127 riigimärgendit

99.80% komposiitne skoor eelregistreeritud hindamisjuhendi alusel — V11 teine uuendus, 100 000 juhtumi kohort 127 riigimärgendiga

Eelregistreeritud, hindamisjuhendil põhinev automatiseeritud tehniline võrdlusalus Kantesti mootorile 100 000 sünteetiliselt genereeritud vereanalüüsi juhtumiga, millele on lisatud 127 riigimärgendit. See mõõdab väljundi vastavust, mitte diagnostilist täpsust. Hindamisjuhend külmutati lähtekoodis enne V11 esmast väljalaset ja hoiti selle teise uuenduse jaoks bait-täpselt samana; hindamisraamistik on MIT-litsentsiga; avaldatud on kihistatud juhuslik valim toormootori vastustest kontrollimiseks. Kõik juhtumid on sünteetilised; isikuandmeid ei kasutata.

📖 ~14 minutit 📅 Avaldatud 23. aprillil 2026 · Uuendatud 26. aprillil 2026 (V11 teine uuendus) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Avaldatud: 23. aprill 2026 🔄 V11 teine uuendus: 26. aprill 2026 🩺 Meditsiiniliselt üle vaadatud: 26. aprill 2026 ✅ Eelregistreeritud hindamisraamistik (bait-täpselt identne) 🔓 Avatud kood ja andmed

Selle automatiseeritud võrdluskatse kavandas ja käivitas Julian Emirhan Bulut, vanem tehisintellekti insener ja tegevjuht (CEO) ettevõttes Kantesti Ltd. Hindamine on täielikult automatiseeritud lähtekoodis; hindamiskriteeriumid ja juhtumipaneel töötati välja kliinilise sisendi põhjal Dr. Thomas Klein, meditsiinidoktor, Kantesti AI peaarst (Chief Medical Officer), ning need vaatas üle Kantesti tehisintellekti meditsiiniline nõuandekogu. See on iseseisvalt käivitatud sisemine võrdlusalus, mitte sõltumatu või eelretsenseeritud automatiseeritud tehniline võrdlusalus.

Peaautor ja kliiniline järelevalve

Thomas Klein, arst

Kantesti tehisintellekti peaarst

Dr. Thomas Klein on juhatuse poolt sertifitseeritud kliiniline hematoloog ja sisehaiguste arst, kellel on üle 15 aasta kogemust laborimeditsiinis. Kantesti AI meditsiinijuhina valis ta selle võrdlusaluse jaoks juhtumipaneeli, vaatas üle sünteetiliste juhtumite kliinilise sisu ja oodatud vastused ning kiitis heaks eelregistreeritud hindamisjuhendi enne esimest mootori käivitamist.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Kaasautor ja rakendamine

Julian Emirhan Bulut

Vanem tehisintellekti insener ja tegevjuht, Kantesti Ltd

Julian Emirhan Bulut on Kantesti Ltd asutaja ja tegevjuht. Ta kavandas ja rakendas hindamisplatvormi — sealhulgas SQL-i juhtumilaaduri, mis lisati V11 teise uuenduse jaoks — teostas API integratsiooni, viis läbi nii V11 esmast võrdlusjooksu kui ka V11 teise uuenduse 100 000 juhtumi jooksu ning koostas statistilise koondamise. Platvormi asutaja alates 2019. aastast.

GitHub Kantesti kohta

⚡ Kiire kokkuvõte V11 teine uuendus — 26. aprill 2026

99.80% komposiit-skoor 100 000 sünteetilisel vereanalüüsi juhtumil kaheksas meditsiinierialas ja 127 riigimärgendiga (V11 teine uuendus).
Puuduvad hüperdiagnoosi valepositiivsed tulemused 87 412 jälgitava „trap-case“ lipu võimaluse ulatuses — sama „trap-case“ metoodika mis V11 esmases, skaleeritud rahvastiku tasemele.
Eelregistreeritud hindamisskeem külmutatud lähtekoodis enne V11 esmast jooksu ja hoitud bait-täpselt samana selle teise uuenduse jaoks — järeltöötluse (post-hoc) häälestamine ei olnud võimalik.
Mentzeri indeks rakendatud õigesti eristamaks rauavaegusaneemiat β-talasseemia minorist V11 esmases väljalaskes; eristav käitumine säilitati rahvastiku mastaabis.
Ainult tootmise lõpp-punkt — puudub privilegeeritud suunamine; hinnati täpselt nii, nagu seda kasutaks tasuv klient.
13,26 sekundi keskmine latentsus otsast lõpuni (vahemik 9,0–16,94 s), kusjuures kõik 100 000 juhtumit lõpetasid mootori esmase tee kaudu.
Sünteetiline kohort. 100 000 sünteetiliselt genereeritud testjuhtumit laaditakse käituse ajal. Ei kasutata sünteetilisi andmeid ega isikuandmeid.
MIT-litsentsiga testimiskomplekt avaldatud GitHubis kihistatud juhusliku valimina (n = 201) kõigist mootori täielikest toorvastustest kontrollimiseks.
Figshare DOI: 10.6084/m9.figshare.32095435 · Peegeldatud ResearchGate’is, Academia.edu’s, GitHubis.

Miks see võrdlusnäitaja olemas on ja mida see testib

AI-toega vereanalüüsi tulemuste tõlgendamist kasutatakse üha enam nii tarbija- kui ka kliinilistes töövoogudes, kuid reprodutseeritavad hindamisraamistikud, mis on kohandatud laborimeditsiinile, on endiselt haruldased. Selles kontekstis kõige olulisemad küsimused ei ole need, mida katavad üldised meditsiinilise küsimuse-vastuse võrdlusülesanded: kas mootor suudab eristada rauavaegust talasseemia tunnusest, kui keskmine erütrotsüütide maht on identne; kas see ülediagnoosib Gilberti sündroomi hepatiidina; ja kas see tekitab patoloogiat täielikult normaalses sõeluuringu paneelis?

Üksik vereanalüüsi paneel sisaldab tavaliselt piisavalt signaali, et toetada mitut konkureerivat tõlgendust, ning tõlgendava arsti ülesanne on kaaluda neid tõlgendusi omavahel, mitte otsida õpikust “õiget vastust”. Hea jõudlusega mootor õpikujuhtumites võib siiski läbi kukkuda just kõige olulisematel juhtudel: diferentsiaaldiagnoosi lõksudes, healoomulistes variantides, mis näivad üksinda vaadates murettekitavad, ning täielikult normaalsetes paneelides, mis panevad enesekindlad abistajad tootma patoloogiat.

See võrdluskomplekt loodi täpselt nende läbikukkumisviiside ümber. Kõik viisteist juhtumit valiti kindla diagnostilise omaduse järgi: rauavaeguslik mikrotsütoos, mida tuleb hoida eraldi beetatalasseemia tunnusest, millel on identne keskmine erütrotsüütide maht; Gilberti sündroomi esitus, kus ainus kõrvalekalle on isoleeritud kaudne hüperbilirubineemia; ning viieteistparameetriline sõeluspaneel, milles iga analüüt jääb oma referentsvahemikku. Hindamisskeem premeerib mootoreid, mis loevad iga juhtumit selle enda tingimustel, ning karistab mootoreid, mis jõuavad enesekindla diagnoosini, kui sellist diagnoosi ei ole põhjendatud.

Dr Thomas Kleinina valisin juhtumipaneeli, sest need on mustrid, mida laborimeditsiini abistajad kõige sagedamini valesti mõistavad. Kulukas läbikukkumisviis ei ole "haruldase haiguse vahelejätmine" — see on rutiinse patoloogia väljamõtlemine patsientidel, kellel seda ei ole. Meie Meditsiiniline valideerimine „hub“ kirjeldab laiemat raamistikku; see leht kirjeldab V11 esmast tõestuskontseptsiooni ja V11 teist uuendust, mis skaleeris selle 100 000 sünteetilisele juhtumile, mis on võetud sünteetilisest juhtumite kogumist, mis hõlmab 127 riigimärgendit — kasutades sama hindamisjuhendit, bait-täpselt, ilma järelhäälestuseta.

Viimane võrdlusjooks — V11 teine uuendus (26. aprill 2026)

V11 teise uuenduse võrdlusjooks 26. aprillil 2026 andis liitskoori 99.80% samal eelregistreeritud hindamisjuhisel, mida kasutati V11 esialgses väljalaskes, hinnatuna 100 000 sünteetilist juhtumit võetud Kantesti sünteetilisest juhtumite kogumist ja hõlmates 127 riigimärgendit ja 75+ keeli. Iga juhtum lõpetati mootori esmase tee (primary path) kaudu; trap-juhtumi hüperdiagnoosi (hyperdiagnosis) lipu aktiveerimised püsisid 0 / 87,412. juures. Algne V11 jooks 23. aprillil 2026 hõlmas 15 käsitsi kureeritud juhtumit (liitskoor 99.12%) ja valideeris hindamisjuhise; teine uuendus säilitab selle hindamisjuhise baiditäpselt ja laiendab hindamise populatsioonimastaabis kohordile.

Liit 99.80% 100 000-st 100 000 juhtumist said skoori

1.000 Struktuurne skoor

0.996 Kliiniline skoor

13.26 s Keskmine latentsus

0 / 87,412 Lõksu valepositiivid

Liitvalem ühendab kolm komponenti: struktuurne vastavus seitsme kohustusliku aruandlõigu ja kuusteist kohustusliku alalõiguga, sisulise täpsuse mõõdetuna märksõna-taastena (keyword recall) pluss skoorimissüsteemi taastena (scoring-system recall) pluss tõenäosusjaotuse kehtivuse kontrollina ning vastuse latentsus vastu esmase tee teenusetaseme sihtmärki. Täpne jaotus on näidatud allolevas hindamisjuhise valemis — ühtegi neist kaaludest ega alamhindamistest ei muudetud teise uuenduse jaoks.

Liit = 0.35 × Struktuur + 0.55 × Kliiniline + 0.10 × Latentsus

Ülejäänud 0.20 protsendipunkti varu (headroom) laguneb peaaegu täielikult kliiniliseks alam-skooriks — väikesel osal juhtumitest (peamiselt hepatoloogia ja reumatoloogia valdkonnas) puudus üks eeldatud skoorimissüsteemi märksõna mootori tõlgendusest, kuigi diagnostiline sisu oli õige. Ükski juhtum 100 000 juhtumi teise uuenduse kohordis ei jätnud diagnoosi ise vahele. Latentsus paranes V11 esialgse väljalaskega võrreldes keskmiselt 20.17 s-lt teise uuenduse 13.26 s-ni, mis peegeldab tootmismootori optimeerimisi kahe jooksu vahel; hindamisjuhis, skoorimiskood ja API lõpp-punkt on muutmata.

Märgendi kohta arvutatud komposiit-skoorid jäid vahemikku 0.9971 kuni 0.9985 30 kõige paremini esindatud riigimärendi puhul. Ülejäänud 97 märgendi pikk saba (kokku ≈7 300 juhtumit) ei näidanud süstemaatilist halvenemist. Juhtumite arvu järgi olid kõige sagedasemad märgendid: Ameerika Ühendriigid (10 500), Brasiilia (9 500), Hispaania (9 000), Itaalia (8 000), Saksamaa (7 800), Prantsusmaa (7 400), Portugal (5 800), Türkiye (3 400), Ühendkuningriik (2 900) ja Mehhiko (2 500).

15 juhtumist kuni 100 000-ni: kohordi areng 127 riigimärgendiga

Algne V11 juhtumipaneel hõlmas seitset eriala — hematoloogia, endokrinoloogia, metaboolne meditsiin, hepatoloogia, nefroloogia, kardioloogia, reumatoloogia — ning lisaks kahte spetsiaalset hüperdiagnoosi lõksu juhtumit, kusjuures iga juhtum oli sünteetiliselt genereeritud vereanalüüsi paneel. V11 teine uuendus laiendab hindamist 100 000 sünteetilisele juhtumile 127 riigimärgendiga, jaotatuna kaheksasse erialasse (algne seitse pluss spetsiaalne sisearstiteaduse kategooria, mis neelab trap-alamhulga). Sama hindamisjuhis rakendatakse mõlemas jooksus baiditäpselt identsetena.

Kuna kõik juhtumid on sünteetiliselt genereeritud, ei ole eemaldamiseks pärisidentifikaatoreid ja isikuandmeid ei kaasata. Iga sünteetiline juhtum kannab võrdlusaluse sisest juhtumikoodi (BT-NNN-LABEL V11 esmases kogumis, stabiilne case_uid teises uuenduses). Üheski avaldatud raamistikus, tehnilises aruandes ega avaldatud andmekogumites ei esine isikuandmeid.

V11 esialgne väljalase — 15 käsitsi kureeritud juhtumit

Algse V11 juhtumipaneeli koostas käsitsi dr Thomas Klein, et harjutada diagnostilisi mustreid, mida laborimeditsiini assistendid kõige sagedamini valesti tõlgendavad. Iga viieteistkümne juhtumi valik tehti konkreetse diagnostilise omaduse alusel, mis on loetletud allpool.

Hematoloogia (3) BT-001, BT-006, BT-007 Rauavaegusaneemia · B12 puudus · Beeta-talasseemia minor

Endokrinoloogia (3) BT-002, BT-008, BT-012 Hashimoto türeoidiit · PCOS koos insuliiniresistentsusega · Raske D-vitamiini puudus

Metaboolne (2) BT-003, BT-013 T2DM koos metaboolse sündroomiga · Hüpereurikeemia koos podagra riskiga

Hepatoloogia (2) BT-004, BT-009 NAFLD / NASH · Äge viirushepatiit

Nefroloogia · Kardioloogia · Reumatoloogia (3) BT-005, BT-010, BT-011 KKT (CKD) staadium 3 · Aterogeenne düslipideemia · Süsteemne erütematoosne luupus

Lõksujuhtumid (2) BT-014, BT-015 Gilberti sündroom (isoleeritud kaudse hüperbilirubineemia) · Täiesti normaalne täiskasvanu sõeluuring

Miks just see jaotus

Hematoloogia saab kolm juhtumit, sest mikrotsütaarsed diferentsiaaldiagnoosid ja makrotsütaarsed diferentsiaaldiagnoosid on reaalsetes laboripraktikates suurima mahuga lõksud. Endokrinoloogia saab kolm juhtumit, sest Hashimoto tõve, PCOS-i ja D-vitamiini puuduse esinemisvormid treenivad erinevaid diagnostilisi mustreid (autoantikehade juhitud, hormoonide suhte juhitud, ühe markeri juhitud). Ühe juhtumi erialad on endiselt tähenduslikud, sest igal neist — K K D, ASCVD riski ja SLE — on oma hindamissüsteem, mida mootor peaks kasutama (vastavalt KDIGO staadium, ASCVD 10-aastane risk, 2019 EULAR/ACR SLE kriteeriumid).

V11 teine uuendus — 100 000 sünteetilist juhtumit 127 riigimärgendiga

Teine uuendus asendab algse V11 hard-coded 15-juhtumilise Python’i literaali suurema, programmipõhiselt genereeritud sünteetilise juhtumite kogumiga. Juhtumite kogum laaditakse iga käivituse alguses ja konfiguratsioon logitakse läbipaistvuse huvides. Kohordi jaotus sisupiirkondade lõikes on näidatud allpool.

Endokrinoloogia 23 900 juhtumit (23,9%) Kilpnääre, PCOS, D-vitamiin, sugurakkude telg, hüpofüüs

Ainevahetusravi 21 900 juhtumit (21,9%) T2DM, metaboolne sündroom, lipiidiprofiilid, hüperurikeemia

Hematoloogia 15 400 juhtumit (15,4%) Mikrotsüütilised ja makrotsüütilised diferentsiaalid, B12/folaat, rauauuringud

Hepatoloogia 12 400 juhtumit (12,4%) NAFLD/NASH, viirushepatiit, FIB-4, kolestaas

Sisemeditsiin (sh trap’i alamhulk) 9 000 juhtumit (9,0%) Segased esitusviisid ja 8 723 pühendatud hüperdiagnostika trap’i juhtumit

Kardioloogia 7 500 juhtumit (7,5%) ASCVD risk, aterogeenne düslipideemia, hs-CRP

Reumatoloogia 6 000 juhtumit (6,0%) SLE, RA, vaskuliit, autoantikehade paneelid (EULAR/ACR kriteeriumid)

Nefroloogia 4 000 juhtumit (4,0%) CKD staadiumid (KDIGO), eGFR-i trendid, elektrolüütide häire

Sünteetiline riigimärendi jaotus — top 10 märgendit

100 000 sünteetilisel juhtumil on 127 riigimärgendit (ISO 3166-1 alpha-2), et harjutada locale’i käsitlemist. Märgendi määramine: Euroopa 57.7%, Ameerikad 25.4%, Aasia ja Vaikse ookeani piirkond 6.2%, nimetatud Lähis-Ida/Aafrika märgendid 3.4% ning pikk saba 97 täiendava märgendiga kokku ligikaudu 7.3%. Juhtumite arvu järgi kümme kõige sagedasemat märgendit on: Ameerika Ühendriigid (10 500), Brasiilia (9 500), Hispaania (9 000), Itaalia (8 000), Saksamaa (7 800), Prantsusmaa (7 400), Portugal (5 800), Türkiye (3 400), Ühendkuningriik (2 900) ja Mehhiko (2 500). Märgendi kohta arvutatud komposiit-skoorid jäid vahemikku 0.9971 kuni 0.9985. Need märgendite arvud on genereeritud juhtumite omadused, mida kasutatakse locale’i käsitlemise harjutamiseks — need ei ole päris kasutajad ega pärisilmne geograafiline katvus.

Eelregistreeritud hindamisjuhis, selgitatud

Eelregistreerimine on selles võrdluses kõige olulisem metoodiline valik. Iga oodatud diagnoos, iga kliiniline hindamissüsteem ja iga aruande osa pühendati lähtekoodile enne kui mootor käivitati. Seega ei ole võimalik rubriiki tagantjärele kohandada, et mootorit soosida.

Komposiitpunkti moodustavad kolm komponenti. struktuurne komponent annab 35 protsenti ja mõõdab, kas mootor tagastas seitse kohustuslikku aruandeosa (päis, kokkuvõte, peamised leiud, diferentsiaal, hindamissüsteemid, soovitused, järelkontroll) ning nende sees olevad kuusteist kohustuslikku alajaotust. Jaotise olemasolu kaalub struktuurses arvutuses 40 protsenti ja alajaotise olemasolu 60 protsenti.

The kliiniline komponent annab 55 protsenti ja koondab kolm asja: diagnoosi- märksõna meeldetuletus (70 protsenti kliinilisest alamkoondist), hindamissüsteemi meeldetuletus (20 protsenti — kas mootor arvutab asjakohaselt Mentzeri, FIB-4, HOMA-IR, ASCVD riski, KDIGO staadiumi, EULAR/ACR kriteeriumid) ning tõenäosuste summa paikapidavuse kontroll (10 protsenti — diferentsiaalsete tõenäosuste summa peab jääma vahemikku [90, 110]). Lõksujuhtumite korral lahutatakse selgesõnaline hüperdiagnoosi karistus kuni 0.30, arvutatuna 0.10 iga väljamõeldud patoloogia lipu eest, maksimaalselt kolm lippu.

The latentsuskomponent annab 10 protsenti. Vastus alla 20 sekundi annab täissumma 0.10, vastus alla 40 sekundi annab 0.05 ja kõik, mis on aeglasem, annab nulli. 20-sekundiline siht peegeldab tootmise primaarse primary-path teenuse taseme eesmärki; 40-sekundiline lagi peegeldab 2. faasi varuressurssi raskete mootorikõnede jaoks.

Mida eelregistreerimine väldib

Esimese osapoole võrdlused on tuntud selle poolest, et nad paisutavad oma numbreid tagantjärele rubriiki kohandades. Muster on peaaegu alati sama: meeskond käivitab mootori, näeb, kus see alajääb, ja kohandab seejärel vaikselt rubriiki nii, et alajäävad valdkonnad loevad vähem. Kui rubriik pühendatakse lähtekoodile enne esimest mootorikõnet ja testikoda avaldatakse MIT-litsentsi all, muutub see kohandamine nähtavaks versioonihalduses. Igaüks saab hoidla kloonida, kontrollida rubriigi autori kuupäevi ja veenduda, et mootori tulemusi ei kasutatud skoori kujundamiseks.

Hüperdiagnoosi lõksu juhtumid — miks üle-pakkumine on tegelik läbikukkumise viis

Patoloogia agressiivne üle-ülestõstmine normaalsetel skriiningutel on tarbijale suunatud meditsiiniliste abistajate dokumenteeritud tõrkeviis. Selle tagajärgede hulka kuuluvad tarbetu uuring, patsiendi ärevus ja iatrogeenne diagnostika. Selle võrdluse kaks lõksujuhtumit on loodud selle tõrkeviisi nähtavaks ja hinnatavaks muutmiseks.

🟡 Lõks 1 — BT-014-GILBERT

Esitlus. 24-aastane mees, kelle üldbilirubiini tase on 2.4 mg/dL. Otsene fraktsioon on normaalne, transaminaasid ja alkaalne fosfataas jäävad oma referentsvahemikesse, retikulotsüüdid on silmapaistmatud ning haptoglobiin ja LDH välistavad hemolüüsi.

Õige tõlgendus. Gilberti sündroom — healoomuline UGT1A1 polümorfism. Tõlgendus ei tohiks kutsuda esile hepatiiti, tsirroosi, hemolüütilist aneemiat ega sapiteede obstruktsiooni.

V11 tulemus. Komposiit 1.000. Ükski kuuest jälgitavast üle-diagnoosimise lipust ei ilmunud aktiivsete diagnoosidena.

🟡 Lõks 2 — BT-015-HEALTHY

Esitlus. 35-aastane naine, kellel on viieteist parameetriga rutiinne sõeluuringu paneel. Iga analüüt asub mugavalt oma referentsvahemikus.

Õige tõlgendus. Kinnitamine ja elustiili säilitamine. Tõlgendus ei tohiks luua piiriülest patoloogiat, et kõlada kliiniliselt kasulikuna.

V11 tulemus. Komposiit 1.000. Ükski seitsmest jälgitud ülediagnoosimise märgistusest — diabeet, aneemia, hüpotüreoos, düslipideemia, hepatiit, neeruhaigus, puudulikkus — ei esinenud aktiivsete diagnoosidena.

Mõlemas lõksus kontrolliti kokku 13 jälgitud hüperdiagnoosimise märgistust. Ükski neist ei käivitunud. See on tulemus, mis on kõige olulisem igale kliinikule, kes kaalub AI-mootori kasutamist triaaži- või eelkonsultatsiooni tööriistana: süsteem ei leiutanud haigust, kui seda ei olnud.

Mentzeri indeks: rauapuuduse eristamine talasseemia kandlusest

Teine kõrge väärtusega leid puudutab juhtumite sidumist: juhtum BT-001 (rauavaegusaneemia) koos juhtumiga BT-007 (beeta-talasseemia minor). Mõlemad avalduvad mikrotsütoosiga ning on hästi tuntud komistuskivi naiivsetele klassifikaatoritele. Mentzeri indeks, mis arvutatakse MCV jagatuna RBC arvuga, on rauavaeguse korral üle 13 ja talasseemia tunnuse korral alla 13.

BT-001 puhul oli patsient 34-aastane naine, kelle hemoglobiin oli 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritiin 6 ng/mL ja TIBC oli suurenenud. Mentzeri indeks ligikaudu 17,7 toetab absoluutset rauavaegust. BT-007 puhul oli patsient 28-aastane mees, kellel oli mikrotsütoos (MCV 65,8 fL), kuid kõrge RBC arv 6,2, normaalne RDW, normaalne ferritiin ja HbA2 5,6 protsenti. Mentzeri indeks ligikaudu 10,6 viitab talasseemia tunnusele ning suurenenud HbA2 kinnitab beeta-talasseemia minor’i.

Rauavaegusaneemia Mentzer > 13 Madal ferritiin, madal TSAT, kõrge TIBC, suurenenud RDW

Beeta-talasseemia tunnus Mentzer < 13 Normaalne ferritiin, normaalne RDW, suurenenud HbA2 (>3.5%), kõrge RBC arv

Mõlemad juhtumid said skooriks 1.000. Mootor kasutas Mentzeri indeksit mõlemas tõlgenduses sõnaselgelt ning tagastas igal korral õige diagnoosi. See on kogu võrdlusaluse üks kõige kliiniliselt rahustavam tulemus, sest talasseemia tunnuse valesti liigitamine rauavaeguseks viib sobimatu raua lisamiseni ja jätab kasutamata perekondliku sõeluuringu võimalused ning rauavaeguse valesti liigitamine talasseemiaks viivitab lihtsa asendusraviga. Meie ferritiini vahemiku juhend selgitab laiemat diferentsiaaldiagnostika konteksti.

Juhtumipõhised tulemused V11 esialgsest võrdlusjooksust (23. aprill 2026)

Algne V11 võrdlusjooks 15-juhtumi tõestus-kontseptsiooni kogumis toimib kui metoodiline alus teisele uuendusele: iga allolev juhtumipõhine detail näitab, kuidas hindamisjuhend käsitleb päris mootori vastust. Viieteistkümnest juhtumist saavutas kaksteist esmase raja maksimaalse liitkoondhinde 1.000; kolm juhtumit teenindati 2. faasi tagasipöördumise kaudu, kaotades 0.05 latentsusboonuse, kuid säilitades kogu kliinilise ja struktuurse sisu. Ühel juhtumil puudus üksainus kohustuslik alajaotis; üks tagastas marginaalselt vähendatud tõenäosusjaotuse summa.

Juhtumi ID Eriala Liit Latentsus Tee

BT-001-IDAHematoloogia1.00017,8 sesmane

BT-006-B12Hematoloogia1.00018,4 sesmane

BT-007-THALHematoloogia1.00017,0 sesmane

BT-002-HASHEndokrinoloogia0.95037,0 svaruvõimalus

BT-008-PCOSEndokrinoloogia0.98718,6 sesmane

BT-003-T2DMAinevahetus1.00019,1 sesmane

BT-013-GOUTAinevahetus1.00019,4 sesmane

BT-004-NAFLDHepatoloogia1.00019,6 sesmane

BT-009-VIRHEPHepatoloogia0.95023,4 svaruvõimalus

BT-014-GILBERTLõks1.00018,9 sesmane

BT-005-CKDNefroloogia1.00017,4 sesmane

BT-010-ASCVDKardioloogia1.00019,7 sesmane

BT-011-SLEReumatoloogia0.98118,2 sesmane

BT-012-VITDEndokrinoloogia1.00019,3 sesmane

BT-015-HEALTHYLõks1.00018,7 svaruvõimalus

PCOS-i juhtum (BT-008) kaotas vastuse struktuurist ühe kohustusliku alajaotuse — kuusteist kuueteistkümnest asemel viisteist kuueteistkümnest — mis vähendas struktuuripunkti 1,000-lt 0,963-ni. SLE-i juhtum (BT-011) tagastas marginaalselt vähendatud tõenäosusjaotuse summa, mis langetas kliinilise punkti 0,965-ni, säilitades samal ajal kõik diagnostilised märksõnad ja punktisüsteemi. Ükski neist ideaalsusest madalamal juhtumist ei jätnud õiget diagnoosi vahele.

V11 teise uuenduse koondhinnang — 100,000 juhtumit

Rahvastikumastaabis ei ole üksikute juhtumiridade lugemine inimesele loetav, seega esitab teine uuendus koondmõõdikud, mitte 100 000-realist tabelit. Peamine koondnäitaja on näidatud allpool; eriala ja riigimärendi kaupa jaotused avaldatakse tehnilises aruandes ja Figshare’i deposiidis. Kihistatud juhuslik valim n = 201 toorest mootori vastusest (deterministlik seeme 20260426) avaldatakse GitHubis results/ kontrollimiseks mõeldud kataloogis.

Liitkoondhinne V11 esialgne: 0.9912 (99.12%) → Teine uuendus: 0.9980 (99.80%) Δ = +0.0068 100,000-juhtumi kogumis

Struktuurihinne (keskmine) V11 esialgne: 0.998 → Teine uuendus: 1.000 Täiuslik struktuurne vastavus populatsiooni mastaabis

Kliiniline hinne (keskmine) V11 esialgne: 0.998 → Teine uuendus: 0.996 −0.002; ükski juhtum ei jätnud diagnoosi ise vahele

Latentsus — keskmine (vahemik) V11 esialgne: 20,17 s (17,0–37,0 s) → Teine uuendus: 13,26 s (9,0–16,94 s) Tootmismootori optimeerimised jooksude vahel

Mootori tee = primaarne V11 esialgne: 12 / 15 → Teine uuendus: 100,000 / 100,000 Ühelgi hetkel jooksu ajal ei olnud vaja teha 2. faasi tagasipöördumist

Lõksu-alamhulga hüperdiagnoosi lipud V11 esialgne: 0 / 13 → Teine uuendus: 0 / 87,412 Null valepositiivseid populatsiooni mastaabis (8 723 lõksujuhtu jälgiti)

Mida pealkirja skoor meile ei ütle

Komposiit-skoor 99.80 protsenti selle konkreetse eelregistreeritud hindamisjuhendi alusel 100 000-juhtumilisel sünteetilisel kohordil, mis hõlmab 127 riigimärgendit, tähendab peaaegu lagi jõudvat sooritust — kuid see vajab hoolikat raamimist. Tulemus kirjeldab mootori käitumist hindamisjuhendi suhtes, mille me V11-s lähtekoodis kinnitasime; see ei ole universaalne väide mootori õigsuse kohta iga olemasoleva vereanalüüsi paneeli puhul „päris maailmas“.

Skoor ütleb, et mootor käsitles selle hindamise jaoks valitud diagnostilisi mustreid õigesti kogu populatsiooni mastaabis kohordis, metoodika alusel, mis on avaldatud ja taasesitatav. See ei ütle, et mootor on õige iga olemasoleva vereanalüüsi paneeli puhul looduses. See ei ütle, et mootor peaks asendama kliiniku otsust. Ja see ei ütle, et mootor on parem alternatiivsetest tehisintellekti süsteemidest — võrdlevad analüüsid teiste mootoritega jäeti selle aruande ulatusest teadlikult välja.

Mida skoor aga kehtestab, on lähtepunkt. Kui hindamisskeem ja rakendusraamistik on avalikud, saab mootori tulevasi versioone hinnata sama hindamisskeemi alusel — rakendatuna V11 esialgsetele 15 juhtumile, Teise uuenduse 100 000 juhu kohordile või mis tahes järgnevatele laiendustele — ning vahe avaldatud skoori ja mis tahes järgneva jooksu vahel on ise mõõdetav. See on eelregistreerimise väärtus: see muudab tulemusnõuded testitavateks nõueteks.

Kuidas seda võrdlusnäitajat 10 minutiga korrata

Taasesitamiseks on vaja vaid Kantesti API mandaadi paari ja Python 3.10 või uuemat keskkonda koos requests ja reportlab teegid on paigaldatud. Täielik katseplatvorm on üksainus iseseisev Python-moodul, mis on välja antud MIT-litsentsi alusel.

💻 GitHub MIT-litsentsiga katseplatvorm · toorreageeringud · võrdlusjooks 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanooniline akadeemiline kirje 🎓 ResearchGate Publikatsioon 404175463 · V11 Teine uuendus · akadeemilise avastamise kiht 📄 Academia.edu Artikkel 165956808 · V11 Teine uuendus · akadeemilise avastamise kiht

Neli sammu värske jooksu jaoks

Üks. Klooni hoidla: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Kaks. Installi sõltuvused käsuga pip install -r requirements.txt (Teine uuendus lisab mysql-connector-python ≥ 8.0 SQL-i juhtumi laadijale). Kolm. Määra KANTESTI_USERNAME ja KANTESTI_PASSWORD kui keskkonnamuutujad mootori API jaoks. Teise uuenduse SQL-i juhtumi laadija jaoks seadista ka KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USERja KANTESTI_DB_PASSWORD — loader loob ühenduse ainult lugemisõigusega rolli kaudu (bench_reader) millel ei ole õigusi tuvastada tabeleid. Neli. Käivita python benchmark_bloodtest.py --limit 100000 kogu Second-Update käigu jaoks või python benchmark_bloodtest.py --limit 1000 kiireks iteratsiooniks. Väljundid jõuavad ./benchmark_results/: CSV-tulemuskaart, mille veerud on riigi ja sildi ning eriala kaupa, JSON- koondandmed, kihistatud-juhuslik toorvastuste valim ja Markdown- aruanne.

Võrdlusjooksud, mis on tehtud 23. aprillil 2026 (V11 esialgne, 15 juhtu) ja 26. aprillil 2026 (V11 Second Update, 100,000 juhtu), on säilitatud results/ hoidla kataloogis. Uus jooks tekitab uue ajatempli skoorikaardi, jättes võrdlusjooksud puutumata. Kui teie jooks annab sisuliselt erineva tulemuse, palun avage GitHubi issue koos jooksu ajatempli ja vastuse metaandmetes tagastatud mootori versiooniga.

Piirangud ja edasine töö

Isegi 100 000 juhtumi korral 127 riigisildi puhul väärivad neli piirangut selgesõnalist äramärkimist: pika saba sildi alavalimite vähesus, ühekordne hindamine, ühe mootori ulatus ja ühe andmeallika päritolu. Neid käsitletakse aktiivses järeltegevuses.

Pika saba sildi katvus. Teine uuendus hõlmab 127 riigisilti, kuid jaotus on tasakaalust väljas — 10 kõige sagedasemat silti moodustavad ≈66.4% juhtumitest ja ülejäänud 97 täiendava sildi pikk saba annab kokku ≈7.3% (umbes 7 300 juhtumit kokku, keskmiselt ~75 juhtumit sildi kohta). Seetõttu on selle pika saba sildi kaupa koondnäitajad mürarohkemad, kui pealkirjanumbrid viitavad. Tulevastes jooksudes tasakaalustatakse sildi määramine ümber, et täpsustada sildi-põhiseid hinnanguid.

Ühekordne hindamine. Iga juhtumit kohordis hinnati üks kord. Suured keelemudelid näitavad mitte-triviaalselt väljundite varieeruvust isegi madala proovivõtu temperatuuri korral, seega on loomulik järgmine samm mitme jooksu protokoll, kus tehakse viis hindamist iga juhtumi kohta ja esitatakse varieeruvus — eriti trap-case alamvalimi puhul, kus järjepidevus proovivõtu kõikumiste korral on osa ohutuse väitest.

Ühe mootori ulatus. Käesolev aruanne iseloomustab üht mootorit. Võrdlevad analüüsid alternatiivsete tehisintellekti süsteemidega jäävad siinsest käsitlusest välja; võime neid jätkata eraldi sõltumatu uuringuna, kasutades sobivat metoodikat, sama MIT-litsentsiga raamistikku.

Sünteetilised andmed. 100 000 juhtumit on sünteetiliselt genereeritud, mitte sünteetilised juhtumid, ning tulemused ei kandu üle reaalse maailma kliinilisele sooritusvõimele. Hindamine reaalsel, nõusolekuga ja väljastpoolt hangitud andmestikul nõuaks asjakohast eetilist järelevalvet ning jääb selle sünteetilise võrdlusaluse (benchmark) reguleerimisalast välja.

Lisaks nendele neljale on kõige mõjukam planeeritud laiendus mitmekeelne võrdsus iga jurisdiktsiooni lõikes. Kantesti AI Engine teenindab kasutajaid 75+ keeles ning keele järgi kihistatud Second-Update alamkohortide (türgi, saksa, hispaania, prantsuse, itaalia, portugali, araabia, mandariini) käivitamine kvantifitseerib väljundi kvaliteedi kogu mootori toetatud keeltes. Iga keele järgi kihistatud analüüs avaldatakse oma DOI ja raamistikuharuga.

Proovige sama mootorit, mis saavutas 99.80% komposiit-skoori 100,000 juhtumi korral

Laadi üles oma vereanalüüsi paneel samasse tootmis-URL-i, mida hinnati selles võrdlusuuringus. Üle 2 miljoni kasutaja üle maailma kasutab Kantesti AI Engine’i, et tõlgendada üle 15 000 biomarkeri 75+ keeles.

🔬 Proovi tasuta demot

Chrome'i laiendus Rakenduste pood Google Play

📚 Kuidas seda võrdlusuuringut viidata

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Tehniline aruanne V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Välised metoodilised viited

Mentzer, W. C. (1973). Rauavaeguse eristamine talasseemia tunnusest. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019. aasta Euroopa Reumatoloogia Liiga / Ameerika Reumatoloogia Kolledži klassifikatsioonikriteeriumid süsteemse erütematoosse luupuse jaoks. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Meditsiinivaldkonna hallutsinatsioonitest suurte keelemudelite jaoks. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Komposiitpunktisumma

100,000Hinnatud juhtumid

127Hõlmatud riigisildid

0 / 87,412Lõksu valepositiivsed

Korduma kippuvad küsimused

Kui täpne on Kantesti tehisintellekti mootor sünteetilistel testjuhtudel?

Eelregistreeritud rubriigi alusel, mis on käivitatud 100 000 sünteetiliselt genereeritud testjuhtumiga kaheksas sisuteemas ja 127 riigisildiga (V11 Second Update), saavutas mootor liitkoondhinde 99,80 protsenti, kusjuures 87 412 jälgitava lõksjuhtumi võimaluse korral ei olnud ühtegi hüperdiagnoosi märget ning keskmine vastuse latentsus oli 13,26 sekundit. See koondnäitaja mõõdab väljundi vastavust sünteetilistele sisenditele, mitte diagnostilist täpsust. Algne V11 väljaanne rakendas sama rubriiki 15 käsitsi koostatud juhtumile (koondhinne 99,12%); Teine uuendus hoiab rubriigi bait-täpselt samana ja laiendab selle suuremale sünteetilisele kohortile. Täielik tulemuskaart on avaldatud Figshare’is DOI 10.6084/m9.figshare.32095435 all ja GitHubis MIT-litsentsi alusel.

Kas Kantesti tehisintellekti mootor on kliiniliselt valideeritud?

Ei. Mootorit on hinnatud automatiseeritud tehnilise võrdlusaluse (mitte kliinilise valideerimise) abil, rubriigi alusel, mis külmutati lähtekoodis enne V11 esmast käiku ja hoiti V11 Teises uuenduses bait-täpselt samana, hinnates 100 000 sünteetilist vereanalüüsi juhtumit hematoloogia, endokrinoloogia, metaboolse meditsiini, hepatoloogia, nefroloogia, kardioloogia, reumatoloogia ja sisehaiguste valdkondades, mis on võetud 127 riigisildi hulgast. Kliinilise järelevalve tagas dr Thomas Klein, MD (ORCID 0009-0009-1490-1321), juhatuse poolt sertifitseeritud kliiniline hematoloog ja Kantesti AI meditsiinijuht.

Mis on hüperdiagnoosi lõksjuhtum?

Hüperdiagnoosi lõksjuhtum on kliiniline stsenaarium, mis on spetsiaalselt loodud tuvastama tehisintellekti mootorites ülediagnoosimise käitumist. V11 esmane võrdlusalus kasutas kahte sellist juhtumit metodoloogilise tõestusena: isoleeritud kaudne hüperbilirubineemia, mis on kooskõlas Gilberti sündroomiga (kus õige tõlgendus on healoomuline UGT1A1 polümorfism, mitte hepatiit ega hemolüüs) ja täielikult normaalne täiskasvanu sõeluuringu paneel (kus õige väljund on rahustav hinnang, mitte konstrueeritud piiripealne patoloogia). V11 teine uuendus skaleeris selle lõksjuhtumi metoodika pühendatud 8 723 juhtumi alamhulgale, andes 87 412 jälgitud hüperdiagnoosi lipustamise võimalust — ning mootori valepositiivsete tulemuste määr jäi nulliks.

Kas Kantesti tehisintellekti mootori hindamine on korratav?

Täielik hindamisraamistik avaldatakse MIT-litsentsi alusel üheainsa iseseisva Python-moodulina. V11 esmane käivitamine nõuab ainult Kantesti API mandaadi paari ja Python 3.10 või uuemat. V11 teine uuendus lisab parameetriga, ainult lugemiseks mõeldud SQL-i juhtumilaaduri, mis nõuab Kantesti kliinilise hoidla mandaate (a bench_reader roll, millel ei ole õigusi tabelite tuvastamiseks). Kood, juhtumilaaduri SQL, rubriik (väljalasete vahel bait-baitilt identsed) ning kihistatud juhuslik valim toorest mootori vastustest nii V11 esmastest kui ka teise uuenduse võrdlusjooksudest on saadaval aadressil github.com/emirhanai/kantesti-blood-test-benchmark ning peegeldatud Figshare’is, ResearchGates ja Academia.edu’s.

Kuidas eristab Kantesti tehisintellekti mootor rauapuudust beeta-talasseemia kandlusest?

Mootor rakendab Mentzeri indeksit, mis arvutatakse keskmise erütrotsüütide ruumala (MCV) jagamisel punaste vereliblede arvuga. Mentzeri indeks üle 13 toetab rauavaegusaneemiat, samas kui väärtus alla 13 toetab beeta-talasseemia tunnust. V11 esmases võrdlusaluses klassifitseeriti mõlemad esitusviisid õigesti, kasutades selgesõnalist Mentzeri indeksi arvutust, mida toetasid ferritiin, RDW ja HbA2 kontekst. Kogu V11 teise uuenduse 100 000 juhtumi kohortis säilis sama diferentsiaalne käitumine populatsiooni tasemel.

Kust leian toorvõrdlusandmed ja lähtekoodi?

Tehniline aruanne on deponeeritud Figshare’i DOI 10.6084/m9.figshare.32095435 alla (hõlmates nii V11 esmast väljalaset kui ka V11 teist uuendust), peegeldatud ResearchGate’i publikatsioonina 404175463 ja Academia.edu artiklina 165956808 — mõlemad uuendatud V11 teise uuenduse pealkirja ja 100 000 juhtumi tulemustega — ning MIT-litsentsiga Python-i raamistik koos kõigi võrdlusjooksude tulemustega on aadressil github.com/emirhanai/kantesti-blood-test-benchmark. Nelja platvormi peegeldusvõrk tagab pikaajalise kättesaadavuse ja viitamise paindlikkuse.

Miks on eels registreerimine oluline AI meditsiiniliste võrdlusaluste puhul?

Eels registreerimine hoiab ära järelpärase rubriigi kohandamise, mis on kõige tavalisem viis, kuidas ettevõtte juhitud võrdlusalused paisutavad oma numbreid. Kui rubriik kinnitatakse lähtekoodis enne mis tahes mootori väljakutset ja avaldatakse raamistik avalikult, muutuvad rubriigi autori kuupäevad versioonihalduses kontrollitavaks ning mootori tulemused ei saa olla kujundanud hindamiskriteeriume.

Kas see võrdlusalus sisaldab võrdlusi teiste AI mootoritega?

Ei. V11 aruanne — nii esmane väljalase kui ka teine uuendus — kirjeldab tahtlikult ühte mootorit fikseeritud rubriigi alusel, mitte ei positsioneeri seda alternatiivsete kommertssüsteemide vastu. Raamistik on avatud lähtekoodiga MIT-litsentsi all (nüüd koos SQL-i juhtumilaaduriga), nii et sõltumatud uurijad saavad hinnata mis tahes mootorit, mida nad soovivad, sama rubriigi ja juhtumilaaduriga ning avaldada oma tulemused.

Kas patsiendijuhtumid on päris või sünteetilised?

Kõik juhtumid on sünteetiliselt genereeritud — 15 käsitsi koostatud juhtumit V11 esmases väljaandes ja 100 000 Teises uuenduses. Need ei ole sünteetilised juhtumid: ei ole kaasatud sünteetilisi andmeid, nõusoleku protsessi ega de-identifitseerimist, sest kohordis ei eksisteeri isikuandmeid. Avaldatud võrdlusrakenduses, tehnilises aruandes ega avaldatud andmestikes ei esine isikuandmeid.

⚕️ Meditsiiniline lahtiütlus & huvide konflikt

Käesolev võrdluskatse aruanne on mõeldud teaduslikuks ja metoodiliseks läbipaistvuseks. See ei kujuta endast meditsiinilist nõuannet, ei ole diagnoos ega asenda professionaalset arstiabi; ühtki siin esitatud tulemust ei tohiks kasutada selleks, et viivitada arsti poole pöördumisega või seda vältida. Konsulteerige alati kvalifitseeritud tervishoiutöötajaga diagnoosi ja ravivalikute osas. Tegemist on ettevõtte enda mootori iseseisvalt käivitatud sisemise võrdluskatsega ning seda ei ole sõltumatult valideeritud ega eelretsenseeritud. Komposiitne skoor mõõdab vastavust fikseeritud kriteeriumidele (aruande struktuur, märksõnade ja hindamissüsteemi tagasikutsumine ning latentsus); see ei ole mõõdik tegeliku diagnostilise täpsuse ega kliinilise ohutuse kohta. Mõlemad autorid töötavad ettevõttes Kantesti Ltd ja omavad selles osalust (equity), ning hindamise all olev mootor on sama organisatsiooni kommertstoode. Huvide konflikt on maandatud sellega, et kriteeriumid on eelregistreeritud lähtekoodis, testimiskeskkond (harness) on avaldatud MIT-litsentsi alusel ning avaldatud on kihistatud juhuslik valim toorestest mootori vastustest.

E-E-A-T usaldussignaalid

⭐

Kogemus

15+ aastat kliinilise hematoloogia ja laborimeditsiini praktikat, juhtumipaneeli valiku juhendamisel.

📋

Ekspertiis

Eels registreeritud rubriigi disain koos selgesõnaliste hüperdiagnoosi karistustega ja tunnustatud kliiniliste skoorimissüsteemidega (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoriteetsus

Juhtiv autor dr Thomas Klein, MD (ORCID 0009-0009-1490-1321). Rakendamine: Julian Emirhan Bulut, Kantesti Ltd tegevjuht.

🛡️

Usaldusväärsus

MIT-litsentsiga taasesitatav raamistik, toored mootori vastused avaldatud, avatud huvide konflikti avalikustamine, nelja platvormi teaduspeegli võrk.

🏢 Kantesti OÜ Registreeritud Inglismaal ja Walesis · Ettevõtte nr. 17090423 London, Ühendkuningriik · kandesti.net