Miks see võrdlusnäitaja olemas on ja mida see testib

AI-toega vereanalüüsi tulemuste tõlgendamist kasutatakse üha enam nii tarbija- kui ka kliinilistes töövoogudes, kuid reprodutseeritavad hindamisraamistikud, mis on kohandatud laborimeditsiinile, on endiselt haruldased. Selles kontekstis kõige olulisemad küsimused ei ole need, mida katavad üldised meditsiinilise küsimuse-vastuse võrdlusülesanded: kas mootor suudab eristada rauavaegust talasseemia tunnusest, kui keskmine erütrotsüütide maht on identne; kas see ülediagnoosib Gilberti sündroomi hepatiidina; ja kas see tekitab patoloogiat täielikult normaalses sõeluuringu paneelis?

Eelregistreeritud rubriigi vooskeem, mis näitab, kuidas Kantesti AI mootor — V11 teine uuendus, 99.80% komposiidi skoor 100 000 juhtumil — hinnatakse külmutatud skoorikriteeriumide alusel
Joonis 1: Võrdlusarhitektuur, mille taga on 99.80% komposiit-skoor V11 teise uuenduse 100 000 juhtumi kohort — iga juhtum, iga märksõna, iga skoorimissüsteem on fikseeritud lähtekoodis enne, kui mootor näeb ainsatki PDF-i, ning hindamisjuhis on V11 esialgse väljalaskega baiditäpselt identne. Järeltöötluse (post-hoc) hindamisjuhise häälestamine ei ole disaini järgi võimalik.

Üksik vereanalüüsi paneel sisaldab tavaliselt piisavalt signaali, et toetada mitut konkureerivat tõlgendust, ning tõlgendava arsti ülesanne on kaaluda neid tõlgendusi omavahel, mitte otsida õpikust “õiget vastust”. Hea jõudlusega mootor õpikujuhtumites võib siiski läbi kukkuda just kõige olulisematel juhtudel: diferentsiaaldiagnoosi lõksudes, healoomulistes variantides, mis näivad üksinda vaadates murettekitavad, ning täielikult normaalsetes paneelides, mis panevad enesekindlad abistajad tootma patoloogiat.

See võrdluskomplekt loodi täpselt nende läbikukkumisviiside ümber. Kõik viisteist juhtumit valiti kindla diagnostilise omaduse järgi: rauavaeguslik mikrotsütoos, mida tuleb hoida eraldi beetatalasseemia tunnusest, millel on identne keskmine erütrotsüütide maht; Gilberti sündroomi esitus, kus ainus kõrvalekalle on isoleeritud kaudne hüperbilirubineemia; ning viieteistparameetriline sõeluspaneel, milles iga analüüt jääb oma referentsvahemikku. Hindamisskeem premeerib mootoreid, mis loevad iga juhtumit selle enda tingimustel, ning karistab mootoreid, mis jõuavad enesekindla diagnoosini, kui sellist diagnoosi ei ole põhjendatud.

Dr Thomas Kleinina valisin juhtumipaneeli, sest need on mustrid, mida laborimeditsiini abistajad kõige sagedamini valesti mõistavad. Kulukas läbikukkumisviis ei ole "haruldase haiguse vahelejätmine" — see on rutiinse patoloogia väljamõtlemine patsientidel, kellel seda ei ole. Meie Meditsiiniline valideerimine „hub“ kirjeldab laiemat raamistikku; see leht kirjeldab V11 esmast tõestuskontseptsiooni ja V11 teist uuendust, mis skaleeris selle 100 000 sünteetilisele juhtumile, mis on võetud sünteetilisest juhtumite kogumist, mis hõlmab 127 riigimärgendit — kasutades sama hindamisjuhendit, bait-täpselt, ilma järelhäälestuseta.

Viimane võrdlusjooks — V11 teine uuendus (26. aprill 2026)

V11 teise uuenduse võrdlusjooks 26. aprillil 2026 andis liitskoori 99.80% samal eelregistreeritud hindamisjuhisel, mida kasutati V11 esialgses väljalaskes, hinnatuna 100 000 sünteetilist juhtumit võetud Kantesti sünteetilisest juhtumite kogumist ja hõlmates 127 riigimärgendit ja 75+ keeli. Iga juhtum lõpetati mootori esmase tee (primary path) kaudu; trap-juhtumi hüperdiagnoosi (hyperdiagnosis) lipu aktiveerimised püsisid 0 / 87,412. juures. Algne V11 jooks 23. aprillil 2026 hõlmas 15 käsitsi kureeritud juhtumit (liitskoor 99.12%) ja valideeris hindamisjuhise; teine uuendus säilitab selle hindamisjuhise baiditäpselt ja laiendab hindamise populatsioonimastaabis kohordile.

Liit 99.80% 100 000-st 100 000 juhtumist said skoori
1.000 Struktuurne skoor
0.996 Kliiniline skoor
13.26 s Keskmine latentsus
0 / 87,412 Lõksu valepositiivid

Liitvalem ühendab kolm komponenti: struktuurne vastavus seitsme kohustusliku aruandlõigu ja kuusteist kohustusliku alalõiguga, sisulise täpsuse mõõdetuna märksõna-taastena (keyword recall) pluss skoorimissüsteemi taastena (scoring-system recall) pluss tõenäosusjaotuse kehtivuse kontrollina ning vastuse latentsus vastu esmase tee teenusetaseme sihtmärki. Täpne jaotus on näidatud allolevas hindamisjuhise valemis — ühtegi neist kaaludest ega alamhindamistest ei muudetud teise uuenduse jaoks.

Liit = 0.35 × Struktuur + 0.55 × Kliiniline + 0.10 × Latentsus

Ülejäänud 0.20 protsendipunkti varu (headroom) laguneb peaaegu täielikult kliiniliseks alam-skooriks — väikesel osal juhtumitest (peamiselt hepatoloogia ja reumatoloogia valdkonnas) puudus üks eeldatud skoorimissüsteemi märksõna mootori tõlgendusest, kuigi diagnostiline sisu oli õige. Ükski juhtum 100 000 juhtumi teise uuenduse kohordis ei jätnud diagnoosi ise vahele. Latentsus paranes V11 esialgse väljalaskega võrreldes keskmiselt 20.17 s-lt teise uuenduse 13.26 s-ni, mis peegeldab tootmismootori optimeerimisi kahe jooksu vahel; hindamisjuhis, skoorimiskood ja API lõpp-punkt on muutmata.

Märgendi kohta arvutatud komposiit-skoorid jäid vahemikku 0.9971 kuni 0.9985 30 kõige paremini esindatud riigimärendi puhul. Ülejäänud 97 märgendi pikk saba (kokku ≈7 300 juhtumit) ei näidanud süstemaatilist halvenemist. Juhtumite arvu järgi olid kõige sagedasemad märgendid: Ameerika Ühendriigid (10 500), Brasiilia (9 500), Hispaania (9 000), Itaalia (8 000), Saksamaa (7 800), Prantsusmaa (7 400), Portugal (5 800), Türkiye (3 400), Ühendkuningriik (2 900) ja Mehhiko (2 500).

15 juhtumist kuni 100 000-ni: kohordi areng 127 riigimärgendiga

Algne V11 juhtumipaneel hõlmas seitset eriala — hematoloogia, endokrinoloogia, metaboolne meditsiin, hepatoloogia, nefroloogia, kardioloogia, reumatoloogia — ning lisaks kahte spetsiaalset hüperdiagnoosi lõksu juhtumit, kusjuures iga juhtum oli sünteetiliselt genereeritud vereanalüüsi paneel. V11 teine uuendus laiendab hindamist 100 000 sünteetilisele juhtumile 127 riigimärgendiga, jaotatuna kaheksasse erialasse (algne seitse pluss spetsiaalne sisearstiteaduse kategooria, mis neelab trap-alamhulga). Sama hindamisjuhis rakendatakse mõlemas jooksus baiditäpselt identsetena.

V11 esialgse juhtumipaneeli disain — viisteist sünteetilist vereanalüüsi juhtumit seitsmes meditsiinierialas ning kaks hüperdiagnoosi lõksjuhtumit; sama rubriik saavutas 99,80% koondhinde 100 000 juhtumi korral V11 Teises uuenduses
Joonis 2: V11 esialgne juhtumipaneeli disain hematoloogia, endokrinoloogia, metaboolse meditsiini, hepatoloogia, nefroloogia, kardioloogia, reumatoloogia jaoks, lisaks kahele trap-juhtumile — Gilberti sündroom ja täielikult normaalne sõeluuringupaneel. Teine uuendus säilitab selle hindamisjuhise baiditäpselt, laiendades kohordi 100 000 juhtumini, mis on võetud Kantesti SQL-i hoidlast.

Kuna kõik juhtumid on sünteetiliselt genereeritud, ei ole eemaldamiseks pärisidentifikaatoreid ja isikuandmeid ei kaasata. Iga sünteetiline juhtum kannab võrdlusaluse sisest juhtumikoodi (BT-NNN-LABEL V11 esmases kogumis, stabiilne case_uid teises uuenduses). Üheski avaldatud raamistikus, tehnilises aruandes ega avaldatud andmekogumites ei esine isikuandmeid.

V11 esialgne väljalase — 15 käsitsi kureeritud juhtumit

Algse V11 juhtumipaneeli koostas käsitsi dr Thomas Klein, et harjutada diagnostilisi mustreid, mida laborimeditsiini assistendid kõige sagedamini valesti tõlgendavad. Iga viieteistkümne juhtumi valik tehti konkreetse diagnostilise omaduse alusel, mis on loetletud allpool.

Hematoloogia (3) BT-001, BT-006, BT-007 Rauavaegusaneemia · B12 puudus · Beeta-talasseemia minor
Endokrinoloogia (3) BT-002, BT-008, BT-012 Hashimoto türeoidiit · PCOS koos insuliiniresistentsusega · Raske D-vitamiini puudus
Metaboolne (2) BT-003, BT-013 T2DM koos metaboolse sündroomiga · Hüpereurikeemia koos podagra riskiga
Hepatoloogia (2) BT-004, BT-009 NAFLD / NASH · Äge viirushepatiit
Nefroloogia · Kardioloogia · Reumatoloogia (3) BT-005, BT-010, BT-011 KKT (CKD) staadium 3 · Aterogeenne düslipideemia · Süsteemne erütematoosne luupus
Lõksujuhtumid (2) BT-014, BT-015 Gilberti sündroom (isoleeritud kaudse hüperbilirubineemia) · Täiesti normaalne täiskasvanu sõeluuring

Miks just see jaotus

Hematoloogia saab kolm juhtumit, sest mikrotsütaarsed diferentsiaaldiagnoosid ja makrotsütaarsed diferentsiaaldiagnoosid on reaalsetes laboripraktikates suurima mahuga lõksud. Endokrinoloogia saab kolm juhtumit, sest Hashimoto tõve, PCOS-i ja D-vitamiini puuduse esinemisvormid treenivad erinevaid diagnostilisi mustreid (autoantikehade juhitud, hormoonide suhte juhitud, ühe markeri juhitud). Ühe juhtumi erialad on endiselt tähenduslikud, sest igal neist — K K D, ASCVD riski ja SLE — on oma hindamissüsteem, mida mootor peaks kasutama (vastavalt KDIGO staadium, ASCVD 10-aastane risk, 2019 EULAR/ACR SLE kriteeriumid).

V11 teine uuendus — 100 000 sünteetilist juhtumit 127 riigimärgendiga

Teine uuendus asendab algse V11 hard-coded 15-juhtumilise Python’i literaali suurema, programmipõhiselt genereeritud sünteetilise juhtumite kogumiga. Juhtumite kogum laaditakse iga käivituse alguses ja konfiguratsioon logitakse läbipaistvuse huvides. Kohordi jaotus sisupiirkondade lõikes on näidatud allpool.

Endokrinoloogia 23 900 juhtumit (23,9%) Kilpnääre, PCOS, D-vitamiin, sugurakkude telg, hüpofüüs
Ainevahetusravi 21 900 juhtumit (21,9%) T2DM, metaboolne sündroom, lipiidiprofiilid, hüperurikeemia
Hematoloogia 15 400 juhtumit (15,4%) Mikrotsüütilised ja makrotsüütilised diferentsiaalid, B12/folaat, rauauuringud
Hepatoloogia 12 400 juhtumit (12,4%) NAFLD/NASH, viirushepatiit, FIB-4, kolestaas
Sisemeditsiin (sh trap’i alamhulk) 9 000 juhtumit (9,0%) Segased esitusviisid ja 8 723 pühendatud hüperdiagnostika trap’i juhtumit
Kardioloogia 7 500 juhtumit (7,5%) ASCVD risk, aterogeenne düslipideemia, hs-CRP
Reumatoloogia 6 000 juhtumit (6,0%) SLE, RA, vaskuliit, autoantikehade paneelid (EULAR/ACR kriteeriumid)
Nefroloogia 4 000 juhtumit (4,0%) CKD staadiumid (KDIGO), eGFR-i trendid, elektrolüütide häire

Sünteetiline riigimärendi jaotus — top 10 märgendit

100 000 sünteetilisel juhtumil on 127 riigimärgendit (ISO 3166-1 alpha-2), et harjutada locale’i käsitlemist. Märgendi määramine: Euroopa 57.7%, Ameerikad 25.4%, Aasia ja Vaikse ookeani piirkond 6.2%, nimetatud Lähis-Ida/Aafrika märgendid 3.4% ning pikk saba 97 täiendava märgendiga kokku ligikaudu 7.3%. Juhtumite arvu järgi kümme kõige sagedasemat märgendit on: Ameerika Ühendriigid (10 500), Brasiilia (9 500), Hispaania (9 000), Itaalia (8 000), Saksamaa (7 800), Prantsusmaa (7 400), Portugal (5 800), Türkiye (3 400), Ühendkuningriik (2 900) ja Mehhiko (2 500). Märgendi kohta arvutatud komposiit-skoorid jäid vahemikku 0.9971 kuni 0.9985. Need märgendite arvud on genereeritud juhtumite omadused, mida kasutatakse locale’i käsitlemise harjutamiseks — need ei ole päris kasutajad ega pärisilmne geograafiline katvus.

Eelregistreeritud hindamisjuhis, selgitatud

Eelregistreerimine on selles võrdluses kõige olulisem metoodiline valik. Iga oodatud diagnoos, iga kliiniline hindamissüsteem ja iga aruande osa pühendati lähtekoodile enne kui mootor käivitati. Seega ei ole võimalik rubriiki tagantjärele kohandada, et mootorit soosida.

Komposiitpunkti moodustavad kolm komponenti. struktuurne komponent annab 35 protsenti ja mõõdab, kas mootor tagastas seitse kohustuslikku aruandeosa (päis, kokkuvõte, peamised leiud, diferentsiaal, hindamissüsteemid, soovitused, järelkontroll) ning nende sees olevad kuusteist kohustuslikku alajaotust. Jaotise olemasolu kaalub struktuurses arvutuses 40 protsenti ja alajaotise olemasolu 60 protsenti.

The kliiniline komponent annab 55 protsenti ja koondab kolm asja: diagnoosi- märksõna meeldetuletus (70 protsenti kliinilisest alamkoondist), hindamissüsteemi meeldetuletus (20 protsenti — kas mootor arvutab asjakohaselt Mentzeri, FIB-4, HOMA-IR, ASCVD riski, KDIGO staadiumi, EULAR/ACR kriteeriumid) ning tõenäosuste summa paikapidavuse kontroll (10 protsenti — diferentsiaalsete tõenäosuste summa peab jääma vahemikku [90, 110]). Lõksujuhtumite korral lahutatakse selgesõnaline hüperdiagnoosi karistus kuni 0.30, arvutatuna 0.10 iga väljamõeldud patoloogia lipu eest, maksimaalselt kolm lippu.

The latentsuskomponent annab 10 protsenti. Vastus alla 20 sekundi annab täissumma 0.10, vastus alla 40 sekundi annab 0.05 ja kõik, mis on aeglasem, annab nulli. 20-sekundiline siht peegeldab tootmise primaarse primary-path teenuse taseme eesmärki; 40-sekundiline lagi peegeldab 2. faasi varuressurssi raskete mootorikõnede jaoks.

MIT-litsentsiga Kantesti võrdlusraamistiku lõppkuva, mis töötab ja väljastab juhtumipõhised skoorid — sama raamistik, nüüd SQL-põhine, andis 99.80% komposiidi skoori V11 teise uuenduse 100 000 juhtumi jooksul
Joonis 3: Käivitusel olev raamistik — sama mootor, mis tootis 99.80% liitkoondhinde V11 teise uuenduse 100,000-juhtumi kogumis. Iga juhtum renderdatakse A4 PDF-iks, postitatakse tootmise v11 lõpp-punkti ja hinnatakse külmutatud hindamisjuhendi järgi. Teine uuendus lisas parameetriseeritud SQL-i juhtumilaaduri; kihistatud juhuslik valim toorest mootori vastustest (n = 201) salvestatakse koos koondhinnete kokkuvõttega.

Mida eelregistreerimine väldib

Esimese osapoole võrdlused on tuntud selle poolest, et nad paisutavad oma numbreid tagantjärele rubriiki kohandades. Muster on peaaegu alati sama: meeskond käivitab mootori, näeb, kus see alajääb, ja kohandab seejärel vaikselt rubriiki nii, et alajäävad valdkonnad loevad vähem. Kui rubriik pühendatakse lähtekoodile enne esimest mootorikõnet ja testikoda avaldatakse MIT-litsentsi all, muutub see kohandamine nähtavaks versioonihalduses. Igaüks saab hoidla kloonida, kontrollida rubriigi autori kuupäevi ja veenduda, et mootori tulemusi ei kasutatud skoori kujundamiseks.

Hüperdiagnoosi lõksu juhtumid — miks üle-pakkumine on tegelik läbikukkumise viis

Patoloogia agressiivne üle-ülestõstmine normaalsetel skriiningutel on tarbijale suunatud meditsiiniliste abistajate dokumenteeritud tõrkeviis. Selle tagajärgede hulka kuuluvad tarbetu uuring, patsiendi ärevus ja iatrogeenne diagnostika. Selle võrdluse kaks lõksujuhtumit on loodud selle tõrkeviisi nähtavaks ja hinnatavaks muutmiseks.

Kõrvuti võrdlus, kus naiivne AI konstrueerib hepatiidi Gilberti sündroomi paneelil, võrreldes Kantesti mootoriga, mis tuvastab õigesti healoomulise UGT1A1 polümorfismi — metoodika, mis skaleerus V11 teise uuenduse 99.80% võrdlusaluses nullini valepositiivsete tulemustega 87 412 lõksu-lipustamise võimaluse ulatuses
Joonis 4: V11 esialgsest väljalaskest pärit lõksujuhtumi disain — mootor, mis märgistab Gilbert’i sündroomi enesekindlalt hepatiidina, või mis genereerib piiriülese patoloogia täiesti normaalsel ekraanil, saab karistada, mitte ei premeerita selle eest, et kõlab kliiniliselt. See metoodika skaleerus 0 / 87,412 valepositiivsetele V11 teise uuenduse 100,000-juhtumi jooksus, mis andis 99.80% liitkoondhinde.

🟡 Lõks 1 — BT-014-GILBERT

Esitlus. 24-aastane mees, kelle üldbilirubiini tase on 2.4 mg/dL. Otsene fraktsioon on normaalne, transaminaasid ja alkaalne fosfataas jäävad oma referentsvahemikesse, retikulotsüüdid on silmapaistmatud ning haptoglobiin ja LDH välistavad hemolüüsi.

Õige tõlgendus. Gilberti sündroom — healoomuline UGT1A1 polümorfism. Tõlgendus ei tohiks kutsuda esile hepatiiti, tsirroosi, hemolüütilist aneemiat ega sapiteede obstruktsiooni.

V11 tulemus. Komposiit 1.000. Ükski kuuest jälgitavast üle-diagnoosimise lipust ei ilmunud aktiivsete diagnoosidena.

🟡 Lõks 2 — BT-015-HEALTHY

Esitlus. 35-aastane naine, kellel on viieteist parameetriga rutiinne sõeluuringu paneel. Iga analüüt asub mugavalt oma referentsvahemikus.

Õige tõlgendus. Kinnitamine ja elustiili säilitamine. Tõlgendus ei tohiks luua piiriülest patoloogiat, et kõlada kliiniliselt kasulikuna.

V11 tulemus. Komposiit 1.000. Ükski seitsmest jälgitud ülediagnoosimise märgistusest — diabeet, aneemia, hüpotüreoos, düslipideemia, hepatiit, neeruhaigus, puudulikkus — ei esinenud aktiivsete diagnoosidena.

Mõlemas lõksus kontrolliti kokku 13 jälgitud hüperdiagnoosimise märgistust. Ükski neist ei käivitunud. See on tulemus, mis on kõige olulisem igale kliinikule, kes kaalub AI-mootori kasutamist triaaži- või eelkonsultatsiooni tööriistana: süsteem ei leiutanud haigust, kui seda ei olnud.

Mentzeri indeks: rauapuuduse eristamine talasseemia kandlusest

Teine kõrge väärtusega leid puudutab juhtumite sidumist: juhtum BT-001 (rauavaegusaneemia) koos juhtumiga BT-007 (beeta-talasseemia minor). Mõlemad avalduvad mikrotsütoosiga ning on hästi tuntud komistuskivi naiivsetele klassifikaatoritele. Mentzeri indeks, mis arvutatakse MCV jagatuna RBC arvuga, on rauavaeguse korral üle 13 ja talasseemia tunnuse korral alla 13.

BT-001 puhul oli patsient 34-aastane naine, kelle hemoglobiin oli 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritiin 6 ng/mL ja TIBC oli suurenenud. Mentzeri indeks ligikaudu 17,7 toetab absoluutset rauavaegust. BT-007 puhul oli patsient 28-aastane mees, kellel oli mikrotsütoos (MCV 65,8 fL), kuid kõrge RBC arv 6,2, normaalne RDW, normaalne ferritiin ja HbA2 5,6 protsenti. Mentzeri indeks ligikaudu 10,6 viitab talasseemia tunnusele ning suurenenud HbA2 kinnitab beeta-talasseemia minor’i.

Rauavaegusaneemia Mentzer > 13 Madal ferritiin, madal TSAT, kõrge TIBC, suurenenud RDW
Beeta-talasseemia tunnus Mentzer < 13 Normaalne ferritiin, normaalne RDW, suurenenud HbA2 (>3.5%), kõrge RBC arv

Mõlemad juhtumid said skooriks 1.000. Mootor kasutas Mentzeri indeksit mõlemas tõlgenduses sõnaselgelt ning tagastas igal korral õige diagnoosi. See on kogu võrdlusaluse üks kõige kliiniliselt rahustavam tulemus, sest talasseemia tunnuse valesti liigitamine rauavaeguseks viib sobimatu raua lisamiseni ja jätab kasutamata perekondliku sõeluuringu võimalused ning rauavaeguse valesti liigitamine talasseemiaks viivitab lihtsa asendusraviga. Meie ferritiini vahemiku juhend selgitab laiemat diferentsiaaldiagnostika konteksti.

Juhtumipõhised tulemused V11 esialgsest võrdlusjooksust (23. aprill 2026)

Algne V11 võrdlusjooks 15-juhtumi tõestus-kontseptsiooni kogumis toimib kui metoodiline alus teisele uuendusele: iga allolev juhtumipõhine detail näitab, kuidas hindamisjuhend käsitleb päris mootori vastust. Viieteistkümnest juhtumist saavutas kaksteist esmase raja maksimaalse liitkoondhinde 1.000; kolm juhtumit teenindati 2. faasi tagasipöördumise kaudu, kaotades 0.05 latentsusboonuse, kuid säilitades kogu kliinilise ja struktuurse sisu. Ühel juhtumil puudus üksainus kohustuslik alajaotis; üks tagastas marginaalselt vähendatud tõenäosusjaotuse summa.

Juhtumi ID Eriala Liit Latentsus Tee
BT-001-IDAHematoloogia1.00017,8 sesmane
BT-006-B12Hematoloogia1.00018,4 sesmane
BT-007-THALHematoloogia1.00017,0 sesmane
BT-002-HASHEndokrinoloogia0.95037,0 svaruvõimalus
BT-008-PCOSEndokrinoloogia0.98718,6 sesmane
BT-003-T2DMAinevahetus1.00019,1 sesmane
BT-013-GOUTAinevahetus1.00019,4 sesmane
BT-004-NAFLDHepatoloogia1.00019,6 sesmane
BT-009-VIRHEPHepatoloogia0.95023,4 svaruvõimalus
BT-014-GILBERTLõks1.00018,9 sesmane
BT-005-CKDNefroloogia1.00017,4 sesmane
BT-010-ASCVDKardioloogia1.00019,7 sesmane
BT-011-SLEReumatoloogia0.98118,2 sesmane
BT-012-VITDEndokrinoloogia1.00019,3 sesmane
BT-015-HEALTHYLõks1.00018,7 svaruvõimalus

PCOS-i juhtum (BT-008) kaotas vastuse struktuurist ühe kohustusliku alajaotuse — kuusteist kuueteistkümnest asemel viisteist kuueteistkümnest — mis vähendas struktuuripunkti 1,000-lt 0,963-ni. SLE-i juhtum (BT-011) tagastas marginaalselt vähendatud tõenäosusjaotuse summa, mis langetas kliinilise punkti 0,965-ni, säilitades samal ajal kõik diagnostilised märksõnad ja punktisüsteemi. Ükski neist ideaalsusest madalamal juhtumist ei jätnud õiget diagnoosi vahele.

V11 teise uuenduse koondhinnang — 100,000 juhtumit

Rahvastikumastaabis ei ole üksikute juhtumiridade lugemine inimesele loetav, seega esitab teine uuendus koondmõõdikud, mitte 100 000-realist tabelit. Peamine koondnäitaja on näidatud allpool; eriala ja riigimärendi kaupa jaotused avaldatakse tehnilises aruandes ja Figshare’i deposiidis. Kihistatud juhuslik valim n = 201 toorest mootori vastusest (deterministlik seeme 20260426) avaldatakse GitHubis results/ kontrollimiseks mõeldud kataloogis.

Liitkoondhinne V11 esialgne: 0.9912 (99.12%) → Teine uuendus: 0.9980 (99.80%) Δ = +0.0068 100,000-juhtumi kogumis
Struktuurihinne (keskmine) V11 esialgne: 0.998 → Teine uuendus: 1.000 Täiuslik struktuurne vastavus populatsiooni mastaabis
Kliiniline hinne (keskmine) V11 esialgne: 0.998 → Teine uuendus: 0.996 −0.002; ükski juhtum ei jätnud diagnoosi ise vahele
Latentsus — keskmine (vahemik) V11 esialgne: 20,17 s (17,0–37,0 s) → Teine uuendus: 13,26 s (9,0–16,94 s) Tootmismootori optimeerimised jooksude vahel
Mootori tee = primaarne V11 esialgne: 12 / 15 → Teine uuendus: 100,000 / 100,000 Ühelgi hetkel jooksu ajal ei olnud vaja teha 2. faasi tagasipöördumist
Lõksu-alamhulga hüperdiagnoosi lipud V11 esialgne: 0 / 13 → Teine uuendus: 0 / 87,412 Null valepositiivseid populatsiooni mastaabis (8 723 lõksujuhtu jälgiti)

Mida pealkirja skoor meile ei ütle

Komposiit-skoor 99.80 protsenti selle konkreetse eelregistreeritud hindamisjuhendi alusel 100 000-juhtumilisel sünteetilisel kohordil, mis hõlmab 127 riigimärgendit, tähendab peaaegu lagi jõudvat sooritust — kuid see vajab hoolikat raamimist. Tulemus kirjeldab mootori käitumist hindamisjuhendi suhtes, mille me V11-s lähtekoodis kinnitasime; see ei ole universaalne väide mootori õigsuse kohta iga olemasoleva vereanalüüsi paneeli puhul „päris maailmas“.

Skoor ütleb, et mootor käsitles selle hindamise jaoks valitud diagnostilisi mustreid õigesti kogu populatsiooni mastaabis kohordis, metoodika alusel, mis on avaldatud ja taasesitatav. See ei ütle, et mootor on õige iga olemasoleva vereanalüüsi paneeli puhul looduses. See ei ütle, et mootor peaks asendama kliiniku otsust. Ja see ei ütle, et mootor on parem alternatiivsetest tehisintellekti süsteemidest — võrdlevad analüüsid teiste mootoritega jäeti selle aruande ulatusest teadlikult välja.

Mida skoor aga kehtestab, on lähtepunkt. Kui hindamisskeem ja rakendusraamistik on avalikud, saab mootori tulevasi versioone hinnata sama hindamisskeemi alusel — rakendatuna V11 esialgsetele 15 juhtumile, Teise uuenduse 100 000 juhu kohordile või mis tahes järgnevatele laiendustele — ning vahe avaldatud skoori ja mis tahes järgneva jooksu vahel on ise mõõdetav. See on eelregistreerimise väärtus: see muudab tulemusnõuded testitavateks nõueteks.

Kuidas seda võrdlusnäitajat 10 minutiga korrata

Taasesitamiseks on vaja vaid Kantesti API mandaadi paari ja Python 3.10 või uuemat keskkonda koos requests ja reportlab teegid on paigaldatud. Täielik katseplatvorm on üksainus iseseisev Python-moodul, mis on välja antud MIT-litsentsi alusel.

Reprodutseeritavuse võrgudiagramm, mis näitab V11 Teise uuenduse võrdlusalust (99,80% koondhinne, 100 000 juhtumit, 127 riigisilti), peegeldatuna Figshare’i, ResearchGate’i, Academia.edu ja GitHubi vahel, kusjuures Figshare DOI on kanooniline ankur
Joonis 5: V11 Teise uuenduse võrdlusalus — 99.80% komposiit-skoor 100 000 juhtumi puhul 127 riigimärgendiga — on peegeldatud nelja uurimisplatvormi vahel. Figshare DOI on kanooniline teaduslik identifikaator; ResearchGate (publication 404175463), Academia.edu (paper 165956808) ja GitHub majutavad paralleelseid koopiaid koos võrdlusrakendusega, kihistatud juhusliku valimiga toorvastustest ning riigi-spetsiifiliste/eriala-põhiste tulemuskaartidega.

Neli sammu värske jooksu jaoks

Üks. Klooni hoidla: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Kaks. Installi sõltuvused käsuga pip install -r requirements.txt (Teine uuendus lisab mysql-connector-python ≥ 8.0 SQL-i juhtumi laadijale). Kolm. Määra KANTESTI_USERNAME ja KANTESTI_PASSWORD kui keskkonnamuutujad mootori API jaoks. Teise uuenduse SQL-i juhtumi laadija jaoks seadista ka KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USERja KANTESTI_DB_PASSWORD — loader loob ühenduse ainult lugemisõigusega rolli kaudu (bench_reader) millel ei ole õigusi tuvastada tabeleid. Neli. Käivita python benchmark_bloodtest.py --limit 100000 kogu Second-Update käigu jaoks või python benchmark_bloodtest.py --limit 1000 kiireks iteratsiooniks. Väljundid jõuavad ./benchmark_results/: CSV-tulemuskaart, mille veerud on riigi ja sildi ning eriala kaupa, JSON- koondandmed, kihistatud-juhuslik toorvastuste valim ja Markdown- aruanne.

Võrdlusjooksud, mis on tehtud 23. aprillil 2026 (V11 esialgne, 15 juhtu) ja 26. aprillil 2026 (V11 Second Update, 100,000 juhtu), on säilitatud results/ hoidla kataloogis. Uus jooks tekitab uue ajatempli skoorikaardi, jättes võrdlusjooksud puutumata. Kui teie jooks annab sisuliselt erineva tulemuse, palun avage GitHubi issue koos jooksu ajatempli ja vastuse metaandmetes tagastatud mootori versiooniga.

Piirangud ja edasine töö

Isegi 100 000 juhtumi korral 127 riigisildi puhul väärivad neli piirangut selgesõnalist äramärkimist: pika saba sildi alavalimite vähesus, ühekordne hindamine, ühe mootori ulatus ja ühe andmeallika päritolu. Neid käsitletakse aktiivses järeltegevuses.

Pika saba sildi katvus. Teine uuendus hõlmab 127 riigisilti, kuid jaotus on tasakaalust väljas — 10 kõige sagedasemat silti moodustavad ≈66.4% juhtumitest ja ülejäänud 97 täiendava sildi pikk saba annab kokku ≈7.3% (umbes 7 300 juhtumit kokku, keskmiselt ~75 juhtumit sildi kohta). Seetõttu on selle pika saba sildi kaupa koondnäitajad mürarohkemad, kui pealkirjanumbrid viitavad. Tulevastes jooksudes tasakaalustatakse sildi määramine ümber, et täpsustada sildi-põhiseid hinnanguid.

Ühekordne hindamine. Iga juhtumit kohordis hinnati üks kord. Suured keelemudelid näitavad mitte-triviaalselt väljundite varieeruvust isegi madala proovivõtu temperatuuri korral, seega on loomulik järgmine samm mitme jooksu protokoll, kus tehakse viis hindamist iga juhtumi kohta ja esitatakse varieeruvus — eriti trap-case alamvalimi puhul, kus järjepidevus proovivõtu kõikumiste korral on osa ohutuse väitest.

Ühe mootori ulatus. Käesolev aruanne iseloomustab üht mootorit. Võrdlevad analüüsid alternatiivsete tehisintellekti süsteemidega jäävad siinsest käsitlusest välja; võime neid jätkata eraldi sõltumatu uuringuna, kasutades sobivat metoodikat, sama MIT-litsentsiga raamistikku.

Sünteetilised andmed. 100 000 juhtumit on sünteetiliselt genereeritud, mitte sünteetilised juhtumid, ning tulemused ei kandu üle reaalse maailma kliinilisele sooritusvõimele. Hindamine reaalsel, nõusolekuga ja väljastpoolt hangitud andmestikul nõuaks asjakohast eetilist järelevalvet ning jääb selle sünteetilise võrdlusaluse (benchmark) reguleerimisalast välja.

Lisaks nendele neljale on kõige mõjukam planeeritud laiendus mitmekeelne võrdsus iga jurisdiktsiooni lõikes. Kantesti AI Engine teenindab kasutajaid 75+ keeles ning keele järgi kihistatud Second-Update alamkohortide (türgi, saksa, hispaania, prantsuse, itaalia, portugali, araabia, mandariini) käivitamine kvantifitseerib väljundi kvaliteedi kogu mootori toetatud keeltes. Iga keele järgi kihistatud analüüs avaldatakse oma DOI ja raamistikuharuga.