Kodėl egzistuoja šis etalonas ir ką jis tikrina

AI pagalba aiškinant kraujo tyrimus vis dažniau naudojama vartotojų ir klinikiniuose procesuose, tačiau atkuriamos vertinimo sistemos, pritaikytos laboratorinei medicinai, išlieka retos. Šiame kontekste svarbiausi klausimai nėra tie, kuriuos apima bendrieji medicininių klausimų ir atsakymų etalonai: ar variklis gali atskirti geležies stoką nuo talasemijos požymio, kai vidutinis eritrocitų tūris yra identiškas, ar jis perdiagnozuoja Gilberto sindromą kaip hepatitą, ir ar jis sukuria patologiją visiškai normaliame patikros skydelyje?

Iš anksto užregistruota rubrikos srauto diagrama, parodanti, kaip Kantesti AI variklis — V11 antrasis atnaujinimas, 99.80% sudėtinio balo įvertis 100 000 atvejų — vertinamas pagal užšaldytus vertinimo kriterijus
1 pav.: Etaloninė architektūra, esanti už 99.80% sudėtinis balas V11 antrojo atnaujinimo 100 000 atvejų kohortos — kiekvienas atvejis, kiekvienas raktinis žodis, kiekviena vertinimo sistema yra fiksuota šaltinio kode dar prieš varikliui pamatant bet kurį PDF, o vertinimo rubrika yra identiška pagal baitus V11 pradiniam leidimui. Post-hoc rubrikos derinimas neįmanomas pagal dizainą.

Vienas kraujo tyrimo tyrimų rinkinys paprastai turi pakankamai informacijos, kad būtų galima pateikti kelias konkuruojančias interpretacijas, o interpretuojančio gydytojo užduotis – pasverti šias interpretacijas tarpusavyje, o ne ieškoti vadovėlinio atsakymo. Gerai vadovėliniais atvejais veikiantis „variklis“ vis tiek gali žlugti svarbiausiuose atvejuose: diagnostikos diferencijavimo spąstuose, gerybinėse variacijose, kurios vienos atrodo nerimą keliančios, ir visiškai normaliuose tyrimų rinkiniuose, kurie įvilioja užtikrintus asistentus į patologijos „gamybą“.

Šis vertinimo kriterijus buvo sukurtas būtent toms nesėkmės formoms. Kiekvienas iš penkiolikos atvejų buvo parinktas pagal konkrečią diagnostinę savybę: geležies stokos sukelta mikrocitozė, kuri turi būti atskirta nuo beta talasemijos požymio, kai identiškas vidutinis eritrocitų tūris; Gilbert’o sindromo vaizdas, kai vienintelė anomalija yra izoliuota netiesioginė hiperbilirubinemija; ir penkiolikos parametrų atrankos tyrimų rinkinys, kuriame kiekvienas analitas yra savo pamatiniame (referenciniame) intervale. Vertinimo rubrika skatina variklius, kurie kiekvieną atvejį skaito pagal jo paties kontekstą, ir baudžia variklius, kurie bando pateikti užtikrintą diagnozę, kai tokia diagnozė nėra pagrįsta.

Kaip Thomas Klein, MD, aš pasirinkau atvejų rinkinį, nes tai yra tie modeliai, kuriuos laboratorinės medicinos asistentai dažniausiai interpretuoja neteisingai. Brangiausia nesėkmės forma nėra "praleisti retą ligą" – tai sukurti įprastą patologiją pacientams, kuriems jos nėra. Mūsų Medicininis patvirtinimas hub aprašo platesnę sistemą; šiame puslapyje aprašomas V11 pradinis proof-of-concept ir V11 antrasis atnaujinimas, kuris išplėtė ją iki 100 000 anonimizuotų atvejų, atrinktų iš SQL pagrindu veikiančios klinikinės saugyklos, apimančios 127 šalis — naudojant tą pačią vertinimo rubriką, identišką pagal baitus, be leidžiamo post-hoc derinimo.

Naujausias etaloninis paleidimas — V11 antrasis atnaujinimas (2026 m. balandžio 26 d.)

V11 antrojo atnaujinimo etaloninis paleidimas, atliktas 2026 m. balandžio 26 d., sugeneravo sudėtinį balą 99.80% pagal tą pačią iš anksto užregistruotą rubriką, naudotą V11 pradiniame leidime, įvertintą 100 000 anonimizuotų atvejų iš Kantesti SQL pagrindu veikiančios klinikinės saugyklos ir apimančių 127 šalyse ir 75+ kalbas. Kiekvienas atvejis buvo užbaigtas variklio pagrindiniu keliu; gaudymo-atvejo hiperdiagnostikos vėliavėlės aktyvavimai liko ties 0 / 87,412. Originalus V11 paleidimas, atliktas 2026 m. balandžio 23 d., apėmė 15 rankiniu būdu atrinktų atvejų (sudėtinis 99.12%) ir patvirtino rubriką; antrasis atnaujinimas išlaiko tą pačią rubriką identišką pagal baitus ir išplečia vertinimą iki populiacijos masto kohortos.

Sudėtinis 99.80% 100 000 iš 100 000 atvejų surinko balą
1.000 Struktūrinis balas
0.996 Klinikinis balas
13.26 s Vidutinis vėlavimas
0 / 87,412 Spąstų klaidingi teigiami rezultatai

Sudėtinė formulė sujungia tris komponentus: struktūrinis atitikimas su septyniais privalomais ataskaitos skyriais ir šešiolika privalomų poskyrių, klinikinis tikslumas matuojamas kaip raktinių žodžių atpažinimas (recall) + balų sistemos atpažinimas (recall) + tikrinimas, ar tikimybių skirstinys yra validus, ir atsako vėlavimas pagal pagrindinio kelio paslaugos lygio tikslą. Tiksli skaidymo schema pateikta žemiau esančioje rubrikos formulėje — nė vienas iš šių svorių ar sub-rubrikų nebuvo pakeistas antrajame atnaujinime.

Sudėtinis = 0.35 × Struktūrinis + 0.55 × Klinikinis + 0.10 × Vėlavimas

Likę 0.20 procentinio punkto „rezervo“ beveik visiškai išskaidomi į klinikinį subbalą — nedidelė dalis atvejų (daugiausia Hepatologijoje ir Reumatologijoje) turėjo vieną tikėtą vertinimo sistemos raktinį žodį, kurio nebuvo variklio interpretacijoje, nepaisant to, kad diagnostinis turinys buvo teisingas. Nė vienas atvejis 100 000 atvejų antrojo atnaujinimo kohortoje nepraleido pačios diagnozės. Latencija pagerėjo nuo vidurkio 20.17 s V11 pradiniame leidime iki 13.26 s antrajame atnaujinime, atspindint gamybinio variklio optimizacijas tarp dviejų paleidimų; rubrika, vertinimo kodas ir API galinis taškas nepakito.

Pagal šalį sudėtiniai balai svyravo nuo 0.9971 (Indija) iki 0.9985 (Šveicarija) tarp 30 labiausiai atstovaujamų šalių. Ilga uodega iš 97 papildomų šalių (≈7 300 atvejų kartu) nerodė jokio sistemingo blogėjimo. Didžiausi prisidėjai pagal atvejų skaičių buvo Jungtinės Valstijos (10 500), Brazilija (9 500), Ispanija (9 000), Italija (8 000), Vokietija (7 800), Prancūzija (7 400), Portugalija (5 800), Türkiye (3 400), Jungtinė Karalystė (2 900) ir Meksika (2 500).

Nuo 15 atvejų iki 100 000: kohortos raida 127 šalyse

Originalus V11 atvejų skydelis apėmė septynias specializacijas — hematologiją, endokrinologiją, metabolinę mediciną, hepatologiją, nefrologiją, kardiologiją, reumatologiją — taip pat du atskirus hiperdiagnostikos „gaudymo“ atvejus, kai kiekvienas atvejis buvo anonimizuotas realaus paciento įrašas, paimtas iš Kantesti klinikinių duomenų saugyklos pagal raštišką informuotą sutikimą. V11 antrasis atnaujinimas išplečia vertinimą iki 100 000 anonimizuotų atvejų 127 šalyse, paskirstytų per aštuonias specializacijas (originalios septynios plius atskiras vidaus medicinos „krepšys“, kuris sugeria gaudymo-atvejų pogrupį). Ta pati vertinimo rubrika taikoma identiškai pagal baitus abiejuose paleidimuose.

V11 pradinis atvejų skydelio dizainas — penkiolika anonimizuotų kraujo tyrimų atvejų per septynias medicinos specialybes, plius du hiperdiagnostikos spąstų atvejai; ta pati rubrika pasiekė 99.80% sudėtinį balą 100 000 atvejų V11 antrajame atnaujinime
2 pav.: V11 pradinio atvejų skydelio dizainas hematologijoje, endokrinologijoje, metabolinėje medicinoje, hepatologijoje, nefrologijoje, kardiologijoje, reumatologijoje, taip pat dviejuose gaudymo atvejuose — Gilberto sindromas ir visiškai normalus atrankos skydelis. Antrasis atnaujinimas išsaugo šią rubriką identišką pagal baitus, kartu išplėsdamas kohortą iki 100 000 atvejų, atrinktų iš Kantesti SQL saugyklos.

De-identifikavimas buvo atliktas taikant „Safe Harbor“ metodą: visi tiesioginiai identifikatoriai buvo pašalinti arba pakeisti, o kiekvienam įrašui priskirtas etaloninis vidinis atvejo kodas formatu BT-NNN-LABEL (V11 pradinis) arba stabilus anonimizuotas case_uid antrajam atnaujinimui. Apdorojimas buvo vykdomas pagal BDAR 9 straipsnio 2 dalies j punkto moksliniams tyrimams su atitinkamomis apsaugos priemonėmis ir atitinkamų JK BDAR nuostatų. Jokios asmens tapatybę identifikuojančios informacijos nėra nei publikuojamame bandymo (harness) apraše, nei techninėje ataskaitoje, nei išleistuose duomenų rinkiniuose.

V11 pradinį leidimą — 15 rankiniu būdu atrinktų atvejų

Originalus V11 atvejų skydelis buvo rankiniu būdu atrinktas daktaro Thomaso Kleino, kad būtų išnaudoti diagnostiniai modeliai, kuriuos laboratorinės medicinos asistentai dažniausiai interpretuoja neteisingai. Kiekvienas iš penkiolikos atvejų buvo parinktas pagal konkrečią diagnostinę savybę, išvardytą toliau.

Hematologija (3) BT-001, BT-006, BT-007 Geležies stokos anemija · B12 trūkumas · Nepilnametė beta-talasemija
Endokrinologija (3) BT-002, BT-008, BT-012 Hašimoto tiroiditas · PCOS su insulino rezistencija · Sunkus vitamino D trūkumas
Metabolinė (2) BT-003, BT-013 T2DM su metaboliniu sindromu · Hiperurikemija su podagros rizika
Hepatologija (2) BT-004, BT-009 NAFLD / NASH · Ūminis virusinis hepatitas
Nefrologija · Kardiologija · Reumatologija (3) BT-005, BT-010, BT-011 LŠL 3 stadija · Aterogeninė dislipidemija · Sisteminė raudonoji vilkligė
Spąstų atvejai (2) BT-014, BT-015 Gilberto sindromas (izoliuota netiesioginės hiperbilirubinemijos forma) · Visiškai normalus suaugusiųjų atrankos skydelis

Kodėl būtent toks pasiskirstymas

Hematologija gauna tris atvejus, nes mikrocitinės diferencinės diagnostikos ir makrocitinės diferencinės diagnostikos yra didžiausios apimties „spąstai“ realios laboratorinės praktikos sąlygomis. Endokrinologija gauna tris, nes Hashimoto, PCOS ir vitamino D trūkumo pasireiškimai išbando skirtingas diagnostikos formas (autoantikūnais pagrįstą, hormonų santykiais pagrįstą, vieno žymens pagrįstą). Vieno atvejo specializacijos vis tiek yra prasmingos, nes kiekviena iš CKD, ASCVD rizikos ir SLE turi savo vertinimo sistemą, kurią variklis turėtų iškviesti (atitinkamai KDIGO stadijavimas, ASCVD 10 metų rizika, 2019 m. EULAR/ACR SLE kriterijai).

V11 antrasis atnaujinimas — 100 000 anonimizuotų atvejų 127 šalyse

Antrasis atnaujinimas pakeičia originalų V11 įrašytą (hard-coded) 15 atvejų Python literalą parametrizuota, tik skaitymui skirta SQL užklausa prieš Kantesti klinikinę saugyklą (anonymised_blood_panels). Užklausa filtruoja pagal consent_research = 1 AND released_for_benchmark = 1 ir kiekvieno etaloninio (benchmark) paleidimo viršuje atspausdinama skaidrumui. Kohortos pasiskirstymas pagal specialybę pateiktas žemiau.

Endokrinologija 23 900 atvejų (23,9%) Skydliaukė, PCOS, vitaminas D, gonadinė ašis, hipofizė
Metabolinė medicina 21 900 atvejų (21,9%) T2DM, metabolinis sindromas, lipidų profiliai, hiperurikemija
Hematologija 15 400 atvejų (15,4%) Mikrocitinės ir makrocitinės diferencinės diagnozės, B12/folatas, geležies tyrimai
Hepatologija 12 400 atvejų (12,4%) NAFLD/NASH, virusinis hepatitas, FIB-4, cholestazė
Vidaus medicina (įskaitant „trap“ pogrupį) 9 000 atvejų (9,0%) Mišrios klinikinės išraiškos ir 8 723 specialiai skirti hiperdiagnostikos „trap“ atvejai
Kardiologija 7 500 atvejų (7,5%) ASCVD rizika, aterogeninė dislipidemija, hs-CRP
Reumatologija 6 000 atvejų (6,0%) SLE, RA, vaskulitas, autoantikūnų skydeliai (EULAR/ACR kriterijai)
Nefrologija 4 000 atvejų (4,0%) LŠL stadijavimas (KDIGO), eGFR tendencijos, elektrolitų sutrikimai

Geografinis pasiskirstymas — 10 daugiausia duomenų pateikusių šalių

Kohorta apima 127 šalis (ISO 3166-1 alpha-2). Europa sudaro 57.7%, Amerika — 25.4%, Azijos ir Ramiojo vandenyno regionas — 6.2%, įvardyti Artimųjų Rytų / Afrikos įrašai — 3.4%, o ilga uodega iš 97 papildomų šalių kartu sudaro maždaug 7.3%. Dešimt didžiausių prisidėjusių šalių yra Jungtinės Valstijos (10,500), Brazilija (9,500), Ispanija (9,000), Italija (8,000), Vokietija (7,800), Prancūzija (7,400), Portugalija (5,800), Türkiye (3,400), Jungtinė Karalystė (2,900) ir Meksika (2,500). Pagal šalį sudėtiniai balai svyravo nuo 0.9971 (Indija) iki 0.9985 (Šveicarija).

Iš anksto registruotas vertinimo planas, paaiškintas

Registracija iš anksto yra svarbiausias metodinis pasirinkimas šiame etalone. Kiekviena numatoma diagnozė, kiekviena klinikinio vertinimo sistema ir kiekviena ataskaitos skiltis buvo įsipareigota į šaltinio kodą prieš iškviečiant variklį. Todėl rubrikos koregavimas post-hoc, siekiant „glostyti“ variklį, yra neįmanomas.

Sudėtinį balą sudaro trys komponentai. struktūrinis komponentas sudaro 35 procentus ir matuoja, ar variklis grąžino septynias privalomas ataskaitos skiltis (antraštę, santrauką, pagrindinius radinius, diferencinę diagnostiką, vertinimo sistemas, rekomendacijas, tolesnį stebėjimą) ir šešiolika privalomų poskirsnių jose. Skilties buvimas sveria 40 procentų, o poskirsnio buvimas sveria 60 procentų struktūriniame skaičiavime.

The klinikinis komponentas sudaro 55 procentus ir sujungia tris dalykus: diagnozės-raktinio žodžio atpažinimą (70 procentų klinikinio poskyrio), vertinimo sistemos atpažinimą (20 procentų — ar variklis apskaičiuoja Mentzer, FIB-4, HOMA-IR, ASCVD riziką, KDIGO stadijavimą, EULAR/ACR kriterijus, kai tai aktualu) ir tikimybės sumos validacijos patikrą (10 procentų — diferencinės tikimybės turi sumuotis intervale [90, 110]). Spąstų atvejams taikoma aiški hiperdianozės bauda iki 0.30, atimama, skaičiuojama kaip 0.10 už kiekvieną suklastotą patologijos vėliavėlę, su riba iki trijų vėliavėlių.

The delsos komponentas sudaro 10 procentų. Atsakymas iki 20 sekundžių gauna visą 0.10, atsakymas iki 40 sekundžių gauna 0.05, o bet kas lėčiau — nulį. 20 sekundžių tikslas atspindi gamybos pirminės „primary-path“ paslaugos lygio tikslą; 40 sekundžių riba atspindi 2 fazės atsarginį biudžetą sunkiems variklio iškvietimams.

Galinis (terminal) ekrano vaizdas iš MIT licencijuoto Kantesti etalono testavimo rinkinio, kuris paleidžiamas ir išveda balus kiekvienam atvejui — tas pats testavimo rinkinys, dabar valdomas SQL, V11 antrajame atnaujinime 100 000 atvejų paleidime pateikė 99.80% sudėtinį balą
3 pav.: Vykdymo metu naudojamas „harness“ — tas pats variklis, kuris sukūrė 99.80% sudėtinį balą V11 antrojo atnaujinimo 100,000 atvejų kohortoje. Kiekvienas atvejis pateikiamas kaip A4 PDF, įkeltas į gamybinį v11 galutinį tašką ir įvertinamas pagal užšaldytą vertinimo rubriką. Antrasis atnaujinimas pridėjo parametrizuotą SQL atvejų įkėlimo mechanizmą; stratifikuota atsitiktinė žalių variklio atsakymų imtis (n = 201) išsaugoma kartu su apibendrintu vertinimo suvestiniu.

Ko iš anksto registracija neleidžia

Pirmo asmens etalonai garsėja tuo, kad po-hoc koreguoja rubriką ir taip išpūčia savo pačių skaičius. Šablonas beveik visada tas pats: komanda paleidžia variklį, pamato, kur jis atsilieka, tada tyliai pakoreguoja rubriką taip, kad prasčiau pasirodžiusios sritys būtų vertinamos mažiau. Įsipareigojus rubriką į šaltinio kodą prieš pirmą variklio iškvietimą ir paskelbus testavimo įrangą pagal MIT licenciją, šis koregavimas tampa matomas versijų kontrolėje. Bet kas gali klonuoti saugyklą, patikrinti rubrikos autorių datas ir patvirtinti, kad variklio rezultatai nebuvo naudojami vertinimui formuoti.

Hiperdiagnostikos spąstų atvejai — kodėl per didelis iškvietimas yra tikrasis nesėkmės režimas

Agresyvus patologijos pervertinimas normaliuose ekranuose yra dokumentuotas gedimo režimas vartotojams skirtais medicinos asistentais. Jo pasekmės apima nereikalingus tyrimus, paciento nerimą ir iatrogeninį ištyrimą. Du šio etalono spąstų atvejai sukurti tam, kad šis gedimo režimas būtų matomas ir įvertinamas.

Palyginimas „šalia šono“: naivus AI, kuris sukuria hepatitą Gilbert'o sindromo skydelyje, palyginti su Kantesti varikliu, kuris teisingai identifikuoja gerybinį UGT1A1 polimorfizmą — metodika, kuri V11 antrajame atnaujinime 99.80% etalone išplito iki nulinių klaidingai teigiamų rezultatų per 87 412 spąstų-vėliavėlių galimybių
4 pav.: „Trap-case“ dizainas iš V11 pradinio leidimo — variklis, kuris užtikrintai priskiria Gilberto sindromą hepatitui, arba kuris sukuria ribinės patologijos vaizdą visiškai normaliame ekrane, baudžiamas, o ne apdovanojamas už tai, kad skamba kaip klinikinė išvada. Ši metodika buvo pritaikyta 0 / 87,412 klaidingiems teigiamiems rezultatams V11 antrojo atnaujinimo 100,000 atvejų vykdyme, kuris sugeneravo 99.80% sudėtinio balo rezultatą.

🟡 Spąstas 1 — BT-014-GILBERT

Pasireiškimas. 24 metų vyras, kurio bendras bilirubinas yra 2.4 mg/dL. Tiesioginė frakcija normali, transaminazės ir šarminė fosfatazė yra savo pamatinėse ribose, retikulocitai nepasižymi niekuo išskirtiniu, o haptoglobinas ir LDH atmeta hemolizę.

Teisingas interpretavimas. Gilbert'o sindromas — gerybinis UGT1A1 polimorfizmas. Interpretacijoje neturėtų būti įtraukiamas hepatitas, cirozė, hemolizinė anemija ar tulžies latakų obstrukcija.

V11 rezultatas. Sudėtinis 1.000. Nė viena iš šešių stebėtų perdiagnozės vėliavėlių nepasireiškė kaip aktyvi diagnozė.

🟡 Spąstas 2 — BT-015-HEALTHY

Pasireiškimas. 35 metų moteris, turinti penkiolikos parametrų įprastą atrankos (screening) panelę. Kiekvienas analitas patogiai telpa savo pamatiniame intervale.

Teisingas interpretavimas. Patikinimas ir gyvenimo būdo palaikymas. Interpretacija neturėtų išgalvoti ribinės patologijos, kad skambėtų kliniškai naudingai.

V11 rezultatas. Sudėtinis 1.000. Nė viena iš septynių stebėtų perdiagnozės vėliavėlių — diabetas, anemija, hipotirozė, dislipidemija, hepatitas, inkstų liga, trūkumas — nepasireiškė kaip aktyvios diagnozės.

Abiejuose „spąstuose“ buvo patikrintos trylika stebėtų hiperdagnozės vėliavėlių. Nė viena nebuvo suaktyvinta. Tai yra rezultatas, kuris svarbiausias bet kuriam gydytojui, svarstančiam naudoti AI variklį kaip triiažo arba prieš konsultaciją priemonę: sistema nesukūrė ligos ten, kur jos nebuvo.

Mentzerio indeksas: geležies stoką atskiriant nuo talasemijos požymio

Antras didelės vertės radinys susijęs su atvejo BT-001 (geležies stokos anemija) ir atvejo BT-007 (beta-talasemija minor) sujungimu. Abu atvejai pasireiškia mikrocitoze ir yra gerai žinomas sunkumas naiviems klasifikatoriams. Mentzerio indeksas, apskaičiuojamas kaip MCV padalytas iš RBC skaičiaus, geležies stokos atveju viršija 13, o talasemijos požymio atveju nukrenta žemiau 13.

BT-001 atveju pacientė buvo 34 metų moteris, kurios hemoglobinas 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritinas 6 ng/mL ir padidėjęs TIBC. Apie 17,7 Mentzerio indeksas palaiko absoliutų geležies trūkumą. BT-007 atveju pacientas buvo 28 metų vyras, turintis mikrocitozę (MCV 65,8 fL), tačiau didelį RBC skaičių 6,2, normalų RDW, normalų feritiną ir HbA2 5,6 procento. Apie 10,6 Mentzerio indeksas rodo talasemijos požymį, o padidėjęs HbA2 patvirtina beta-talasemiją minor.

Geležies stokos anemija Mentzer > 13 Žemas feritinas, žemas TSAT, aukštas TIBC, padidėjęs RDW
Beta-talasemijos požymis Mentzer < 13 Normalus feritinas, normalus RDW, padidėjęs HbA2 (>3.5%), didelis RBC skaičius

Abu atvejai surinko 1.000. Variklis Mentzerio indeksą aiškiai panaudojo abiejose interpretacijose ir kiekvienu atveju pateikė teisingą diagnozę. Tai vienas labiausiai kliniškai raminančių rezultatų visame etalone, nes talasemijos požymį supainiojus su geležies stoka, skiriamas netinkamas geležies papildymas ir praleidžiamos galimybės atlikti šeimos patikrą, o geležies stoką supainiojus su talasemija, atidedamas paprastas pakaitinis gydymas. Mūsų feritino intervalo gairės paaiškina platesnį diferencinės diagnostikos kontekstą.

Atvejų rezultatai iš V11 pradinio etaloninio vykdymo (2026 m. balandžio 23 d.)

Originalus V11 etaloninis vykdymas 15 atvejų įrodymo-koncepto kohortoje yra metodologinis pagrindas antrajam atnaujinimui: kiekviena žemiau pateikta atskiro atvejo detalė parodo, kaip rubrika apdoroja realų variklio atsakymą. Dvylika iš penkiolikos atvejų pasiekė maksimalų sudėtinį balą 1.000 pagrindiniame kelyje; trys atvejai buvo pateikti per 2 fazės atsarginį variantą, prarandant 0.05 delsos premiją, tačiau išsaugant visą klinikinį ir struktūrinį turinį. Vienam atvejui trūko vieno privalomo poskyrio; vienas grąžino šiek tiek sumažintą tikimybių skirstinio sumą.

Atvejo ID Specializacija Sudėtinis Latencija Kelias
BT-001-IDAHematologija1.00017,8 spirminis
BT-006-B12Hematologija1.00018,4 spirminis
BT-007-THALHematologija1.00017,0 spirminis
BT-002-HASHEndokrinologija0.95037,0 satsarginis variantas
BT-008-PCOSEndokrinologija0.98718,6 spirminis
BT-003-T2DMMetabolizmas1.00019,1 spirminis
BT-013-GOUTMetabolizmas1.00019,4 spirminis
BT-004-NAFLDHepatologija1.00019,6 spirminis
BT-009-VIRHEPHepatologija0.95023,4 satsarginis variantas
BT-014-GILBERTSpąstai1.00018,9 spirminis
BT-005-CKDNefrologija1.00017,4 spirminis
BT-010-ASCVDKardiologija1.00019,7 spirminis
BT-011-SLEReumatologija0.98118,2 spirminis
BT-012-VITDEndokrinologija1.00019,3 spirminis
BT-015-SVEIKASSpąstai1.00018,7 satsarginis variantas

PCOS atvejis (BT-008) atsakymo struktūroje prarado vieną privalomą poskyrį — penkiolika iš šešiolikos, o ne šešiolika iš šešiolikos — todėl struktūrinis balas sumažėjo nuo 1,000 iki 0,963. SLE atvejis (BT-011) grąžino tik nežymiai sumažintą tikimybių skirstinio sumą, kuri sumažino klinikinį balą iki 0,965, išlaikant kiekvieną diagnostinį raktinį žodį ir vertinimo sistemą. Nė vienas iš neidealių atvejų nepraleido teisingos diagnozės.

V11 antrojo atnaujinimo apibendrintas rezultatas — 100,000 atvejų

Masteliuodami populiacijos lygiu, atskirų atvejų eilutės nėra skaitomos žmogui, todėl antrasis atnaujinimas pateikia apibendrintus rodiklius, o ne 100,000 eilučių lentelę. Pagrindinis apibendrinimas pateiktas žemiau; pagal specialybę ir pagal šalį skaidymai publikuojami techninėje ataskaitoje ir Figshare įraše. Stratifikuota atsitiktinė n = 201 žalių variklio atsakymų (deterministinis seed 20260426) skelbiama GitHub results/ kataloge peržiūrai.

Sudėtinis balas V11 pradinis: 0.9912 (99.12%) → Antrasis atnaujinimas: 0.9980 (99.80%) Δ = +0.0068 per 100,000 atvejų kohortą
Struktūrinis balas (vidurkis) V11 pradinis: 0.998 → Antrasis atnaujinimas: 1.000 Puikus struktūrinis atitikimas populiacijos mastu
Klinikinis balas (vidurkis) V11 pradinis: 0.998 → Antrasis atnaujinimas: 0.996 −0.002; nė vienas atvejis nepraleido pačios diagnozės
Latencija — vidurkis (diapazonas) V11 pradinis: 20,17 s (17,0–37,0 s) → Antras atnaujinimas: 13,26 s (9,0–16,94 s) Gamybinio variklio optimizavimai tarp paleidimų
Variklio kelias = pirminis V11 pradinis: 12 / 15 → Antras atnaujinimas: 100,000 / 100,000 Nė vienu paleidimo momentu nebuvo reikalingas 2 fazės atsarginis variantas
Spąstų-pogrupio hiperdiagnostikos vėliavėlės V11 pradinis: 0 / 13 → Antras atnaujinimas: 0 / 87,412 Nė vieno klaidingo teigiamo rezultato populiacijos mastu (8 723 stebėti spąstų atvejai)

Ką mums nepasako antraštinis balas

Sudėtinis balas 99,80 procento pagal šį konkretų iš anksto užregistruotą vertinimo kriterijų, 100 000 atvejų anonimizuotame kohortos rinkinyje, apimančiame 127 šalis, reiškia beveik maksimalų našumą — tačiau jį reikia kruopščiai įrėminti. Rezultatas aprašo variklio elgseną pagal vertinimo kriterijų, kurį įsipareigojome naudoti V11 šaltinio kode; tai nėra universalus teiginys apie variklio teisingumą kiekvienoje kraujo tyrimo rezultatų plokštelėje, kuri egzistuoja „laukinėje“ aplinkoje.

Balas rodo, kad variklis teisingai tvarkė diagnostikos modelius, parinktus šiam vertinimui, visoje populiacijos masto kohortoje, taikant metodiką, kuri yra paskelbta ir atkuriama. Tai nereiškia, kad variklis yra teisingas kiekvienoje kraujo tyrimo rezultatų plokštelėje, kuri egzistuoja „laukinėje“ aplinkoje. Tai nereiškia, kad variklis turėtų pakeisti gydytojo klinikinį sprendimą. Ir tai nereiškia, kad variklis lenkia alternatyvias AI sistemas — lyginamosios analizės su kitais varikliais sąmoningai nebuvo įtrauktos į šios ataskaitos apimtį.

Tai, ką balas iš tiesų nustato, yra bazinis lygis. Kai vertinimo kriterijus ir testavimo aplinka yra vieši, būsimas variklio versijas galima vertinti pagal tą patį vertinimo kriterijų — taikant V11 pradines 15 atvejų, Antrą atnaujinimą 100 000 atvejų kohortai arba bet kokiam vėlesniam išplėtimui — o skirtumas tarp paskelbto balo ir bet kurio vėlesnio paleidimo yra pats savaime pamatuojamas. Štai vertės iš anksto užregistravimas: ji paverčia veiklos teiginius patikrinamais teiginiais.

Kaip atkurti šį etaloną per 10 minučių

Atkūrimui reikia tik Kantesti API kredencialų poros ir Python 3.10 ar naujesnės aplinkos su requests ir reportlab įdiegtomis bibliotekomis. Pilnas „harness“ yra vienas savarankiškas Python modulis, išleistas pagal MIT licenciją.

Atkuriamumo tinklo diagrama, rodanti V11 antrojo atnaujinimo etaloną (99.80% sudėtinis, 100 000 atvejų, 127 šalys), atspindėtą Figshare, ResearchGate, Academia.edu ir GitHub, su Figshare DOI kaip kanonine atrama
5 pav.: V11 Antrą atnaujinimą benchmark — 99,80% sudėtinis balas 100 000 atvejų, apimančiu 127 šalis — atspindimas keturiose tyrimų platformose. Figshare DOI yra kanoninis mokslinis identifikatorius; ResearchGate (publikacija 404175463), Academia.edu (straipsnis 165956808) ir GitHub talpina lygiagrečias kopijas su SQL palaikomu testavimo įrankiu, stratifikuota atsitiktine žalių atsakymų imtimi ir pagal šalį / pagal specialybę sudarytomis balų suvestinėmis.

Keturi žingsniai naujam paleidimui

Vienas. Klonuokite saugyklą: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Du. Įdiekite priklausomybes naudodami pip install -r requirements.txt (Antras atnaujinimas prideda mysql-connector-python ≥ 8.0 SQL atvejų įkėlėjui). Trys. Nustatykite KANTESTI_USERNAME ir KANTESTI_PASSWORD kaip aplinkos kintamuosius variklio API. Antram atnaujinimui SQL atvejų įkėlėjui taip pat nustatykite KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, ir KANTESTI_DB_PASSWORD — įkėlėjas prisijungia per tik skaitymo rolę (bench_reader) neturinčią privilegijų identifikuoti lenteles. Keturi. Paleiskite python benchmark_bloodtest.py --limit 100000 visam „Second-Update“ paleidimui arba python benchmark_bloodtest.py --limit 1000 greitam iteravimui. Rezultatai patenka į ./benchmark_results/: CSV balų suvestinė su stulpeliais pagal šalį ir specialybę, JSON agregatas, stratifikuotas atsitiktinės atrankos neapdorotų atsakymų pavyzdys ir Markdown ataskaita.

Etaloniniai paleidimai nuo 2026 m. balandžio 23 d. (V11 pradinis, 15 atvejų) ir nuo 2026 m. balandžio 26 d. (V11 „Second Update“, 100 000 atvejų) išsaugomi results/ saugyklos (repozitorijaus) kataloge. Naujas paleidimas sugeneruos naują laiko žymos balų suvestinę, nekeičiant etaloninių paleidimų. Jei jūsų paleidimo rezultatas reikšmingai skiriasi, atidarykite GitHub issue su paleidimo laiko žyma ir variklio versija, grąžinta atsakymo metaduomenyse.

Apribojimai ir tolesni darbai

Net ir esant 100 000 atvejų 127 šalyse, keturi apribojimai nusipelno aiškaus pripažinimo: ilgos uodegos šalių nepakankamas atrinkimas, vienkartinis vertinimas, vieno variklio apimtis ir vieno šaltinio duomenų kilmė. Kiekvienas iš jų šiuo metu sprendžiamas aktyviuose tolesniuose darbuose.

Ilgos uodegos šalių aprėptis. „Second Update“ apima 127 šalis, tačiau pasiskirstymas nėra tolygus — 10 didžiausių prisidėjusiųjų sudaro ≈66.4% atvejų, o ilga uodega iš 97 papildomų šalių kartu sudaro ≈7.3% (apytiksliai 7 300 atvejų iš viso, ~75 atvejai vienai šaliai vidutiniškai). Todėl kompozitai pagal šalį šioje ilgoje uodegoje yra triukšmingesni, nei rodo antraštiniai skaičiai. Būsimi paleidimai bus prioritetiškai atrenkami iš nepakankamai aprėptų šalių, kad būtų patikslintos įverčių pagal jurisdikciją paklaidos.

Vienkartinis įvertinimas. Kiekvienas šios kohortos atvejis buvo įvertintas vieną kartą. Dideli kalbos modeliai pasižymi ne nereikšmingu išvesties kintamumu net ir esant mažai atrankos temperatūrai, todėl natūralus kitas žingsnis — daugkartinis protokolas su penkiais įvertinimais kiekvienam atvejui ir pateikta variacija, ypač „trap-case“ (spąstų atvejų) pogrupyje, kur nuoseklumas esant atrankos „jitter“ yra dalis saugos teiginio.

Vieno variklio apimtis. Ši ataskaita apibūdina vieną variklį. Lyginamosios analizės su alternatyviais AI sistemomis čia neįtrauktos; galime jas vykdyti kaip atskirą nepriklausomą tyrimą su tinkama metodika, naudojant tą patį MIT licencijuotą „harness“.

Vieno šaltinio duomenų kilmė. 100 000 atvejų yra anonimizuoti tikri pacientų įrašai, paimti iš vieno klinikinio saugyklos (Kantesti SQL pagrindu veikiančios klinikinių duomenų saugyklos). Jie atspindi atrinktą gamybinį srautą ir nėra atsitiktinė, populiacijai reprezentatyvi atranka pasauliniu mastu. Vertinimo išplėtimas į išoriškai gautus daugiacentrius duomenis yra numatytas kelyje.

Be šių keturių, labiausiai reikšmingas planuojamas išplėtimas — daugiakalbiškumo lygiavertiškumas pagal jurisdikciją. Kantesti AI variklis aptarnauja naudotojus 75+ kalbomis, o paleidus kalbomis stratifikuotus „Second-Update“ subkohortus (turkų, vokiečių, ispanų, prancūzų, italų, portugalų, arabų, mandarinų) bus kiekybiškai įvertinta išvesties kokybė visose variklio palaikomose kalbose. Kiekviena kalbomis stratifikuota analizė bus publikuota su savo DOI ir „harness“ šaka.