Kodėl egzistuoja šis etalonas ir ką jis tikrina
AI pagalba aiškinant kraujo tyrimus vis dažniau naudojama vartotojų ir klinikiniuose procesuose, tačiau atkuriamos vertinimo sistemos, pritaikytos laboratorinei medicinai, išlieka retos. Šiame kontekste svarbiausi klausimai nėra tie, kuriuos apima bendrieji medicininių klausimų ir atsakymų etalonai: ar variklis gali atskirti geležies stoką nuo talasemijos požymio, kai vidutinis eritrocitų tūris yra identiškas, ar jis perdiagnozuoja Gilberto sindromą kaip hepatitą, ir ar jis sukuria patologiją visiškai normaliame patikros skydelyje?
Vienas kraujo tyrimo tyrimų rinkinys paprastai turi pakankamai informacijos, kad būtų galima pateikti kelias konkuruojančias interpretacijas, o interpretuojančio gydytojo užduotis – pasverti šias interpretacijas tarpusavyje, o ne ieškoti vadovėlinio atsakymo. Gerai vadovėliniais atvejais veikiantis „variklis“ vis tiek gali žlugti svarbiausiuose atvejuose: diagnostikos diferencijavimo spąstuose, gerybinėse variacijose, kurios vienos atrodo nerimą keliančios, ir visiškai normaliuose tyrimų rinkiniuose, kurie įvilioja užtikrintus asistentus į patologijos „gamybą“.
Šis vertinimo kriterijus buvo sukurtas būtent toms nesėkmės formoms. Kiekvienas iš penkiolikos atvejų buvo parinktas pagal konkrečią diagnostinę savybę: geležies stokos sukelta mikrocitozė, kuri turi būti atskirta nuo beta talasemijos požymio, kai identiškas vidutinis eritrocitų tūris; Gilbert’o sindromo vaizdas, kai vienintelė anomalija yra izoliuota netiesioginė hiperbilirubinemija; ir penkiolikos parametrų atrankos tyrimų rinkinys, kuriame kiekvienas analitas yra savo pamatiniame (referenciniame) intervale. Vertinimo rubrika skatina variklius, kurie kiekvieną atvejį skaito pagal jo paties kontekstą, ir baudžia variklius, kurie bando pateikti užtikrintą diagnozę, kai tokia diagnozė nėra pagrįsta.
Kaip Thomas Klein, MD, aš pasirinkau atvejų rinkinį, nes tai yra tie modeliai, kuriuos laboratorinės medicinos asistentai dažniausiai interpretuoja neteisingai. Brangiausia nesėkmės forma nėra "praleisti retą ligą" – tai sukurti įprastą patologiją pacientams, kuriems jos nėra. Mūsų Medicininis patvirtinimas „hub“ aprašo platesnę sistemą; šiame puslapyje aprašomas jos pritaikytas rezultatas V11 varikliui.
Naujausias pamatinis paleidimas — V11 (2026 m. balandis)
2026 m. balandžio mėn. Kantesti AI Engine V11 etaloninis paleidimas sugeneravo sudėtinį balą 99.12% pagal iš anksto užregistruotą penkiolikos atvejų rubriką. Abu hiperdijagnozės spąstų atvejai surinko maksimalų balą. Mentzerio indeksas buvo pritaikytas teisingai geležies stokos ir talasemijos diferencijavimo atveju.
Sudėtinė formulė sujungia tris komponentus: struktūrinis atitikimas su septyniais privalomais ataskaitos skyriais ir šešiolika privalomų poskyrių, klinikinis tikslumas matuojamas kaip raktinių žodžių atpažinimas (recall) + balų sistemos atpažinimas (recall) + tikrinimas, ar tikimybių skirstinys yra validus, ir atsako vėlavimas palyginti su 20 sekundžių pagrindinės „paslaugos lygio“ (SLA) tiksline riba. Tikslus skaidymas pateiktas rubrikos formulėje žemiau.
Likę 0,88 procentinio punkto „laisvumo“ likutį beveik visiškai sudaro delsos praradimas — trys 2 fazės atsarginio veikimo (fallback) iškvietimai, kurių kiekvienas sudarė po -0,05 kompozicinio dydžio, prisidėjo maždaug 0,60 iš 0,88 punkto trūkumo — o ne klinikinio turinio praradimas. Variklis nepraleido teisingos diagnozės nė viename iš penkiolikos atvejų; ten, kur nepavyko, tai buvo dėl to, kad dalyje iškvietimų jis užtruko šiek tiek ilgiau nei 20 sekundžių pagrindinis (primary-path) tikslas.
Penkiolika atvejų iš septynių medicinos specialybių
Atvejų skydelis apima septynias specializacijas — hematologiją, endokrinologiją, metabolinę mediciną, hepatologiją, nefrologiją, kardiologiją, reumatologiją — taip pat du atskirus hiperdianostikos spąstų (hyperdiagnosis trap) atvejus. Kiekvienas atvejis yra anonimizuotas tikro paciento įrašas, paimtas iš Kantesti klinikinių duomenų saugyklos, gavus raštišką informuotą sutikimą.
Deidentifikavimas buvo atliktas taikant „Safe Harbor“ metodą: visi tiesioginiai identifikatoriai buvo pašalinti arba pakeisti, o kiekvienam įrašui priskirtas etaloninis vidinis atvejo kodas BT-NNN-LABEL formatu. Apdorojimas buvo atliktas laikantis BDAR 9 straipsnio 2 dalies j punkto moksliniams tyrimams su atitinkamomis apsaugos priemonėmis ir atitinkamų JK BDAR nuostatų. Jokios asmens tapatybę identifikuojančios informacijos nėra nei publikuojamame bandymo (harness) apraše, nei techninėje ataskaitoje, nei išleistuose duomenų rinkiniuose.
Kodėl būtent toks pasiskirstymas
Hematologija gauna tris atvejus, nes mikrocitinės diferencinės diagnostikos ir makrocitinės diferencinės diagnostikos yra didžiausios apimties „spąstai“ realios laboratorinės praktikos sąlygomis. Endokrinologija gauna tris, nes Hashimoto, PCOS ir vitamino D trūkumo pasireiškimai išbando skirtingas diagnostikos formas (autoantikūnais pagrįstą, hormonų santykiais pagrįstą, vieno žymens pagrįstą). Vieno atvejo specializacijos vis tiek yra prasmingos, nes kiekviena iš CKD, ASCVD rizikos ir SLE turi savo vertinimo sistemą, kurią variklis turėtų iškviesti (atitinkamai KDIGO stadijavimas, ASCVD 10 metų rizika, 2019 m. EULAR/ACR SLE kriterijai).
Iš anksto registruotas vertinimo planas, paaiškintas
Registracija iš anksto yra svarbiausias metodinis pasirinkimas šiame etalone. Kiekviena numatoma diagnozė, kiekviena klinikinio vertinimo sistema ir kiekviena ataskaitos skiltis buvo įsipareigota į šaltinio kodą prieš iškviečiant variklį. Todėl rubrikos koregavimas post-hoc, siekiant „glostyti“ variklį, yra neįmanomas.
Sudėtinį balą sudaro trys komponentai. struktūrinis komponentas sudaro 35 procentus ir matuoja, ar variklis grąžino septynias privalomas ataskaitos skiltis (antraštę, santrauką, pagrindinius radinius, diferencinę diagnostiką, vertinimo sistemas, rekomendacijas, tolesnį stebėjimą) ir šešiolika privalomų poskirsnių jose. Skilties buvimas sveria 40 procentų, o poskirsnio buvimas sveria 60 procentų struktūriniame skaičiavime.
The klinikinis komponentas sudaro 55 procentus ir sujungia tris dalykus: diagnozės-raktinio žodžio atpažinimą (70 procentų klinikinio poskyrio), vertinimo sistemos atpažinimą (20 procentų — ar variklis apskaičiuoja Mentzer, FIB-4, HOMA-IR, ASCVD riziką, KDIGO stadijavimą, EULAR/ACR kriterijus, kai tai aktualu) ir tikimybės sumos validacijos patikrą (10 procentų — diferencinės tikimybės turi sumuotis intervale [90, 110]). Spąstų atvejams taikoma aiški hiperdianozės bauda iki 0.30, atimama, skaičiuojama kaip 0.10 už kiekvieną suklastotą patologijos vėliavėlę, su riba iki trijų vėliavėlių.
The delsos komponentas sudaro 10 procentų. Atsakymas iki 20 sekundžių gauna visą 0.10, atsakymas iki 40 sekundžių gauna 0.05, o bet kas lėčiau — nulį. 20 sekundžių tikslas atspindi gamybos pirminės „primary-path“ paslaugos lygio tikslą; 40 sekundžių riba atspindi 2 fazės atsarginį biudžetą sunkiems variklio iškvietimams.
Ko iš anksto registracija neleidžia
Pirmo asmens etalonai garsėja tuo, kad po-hoc koreguoja rubriką ir taip išpūčia savo pačių skaičius. Šablonas beveik visada tas pats: komanda paleidžia variklį, pamato, kur jis atsilieka, tada tyliai pakoreguoja rubriką taip, kad prasčiau pasirodžiusios sritys būtų vertinamos mažiau. Įsipareigojus rubriką į šaltinio kodą prieš pirmą variklio iškvietimą ir paskelbus testavimo įrangą pagal MIT licenciją, šis koregavimas tampa matomas versijų kontrolėje. Bet kas gali klonuoti saugyklą, patikrinti rubrikos autorių datas ir patvirtinti, kad variklio rezultatai nebuvo naudojami vertinimui formuoti.
Hiperdiagnostikos spąstų atvejai — kodėl per didelis iškvietimas yra tikrasis nesėkmės režimas
Agresyvus patologijos pervertinimas normaliuose ekranuose yra dokumentuotas gedimo režimas vartotojams skirtais medicinos asistentais. Jo pasekmės apima nereikalingus tyrimus, paciento nerimą ir iatrogeninį ištyrimą. Du šio etalono spąstų atvejai sukurti tam, kad šis gedimo režimas būtų matomas ir įvertinamas.
🟡 Spąstas 1 — BT-014-GILBERT
Pasireiškimas. 24 metų vyras, kurio bendras bilirubinas yra 2.4 mg/dL. Tiesioginė frakcija normali, transaminazės ir šarminė fosfatazė yra savo pamatinėse ribose, retikulocitai nepasižymi niekuo išskirtiniu, o haptoglobinas ir LDH atmeta hemolizę.
Teisingas interpretavimas. Gilbert'o sindromas — gerybinis UGT1A1 polimorfizmas. Interpretacijoje neturėtų būti įtraukiamas hepatitas, cirozė, hemolizinė anemija ar tulžies latakų obstrukcija.
V11 rezultatas. Sudėtinis 1.000. Nė viena iš šešių stebėtų perdiagnozės vėliavėlių nepasireiškė kaip aktyvi diagnozė.
🟡 Spąstas 2 — BT-015-HEALTHY
Pasireiškimas. 35 metų moteris, turinti penkiolikos parametrų įprastą atrankos (screening) panelę. Kiekvienas analitas patogiai telpa savo pamatiniame intervale.
Teisingas interpretavimas. Patikinimas ir gyvenimo būdo palaikymas. Interpretacija neturėtų išgalvoti ribinės patologijos, kad skambėtų kliniškai naudingai.
V11 rezultatas. Sudėtinis 1.000. Nė viena iš septynių stebėtų perdiagnozės vėliavėlių — diabetas, anemija, hipotirozė, dislipidemija, hepatitas, inkstų liga, trūkumas — nepasireiškė kaip aktyvios diagnozės.
Abiejuose „spąstuose“ buvo patikrintos trylika stebėtų hiperdagnozės vėliavėlių. Nė viena nebuvo suaktyvinta. Tai yra rezultatas, kuris svarbiausias bet kuriam gydytojui, svarstančiam naudoti AI variklį kaip triiažo arba prieš konsultaciją priemonę: sistema nesukūrė ligos ten, kur jos nebuvo.
Mentzerio indeksas: geležies stoką atskiriant nuo talasemijos požymio
Antras didelės vertės radinys susijęs su atvejo BT-001 (geležies stokos anemija) ir atvejo BT-007 (beta-talasemija minor) sujungimu. Abu atvejai pasireiškia mikrocitoze ir yra gerai žinomas sunkumas naiviems klasifikatoriams. Mentzerio indeksas, apskaičiuojamas kaip MCV padalytas iš RBC skaičiaus, geležies stokos atveju viršija 13, o talasemijos požymio atveju nukrenta žemiau 13.
BT-001 atveju pacientė buvo 34 metų moteris, kurios hemoglobinas 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritinas 6 ng/mL ir padidėjęs TIBC. Apie 17,7 Mentzerio indeksas palaiko absoliutų geležies trūkumą. BT-007 atveju pacientas buvo 28 metų vyras, turintis mikrocitozę (MCV 65,8 fL), tačiau didelį RBC skaičių 6,2, normalų RDW, normalų feritiną ir HbA2 5,6 procento. Apie 10,6 Mentzerio indeksas rodo talasemijos požymį, o padidėjęs HbA2 patvirtina beta-talasemiją minor.
Abu atvejai surinko 1.000. Variklis Mentzerio indeksą aiškiai panaudojo abiejose interpretacijose ir kiekvienu atveju pateikė teisingą diagnozę. Tai vienas labiausiai kliniškai raminančių rezultatų visame etalone, nes talasemijos požymį supainiojus su geležies stoka, skiriamas netinkamas geležies papildymas ir praleidžiamos galimybės atlikti šeimos patikrą, o geležies stoką supainiojus su talasemija, atidedamas paprastas pakaitinis gydymas. Mūsų feritino intervalo gairės paaiškina platesnį diferencinės diagnostikos kontekstą.
Kiekvieno atvejo rezultatai iš 2026 m. balandžio paleidimo
Dvylika iš penkiolikos atvejų pasiekė pirminio kelio sudėtinio balo lubas — 1.000. Trys atvejai buvo pateikti per 2 fazės atsarginį variantą, prarandant 0,05 latencijos premiją, tačiau išsaugant visą klinikinį ir struktūrinį turinį. Vienu atveju trūko vieno privalomo poskyrio; vienu atveju grąžinta tik šiek tiek sumažinta tikimybių pasiskirstymo suma.
PCOS atvejis (BT-008) atsakymo struktūroje prarado vieną privalomą poskyrį — penkiolika iš šešiolikos, o ne šešiolika iš šešiolikos — todėl struktūrinis balas sumažėjo nuo 1,000 iki 0,963. SLE atvejis (BT-011) grąžino tik nežymiai sumažintą tikimybių skirstinio sumą, kuri sumažino klinikinį balą iki 0,965, išlaikant kiekvieną diagnostinį raktinį žodį ir vertinimo sistemą. Nė vienas iš neidealių atvejų nepraleido teisingos diagnozės.
Ką mums nepasako antraštinis balas
Sudėtinis balas 99,12 procento pagal šį konkretų iš anksto registruotą vertinimo kriterijų rinkinį reiškia beveik lubų lygio rezultatus, tačiau jį verta kruopščiai įrėminti. Rezultatas aprašo, kaip variklis elgėsi prieš penkiolika kruopščiai atrinktų anonimizuotų atvejų, įvertintų po vieną kartą, pagal vieną vertinimo kriterijų rinkinį. Aiškiai nurodome, ką tas skaičius nustato ir ko nenustato.
Balas rodo, kad V11 variklis teisingai tvarkė diagnostinius šablonus, atrinktus šiam vertinimui, taikant metodiką, kuri yra paskelbta ir atkuriama. Tai nereiškia, kad variklis yra teisingas kiekvienoje egzistuojančioje kraujo tyrimų plokštelėje. Tai nereiškia, kad variklis turėtų pakeisti gydytojo sprendimą. Ir tai nereiškia, kad variklis lenkia alternatyvias AI sistemas — lyginamosios analizės su kitais varikliais sąmoningai nebuvo įtrauktos į šios ataskaitos apimtį.
Tai, ką balas iš tiesų nustato, yra bazinis lygis. Kadangi vertinimo kriterijus ir „harness“ vieši, būsimas variklio versijas galima vertinti pagal tuos pačius penkiolika atvejų, o skirtumas tarp paskelbto balo ir bet kurio vėlesnio paleidimo yra pats savaime pamatuojamas. Štai vertės prasmė išankstinei registracijai: ji paverčia veiklos teiginius patikrinamais teiginiais.
Kaip atkurti šį etaloną per 10 minučių
Atkūrimui reikia tik Kantesti API kredencialų poros ir Python 3.10 ar naujesnės aplinkos su requests ir reportlab įdiegtomis bibliotekomis. Pilnas „harness“ yra vienas savarankiškas Python modulis, išleistas pagal MIT licenciją.
Keturi žingsniai naujam paleidimui
Vienas. Klonuokite saugyklą: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Du. Įdiekite priklausomybes naudodami pip install -r requirements.txt. Trys. Nustatykite KANTESTI_USERNAME ir KANTESTI_PASSWORD kaip aplinkos kintamuosius — prisijungimo duomenys skaitomi vykdymo metu ir niekas nėra įrašyta į skriptą. Keturi. Paleiskite python benchmark_bloodtest.py ir patikrinkite keturis artefaktus, sugeneruotus darbo kataloge: CSV balų suvestinę, JSON balų suvestinę, pilną JSON išklotinę, įskaitant neapdorotus variklio atsakymus, ir žmogui suprantamą Markdown ataskaitą.
2026 m. balandžio 23 d. atliktas pamatinis paleidimas išsaugomas results/ saugyklos (repository) kataloge. Naujas paleidimas sugeneruos naują laiko žymos (timestamp) balų suvestinę, nekeičiant pamatinio paleidimo. Jei jūsų paleidimo rezultatas reikšmingai skiriasi, atidarykite GitHub issue su paleidimo laiko žyma ir variklio versija, pateikta atsakymo metaduomenyse.
Apribojimai ir tolesni darbai
Keturi apribojimai nusipelno aiškaus pripažinimo: imties dydis, vienkartinis įvertinimas, vieno variklio apimtis ir vieno šaltinio duomenų kilmė. Kiekvienas iš jų šiuo metu sprendžiamas tęstiniuose tolesniuose darbuose.
Imties dydis. Penkiolika atvejų per aštuonias specializacijos (specialty) grupes tinka įrodymo-of-koncepto (proof of concept) tikslui, bet ne pogrupių analizei konkrečioje specializacijoje. Planuojama išplėsti iki penkiasdešimties atvejų ir įtraukti krešėjimo (koaguliacijos) paneles, hematologinių piktybinių navikų patikrą, nėštumo paneles ir pediatrinius atvejus.
Vienkartinis įvertinimas. Kiekvienas atvejis buvo įvertintas vieną kartą. Dideli kalbos modeliai pasižymi ne trivialia išvesties variacija net ir esant mažai atrankos temperatūrai, todėl natūralus kitas žingsnis — kelių paleidimų protokolas su penkiais įvertinimais kiekvienam atvejui ir pateikta variacija.
Vieno variklio apimtis. Ši ataskaita apibūdina vieną variklį. Lyginamosios analizės su alternatyviomis AI sistemomis čia neįtrauktos; galime jas vykdyti kaip atskirą nepriklausomą tyrimą su tinkama metodika.
Vieno šaltinio duomenų kilmė. Penkiolika atvejų yra anonimizuoti realių pacientų įrašai, paimti iš vieno klinikinio repozitoriumo. Tai yra atrinkta (curated) imtis, o ne populiacijai reprezentatyvus atsitiktinis atrinkimas. Planuojama išplėsti vertinimą iki kelių centrų duomenų.
Labiausiai reikšmingas planuojamas išplėtimas — daugiakalbis atitikimas (paritetas). Kantesti AI Engine aptarnauja naudotojus 75+ kalbomis, o paleidus tą patį penkiolikos atvejų testavimo rinkinį turkų, vokiečių, ispanų, prancūzų ir arabų kalbomis bus kiekybiškai įvertinta išvesties kokybė per variklio palaikomas kalbas. Kiekvieną kalbai skirtą paleidimą paskelbsime su savo DOI ir testavimo (harness) šaka.