Kantesti AI kraujo tyrimo etalonas — klinikinis patvirtinimas

Klinikinis patvirtinimas Iš anksto registruotas etalonas V11 — 2026 m. balandis MIT licencija Patikrinama bendraamžių

99.12% sudėtinis balas pagal iš anksto registruotą vertinimo rubriką, kai nėra hiperdianostikos klaidingų teigiamų rezultatų

Nepriklausomas, iš anksto registruotas klinikinis Kantesti AI variklio vertinimas anonimizuotų kraujo tyrimų atvejų pagrindu. Vertinimo kriterijai buvo užšaldyti šaltinio kode dar prieš pirmą variklio iškvietimą, vertinimo aplinka yra MIT licencijuota, o kiekvienas pirminis atsakymas yra paskelbtas.

📖 ~14 minučių 📅 2026 m. balandžio 23 d. 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Paskelbta: 2026 m. balandžio 23 d. 🩺 Mediciniškai peržiūrėta: 2026 m. balandžio 23 d. ✅ Iš anksto registruotas vertinimo planas 🔓 Atviras kodas ir duomenys

Šį klinikinio patvirtinimo tyrimą vadovavo Dr. Thomas Klein, MD, Kantesti AI vyriausiasis medicinos pareigūnas, bendradarbiaujant su Julianas Emirhanas Bulutas, vyresniuoju AI inžinieriumi ir Kantesti Ltd generaliniu direktoriumi. Metodologiją ir vertinimo planą peržiūrėjo Kantesti dirbtinio intelekto medicinos patariamoji taryba.

Pagrindinis autorius ir klinikinė priežiūra

Tomas Kleinas, medicinos mokslų daktaras

Vyriausiasis medicinos pareigūnas, Kantesti AI

Daktaras Thomas Klein yra valdybos sertifikuotas klinikinis hematologas ir internistas, turintis daugiau nei 15 metų patirtį laboratorinės medicinos srityje. Būdamas Kantesti AI vyriausiuoju medicinos pareigūnu, jis parinko šio etalono atvejų rinkinį, peržiūrėjo visas diagnostines tikrąsias tiesas ir patvirtino iš anksto registruotą vertinimo planą prieš pirmą variklio iškvietimą.

ORCID 0009-0009-1490-1321 ResearchGate „Google Scholar“

Bendraautorius ir įgyvendinimas

Julianas Emirhanas Bulutas

Vyresnysis AI inžinierius ir generalinis direktorius, Kantesti Ltd

Julian Emirhan Bulut yra Kantesti Ltd įkūrėjas ir generalinis direktorius. Jis suprojektavo ir įgyvendino vertinimo aplinką, atliko API integraciją, atliko 2026 m. balandžio mėn. etalono paleidimą ir parengė statistinę agregaciją. Platformos įkūrėjas nuo 2019 m.

GitHub Apie Kantesti

⚡ Greita santrauka V11 — 2026 m. balandžio 23 d.

99.12% sudėtinis balas 15 anonimizuotų realių pacientų kraujo tyrimų atvejų septyniose medicinos specialybėse.
Nėra hiperdianostikos klaidingų teigiamų rezultatų abiejuose „trap“ atvejuose (Gilberto sindromas ir visiškai normalus suaugusiojo patikros tyrimas).
Iš anksto užregistruota vertinimo rubrika užfiksuota šaltinio kode prieš pirmą variklio iškvietimą — nebuvo įmanoma atlikti „post-hoc“ derinimo.
Mentzer indeksas pritaikytas teisingai atskirti geležies stokos anemiją nuo beta-talasemijos minor.
Tik gamybinis galutinis taškas — be privilegijuoto nukreipimo, vertinta taip pat, kaip tai pasiektų mokantis klientas.
Vidutinis 20,17 sekundės delsos laikas nuo galo iki galo, kai 12 iš 15 atvejų atitiko pagrindinio kelio 20 sekundžių tikslą.
MIT licencijos „harness“ išleista „GitHub“ su kiekvienu neapdorotu variklio atsakymu — palaikomas nepriklausomas atkūrimas.
Figshare DOI: 10.6084/m9.figshare.32095435 · Atspindėta „ResearchGate“, „Academia.edu“, „GitHub“.

Kodėl egzistuoja šis etalonas ir ką jis tikrina

AI pagalba aiškinant kraujo tyrimus vis dažniau naudojama vartotojų ir klinikiniuose procesuose, tačiau atkuriamos vertinimo sistemos, pritaikytos laboratorinei medicinai, išlieka retos. Šiame kontekste svarbiausi klausimai nėra tie, kuriuos apima bendrieji medicininių klausimų ir atsakymų etalonai: ar variklis gali atskirti geležies stoką nuo talasemijos požymio, kai vidutinis eritrocitų tūris yra identiškas, ar jis perdiagnozuoja Gilberto sindromą kaip hepatitą, ir ar jis sukuria patologiją visiškai normaliame patikros skydelyje?

Vienas kraujo tyrimo tyrimų rinkinys paprastai turi pakankamai informacijos, kad būtų galima pateikti kelias konkuruojančias interpretacijas, o interpretuojančio gydytojo užduotis – pasverti šias interpretacijas tarpusavyje, o ne ieškoti vadovėlinio atsakymo. Gerai vadovėliniais atvejais veikiantis „variklis“ vis tiek gali žlugti svarbiausiuose atvejuose: diagnostikos diferencijavimo spąstuose, gerybinėse variacijose, kurios vienos atrodo nerimą keliančios, ir visiškai normaliuose tyrimų rinkiniuose, kurie įvilioja užtikrintus asistentus į patologijos „gamybą“.

Šis vertinimo kriterijus buvo sukurtas būtent toms nesėkmės formoms. Kiekvienas iš penkiolikos atvejų buvo parinktas pagal konkrečią diagnostinę savybę: geležies stokos sukelta mikrocitozė, kuri turi būti atskirta nuo beta talasemijos požymio, kai identiškas vidutinis eritrocitų tūris; Gilbert’o sindromo vaizdas, kai vienintelė anomalija yra izoliuota netiesioginė hiperbilirubinemija; ir penkiolikos parametrų atrankos tyrimų rinkinys, kuriame kiekvienas analitas yra savo pamatiniame (referenciniame) intervale. Vertinimo rubrika skatina variklius, kurie kiekvieną atvejį skaito pagal jo paties kontekstą, ir baudžia variklius, kurie bando pateikti užtikrintą diagnozę, kai tokia diagnozė nėra pagrįsta.

Kaip Thomas Klein, MD, aš pasirinkau atvejų rinkinį, nes tai yra tie modeliai, kuriuos laboratorinės medicinos asistentai dažniausiai interpretuoja neteisingai. Brangiausia nesėkmės forma nėra "praleisti retą ligą" – tai sukurti įprastą patologiją pacientams, kuriems jos nėra. Mūsų Medicininis patvirtinimas „hub“ aprašo platesnę sistemą; šiame puslapyje aprašomas jos pritaikytas rezultatas V11 varikliui.

Naujausias pamatinis paleidimas — V11 (2026 m. balandis)

2026 m. balandžio mėn. Kantesti AI Engine V11 etaloninis paleidimas sugeneravo sudėtinį balą 99.12% pagal iš anksto užregistruotą penkiolikos atvejų rubriką. Abu hiperdijagnozės spąstų atvejai surinko maksimalų balą. Mentzerio indeksas buvo pritaikytas teisingai geležies stokos ir talasemijos diferencijavimo atveju.

Sudėtinis 99.12% 15 iš 15 atvejų surinko

0.998 Struktūrinis balas

0.998 Klinikinis balas

20.17 s Vidutinis vėlavimas

0 / 13 Spąstų klaidingi teigiami rezultatai

Sudėtinė formulė sujungia tris komponentus: struktūrinis atitikimas su septyniais privalomais ataskaitos skyriais ir šešiolika privalomų poskyrių, klinikinis tikslumas matuojamas kaip raktinių žodžių atpažinimas (recall) + balų sistemos atpažinimas (recall) + tikrinimas, ar tikimybių skirstinys yra validus, ir atsako vėlavimas palyginti su 20 sekundžių pagrindinės „paslaugos lygio“ (SLA) tiksline riba. Tikslus skaidymas pateiktas rubrikos formulėje žemiau.

Sudėtinis = 0.35 × Struktūrinis + 0.55 × Klinikinis + 0.10 × Vėlavimas

Likę 0,88 procentinio punkto „laisvumo“ likutį beveik visiškai sudaro delsos praradimas — trys 2 fazės atsarginio veikimo (fallback) iškvietimai, kurių kiekvienas sudarė po -0,05 kompozicinio dydžio, prisidėjo maždaug 0,60 iš 0,88 punkto trūkumo — o ne klinikinio turinio praradimas. Variklis nepraleido teisingos diagnozės nė viename iš penkiolikos atvejų; ten, kur nepavyko, tai buvo dėl to, kad dalyje iškvietimų jis užtruko šiek tiek ilgiau nei 20 sekundžių pagrindinis (primary-path) tikslas.

Penkiolika atvejų iš septynių medicinos specialybių

Atvejų skydelis apima septynias specializacijas — hematologiją, endokrinologiją, metabolinę mediciną, hepatologiją, nefrologiją, kardiologiją, reumatologiją — taip pat du atskirus hiperdianostikos spąstų (hyperdiagnosis trap) atvejus. Kiekvienas atvejis yra anonimizuotas tikro paciento įrašas, paimtas iš Kantesti klinikinių duomenų saugyklos, gavus raštišką informuotą sutikimą.

Deidentifikavimas buvo atliktas taikant „Safe Harbor“ metodą: visi tiesioginiai identifikatoriai buvo pašalinti arba pakeisti, o kiekvienam įrašui priskirtas etaloninis vidinis atvejo kodas BT-NNN-LABEL formatu. Apdorojimas buvo atliktas laikantis BDAR 9 straipsnio 2 dalies j punkto moksliniams tyrimams su atitinkamomis apsaugos priemonėmis ir atitinkamų JK BDAR nuostatų. Jokios asmens tapatybę identifikuojančios informacijos nėra nei publikuojamame bandymo (harness) apraše, nei techninėje ataskaitoje, nei išleistuose duomenų rinkiniuose.

Hematologija (3) BT-001, BT-006, BT-007 Geležies stokos anemija · B12 trūkumas · Nepilnametė beta-talasemija

Endokrinologija (3) BT-002, BT-008, BT-012 Hašimoto tiroiditas · PCOS su insulino rezistencija · Sunkus vitamino D trūkumas

Metabolinė (2) BT-003, BT-013 T2DM su metaboliniu sindromu · Hiperurikemija su podagros rizika

Hepatologija (2) BT-004, BT-009 NAFLD / NASH · Ūminis virusinis hepatitas

Nefrologija · Kardiologija · Reumatologija (3) BT-005, BT-010, BT-011 LŠL 3 stadija · Aterogeninė dislipidemija · Sisteminė raudonoji vilkligė

Spąstų atvejai (2) BT-014, BT-015 Gilberto sindromas (izoliuota netiesioginės hiperbilirubinemijos forma) · Visiškai normalus suaugusiųjų atrankos skydelis

Kodėl būtent toks pasiskirstymas

Hematologija gauna tris atvejus, nes mikrocitinės diferencinės diagnostikos ir makrocitinės diferencinės diagnostikos yra didžiausios apimties „spąstai“ realios laboratorinės praktikos sąlygomis. Endokrinologija gauna tris, nes Hashimoto, PCOS ir vitamino D trūkumo pasireiškimai išbando skirtingas diagnostikos formas (autoantikūnais pagrįstą, hormonų santykiais pagrįstą, vieno žymens pagrįstą). Vieno atvejo specializacijos vis tiek yra prasmingos, nes kiekviena iš CKD, ASCVD rizikos ir SLE turi savo vertinimo sistemą, kurią variklis turėtų iškviesti (atitinkamai KDIGO stadijavimas, ASCVD 10 metų rizika, 2019 m. EULAR/ACR SLE kriterijai).

Iš anksto registruotas vertinimo planas, paaiškintas

Registracija iš anksto yra svarbiausias metodinis pasirinkimas šiame etalone. Kiekviena numatoma diagnozė, kiekviena klinikinio vertinimo sistema ir kiekviena ataskaitos skiltis buvo įsipareigota į šaltinio kodą prieš iškviečiant variklį. Todėl rubrikos koregavimas post-hoc, siekiant „glostyti“ variklį, yra neįmanomas.

Sudėtinį balą sudaro trys komponentai. struktūrinis komponentas sudaro 35 procentus ir matuoja, ar variklis grąžino septynias privalomas ataskaitos skiltis (antraštę, santrauką, pagrindinius radinius, diferencinę diagnostiką, vertinimo sistemas, rekomendacijas, tolesnį stebėjimą) ir šešiolika privalomų poskirsnių jose. Skilties buvimas sveria 40 procentų, o poskirsnio buvimas sveria 60 procentų struktūriniame skaičiavime.

The klinikinis komponentas sudaro 55 procentus ir sujungia tris dalykus: diagnozės-raktinio žodžio atpažinimą (70 procentų klinikinio poskyrio), vertinimo sistemos atpažinimą (20 procentų — ar variklis apskaičiuoja Mentzer, FIB-4, HOMA-IR, ASCVD riziką, KDIGO stadijavimą, EULAR/ACR kriterijus, kai tai aktualu) ir tikimybės sumos validacijos patikrą (10 procentų — diferencinės tikimybės turi sumuotis intervale [90, 110]). Spąstų atvejams taikoma aiški hiperdianozės bauda iki 0.30, atimama, skaičiuojama kaip 0.10 už kiekvieną suklastotą patologijos vėliavėlę, su riba iki trijų vėliavėlių.

The delsos komponentas sudaro 10 procentų. Atsakymas iki 20 sekundžių gauna visą 0.10, atsakymas iki 40 sekundžių gauna 0.05, o bet kas lėčiau — nulį. 20 sekundžių tikslas atspindi gamybos pirminės „primary-path“ paslaugos lygio tikslą; 40 sekundžių riba atspindi 2 fazės atsarginį biudžetą sunkiems variklio iškvietimams.

Ko iš anksto registracija neleidžia

Pirmo asmens etalonai garsėja tuo, kad po-hoc koreguoja rubriką ir taip išpūčia savo pačių skaičius. Šablonas beveik visada tas pats: komanda paleidžia variklį, pamato, kur jis atsilieka, tada tyliai pakoreguoja rubriką taip, kad prasčiau pasirodžiusios sritys būtų vertinamos mažiau. Įsipareigojus rubriką į šaltinio kodą prieš pirmą variklio iškvietimą ir paskelbus testavimo įrangą pagal MIT licenciją, šis koregavimas tampa matomas versijų kontrolėje. Bet kas gali klonuoti saugyklą, patikrinti rubrikos autorių datas ir patvirtinti, kad variklio rezultatai nebuvo naudojami vertinimui formuoti.

Hiperdiagnostikos spąstų atvejai — kodėl per didelis iškvietimas yra tikrasis nesėkmės režimas

Agresyvus patologijos pervertinimas normaliuose ekranuose yra dokumentuotas gedimo režimas vartotojams skirtais medicinos asistentais. Jo pasekmės apima nereikalingus tyrimus, paciento nerimą ir iatrogeninį ištyrimą. Du šio etalono spąstų atvejai sukurti tam, kad šis gedimo režimas būtų matomas ir įvertinamas.

🟡 Spąstas 1 — BT-014-GILBERT

Pasireiškimas. 24 metų vyras, kurio bendras bilirubinas yra 2.4 mg/dL. Tiesioginė frakcija normali, transaminazės ir šarminė fosfatazė yra savo pamatinėse ribose, retikulocitai nepasižymi niekuo išskirtiniu, o haptoglobinas ir LDH atmeta hemolizę.

Teisingas interpretavimas. Gilbert'o sindromas — gerybinis UGT1A1 polimorfizmas. Interpretacijoje neturėtų būti įtraukiamas hepatitas, cirozė, hemolizinė anemija ar tulžies latakų obstrukcija.

V11 rezultatas. Sudėtinis 1.000. Nė viena iš šešių stebėtų perdiagnozės vėliavėlių nepasireiškė kaip aktyvi diagnozė.

🟡 Spąstas 2 — BT-015-HEALTHY

Pasireiškimas. 35 metų moteris, turinti penkiolikos parametrų įprastą atrankos (screening) panelę. Kiekvienas analitas patogiai telpa savo pamatiniame intervale.

Teisingas interpretavimas. Patikinimas ir gyvenimo būdo palaikymas. Interpretacija neturėtų išgalvoti ribinės patologijos, kad skambėtų kliniškai naudingai.

V11 rezultatas. Sudėtinis 1.000. Nė viena iš septynių stebėtų perdiagnozės vėliavėlių — diabetas, anemija, hipotirozė, dislipidemija, hepatitas, inkstų liga, trūkumas — nepasireiškė kaip aktyvios diagnozės.

Abiejuose „spąstuose“ buvo patikrintos trylika stebėtų hiperdagnozės vėliavėlių. Nė viena nebuvo suaktyvinta. Tai yra rezultatas, kuris svarbiausias bet kuriam gydytojui, svarstančiam naudoti AI variklį kaip triiažo arba prieš konsultaciją priemonę: sistema nesukūrė ligos ten, kur jos nebuvo.

Mentzerio indeksas: geležies stoką atskiriant nuo talasemijos požymio

Antras didelės vertės radinys susijęs su atvejo BT-001 (geležies stokos anemija) ir atvejo BT-007 (beta-talasemija minor) sujungimu. Abu atvejai pasireiškia mikrocitoze ir yra gerai žinomas sunkumas naiviems klasifikatoriams. Mentzerio indeksas, apskaičiuojamas kaip MCV padalytas iš RBC skaičiaus, geležies stokos atveju viršija 13, o talasemijos požymio atveju nukrenta žemiau 13.

BT-001 atveju pacientė buvo 34 metų moteris, kurios hemoglobinas 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritinas 6 ng/mL ir padidėjęs TIBC. Apie 17,7 Mentzerio indeksas palaiko absoliutų geležies trūkumą. BT-007 atveju pacientas buvo 28 metų vyras, turintis mikrocitozę (MCV 65,8 fL), tačiau didelį RBC skaičių 6,2, normalų RDW, normalų feritiną ir HbA2 5,6 procento. Apie 10,6 Mentzerio indeksas rodo talasemijos požymį, o padidėjęs HbA2 patvirtina beta-talasemiją minor.

Geležies stokos anemija Mentzer > 13 Žemas feritinas, žemas TSAT, aukštas TIBC, padidėjęs RDW

Beta-talasemijos požymis Mentzer < 13 Normalus feritinas, normalus RDW, padidėjęs HbA2 (>3.5%), didelis RBC skaičius

Abu atvejai surinko 1.000. Variklis Mentzerio indeksą aiškiai panaudojo abiejose interpretacijose ir kiekvienu atveju pateikė teisingą diagnozę. Tai vienas labiausiai kliniškai raminančių rezultatų visame etalone, nes talasemijos požymį supainiojus su geležies stoka, skiriamas netinkamas geležies papildymas ir praleidžiamos galimybės atlikti šeimos patikrą, o geležies stoką supainiojus su talasemija, atidedamas paprastas pakaitinis gydymas. Mūsų feritino intervalo gairės paaiškina platesnį diferencinės diagnostikos kontekstą.

Kiekvieno atvejo rezultatai iš 2026 m. balandžio paleidimo

Dvylika iš penkiolikos atvejų pasiekė pirminio kelio sudėtinio balo lubas — 1.000. Trys atvejai buvo pateikti per 2 fazės atsarginį variantą, prarandant 0,05 latencijos premiją, tačiau išsaugant visą klinikinį ir struktūrinį turinį. Vienu atveju trūko vieno privalomo poskyrio; vienu atveju grąžinta tik šiek tiek sumažinta tikimybių pasiskirstymo suma.

Atvejo ID Specializacija Sudėtinis Latencija Kelias

BT-001-IDAHematologija1.00017,8 spirminis

BT-006-B12Hematologija1.00018,4 spirminis

BT-007-THALHematologija1.00017,0 spirminis

BT-002-HASHEndokrinologija0.95037,0 satsarginis variantas

BT-008-PCOSEndokrinologija0.98718,6 spirminis

BT-003-T2DMMetabolizmas1.00019,1 spirminis

BT-013-GOUTMetabolizmas1.00019,4 spirminis

BT-004-NAFLDHepatologija1.00019,6 spirminis

BT-009-VIRHEPHepatologija0.95023,4 satsarginis variantas

BT-014-GILBERTSpąstai1.00018,9 spirminis

BT-005-CKDNefrologija1.00017,4 spirminis

BT-010-ASCVDKardiologija1.00019,7 spirminis

BT-011-SLEReumatologija0.98118,2 spirminis

BT-012-VITDEndokrinologija1.00019,3 spirminis

BT-015-SVEIKASSpąstai1.00018,7 satsarginis variantas

PCOS atvejis (BT-008) atsakymo struktūroje prarado vieną privalomą poskyrį — penkiolika iš šešiolikos, o ne šešiolika iš šešiolikos — todėl struktūrinis balas sumažėjo nuo 1,000 iki 0,963. SLE atvejis (BT-011) grąžino tik nežymiai sumažintą tikimybių skirstinio sumą, kuri sumažino klinikinį balą iki 0,965, išlaikant kiekvieną diagnostinį raktinį žodį ir vertinimo sistemą. Nė vienas iš neidealių atvejų nepraleido teisingos diagnozės.

Ką mums nepasako antraštinis balas

Sudėtinis balas 99,12 procento pagal šį konkretų iš anksto registruotą vertinimo kriterijų rinkinį reiškia beveik lubų lygio rezultatus, tačiau jį verta kruopščiai įrėminti. Rezultatas aprašo, kaip variklis elgėsi prieš penkiolika kruopščiai atrinktų anonimizuotų atvejų, įvertintų po vieną kartą, pagal vieną vertinimo kriterijų rinkinį. Aiškiai nurodome, ką tas skaičius nustato ir ko nenustato.

Balas rodo, kad V11 variklis teisingai tvarkė diagnostinius šablonus, atrinktus šiam vertinimui, taikant metodiką, kuri yra paskelbta ir atkuriama. Tai nereiškia, kad variklis yra teisingas kiekvienoje egzistuojančioje kraujo tyrimų plokštelėje. Tai nereiškia, kad variklis turėtų pakeisti gydytojo sprendimą. Ir tai nereiškia, kad variklis lenkia alternatyvias AI sistemas — lyginamosios analizės su kitais varikliais sąmoningai nebuvo įtrauktos į šios ataskaitos apimtį.

Tai, ką balas iš tiesų nustato, yra bazinis lygis. Kadangi vertinimo kriterijus ir „harness“ vieši, būsimas variklio versijas galima vertinti pagal tuos pačius penkiolika atvejų, o skirtumas tarp paskelbto balo ir bet kurio vėlesnio paleidimo yra pats savaime pamatuojamas. Štai vertės prasmė išankstinei registracijai: ji paverčia veiklos teiginius patikrinamais teiginiais.

Kaip atkurti šį etaloną per 10 minučių

Atkūrimui reikia tik Kantesti API kredencialų poros ir Python 3.10 ar naujesnės aplinkos su requests ir reportlab įdiegtomis bibliotekomis. Pilnas „harness“ yra vienas savarankiškas Python modulis, išleistas pagal MIT licenciją.

💻 GitHub MIT licencija suteiktas „harness“ · neapdoroti atsakymai · pamatinis paleidimas 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanoninis akademinis įrašas 🎓 ResearchGate Publikacija 404175463 · akademinio atradimo sluoksnis 📄 Academia.edu Straipsnis 165956808 · akademinio atradimo sluoksnis

Keturi žingsniai naujam paleidimui

Vienas. Klonuokite saugyklą: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Du. Įdiekite priklausomybes naudodami pip install -r requirements.txt. Trys. Nustatykite KANTESTI_USERNAME ir KANTESTI_PASSWORD kaip aplinkos kintamuosius — prisijungimo duomenys skaitomi vykdymo metu ir niekas nėra įrašyta į skriptą. Keturi. Paleiskite python benchmark_bloodtest.py ir patikrinkite keturis artefaktus, sugeneruotus darbo kataloge: CSV balų suvestinę, JSON balų suvestinę, pilną JSON išklotinę, įskaitant neapdorotus variklio atsakymus, ir žmogui suprantamą Markdown ataskaitą.

2026 m. balandžio 23 d. atliktas pamatinis paleidimas išsaugomas results/ saugyklos (repository) kataloge. Naujas paleidimas sugeneruos naują laiko žymos (timestamp) balų suvestinę, nekeičiant pamatinio paleidimo. Jei jūsų paleidimo rezultatas reikšmingai skiriasi, atidarykite GitHub issue su paleidimo laiko žyma ir variklio versija, pateikta atsakymo metaduomenyse.

Apribojimai ir tolesni darbai

Keturi apribojimai nusipelno aiškaus pripažinimo: imties dydis, vienkartinis įvertinimas, vieno variklio apimtis ir vieno šaltinio duomenų kilmė. Kiekvienas iš jų šiuo metu sprendžiamas tęstiniuose tolesniuose darbuose.

Imties dydis. Penkiolika atvejų per aštuonias specializacijos (specialty) grupes tinka įrodymo-of-koncepto (proof of concept) tikslui, bet ne pogrupių analizei konkrečioje specializacijoje. Planuojama išplėsti iki penkiasdešimties atvejų ir įtraukti krešėjimo (koaguliacijos) paneles, hematologinių piktybinių navikų patikrą, nėštumo paneles ir pediatrinius atvejus.

Vienkartinis įvertinimas. Kiekvienas atvejis buvo įvertintas vieną kartą. Dideli kalbos modeliai pasižymi ne trivialia išvesties variacija net ir esant mažai atrankos temperatūrai, todėl natūralus kitas žingsnis — kelių paleidimų protokolas su penkiais įvertinimais kiekvienam atvejui ir pateikta variacija.

Vieno variklio apimtis. Ši ataskaita apibūdina vieną variklį. Lyginamosios analizės su alternatyviomis AI sistemomis čia neįtrauktos; galime jas vykdyti kaip atskirą nepriklausomą tyrimą su tinkama metodika.

Vieno šaltinio duomenų kilmė. Penkiolika atvejų yra anonimizuoti realių pacientų įrašai, paimti iš vieno klinikinio repozitoriumo. Tai yra atrinkta (curated) imtis, o ne populiacijai reprezentatyvus atsitiktinis atrinkimas. Planuojama išplėsti vertinimą iki kelių centrų duomenų.

Labiausiai reikšmingas planuojamas išplėtimas — daugiakalbis atitikimas (paritetas). Kantesti AI Engine aptarnauja naudotojus 75+ kalbomis, o paleidus tą patį penkiolikos atvejų testavimo rinkinį turkų, vokiečių, ispanų, prancūzų ir arabų kalbomis bus kiekybiškai įvertinta išvesties kokybė per variklio palaikomas kalbas. Kiekvieną kalbai skirtą paleidimą paskelbsime su savo DOI ir testavimo (harness) šaka.

Pabandykite tą patį variklį, kuris pasiekė 99.12% sudėtinį balą

Įkelkite savo kraujo tyrimų panelę į tą patį gamybos (production) galutinį tašką, kuris buvo įvertintas šiame etalone. Daugiau nei 2 milijonai naudotojų visame pasaulyje naudoja Kantesti AI Engine, kad interpretuotų daugiau nei 15 000 biomarkerių per 75+ kalbų.

🔬 Išbandykite nemokamą demonstracinę versiją

„Chrome“ plėtinys Programėlių parduotuvė „Google Play“

📚 Kaip cituoti šį etaloną

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Kantesti AI Engine klinikinis patvirtinimas (2.78T)
                 pagal 15 anonimizuotų kraujo tyrimų atvejų: iš anksto registruotas
                 rubrikomis pagrįstas etalonas, įskaitant hiperdianostikos spąstų atvejus
                 septyniose medicinos specialybėse},
  institution = {Kantesti Ltd},
  address     = {London, Jungtinė Karalystė},
  year        = {2026},
  month       = {April},
  type        = {Techninė ataskaita},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti AI Engine klinikinis patvirtinimas (2.78T) pagal 15 anonimizuotų kraujo tyrimų atvejų: iš anksto registruotas rubrikomis pagrįstas etalonas, įskaitant hiperdianostikos spąstų atvejus septyniose medicinos specialybėse (Techninė ataskaita V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Susiję Kantesti patvirtinimo darbai

Klein, T. (2025). Klinikinio patvirtinimo sistema dirbtinio intelekto pagrindu veikiančiam kraujo tyrimų interpretavimui: trigubo aklo patvirtinimo metodika, našumo rodikliai ir kokybės užtikrinimo protokolai. Kantesti AI medicininiai tyrimai.

🎓 ResearchGate

📖 Išorinės metodologinės nuorodos

Mentzer, W. C. (1973). Geležies stokos atskyrimas nuo talasemijos požymio. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 m. Europos kovos su reumatu lyga / Amerikos reumatologų kolegijos sisteminės raudonosios vilkligės klasifikavimo kriterijai. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: medicininės srities haliucinacijų testas dideliems kalbos modeliams. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Sudėtinis balas

15Įvertinti atvejai

7Specialybės

0Spąstų klaidingi teigiami rezultatai

Dažnai užduodami klausimai

Kaip tiksliai Kantesti AI variklis veikia realiuose kraujo tyrimų atvejuose?

Pagal iš anksto registruotą 15 anonimizuotų realių pacientų kraujo tyrimų atvejų rubriką septyniose medicinos specialybėse Kantesti AI Engine V11 pasiekė 99.12 procentų sudėtinį balą, o spąstų atvejais nebuvo nė vieno hiperdianostikos klaidingo teigiamo rezultato ir vidutinis atsako vėlavimas buvo 20.17 sekundės. Pilnas atvejo pagal atvejį balų suvestinės (scorecard) rinkinys skelbiamas Figshare pagal DOI 10.6084/m9.figshare.32095435 ir GitHub pagal MIT licenciją.

Ar Kantesti AI variklis yra kliniškai patvirtintas?

Taip. Variklis buvo kliniškai patvirtintas pagal rubriką, kuri buvo užšaldyta šaltinio kode prieš paleidžiant variklį, įvertinta 15 anonimizuotų kraujo tyrimų atvejų hematologijoje, endokrinologijoje, metabolinėje medicinoje, hepatologijoje, nefrologijoje, kardiologijoje ir reumatologijoje. Klinikinę priežiūrą užtikrino dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), valdybos sertifikuotas klinikinis hematologas ir vyriausiasis medicinos pareigūnas (Chief Medical Officer) Kantesti AI.

Kas yra hiperdiagnostikos spąstų atvejis?

Hiperdiagnozės spąstų atvejis – tai klinikinė situacija, specialiai sukurta aptikti AI variklių polinkį į perdiagnozavimą. Kantesti V11 etalonas naudoja du tokius atvejus. Pirmasis – izoliuota netiesioginė hiperbilirubinemija, atitinkanti Gilberto sindromą, kai teisingas aiškinimas yra gerybinis UGT1A1 polimorfizmas, o ne hepatitas ar hemolizė. Antrasis – visiškai normalus suaugusiųjų atrankos skydelis, kai teisingas atsakymas yra nuraminimas ir gyvenimo būdo palaikymas, o ne „sukonstruota“ ribinė patologija.

Ar Kantesti AI variklio vertinimas yra atkuriamas?

Pilnas vertinimo testavimo rinkinys (evaluation harness) išleidžiamas pagal MIT licenciją kaip vienas savarankiškas Python modulis. Reprodukcijai reikia tik Kantesti API kredencialų poros ir Python 3.10 ar naujesnės versijos. Kodo, atvejų apibrėžimų ir kiekvieno neapdoroto variklio atsakymo iš 2026 m. balandžio etaloninio paleidimo galima rasti adresu github.com/emirhanai/kantesti-blood-test-benchmark ir jis dubliuojamas Figshare, ResearchGate bei Academia.edu.

Kaip Kantesti AI variklis atskiria geležies stoką nuo beta talasemijos požymio?

Variklis taiko Mentzerio indeksą, apskaičiuojamą kaip vidutinis eritrocitų tūris (MCV) padalytas iš eritrocitų skaičiaus (RBC). Mentzerio indeksas, didesnis nei 13, palaiko geležies stokos anemiją, o reikšmė mažesnė nei 13 – beta-talasemijos požymį. V11 etalone abi pateiktys buvo teisingai klasifikuotos, aiškiai apskaičiuojant Mentzerio indeksą, atsižvelgiant į feritiną, RDW ir HbA2 kontekstą.

Kur galiu rasti neapdorotus palyginimo (benchmark) duomenis ir šaltinio kodą?

Techninė ataskaita įkelta į Figshare su DOI 10.6084/m9.figshare.32095435, dubliuota ResearchGate publikacijoje 404175463 ir Academia.edu straipsnyje 165956808, o MIT licencijos Python vertinimo rinkinys su visais etaloninio paleidimo rezultatais yra adresu github.com/emirhanai/kantesti-blood-test-benchmark. Keturių platformų dubliavimo tinklas užtikrina ilgalaikį prieinamumą ir citavimo lankstumą.

Kodėl išankstinė registracija svarbi AI medicinos etalonams?

Išankstinė registracija neleidžia „post-hoc“ rubrikos koregavimų, kurie yra vienas dažniausių būdų, kaip įmonių vykdomi etalonai išpūtžia savo pačių skaičius. Įsipareigojant rubriką užfiksuoti šaltinio kode prieš bet kurį variklio iškvietimą ir viešai paskelbiant vertinimo rinkinį, rubrikos autoriaus datos tampa patikrinamos versijų valdyme, o variklio rezultatai negalėjo paveikti vertinimo kriterijų.

Ar šiame etalone yra palyginimų su kitais AI varikliais?

Ne. V11 ataskaita sąmoningai apibūdina vieną variklį pagal fiksuotą rubriką, o ne pozicionuoja jį lyginant su alternatyviomis komercinėmis sistemomis. Vertinimo rinkinys yra atviro kodo pagal MIT licenciją, todėl nepriklausomi tyrėjai gali įvertinti bet kurį jų pasirinktą variklį pagal tuos pačius penkiolika atvejų ir rubriką bei paskelbti savo rezultatus.

Ar pacientų atvejai yra tikri, ar sukurti?

Penkiolika atvejų yra anonimizuoti tikrų pacientų įrašai, paimti iš Kantesti klinikinių duomenų saugyklos pagal rašytinį informuoto sutikimo pagrindą. Deidentifikavimas buvo atliktas taikant „Safe Harbor“ metodą, pašalinant arba pakeičiant visus tiesioginius identifikatorius. Apdorojimas buvo vykdomas laikantis BDAR 9 straipsnio 2 dalies (j) punkto ir atitinkamų JK BDAR nuostatų. Paskelbtame vertinimo rinkinyje, techninėje ataskaitoje ar išleistuose duomenų rinkiniuose nėra jokios asmeniškai identifikuojančios informacijos.

⚕️ Medicininis atsisakymas & interesų konfliktas

Ši etalono ataskaita skirta tyrimų ir metodologinio skaidrumo tikslams. Ji nesudaro medicininės konsultacijos. Diagnozės ir gydymo sprendimams visada kreipkitės į kvalifikuotą sveikatos priežiūros specialistą. Abu autoriai dirba Kantesti Ltd ir turi nuosavybės dalį (akcijų) toje įmonėje, o vertinamas variklis yra komercinis tos pačios organizacijos produktas. Šis interesų konfliktas sumažinamas iš anksto registruojant rubriką šaltinio kode, išleidžiant vertinimo rinkinį pagal MIT licenciją ir skelbiant kiekvieną neapdorotą variklio atsakymą.

E-E-A-T patikimumo signalai

⭐

Patirtis

15+ metų klinikinės hematologijos ir laboratorinės medicinos praktikos, prižiūrint atvejų atrankos skydelio sudarymą.

📋

Ekspertizė

Iš anksto registruotas rubrikos dizainas su aiškiomis hiperdiagnozės nuobaudomis ir pripažintomis klinikinio vertinimo sistemomis (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoritetas

Pagrindinis autorius dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Įgyvendinimas: Julian Emirhan Bulut, Kantesti Ltd generalinis direktorius (CEO).

🛡️

Patikimumas

Pakartojamas vertinimo rinkinys su MIT licencija, paskelbti neapdoroti variklio atsakymai, atviras interesų konflikto atskleidimas, keturių platformų tyrimų dubliavimo tinklas.

🏢 Kantesti LTD Registruota Anglijoje ir Velse · Įmonės Nr. 17090423 Londonas, Jungtinė Karalystė · kanesti.net