Kantesti AI asins analīžu etalons — klīniskā validācija

Klīniskā validācija Iepriekš reģistrēts etalons V11 — 2026. gada aprīlis MIT licences Pārbaudāms vienaudžiem

99.12% saliktais rādītājs pēc iepriekš reģistrētas rubrikas ar nulles hiperdiaģnozes viltus pozitīvajiem

Neatkarīgs, iepriekš reģistrēts klīniskais novērtējums par Kantesti AI dzinēja darbību anonimizētos asins analīžu gadījumos. Novērtēšanas kritēriji tika iesaldēti pirmā dzinēja izsaukuma pirmkoda līmenī, novērtējuma testēšanas ietvars ir MIT licencēts, un katra sākotnējā atbilde tiek publicēta.

📖 ~14 minūtes 📅 23. aprīlis, 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publicēts: 23. aprīlis, 2026 🩺 Medicīniski izvērtēts: 23. aprīlis, 2026 ✅ Iepriekš reģistrēti vērtēšanas kritēriji 🔓 Atvērts kods un dati

Šo klīniskās validācijas pētījumu vadīja Dr. Tomass Kleins, medicīnas doktors, Kantesti AI galvenais medicīnas darbinieks, sadarbībā ar Džulians Emirhans Buluts, vecākais AI inženieris un Kantesti Ltd izpilddirektors. Metodoloģiju un vērtēšanas kritērijus pārskatīja Kantesti mākslīgā intelekta medicīnas konsultatīvā padome.

Galvenais autors un klīniskā uzraudzība

Tomass Kleins, medicīnas doktors

Galvenais medicīnas darbinieks, Kantesti AI

Dr. Thomas Klein ir valdes sertificēts klīniskais hematologs un internists ar vairāk nekā 15 gadu pieredzi laboratorijas medicīnā. Kā Kantesti AI galvenais medicīnas darbinieks viņš izvēlējās šo etalona gadījumu kopu, pārskatīja visus diagnostiskos patiesos rādītājus un apstiprināja iepriekš reģistrētos vērtēšanas kritērijus pirms pirmās dzinēja aktivizēšanas.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Līdzautors un ieviešana

Džulians Emirhans Buluts

Vecākais AI inženieris un izpilddirektors, Kantesti Ltd

Julian Emirhan Bulut ir Kantesti Ltd dibinātājs un izpilddirektors. Viņš izstrādāja un ieviesa novērtējuma testēšanas ietvaru, veica API integrāciju, īstenoja 2026. gada aprīļa etalona testu un sagatavoja statistisko apkopošanu. Platformas dibinātājs kopš 2019. gada.

GitHub Par Kantesti

⚡ Īss kopsavilkums V11 — 23. aprīlis, 2026

99.12% saliktais rādītājs 15 anonimizētos reālu pacientu asins analīžu gadījumos septiņās medicīnas specialitātēs.
Nulle hiperdiaģnozes viltus pozitīvu gadījumu abos slazdu gadījumos (Gilberta sindroms un pilnīgi normāla pieaugušā skrīninga pārbaude).
Iepriekš reģistrēta rubrika iesaldēta pirmā dzinēja izsaukuma pirmkoda līmenī — nebija iespējama pēcpārbaudes (post-hoc) pielāgošana.
Mentzera indekss pareizi piemērots lai atšķirtu dzelzs deficīta anēmiju no beta-talasēmijas minor.
Tikai ražošanas (production) gala punkts — bez privilēģētas maršrutēšanas, novērtēts tieši tā, kā to piekļūtu maksājošs klients.
Vidējā latentuma vērtība 20,17 sekundes end-to-end, un 12 no 15 gadījumiem ir zem 20 sekunžu primārā ceļa mērķa.
MIT licences ietvars (harness) izlaists GitHub ar katru neapstrādātu dzinēja atbildi — atbalstīta neatkarīga reproducēšana.
Figshare DOI: 10.6084/m9.figshare.32095435 · Atspoguļots vietnēs ResearchGate, Academia.edu, GitHub.

Kāpēc pastāv šis etalons un ko tas pārbauda

AI atbalstīta asins analīžu rezultātu interpretācija arvien biežāk tiek izmantota gan patērētāju, gan klīniskajos procesos, tomēr reproducējami novērtēšanas ietvari, kas pielāgoti laboratorijas medicīnai, joprojām ir reti. Šajā kontekstā svarīgākie jautājumi nav tie, ko aptver vispārīgas medicīniskās jautājumu-atbilžu etaloni: vai dzinējs spēj atšķirt dzelzs deficītu no talasēmijas pazīmes, ja vidējais eritrocītu tilpums ir identisks, vai tas pārdiaģnostē Gilberta sindromu kā hepatītu, un vai tas ģenerē patoloģiju pilnīgi normālā skrīninga panelī?

Viena asins analīžu paneļa parasti pietiek signāla, lai pamatotu vairākas konkurējošas interpretācijas, un interpretējošā ārsta uzdevums ir tās izvērtēt savstarpēji, nevis izvilkt “mācību grāmatas” atbildi. Dzinējs, kas labi darbojas pēc mācību grāmatas piemēriem, tomēr var izgāzties tieši tajos gadījumos, kas ir vissvarīgākie: diferenciāldiagnozes slazdos, labdabīgajās variācijās, kas vienatnē izskatās satraucošas, un pilnīgi normālos paneļos, kuri pavedina pārliecinātus palīgus izdomāt patoloģiju.

Šis etalons tika veidots tieši ap šiem kļūmju veidiem. Katrs no piecpadsmit gadījumiem tika izvēlēts konkrētai diagnostiskai īpašībai: dzelzs deficīta izraisīta mikrocitoze, kas jānošķir no beta-talasēmijas pazīmes ar identisku vidējo eritrocītu tilpumu, Džilberta sindroma aina, kur vienīgā novirze ir izolēta netiešā hiperbilirubinēmija, un piecpadsmit parametru skrīninga panelis, kur katrs analīts atrodas savā references diapazonā. Rubrika atalgo dzinējus, kas katru gadījumu lasa pēc tā paša noteikumiem, un soda dzinējus, kas mēģina noteikt pārliecinātu diagnozi, ja tāda diagnoze nav pamatota.

Kā doktors Tomass Kleins (MD) es izvēlējos gadījumu paneli, jo tieši šos modeļus laboratorijas medicīnas palīgi visbiežāk interpretē nepareizi. Dārgā kļūmes forma nav "nepamanīt retu slimību" — tā ir rutīnas patoloģijas izdomāšana pacientiem, kuriem tās nav. Mūsu Medicīniskā validācija hub apraksta plašāku ietvaru; šī lapa apraksta tā pielietoto rezultātu V11 dzinējā.

Jaunākais atsauces tests — V11 (2026. gada aprīlis)

Kantesti AI Engine V11 2026. gada aprīļa references testā tika iegūts saliktais rezultāts 99.12% pēc iepriekš reģistrētās piecpadsmit gadījumu rubrikas. Abos hiperdianostikas slazdu gadījumos rezultāts bija maksimālajā līmenī. Mentzera indekss tika piemērots pareizi dzelzs deficīta un talasēmijas diferenciāldiagnozē.

Saliktais 99.12% 15 no 15 gadījumiem ieguva punktus

0.998 Strukturālais rezultāts

0.998 Klīniskais rezultāts

20.17 s Vidējā latentuma vērtība

0 / 13 Slazdu viltus pozitīvie

Salikto formulu veido trīs komponentes: strukturālā atbilstība ar septiņām obligātajām ziņošanas sadaļām un sešpadsmit obligātajām apakšsadaļām, klīniskā precizitāte mērīta kā atslēgvārdu atcerēšanās plus punktu sistēmas atcerēšanās plus varbūtību sadalījuma derīguma pārbaude, un atbildes latentums pret 20 sekunžu primārā pakalpojuma līmeņa mērķi. Precīzs sadalījums ir parādīts rubrikas formulā zemāk.

Saliktais = 0.35 × Strukturālais + 0.55 × Klīniskais + 0.10 × Latentums

Atlikušās 0,88 procentpunktu “rezerves” apjoms gandrīz pilnībā sadalās latentuma zudumā — trīs 2. fāzes rezerves (fallback) izsaukumi, katrs ar salikto rādītāju -0,05, veicināja aptuveni 0,60 no 0,88 punktu deficīta — nevis klīniskā satura dēļ. Dzinējs nevienā no piecpadsmit gadījumiem neizlaida pareizu diagnozi; ja tas tomēr nepietiekami atbildēja, tad tas bija tāpēc, ka nelielā daļā izsaukumu tas aizņēma nedaudz ilgāku laiku nekā 20 sekunžu primārā ceļa mērķis.

Piecpadsmit gadījumi septiņās medicīnas specialitātēs

Gadījumu (case) panelis aptver septiņas specialitātes — hematoloģiju, endokrinoloģiju, metabolo medicīnu, hepatoloģiju, nefroloģiju, kardioloģiju, reimatoloģiju — kā arī divus īpaši izveidotus hiperdianostikas slazdu (hyperdiagnosis trap) gadījumus. Katrs gadījums ir anonimizēts reāla pacienta ieraksts, kas iegūts no Kantesti klīnisko datu repozitorija, pamatojoties uz rakstisku informētu piekrišanu.

Deidentifikācija tika veikta saskaņā ar Safe Harbor pieeju: visi tiešie identifikatori tika noņemti vai aizstāti, un katram ierakstam tika piešķirts etalona iekšējais gadījuma kods formātā BT-NNN-LABEL. Apstrāde tika veikta saskaņā ar GDPR 9. panta 2. punkta j) apakšpunktu zinātniskai pētniecībai ar atbilstošiem drošības pasākumiem un atbilstošajiem Lielbritānijas GDPR noteikumiem. Neviena personu identificējoša informācija nekur neparādās publicētajā “harness”, tehniskajā ziņojumā vai izlaistajos datu kopumos.

Hematoloģija (3) BT-001, BT-006, BT-007 Dzelzs deficīta anēmija · B12 deficīts · Bēta-talasēmija minor

Endokrinoloģija (3) BT-002, BT-008, BT-012 Hašimoto tireoidīts · PCOS ar insulīna rezistenci · Smags D vitamīna deficīts

Metaboliskais (2) BT-003, BT-013 T2DM ar metabolisko sindromu · Hiperurikēmija ar podagras risku

Hepatoloģija (2) BT-004, BT-009 NAFLD / NASH · Akūts vīrusu hepatīts

Nefroloģija · Kardioloģija · Reimatoloģija (3) BT-005, BT-010, BT-011 HNS 3. stadija · Aterogēna dislipidēmija · Sistēmiskā sarkanā vilkēde

Slazdu gadījumi (2) BT-014, BT-015 Gilberta sindroms (izolēta netiešā hiperbilirubinēmija) · Pilnīgi normāls pieaugušo skrīnings

Kāpēc tieši šāds sadalījums

Hematoloģija iegūst trīs gadījumus, jo mikrocitāro diferenciāļu un makrocitāro diferenciāļu slazdi reālās dzīves laboratorijas praksē ir vislielākās apjoma slazdi. Endokrinoloģija iegūst trīs, jo Hašimoto, PCOS un D vitamīna deficīta izpausmes veido atšķirīgas diagnostikas formas (autoantivielu virzītas, hormonu attiecību virzītas, viena marķiera virzītas). Viena gadījuma specialitātes joprojām ir nozīmīgas, jo katram no CKD, ASCVD riska un SLE ir sava punktu sistēma, kuru dzinējam vajadzētu izsaukt (attiecīgi KDIGO stadēšana, ASCVD 10 gadu risks, 2019. gada EULAR/ACR SLE kritēriji).

Iepriekš reģistrēto vērtēšanas kritēriju skaidrojums

Pirmsreģistrācija ir vissvarīgākā metodoloģiskā izvēle šajā etalonā. Katrs paredzamais diagnozes gadījums, katra klīniskā punktu sistēma un katra atskaites sadaļa tika apņemtas pirmkoda līmenī pirms dzinēja izsaukšanas. Tāpēc rubrikas post-hoc pielāgošana, lai glaimotu dzinējam, nav iespējama.

Salikto punktu veido trīs komponentes. strukturālā komponente veido 35 procentus un mēra, vai dzinējs atgrieza septiņas obligātās atskaites sadaļas (virsraksts, kopsavilkums, galvenie secinājumi, diferenciāļi, punktu sistēmas, ieteikumi, turpmākā rīcība) un sešpadsmit obligātās apakšsadaļas tajās. Sadaļas esamība strukturālajā aprēķinā sver 40 procentus, bet apakšsadaļas esamība — 60 procentus.

The klīniskā komponente veido 55 procentus un apvieno trīs lietas: diagnozes atslēgvārdu atsaukšanu (70 procenti no klīniskās apakšpunktu daļas), punktu sistēmas atsaukšanu (20 procenti — vai dzinējs aprēķina Mentzer, FIB-4, HOMA-IR, ASCVD risku, KDIGO stadēšanu, EULAR/ACR kritērijus, ja attiecināms), un varbūtību summas derīguma pārbaudi (10 procenti — diferenciāļu varbūtībām jāsummējas intervālā [90, 110]). Slazdu gadījumos tiek atņemta skaidra hiperdianozes soda maksa līdz 0.30, aprēķināta kā 0.10 par katru izdomātu patoloģijas karodziņu, ar griestiem līdz trim karodziņiem.

The latentuma komponente veido 10 procentus. Atbilde, kas ir īsāka par 20 sekundēm, saņem pilnus 0.10, atbilde, kas ir īsāka par 40 sekundēm, saņem 0.05, un jebkas lēnāks saņem nulli. 20 sekunžu mērķis atspoguļo ražošanas primārā-path servisa līmeņa mērķi; 40 sekunžu griesti atspoguļo 2. fāzes rezerves budžetu smagām dzinēja izsaukšanām.

Ko novērš pirmsreģistrācija

Pirmās puses etaloni ir bēdīgi slaveni ar savu skaitļu uzpūšanu, veicot rubrikas post-hoc pielāgošanu. Modelis gandrīz vienmēr ir vienāds: komanda palaiž dzinēju, redz, kur tas nepietiekami veic, un tad klusi pielāgo rubriku tā, lai nepietiekami veiktās jomas tiktu vērtētas mazāk. Iesniedzot rubriku pirmkodā pirms pirmā dzinēja izsaukuma un publicējot testa ietvaru ar MIT licenci, šī pielāgošana kļūst redzama versiju kontrolē. Ikviens var klonēt repozitoriju, pārbaudīt rubrikas autoru datumus un verificēt, ka dzinēja rezultāti netika izmantoti vērtējuma veidošanai.

Hiperdiagnostikas slazda gadījumi — kāpēc pārmērīga izsaukšana ir īstais kļūmes režīms

Agresīva patoloģijas pārsaukšana normālos izmeklējumos ir dokumentēts kļūmes režīms patērētājam paredzētiem medicīnas asistentiem. Tās turpmākās izmaksas ietver nevajadzīgu izmeklēšanu, pacienta trauksmi un iatroģenisku izmeklējumu. Šī etalona divi slazdu gadījumi ir izstrādāti, lai padarītu šo kļūmes režīmu redzamu un vērtējamu.

🟡 Slazds 1 — BT-014-GILBERT

Izpausme. 24 gadus vecs vīrietis ar kopējo bilirubīnu 2.4 mg/dL. Tiešā frakcija ir normāla, transamināzes un sārmainā fosfatāze atrodas savās atsauces robežās, retikulocīti ir bez ievērojamām īpatnībām, un haptoglobīns un LDH izslēdz hemolīzi.

Pareiza interpretācija. Džilberta sindroms — labdabīga UGT1A1 polimorfisma forma. Interpretācijā nedrīkst tikt piesaukts hepatīts, ciroze, hemolītiska anēmija vai žults ceļu obstrukcija.

V11 rezultāts. Saliktais 1.000. Neviens no sešiem uzraudzītajiem pārapzīmēšanas karodziņiem neparādījās kā aktīva diagnoze.

🟡 Slazds 2 — BT-015-HEALTHY

Izpausme. 35 gadus veca sieviete ar piecpadsmit parametru rutīnas skrīninga paneli. Katrs analīts ērti atrodas savā atsauces diapazonā.

Pareiza interpretācija. Pārliecība un dzīvesveida uzturēšana. Interpretācijai nevajadzētu izdomāt robežgadījumus, lai tā izklausītos klīniski noderīga.

V11 rezultāts. Kompozītais 1.000. Neviens no septiņiem uzraudzītajiem pārmērīgas diagnosticēšanas brīdinājumiem — diabēts, anēmija, hipotireoze, dislipidēmija, hepatīts, nieru slimība, deficīts — neparādījās kā aktīva diagnoze.

Abos slazdos tika pārbaudīti trīspadsmit uzraudzītie pārmērīgas diagnozes brīdinājumi. Neviens netika aktivizēts. Šis ir rezultāts, kas ir vissvarīgākais jebkuram ārstam, kurš apsver izmantot AI dzinēju kā triāžas vai pirmskonsultācijas rīku: sistēma neizdomāja slimību, ja tādas nebija.

Mentzera indekss: dzelzs deficīta nošķiršana no talasēmijas pazīmes

Otrs augstvērtīgs atradums attiecas uz gadījumu savienošanu: BT-001 (dzelzs deficīta anēmija) ar BT-007 (beta-talasēmijas minor). Abos gadījumos ir mikrocitoze, un tā ir labi zināma grūtība naiviem klasifikatoriem. Mentzera indekss, kas aprēķināts kā MCV dalīts ar RBC skaitu, dzelzs deficītā pārsniedz 13 un talasēmijas pazīmē nokrīt zem 13.

BT-001 gadījumā pacientei bija 34 gadus veca sieviete ar hemoglobīnu 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritīnu 6 ng/mL un paaugstinātu TIBC. Mentzera indekss, aptuveni 17,7, atbalsta absolūtu dzelzs deficītu. BT-007 gadījumā pacientam bija 28 gadus vecs vīrietis ar mikrocitozi (MCV 65,8 fL), bet ar augstu RBC skaitu 6,2, normālu RDW, normālu feritīnu un HbA2 5,6 procenti. Mentzera indekss, aptuveni 10,6, norāda uz talasēmijas pazīmi, un paaugstinātais HbA2 apstiprina beta-talasēmijas minor.

Dzelzs deficīta anēmija Mentzer > 13 Zems feritīns, zems TSAT, augsts TIBC, paaugstināts RDW

Beta-talassēmijas pazīme Mentzer < 13 Normāls feritīns, normāls RDW, paaugstināts HbA2 (>3,5%), augsts RBC skaits

Abiem gadījumiem rādītājs bija 1.000. Dzinējs abās interpretācijās skaidri izmantoja Mentzera indeksu un katrā gadījumā atgrieza pareizu diagnozi. Šis ir viens no klīniski visvairāk pārliecinošajiem rezultātiem visā etalonā, jo talasēmijas pazīmes nepareiza klasificēšana kā dzelzs deficīts noved pie neatbilstošas dzelzs papildterapijas un tiek palaistas garām ģimenes skrīninga iespējas, bet dzelzs deficīta nepareiza klasificēšana kā talasēmija aizkavē vienkāršu aizvietošanas terapiju. Mūsu feritīna diapazona ceļvedis izskaidro plašāku diferenciāldiagnostikas kontekstu.

Katrs gadījums: rezultāti no 2026. gada aprīļa izpildes

Piecpadsmit gadījumos divpadsmit sasniedza primārajā ceļā maksimālo kompozīto punktu skaitu 1.000. Trīs gadījumi tika apkalpoti, izmantojot 2. fāzes rezerves ceļu, zaudējot 0,05 latentuma bonusa priekšrocību, vienlaikus saglabājot visu klīnisko un strukturālo saturu. Vienā gadījumā trūka viena obligātā apakšsadaļa; vienā gadījumā tika atgriezta nedaudz samazināta varbūtību sadalījuma summa.

Gadījuma ID Specialitāte Saliktais Latentums Ceļš

BT-001-IDAHematoloģija1.00017,8 sprimārais

BT-006-B12Hematoloģija1.00018,4 sprimārais

BT-007-THALHematoloģija1.00017,0 sprimārais

BT-002-HASHEndokrinoloģija0.95037,0 srezerves variants

BT-008-PCOSEndokrinoloģija0.98718,6 sprimārais

BT-003-T2DMMetabolisma1.00019,1 sprimārais

BT-013-GOUTMetabolisma1.00019,4 sprimārais

BT-004-NAFLDHepatoloģija1.00019,6 sprimārais

BT-009-VIRHEPHepatoloģija0.95023,4 srezerves variants

BT-014-GILBERTSlazds1.00018,9 sprimārais

BT-005-CKDNefroloģija1.00017,4 sprimārais

BT-010-ASCVDKardioloģija1.00019,7 sprimārais

BT-011-SLEReimatoloģija0.98118,2 sprimārais

BT-012-VITDEndokrinoloģija1.00019,3 sprimārais

BT-015-HEALTHYSlazds1.00018,7 srezerves variants

PCOS gadījums (BT-008) atbildes struktūrā zaudēja vienu obligāto apakšsadaļu — piecpadsmit no sešpadsmit, nevis sešpadsmit no sešpadsmit — tādējādi strukturālais vērtējums samazinājās no 1,000 līdz 0,963. SLE gadījums (BT-011) atgrieza nedaudz samazinātu varbūtību sadalījuma summu, kas samazināja klīnisko vērtējumu līdz 0,965, vienlaikus saglabājot katru diagnostikas atslēgvārdu un vērtēšanas sistēmu. Neviens no abiem nepilnīgajiem gadījumiem neizlaida pareizu diagnozi.

Ko galvenais rādītājs mums nepasaka

Saliktais vērtējums 99,12 procenti saskaņā ar šo konkrēto iepriekš reģistrēto rubriku nozīmē sniegumu gandrīz līdz griestiem, taču tas ir rūpīgi jāietver kontekstā. Rezultāts raksturo dzinēja darbību pret piecpadsmit rūpīgi atlasītiem anonimizētiem gadījumiem, katru izvērtējot vienreiz, izmantojot vienu rubriku. Mēs skaidri norādām, ko šis skaitlis nosaka un ko tas nenosaka.

Vērtējums saka, ka V11 dzinējs šai izvērtēšanai atlasītos diagnostikas modeļus apstrādāja pareizi, izmantojot metodoloģiju, kas ir publicēta un reproducējama. Tas nesaka, ka dzinējs ir pareizs katrā asins analīžu panelī, kas pastāv “reālajā pasaulē”. Tas nesaka, ka dzinējam vajadzētu aizstāt klīnicista spriedumu. Un tas nesaka, ka dzinējs pārspēj alternatīvas AI sistēmas — salīdzinošas analīzes pret citiem dzinējiem šajā ziņojumā apzināti netika iekļautas.

Tas, ko vērtējums nosaka, ir bāzes līmenis. Tā kā rubrika un “harness” ir publiski pieejami, nākamās dzinēja versijas var izvērtēt pret tiem pašiem piecpadsmit gadījumiem, un atšķirība starp publicēto vērtējumu un jebkuru turpmāku izpildi ir pati par sevi izmērāma. Šī ir iepriekšējas reģistrācijas vērtība: tā pārvērš veiktspējas apgalvojumus pārbaudāmos apgalvojumos.

Kā atveidot šo etalonu 10 minūtēs

Reproducēšanai pietiek ar Kantesti API akreditācijas datu pāri un Python 3.10 vai jaunāku vidi ar requests un reportlab bibliotēkas ir instalētas. Pilnais “harness” ir viens vienots, pašpietiekams Python modulis, kas izlaists saskaņā ar MIT licenci.

💻 GitHub MIT licencēts “harness” · neapstrādātas atbildes · atsauces izpilde 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanoniska akadēmiskā dokumentācija 🎓 ResearchGate Publikācija 404175463 · akadēmiskās atklāšanas slānis 📄 Academia.edu Raksts 165956808 · akadēmiskās atklāšanas slānis

Četras darbības svaigai izpildei

Viena. Klonējiet repozitoriju: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Divi. Instalējiet atkarības ar pip install -r requirements.txt. Trīs. Iestatiet KANTESTI_USERNAME un KANTESTI_PASSWORD kā vides mainīgos — akreditācijas dati tiek nolasīti izpildes laikā, un skriptā nekas netiek kodēts “cieti”. Četri. Palaidiet python benchmark_bloodtest.py un pārbaudiet četrus artefaktus, kas tiek ģenerēti darba direktorijā: CSV rezultātu kopsavilkumu, JSON rezultātu kopsavilkumu, pilnu JSON izmetumu, tostarp neapstrādātas dzinēja atbildes, un cilvēkam lasāmu Markdown atskaiti.

Atsauces izpilde no 23. aprīļa 2026. gada ir saglabāta results/ repozitorija direktorijā. Jauna izpilde ģenerēs jaunu ar laika zīmogu iezīmētu rezultātu kopsavilkumu, atstājot atsauces izpildi neskartu. Ja jūsu izpilde dod būtiski atšķirīgu rezultātu, lūdzu, atveriet GitHub issue ar izpildes laika zīmogu un atbildes metadatos norādīto dzinēja versiju.

Ierobežojumi un turpmākais darbs

Četri ierobežojumi ir jāatzīst tieši: izlases lielums, vienreizēja novērtēšana, viena dzinēja tvērums un viena datu avota izcelsme. Katrs no tiem tiek risināts aktīvā turpmākajā darbā.

Izlases lielums. Piecpadsmit gadījumi astoņās specialitāšu kategorijās ir pietiekami pierādījumam, bet ne apakšgrupu analīzei konkrētā specialitātē. Plānots paplašināt līdz piecdesmit gadījumiem, iekļaujot koagulācijas paneļus, hematoloģisku ļaundabīgo audzēju skrīningu, grūtniecības paneļus un pediatriskus gadījumus.

Vienreizēja novērtēšana. Katrs gadījums tika novērtēts vienu reizi. Lielie valodu modeļi uzrāda ne-triviālu izvades variāciju pat pie zemas paraugu ņemšanas temperatūras, tāpēc dabisks nākamais solis ir daudzizpildes protokols ar pieciem novērtējumiem katram gadījumam un ziņotu variāciju.

Viena dzinēja tvērums. Šī atskaite raksturo vienu dzinēju. Salīdzinošas analīzes ar alternatīvām AI sistēmām šeit nav iekļautas; mēs tās varam īstenot kā atsevišķu neatkarīgu pētījumu ar atbilstošu metodoloģiju.

Viena datu avota izcelsme. Piecpadsmit gadījumi ir anonimizēti reāli pacientu ieraksti, kas iegūti no vienas klīniskās repozitorijas. Tie atspoguļo atlasītu izlasi un nav iedzīvotāju reprezentatīva nejauša izlase. Novērtējuma paplašināšana uz vairāku centru datiem ir ceļvedī.

Visnozīmīgākais plānotais paplašinājums ir daudzvalodu atbilstība. Kantesti AI Engine apkalpo lietotājus 75+ valodās, un, palaižot to pašu piecpadsmit gadījumu testu turku, vācu, spāņu, franču un arābu valodās, tiks kvantificēta izvades kvalitāte visās dzinēja atbalstītajās valodās. Mēs publicēsim katras valodas specifisko izpildi ar savu DOI un testu (harness) atzaru.

Izmēģiniet to pašu dzinēju, kas sasniedza 99.12% salikto rezultātu

Augšupielādējiet savu asins analīžu paneli tajā pašā ražošanas (production) galapunktā, kas tika izvērtēts šajā benchmarkā. Vairāk nekā 2 miljoni lietotāju visā pasaulē izmanto Kantesti AI Engine, lai interpretētu vairāk nekā 15 000 biomarķieru 75+ valodās.

🔬 Izmēģiniet bezmaksas demonstrāciju

Chrome paplašinājums Lietotņu veikals Google Play

📚 Kā citēt šo benchmarku

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Kantesti AI dzinēja klīniskā validācija (2.78T)
                 15 anonimizētos asins analīžu gadījumos: iepriekš reģistrēts
                 rubrikas balstīts benchmarks, kas ietver hiperdiaģnozes slazda gadījumus
                 septiņās medicīnas specialitātēs},
  institution = {Kantesti Ltd},
  address     = {London, Apvienotā Karaliste},
  year        = {2026},
  month       = {April},
  type        = {Tehniskais ziņojums},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti AI dzinēja klīniskā validācija (2.78T) 15 anonimizētos asins analīžu gadījumos: iepriekš reģistrēts rubrikas balstīts benchmarks, kas ietver hiperdiaģnozes slazda gadījumus septiņās medicīnas specialitātēs (Tehniskais ziņojums V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Saistītie Kantesti validācijas darbi

Klein, T. (2025). Klīniskās validācijas ietvars mākslīgā intelekta darbinātai asins analīžu interpretācijai: trīskārši aklās validācijas metodoloģija, veiktspējas rādītāji un kvalitātes nodrošināšanas protokoli. Kantesti AI medicīniskie pētījumi.

🎓 ResearchGate

📖 Ārējās metodoloģiskās atsauces

Mentzer, W. C. (1973). Dzelzs deficīta atšķiršana no talasēmijas pazīmes. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019. gada Eiropas līgas pret reimatismu / Amerikas Reimatoloģijas koledžas klasifikācijas kritēriji sistēmiskai sarkanajai vilkēdei. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medicīnas domēna halucināciju tests lielajiem valodu modeļiem. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Kompozītais rādītājs

15Novērtētie gadījumi

7Specialitātes

0Slazda viltus pozitīvie

Bieži uzdotie jautājumi

Cik precīzs ir Kantesti AI dzinējs reālos asins analīžu gadījumos?

Pēc iepriekš reģistrētas rubrikas 15 anonimizētiem reālu pacientu asins analīžu gadījumiem septiņās medicīnas specialitātēs Kantesti AI Engine V11 sasniedza kompozīto rādītāju 99.12 procenti, ar nulles hiperdiaģnozes viltus pozitīvajiem gan slazda gadījumos, gan vidējo atbildes latentumu 20.17 sekundes. Pilns katra gadījuma rezultātu pārskats ir publicēts Figshare ar DOI 10.6084/m9.figshare.32095435 un GitHub ar MIT licenci.

Vai Kantesti AI dzinējs ir klīniski validēts?

Jā. Dzinējs ir klīniski validēts, balstoties uz rubriku, kas tika iesaldēta pirmkoda veidā pirms dzinēja iedarbināšanas; tā tika izvērtēta 15 anonimizētos asins analīžu gadījumos hematoloģijā, endokrinoloģijā, metabolisma medicīnā, hepatoloģijā, nefroloģijā, kardioloģijā un reimatoloģijā. Klīnisko uzraudzību nodrošināja Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), valdes sertificēts klīniskais hematologs un Kantesti AI galvenais medicīnas direktors.

Kas ir hiperdiaģnozes slazda gadījums?

Hiperdiagnostikas slazda gadījums ir klīniska situācija, kas īpaši izstrādāta, lai atklātu pārdiagnosticēšanas uzvedību AI dzinējos. Kantesti V11 etalonā tiek izmantoti divi šādi gadījumi. Pirmais ir izolēta netieša hiperbilirubinēmija, kas atbilst Gilberta sindromam, kur pareizā interpretācija ir labdabais UGT1A1 polimorfisms, nevis hepatīts vai hemolīze. Otrais ir pilnīgi normāls pieaugušo skrīninga panelis, kur pareizā atbilde ir pārliecība un dzīvesveida uzturēšana, nevis māksloti izveidota robežpatoloģija.

Vai Kantesti AI dzinēja novērtējums ir atkārtojams?

Pilnais izvērtēšanas ietvars (evaluation harness) ir izlaists saskaņā ar MIT licenci kā viens pašpietiekams Python modulis. Pavairošanai nepieciešams tikai Kantesti API akreditācijas datu pāris un Python 3.10 vai jaunāka versija. Kods, gadījumu definīcijas un katra neapstrādāta dzinēja atbilde no 2026. gada aprīļa atsauces izpildes ir pieejama vietnē github.com/emirhanai/kantesti-blood-test-benchmark un atspoguļota Figshare, ResearchGate un Academia.edu.

Kā Kantesti AI dzinējs atšķir dzelzs deficītu no beta-talassemijas pazīmes?

Dzinējs piemēro Mentzera indeksu, kas aprēķināts kā vidējais eritrocītu tilpums, dalīts ar eritrocītu skaitu. Mentzera indekss virs 13 atbalsta dzelzs deficīta anēmiju, bet vērtība zem 13 atbalsta beta-talasēmijas pazīmi. V11 etalonā abas izpausmes tika klasificētas pareizi ar skaidru Mentzera indeksa aprēķinu, ko papildina feritīna, RDW un HbA2 konteksts.

Kur es varu atrast neapstrādātos salīdzinājuma datus un avota kodu?

Tehniskais ziņojums ir deponēts Figshare ar DOI 10.6084/m9.figshare.32095435, atspoguļots ResearchGate publikācijā 404175463 un Academia.edu rakstā 165956808, un MIT licencētais Python ietvars ar visiem atsauces izpildes rezultātiem ir pieejams vietnē github.com/emirhanai/kantesti-blood-test-benchmark. Četru platformu atspoguļojuma tīkla mērķis ir nodrošināt ilgtermiņa pieejamību un elastību citēšanā.

Kāpēc pirmreģistrācija ir svarīga AI medicīnas etaloniem?

Pirmreģistrācija novērš post-hoc rubrikas pielāgošanu, kas ir viens no visbiežākajiem veidiem, kā uzņēmumu vadīti etaloni uzpūš savus rādītājus. Apņemoties rubriku iesaldēt pirmkodā pirms jebkura dzinēja izsaukuma un publicējot ietvaru publiski, rubrikas autora datumi kļūst pārbaudāmi versiju pārvaldībā, un dzinēja rezultāti nevar būt ietekmējuši vērtēšanas kritērijus.

Vai šis etalons ietver salīdzinājumus ar citiem AI dzinējiem?

Nē. V11 ziņojums apzināti raksturo vienu dzinēju pret fiksētu rubriku, nevis pozicionē to pret alternatīvām komerciālām sistēmām. Ietvars ir atvērtā pirmkoda formā saskaņā ar MIT licenci, tāpēc neatkarīgi pētnieki var izvērtēt jebkuru dzinēju, ko viņi izvēlas, pret tiem pašiem piecpadsmit gadījumiem un rubriku, un publicēt savus rezultātus.

Vai pacientu gadījumi ir reāli vai sintētiski?

Piecpadsmit gadījumi ir anonimizēti reāli pacientu ieraksti, kas iegūti no Kantesti klīnisko datu repozitorija, pamatojoties uz rakstisku informētu piekrišanu. Deidentifikācija tika veikta saskaņā ar Safe Harbor pieeju, noņemot vai aizstājot visus tiešos identifikatorus. Apstrāde tika veikta saskaņā ar GDPR 9. panta 2. punkta j) apakšpunktu un atbilstošajiem Apvienotās Karalistes GDPR noteikumiem. Neviens personu identificējošs informācijas elements neparādās publicētajā ietvarā, tehniskajā ziņojumā vai izlaistajos datu kopumos.

⚕️ Medicīnisks atruna & interešu konflikts

Šis etalona ziņojums ir paredzēts pētniecības un metodoloģiskās caurskatāmības nolūkiem. Tas nav medicīnisks padoms. Vienmēr konsultējieties ar kvalificētu veselības aprūpes speciālistu diagnozes un ārstēšanas lēmumu pieņemšanai. Abi autori ir nodarbināti un viņiem ir līdzdalība (equity) Kantesti Ltd, un izvērtētais dzinējs ir tās pašas organizācijas komerciāls produkts. Šis interešu konflikts tiek mazināts, pirmreģistrējot rubriku pirmkodā, izlaižot ietvaru saskaņā ar MIT licenci un publicējot katru neapstrādāto dzinēja atbildi.

E-E-A-T uzticēšanās signāli

⭐

Pieredze

15+ gadu klīniskās hematoloģijas un laboratorijas medicīnas prakse, uzraugot gadījumu paneļa atlasi.

📋

Ekspertīze

Pirmreģistrēts rubrikas dizains ar skaidri noteiktām hiperdiagnostikas soda sankcijām un atzītām klīniskās vērtēšanas sistēmām (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoritāte

Galvenais autors Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Ieviešana: Julian Emirhan Bulut, Kantesti Ltd izpilddirektors (CEO).

🛡️

Uzticamība

MIT licencēts reproducējams ietvars, publicētas neapstrādātas dzinēja atbildes, atvērta interešu konflikta deklarācija, četru platformu pētniecības atspoguļojuma tīkla nodrošinājums.

🏢 Kantesti SIA Reģistrēts Anglijā un Velsā · Uzņēmuma Nr. 17090423 Londona, Apvienotā Karaliste · kantesti.net