Zašto postoji ovo mjerilo i što testira
AI-pomoć u tumačenju krvne slike sve se više koristi u potrošačkim i kliničkim radnim tokovima, no okviri za ponovljivu evaluaciju prilagođeni laboratorijskoj medicini i dalje su rijetki. Pitanja koja su ovdje najvažnija nisu ona obuhvaćena općim benchmarkovima za medicinska pitanja i odgovore: može li motor razdvojiti nedostatak željeza od talasemijskog obilježja kada je srednji volumen eritrocita identičan, dijagnosticira li Gilbertov sindrom prekomjerno kao hepatitis i stvara li patologiju u potpuno normalnom probirnom panelu?
Jedan panel krvnih pretraga obično sadrži dovoljno signala za nekoliko konkurentskih interpretacija, a posao liječnika koji tumači nalaze jest odvagnuti te interpretacije jedne naspram drugih, umjesto da se dohvati “točan odgovor iz udžbenika”. Motor koji dobro prolazi na slučajevima iz udžbenika i dalje može pasti na onim slučajevima koji su najvažniji: na zamkama diferencijalne dijagnostike, na bezazlenim varijantama koje same po sebi izgledaju alarmantno i na potpuno normalnim panelima koji navode samouvjerene asistente na izradu patologije.
Ovaj je benchmark izgrađen upravo oko tih načina neuspjeha. Svaki od petnaest slučajeva odabran je zbog određene dijagnostičke osobine: mikrocitoza zbog nedostatka željeza koju treba jasno razlikovati od nositeljstva beta-talasemije s identičnim prosječnim volumenom eritrocita, prezentacija Gilbertove bolesti u kojoj je jedina abnormalnost izolirana indirektna hiperbilirubinemija i panel za probir s petnaest parametara u kojem se svaki analit nalazi unutar svog referentnog raspona. Rubrika nagrađuje motore koji čitaju svaki slučaj prema njegovim vlastitim okolnostima, a kažnjava motore koji posegnu za samouvjerenom dijagnozom kad takva dijagnoza nije opravdana.
Kao Thomas Klein, dr. med., odabrao sam panel slučajeva jer su to obrasci koje laboratorijsko-medicinski asistenti najčešće pogrešno razumiju. Skupi način neuspjeha nije "propustiti rijetku bolest" — nego izmišljati rutinsku patologiju kod pacijenata koji je nemaju. Naše Medicinska validacija hub opisuje širi okvir; ova stranica opisuje njegov primijenjeni rezultat na V11 motoru.
Najnoviji referentni run — V11 (travanj 2026.)
Referentno izvođenje iz travnja 2026. za Kantesti AI Engine V11 proizvelo je kompozitni rezultat 99.12% prema unaprijed registriranoj rubriki od petnaest slučajeva. Oba slučaja u zamci prekomjerne dijagnostike postigla su maksimalan rezultat. Mentzerov indeks primijenjen je ispravno u diferencijalu između nedostatka željeza i talasemije.
Kompozitna formula kombinira tri komponente: strukturna usklađenost sa sedam obveznih odjeljaka izvještaja i šesnaest obveznih pododjeljaka, klinička točnost mjerena kao prisjećanje ključnih riječi plus prisjećanje sustava bodovanja plus provjera valjanosti vjerojatnosne raspodjele, i kašnjenje odgovora u odnosu na primarni cilj razine usluge od 20 sekundi. Točna razrada prikazana je u formuli rubrike u nastavku.
Preostalih 0,88 postotnih bodova “headrooma” razlaže se gotovo u cijelosti na gubitak zbog latencije — tri poziva za povratnu (fallback) obradu iz Phase 2, svaki s kompozitnim doprinosom od -0,05, pridonijela su približno 0,60 od manjka od 0,88 bodova — umjesto kliničkom sadržaju. Motor nije promašio točnu dijagnozu ni u jednom od petnaest slučajeva; gdje je zakazao, to je bilo tako da je u malom manjinskom broju poziva trajao nešto dulje od primarnog cilja od 20 sekundi.
Petnaest slučajeva iz sedam medicinskih specijalnosti
Panel slučajeva obuhvaća sedam specijalnosti — hematologiju, endokrinologiju, metaboličku medicinu, hepatologiju, nefrologiju, kardiologiju, reumatologiju — plus dva namjenska slučaja “hyperdiagnosis trap”. Svaki slučaj je anonimizirani stvarni zapis pacijenta, izveden iz repozitorija kliničkih podataka Kantesti, uz pisani informirani pristanak.
De-identifikacija je provedena prema pristupu Safe Harbor: svi izravni identifikatori su uklonjeni ili zamijenjeni, a svakom je zapisu dodijeljen interni kod slučaja u mjerilu u formatu BT-NNN-LABEL. Obrada je provedena u skladu s GDPR člankom 9(2)(j) za znanstvena istraživanja uz odgovarajuće zaštitne mjere te s ekvivalentnim odredbama UK GDPR-a. Nigdje u objavljenom “harnessu”, tehničkom izvješću ili objavljenim skupovima podataka ne pojavljuju se osobni podaci za identifikaciju.
Zašto baš ta raspodjela
Hematologija dobiva tri slučaja jer su mikrocitne diferencijale i makrocitne diferencijale najčešće “zamke” visokog volumena u stvarnoj laboratorijskoj praksi. Endokrinologija dobiva tri jer se prezentacije Hashimotovog, PCOS-a i nedostatka vitamina D razlikuju po dijagnostičkim oblicima (vođeni autoantitijelima, vođeni omjerima hormona, vođeni jednim markerom). Specijalnosti s jednim slučajem i dalje su smislenе jer svaka od CKD-a, rizika za ASCVD i SLE-a ima svoj sustav bodovanja koji motor treba pozvati (KDIGO stadij, ASCVD 10-godišnji rizik, te 2019 EULAR/ACR SLE kriteriji, redom).
Unaprijed registrirana rubrika, objašnjena
Pre-registracija je jedina najvažnija metodološka odluka u ovom benchmarku. Svaka očekivana dijagnoza, svaki klinički sustav bodovanja i svaki odjeljak izvještaja predani su izvornom kodu prije nego što je motor pozvan. Naknadno “dotjerivanje” rubrike kako bi se laskalo motoru stoga je nemoguće.
Tri komponente čine kompozitni rezultat. strukturna komponenta doprinosi 35 posto i mjeri vraća li motor sedam obveznih odjeljaka izvještaja (zaglavlje, sažetak, ključni nalazi, diferencijala, sustavi bodovanja, preporuke, praćenje) te šesnaest obveznih pododjeljaka unutar njih. Prisutnost odjeljka nosi 40 posto, a prisutnost pododjeljka 60 posto unutar strukturnog izračuna.
The klinička komponenta doprinosi 55 posto i kombinira tri stvari: prisjećanje dijagnoza-po-ključnim-riječima (70 posto kliničkog podrezultata), prisjećanje sustava bodovanja (20 posto — izračunava li motor Mentzer, FIB-4, HOMA-IR, ASCVD rizik, KDIGO stadij, EULAR/ACR kriterije gdje je relevantno) i provjeru valjanosti zbroja vjerojatnosti (10 posto — diferencijalne vjerojatnosti trebaju se zbrojiti unutar intervala [90, 110]). Za slučajeve “zamke” oduzima se eksplicitna penalizacija za hiperdijagnozu do 0,30, izračunata kao 0,10 po izmišljenoj zastavici patologije, s ograničenjem na tri zastavice.
The komponenta latencije doprinosi 10 posto. Odgovor ispod 20 sekundi dobiva punih 0,10, odgovor ispod 40 sekundi dobiva 0,05, a sve sporije dobiva nula. Cilj od 20 sekundi odražava primarni cilj razine usluge proizvodne primary-path usluge; strop od 40 sekundi odražava proračun za “fallback” u Fazi 2 za teške pozive motora.
Što pre-registracija sprječava
Prvostupanjski benchmarkovi poznati su po napuhavanju vlastitih rezultata naknadnim dotjerivanjem rubrike. Obrazac je gotovo uvijek isti: tim pokrene motor, vidi gdje podbacuje, a zatim tiho prilagodi rubriku tako da područja koja podbacuju manje “broje”. Predavanjem rubrike izvornom kodu prije prvog poziva motora i objavom okvira pod MIT licencom, ta prilagodba postaje vidljiva u sustavu upravljanja verzijama. Svatko može klonirati repozitorij, provjeriti datume autorstva rubrike i potvrditi da se rezultati motora nisu koristili za oblikovanje bodovanja.
Slučajevi zamke hiperdijagnosticiranja — zašto je pretjerano proglašavanje stvarni način neuspjeha
Agresivno prekomjerno proglašavanje patologije na normalnim pregledima dokumentirani je način neuspjeha kod medicinskih asistenata usmjerenih na potrošače. Njegovi posljedični troškovi uključuju nepotrebnu obradu, tjeskobu pacijenta i iatrogeni radup. Dva slučaja “zamke” u ovom benchmarku dizajnirana su da taj način neuspjeha učine vidljivim i bodovnim.
🟡 Zamka 1 — BT-014-GILBERT
Prezentacija. Muškarac od 24 godine s ukupnim bilirubinom 2,4 mg/dL. Direktna frakcija je normalna, transaminaze i alkalna fosfataza nalaze se unutar svojih referentnih raspona, retikulociti su bez osobitosti, a haptoglobin i LDH isključuju hemolizu.
Ispravna interpretacija. Gilbertova bolest — benigna polimorfija UGT1A1. Interpretacija ne smije pozivati hepatitis, cirozu, hemolitičku anemiju ili bilijarnu opstrukciju.
Rezultat v11. Kompozitni 1,000. Nijedna od šest nadziranih zastavica prekomjerne dijagnoze nije se pojavila kao aktivna dijagnoza.
🟡 Zamka 2 — BT-015-ZDRAV
Prezentacija. Žena od 35 godina s rutinskim probirnim panelom od petnaest parametara. Svaki analit udobno se nalazi unutar svog referentnog raspona.
Ispravna interpretacija. Učvršćivanje sigurnosti i održavanje životnog stila. Tumačenje ne bi smjelo izmišljati graničnu patologiju kako bi zvučalo klinički korisno.
Rezultat v11. Sastav 1.000. Nijedna od sedam praćenih zastavica prekomjernog postavljanja dijagnoze — dijabetes, anemija, hipotireoza, dislipidemija, hepatitis, bubrežna bolest, nedostatak — nije se pojavila kao aktivna dijagnoza.
U oba scenarija provjere, provjereno je trinaest praćenih zastavica za hiperdijagnosticiranje. Nijedna nije aktivirana. Ovo je rezultat koji je najvažniji za svakog kliničara koji razmatra korištenje AI motora kao alata za trijažu ili prije konzultacije: sustav nije izumio bolest tamo gdje je nije bilo.
Mentzerov indeks: razdvajanje nedostatka željeza od osobina talasemije
Drugi nalaz visoke vrijednosti odnosi se na povezivanje slučaja BT-001 (željezna deficijentna anemija) sa slučajem BT-007 (beta-talasemija minor). Oba se očituju mikrocitozom i dobro su poznata prepreka za naivne klasifikatore. Mentzerov indeks, izračunan kao MCV podijeljen s brojem RBC, prelazi 13 kod željezne deficijentne anemije i pada ispod 13 kod talasemijskog obilježja.
U BT-001, pacijentica je bila 34-godišnja žena s hemoglobinom 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritinom 6 ng/mL i povišenim TIBC. Mentzerov indeks od približno 17,7 podupire apsolutni manjak željeza. U BT-007, pacijent je bio 28-godišnji muškarac s mikrocitozom (MCV 65,8 fL), ali s visokim brojem RBC od 6,2, normalnim RDW, normalnim feritinom i HbA2 od 5,6 posto. Mentzerov indeks od približno 10,6 upućuje na talasemijsko obilježje, a povišeni HbA2 potvrđuje beta-talasemiju minor.
Oba slučaja postigla su 1.000. Motor je eksplicitno upotrijebio Mentzerov indeks u obje interpretacije i vratio točnu dijagnozu u svakom slučaju. Ovo je jedini najviše klinički umirujući rezultat u cijelom benchmarku, jer pogrešno razvrstavanje talasemijskog obilježja kao željezne deficijentne anemije dovodi do neprimjerene suplementacije željezom i propuštenih prilika za probir obitelji, a pogrešno razvrstavanje željezne deficijentne anemije kao talasemije odgađa jednostavnu zamjensku terapiju. Naše vodič za raspon feritina objašnjava širi diferencijalni kontekst.
Rezultati po pojedinom slučaju iz pokretanja u travnju 2026.
Dvanaest od petnaest slučajeva postiglo je maksimalni kompozitni rezultat od 1.000 na primarnom putu. Tri slučaja obrađena su putem povratnog mehanizma Phase 2, izgubivši bonus za latenciju od 0,05 uz očuvanje cjelokupnog kliničkog i strukturnog sadržaja. Jednom slučaju nedostajao je jedan obvezni pododjeljak; jedan je vratio marginalno smanjeni zbroj vjerojatnosnih raspodjela.
Slučaj PCOS-a (BT-008) izgubio je jedan obvezni pododjeljak u strukturi odgovora — petnaest od šesnaest umjesto šesnaest od šesnaest — što je smanjilo strukturni rezultat s 1,000 na 0,963. Slučaj SLE-a (BT-011) vratio je tek marginalno smanjeni zbroj vjerojatnosne raspodjele koji je spustio klinički rezultat na 0,965, uz očuvanje svake dijagnostičke ključne riječi i sustava bodovanja. Nijedan od ta dva slučaja ispod savršenog nije propustio točnu dijagnozu.
Što nam ne govori naslovni rezultat
Složeni rezultat od 99,12 posto prema toj konkretnoj unaprijed registriranoj rubrici predstavlja gotovo maksimalnu izvedbu, ali zaslužuje pažljivo uokvirivanje. Rezultat opisuje ponašanje motora u odnosu na petnaest pažljivo odabranih anonimiziranih slučajeva, procijenjenih jednom po jednom, prema jednoj rubrici. Izričito navodimo što taj broj pokazuje, a što ne pokazuje.
Rezultat kaže da je motor V11 ispravno obradio dijagnostičke obrasce odabrane za ovu evaluaciju, prema metodologiji koja je objavljena i može se reproducirati. Ne kaže da je motor točan na svakoj ploči krvnih pretraga koja postoji u stvarnom svijetu. Ne kaže da bi motor trebao zamijeniti kliničku prosudbu. I ne kaže da motor nadmašuje alternativne AI sustave — usporedne analize s drugim motorima namjerno su bile izvan opsega ovog izvještaja.
Ono što rezultat jest dokazao je početna (bazna) vrijednost. Buduće verzije motora mogu se evaluirati prema istih petnaest slučajeva, jer su rubrika i okruženje javni, a razlika između objavljenog rezultata i bilo kojeg sljedećeg pokretanja sama je po sebi mjerljiva. To je vrijednost unaprijed registriranja: pretvara tvrdnje o izvedbi u provjerljive tvrdnje.
Kako reproducirati ovaj benchmark za 10 minuta
Reprodukcija zahtijeva samo par vjerodajnica Kantesti API-ja i okruženje s Pythonom 3.10 ili novijim, uz requests i reportlab instalirane biblioteke. Cjeloviti harness je jedan samostalni Python modul objavljen pod MIT licencom.
Četiri koraka za novo pokretanje
Jedan. Klonirajte repozitorij: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dva. Instalirajte ovisnosti pomoću pip install -r requirements.txt. Tri. Postavite KANTESTI_USERNAME i KANTESTI_PASSWORD kao varijable okruženja — vjerodajnice se čitaju u vrijeme izvođenja i ništa nije hardkodirano u skripti. Četiri. Pokrenite python benchmark_bloodtest.py i pregledajte četiri artefakta koja se ispisuju u radni direktorij: CSV scorecard, JSON scorecard, potpuni JSON dump uključujući izvorne odgovore motora i čitljivo Markdown izvješće.
Referentno izvođenje od 23. travnja 2026. čuva se u results/ direktoriju repozitorija. Svježe izvođenje proizvest će novi scorecard s vremenskom oznakom, dok će referentno izvođenje ostati netaknuto. Ako vaše izvođenje daje značajno drugačiji rezultat, molimo otvorite GitHub issue s vremenskom oznakom izvođenja i verzijom motora vraćenom u metapodacima odgovora.
Ograničenja i budući rad
Četiri ograničenja zaslužuju izričito priznavanje: veličina uzorka, evaluacija u jednom pokušaju, opseg jednog motora i podrijetlo podataka iz jednog izvora. Svako od njih rješava se u aktivnom praćenju.
Veličina uzorka. Petnaest slučajeva u osam specijalističkih kategorija dovoljno je za dokaz koncepta, ali nije dovoljno za analizu podskupina unutar jedne specijalnosti. Planirano je proširenje na pedeset slučajeva koje će uključivati koagulacijske panele, probir na hematološke maligne bolesti, panele za trudnoću i pedijatrijske prezentacije.
Evaluacija u jednom pokušaju. Svaki je slučaj evaluiran jednom. Veliki jezični modeli pokazuju ne-trivijalnu varijabilnost izlaza čak i pri niskoj temperaturi uzorkovanja, pa je protokol s više ponavljanja s pet evaluacija po slučaju i prijavljenom varijansom prirodan sljedeći korak.
Opseg jednog motora. Ovo izvješće opisuje jedan motor. Usporedne analize s alternativnim AI sustavima nisu obuhvaćene ovim; eventualno ih možemo provesti kao zasebno neovisno istraživanje s odgovarajućom metodologijom.
Podrijetlo podataka iz jednog izvora. Petnaest slučajeva su anonimizirani stvarni medicinski zapisi pacijenata iz jednog kliničkog repozitorija. Oni predstavljaju odabrani uzorak i nisu slučajni uzorak reprezentativan za populaciju. Proširenje evaluacije na podatke iz više centara planirano je na cesti.
Najutjecajnije planirano proširenje je višejzična parnost. Kantesti AI Engine služi korisnicima u 75+ jezika, a pokretanje istog harnessa s petnaest slučajeva na turskom, njemačkom, španjolskom, francuskom i arapskom kvantificirat će kvalitetu izlaza kroz jezike koje motor podržava. Objavit ćemo svako izvođenje specifično za jezik, zajedno s vlastitim DOI-em i granom harnessa.