Kantesti AI mjerilo krvne slike — klinička validacija

Automatizirano mjerilo učinka Pre-registrisani benchmark V11 Drugo ažuriranje — april 2026 Licencirano MIT-om Ponovljivo · Otvoreni podaci 100K sintetički kohort · 127 oznaka zemalja

99.80% kompozitni rezultat prema unaprijed registriranom rubriku — V11 Drugo ažuriranje, kohorta od 100.000 slučajeva kroz 127 oznaka zemalja

Unaprijed registrirani, rubrikom zasnovan automatizirani tehnički benchmark motora Kantesti na 100.000 sintetički generiranih slučajeva krvnih testova označenih s 127 oznaka zemalja. Mjeri usklađenost izlaza, a ne dijagnostičku tačnost. Rubrika je zamrznuta u izvornom kodu prije početnog izdanja V11 i zadržana byte-identična za ovo Drugo ažuriranje; evaluacijski harness je licenciran MIT-om; stratificirani slučajni uzorak sirovih odgovora motora objavljen je za pregled. Svi slučajevi su sintetički; ne koriste se lični podaci.

📖 ~14 minuta 📅 Objavljeno 23. aprila 2026 · Ažurirano 26. aprila 2026 (V11 Drugo ažuriranje) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Objavljeno: 23. april 2026 🔄 V11 Drugo ažuriranje: 26. april 2026 🩺 Medicinski pregledano: 26. april 2026 ✅ Unaprijed registrovana rubrika (byte-identična) 🔓 Otvoren kod i podaci

Ovo automatizirano mjerilo učinka dizajnirano je i pokrenuto od strane Julian Emirhan Bulut, Senior AI inženjera i izvršnog direktora (CEO) kompanije Kantesti Ltd. Bodovanje je u potpunosti automatizirano u izvornom kodu; rubrika za bodovanje i panel slučajeva razvijeni su uz klinički doprinos od Dr. Thomas Klein, dr. med., glavnog medicinskog službenika (Chief Medical Officer) u Kantesti AI, i pregledani od strane Medicinski savjetodavni odbor za umjetnu inteligenciju Kantesti. To je samostalni interni benchmark, a ne nezavisni ili recenzirani automatizirani tehnički benchmark.

Glavni autor i klinički nadzor

Thomas Klein, dr. med.

Glavni medicinski službenik, Kantesti AI

Dr. Thomas Klein je specijalista kliničke hematologije i internista, certificiran od strane odbora, s više od 15 godina iskustva u laboratorijskoj medicini. Kao glavni medicinski službenik (Chief Medical Officer) u Kantesti AI, odabrao je panel slučajeva za ovaj benchmark, pregledao klinički sadržaj i očekivane odgovore sintetičkih slučajeva te odobrio unaprijed registriranu rubriku prije prvog poziva motora.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Koautor & implementacija

Julian Emirhan Bulut

Senior AI inženjer & izvršni direktor, Kantesti Ltd

Julian Emirhan Bulut je osnivač i izvršni direktor Kantesti Ltd. Dizajnirao je i implementirao evaluacioni harness — uključujući SQL case loader dodat za V11 Drugo ažuriranje — izvršio API integraciju, proveo i početno referentno pokretanje V11 i pokretanje V11 Drugo ažuriranje na 100.000 slučajeva, te pripremio statističku agregaciju. Osnivač platforme od 2019.

GitHub O Kantestiju

⚡ Kratak sažetak V11 Drugo ažuriranje — 26. april 2026

99.80% kompozitni rezultat na 100.000 sintetičkih slučajeva krvnih testova iz osam medicinskih specijalnosti i 127 oznaka zemalja (V11 Drugo ažuriranje).
Nema lažno-pozitivnih slučajeva hiperdijagnoze kroz 87.412 prilika za označavanje trap-case — ista metodologija trap-case kao u početnom V11, skalirana na nivou populacije.
Unaprijed registrirana rubrika zamrznuto u izvornom kodu prije početnog pokretanja V11 i zadržano byte-identično za ovo Drugo ažuriranje — nije bilo moguće naknadno podešavanje (post-hoc).
Mentzerov indeks pravilno primijenjen da bi se u početnom izdanju V11 razlikovala anemija zbog nedostatka željeza od beta-talasemije minor; diferencijalno ponašanje je očuvano na nivou populacije.
Samo produkcijski endpoint — bez privilegiranog usmjeravanja, evaluirano tačno onako kako bi to pristupio plaćajući korisnik.
prosječno kašnjenje od 13.26 sekundi end-to-end (raspon 9.0–16.94 s), pri čemu je svih 100.000 slučajeva završilo na primarnom putu motora.
Sintetička kohorta. 100.000 sintetički generiranih testnih slučajeva učitano u vrijeme izvođenja. Ne koristi se sintetički podatak i ne koriste se lični podaci.
Harness pod MIT licencom objavljeno na GitHubu uz stratifikovani slučajni uzorak (n = 201) punih sirovih odgovora motora za pregled.
Figshare DOI: 10.6084/m9.figshare.32095435 · Preslikano na ResearchGate, Academia.edu, GitHub.

Zašto ovaj benchmark postoji i šta testira

AI-potpomognuto tumačenje krvne slike sve se više koristi u potrošačkim i kliničkim radnim tokovima, ali okviri za ponovljivu evaluaciju prilagođeni laboratorijskoj medicini ostaju neuobičajeni. Pitanja koja su najvažnija u ovom kontekstu nisu ona obuhvaćena općim benchmarkovima za medicinsko odgovaranje na pitanja: može li engine razdvojiti anemiju zbog nedostatka željeza od osobine talasemije kada je srednji volumen eritrocita identičan, dijagnosticira li prekomjerno Gilbertovu bolest kao hepatitis i stvara li patologiju u potpuno normalnom skrining panelu?

Jedan panel krvnih pretraga obično sadrži dovoljno signala da podrži više konkurentskih interpretacija, a zadatak ljekara koji tumači nalaze je da te interpretacije međusobno odmjeri, umjesto da izvuče jedno „tačno“ rješenje iz udžbenika. Motor koji se dobro pokazuje na slučajevima iz udžbenika i dalje može zakazati na onim slučajevima koji su najvažniji: na zamkama diferencijalne dijagnoze, na bezazlenim varijantama koje same po sebi izgledaju alarmantno i na potpuno normalnim panelima koji navode samouvjerene asistente da „izmisle“ patologiju.

Ovaj benchmark je izgrađen upravo oko tih načina neuspjeha. Svih petnaest slučajeva odabrano je zbog određene dijagnostičke osobine: mikrocitoza zbog nedostatka željeza koju treba jasno razlikovati od osobine beta-talasemije s identičnim prosječnim volumenom eritrocita, prezentacija Gilbertove bolesti u kojoj je jedina abnormalnost izolovana indirektna hiperbilirubinemija i panel za skrining s petnaest parametara u kojem se svaki analit nalazi unutar svog referentnog raspona. Rubrika nagrađuje motore koji svaki slučaj čitaju prema njegovim vlastitim karakteristikama, a kažnjava motore koji posegnu za samouvjerenom dijagnozom tamo gdje takva dijagnoza nije opravdana.

Kao Thomas Klein, dr. med., odabrao sam panel slučajeva jer su to obrasci koje laboratorijsko-medicinski asistenti najčešće pogrešno razumiju. Skup način neuspjeha nije "propustiti rijetku bolest" — nego izmišljati rutinsku patologiju kod pacijenata koji je nemaju. Naš Medicinska validacija hub opisuje širi okvir; ova stranica opisuje početni proof-of-concept V11 i V11 Drugo ažuriranje koje ga je skaliralo na 100.000 sintetičkih slučajeva izvedenih iz sintetičkog skupa slučajeva koji obuhvata 127 oznaka zemalja — koristeći istu rubriku bodovanja, byte-identičnu, bez dopuštenog naknadnog podešavanja (post-hoc).

Najnovije referentno pokretanje — V11 Drugo ažuriranje (26. april 2026.)

Referentno pokretanje V11 Drugog ažuriranja od 26. aprila 2026. proizvelo je kompozitni rezultat od 99.80% na istoj unaprijed registriranoj rubrici koja je korištena u V11 početnom izdanju, procijenjeno na 100.000 sintetičkih slučajeva izvedenih iz Kantesti sintetičkog skupa slučajeva i obuhvatajući 127 oznaka zemalja i 75+ jezike. Svaki slučaj je završen na primarnom putu motora; aktivacije zastavice hiperdijagnostičke „trap-case“ hiperdijagnoze ostale su na 0 / 87,412. Originalno V11 pokretanje od 23. aprila 2026. obuhvatilo je 15 ručno kuriranih slučajeva (kompozit 99.12%) i potvrdilo rubriku; Drugo ažuriranje zadržava tu rubriku bajt-identičnom i proširuje evaluaciju na kohortu na nivou populacije.

Kompozitni 99.80% 100.000 od 100.000 slučajeva bodovano

1.000 Strukturni rezultat

0.996 Klinički rezultat

13,26 s Prosječno kašnjenje

0 / 87,412 Lažni pozitivni rezultati u zamkama

Kompozitna formula kombinuje tri komponente: strukturna usklađenost sa sedam obaveznih sekcija izvještaja i šesnaest obaveznih podsekcija, tačnost sadržaja mjerena kao prepoznavanje ključnih riječi plus opoziv iz sistema bodovanja plus provjera valjanosti na osnovu raspodjele vjerovatnoća, i kašnjenje odgovora u odnosu na cilj usluge na primarnom putu. Tačna razrada prikazana je u formuli rubrike ispod — nijedna od ovih težina ili podrubrika nije mijenjana za Drugo ažuriranje.

Kompozitni = 0.35 × Strukturni + 0.55 × Klinički + 0.10 × Kašnjenje

Preostalih 0,20 procentnih poena „headroom“-a razlaže se gotovo u cijelosti na klinički podrezultat — mali dio slučajeva (pretežno u Hepatologiji i Reumatologiji) imao je jednu očekivanu ključnu riječ sistema bodovanja odsutnu iz interpretacije motora, iako je dijagnostički sadržaj bio ispravan. Nijedan slučaj u kohorti od 100.000 slučajeva V11 Drugog ažuriranja nije promašio samu dijagnozu. Latencija se poboljšala s prosjeka od 20,17 s u V11 početnom izdanju na 13,26 s u Drugom ažuriranju, što odražava optimizacije proizvodnog motora između ta dva pokretanja; rubrika, kod za bodovanje i API endpoint su nepromijenjeni.

Kompozitni rezultati po oznaci kretali su se od 0.9971 do 0.9985 među 30 najzastupljenijih oznaka zemalja. Dugačak rep od 97 dodatnih oznaka (≈7.300 slučajeva ukupno) nije pokazao nikakvu sistematsku degradaciju. Najčešće oznake prema broju slučajeva bile su Sjedinjene Američke Države (10.500), Brazil (9.500), Španija (9.000), Italija (8.000), Njemačka (7.800), Francuska (7.400), Portugal (5.800), Türkiye (3.400), Ujedinjeno Kraljevstvo (2.900) i Meksiko (2.500).

Od 15 slučajeva do 100.000: evolucija kohorte kroz 127 oznaka zemalja

Originalni V11 panel slučajeva obuhvatao je sedam specijalnosti — hematologiju, endokrinologiju, metaboličku medicinu, hepatologiju, nefrologiju, kardiologiju, reumatologiju — plus dva posvećena slučaja zamke za hiperdijagnozu, pri čemu je svaki slučaj sintetički generiran panel krvnih testova. V11 Drugo ažuriranje proširuje evaluaciju na 100.000 sintetičkih slučajeva kroz 127 oznaka zemalja, raspoređenih u osam specijalnosti (originalnih sedam plus namjenska interna-medicinska grupa koja apsorbuje podskup „trap“). Ista rubrika za bodovanje primjenjuje se bajt-identično u oba pokretanja.

Budući da su svi slučajevi sintetički generirani, ne postoje stvarni identifikatori za uklanjanje i ne uključuju se lični podaci. Svaki sintetički slučaj nosi interni kod slučaja za benchmark (BT-NNN-LABEL u početnom skupu V11, stabilan case_uid u Drugom ažuriranju). Nigdje u objavljenom harnessu, tehničkom izvještaju ili objavljenim skupovima podataka ne pojavljuju se lični podaci.

V11 početnim izdanjem — 15 ručno kuriranih slučajeva

Originalni V11 panel slučajeva ručno je odabrao dr. Thomas Klein kako bi se ispitali dijagnostički obrasci koje asistenti u laboratorijskoj medicini najčešće pogrešno tumače. Svaki od petnaest slučajeva odabran je za određeno dijagnostičko svojstvo, navedeno u nastavku.

Hematologija (3) BT-001, BT-006, BT-007 Anemija zbog nedostatka željeza · Nedostatak B12 · Beta-talasemija minor

Endokrinologija (3) BT-002, BT-008, BT-012 Hašimotov tireoiditis · PCOS s insulinskom rezistencijom · Težak nedostatak vitamina D

Metaboličko (2) BT-003, BT-013 T2DM sa metaboličkim sindromom · Hiperurikemija s rizikom od gihta

Hepatologija (2) BT-004, BT-009 NAFLD / NASH · Akutni virusni hepatitis

Nefrologija · Kardiologija · Reumatologija (3) BT-005, BT-010, BT-011 Hronična bubrežna bolest stadij 3 · Aterogena dislipidemija · Sistemski eritematosni lupus

Trap slučajevi (2) BT-014, BT-015 Gilbertov sindrom (izolovana indirektna hiperbilirubinemija) · Potpuno normalan skrining odraslih

Zašto baš ova raspodjela

Hematologija dobija tri slučaja jer su mikrocitne diferencijale i makrocitne diferencijale najčešće “zamke” visokog obima u realnoj laboratorijskoj praksi. Endokrinologija dobija tri slučaja jer se prezentacije Hashimotovog tireoiditisa, PCOS-a i nedostatka vitamina D razlikuju po dijagnostičkim oblicima (vođeno autoantitijelima, vođeno omjerima hormona, vođeno jednim markerom). Specijalnosti s jednim slučajem i dalje su značajne jer svaka od CKD-a, rizika za ASCVD i SLE-a ima svoj sistem bodovanja koji motor treba da pozove (KDIGO stadijum, ASCVD 10-godišnji rizik, te 2019 EULAR/ACR SLE kriterije, redom).

V11 Drugo ažuriranje — 100.000 sintetičkih slučajeva kroz 127 oznaka zemalja

Drugo ažuriranje zamjenjuje originalni V11 hardkodirani Python literal od 15 slučajeva većim, programski generiranim sintetičkim skupom slučajeva. Skup slučajeva učitava se na početku svakog izvođenja, a konfiguracija se bilježi radi transparentnosti. Raspodjela kohorte po području sadržaja prikazana je ispod.

Endokrinologija 23.900 slučajeva (23,9%) Štitnjača, PCOS, vitamin D, gonadalna os, hipofiza

Metabolička medicina 21.900 slučajeva (21,9%) T2DM, metabolički sindrom, lipidni paneli, hiperurikemija

Hematologija 15.400 slučajeva (15,4%) Diferencijali mikrocitne i makrocitne anemije, B12/folat, studije željeza

Hepatologija 12.400 slučajeva (12,4%) NAFLD/NASH, virusni hepatitis, FIB-4, holestaza

Interna medicina (uklj. podskup “trap”) 9.000 slučajeva (9,0%) Mješovite prezentacije i 8.723 namjenski slučaja “hyperdiagnosis trap”

Kardiologija 7.500 slučajeva (7,5%) Rizik ASCVD, aterogena dislipidemija, hs-CRP

Reumatologija 6.000 slučajeva (6,0%) SLE, RA, vaskulitis, paneli autoantitijela (EULAR/ACR kriteriji)

Nefrologija 4.000 slučajeva (4,0%) Stadijumi CKD (KDIGO), trendovi eGFR-a, poremećaj elektrolita

Sintetička raspodjela oznaka zemalja — top 10 oznaka

100.000 sintetičkih slučajeva nosi 127 oznaka zemalja (ISO 3166-1 alpha-2) kako bi se ispitalo rukovanje lokalitetom. Dodjela oznaka: Evropa 57.7%, Amerike 25.4%, Azija-Pacifik 6.2%, imenovane oznake Bliski istok/Afrika 3.4% i dugi rep od 97 dodatnih oznaka približno 7.3% ukupno. Deset najčešćih oznaka prema broju slučajeva su Sjedinjene Američke Države (10.500), Brazil (9.500), Španija (9.000), Italija (8.000), Njemačka (7.800), Francuska (7.400), Portugal (5.800), Türkiye (3.400), Ujedinjeno Kraljevstvo (2.900) i Meksiko (2.500). Kompozitni rezultati po oznaci kretali su se od 0.9971 do 0.9985. Ovi brojevi oznaka svojstva su generiranih slučajeva korištenih za ispitivanje rukovanja lokalitetom — nisu stvarni korisnici i nisu stvarno geografsko pokrivanje.

Unaprijed registrisana rubrika, objašnjena

Predregistracija je jedina najvažnija metodološka odluka u ovom benchmarku. Svaka očekivana dijagnoza, svaki klinički sistem bodovanja i svaki odjeljak izvještaja bili su predani izvornom kodu prije nego što je motor pozvan. Naknadno “podešavanje” rubrike kako bi se uljepšao učinak motora stoga je nemoguće.

Tri komponente čine kompozitni rezultat. strukturna komponenta doprinosi 35 posto i mjeri da li je motor vratio sedam obaveznih odjeljaka izvještaja (zaglavlje, sažetak, ključni nalazi, diferencijala, sistemi bodovanja, preporuke, praćenje) i šesnaest obaveznih pododjeljaka unutar njih. Prisutnost odjeljaka nosi 40 posto, a prisutnost pododjeljaka 60 posto unutar strukturnog izračuna.

The klinička komponenta doprinosi 55 posto i kombinuje tri stvari: prisjećanje dijagnoze po ključnim riječima (70 posto kliničkog podrezultata), prisjećanje sistema bodovanja (20 posto — da li motor izračunava Mentzer, FIB-4, HOMA-IR, ASCVD rizik, KDIGO stadijum, EULAR/ACR kriterije gdje je relevantno) i provjeru valjanosti zbroja vjerovatnoća (10 posto — diferencijalne vjerovatnoće trebaju da se zbroje u intervalu [90, 110]). Za slučajeve “zamke” oduzima se eksplicitna penalizacija za hiperdijagnozu do 0.30, izračunata kao 0.10 po izmišljenoj zastavici patologije, ograničena na tri zastavice.

The komponenta latencije doprinosi 10 posto. Odgovor ispod 20 sekundi dobija punih 0.10, odgovor ispod 40 sekundi dobija 0.05, a sve sporije dobija nula. Cilj od 20 sekundi odražava primarni cilj na nivou usluge proizvodne usluge za “primary-path”; plafon od 40 sekundi odražava budžet za “fallback” u Fazi 2 za teške pozive motora.

Šta sprječava predregistracija

Prvostepeni benchmarkovi su poznati po tome da napuhuju vlastite brojke kroz naknadno podešavanje rubrike. Obrazac je gotovo uvijek isti: tim pokrene motor, vidi gdje podbacuje, a zatim tiho prilagodi rubriku tako da područja koja podbacuju manje “broje”. Predavanjem rubrike izvornom kodu prije prvog poziva motora i objavljivanjem okvira pod MIT licencom, ta prilagodba postaje vidljiva u sistemu kontrole verzija. Svatko može klonirati repozitorij, provjeriti datume autora rubrike i potvrditi da rezultati motora nisu korišteni za oblikovanje bodovanja.

Slučajevi zamke hiperdijagnoze — zašto je pretjerano pozivanje (over-calling) pravi način neuspjeha

Agresivno “prezivanje” patologije na normalnim pregledima je dokumentovan način neuspjeha kod medicinskih asistenata usmjerenih na potrošače. Njegovi nizvodni troškovi uključuju nepotrebnu obradu, anksioznost pacijenta i iatrogeni dijagnostički postupak. Dva slučaja “zamke” u ovom benchmarku dizajnirana su da učine taj način neuspjeha vidljivim i mjerljivim.

🟡 Zamka 1 — BT-014-GILBERT

Prezentacija. Muškarac od 24 godine s ukupnim bilirubinom 2.4 mg/dL. Direktna frakcija je normalna, transaminaze i alkalna fosfataza su unutar svojih referentnih raspona, retikulociti su bez osobitosti, a haptoglobin i LDH isključuju hemolizu.

Ispravna interpretacija. Gilbertova bolest — benigna polimorfija UGT1A1. Interpretacija ne smije pozivati hepatitis, cirozu, hemolitičku anemiju ili bilijarnu opstrukciju.

Rezultat v11. Kompozitni 1.000. Nijedna od šest praćenih zastavica prekomjerne dijagnoze nije se pojavila kao aktivna dijagnoza.

🟡 Zamka 2 — BT-015-ZDRAV

Prezentacija. Žena od 35 godina s rutinskim panelom skrininga od petnaest parametara. Svaki analit udobno se nalazi unutar svog referentnog raspona.

Ispravna interpretacija. Uspokojavanje i održavanje životnog stila. Tumačenje ne bi trebalo da izmišlja graničnu patologiju kako bi zvučalo klinički korisno.

Rezultat v11. Kompozit 1.000. Nijedna od sedam praćenih zastavica prekomjerne dijagnostike — dijabetes, anemija, hipotireoza, dislipidemija, hepatitis, bubrežna bolest, manjak — nije se pojavila kao aktivna dijagnoza.

Na oba „trapa“ provjereno je trinaest zastavica hiperdijagnostike. Nijedna nije aktivirana. Ovo je rezultat koji je najvažniji za svakog kliničara koji razmatra korištenje AI motora kao alata za trijažu ili prije konsultacije: sistem nije izmišljao bolest tamo gdje je nije bilo.

Mentzerov indeks: razdvajanje nedostatka željeza od osobina talasemije

Drugi nalaz visoke vrijednosti odnosi se na uparivanje slučaja BT-001 (anemija zbog nedostatka željeza) sa slučajem BT-007 (beta-talasemija minor). Oba se javljaju s mikrocitozom i dobro su poznata prepreka za naivne klasifikatore. Mentzerov indeks, izračunat kao MCV podijeljen s brojem RBC, prelazi 13 kod nedostatka željeza i pada ispod 13 kod osobina talasemije.

U BT-001, pacijentica je imala 34 godine, hemoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritin 6 ng/mL i povišen TIBC. Mentzerov indeks od približno 17,7 podržava apsolutni nedostatak željeza. U BT-007, pacijent je imao 28 godina, mikrocitozu (MCV 65,8 fL), ali visok broj RBC 6,2, normalan RDW, normalan feritin i HbA2 od 5,6 posto. Mentzerov indeks od približno 10,6 ukazuje na osobine talasemije, a povišen HbA2 potvrđuje beta-talasemiju minor.

Anemija zbog nedostatka željeza Mentzer > 13 Nizak feritin, nizak TSAT, visok TIBC, povišen RDW

Osobine beta-talasemije Mentzer < 13 Normalan feritin, normalan RDW, povišen HbA2 (>3,5%), visok broj RBC

Oba slučaja su postigla 1.000. Motor je eksplicitno koristio Mentzerov indeks u obje interpretacije i vratio tačnu dijagnozu u svakom slučaju. Ovo je jedini najviše klinički umirujući rezultat u cijelom benchmarku, jer pogrešno klasificiranje osobina talasemije kao anemije zbog nedostatka željeza dovodi do neadekvatne suplementacije željezom i propuštenih prilika za porodični skrining, a pogrešno klasificiranje anemije zbog nedostatka željeza kao talasemije odgađa jednostavnu zamjensku terapiju. Naše vodič za raspon feritina objašnjava širi diferencijalni kontekst.

Rezultati po slučaju iz V11 početnog referentnog izvođenja (23. april 2026)

Originalno V11 referentno izvođenje na kohorti od 15 slučajeva za proof-of-concept služi kao metodološka osnova za Second Update: svaki detalj po slučaju ispod pokazuje kako rubrika obrađuje stvarni odgovor motora. Dvanaest od petnaest slučajeva postiglo je maksimalni kompozitni rezultat od 1.000 na primarnoj putanji; tri slučaja su obrađena putem Phase 2 fallback-a, izgubivši bonus za latenciju od 0.05 uz očuvanje cjelokupnog kliničkog i strukturnog sadržaja. Jedan slučaj je nedostajao u jednoj obaveznoj podsekciji; jedan je vratio marginalno smanjenu sumu distribucije vjerovatnoća.

ID slučaja Specijalnost Kompozitni Latencija Put

BT-001-IDAHematologija1.00017,8 sprimarni

BT-006-B12Hematologija1.00018,4 sprimarni

BT-007-THALHematologija1.00017,0 sprimarni

BT-002-HASHEndokrinologija0.95037,0 spovratni mehanizam

BT-008-PCOSEndokrinologija0.98718,6 sprimarni

BT-003-T2DMMetabolički1.00019,1 sprimarni

BT-013-GOUTMetabolički1.00019,4 sprimarni

BT-004-NAFLDHepatologija1.00019,6 sprimarni

BT-009-VIRHEPHepatologija0.95023,4 spovratni mehanizam

BT-014-GILBERTZamka1.00018,9 sprimarni

BT-005-CKDNefrologija1.00017,4 sprimarni

BT-010-ASCVDKardiologija1.00019,7 sprimarni

BT-011-SLEReumatologija0.98118,2 sprimarni

BT-012-VITDEndokrinologija1.00019,3 sprimarni

BT-015-ZDRAVZamka1.00018,7 spovratni mehanizam

Slučaj PCOS-a (BT-008) izgubio je jednu obaveznu podsekciju u strukturi odgovora — petnaest od šesnaest umjesto šesnaest od šesnaest — što je smanjilo strukturni rezultat sa 1,000 na 0,963. SLE slučaj (BT-011) vratio je marginalno smanjeni zbir vjerojatnosno-raspodjelnih vrijednosti koji je spustio klinički rezultat na 0,965, uz očuvanje svake dijagnostičke ključne riječi i sistema bodovanja. Nijedan od ta dva slučaja ispod savršenog nije propustio tačnu dijagnozu.

V11 Second Update agregat — 100,000 slučajeva

Na razini populacije, pojedinačni redovi slučajeva nisu čitljivi ljudima, pa Drugo ažuriranje izvještava agregirane metrike umjesto tablice s 100.000 redova. Glavni agregat prikazan je ispod; razrade po specijalnosti i po oznaci zemlje objavljene su u tehničkom izvještaju i u Figshare depozitu. Stratificirani slučajni uzorak od n = 201 sirovih odgovora motora (determinističko sjeme 20260426) objavljuje se u GitHub results/ direktoriju za pregled.

Kompozitni rezultat V11 početni: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 kroz kohortu od 100,000 slučajeva

Strukturni rezultat (prosjek) V11 početni: 0.998 → Second Update: 1.000 Savršeno strukturno usklađivanje na nivou populacije

Klinički rezultat (prosjek) V11 početni: 0.998 → Second Update: 0.996 −0.002; nijedan slučaj nije promašio samu dijagnozu

Latencija — prosjek (raspon) Početno V11: 20,17 s (17,0–37,0 s) → Drugo ažuriranje: 13,26 s (9,0–16,94 s) Optimizacije proizvodnog motora između izvođenja

Putanja motora = primarna Početno V11: 12 / 15 → Drugo ažuriranje: 100,000 / 100,000 Nije bila potrebna rezerva za Fazu 2 ni u jednom trenutku tokom izvođenja

Zastavice za hiperdijagnozu trap-podskupa Početno V11: 0 / 13 → Drugo ažuriranje: 0 / 87,412 Nema lažno pozitivnih rezultata na nivou populacije (8.723 slučaja trap-a praćena)

Šta nam ne govori naslovni rezultat

Kompozitni rezultat od 99.80 posto prema ovoj posebnoj unaprijed registriranoj rubriki, na sintetičkoj kohorti od 100.000 slučajeva koja obuhvata 127 oznaka zemalja, predstavlja performanse gotovo do plafona — ali zaslužuje pažljivo uokvirivanje. Rezultat opisuje ponašanje motora u odnosu na rubriku kojoj smo se obavezali u izvornom kodu u V11; to nije univerzalna tvrdnja o ispravnosti motora na svakom panelu krvnih testova koji postoji u stvarnom svijetu.

Rezultat kaže da je motor ispravno obradio dijagnostičke obrasce odabrane za ovu evaluaciju na kohorti na nivou populacije, metodologijom koja je objavljena i može se reproducirati. Ne kaže da je motor ispravan na svakoj ploči krvnih testova koja postoji u stvarnom svijetu. Ne kaže da motor treba zamijeniti kliničku procjenu. I ne kaže da motor nadmašuje alternativne sisteme umjetne inteligencije — komparativne analize s drugim motorima namjerno su bile van opsega ovog izvještaja.

Ono što rezultat uspostavlja jeste osnovna linija. Kada su rubrika i harness javni, buduće verzije motora mogu se evaluirati prema istoj rubrici — primijenjenoj na početnih 15 slučajeva V11, kohortu od 100.000 slučajeva iz Drugog ažuriranja ili bilo kakvo kasnije proširenje — a razlika između objavljenog rezultata i bilo kojeg kasnijeg izvođenja mjerljiva je sama po sebi. To je vrijednost unaprijed registracije: ona pretvara tvrdnje o performansama u provjerljive tvrdnje.

Kako ponoviti ovaj benchmark za 10 minuta

Za reprodukciju potrebna je samo kombinacija API vjerodajnica Kantesti i Python 3.10 ili novije okruženje s requests i reportlab instaliranim bibliotekama. Cjelokupno okruženje je jedan samostalni Python modul objavljen pod MIT licencom.

💻 GitHub Okruženje pod MIT licencom · izvorni odgovori · referentno izvođenje 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanonski akademski zapis 🎓 ResearchGate Objavljivanje 404175463 · V11 Second Update · akademski sloj otkrivanja 📄 Academia.edu Rad 165956808 · V11 Second Update · akademski sloj otkrivanja

Četiri koraka za novo izvođenje

Jedan. Klonirajte repozitorij: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dva. Instalirajte zavisnosti pomoću pip install -r requirements.txt (Drugo ažuriranje dodaje mysql-connector-python ≥ 8.0 za SQL case loader). Tri. Postavite KANTESTI_USERNAME i KANTESTI_PASSWORD kao varijable okruženja za API motora. Za SQL case loader iz Drugog ažuriranja, također postavite KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, i KANTESTI_DB_PASSWORD — loader se povezuje preko uloge samo za čitanje (bench_reader) koja nema privilegije za identifikaciju tabela. Četiri. Pokrenite python benchmark_bloodtest.py --limit 100000 za kompletno izvođenje Second-Update, ili python benchmark_bloodtest.py --limit 1000 za brzu iteraciju. Rezultati se pohranjuju u ./benchmark_results/: CSV scorecard s kolonama po zemlji-oznaci i po specijalnosti, JSON agregat, stratifikovano-slučajni uzorak sirovih odgovora i Markdown izvještaj.

Referentna izvođenja od 23. aprila 2026. (V11 početno, 15 slučajeva) i 26. aprila 2026. (V11 Second Update, 100,000 slučajeva) čuvaju se u results/ direktoriju repozitorija. Svježe izvođenje će proizvesti novi scorecard sa vremenskom oznakom, ostavljajući referentna izvođenja netaknutim. Ako vaše izvođenje daje značajno drugačiji rezultat, molimo otvorite GitHub issue sa vremenskom oznakom izvođenja i verzijom engine-a vraćenom u metapodacima odgovora.

Ograničenja i budući rad

Čak i pri 100.000 slučajeva kroz 127 oznaka za zemlje, četiri ograničenja zaslužuju eksplicitno priznavanje: nedovoljno uzorkovanje oznaka dugog repa, evaluacija u jednom pokušaju, opseg jedne mašine i porijeklo podataka iz jednog izvora. Svako od ovih se rješava u aktivnom naknadnom radu.

Pokrivenost oznaka dugog repa. Drugo ažuriranje obuhvata 127 oznaka za zemlje, ali distribucija je neuravnotežena — top 10 oznaka čini ≈66.4% slučajeva, a dugi rep od 97 dodatnih oznaka zajedno doprinosi ≈7.3% (otprilike 7.300 slučajeva ukupno, ~75 slučajeva po oznaci u prosjeku). Stoga su kompoziti po oznaci u ovom dugom repu bučniji nego što to sugerišu brojke s naslovnice. Budući runs će ponovo uravnotežiti dodjelu oznaka kako bi se učvrstile procjene po oznaci.

Evaluacija u jednom pokušaju. Svaki slučaj u kohorti evaluiran je jednom. Veliki jezički modeli pokazuju ne-trivijalnu varijansu izlaza čak i pri niskoj temperaturi uzorkovanja, pa je protokol s više izvođenja sa pet evaluacija po slučaju i prijavljenom varijansom prirodan sljedeći korak — posebno na podskupu trap-case, gdje je konzistentnost pod “jitterom” uzorkovanja dio sigurnosne tvrdnje.

Obuhvat jednog motora. Ovaj izvještaj opisuje jedan engine. Poredbene analize s alternativnim AI sistemima nisu u okviru ovdje; možemo ih razmotriti kao zasebnu nezavisnu studiju s odgovarajućom metodologijom, koristeći isti MIT-licencirani harness.

Sintetički podaci. 100.000 slučajeva je sintetički generisano, a ne sintetički slučajevi, i rezultati se ne prenose na performanse u stvarnoj kliničkoj praksi. Evaluacija na stvarnim, pristankom odobrenim, eksterno pribavljenim podacima zahtijevala bi odgovarajući etički nadzor i van je okvira ovog sintetičkog benchmarka.

Osim ova četiri, najuticajnije planirano proširenje je višejzična parnost po jurisdikciji. Kantesti AI Engine opslužuje korisnike na 75+ jezika, a izvođenje jezički stratifikovanih podkohorti Second-Update (turski, njemački, španski, francuski, italijanski, portugalski, arapski, mandarinski) kvantifikovaće kvalitet izlaza na jezicima koje engine podržava. Svaka jezički stratifikovana analiza biće objavljena sa vlastitim DOI i harness granom.

Isprobajte isti engine koji je postigao kompozitni rezultat od 99.80% na 100,000 slučajeva

Prenesite vlastiti panel krvnih nalaza na isti produkcijski endpoint koji je evaluiran u ovom benchmarku. Preko 2 miliona korisnika širom svijeta koristi Kantesti AI Engine za tumačenje preko 15.000 biomarkera na 75+ jezika.

🔬 Isprobajte besplatnu demo verziju

Chrome ekstenzija Trgovina aplikacija Google Play

📚 Kako citirati ovaj benchmark

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Tehnički izvještaj V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Eksterne metodološke reference

Mentzer, W. C. (1973). Diferencijacija nedostatka željeza od osobina talasemije. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Klasifikacijski kriteriji Evropske lige protiv reumatizma / Američkog koledža za reumatologiju za sistemski eritematozni lupus iz 2019. godine. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Test medicinske halucinacije za velike jezičke modele. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Kompozitni rezultat

100,000Ocijenjeni slučajevi

127Obuhvaćene oznake za zemlje

0 / 87,412Lažno pozitivni rezultati u zamci

Često postavljana pitanja

Koliko je tačan Kantesti AI motor na sintetičkim testnim slučajevima?

Na unaprijed registrisanoj rubrici, pokrenuto na 100.000 sintetički generisanih test slučajeva u osam oblasti sadržaja i 127 oznaka za zemlje (V11 Second Update), motor je postigao kompozitni rezultat od 99,80 posto, bez ikakvih zastavica za hiperdijagnozu u 87.412 nadziranih prilika za trap-slučajeve i s prosječnim kašnjenjem odgovora od 13,26 sekundi. Ovaj kompozit mjeri usklađenost izlaza s sintetičkim ulazima, a ne dijagnostičku tačnost. Originalno V11 izdanje primijenilo je istu rubriku na 15 ručno konstruisanih slučajeva (kompozit 99,12%); Drugo ažuriranje zadržava rubriku identičnu po bajtovima i proširuje je na veći sintetički kohort. Kompletna scorecard objavljena je na Figshare pod DOI 10.6084/m9.figshare.32095435 i na GitHubu pod MIT licencom.

Da li je Kantesti AI motor klinički validiran?

Ne. Motor je evaluiran pomoću automatizovanog tehničkog benchmarka (ne kliničke validacije), u odnosu na rubriku koja je zamrznuta u izvornom kodu prije početnog V11 pokretanja i zadržana identična po bajtovima za V11 Second Update, evaluirana na 100.000 sintetičkih slučajeva krvnih testova kroz hematologiju, endokrinologiju, metaboličku medicinu, hepatologiju, nefrologiju, kardiologiju, reumatologiju i internu medicinu, izvedenih iz 127 oznaka za zemlje. Klinički nadzor pružio je dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), specijalista kliničke hematologije s certifikatom odbora i glavni medicinski službenik u Kantesti AI.

Šta je slučaj “hiperdijagnostičke zamke”?

Slučaj “hyperdiagnosis trap” (zamka za prekomjernu dijagnozu) je klinički scenario posebno dizajniran da otkrije ponašanje prekomjernog dijagnosticiranja u AI motorima. Početni benchmark V11 koristio je dva takva slučaja kao metodološki dokaz koncepta: izolovanu indirektnu hiperbilirubinemiju koja odgovara Gilbertovom sindromu (gdje je ispravna interpretacija bezazlena polimorfija UGT1A1, a ne hepatitis ili hemoliza) i potpuno normalan panel skrininga odraslih (gdje je ispravan ishod umiravanje, a ne “izmišljena” granična patologija). V11 Drugo ažuriranje proširilo je ovu metodologiju zamke na namjenski podskup od 8.723 slučaja, dajući 87.412 prilika za praćenje zastavica prekomjerne dijagnoze — a stopa lažno pozitivnih rezultata motora ostala je nula.

Da li je evaluacija Kantesti AI motora ponovljiva?

Kompletan evaluacioni “harness” objavljen je pod MIT licencom kao jedan samostalni Python modul. Početno pokretanje V11 zahtijeva samo par Kantesti API akreditacija i Python 3.10 ili noviji. V11 Drugo ažuriranje dodaje parametarski, samo-za-čitanje SQL “case loader” koji zahtijeva Kantesti akreditacije kliničkog repozitorija (uloga bench_reader bez privilegija za identifikaciju tabela). Kod, SQL za “case loader”, rubrika (identična po bajtovima između izdanja) i stratifikovani slučajni uzorak sirovih odgovora motora iz početnog pokretanja V11 i referentnog pokretanja Drugog ažuriranja dostupni su na github.com/emirhanai/kantesti-blood-test-benchmark i preslikani na Figshare, ResearchGate i Academia.edu.

Kako Kantesti AI motor razlikuje manjak željeza od osobine beta-talasemije?

Motor primjenjuje Mentzer indeks, izračunat kao srednji volumen eritrocita podijeljen brojem crvenih krvnih zrnaca. Mentzer indeks iznad 13 podržava anemiju zbog nedostatka željeza, dok vrijednost ispod 13 podržava osobinu beta-talasemije. U početnom benchmarku V11 oba prikaza klasifikovana su ispravno uz eksplicitno izračunavanje Mentzer indeksa, uz podršku konteksta feritina, RDW i HbA2. Tokom V11 Drugog ažuriranja, u kohorti od 100.000 slučajeva, isto diferencijalno ponašanje očuvano je na nivou populacije.

Gdje mogu pronaći sirove podatke za poređenje (benchmark) i izvorni kod?

Tehnički izvještaj deponovan je na Figshare pod DOI 10.6084/m9.figshare.32095435 (obuhvatajući i početno izdanje V11 i V11 Drugo ažuriranje), preslikan na ResearchGate publikaciju 404175463 i Academia.edu rad 165956808 — oba ažurirana naslovom V11 Drugog ažuriranja i rezultatima za 100.000 slučajeva — te MIT-licencirani Python “harness” sa svim rezultatima referentnog pokretanja na github.com/emirhanai/kantesti-blood-test-benchmark. Mreža preslika na četiri platforme osigurava dugoročnu dostupnost i fleksibilnost citiranja.

Zašto je pre-registrovanje važno za AI medicinske benchmarke?

Pre-registrovanje sprječava naknadno “tuningovanje” rubrike, što je najčešći način na koji benchmarki koje vodi kompanija napuhavaju vlastite brojke. Uvođenjem rubrike u izvorni kod prije bilo kakvog poziva motora i javnim objavljivanjem okvira, datumi autora rubrike postaju provjerljivi u sistemu verzionisanja, a rezultati motora ne mogu oblikovati kriterije bodovanja.

Da li ovaj benchmark uključuje poređenja s drugim AI motorima?

Ne. Izvještaj V11 — i početno izdanje i Drugo ažuriranje — namjerno opisuje jedan motor u odnosu na fiksnu rubriku, a ne da ga pozicionira naspram alternativnih komercijalnih sistema. “Harness” je otvorenog koda pod MIT licencom (sada uključuje i SQL “case loader”), tako da nezavisni istraživači mogu procijeniti bilo koji motor koji odaberu u odnosu na istu rubriku i “case loader” i objaviti svoje rezultate.

Jesu li slučajevi pacijenata stvarni ili sintetički?

Svi slučajevi su sintetički generisani — 15 ručno konstruisanih slučajeva u početnom izdanju V11 i 100.000 u Drugom ažuriranju. Nisu sintetički slučajevi: ne uključuju se sintetički podaci, proces pristanka niti de-identifikacija, jer u kohorti ne postoje lični podaci. Nijedan lični podatak ne pojavljuje se u objavljenom harnessu, tehničkom izvještaju ili objavljenim datasetima.

⚕️ Medicinsko odricanje odgovornosti & sukob interesa

Ovaj izvještaj o mjerilu učinka namijenjen je istraživačkim i metodološkim svrhama transparentnosti. Ne predstavlja medicinski savjet, nije dijagnoza i nije zamjena za profesionalnu medicinsku skrb; nijedan rezultat ovdje ne smije se koristiti za odgađanje ili izbjegavanje odlaska liječniku. Uvijek se posavjetujte s kvalificiranim pružateljem zdravstvenih usluga za odluke o dijagnozi i liječenju. Ovo je samostalno pokrenuto interno mjerilo učinka vlastitog motora kompanije i nije nezavisno validirano niti recenzirano od strane stručnjaka (peer-reviewed). Kompozitni rezultat mjeri usklađenost s fiksnom rubrikom (struktura izvještaja, opoziv ključnih riječi i sistema bodovanja te latencija); nije mjera stvarne dijagnostičke tačnosti u realnom svijetu niti kliničke sigurnosti. Oba autora su zaposlena u Kantesti Ltd i posjeduju udjele (equity) u toj kompaniji, a motor koji se procjenjuje komercijalni je proizvod iste organizacije. Ovaj sukob interesa ublažen je predbilježenjem rubrike u izvornom kodu, objavljivanjem harness-a pod MIT licencom i objavljivanjem stratificiranog slučajnog uzorka sirovih odgovora motora.

E-E-A-T signal(i) povjerenja

⭐

Iskustvo

Više od 15 godina kliničke prakse iz hematologije i laboratorijske medicine, uz nadzor odabira panelâ slučajeva.

📋

Stručnost

Dizajn rubrike pre-registrovan s eksplicitnim penalima za hyperdiagnosis i priznatim kliničkim sistemima bodovanja (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoritativnost

Glavni autor dr. Thomas Klein, dr. med. (ORCID 0009-0009-1490-1321). Implementaciju je uradio Julian Emirhan Bulut, izvršni direktor Kantesti Ltd.

🛡️

Pouzdanost

Reproducibilni okvir pod MIT licencom, objavljeni originalni odgovori motora, otvoreno objavljivanje sukoba interesa, istraživačka mreža preslika na četiri platforme.

🏢 Kantesti DOO Registrovano u Engleskoj i Walesu · Broj kompanije. 17090423 London, Ujedinjeno Kraljevstvo · kantesti.net