Zakaj ta referenčna študija obstaja in kaj preverja
AI-podprta razlaga krvne slike se vse bolj uporablja v potrošniških in kliničnih delovnih tokovih, vendar ostajajo ponovljivi ocenjevalni okviri, prilagojeni laboratorijski medicini, redki. V tem kontekstu so ključna vprašanja tista, ki niso zajeta v splošnih medicinskih benchmarkih za vprašanja in odgovore: ali lahko motor loči anemijo zaradi pomanjkanja železa od talasemijske značilnosti, ko je povprečni volumen eritrocitov enak, ali prekomerno diagnosticira Gilbertovo bolezen kot hepatitis in ali ustvari patologijo v povsem normalnem presejalnem naboru?
Posamezna plošča krvnih preiskav običajno vsebuje dovolj signalov za več konkurenčnih interpretacij, naloga zdravnika, ki interpretira izvide, pa je, da te interpretacije med seboj pretehta, namesto da bi poiskal “pravilni” odgovor iz učbenika. Motor, ki se dobro obnese na primerih iz učbenikov, lahko še vedno odpove pri primerih, ki najbolj štejejo: pri pastih diferencialne diagnoze, pri benignih različicah, ki same po sebi delujejo zaskrbljujoče, in pri povsem normalnih ploščah, ki samozavestne pomočnike zapeljejo v “izdelavo” patologije.
Ta ocenjevalna shema je bila zgrajena prav okoli teh načinov odpovedi. Vsak od petnajstih primerov je bil izbran zaradi določene diagnostične lastnosti: mikrocitoza zaradi pomanjkanja železa, ki jo je treba ločiti od lastnosti beta-talasemije z enakim povprečnim volumnom eritrocitov, predstavitev Gilbertovega sindroma, kjer je edina nepravilnost izolirana indirektna hiperbilirubinemija, ter presejalna plošča z 15 parametri, v kateri je vsak analit znotraj svojega referenčnega območja. Rubrika nagrajuje motorje, ki vsak primer bere v njegovem kontekstu, in kaznuje motorje, ki posežejo po samozavestni diagnozi, kadar takšna diagnoza ni upravičena.
Kot Thomas Klein, dr. med., sem izbral nabor primerov, ker so to vzorci, ki jih laboratorijsko-medicinski pomočniki najpogosteje razumejo napačno. Dragi način odpovedi ni "spregledati redke bolezni" — temveč izmišljati rutinsko patologijo pri bolnikih, ki je nimajo. Naš Medicinska validacija hub opisuje širši okvir; ta stran opisuje njegov uporabljen rezultat na motorju V11.
Najnovejša referenčna izvedba — V11 (april 2026)
Referenčni preizkus Kantesti AI Engine V11 iz aprila 2026 je ustvaril sestavljeno oceno 99.12% na vnaprej registrirani rubriki s petnajstimi primeri. Oba primera iz pasti hiperdijagnoze sta dosegla maksimum. Mentzerjev indeks je bil pravilno uporabljen pri diferencialni diagnozi pomanjkanja železa proti talasemiji.
Sestavljena formula združuje tri komponente: strukturna skladnost s sedmimi obveznimi razdelki poročila in šestnajstimi obveznimi podrazdelki, klinična točnost merjena kot priklic ključnih besed plus priklic iz ocenjevalnega sistema plus preverjanje veljavnosti z verjetnostno porazdelitvijo, in odzivni čas glede na primarni cilj ravni storitve 20 sekund. Natančna razčlenitev je prikazana v spodnji formuli rubrike.
Preostalih 0,88 odstotne točke prostora za manevriranje se skoraj v celoti razgradi v izgubo zaradi zakasnitve — tri priklici v sili (fallback) za 2. fazo, vsak s sestavljeno vrednostjo -0,05, so prispevali približno 0,60 od primanjkljaja 0,88 točke — ne pa v klinično vsebino. Motor ni zgrešil pravilne diagnoze v nobenem od petnajstih primerov; kjer je bil nepopoln, je to storil tako, da je v majhni manjšini priklicev trajal nekoliko dlje od primarnega cilja 20 sekund.
Petnajst primerov iz sedmih medicinskih specialnosti
Nabor primerov zajema sedem specialnosti — hematologijo, endokrinologijo, presnovno medicino, hepatologijo, nefrologijo, kardiologijo, revmatologijo — ter še dva namenska primera z pastjo za hiperdijagnozo. Vsak primer je anonimiziran resničen zapis bolnika, pridobljen iz kliničnega repozitorija Kantesti na podlagi pisnega informiranega soglasja.
De-identifikacija je bila izvedena po pristopu Safe Harbor: vsi neposredni identifikatorji so bili odstranjeni ali zamenjani, vsak zapis pa je bil dodeljen notranji kodni oznaki primera v formatu BT-NNN-LABEL. Obdelava je potekala v skladu z členom 9(2)(j) GDPR za znanstvene raziskave z ustreznimi zaščitnimi ukrepi ter z ustreznimi določbami UK GDPR. Nobeni osebni podatki za identifikacijo se nikjer ne pojavijo v objavljenem ogrodju, tehničnem poročilu ali sproščenih naborih podatkov.
Zakaj je ta razporeditev prav takšna
Hematologija dobi tri primere, ker so mikrocitne diferencialne diagnoze in makrocitne diferencialne diagnoze v praksi realnih laboratorijev največje pasti z največjo količino primerov. Endokrinologija dobi tri, ker predstavitve, povezane z Hashimotom, PCOS in pomanjkanjem vitamina D, izvajajo različne diagnostične oblike (avtoprotitelesa, ki poganjajo diagnozo; razmerja hormonov, ki poganjajo diagnozo; en sam označevalec, ki poganja diagnozo). Enopravne specialnosti so še vedno smiselne, ker ima vsaka od CKD, tveganja za ASCVD in SLE svoj sistem točkovanja, ki ga mora motor priklicati (KDIGO-stadiranje, 10-letno tveganje ASCVD, merila 2019 EULAR/ACR za SLE oziroma).
Vnaprej registrirana rubrika, pojasnjena
Predregistracija je v tem merilu najpomembnejša metodološka izbira. Vsaka pričakovana diagnoza, vsak klinični sistem točkovanja in vsak razdelek poročila so bili predani izvorni kodi preden je bil motor priklican. Naknadno prilagajanje rubrike z namenom laskanja motorju zato ni mogoče.
Tri komponente sestavljajo sestavljeno oceno. strukturna komponenta prispeva 35 odstotkov in meri, ali je motor vrnil sedem obveznih razdelkov poročila (glava, povzetek, ključne ugotovitve, diferencialna diagnoza, sistemi točkovanja, priporočila, nadaljnje spremljanje) ter šestnajst obveznih podrazdelkov znotraj njih. Prisotnost razdelka ima utež 40 odstotkov, prisotnost podrazdelka pa 60 odstotkov v strukturnem izračunu.
The klinična komponenta prispeva 55 odstotkov in združi tri stvari: priklic diagnoznih ključnih besed (70 odstotkov kliničnega podrezultata), priklic sistema točkovanja (20 odstotkov — ali motor izračuna Mentzer, FIB-4, HOMA-IR, tveganje ASCVD, KDIGO-stadiranje, merila EULAR/ACR, kjer je relevantno) in preverjanje veljavnosti vsote verjetnosti (10 odstotkov — se morajo verjetnosti v diferencialni diagnozi sešteti znotraj intervala [90, 110]). Pri primerih v pasti se odšteje eksplicitna kazen za hiperdijagnozo do 0,30, izračunana kot 0,10 na vsak izmišljeni zastavici patologije, omejena na največ tri zastavice.
The komponenta zakasnitve prispeva 10 odstotkov. Odziv pod 20 sekundami prejme polnih 0,10, odziv pod 40 sekundami prejme 0,05, vse, kar je počasneje, prejme nič. Cilj 20 sekund odraža proizvodni primarni cilj storitvene ravni; zgornja meja 40 sekund odraža rezervni proračun za fazo 2 pri zahtevnih priklicih motorja.
Česa predregistracija prepreči
Prvičelna merila so znana po napihovanju svojih lastnih številk z naknadnim prilagajanjem rubrike. Vzorec je skoraj vedno enak: ekipa zažene motor, vidi, kje podperformira, nato pa tiho prilagodi rubriko tako, da območja podperformiranja štejejo manj. Če rubriko pred prvo priklicem motorja zavežeš v izvorno kodo in objaviš preizkuševalni okvir pod licenco MIT, postane ta prilagoditev vidna v sistemu nadzora različic. Vsakdo lahko klonira repozitorij, preveri datume avtorstva rubrike in potrdi, da rezultati motorja niso bili uporabljeni za oblikovanje točkovanja.
Primeri pasti hiperdijagnoze — zakaj je pretirano klicanje pravi način odpovedi
Agresivno pretirano pripisovanje patologije na normalnih pregledih je dokumentiran način odpovedi pri medicinskih pomočnikih, namenjenih potrošnikom. Njeni posledični stroški vključujejo nepotrebne preiskave, tesnobo bolnikov in iatrogeno obravnavo. Dva primera v pasti v tem merilu sta zasnovana tako, da ta način odpovedi postane viden in ga je mogoče ovrednotiti.
🟡 Pasti 1 — BT-014-GILBERT
Predstavitev. Moški, star 24 let, s skupnim bilirubinom 2,4 mg/dL. Direktni delež je normalen, transaminaze in alkalna fosfataza so znotraj svojih referenčnih razponov, retikulociti so nepomembni, haptoglobin in LDH izključita hemolizo.
Pravilna razlaga. Gilbertova bolezen — benigna polimorfna varianta UGT1A1. Razlaga ne sme priklicati hepatitisa, ciroze, hemolitične anemije ali bilijarne obstrukcije.
Rezultat v11. Sestavljena ocena 1,000. Nobena od šestih spremljanih zastavic prekomerne diagnoze se ni pojavila kot aktivna diagnoza.
🟡 Pasti 2 — BT-015-ZDRAV
Predstavitev. Ženska, stara 35 let, z rutinskim presejalnim panelom z petnajstimi parametri. Vsak analit udobno leži znotraj svojega referenčnega razpona.
Pravilna razlaga. Zagotovilo in vzdrževanje življenjskega sloga. Razlaga ne sme izmišljati mejne patologije, da bi zvenela klinično uporabna.
Rezultat v11. Sestavljena ocena 1.000. Nobena od sedmih spremljanih zastavic za prekomerno postavljanje diagnoz — diabetes, anemija, hipotiroidizem, dislipidemija, hepatitis, ledvična bolezen, pomanjkanje — se ni pojavila kot aktivna diagnoza.
V obeh pastih so preverili trinajst spremljanih zastavic za prekomerno diagnosticiranje. Nobena ni bila sprožena. To je rezultat, ki je za vsakega klinika najpomembnejši, če razmišlja o uporabi AI-razvijalnika kot orodja za triažo ali predhodno posvetovanje: sistem ni izumil bolezni, kjer je ni bilo.
Mentzerjev indeks: ločevanje pomanjkanja železa od značilnosti talasemije
Drugo visokovredno odkritje zadeva ujemanje primera BT-001 (anemija zaradi pomanjkanja železa) s primerom BT-007 (beta-talasemija minor). Oba se kažeta z mikrocitozo in sta dobro znana spotika za naivne klasifikatorje. Mentzerjev indeks, izračunan kot MCV deljeno s številom RBC, je pri pomanjkanju železa nad 13 in pri talasemijskem nosilstvu pod 13.
Pri BT-001 je bila pacientka 34-letna ženska z hemoglobinom 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritinom 6 ng/mL in povišanim TIBC. Mentzerjev indeks približno 17,7 podpira absolutno pomanjkanje železa. Pri BT-007 je bil pacient 28-letni moški z mikrocitozo (MCV 65,8 fL), vendar z visokim številom RBC 6,2, normalnim RDW, normalnim feritinom in HbA2 5,6 odstotka. Mentzerjev indeks približno 10,6 kaže na talasemijsko nosilstvo, povišan HbA2 pa potrjuje beta-talasemijo minor.
Oba primera sta dosegla 1.000. Mehanizem je v obeh razlagah izrecno uporabil Mentzerjev indeks in v vsakem primeru vrnil pravilno diagnozo. To je najbolj klinično pomirjujoč rezultat v celotnem merilu, ker napačna razvrstitev talasemijskega nosilstva kot pomanjkanja železa vodi do neustreznega dodatka železa in spregleda priložnosti za presejanje v družini, napačna razvrstitev pomanjkanja železa kot talasemije pa odloži preprosto nadomestitveno terapijo. Naše vodnik po razponih feritina pojasnjuje širši diferencialni kontekst.
Rezultati po posameznih primerih iz izvedbe aprila 2026
Dvanajst od petnajstih primerov je doseglo zgornjo mejo sestavljene ocene 1.000 pri primarni poti. Trije primeri so bili obravnavani prek povratne poti Phase 2, pri čemer so izgubili bonus za zakasnitev 0,05, hkrati pa ohranili vso klinično in strukturno vsebino. En primeru je manjkala ena obvezna podsekcija; eden je vrnil le nekoliko zmanjšano vsoto verjetnostne porazdelitve.
Primer PCOS (BT-008) je v strukturi odgovora izgubil en obvezen pododdelek — petnajst od šestnajstih namesto šestnajst od šestnajstih — kar je znižalo strukturni rezultat z 1,000 na 0,963. Primer SLE (BT-011) je vrnil le nekoliko zmanjšano vsoto verjetnostnih porazdelitev, zaradi česar se je klinični rezultat znižal na 0,965, pri čemer je ohranil vse diagnostične ključne besede in sistem točkovanja. Noben od obeh primerov, ki nista bila popolna, ni zgrešil pravilne diagnoze.
Kaj nam glavna ocena ne pove
Sestavljeni rezultat 99,12 odstotka po tej posebni vnaprej registrirani rubriki predstavlja skoraj najvišjo (mejno) uspešnost, vendar si zasluži skrbno uokvirjanje. Rezultat opisuje obnašanje stroja glede na petnajst skrbno izbranih anonimiziranih primerov, ocenjenih enkrat vsak, po eni sami rubriki. Izrecno pojasnimo, kaj številka potrjuje in česa ne.
Rezultat pove, da je motor V11 pravilno obravnaval diagnostične vzorce, izbrane za to ocenjevanje, po metodologiji, ki je objavljena in jo je mogoče reproducirati. Ne pomeni, da je motor pravilen pri vsakem obstoječem panelu krvnih preiskav v praksi. Ne pomeni, da bi moral motor nadomestiti klinično presojo. In ne pomeni, da motor presega alternativne sisteme AI — primerjalne analize z drugimi motorji so bile namerno izven obsega tega poročila.
Kar rezultat potrjuje, je izhodišče. Ker sta rubrika in ogrodje (harness) javna, je mogoče prihodnje različice motorja oceniti na istih petnajstih primerih, razlika med objavljenim rezultatom in katerim koli poznejšim zagonom pa je sama po sebi merljiva. To je vrednost vnaprejšnje registracije: pretvori trditve o uspešnosti v preverljive trditve.
Kako v 10 minutah ponoviti ta preizkus
Reprodukcija zahteva le par poverilnic Kantesti API in okolje Python 3.10 ali novejše z requests in reportlab nameščenimi knjižnicami. Celotno ogrodje je en samostojen Pythonov modul, izdan pod licenco MIT.
Štirje koraki za nov zagon
Eni. Klonirajte repozitorij: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dva. Namestite odvisnosti z pip install -r requirements.txt. Tri. Nastavite KANTESTI_USERNAME in KANTESTI_PASSWORD kot okoljski spremenljivki — poverilnice se preberejo med izvajanjem in v skriptu ni ničesar trdo kodiranega. Štiri. Zaženite python benchmark_bloodtest.py in preglejte štiri artefakte, ki se izpišejo v delovno mapo: CSV scorecard, JSON scorecard, celoten JSON izpis vključno z odzivi surovega motorja ter berljivo poročilo v Markdownu.
Referenčni zagon z dne 23. aprila 2026 je ohranjen v results/ imeniku repozitorija. Nov zagon bo ustvaril nov časovno označen scorecard, pri čemer bo referenčni zagon ostal nespremenjen. Če vaš zagon ustvari opazno drugačen rezultat, prosimo odprite GitHub issue z žigom časa zagona in različico motorja, vrnjeno v metapodatkih odziva.
Omejitve in prihodnje delo
Štiri omejitve si zaslužijo izrecno priznanje: velikost vzorca, enkratna ocena, enoten obseg motorja in enoten izvor podatkov. Vsaka od njih se obravnava v aktivnem nadaljnjem delu.
Velikost vzorca. Petnajst primerov v osmih specializiranih skupinah je dovolj za dokaz koncepta, vendar ne za analizo podskupin znotraj specialnosti. Razširitev na petdeset primerov je načrtovana in bo vključevala koagulacijske panele, presejanje za hematološke maligne bolezni, nosečniške panele in pediatrične predstavitve.
Enkratna ocena. Vsak primer je bil ocenjen enkrat. Veliki jezikovni modeli izkazujejo ne-trivialno variabilnost izhoda tudi pri nizki temperaturi vzorčenja, zato je naslednji naravni korak protokol z več zagoni: pet evalvacij na primer in poročanje o varianci.
Enoten obseg motorja. To poročilo opisuje en motor. Primerjalne analize z alternativnimi sistemi AI niso predmet tega; morda jih bomo izvedli kot ločeno neodvisno študijo z ustrezno metodologijo.
Enoten izvor podatkov. Petnajst primerov so anonimizirani resnični zapisi pacientov, pridobljeni iz enega kliničnega repozitorija. Predstavljajo skrbno izbran vzorec in niso naključen izbor, ki bi bil reprezentativen za populacijo. Razširitev ocenjevanja na več centrov je na načrtu.
Najbolj vplivna načrtovana razširitev je večjezična enakovrednost. Motor AI Kantesti je na voljo uporabnikom v 75+ jezikih, izvajanje istega ogrodja s petnajstimi primeri v turščini, nemščini, španščini, francoščini in arabščini pa bo kvantificiralo kakovost izhoda v jezikih, ki jih motor podpira. Objavili bomo vsak jezikovni zagon posebej, z lastnim DOI in vejo ogrodja.