Kantesti AI analiza krvi — klinična validacija

Avtomatizirano merilo uspešnosti Predhodno registrirana referenčna študija V11 Druga posodobitev — april 2026 Licencirano po MIT Ponovljivo · Odprti podatki 100K sintetični kohort · 127 oznak držav

99.80% kompozitna ocena po vnaprej registriranem ocenjevalnem merilu — V11 drugi posodobitvi, kohort 100.000 primerov v 127 oznakah držav

Vnaprej registrirano, merilom zasnovano avtomatizirano tehnično merjenje uspešnosti (benchmark) motorja Kantesti na 100.000 sintetično ustvarjenih primerih krvnih testov, označenih z 127 oznakami držav. Meri skladnost izhodov, ne diagnostično točnost. Ocenjevalno merilo je bilo zamrznjeno v izvorni kodi pred začetno izdajo V11 in je ostalo byte-identično za to Drugo posodobitev; merilni okvir (evaluation harness) je licenciran po MIT; objavljen je stratificiran naključni vzorec surovih odzivov motorja za pregled. Vsi primeri so sintetični; ne uporabljajo se osebni podatki.

📖 ~14 minut 📅 Objavljeno 23. aprila 2026 · Posodobljeno 26. aprila 2026 (V11 druga posodobitev) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Objavljeno: 23. april 2026 🔄 V11 druga posodobitev: 26. april 2026 🩺 Medicinsko pregledano: 26. april 2026 ✅ Vnaprej registrirano ocenjevalno merilo (byte-identično) 🔓 Odprta koda in podatki

To avtomatizirano merilo uspešnosti sta zasnovala in izvedla Julian Emirhan Bulut, višji inženir umetne inteligence in izvršni direktor podjetja Kantesti Ltd. Točkovanje je v celoti avtomatizirano v izvorni kodi; merila za ocenjevanje in panel primerov so bila razvita s kliničnim prispevkom od Dr. Thomas Klein, dr. med., glavnega direktorja za medicino pri Kantesti AI, in pregledana s strani Medicinski svetovalni odbor za umetno inteligenco Kantesti. Gre za samostojno izvedeno interno merjenje uspešnosti, ne pa za neodvisno ali v strokovni recenziji potrjeno avtomatizirano tehnično merjenje uspešnosti.

Glavni avtor & klinični nadzor

Thomas Klein, dr. med.

Glavni zdravnik, Kantesti AI

Dr. Thomas Klein je specialist klinične hematologije in internist, certificiran na področju medicine, z več kot 15 leti izkušenj na področju laboratorijske medicine. Kot glavni direktor medicinskih zadev (Chief Medical Officer) pri Kantesti AI je izbral nabor primerov za to merjenje uspešnosti, pregledal klinično vsebino in pričakovane odgovore sintetičnih primerov ter odobril vnaprej registrirano ocenjevalno merilo pred prvo priklicem motorja.

ORCID 0009-0009-1490-1321 Raziskovalna vrata Google Učenjak

Soavtor & implementacija

Julian Emirhan Bulut

Višji inženir umetne inteligence & izvršni direktor (CEO), Kantesti Ltd

Julian Emirhan Bulut je ustanovitelj in izvršni direktor podjetja Kantesti Ltd. Zasnoval je in izvedel ocenjevalni sistem — vključno z nalagalnikom primerov SQL, dodanim za V11 drugo posodobitev — izvedel integracijo API, izvedel tako začetni referenčni zagon V11 kot zagon V11 druge posodobitve na 100.000 primerov ter pripravil statistično agregacijo. Ustanovitelj platforme od leta 2019.

GitHub O Kantestiju

⚡ Kratek povzetek V11 druga posodobitev — 26. april 2026

99.80% kompozitni rezultat na 100.000 sintetičnih primerih krvnih testov v osmih medicinskih specialnostih in 127 oznakah držav (V11 drugi posodobitvi).
Brez lažno pozitivnih primerov hiperdijagnoze na 87.412 priložnostih za zastavice spremljanih »trap-case« — ista metodologija »trap-case« kot v začetnem zagonu V11, razširjena na raven populacije.
Vnaprej registrirana rubrika zamrznjeno v izvorni kodi pred začetnim zagonom V11 in ohranjeno byte-identično za to drugo posodobitev — naknadno prilagajanje (post-hoc) ni bilo mogoče.
Mentzerjev indeks pravilno uporabljen za razlikovanje anemije zaradi pomanjkanja železa od beta-talasemije minor v začetni izdaji V11; diferencialno obnašanje je bilo ohranjeno na ravni populacije.
Samo produkcijska končna točka — brez privilegiranega usmerjanja; ovrednoteno povsem tako, kot bi do njega dostopal plačljivi uporabnik.
13,26 sekunde povprečne zakasnitve end-to-end (razpon 9,0–16,94 s), pri čemer je vseh 100.000 primerov dokončalo na primarni poti motorja.
Sintetična kohorta. 100.000 sintetično ustvarjenih testnih primerov naloženih med izvajanjem. Ne uporabljajo se sintetični podatki in ne osebni podatki.
Orodje (harness) z licenco MIT objavljeno na GitHubu s stratificiranim naključnim vzorcem (n = 201) celotnih surovih odzivov motorja za pregled.
DOI na Figshare: 10.6084/m9.figshare.32095435 · Zrcaljeno na ResearchGate, Academia.edu, GitHub.

Zakaj ta referenčna študija obstaja in kaj preverja

AI-podprta razlaga krvne slike se vse bolj uporablja v potrošniških in kliničnih delovnih tokovih, vendar ostajajo ponovljivi ocenjevalni okviri, prilagojeni laboratorijski medicini, redki. V tem kontekstu so ključna vprašanja tista, ki niso zajeta v splošnih medicinskih benchmarkih za vprašanja in odgovore: ali lahko motor loči anemijo zaradi pomanjkanja železa od talasemijske značilnosti, ko je povprečni volumen eritrocitov enak, ali prekomerno diagnosticira Gilbertovo bolezen kot hepatitis in ali ustvari patologijo v povsem normalnem presejalnem naboru?

Posamezna plošča krvnih preiskav običajno vsebuje dovolj signalov za več konkurenčnih interpretacij, naloga zdravnika, ki interpretira izvide, pa je, da te interpretacije med seboj pretehta, namesto da bi poiskal “pravilni” odgovor iz učbenika. Motor, ki se dobro obnese na primerih iz učbenikov, lahko še vedno odpove pri primerih, ki najbolj štejejo: pri pastih diferencialne diagnoze, pri benignih različicah, ki same po sebi delujejo zaskrbljujoče, in pri povsem normalnih ploščah, ki samozavestne pomočnike zapeljejo v “izdelavo” patologije.

Ta ocenjevalna shema je bila zgrajena prav okoli teh načinov odpovedi. Vsak od petnajstih primerov je bil izbran zaradi določene diagnostične lastnosti: mikrocitoza zaradi pomanjkanja železa, ki jo je treba ločiti od lastnosti beta-talasemije z enakim povprečnim volumnom eritrocitov, predstavitev Gilbertovega sindroma, kjer je edina nepravilnost izolirana indirektna hiperbilirubinemija, ter presejalna plošča z 15 parametri, v kateri je vsak analit znotraj svojega referenčnega območja. Rubrika nagrajuje motorje, ki vsak primer bere v njegovem kontekstu, in kaznuje motorje, ki posežejo po samozavestni diagnozi, kadar takšna diagnoza ni upravičena.

Kot Thomas Klein, dr. med., sem izbral nabor primerov, ker so to vzorci, ki jih laboratorijsko-medicinski pomočniki najpogosteje razumejo napačno. Dragi način odpovedi ni "spregledati redke bolezni" — temveč izmišljati rutinsko patologijo pri bolnikih, ki je nimajo. Naš Medicinska validacija hub opisuje širši okvir; ta stran opisuje začetni dokaz koncepta V11 in V11 drugo posodobitev, ki ga je razširila na 100.000 sintetičnih primerov, pridobljenih iz sintetičnega nabora primerov, ki zajema 127 oznak držav — z uporabo istega ocenjevalnega merila, byte-identično, brez dovoljenega naknadnega (post-hoc) prilagajanja.

Najnovejši referenčni zagon — V11 Second Update (26. april 2026)

Referenčni zagon V11 Second Update z dne 26. aprila 2026 je ustvaril sestavljeno oceno 99.80% na isti vnaprej registrirani rubriki, uporabljeni v začetni izdaji V11, ovrednoteno na 100.000 sintetičnih primerov pridobljenih iz sintetičnega nabora primerov Kantesti in zajemajočih 127 oznak držav in jezike 75+. Vsak primer je bil zaključen na primarni poti motorja; aktivacije zastavic za hiperdijagnozo v primerih pasti so ostale pri 0 / 87,412. Izvirni zagon V11 z dne 23. aprila 2026 je zajemal 15 ročno izbranih primerov (sestavljena 99.12%) in potrdil rubriko; Second Update ohrani to rubriko bajtno identično in razširi ovrednotenje na kohorto na ravni populacije.

Sestavljena 99.80% 100.000 od 100.000 primerov z oceno

1.000 Strukturna ocena

0.996 Klinična ocena

13.26 s Povprečna zakasnitev

0 / 87,412 Lažni pozitivni rezultati v pastih

Sestavljena formula združuje tri komponente: strukturna skladnost s sedmimi obveznimi razdelki poročila in šestnajstimi obveznimi podrazdelki, točnost vsebine merjena kot priklic ključnih besed plus priklic iz ocenjevalnega sistema plus preverjanje veljavnosti z verjetnostno porazdelitvijo, in odzivni čas glede na ciljno raven storitve na primarni poti. Natančna razčlenitev je prikazana v spodnji formuli rubrike — nobena od teh uteži ali podrubrik ni bila spremenjena za Second Update.

Sestavljeno = 0.35 × Strukturno + 0.55 × Klinično + 0.10 × Zakasnitev

Preostalih 0.20 odstotne točke rezerve se skoraj v celoti razgradijo v klinični podrezultat — majhen delež primerov (predvsem v hepatologiji in revmatologiji) je imel eno pričakovano ključno besedo sistema točkovanja odsotno iz interpretacije motorja, čeprav je bila diagnostična vsebina pravilna. Noben primer v kohorti 100.000 primerov Second Update ni zgrešil same diagnoze. Latenca se je izboljšala iz povprečja 20.17 s v začetni izdaji V11 na 13.26 s v Second Update, kar odraža optimizacije produkcijskega motorja med obema zagonom; rubrika, koda za točkovanje in končna točka API ostajajo nespremenjene.

Kompozitne ocene po posamezni oznaki so se gibale od 0.9971 do 0.9985 v 30 najbolj zastopanih oznakah držav. Dolgi rep 97 dodatnih oznak (skupaj približno 7.300 primerov) ni pokazal sistematičnega poslabšanja. Najpogostejše oznake po številu primerov so bile Združene države (10.500), Brazilija (9.500), Španija (9.000), Italija (8.000), Nemčija (7.800), Francija (7.400), Portugalska (5.800), Türkiye (3.400), Združeno kraljestvo (2.900) in Mehika (2.500).

Od 15 primerov do 100.000: razvoj kohorte v 127 oznakah držav

Izvirni nabor primerov V11 je pokrival sedem specialnosti — hematologijo, endokrinologijo, metabolično medicino, hepatologijo, nefrologijo, kardiologijo, revmatologijo — plus dva namenska primera pasti za hiperdijagnozo, pri čemer je bil vsak primer sintetično ustvarjen panel krvnih testov. Druga posodobitev V11 razširi ocenjevanje na 100.000 sintetičnih primerov v 127 oznakah držav, razporejenih v osem specialnosti (izvirnih sedem plus namenska skupina interne medicine, ki absorbira podmnožico pasti). Ista ocenjevalna rubrika se uporablja bajtno identično v obeh zagonih.

Ker so vsi primeri sintetično ustvarjeni, ni resničnih identifikatorjev za odstranitev in ne gre za osebne podatke. Vsak sintetični primer nosi kodo primera, interno za merjenje uspešnosti (benchmark-internal case code) (BT-NNN-LABEL v začetnem naboru V11, stabilno case_uid v Drugi posodobitvi). Nikjer v objavljenem merilnem okviru, tehničnem poročilu ali izdanih naborih podatkov se ne pojavijo osebni podatki.

začetno izdajo V11 — 15 ročno izbranih primerov

Izvirno panelno zbirko primerov V11 je ročno izbral dr. Thomas Klein, da bi preizkusil diagnostične vzorce, ki jih laboratorijski medicinski pomočniki najpogosteje napačno razumejo. Vsak od petnajstih primerov je bil izbran zaradi določene diagnostične lastnosti, navedene spodaj.

Hematologija (3) BT-001, BT-006, BT-007 Anemija zaradi pomanjkanja železa · Pomanjkanje vitamina B12 · Manjša beta-talasemija

Endokrinologija (3) BT-002, BT-008, BT-012 Hashimotov tiroiditis · PCOS s inzulinsko rezistenco · Hudo pomanjkanje vitamina D

Presnovno (2) BT-003, BT-013 T2DM z metaboličnim sindromom · Hiperurikemija z tveganjem za protin

Hepatologija (2) BT-004, BT-009 NAFLD / NASH · Akutni virusni hepatitis

Nefrologija · Kardiologija · Revmatologija (3) BT-005, BT-010, BT-011 KLB stadij 3 · Aterogena dislipidemija · Sistemski eritematozni lupus

Primeri z pastjo (2) BT-014, BT-015 Gilbertova bolezen (izolirana indirektna hiperbilirubinemija) · Povsem normalen presejalni pregled odraslih

Zakaj je ta razporeditev prav takšna

Hematologija dobi tri primere, ker so mikrocitne diferencialne diagnoze in makrocitne diferencialne diagnoze v praksi realnih laboratorijev največje pasti z največjo količino primerov. Endokrinologija dobi tri, ker predstavitve, povezane z Hashimotom, PCOS in pomanjkanjem vitamina D, izvajajo različne diagnostične oblike (avtoprotitelesa, ki poganjajo diagnozo; razmerja hormonov, ki poganjajo diagnozo; en sam označevalec, ki poganja diagnozo). Enopravne specialnosti so še vedno smiselne, ker ima vsaka od CKD, tveganja za ASCVD in SLE svoj sistem točkovanja, ki ga mora motor priklicati (KDIGO-stadiranje, 10-letno tveganje ASCVD, merila 2019 EULAR/ACR za SLE oziroma).

V11 drugi posodobitvi — 100.000 sintetičnih primerov v 127 oznakah držav

Druga posodobitev nadomesti izvirni V11 trdo kodirani Pythonov literal s 15 primeri z večjim, programsko ustvarjenim sintetičnim naborom primerov. Nabor primerov se naloži na začetku vsakega zagona in konfiguracija se zabeleži za preglednost. Porazdelitev kohorte po vsebinskih področjih je prikazana spodaj.

Endokrinologija 23.900 primerov (23.9%) Ščitnica, PCOS, vitamin D, gonadalna os, hipofiza

Presnovna medicina 21.900 primerov (21.9%) T2DM, presnovni sindrom, lipidni paneli, hiperurikemija

Hematologija 15.400 primerov (15.4%) Diferencialne diagnoze mikrocitnih in makrocitnih anemij, B12/folat, študije železa

hepatologija 12.400 primerov (12.4%) NAFLD/NASH, virusni hepatitis, FIB-4, holestaza

Interna medicina (vključno s podmnožico pasti) 9.000 primerov (9.0%) Mešane predstavitve in 8.723 namenskih primerov pasti za hiperdijagnozo

Kardiologija 7.500 primerov (7.5%) Tveganje za ASCVD, aterogena dislipidemija, hs-CRP

Revmatologija 6.000 primerov (6.0%) SLE, RA, vaskulitis, paneli avtoprotiteles (kriteriji EULAR/ACR)

Nefrologija 4.000 primerov (4.0%) Stadiranje KLB (KDIGO), trendi eGFR, motnje elektrolitov

Sintetična porazdelitev oznak držav — top 10 oznak

100.000 sintetičnih primerov nosi 127 oznak držav (ISO 3166-1 alpha-2) za preizkus obravnave lokalizacije (locale handling). Dodelitev oznak: Evropa 57.7%, Amerike 25.4%, Azija-Pacifik 6.2%, poimenovane oznake Bližnji vzhod/Afrika 3.4% in dolg rep 97 dodatnih oznak približno 7.3% skupaj. Deset najpogostejših oznak po številu primerov so Združene države (10.500), Brazilija (9.500), Španija (9.000), Italija (8.000), Nemčija (7.800), Francija (7.400), Portugalska (5.800), Türkiye (3.400), Združeno kraljestvo (2.900) in Mehika (2.500). Kompozitne ocene po posamezni oznaki so se gibale od 0.9971 do 0.9985. Te štetne vrednosti oznak so lastnosti ustvarjenih primerov, uporabljenih za preizkus obravnave lokalizacije — niso resnični uporabniki in niso resnično geografsko pokritje.

Vnaprej registrirana rubrika, pojasnjena

Predregistracija je v tem merilu najpomembnejša metodološka izbira. Vsaka pričakovana diagnoza, vsak klinični sistem točkovanja in vsak razdelek poročila so bili predani izvorni kodi preden je bil motor priklican. Naknadno prilagajanje rubrike z namenom laskanja motorju zato ni mogoče.

Tri komponente sestavljajo sestavljeno oceno. strukturna komponenta prispeva 35 odstotkov in meri, ali je motor vrnil sedem obveznih razdelkov poročila (glava, povzetek, ključne ugotovitve, diferencialna diagnoza, sistemi točkovanja, priporočila, nadaljnje spremljanje) ter šestnajst obveznih podrazdelkov znotraj njih. Prisotnost razdelka ima utež 40 odstotkov, prisotnost podrazdelka pa 60 odstotkov v strukturnem izračunu.

The klinična komponenta prispeva 55 odstotkov in združi tri stvari: priklic diagnoznih ključnih besed (70 odstotkov kliničnega podrezultata), priklic sistema točkovanja (20 odstotkov — ali motor izračuna Mentzer, FIB-4, HOMA-IR, tveganje ASCVD, KDIGO-stadiranje, merila EULAR/ACR, kjer je relevantno) in preverjanje veljavnosti vsote verjetnosti (10 odstotkov — se morajo verjetnosti v diferencialni diagnozi sešteti znotraj intervala [90, 110]). Pri primerih v pasti se odšteje eksplicitna kazen za hiperdijagnozo do 0,30, izračunana kot 0,10 na vsak izmišljeni zastavici patologije, omejena na največ tri zastavice.

The komponenta zakasnitve prispeva 10 odstotkov. Odziv pod 20 sekundami prejme polnih 0,10, odziv pod 40 sekundami prejme 0,05, vse, kar je počasneje, prejme nič. Cilj 20 sekund odraža proizvodni primarni cilj storitvene ravni; zgornja meja 40 sekund odraža rezervni proračun za fazo 2 pri zahtevnih priklicih motorja.

Česa predregistracija prepreči

Prvičelna merila so znana po napihovanju svojih lastnih številk z naknadnim prilagajanjem rubrike. Vzorec je skoraj vedno enak: ekipa zažene motor, vidi, kje podperformira, nato pa tiho prilagodi rubriko tako, da območja podperformiranja štejejo manj. Če rubriko pred prvo priklicem motorja zavežeš v izvorno kodo in objaviš preizkuševalni okvir pod licenco MIT, postane ta prilagoditev vidna v sistemu nadzora različic. Vsakdo lahko klonira repozitorij, preveri datume avtorstva rubrike in potrdi, da rezultati motorja niso bili uporabljeni za oblikovanje točkovanja.

Primeri pasti hiperdijagnoze — zakaj je pretirano klicanje pravi način odpovedi

Agresivno pretirano pripisovanje patologije na normalnih pregledih je dokumentiran način odpovedi pri medicinskih pomočnikih, namenjenih potrošnikom. Njeni posledični stroški vključujejo nepotrebne preiskave, tesnobo bolnikov in iatrogeno obravnavo. Dva primera v pasti v tem merilu sta zasnovana tako, da ta način odpovedi postane viden in ga je mogoče ovrednotiti.

🟡 Pasti 1 — BT-014-GILBERT

Predstavitev. Moški, star 24 let, s skupnim bilirubinom 2,4 mg/dL. Direktni delež je normalen, transaminaze in alkalna fosfataza so znotraj svojih referenčnih razponov, retikulociti so nepomembni, haptoglobin in LDH izključita hemolizo.

Pravilna razlaga. Gilbertova bolezen — benigna polimorfna varianta UGT1A1. Razlaga ne sme priklicati hepatitisa, ciroze, hemolitične anemije ali bilijarne obstrukcije.

Rezultat v11. Sestavljena ocena 1,000. Nobena od šestih spremljanih zastavic prekomerne diagnoze se ni pojavila kot aktivna diagnoza.

🟡 Pasti 2 — BT-015-ZDRAV

Predstavitev. Ženska, stara 35 let, z rutinskim presejalnim panelom z petnajstimi parametri. Vsak analit udobno leži znotraj svojega referenčnega razpona.

Pravilna razlaga. Zagotovilo in vzdrževanje življenjskega sloga. Razlaga ne sme izmišljati mejne patologije, da bi zvenela klinično uporabna.

Rezultat v11. Sestavljena ocena 1.000. Nobena od sedmih spremljanih zastavic za prekomerno postavljanje diagnoz — diabetes, anemija, hipotiroidizem, dislipidemija, hepatitis, ledvična bolezen, pomanjkanje — se ni pojavila kot aktivna diagnoza.

V obeh pastih so preverili trinajst spremljanih zastavic za prekomerno diagnosticiranje. Nobena ni bila sprožena. To je rezultat, ki je za vsakega klinika najpomembnejši, če razmišlja o uporabi AI-razvijalnika kot orodja za triažo ali predhodno posvetovanje: sistem ni izumil bolezni, kjer je ni bilo.

Mentzerjev indeks: ločevanje pomanjkanja železa od značilnosti talasemije

Drugo visokovredno odkritje zadeva ujemanje primera BT-001 (anemija zaradi pomanjkanja železa) s primerom BT-007 (beta-talasemija minor). Oba se kažeta z mikrocitozo in sta dobro znana spotika za naivne klasifikatorje. Mentzerjev indeks, izračunan kot MCV deljeno s številom RBC, je pri pomanjkanju železa nad 13 in pri talasemijskem nosilstvu pod 13.

Pri BT-001 je bila pacientka 34-letna ženska z hemoglobinom 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritinom 6 ng/mL in povišanim TIBC. Mentzerjev indeks približno 17,7 podpira absolutno pomanjkanje železa. Pri BT-007 je bil pacient 28-letni moški z mikrocitozo (MCV 65,8 fL), vendar z visokim številom RBC 6,2, normalnim RDW, normalnim feritinom in HbA2 5,6 odstotka. Mentzerjev indeks približno 10,6 kaže na talasemijsko nosilstvo, povišan HbA2 pa potrjuje beta-talasemijo minor.

Anemija zaradi pomanjkanja železa Mentzer > 13 Nizek feritin, nizek TSAT, visok TIBC, povišan RDW

Talasemijsko nosilstvo (beta-talasemija) Mentzer < 13 Normalni feritin, normalni RDW, povišan HbA2 (>3,5%), visoko število RBC

Oba primera sta dosegla 1.000. Mehanizem je v obeh razlagah izrecno uporabil Mentzerjev indeks in v vsakem primeru vrnil pravilno diagnozo. To je najbolj klinično pomirjujoč rezultat v celotnem merilu, ker napačna razvrstitev talasemijskega nosilstva kot pomanjkanja železa vodi do neustreznega dodatka železa in spregleda priložnosti za presejanje v družini, napačna razvrstitev pomanjkanja železa kot talasemije pa odloži preprosto nadomestitveno terapijo. Naše vodnik po razponih feritina pojasnjuje širši diferencialni kontekst.

Rezultati po posameznih primerih iz začetnega referenčnega izvajanja V11 (23. april 2026)

Izvirno referenčno izvajanje V11 na 15-primerovnem dokaznem konceptu služi kot metodološka osnova za Second Update: vsak spodaj naveden podrobni opis po posameznem primeru prikazuje, kako rubrika obravnava resničen odziv pogona. Dvanajst od petnajstih primerov je doseglo zgornjo mejo sestavljenega rezultata 1.000 na primarni poti; trije primeri so bili obdelani prek povratne možnosti Phase 2, pri čemer so izgubili bonus za zakasnitev 0.05, vendar ohranili vse klinične in strukturne vsebine. En primeru je manjkala ena obvezna podsekcija; eden je vrnil nekoliko zmanjšano vsoto verjetnostnih porazdelitev.

ID primera Specializacija Sestavljena Zakasnitev Pot

BT-001-IDAHematologija1.00017,8 sprimarna

BT-006-B12Hematologija1.00018,4 sprimarna

BT-007-THALHematologija1.00017,0 sprimarna

BT-002-HASHEndokrinologija0.95037,0 spovratna možnost

BT-008-PCOSEndokrinologija0.98718,6 sprimarna

BT-003-T2DMPresnovni1.00019,1 sprimarna

BT-013-GOUTPresnovni1.00019,4 sprimarna

BT-004-NAFLDhepatologija1.00019,6 sprimarna

BT-009-VIRHEPhepatologija0.95023,4 spovratna možnost

BT-014-GILBERTpast1.00018,9 sprimarna

BT-005-CKDNefrologija1.00017,4 sprimarna

BT-010-ASCVDKardiologija1.00019,7 sprimarna

BT-011-SLERevmatologija0.98118,2 sprimarna

BT-012-VITDEndokrinologija1.00019,3 sprimarna

BT-015-ZDRAVOpast1.00018,7 spovratna možnost

Primer PCOS (BT-008) je v strukturi odgovora izgubil en obvezen pododdelek — petnajst od šestnajstih namesto šestnajst od šestnajstih — kar je znižalo strukturni rezultat z 1,000 na 0,963. Primer SLE (BT-011) je vrnil le nekoliko zmanjšano vsoto verjetnostnih porazdelitev, zaradi česar se je klinični rezultat znižal na 0,965, pri čemer je ohranil vse diagnostične ključne besede in sistem točkovanja. Noben od obeh primerov, ki nista bila popolna, ni zgrešil pravilne diagnoze.

Agregat V11 Second Update — 100,000 primerov

Na ravni populacije posamezne vrstice primerov niso berljive za človeka, zato Druga posodobitev poroča agregirane metrike namesto tabele s 100.000 vrsticami. Glavna agregirana vrednost je prikazana spodaj; razčlenitve po specialnosti in po oznaki države so objavljene v tehničnem poročilu in v depozitu Figshare. Stratificiran naključni vzorec n = 201 surovih odzivov pogona (deterministični seed 20260426) je objavljen v repozitoriju GitHub results/ za pregled.

Sestavljeni rezultat V11 začetno: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 v kohorti 100,000 primerov

Strukturni rezultat (povprečje) V11 začetno: 0.998 → Second Update: 1.000 Popolna strukturna skladnost na ravni populacije

Klinični rezultat (povprečje) V11 začetno: 0.998 → Second Update: 0.996 −0.002; noben primer ni zgrešil same diagnoze

Latenca — povprečje (razpon) Začetno stanje V11: 20,17 s (17,0–37,0 s) → Druga posodobitev: 13,26 s (9,0–16,94 s) Optimizacije proizvodnega pogona med zagoni

Pot pogona = primarna Začetno stanje V11: 12 / 15 → Druga posodobitev: 100,000 / 100,000 V nobeni točki med zagonom ni bilo potrebnega povratnega scenarija 2. faze

Zastavice hiperdijagnoze za podmnožico pasti Začetno stanje V11: 0 / 13 → Druga posodobitev: 0 / 87,412 Ničelni lažni pozitivni rezultati na ravni populacije (8.723 primerov pasti spremljanih)

Kaj nam glavna ocena ne pove

Kompozitna ocena 99.80 odstotka po tem konkretnem vnaprej registriranem ocenjevalnem merilu, na sintetični kohorti s 100.000 primeri, ki zajema 127 oznak držav, predstavlja zmogljivost skoraj do zgornje meje — vendar si zasluži skrbno uokvirjanje. Rezultat opisuje obnašanje motorja glede na ocenjevalno merilo, ki smo ga zavezali v izvorno kodo v V11; to ni univerzalna trditev o pravilnosti motorja na vsakem obstoječem panelu krvnih testov v resničnem svetu.

Ocena pove, da je pogon pravilno obravnaval diagnostične vzorce, izbrane za to ocenjevanje, po metodologiji, ki je objavljena in jo je mogoče reproducirati, na kohorti v merilu populacije. Ne pove, da je pogon pravilen za vsako krvno preiskavo, ki obstaja v praksi. Ne pove, da bi moral pogon nadomestiti klinično presojo. In ne pove, da pogon presega alternativne sisteme AI — primerjalne analize z drugimi pogoni so bile namerno izven obsega tega poročila.

Kar ocena dejansko vzpostavi, je izhodišče. Ker sta rubrika in ogrodje javna, je mogoče prihodnje različice pogona ocenjevati glede na isto rubriko — uporabljeno na začetnih 15 primerih V11, kohorti 100.000 primerov iz Druge posodobitve ali katerem koli nadaljnjem razširjanju — razlika med objavljeno oceno in katerim koli poznejšim zagonom pa je sama po sebi merljiva. To je vrednost vnaprejšnje registracije: pretvori trditve o uspešnosti v preverljive trditve.

Kako v 10 minutah ponoviti ta preizkus

Reprodukcija zahteva le par poverilnic Kantesti API in okolje Python 3.10 ali novejše z requests in reportlab nameščenimi knjižnicami. Celotno ogrodje je en samostojen Pythonov modul, izdan pod licenco MIT.

💻 GitHub Ogrodje z licenco MIT · surovi odgovori · referenčni zagon 🔗 DOI na Figshare 10.6084/m9.figshare.32095435 · kanonični akademski zapis 🎓 Raziskovalna vrata Objava 404175463 · V11 Druga posodobitev · plast akademijskega odkrivanja 📄 Academia.edu Prispevek 165956808 · V11 Druga posodobitev · plast akademijskega odkrivanja

Štirje koraki za nov zagon

Eni. Klonirajte repozitorij: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dva. Namestite odvisnosti z pip install -r requirements.txt (Druga posodobitev doda mysql-connector-python ≥ 8.0 za nalagalnik primerov SQL). Tri. Nastavite KANTESTI_USERNAME in KANTESTI_PASSWORD kot spremenljivke okolja za API pogona. Za nalagalnik primerov SQL iz Druge posodobitve dodatno nastavite KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, in KANTESTI_DB_PASSWORD — nalagalnik se poveže prek vloge samo za branje (bench_reader) ki nima pravic za prepoznavanje tabel. Štiri. Zaženite python benchmark_bloodtest.py --limit 100000 za celoten zagon Second-Update ali python benchmark_bloodtest.py --limit 1000 za hitro iteracijo. Izhodi se shranijo v ./benchmark_results/: CSV kartica z stolpci za posamezno državo/oznako in posamezno specialnost, JSON agregat, stratificiran-naključni vzorec surovih odzivov in poročilo v Markdownu.

Referenčni zagoni z dne 23. aprila 2026 (V11 začetni, 15 primerov) in 26. aprila 2026 (V11 Second Update, 100,000 primerov) so ohranjeni v results/ imeniku repozitorija. Nov zagon bo ustvaril novo časovno označeno ocenjevalno kartico, pri čemer referenčni zagoni ne bodo spremenjeni. Če vaš zagon ustvari bistveno drugačen rezultat, prosimo odprite GitHub issue z časovnim žigom zagona in različico motorja, vrnjeno v metapodatkih odgovora.

Omejitve in prihodnje delo

Tudi pri 100.000 primerih v 127 oznakah držav štiri omejitve zaslužijo izrecno priznanje: podvzorčenje oznak z dolgim repom, enkratna (single-shot) evalvacija, omejenost na en sam obseg motorja in en sam izvor podatkov. Vse to se obravnava v aktivnem nadaljnjem delu.

Pokritost oznak z dolgim repom. Druga posodobitev zajema 127 oznak držav, vendar je porazdelitev neuravnotežena — prvih 10 oznak predstavlja približno 66,4% primerov, dolg rep 97 dodatnih oznak pa skupaj prispeva približno 7,3% (približno 7.300 primerov skupaj, ~75 primerov na oznako v povprečju). Zato so kompoziti po posameznih oznakah v tem dolgem repu bolj šumni, kot nakazujejo vodilne številke. Prihodnji zagoni bodo ponovno uravnotežili dodeljevanje oznak, da se utrdijo ocene po posameznih oznakah.

Enkratna ocena. Vsak primer v kohorti je bil ovrednoten enkrat. Veliki jezikovni modeli kažejo nepomembno varianco izhodov tudi pri nizki temperaturi vzorčenja, zato je naslednji naravni korak protokol z več zagoni, petimi evalvacijami na primer in poročanjem o varianci — še posebej na podmnožici trap-case, kjer je skladnost pri nihanjih vzorčenja del varnostne trditve.

Enoten obseg motorja. To poročilo opisuje en motor. Primerjalne analize z alternativnimi sistemi AI niso predmet tega; morebiti jih bomo izvedli kot ločeno neodvisno študijo z ustrezno metodologijo, na istem MIT-licenciranem ogrodju.

Sintetični podatki. 100.000 primerov je sintetično generiranih, ne pa gre za sintetične primere v smislu realnih kliničnih podatkov, in rezultati se ne prenesejo na uspešnost v realnem kliničnem okolju. Evalvacija na realnih, privoljenih, zunanje pridobljenih podatkih bi zahtevala ustrezen etični nadzor in ni predmet tega sintetičnega benchmarka.

Poleg teh štirih je najbolj vplivna načrtovana razširitev večjezična enakovrednost po jurisdikciji. Kantesti AI Engine je na voljo uporabnikom v 75+ jezikih, izvajanje jezikovno stratificiranih podkohort Second-Update (turški, nemški, španski, francoski, italijanski, portugalski, arabski, mandarinski) pa bo kvantificiralo kakovost izhodov v jezikih, ki jih motor podpira. Vsaka jezikovno stratificirana analiza bo objavljena s svojim DOI in vejo ogrodja.

Preizkusite isti motor, ki je dosegel 99.80% sestavljeno oceno na 100,000 primerih

Naložite svojo lastno ploščo krvnih preiskav na isti produkcijski končni prehod, ki je bil ovrednoten v tej primerjalni analizi. Več kot 2 milijona uporabnikov po vsem svetu uporablja Kantesti AI Engine za razlago več kot 15.000 biomarkerjev v 75+ jezikih.

🔬 Preizkusite brezplačno predstavitev

Razširitev za Chrome Trgovina z aplikacijami Google Play

📚 Kako citirati to primerjalno analizo

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Vnaprej registriran, na rubriki temelječ avtomatiziran tehnični
                 benchmark interpretacije Kantesti krvnega testa
                 na 100.000 sintetičnih testnih primerih
                 --- V11 druga posodobitev},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Tehnično poročilo},
  number      = {V11 (druga posodobitev)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Vnaprej registriran, na rubriki temelječ avtomatiziran tehnični benchmark interpretacije Kantesti krvnega testa na 100.000 sintetičnih testnih primerih — V11 druga posodobitev (Tehnično poročilo V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Zunanje metodološke reference

Mentzer, W. C. (1973). Diferenciacija pomanjkanja železa od značilnosti talasemije. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Klasifikacijska merila za sistemski eritematozni lupus Evropske lige proti revmatizmu / Ameriškega kolegija za revmatologijo iz leta 2019. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Test medicinske halucinacije za velike jezikovne modele. Zbornik prispevkov CoNLL 2023.

🔗 ACL Anthology

99.80%Sestavljena ocena

100,000Ocenjeni primeri

127Zajete oznake držav

0 / 87,412Lažno pozitivni rezultati pasti

Pogosto zastavljena vprašanja

Kako natančen je AI motor Kantesti na sintetičnih testnih primerih?

Na vnaprej registrirani rubriki, izvedeno na 100.000 sintetično generiranih testnih primerih v osmih vsebinskih področjih in 127 oznakah držav (V11 druga posodobitev), je motor dosegel kompozitni rezultat 99,80 odstotka, brez zastavic za hiperdijagnozo v 87.412 spremljanih priložnostih za pasti in s povprečno zakasnitvijo odziva 13,26 sekunde. Ta kompozit meri skladnost izhodov na sintetičnih vhodih, ne pa diagnostično točnost. Izvirna izdaja V11 je isto rubriko uporabila na 15 ročno izdelanih primerih (kompozit 99,12%); druga posodobitev ohrani rubriko byte-identično in jo razširi na večji sintetični nabor. Celotna scorecard je objavljena na Figshare pod DOI 10.6084/m9.figshare.32095435 in na GitHubu pod licenco MIT.

Ali je Kantesti AI Engine klinično potrjen?

Ne. Motor je bil ovrednoten z avtomatiziranim tehničnim benchmarkom (ne klinično validacijo), glede na rubriko, ki je bila zamrznjena v izvorni kodi pred začetnim zagonom V11 in je bila za V11 drugo posodobitev ohranjena byte-identično, ovrednotena na 100.000 sintetičnih primerih krvnih testov v hematologiji, endokrinologiji, metabolični medicini, hepatologiji, nefrologiji, kardiologiji, revmatologiji in interni medicini, pridobljenih iz 127 oznak držav. Klinični nadzor je zagotovil dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), specialist hematolog, certificiran s strani odbora, in glavni medicinski direktor pri Kantesti AI.

Kaj je primer iz „past“ hiperdiagnoze?

Primer »hyperdiagnosis trap« je klinični scenarij, posebej zasnovan za odkrivanje vedenja pretiranega postavljanja diagnoz v AI-zagonih. Začetna referenčna meritev V11 je uporabila dva takšna primera kot metodološki dokaz koncepta: izolirano posredno hiperbilirubinemijo, skladno z Gilbertovim sindromom (kjer je pravilna razlaga benigna polimorfnost UGT1A1 in ne hepatitis ali hemoliza), ter popolnoma normalen presejalni panel za odrasle (kjer je pravilni izid pomiritev in ne izdelana mejna patologija). V11 Druga posodobitev je to metodologijo »trap-case« razširila na namenski podnabor 8.723 primerov, kar je ustvarilo 87.412 priložnosti za spremljanje zastavic »hyperdiagnosis« — stopnja lažno pozitivnih rezultatov zagnona pa je ostala pri nič.

Ali je ocena Kantesti AI Engine ponovljiva?

Celoten ocenjevalni okvir je izdan pod licenco MIT kot en samostojen modul Python. Za začetni zagon V11 je potrebna le dvojica poverilnic API Kantesti in Python 3.10 ali novejši. V11 Druga posodobitev doda parametričen, samo za branje namenjen nalagalnik SQL primerov, ki zahteva poverilnice kliničnega repozitorija Kantesti (vloga bench_reader brez pravic za prepoznavanje tabel). Koda, SQL za nalagalnik primerov, rubrika (byte-identična med izdajami) ter stratificiran naključni vzorec surovih odzivov zagnona iz začetnega zagona V11 in referenčnega zagona Druge posodobitve so na voljo na github.com/emirhanai/kantesti-blood-test-benchmark in zrcaljeni na Figshare, ResearchGate in Academia.edu.

Kako Kantesti AI Engine razlikuje pomanjkanje železa od značilnosti beta-talasemije?

Zagon uporablja Mentzerjev indeks, izračunan kot povprečna velikost eritrocitov (MCV) deljena s številom rdečih krvnih celic. Mentzerjev indeks nad 13 podpira železno pomanjkanje z anemijo, medtem ko vrednost pod 13 podpira lastnost beta-talasemije. V začetni referenčni meritvi V11 sta bili obe predstavitvi pravilno razvrščeni z izrecnim izračunom Mentzerjevega indeksa, podprtim s kontekstom feritina, RDW in HbA2. V celotnem naboru 100.000 primerov v V11 Drugi posodobitvi se je enako diferencialno vedenje ohranilo na ravni populacije.

Kje lahko najdem surove podatke za primerjavo (benchmark) in izvorno kodo?

Tehnično poročilo je naloženo na Figshare pod DOI 10.6084/m9.figshare.32095435 (zajema tako začetno izdajo V11 kot V11 Drugo posodobitev), zrcaljeno na ResearchGate objavi 404175463 in članku Academia.edu 165956808 — oba posodobljena z naslovom V11 Druga posodobitev in rezultati za 100.000 primerov — ter na ocenjevalni okvir Python z licenco MIT z vsemi rezultati referenčnih zagonov na github.com/emirhanai/kantesti-blood-test-benchmark. Omrežje zrcaljenja na štirih platformah zagotavlja dolgoročno razpoložljivost in prilagodljivost citiranja.

Zakaj je predhodna registracija pomembna za medicinske referenčne vrednosti AI?

Predhodna registracija preprečuje naknadno prilagajanje rubrike (post-hoc), kar je edini najpogostejši način, kako podjetniški referenčni testi napihnejo svoje lastne številke. Če rubriko zavežete izvorni kodi še preden je bil motor priklican in okvir javno objavite, datumi avtorja rubrike postanejo preverljivi v sistemu za nadzor različic, rezultati motorja pa ne morejo oblikovati meril za ocenjevanje.

Ali ta referenčna vrednost vključuje primerjave z drugimi sistemi AI?

Ne. Poročilo V11 — tako začetna izdaja kot Druga posodobitev — namerno opisuje en sam zagon glede na fiksno rubriko, namesto da bi ga postavljalo ob bok alternativnim komercialnim sistemom. Okvir je odprtokoden pod licenco MIT (zdaj vključuje tudi nalagalnik SQL primerov), zato lahko neodvisni raziskovalci ovrednotijo kateri koli zagon, ki ga izberejo, glede na isto rubriko in nalagalnik primerov ter objavijo svoje rezultate.

Ali so primeri bolnikov resnični ali sintetični?

Vsi primeri so sintetično generirani — 15 ročno izdelanih primerov v začetni izdaji V11 in 100.000 v drugi posodobitvi. Ne gre za sintetične primere: ne vključujejo sintetičnih podatkov, postopka privolitve in anonimizacije/de-identifikacije, ker v kohorti ne obstajajo osebni podatki. V objavljenem ogrodju, tehničnem poročilu ali sproščenih naborih podatkov se ne pojavi noben osebni podatek.

⚕️ Medicinska izjava o omejitvi odgovornosti in nasprotje interesov

Ta poročilo o merilu uspešnosti je namenjeno raziskovalni in metodološki transparentnosti. Ne predstavlja medicinskega nasveta, ni diagnoza in ne nadomešča strokovne zdravstvene oskrbe; noben rezultat tukaj se ne sme uporabiti za odlašanje z obiskom zdravnika ali izogibanje obisku. Za odločitve o diagnozi in zdravljenju se vedno posvetujte s kvalificiranim izvajalcem zdravstvenih storitev. To je samostojno izvedeno interno merilo uspešnosti lastnega motorja podjetja in ni bilo neodvisno validirano ali pregledano s strani vrstnikov. Sestavljena ocena meri skladnost s fiksnimi merili (struktura poročila, priklic ključnih besed in sistema točkovanja ter latenca); ni merilo resnične diagnostične točnosti v realnem svetu ali klinične varnosti. Oba avtorja sta zaposlena pri Kantesti Ltd in imata lastniški delež, motor, ki se ocenjuje, pa je komercialni izdelek iste organizacije. Ta navzkrižje interesov je ublaženo s predhodno registracijo meril v izvorni kodi, z objavo ogrodja (harness) pod licenco MIT ter z objavo stratificiranega naključnega vzorca surovih odzivov motorja.

E-E-A-T zaupanja vredni signali

⭐

Izkušnje

15+ let klinične prakse v hematologiji in laboratorijski medicini, nadzor izbire nabora primerov.

📋

Strokovno znanje

Predhodno registrirana zasnova rubrike z izrecnimi kaznimi za hiperdijagnozo in priznanimi kliničnimi sistemi točkovanja (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Avtoritativnost

Glavni avtor dr. Thomas Klein, dr. med. (ORCID 0009-0009-1490-1321). Implementacija: Julian Emirhan Bulut, izvršni direktor (CEO) Kantesti Ltd.

🛡️

Zanesljivost

Reproducibilen okvir z licenco MIT, objavljeni surovi odzivi motorja, odprto razkritje nasprotja interesov, raziskovalno zrcalno omrežje na štirih platformah.

🏢 Kantesti D.O.O. Registrirano v Angliji in Walesu · Št. podjetja. 17090423 London, Združeno kraljestvo · kantesti.net