Zakaj ta referenčna študija obstaja in kaj preverja

AI-podprta razlaga krvne slike se vse bolj uporablja v potrošniških in kliničnih delovnih tokovih, vendar ostajajo ponovljivi ocenjevalni okviri, prilagojeni laboratorijski medicini, redki. V tem kontekstu so ključna vprašanja tista, ki niso zajeta v splošnih medicinskih benchmarkih za vprašanja in odgovore: ali lahko motor loči anemijo zaradi pomanjkanja železa od talasemijske značilnosti, ko je povprečni volumen eritrocitov enak, ali prekomerno diagnosticira Gilbertovo bolezen kot hepatitis in ali ustvari patologijo v povsem normalnem presejalnem naboru?

Diagram poteka vnaprej registrirane rubrike, ki prikazuje, kako se Kantesti AI Engine — V11 Druga posodobitev, 99.80% kompozitni rezultat pri 100.000 primerih — ovrednoti glede na zamrznjena merila točkovanja
Slika 1: Referenčna arhitektura v ozadju 99.80% kompozitni rezultat pri V11 Second Update kohorti s 100.000 primeri — vsak primer, vsaka ključna beseda, vsak sistem točkovanja je fiksiran v izvorni kodi, preden motor sploh vidi en sam PDF, ocenjevalna rubrika pa je bajtno identična začetni izdaji V11. Naknadno prilagajanje rubrike ni mogoče, kot je zasnovano.

Posamezna plošča krvnih preiskav običajno vsebuje dovolj signalov za več konkurenčnih interpretacij, naloga zdravnika, ki interpretira izvide, pa je, da te interpretacije med seboj pretehta, namesto da bi poiskal “pravilni” odgovor iz učbenika. Motor, ki se dobro obnese na primerih iz učbenikov, lahko še vedno odpove pri primerih, ki najbolj štejejo: pri pastih diferencialne diagnoze, pri benignih različicah, ki same po sebi delujejo zaskrbljujoče, in pri povsem normalnih ploščah, ki samozavestne pomočnike zapeljejo v “izdelavo” patologije.

Ta ocenjevalna shema je bila zgrajena prav okoli teh načinov odpovedi. Vsak od petnajstih primerov je bil izbran zaradi določene diagnostične lastnosti: mikrocitoza zaradi pomanjkanja železa, ki jo je treba ločiti od lastnosti beta-talasemije z enakim povprečnim volumnom eritrocitov, predstavitev Gilbertovega sindroma, kjer je edina nepravilnost izolirana indirektna hiperbilirubinemija, ter presejalna plošča z 15 parametri, v kateri je vsak analit znotraj svojega referenčnega območja. Rubrika nagrajuje motorje, ki vsak primer bere v njegovem kontekstu, in kaznuje motorje, ki posežejo po samozavestni diagnozi, kadar takšna diagnoza ni upravičena.

Kot Thomas Klein, dr. med., sem izbral nabor primerov, ker so to vzorci, ki jih laboratorijsko-medicinski pomočniki najpogosteje razumejo napačno. Dragi način odpovedi ni "spregledati redke bolezni" — temveč izmišljati rutinsko patologijo pri bolnikih, ki je nimajo. Naš Medicinska validacija hub opisuje širši okvir; ta stran opisuje začetni dokaz koncepta V11 in V11 drugo posodobitev, ki ga je razširila na 100.000 sintetičnih primerov, pridobljenih iz sintetičnega nabora primerov, ki zajema 127 oznak držav — z uporabo istega ocenjevalnega merila, byte-identično, brez dovoljenega naknadnega (post-hoc) prilagajanja.

Najnovejši referenčni zagon — V11 Second Update (26. april 2026)

Referenčni zagon V11 Second Update z dne 26. aprila 2026 je ustvaril sestavljeno oceno 99.80% na isti vnaprej registrirani rubriki, uporabljeni v začetni izdaji V11, ovrednoteno na 100.000 sintetičnih primerov pridobljenih iz sintetičnega nabora primerov Kantesti in zajemajočih 127 oznak držav in jezike 75+. Vsak primer je bil zaključen na primarni poti motorja; aktivacije zastavic za hiperdijagnozo v primerih pasti so ostale pri 0 / 87,412. Izvirni zagon V11 z dne 23. aprila 2026 je zajemal 15 ročno izbranih primerov (sestavljena 99.12%) in potrdil rubriko; Second Update ohrani to rubriko bajtno identično in razširi ovrednotenje na kohorto na ravni populacije.

Sestavljena 99.80% 100.000 od 100.000 primerov z oceno
1.000 Strukturna ocena
0.996 Klinična ocena
13.26 s Povprečna zakasnitev
0 / 87,412 Lažni pozitivni rezultati v pastih

Sestavljena formula združuje tri komponente: strukturna skladnost s sedmimi obveznimi razdelki poročila in šestnajstimi obveznimi podrazdelki, točnost vsebine merjena kot priklic ključnih besed plus priklic iz ocenjevalnega sistema plus preverjanje veljavnosti z verjetnostno porazdelitvijo, in odzivni čas glede na ciljno raven storitve na primarni poti. Natančna razčlenitev je prikazana v spodnji formuli rubrike — nobena od teh uteži ali podrubrik ni bila spremenjena za Second Update.

Sestavljeno = 0.35 × Strukturno + 0.55 × Klinično + 0.10 × Zakasnitev

Preostalih 0.20 odstotne točke rezerve se skoraj v celoti razgradijo v klinični podrezultat — majhen delež primerov (predvsem v hepatologiji in revmatologiji) je imel eno pričakovano ključno besedo sistema točkovanja odsotno iz interpretacije motorja, čeprav je bila diagnostična vsebina pravilna. Noben primer v kohorti 100.000 primerov Second Update ni zgrešil same diagnoze. Latenca se je izboljšala iz povprečja 20.17 s v začetni izdaji V11 na 13.26 s v Second Update, kar odraža optimizacije produkcijskega motorja med obema zagonom; rubrika, koda za točkovanje in končna točka API ostajajo nespremenjene.

Kompozitne ocene po posamezni oznaki so se gibale od 0.9971 do 0.9985 v 30 najbolj zastopanih oznakah držav. Dolgi rep 97 dodatnih oznak (skupaj približno 7.300 primerov) ni pokazal sistematičnega poslabšanja. Najpogostejše oznake po številu primerov so bile Združene države (10.500), Brazilija (9.500), Španija (9.000), Italija (8.000), Nemčija (7.800), Francija (7.400), Portugalska (5.800), Türkiye (3.400), Združeno kraljestvo (2.900) in Mehika (2.500).

Od 15 primerov do 100.000: razvoj kohorte v 127 oznakah držav

Izvirni nabor primerov V11 je pokrival sedem specialnosti — hematologijo, endokrinologijo, metabolično medicino, hepatologijo, nefrologijo, kardiologijo, revmatologijo — plus dva namenska primera pasti za hiperdijagnozo, pri čemer je bil vsak primer sintetično ustvarjen panel krvnih testov. Druga posodobitev V11 razširi ocenjevanje na 100.000 sintetičnih primerov v 127 oznakah držav, razporejenih v osem specialnosti (izvirnih sedem plus namenska skupina interne medicine, ki absorbira podmnožico pasti). Ista ocenjevalna rubrika se uporablja bajtno identično v obeh zagonih.

Zasnova začetne plošče primerov V11 — petnajst sintetičnih primerov krvnih testov iz sedmih medicinskih specialnosti plus dva hiperdijagnostična “trap” primera; ista rubrika je dosegla kompozitni rezultat 99,80% na 100.000 primerih v V11 drugi posodobitvi
Slika 2: Zasnova začetnega panela primerov V11 za hematologijo, endokrinologijo, metabolično medicino, hepatologijo, nefrologijo, kardiologijo, revmatologijo, plus dva primera pasti — Gilbertov sindrom in popolnoma normalen presejalni panel. Second Update ohrani to rubriko bajtno identično, hkrati pa razširi kohorto na 100.000 primerov, pridobljenih iz repozitorija Kantesti, podprtega z SQL.

Ker so vsi primeri sintetično ustvarjeni, ni resničnih identifikatorjev za odstranitev in ne gre za osebne podatke. Vsak sintetični primer nosi kodo primera, interno za merjenje uspešnosti (benchmark-internal case code) (BT-NNN-LABEL v začetnem naboru V11, stabilno case_uid v Drugi posodobitvi). Nikjer v objavljenem merilnem okviru, tehničnem poročilu ali izdanih naborih podatkov se ne pojavijo osebni podatki.

začetno izdajo V11 — 15 ročno izbranih primerov

Izvirno panelno zbirko primerov V11 je ročno izbral dr. Thomas Klein, da bi preizkusil diagnostične vzorce, ki jih laboratorijski medicinski pomočniki najpogosteje napačno razumejo. Vsak od petnajstih primerov je bil izbran zaradi določene diagnostične lastnosti, navedene spodaj.

Hematologija (3) BT-001, BT-006, BT-007 Anemija zaradi pomanjkanja železa · Pomanjkanje vitamina B12 · Manjša beta-talasemija
Endokrinologija (3) BT-002, BT-008, BT-012 Hashimotov tiroiditis · PCOS s inzulinsko rezistenco · Hudo pomanjkanje vitamina D
Presnovno (2) BT-003, BT-013 T2DM z metaboličnim sindromom · Hiperurikemija z tveganjem za protin
Hepatologija (2) BT-004, BT-009 NAFLD / NASH · Akutni virusni hepatitis
Nefrologija · Kardiologija · Revmatologija (3) BT-005, BT-010, BT-011 KLB stadij 3 · Aterogena dislipidemija · Sistemski eritematozni lupus
Primeri z pastjo (2) BT-014, BT-015 Gilbertova bolezen (izolirana indirektna hiperbilirubinemija) · Povsem normalen presejalni pregled odraslih

Zakaj je ta razporeditev prav takšna

Hematologija dobi tri primere, ker so mikrocitne diferencialne diagnoze in makrocitne diferencialne diagnoze v praksi realnih laboratorijev največje pasti z največjo količino primerov. Endokrinologija dobi tri, ker predstavitve, povezane z Hashimotom, PCOS in pomanjkanjem vitamina D, izvajajo različne diagnostične oblike (avtoprotitelesa, ki poganjajo diagnozo; razmerja hormonov, ki poganjajo diagnozo; en sam označevalec, ki poganja diagnozo). Enopravne specialnosti so še vedno smiselne, ker ima vsaka od CKD, tveganja za ASCVD in SLE svoj sistem točkovanja, ki ga mora motor priklicati (KDIGO-stadiranje, 10-letno tveganje ASCVD, merila 2019 EULAR/ACR za SLE oziroma).

V11 drugi posodobitvi — 100.000 sintetičnih primerov v 127 oznakah držav

Druga posodobitev nadomesti izvirni V11 trdo kodirani Pythonov literal s 15 primeri z večjim, programsko ustvarjenim sintetičnim naborom primerov. Nabor primerov se naloži na začetku vsakega zagona in konfiguracija se zabeleži za preglednost. Porazdelitev kohorte po vsebinskih področjih je prikazana spodaj.

Endokrinologija 23.900 primerov (23.9%) Ščitnica, PCOS, vitamin D, gonadalna os, hipofiza
Presnovna medicina 21.900 primerov (21.9%) T2DM, presnovni sindrom, lipidni paneli, hiperurikemija
Hematologija 15.400 primerov (15.4%) Diferencialne diagnoze mikrocitnih in makrocitnih anemij, B12/folat, študije železa
hepatologija 12.400 primerov (12.4%) NAFLD/NASH, virusni hepatitis, FIB-4, holestaza
Interna medicina (vključno s podmnožico pasti) 9.000 primerov (9.0%) Mešane predstavitve in 8.723 namenskih primerov pasti za hiperdijagnozo
Kardiologija 7.500 primerov (7.5%) Tveganje za ASCVD, aterogena dislipidemija, hs-CRP
Revmatologija 6.000 primerov (6.0%) SLE, RA, vaskulitis, paneli avtoprotiteles (kriteriji EULAR/ACR)
Nefrologija 4.000 primerov (4.0%) Stadiranje KLB (KDIGO), trendi eGFR, motnje elektrolitov

Sintetična porazdelitev oznak držav — top 10 oznak

100.000 sintetičnih primerov nosi 127 oznak držav (ISO 3166-1 alpha-2) za preizkus obravnave lokalizacije (locale handling). Dodelitev oznak: Evropa 57.7%, Amerike 25.4%, Azija-Pacifik 6.2%, poimenovane oznake Bližnji vzhod/Afrika 3.4% in dolg rep 97 dodatnih oznak približno 7.3% skupaj. Deset najpogostejših oznak po številu primerov so Združene države (10.500), Brazilija (9.500), Španija (9.000), Italija (8.000), Nemčija (7.800), Francija (7.400), Portugalska (5.800), Türkiye (3.400), Združeno kraljestvo (2.900) in Mehika (2.500). Kompozitne ocene po posamezni oznaki so se gibale od 0.9971 do 0.9985. Te štetne vrednosti oznak so lastnosti ustvarjenih primerov, uporabljenih za preizkus obravnave lokalizacije — niso resnični uporabniki in niso resnično geografsko pokritje.

Vnaprej registrirana rubrika, pojasnjena

Predregistracija je v tem merilu najpomembnejša metodološka izbira. Vsaka pričakovana diagnoza, vsak klinični sistem točkovanja in vsak razdelek poročila so bili predani izvorni kodi preden je bil motor priklican. Naknadno prilagajanje rubrike z namenom laskanja motorju zato ni mogoče.

Tri komponente sestavljajo sestavljeno oceno. strukturna komponenta prispeva 35 odstotkov in meri, ali je motor vrnil sedem obveznih razdelkov poročila (glava, povzetek, ključne ugotovitve, diferencialna diagnoza, sistemi točkovanja, priporočila, nadaljnje spremljanje) ter šestnajst obveznih podrazdelkov znotraj njih. Prisotnost razdelka ima utež 40 odstotkov, prisotnost podrazdelka pa 60 odstotkov v strukturnem izračunu.

The klinična komponenta prispeva 55 odstotkov in združi tri stvari: priklic diagnoznih ključnih besed (70 odstotkov kliničnega podrezultata), priklic sistema točkovanja (20 odstotkov — ali motor izračuna Mentzer, FIB-4, HOMA-IR, tveganje ASCVD, KDIGO-stadiranje, merila EULAR/ACR, kjer je relevantno) in preverjanje veljavnosti vsote verjetnosti (10 odstotkov — se morajo verjetnosti v diferencialni diagnozi sešteti znotraj intervala [90, 110]). Pri primerih v pasti se odšteje eksplicitna kazen za hiperdijagnozo do 0,30, izračunana kot 0,10 na vsak izmišljeni zastavici patologije, omejena na največ tri zastavice.

The komponenta zakasnitve prispeva 10 odstotkov. Odziv pod 20 sekundami prejme polnih 0,10, odziv pod 40 sekundami prejme 0,05, vse, kar je počasneje, prejme nič. Cilj 20 sekund odraža proizvodni primarni cilj storitvene ravni; zgornja meja 40 sekund odraža rezervni proračun za fazo 2 pri zahtevnih priklicih motorja.

Končni posnetek zaslona ocenjevalnega okvira Kantesti z licenco MIT, ki se izvaja in izpisuje rezultate po posameznih primerih — isti okvir, zdaj voden prek SQL, je ustvaril 99.80% kompozitni rezultat v izvedbi z 100.000 primeri v V11 Drugi posodobitvi
Slika 3: Preizkuševalni sistem v izvajanju — isti pogon, ki je ustvaril 99.80% sestavljeni rezultat v kohorti 100,000 primerov V11 Second Update. Vsak primer se izriše v A4 PDF, objavi na produkcijski v11 endpoint in oceni glede na zamrznjeno rubriko. Drugi posodobitvi je dodan parametriziran nalagalnik SQL primerov; stratificiran naključni vzorec surovih odzivov pogona (n = 201) se shrani skupaj z agregirano ocenjevalno kartico.

Česa predregistracija prepreči

Prvičelna merila so znana po napihovanju svojih lastnih številk z naknadnim prilagajanjem rubrike. Vzorec je skoraj vedno enak: ekipa zažene motor, vidi, kje podperformira, nato pa tiho prilagodi rubriko tako, da območja podperformiranja štejejo manj. Če rubriko pred prvo priklicem motorja zavežeš v izvorno kodo in objaviš preizkuševalni okvir pod licenco MIT, postane ta prilagoditev vidna v sistemu nadzora različic. Vsakdo lahko klonira repozitorij, preveri datume avtorstva rubrike in potrdi, da rezultati motorja niso bili uporabljeni za oblikovanje točkovanja.

Primeri pasti hiperdijagnoze — zakaj je pretirano klicanje pravi način odpovedi

Agresivno pretirano pripisovanje patologije na normalnih pregledih je dokumentiran način odpovedi pri medicinskih pomočnikih, namenjenih potrošnikom. Njeni posledični stroški vključujejo nepotrebne preiskave, tesnobo bolnikov in iatrogeno obravnavo. Dva primera v pasti v tem merilu sta zasnovana tako, da ta način odpovedi postane viden in ga je mogoče ovrednotiti.

Primerjava ena ob drugi naivnega AI, ki izmišljuje hepatitis na panelu za Gilbertov sindrom, v primerjavi z zagnonom Kantesti, ki pravilno prepozna benigno polimorfnost UGT1A1 — metodologija, ki se je razširila na nič lažno pozitivnih rezultatov v 87.412 priložnostih za zastavice »trap« v referenčni meritvi V11 Druga posodobitev 99.80%
Slika 4: Zasnova pasti iz začetne izdaje V11 — pogon, ki samozavestno označi Gilbertov sindrom kot hepatitis, ali ki ustvari mejno patologijo na povsem normalnem izvidu, je kaznovan namesto nagrajen zaradi zvenenja klinično. Ta metodologija se je razširila na 0 / 87,412 lažno pozitivne rezultate v izvedbi V11 Second Update z 100,000 primeri, ki je ustvarila sestavljeni rezultat 99.80%.

🟡 Pasti 1 — BT-014-GILBERT

Predstavitev. Moški, star 24 let, s skupnim bilirubinom 2,4 mg/dL. Direktni delež je normalen, transaminaze in alkalna fosfataza so znotraj svojih referenčnih razponov, retikulociti so nepomembni, haptoglobin in LDH izključita hemolizo.

Pravilna razlaga. Gilbertova bolezen — benigna polimorfna varianta UGT1A1. Razlaga ne sme priklicati hepatitisa, ciroze, hemolitične anemije ali bilijarne obstrukcije.

Rezultat v11. Sestavljena ocena 1,000. Nobena od šestih spremljanih zastavic prekomerne diagnoze se ni pojavila kot aktivna diagnoza.

🟡 Pasti 2 — BT-015-ZDRAV

Predstavitev. Ženska, stara 35 let, z rutinskim presejalnim panelom z petnajstimi parametri. Vsak analit udobno leži znotraj svojega referenčnega razpona.

Pravilna razlaga. Zagotovilo in vzdrževanje življenjskega sloga. Razlaga ne sme izmišljati mejne patologije, da bi zvenela klinično uporabna.

Rezultat v11. Sestavljena ocena 1.000. Nobena od sedmih spremljanih zastavic za prekomerno postavljanje diagnoz — diabetes, anemija, hipotiroidizem, dislipidemija, hepatitis, ledvična bolezen, pomanjkanje — se ni pojavila kot aktivna diagnoza.

V obeh pastih so preverili trinajst spremljanih zastavic za prekomerno diagnosticiranje. Nobena ni bila sprožena. To je rezultat, ki je za vsakega klinika najpomembnejši, če razmišlja o uporabi AI-razvijalnika kot orodja za triažo ali predhodno posvetovanje: sistem ni izumil bolezni, kjer je ni bilo.

Mentzerjev indeks: ločevanje pomanjkanja železa od značilnosti talasemije

Drugo visokovredno odkritje zadeva ujemanje primera BT-001 (anemija zaradi pomanjkanja železa) s primerom BT-007 (beta-talasemija minor). Oba se kažeta z mikrocitozo in sta dobro znana spotika za naivne klasifikatorje. Mentzerjev indeks, izračunan kot MCV deljeno s številom RBC, je pri pomanjkanju železa nad 13 in pri talasemijskem nosilstvu pod 13.

Pri BT-001 je bila pacientka 34-letna ženska z hemoglobinom 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritinom 6 ng/mL in povišanim TIBC. Mentzerjev indeks približno 17,7 podpira absolutno pomanjkanje železa. Pri BT-007 je bil pacient 28-letni moški z mikrocitozo (MCV 65,8 fL), vendar z visokim številom RBC 6,2, normalnim RDW, normalnim feritinom in HbA2 5,6 odstotka. Mentzerjev indeks približno 10,6 kaže na talasemijsko nosilstvo, povišan HbA2 pa potrjuje beta-talasemijo minor.

Anemija zaradi pomanjkanja železa Mentzer > 13 Nizek feritin, nizek TSAT, visok TIBC, povišan RDW
Talasemijsko nosilstvo (beta-talasemija) Mentzer < 13 Normalni feritin, normalni RDW, povišan HbA2 (>3,5%), visoko število RBC

Oba primera sta dosegla 1.000. Mehanizem je v obeh razlagah izrecno uporabil Mentzerjev indeks in v vsakem primeru vrnil pravilno diagnozo. To je najbolj klinično pomirjujoč rezultat v celotnem merilu, ker napačna razvrstitev talasemijskega nosilstva kot pomanjkanja železa vodi do neustreznega dodatka železa in spregleda priložnosti za presejanje v družini, napačna razvrstitev pomanjkanja železa kot talasemije pa odloži preprosto nadomestitveno terapijo. Naše vodnik po razponih feritina pojasnjuje širši diferencialni kontekst.

Rezultati po posameznih primerih iz začetnega referenčnega izvajanja V11 (23. april 2026)

Izvirno referenčno izvajanje V11 na 15-primerovnem dokaznem konceptu služi kot metodološka osnova za Second Update: vsak spodaj naveden podrobni opis po posameznem primeru prikazuje, kako rubrika obravnava resničen odziv pogona. Dvanajst od petnajstih primerov je doseglo zgornjo mejo sestavljenega rezultata 1.000 na primarni poti; trije primeri so bili obdelani prek povratne možnosti Phase 2, pri čemer so izgubili bonus za zakasnitev 0.05, vendar ohranili vse klinične in strukturne vsebine. En primeru je manjkala ena obvezna podsekcija; eden je vrnil nekoliko zmanjšano vsoto verjetnostnih porazdelitev.

ID primera Specializacija Sestavljena Zakasnitev Pot
BT-001-IDAHematologija1.00017,8 sprimarna
BT-006-B12Hematologija1.00018,4 sprimarna
BT-007-THALHematologija1.00017,0 sprimarna
BT-002-HASHEndokrinologija0.95037,0 spovratna možnost
BT-008-PCOSEndokrinologija0.98718,6 sprimarna
BT-003-T2DMPresnovni1.00019,1 sprimarna
BT-013-GOUTPresnovni1.00019,4 sprimarna
BT-004-NAFLDhepatologija1.00019,6 sprimarna
BT-009-VIRHEPhepatologija0.95023,4 spovratna možnost
BT-014-GILBERTpast1.00018,9 sprimarna
BT-005-CKDNefrologija1.00017,4 sprimarna
BT-010-ASCVDKardiologija1.00019,7 sprimarna
BT-011-SLERevmatologija0.98118,2 sprimarna
BT-012-VITDEndokrinologija1.00019,3 sprimarna
BT-015-ZDRAVOpast1.00018,7 spovratna možnost

Primer PCOS (BT-008) je v strukturi odgovora izgubil en obvezen pododdelek — petnajst od šestnajstih namesto šestnajst od šestnajstih — kar je znižalo strukturni rezultat z 1,000 na 0,963. Primer SLE (BT-011) je vrnil le nekoliko zmanjšano vsoto verjetnostnih porazdelitev, zaradi česar se je klinični rezultat znižal na 0,965, pri čemer je ohranil vse diagnostične ključne besede in sistem točkovanja. Noben od obeh primerov, ki nista bila popolna, ni zgrešil pravilne diagnoze.

Agregat V11 Second Update — 100,000 primerov

Na ravni populacije posamezne vrstice primerov niso berljive za človeka, zato Druga posodobitev poroča agregirane metrike namesto tabele s 100.000 vrsticami. Glavna agregirana vrednost je prikazana spodaj; razčlenitve po specialnosti in po oznaki države so objavljene v tehničnem poročilu in v depozitu Figshare. Stratificiran naključni vzorec n = 201 surovih odzivov pogona (deterministični seed 20260426) je objavljen v repozitoriju GitHub results/ za pregled.

Sestavljeni rezultat V11 začetno: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 v kohorti 100,000 primerov
Strukturni rezultat (povprečje) V11 začetno: 0.998 → Second Update: 1.000 Popolna strukturna skladnost na ravni populacije
Klinični rezultat (povprečje) V11 začetno: 0.998 → Second Update: 0.996 −0.002; noben primer ni zgrešil same diagnoze
Latenca — povprečje (razpon) Začetno stanje V11: 20,17 s (17,0–37,0 s) → Druga posodobitev: 13,26 s (9,0–16,94 s) Optimizacije proizvodnega pogona med zagoni
Pot pogona = primarna Začetno stanje V11: 12 / 15 → Druga posodobitev: 100,000 / 100,000 V nobeni točki med zagonom ni bilo potrebnega povratnega scenarija 2. faze
Zastavice hiperdijagnoze za podmnožico pasti Začetno stanje V11: 0 / 13 → Druga posodobitev: 0 / 87,412 Ničelni lažni pozitivni rezultati na ravni populacije (8.723 primerov pasti spremljanih)

Kaj nam glavna ocena ne pove

Kompozitna ocena 99.80 odstotka po tem konkretnem vnaprej registriranem ocenjevalnem merilu, na sintetični kohorti s 100.000 primeri, ki zajema 127 oznak držav, predstavlja zmogljivost skoraj do zgornje meje — vendar si zasluži skrbno uokvirjanje. Rezultat opisuje obnašanje motorja glede na ocenjevalno merilo, ki smo ga zavezali v izvorno kodo v V11; to ni univerzalna trditev o pravilnosti motorja na vsakem obstoječem panelu krvnih testov v resničnem svetu.

Ocena pove, da je pogon pravilno obravnaval diagnostične vzorce, izbrane za to ocenjevanje, po metodologiji, ki je objavljena in jo je mogoče reproducirati, na kohorti v merilu populacije. Ne pove, da je pogon pravilen za vsako krvno preiskavo, ki obstaja v praksi. Ne pove, da bi moral pogon nadomestiti klinično presojo. In ne pove, da pogon presega alternativne sisteme AI — primerjalne analize z drugimi pogoni so bile namerno izven obsega tega poročila.

Kar ocena dejansko vzpostavi, je izhodišče. Ker sta rubrika in ogrodje javna, je mogoče prihodnje različice pogona ocenjevati glede na isto rubriko — uporabljeno na začetnih 15 primerih V11, kohorti 100.000 primerov iz Druge posodobitve ali katerem koli nadaljnjem razširjanju — razlika med objavljeno oceno in katerim koli poznejšim zagonom pa je sama po sebi merljiva. To je vrednost vnaprejšnje registracije: pretvori trditve o uspešnosti v preverljive trditve.

Kako v 10 minutah ponoviti ta preizkus

Reprodukcija zahteva le par poverilnic Kantesti API in okolje Python 3.10 ali novejše z requests in reportlab nameščenimi knjižnicami. Celotno ogrodje je en samostojen Pythonov modul, izdan pod licenco MIT.

Diagram omrežja za ponovljivost, ki prikazuje benchmark V11 drugo posodobitev (kompozit 99,80%, 100.000 primerov, 127 oznak držav) zrcaljen prek Figshare, ResearchGate, Academia.edu in GitHub, pri čemer je DOI na Figshare kanonična sidrna točka
Slika 5: Merilo V11 Druga posodobitev — 99.80% kompozitna ocena na 100.000 primerih v 127 oznakah držav — je zrcaljen prek štirih raziskovalnih platform. DOI na Figshare je kanonični znanstveni identifikator; ResearchGate (publication 404175463), Academia.edu (paper 165956808) in GitHub gostijo vzporedne kopije z benchmark ogrodjem, stratificiranim naključnim vzorcem surovih odzivov ter karticami po državi/oznaki in po specialnosti.

Štirje koraki za nov zagon

Eni. Klonirajte repozitorij: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dva. Namestite odvisnosti z pip install -r requirements.txt (Druga posodobitev doda mysql-connector-python ≥ 8.0 za nalagalnik primerov SQL). Tri. Nastavite KANTESTI_USERNAME in KANTESTI_PASSWORD kot spremenljivke okolja za API pogona. Za nalagalnik primerov SQL iz Druge posodobitve dodatno nastavite KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, in KANTESTI_DB_PASSWORD — nalagalnik se poveže prek vloge samo za branje (bench_reader) ki nima pravic za prepoznavanje tabel. Štiri. Zaženite python benchmark_bloodtest.py --limit 100000 za celoten zagon Second-Update ali python benchmark_bloodtest.py --limit 1000 za hitro iteracijo. Izhodi se shranijo v ./benchmark_results/: CSV kartica z stolpci za posamezno državo/oznako in posamezno specialnost, JSON agregat, stratificiran-naključni vzorec surovih odzivov in poročilo v Markdownu.

Referenčni zagoni z dne 23. aprila 2026 (V11 začetni, 15 primerov) in 26. aprila 2026 (V11 Second Update, 100,000 primerov) so ohranjeni v results/ imeniku repozitorija. Nov zagon bo ustvaril novo časovno označeno ocenjevalno kartico, pri čemer referenčni zagoni ne bodo spremenjeni. Če vaš zagon ustvari bistveno drugačen rezultat, prosimo odprite GitHub issue z časovnim žigom zagona in različico motorja, vrnjeno v metapodatkih odgovora.

Omejitve in prihodnje delo

Tudi pri 100.000 primerih v 127 oznakah držav štiri omejitve zaslužijo izrecno priznanje: podvzorčenje oznak z dolgim repom, enkratna (single-shot) evalvacija, omejenost na en sam obseg motorja in en sam izvor podatkov. Vse to se obravnava v aktivnem nadaljnjem delu.

Pokritost oznak z dolgim repom. Druga posodobitev zajema 127 oznak držav, vendar je porazdelitev neuravnotežena — prvih 10 oznak predstavlja približno 66,4% primerov, dolg rep 97 dodatnih oznak pa skupaj prispeva približno 7,3% (približno 7.300 primerov skupaj, ~75 primerov na oznako v povprečju). Zato so kompoziti po posameznih oznakah v tem dolgem repu bolj šumni, kot nakazujejo vodilne številke. Prihodnji zagoni bodo ponovno uravnotežili dodeljevanje oznak, da se utrdijo ocene po posameznih oznakah.

Enkratna ocena. Vsak primer v kohorti je bil ovrednoten enkrat. Veliki jezikovni modeli kažejo nepomembno varianco izhodov tudi pri nizki temperaturi vzorčenja, zato je naslednji naravni korak protokol z več zagoni, petimi evalvacijami na primer in poročanjem o varianci — še posebej na podmnožici trap-case, kjer je skladnost pri nihanjih vzorčenja del varnostne trditve.

Enoten obseg motorja. To poročilo opisuje en motor. Primerjalne analize z alternativnimi sistemi AI niso predmet tega; morebiti jih bomo izvedli kot ločeno neodvisno študijo z ustrezno metodologijo, na istem MIT-licenciranem ogrodju.

Sintetični podatki. 100.000 primerov je sintetično generiranih, ne pa gre za sintetične primere v smislu realnih kliničnih podatkov, in rezultati se ne prenesejo na uspešnost v realnem kliničnem okolju. Evalvacija na realnih, privoljenih, zunanje pridobljenih podatkih bi zahtevala ustrezen etični nadzor in ni predmet tega sintetičnega benchmarka.

Poleg teh štirih je najbolj vplivna načrtovana razširitev večjezična enakovrednost po jurisdikciji. Kantesti AI Engine je na voljo uporabnikom v 75+ jezikih, izvajanje jezikovno stratificiranih podkohort Second-Update (turški, nemški, španski, francoski, italijanski, portugalski, arabski, mandarinski) pa bo kvantificiralo kakovost izhodov v jezikih, ki jih motor podpira. Vsaka jezikovno stratificirana analiza bo objavljena s svojim DOI in vejo ogrodja.