Zakaj ta referenčna študija obstaja in kaj preverja

AI-podprta razlaga krvne slike se vse bolj uporablja v potrošniških in kliničnih delovnih tokovih, vendar ostajajo ponovljivi ocenjevalni okviri, prilagojeni laboratorijski medicini, redki. V tem kontekstu so ključna vprašanja tista, ki niso zajeta v splošnih medicinskih benchmarkih za vprašanja in odgovore: ali lahko motor loči anemijo zaradi pomanjkanja železa od talasemijske značilnosti, ko je povprečni volumen eritrocitov enak, ali prekomerno diagnosticira Gilbertovo bolezen kot hepatitis in ali ustvari patologijo v povsem normalnem presejalnem naboru?

Diagram poteka vnaprej registrirane rubrike, ki prikazuje, kako se Kantesti AI Engine — V11 Druga posodobitev, 99.80% kompozitni rezultat pri 100.000 primerih — ovrednoti glede na zamrznjena merila točkovanja
Slika 1: Referenčna arhitektura v ozadju 99.80% kompozitni rezultat pri V11 Second Update kohorti s 100.000 primeri — vsak primer, vsaka ključna beseda, vsak sistem točkovanja je fiksiran v izvorni kodi, preden motor sploh vidi en sam PDF, ocenjevalna rubrika pa je bajtno identična začetni izdaji V11. Naknadno prilagajanje rubrike ni mogoče, kot je zasnovano.

Posamezna plošča krvnih preiskav običajno vsebuje dovolj signalov za več konkurenčnih interpretacij, naloga zdravnika, ki interpretira izvide, pa je, da te interpretacije med seboj pretehta, namesto da bi poiskal “pravilni” odgovor iz učbenika. Motor, ki se dobro obnese na primerih iz učbenikov, lahko še vedno odpove pri primerih, ki najbolj štejejo: pri pastih diferencialne diagnoze, pri benignih različicah, ki same po sebi delujejo zaskrbljujoče, in pri povsem normalnih ploščah, ki samozavestne pomočnike zapeljejo v “izdelavo” patologije.

Ta ocenjevalna shema je bila zgrajena prav okoli teh načinov odpovedi. Vsak od petnajstih primerov je bil izbran zaradi določene diagnostične lastnosti: mikrocitoza zaradi pomanjkanja železa, ki jo je treba ločiti od lastnosti beta-talasemije z enakim povprečnim volumnom eritrocitov, predstavitev Gilbertovega sindroma, kjer je edina nepravilnost izolirana indirektna hiperbilirubinemija, ter presejalna plošča z 15 parametri, v kateri je vsak analit znotraj svojega referenčnega območja. Rubrika nagrajuje motorje, ki vsak primer bere v njegovem kontekstu, in kaznuje motorje, ki posežejo po samozavestni diagnozi, kadar takšna diagnoza ni upravičena.

Kot Thomas Klein, dr. med., sem izbral nabor primerov, ker so to vzorci, ki jih laboratorijsko-medicinski pomočniki najpogosteje razumejo napačno. Dragi način odpovedi ni "spregledati redke bolezni" — temveč izmišljati rutinsko patologijo pri bolnikih, ki je nimajo. Naš Medicinska validacija hub opisuje širši okvir; ta stran opisuje začetni dokaz koncepta V11 in V11 Second Update, ki ga je razširil na 100.000 anonimiziranih primerov, pridobljenih iz kliničnega repozitorija, podprtega z SQL, ki zajema 127 držav — z uporabo iste ocenjevalne rubrike, bajtno identične, brez dovoljenega naknadnega prilagajanja.

Najnovejši referenčni zagon — V11 Second Update (26. april 2026)

Referenčni zagon V11 Second Update z dne 26. aprila 2026 je ustvaril sestavljeno oceno 99.80% na isti vnaprej registrirani rubriki, uporabljeni v začetni izdaji V11, ovrednoteno na 100.000 anonimiziranih primerih iz kliničnega repozitorija Kantesti, podprtega z SQL, in zajemajoč 127 državah in jezike 75+. Vsak primer je bil zaključen na primarni poti motorja; aktivacije zastavic za hiperdijagnozo v primerih pasti so ostale pri 0 / 87,412. Izvirni zagon V11 z dne 23. aprila 2026 je zajemal 15 ročno izbranih primerov (sestavljena 99.12%) in potrdil rubriko; Second Update ohrani to rubriko bajtno identično in razširi ovrednotenje na kohorto na ravni populacije.

Sestavljena 99.80% 100.000 od 100.000 primerov z oceno
1.000 Strukturna ocena
0.996 Klinična ocena
13.26 s Povprečna zakasnitev
0 / 87,412 Lažni pozitivni rezultati v pastih

Sestavljena formula združuje tri komponente: strukturna skladnost s sedmimi obveznimi razdelki poročila in šestnajstimi obveznimi podrazdelki, klinična točnost merjena kot priklic ključnih besed plus priklic iz ocenjevalnega sistema plus preverjanje veljavnosti z verjetnostno porazdelitvijo, in odzivni čas glede na ciljno raven storitve na primarni poti. Natančna razčlenitev je prikazana v spodnji formuli rubrike — nobena od teh uteži ali podrubrik ni bila spremenjena za Second Update.

Sestavljeno = 0.35 × Strukturno + 0.55 × Klinično + 0.10 × Zakasnitev

Preostalih 0.20 odstotne točke rezerve se skoraj v celoti razgradijo v klinični podrezultat — majhen delež primerov (predvsem v hepatologiji in revmatologiji) je imel eno pričakovano ključno besedo sistema točkovanja odsotno iz interpretacije motorja, čeprav je bila diagnostična vsebina pravilna. Noben primer v kohorti 100.000 primerov Second Update ni zgrešil same diagnoze. Latenca se je izboljšala iz povprečja 20.17 s v začetni izdaji V11 na 13.26 s v Second Update, kar odraža optimizacije produkcijskega motorja med obema zagonom; rubrika, koda za točkovanje in končna točka API ostajajo nespremenjene.

Sestavljene ocene po državah so se gibale od 0.9971 (Indija) do 0.9985 (Švica) med 30 najbolj zastopanimi državami. Dolgi rep 97 dodatnih držav (skupaj približno 7.300 primerov) ni pokazal sistematičnega poslabšanja. Največji prispevki po številu primerov so bile Združene države (10.500), Brazilija (9.500), Španija (9.000), Italija (8.000), Nemčija (7.800), Francija (7.400), Portugalska (5.800), Türkiye (3.400), Združeno kraljestvo (2.900) in Mehika (2.500).

Od 15 primerov do 100.000: razvoj kohorte v 127 državah

Izvirni panel primerov V11 je pokrival sedem specialnosti — hematologijo, endokrinologijo, metabolično medicino, hepatologijo, nefrologijo, kardiologijo, revmatologijo — plus dva namenska primera pasti za hiperdijagnozo, pri čemer je bil vsak primer anonimiziran resničen zapis bolnika, pridobljen iz kliničnega podatkovnega repozitorija Kantesti na podlagi pisnega informiranega soglasja. V11 Second Update razširi ovrednotenje na 100.000 anonimiziranih primerov v 127 državah, razporejenih v osem specialnosti (izvirnih sedem plus namenska skupina interne medicine, ki absorbira podmnožico pasti). Ista ocenjevalna rubrika se uporablja bajtno identično v obeh zagonih.

Zasnova panela primerov začetne V11 — petnajst anonimnih primerov krvnih preiskav iz sedmih medicinskih specialnosti plus dva primera »hyperdiagnosis trap«; ista rubrika je dosegla 99.80% kompozitni rezultat pri 100.000 primerih v V11 Drugi posodobitvi
Slika 2: Zasnova začetnega panela primerov V11 za hematologijo, endokrinologijo, metabolično medicino, hepatologijo, nefrologijo, kardiologijo, revmatologijo, plus dva primera pasti — Gilbertov sindrom in popolnoma normalen presejalni panel. Second Update ohrani to rubriko bajtno identično, hkrati pa razširi kohorto na 100.000 primerov, pridobljenih iz repozitorija Kantesti, podprtega z SQL.

De-identifikacija je bila izvedena po pristopu Safe Harbor: vsi neposredni identifikatorji so bili odstranjeni ali zamenjani, vsakemu zapisu pa je bila dodeljena interna koda primera v formatu BT-NNN-LABEL (začetni V11) ali stabilen anonimiziran case_uid za Second Update. Obdelava je potekala v skladu z členom 9(2)(j) GDPR za znanstvene raziskave z ustreznimi zaščitnimi ukrepi ter z ustreznimi določbami UK GDPR. Nobeni osebni podatki za identifikacijo se nikjer ne pojavijo v objavljenem ogrodju, tehničnem poročilu ali sproščenih naborih podatkov.

začetno izdajo V11 — 15 ročno izbranih primerov

Izvirno panelno zbirko primerov V11 je ročno izbral dr. Thomas Klein, da bi preizkusil diagnostične vzorce, ki jih laboratorijski medicinski pomočniki najpogosteje napačno razumejo. Vsak od petnajstih primerov je bil izbran zaradi določene diagnostične lastnosti, navedene spodaj.

Hematologija (3) BT-001, BT-006, BT-007 Anemija zaradi pomanjkanja železa · Pomanjkanje vitamina B12 · Manjša beta-talasemija
Endokrinologija (3) BT-002, BT-008, BT-012 Hashimotov tiroiditis · PCOS s inzulinsko rezistenco · Hudo pomanjkanje vitamina D
Presnovno (2) BT-003, BT-013 T2DM z metaboličnim sindromom · Hiperurikemija z tveganjem za protin
Hepatologija (2) BT-004, BT-009 NAFLD / NASH · Akutni virusni hepatitis
Nefrologija · Kardiologija · Revmatologija (3) BT-005, BT-010, BT-011 KLB stadij 3 · Aterogena dislipidemija · Sistemski eritematozni lupus
Primeri z pastjo (2) BT-014, BT-015 Gilbertova bolezen (izolirana indirektna hiperbilirubinemija) · Povsem normalen presejalni pregled odraslih

Zakaj je ta razporeditev prav takšna

Hematologija dobi tri primere, ker so mikrocitne diferencialne diagnoze in makrocitne diferencialne diagnoze v praksi realnih laboratorijev največje pasti z največjo količino primerov. Endokrinologija dobi tri, ker predstavitve, povezane z Hashimotom, PCOS in pomanjkanjem vitamina D, izvajajo različne diagnostične oblike (avtoprotitelesa, ki poganjajo diagnozo; razmerja hormonov, ki poganjajo diagnozo; en sam označevalec, ki poganja diagnozo). Enopravne specialnosti so še vedno smiselne, ker ima vsaka od CKD, tveganja za ASCVD in SLE svoj sistem točkovanja, ki ga mora motor priklicati (KDIGO-stadiranje, 10-letno tveganje ASCVD, merila 2019 EULAR/ACR za SLE oziroma).

V11 drugi posodobitveni paket — 100.000 anonimiziranih primerov v 127 državah

Druga posodobitev zamenja izvirni V11 trdo kodirani Pythonov literal s 15 primeri z parametriiziranim, samo za branje SQL-poizvedovanjem nad kliničnim repozitorijem Kantesti (anonymised_blood_panels). Poizvedba filtrira na consent_research = 1 AND released_for_benchmark = 1 in se zaradi preglednosti izpiše na vrhu vsakega zagona merjenja. Porazdelitev kohorte po specialnosti je prikazana spodaj.

Endokrinologija 23.900 primerov (23.9%) Ščitnica, PCOS, vitamin D, gonadalna os, hipofiza
Presnovna medicina 21.900 primerov (21.9%) T2DM, presnovni sindrom, lipidni paneli, hiperurikemija
Hematologija 15.400 primerov (15.4%) Diferencialne diagnoze mikrocitnih in makrocitnih anemij, B12/folat, študije železa
hepatologija 12.400 primerov (12.4%) NAFLD/NASH, virusni hepatitis, FIB-4, holestaza
Interna medicina (vključno s podmnožico pasti) 9.000 primerov (9.0%) Mešane predstavitve in 8.723 namenskih primerov pasti za hiperdijagnozo
Kardiologija 7.500 primerov (7.5%) Tveganje za ASCVD, aterogena dislipidemija, hs-CRP
Revmatologija 6.000 primerov (6.0%) SLE, RA, vaskulitis, paneli avtoprotiteles (kriteriji EULAR/ACR)
Nefrologija 4.000 primerov (4.0%) Stadiranje KLB (KDIGO), trendi eGFR, motnje elektrolitov

Geografska porazdelitev — top 10 držav

Kohorta zajema 127 držav (ISO 3166-1 alpha-2). Evropa prispeva 57.7%, Amerike 25.4%, Azija–Pacifik 6.2%, poimenovani vnosi Bližnji vzhod/Afrika 3.4%, ter dolg rep 97 dodatnih držav skupaj približno 7.3%. Deset največjih prispevkov prihaja iz Združenih držav (10,500), Brazilije (9,500), Španije (9,000), Italije (8,000), Nemčije (7,800), Francije (7,400), Portugalske (5,800), Türkiye (3,400), Združenega kraljestva (2,900) in Mehike (2,500). Sestavljeni rezultati po državah so se gibali od 0.9971 (Indija) do 0.9985 (Švica).

Vnaprej registrirana rubrika, pojasnjena

Predregistracija je v tem merilu najpomembnejša metodološka izbira. Vsaka pričakovana diagnoza, vsak klinični sistem točkovanja in vsak razdelek poročila so bili predani izvorni kodi preden je bil motor priklican. Naknadno prilagajanje rubrike z namenom laskanja motorju zato ni mogoče.

Tri komponente sestavljajo sestavljeno oceno. strukturna komponenta prispeva 35 odstotkov in meri, ali je motor vrnil sedem obveznih razdelkov poročila (glava, povzetek, ključne ugotovitve, diferencialna diagnoza, sistemi točkovanja, priporočila, nadaljnje spremljanje) ter šestnajst obveznih podrazdelkov znotraj njih. Prisotnost razdelka ima utež 40 odstotkov, prisotnost podrazdelka pa 60 odstotkov v strukturnem izračunu.

The klinična komponenta prispeva 55 odstotkov in združi tri stvari: priklic diagnoznih ključnih besed (70 odstotkov kliničnega podrezultata), priklic sistema točkovanja (20 odstotkov — ali motor izračuna Mentzer, FIB-4, HOMA-IR, tveganje ASCVD, KDIGO-stadiranje, merila EULAR/ACR, kjer je relevantno) in preverjanje veljavnosti vsote verjetnosti (10 odstotkov — se morajo verjetnosti v diferencialni diagnozi sešteti znotraj intervala [90, 110]). Pri primerih v pasti se odšteje eksplicitna kazen za hiperdijagnozo do 0,30, izračunana kot 0,10 na vsak izmišljeni zastavici patologije, omejena na največ tri zastavice.

The komponenta zakasnitve prispeva 10 odstotkov. Odziv pod 20 sekundami prejme polnih 0,10, odziv pod 40 sekundami prejme 0,05, vse, kar je počasneje, prejme nič. Cilj 20 sekund odraža proizvodni primarni cilj storitvene ravni; zgornja meja 40 sekund odraža rezervni proračun za fazo 2 pri zahtevnih priklicih motorja.

Končni posnetek zaslona ocenjevalnega okvira Kantesti z licenco MIT, ki se izvaja in izpisuje rezultate po posameznih primerih — isti okvir, zdaj voden prek SQL, je ustvaril 99.80% kompozitni rezultat v izvedbi z 100.000 primeri v V11 Drugi posodobitvi
Slika 3: Preizkuševalni sistem v izvajanju — isti pogon, ki je ustvaril 99.80% sestavljeni rezultat v kohorti 100,000 primerov V11 Second Update. Vsak primer se izriše v A4 PDF, objavi na produkcijski v11 endpoint in oceni glede na zamrznjeno rubriko. Drugi posodobitvi je dodan parametriziran nalagalnik SQL primerov; stratificiran naključni vzorec surovih odzivov pogona (n = 201) se shrani skupaj z agregirano ocenjevalno kartico.

Česa predregistracija prepreči

Prvičelna merila so znana po napihovanju svojih lastnih številk z naknadnim prilagajanjem rubrike. Vzorec je skoraj vedno enak: ekipa zažene motor, vidi, kje podperformira, nato pa tiho prilagodi rubriko tako, da območja podperformiranja štejejo manj. Če rubriko pred prvo priklicem motorja zavežeš v izvorno kodo in objaviš preizkuševalni okvir pod licenco MIT, postane ta prilagoditev vidna v sistemu nadzora različic. Vsakdo lahko klonira repozitorij, preveri datume avtorstva rubrike in potrdi, da rezultati motorja niso bili uporabljeni za oblikovanje točkovanja.

Primeri pasti hiperdijagnoze — zakaj je pretirano klicanje pravi način odpovedi

Agresivno pretirano pripisovanje patologije na normalnih pregledih je dokumentiran način odpovedi pri medicinskih pomočnikih, namenjenih potrošnikom. Njeni posledični stroški vključujejo nepotrebne preiskave, tesnobo bolnikov in iatrogeno obravnavo. Dva primera v pasti v tem merilu sta zasnovana tako, da ta način odpovedi postane viden in ga je mogoče ovrednotiti.

Primerjava ena ob drugi naivnega AI, ki izmišljuje hepatitis na panelu za Gilbertov sindrom, v primerjavi z zagnonom Kantesti, ki pravilno prepozna benigno polimorfnost UGT1A1 — metodologija, ki se je razširila na nič lažno pozitivnih rezultatov v 87.412 priložnostih za zastavice »trap« v referenčni meritvi V11 Druga posodobitev 99.80%
Slika 4: Zasnova pasti iz začetne izdaje V11 — pogon, ki samozavestno označi Gilbertov sindrom kot hepatitis, ali ki ustvari mejno patologijo na povsem normalnem izvidu, je kaznovan namesto nagrajen zaradi zvenenja klinično. Ta metodologija se je razširila na 0 / 87,412 lažno pozitivne rezultate v izvedbi V11 Second Update z 100,000 primeri, ki je ustvarila sestavljeni rezultat 99.80%.

🟡 Pasti 1 — BT-014-GILBERT

Predstavitev. Moški, star 24 let, s skupnim bilirubinom 2,4 mg/dL. Direktni delež je normalen, transaminaze in alkalna fosfataza so znotraj svojih referenčnih razponov, retikulociti so nepomembni, haptoglobin in LDH izključita hemolizo.

Pravilna razlaga. Gilbertova bolezen — benigna polimorfna varianta UGT1A1. Razlaga ne sme priklicati hepatitisa, ciroze, hemolitične anemije ali bilijarne obstrukcije.

Rezultat v11. Sestavljena ocena 1,000. Nobena od šestih spremljanih zastavic prekomerne diagnoze se ni pojavila kot aktivna diagnoza.

🟡 Pasti 2 — BT-015-ZDRAV

Predstavitev. Ženska, stara 35 let, z rutinskim presejalnim panelom z petnajstimi parametri. Vsak analit udobno leži znotraj svojega referenčnega razpona.

Pravilna razlaga. Zagotovilo in vzdrževanje življenjskega sloga. Razlaga ne sme izmišljati mejne patologije, da bi zvenela klinično uporabna.

Rezultat v11. Sestavljena ocena 1.000. Nobena od sedmih spremljanih zastavic za prekomerno postavljanje diagnoz — diabetes, anemija, hipotiroidizem, dislipidemija, hepatitis, ledvična bolezen, pomanjkanje — se ni pojavila kot aktivna diagnoza.

V obeh pastih so preverili trinajst spremljanih zastavic za prekomerno diagnosticiranje. Nobena ni bila sprožena. To je rezultat, ki je za vsakega klinika najpomembnejši, če razmišlja o uporabi AI-razvijalnika kot orodja za triažo ali predhodno posvetovanje: sistem ni izumil bolezni, kjer je ni bilo.

Mentzerjev indeks: ločevanje pomanjkanja železa od značilnosti talasemije

Drugo visokovredno odkritje zadeva ujemanje primera BT-001 (anemija zaradi pomanjkanja železa) s primerom BT-007 (beta-talasemija minor). Oba se kažeta z mikrocitozo in sta dobro znana spotika za naivne klasifikatorje. Mentzerjev indeks, izračunan kot MCV deljeno s številom RBC, je pri pomanjkanju železa nad 13 in pri talasemijskem nosilstvu pod 13.

Pri BT-001 je bila pacientka 34-letna ženska z hemoglobinom 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritinom 6 ng/mL in povišanim TIBC. Mentzerjev indeks približno 17,7 podpira absolutno pomanjkanje železa. Pri BT-007 je bil pacient 28-letni moški z mikrocitozo (MCV 65,8 fL), vendar z visokim številom RBC 6,2, normalnim RDW, normalnim feritinom in HbA2 5,6 odstotka. Mentzerjev indeks približno 10,6 kaže na talasemijsko nosilstvo, povišan HbA2 pa potrjuje beta-talasemijo minor.

Anemija zaradi pomanjkanja železa Mentzer > 13 Nizek feritin, nizek TSAT, visok TIBC, povišan RDW
Talasemijsko nosilstvo (beta-talasemija) Mentzer < 13 Normalni feritin, normalni RDW, povišan HbA2 (>3,5%), visoko število RBC

Oba primera sta dosegla 1.000. Mehanizem je v obeh razlagah izrecno uporabil Mentzerjev indeks in v vsakem primeru vrnil pravilno diagnozo. To je najbolj klinično pomirjujoč rezultat v celotnem merilu, ker napačna razvrstitev talasemijskega nosilstva kot pomanjkanja železa vodi do neustreznega dodatka železa in spregleda priložnosti za presejanje v družini, napačna razvrstitev pomanjkanja železa kot talasemije pa odloži preprosto nadomestitveno terapijo. Naše vodnik po razponih feritina pojasnjuje širši diferencialni kontekst.

Rezultati po posameznih primerih iz začetnega referenčnega izvajanja V11 (23. april 2026)

Izvirno referenčno izvajanje V11 na 15-primerovnem dokaznem konceptu služi kot metodološka osnova za Second Update: vsak spodaj naveden podrobni opis po posameznem primeru prikazuje, kako rubrika obravnava resničen odziv pogona. Dvanajst od petnajstih primerov je doseglo zgornjo mejo sestavljenega rezultata 1.000 na primarni poti; trije primeri so bili obdelani prek povratne možnosti Phase 2, pri čemer so izgubili bonus za zakasnitev 0.05, vendar ohranili vse klinične in strukturne vsebine. En primeru je manjkala ena obvezna podsekcija; eden je vrnil nekoliko zmanjšano vsoto verjetnostnih porazdelitev.

ID primera Specializacija Sestavljena Zakasnitev Pot
BT-001-IDAHematologija1.00017,8 sprimarna
BT-006-B12Hematologija1.00018,4 sprimarna
BT-007-THALHematologija1.00017,0 sprimarna
BT-002-HASHEndokrinologija0.95037,0 spovratna možnost
BT-008-PCOSEndokrinologija0.98718,6 sprimarna
BT-003-T2DMPresnovni1.00019,1 sprimarna
BT-013-GOUTPresnovni1.00019,4 sprimarna
BT-004-NAFLDhepatologija1.00019,6 sprimarna
BT-009-VIRHEPhepatologija0.95023,4 spovratna možnost
BT-014-GILBERTpast1.00018,9 sprimarna
BT-005-CKDNefrologija1.00017,4 sprimarna
BT-010-ASCVDKardiologija1.00019,7 sprimarna
BT-011-SLERevmatologija0.98118,2 sprimarna
BT-012-VITDEndokrinologija1.00019,3 sprimarna
BT-015-ZDRAVOpast1.00018,7 spovratna možnost

Primer PCOS (BT-008) je v strukturi odgovora izgubil en obvezen pododdelek — petnajst od šestnajstih namesto šestnajst od šestnajstih — kar je znižalo strukturni rezultat z 1,000 na 0,963. Primer SLE (BT-011) je vrnil le nekoliko zmanjšano vsoto verjetnostnih porazdelitev, zaradi česar se je klinični rezultat znižal na 0,965, pri čemer je ohranil vse diagnostične ključne besede in sistem točkovanja. Noben od obeh primerov, ki nista bila popolna, ni zgrešil pravilne diagnoze.

Agregat V11 Second Update — 100,000 primerov

Na ravni populacije posamezne vrstice primerov niso berljive za človeka, zato Second Update poroča agregirane metrike namesto tabele s 100,000 vrsticami. Glavni agregat je prikazan spodaj; razčlenitve po specialnostih in po državah so objavljene v tehničnem poročilu in v vnosu Figshare. Stratificiran naključni vzorec n = 201 surovih odzivov pogona (deterministični seed 20260426) je objavljen v repozitoriju GitHub results/ za pregled.

Sestavljeni rezultat V11 začetno: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 v kohorti 100,000 primerov
Strukturni rezultat (povprečje) V11 začetno: 0.998 → Second Update: 1.000 Popolna strukturna skladnost na ravni populacije
Klinični rezultat (povprečje) V11 začetno: 0.998 → Second Update: 0.996 −0.002; noben primer ni zgrešil same diagnoze
Latenca — povprečje (razpon) Začetno stanje V11: 20,17 s (17,0–37,0 s) → Druga posodobitev: 13,26 s (9,0–16,94 s) Optimizacije proizvodnega pogona med zagoni
Pot pogona = primarna Začetno stanje V11: 12 / 15 → Druga posodobitev: 100,000 / 100,000 V nobeni točki med zagonom ni bilo potrebnega povratnega scenarija 2. faze
Zastavice hiperdijagnoze za podmnožico pasti Začetno stanje V11: 0 / 13 → Druga posodobitev: 0 / 87,412 Ničelni lažni pozitivni rezultati na ravni populacije (8.723 primerov pasti spremljanih)

Kaj nam glavna ocena ne pove

Sestavljena ocena 99,80 odstotka po tej posebni vnaprej registrirani rubriki na anonimizirani kohorti 100.000 primerov, ki zajema 127 držav, pomeni delovanje skoraj na zgornji meji — vendar si zasluži skrbno uokvirjanje. Rezultat opisuje obnašanje pogona glede na rubriko, ki smo jo zavezali v izvorni kodi v V11; ni univerzalna trditev o pravilnosti pogona za vsako krvno preiskavo, ki obstaja v praksi.

Ocena pove, da je pogon pravilno obravnaval diagnostične vzorce, izbrane za to ocenjevanje, po metodologiji, ki je objavljena in jo je mogoče reproducirati, na kohorti v merilu populacije. Ne pove, da je pogon pravilen za vsako krvno preiskavo, ki obstaja v praksi. Ne pove, da bi moral pogon nadomestiti klinično presojo. In ne pove, da pogon presega alternativne sisteme AI — primerjalne analize z drugimi pogoni so bile namerno izven obsega tega poročila.

Kar ocena dejansko vzpostavi, je izhodišče. Ker sta rubrika in ogrodje javna, je mogoče prihodnje različice pogona ocenjevati glede na isto rubriko — uporabljeno na začetnih 15 primerih V11, kohorti 100.000 primerov iz Druge posodobitve ali katerem koli nadaljnjem razširjanju — razlika med objavljeno oceno in katerim koli poznejšim zagonom pa je sama po sebi merljiva. To je vrednost vnaprejšnje registracije: pretvori trditve o uspešnosti v preverljive trditve.

Kako v 10 minutah ponoviti ta preizkus

Reprodukcija zahteva le par poverilnic Kantesti API in okolje Python 3.10 ali novejše z requests in reportlab nameščenimi knjižnicami. Celotno ogrodje je en samostojen Pythonov modul, izdan pod licenco MIT.

Diagram omrežja reproducibilnosti, ki prikazuje referenčno meritev V11 Druga posodobitev (99.80% kompozit, 100.000 primerov, 127 držav), zrcaljeno na Figshare, ResearchGate, Academia.edu in GitHub, pri čemer je Figshare DOI kanonična sidrna točka
Slika 5: Merilo V11 Druga posodobitev — sestavljena ocena 99,80% na 100.000 primerih v 127 državah — se zrcali na štirih raziskovalnih platformah. Figshare DOI je kanonični znanstveni identifikator; ResearchGate (objava 404175463), Academia.edu (prispevek 165956808) in GitHub gostijo vzporedne kopije z ogrodjem, podprtim z SQL, stratificiranim naključnim vzorcem surovih odzivov in karticami rezultatov po državi/po specialnosti.

Štirje koraki za nov zagon

Eni. Klonirajte repozitorij: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dva. Namestite odvisnosti z pip install -r requirements.txt (Druga posodobitev doda mysql-connector-python ≥ 8.0 za nalagalnik primerov SQL). Tri. Nastavite KANTESTI_USERNAME in KANTESTI_PASSWORD kot spremenljivke okolja za API pogona. Za nalagalnik primerov SQL iz Druge posodobitve dodatno nastavite KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, in KANTESTI_DB_PASSWORD — nalagalnik se poveže prek vloge samo za branje (bench_reader) ki nima pravic za prepoznavanje tabel. Štiri. Zaženite python benchmark_bloodtest.py --limit 100000 za celoten zagon Second-Update ali python benchmark_bloodtest.py --limit 1000 za hitro iteracijo. Izhodi se shranijo v ./benchmark_results/: CSV ocenjevalna kartica z stolpci za posamezne države in posamezne specialnosti, JSON agregat, stratificiran naključni vzorec surovih odzivov in Markdown poročilo.

Referenčni zagoni z dne 23. aprila 2026 (V11 začetni, 15 primerov) in 26. aprila 2026 (V11 Second Update, 100,000 primerov) so ohranjeni v results/ imeniku repozitorija. Nov zagon bo ustvaril novo časovno označeno ocenjevalno kartico, pri čemer referenčni zagoni ne bodo spremenjeni. Če vaš zagon ustvari bistveno drugačen rezultat, prosimo odprite GitHub issue z časovnim žigom zagona in različico motorja, vrnjeno v metapodatkih odgovora.

Omejitve in prihodnje delo

Tudi pri 100,000 primerih v 127 državah si štiri omejitve zaslužijo izrecno priznanje: podvzorčenje držav z dolgim repom, enkratno vrednotenje, en sam obseg motorja in en sam izvor podatkov. Vsaka od njih se obravnava v aktivnem nadaljnjem delu.

Pokritost držav z dolgim repom. Second Update zajema 127 držav, vendar je porazdelitev neuravnotežena — prvih 10 prispevkov predstavlja približno 66.4% primerov, dodatnih 97 držav v dolgem repu pa skupaj prispeva približno 7.3% (skupaj približno 7,300 primerov, povprečno ~75 primerov na državo). Zato so sestavljeni rezultati po državah v tem dolgem repu bolj šumni, kot nakazujejo glavne številke. Prihodnji zagoni bodo prednostno vključevali države z nezadostnim vzorčenjem, da se okrepijo ocene po posameznih jurisdikcijah.

Enkratna ocena. Vsak primer v kohorti je bil ovrednoten enkrat. Veliki jezikovni modeli kažejo nepomembno varianco izhodov tudi pri nizki temperaturi vzorčenja, zato je naslednji naravni korak protokol z več zagoni, petimi evalvacijami na primer in poročanjem o varianci — še posebej na podmnožici trap-case, kjer je skladnost pri nihanjih vzorčenja del varnostne trditve.

Enoten obseg motorja. To poročilo opisuje en motor. Primerjalne analize z alternativnimi sistemi AI niso predmet tega; morebiti jih bomo izvedli kot ločeno neodvisno študijo z ustrezno metodologijo, na istem MIT-licenciranem ogrodju.

Enoten izvor podatkov. 100,000 primerov so anonimizirani resnični zapisi pacientov, pridobljeni iz enega kliničnega repozitorija (Kantesti SQL-podprt klinični podatkovni skladišč). Predstavljajo urejen produkcijski tok in niso naključen vzorec, reprezentativen za populacijo, na globalni ravni. Razširitev vrednotenja na zunanje pridobljene večcentrične podatke je na načrtu.

Poleg teh štirih je najbolj vplivna načrtovana razširitev večjezična enakovrednost po jurisdikciji. Kantesti AI Engine je na voljo uporabnikom v 75+ jezikih, izvajanje jezikovno stratificiranih podkohort Second-Update (turški, nemški, španski, francoski, italijanski, portugalski, arabski, mandarinski) pa bo kvantificiralo kakovost izhodov v jezikih, ki jih motor podpira. Vsaka jezikovno stratificirana analiza bo objavljena s svojim DOI in vejo ogrodja.