Kāpēc pastāv šis etalons un ko tas pārbauda

AI atbalstīta asins analīžu rezultātu interpretācija arvien biežāk tiek izmantota gan patērētāju, gan klīniskajos procesos, tomēr reproducējami novērtēšanas ietvari, kas pielāgoti laboratorijas medicīnai, joprojām ir reti. Šajā kontekstā svarīgākie jautājumi nav tie, ko aptver vispārīgas medicīniskās jautājumu-atbilžu etaloni: vai dzinējs spēj atšķirt dzelzs deficītu no talasēmijas pazīmes, ja vidējais eritrocītu tilpums ir identisks, vai tas pārdiaģnostē Gilberta sindromu kā hepatītu, un vai tas ģenerē patoloģiju pilnīgi normālā skrīninga panelī?

Iepriekš reģistrēta rubrikas plūsmas diagramma, kas parāda, kā Kantesti AI dzinējs — V11 Otrā atjauninājums, 99.80% kompozīta rezultāts 100 000 gadījumos — tiek izvērtēts pret iesaldētiem vērtēšanas kritērijiem
1. attēls: Etalona arhitektūra, kas balstās uz 99.80% kompozītais rādītājs V11 Otrā atjauninājuma 100 000 lietu kohortu — katrs gadījums, katrs atslēgvārds, katra vērtēšanas sistēma ir fiksēta pirmkoda veidā pirms dzinējs ieraudzīja kaut vienu PDF, un rubrika ir baitu ziņā identiska V11 sākotnējam izlaidumam. Pēcpusē rubrikas pielāgošana nav iespējama pēc konstrukcijas.

Viena asins analīžu paneļa parasti pietiek signāla, lai pamatotu vairākas konkurējošas interpretācijas, un interpretējošā ārsta uzdevums ir tās izvērtēt savstarpēji, nevis izvilkt “mācību grāmatas” atbildi. Dzinējs, kas labi darbojas pēc mācību grāmatas piemēriem, tomēr var izgāzties tieši tajos gadījumos, kas ir vissvarīgākie: diferenciāldiagnozes slazdos, labdabīgajās variācijās, kas vienatnē izskatās satraucošas, un pilnīgi normālos paneļos, kuri pavedina pārliecinātus palīgus izdomāt patoloģiju.

Šis etalons tika veidots tieši ap šiem kļūmju veidiem. Katrs no piecpadsmit gadījumiem tika izvēlēts konkrētai diagnostiskai īpašībai: dzelzs deficīta izraisīta mikrocitoze, kas jānošķir no beta-talasēmijas pazīmes ar identisku vidējo eritrocītu tilpumu, Džilberta sindroma aina, kur vienīgā novirze ir izolēta netiešā hiperbilirubinēmija, un piecpadsmit parametru skrīninga panelis, kur katrs analīts atrodas savā references diapazonā. Rubrika atalgo dzinējus, kas katru gadījumu lasa pēc tā paša noteikumiem, un soda dzinējus, kas mēģina noteikt pārliecinātu diagnozi, ja tāda diagnoze nav pamatota.

Kā doktors Tomass Kleins (MD) es izvēlējos gadījumu paneli, jo tieši šos modeļus laboratorijas medicīnas palīgi visbiežāk interpretē nepareizi. Dārgā kļūmes forma nav "nepamanīt retu slimību" — tā ir rutīnas patoloģijas izdomāšana pacientiem, kuriem tās nav. Mūsu Medicīniskā validācija hub apraksta plašāku ietvaru; šī lapa apraksta V11 sākotnējo pierādījumu koncepcijai un V11 otro atjauninājumu, kas to mērogāja līdz 100 000 sintētisku gadījumu, kas ņemti no sintētisku gadījumu kopas, aptverot 127 valstu etiķetes — izmantojot to pašu vērtēšanas rubriku, identisku pa baitiem, bez atļautas pēcpārbaudes (post-hoc) pielāgošanas.

Jaunākais atsauces palaidiens — V11 Otrā atjauninājums (2026. gada 26. aprīlis)

V11 Otrā atjauninājuma atsauces palaidiens 2026. gada 26. aprīlī deva salikto rezultātu 99.80% pēc tās pašas iepriekš reģistrētās rubrikas, kas izmantota V11 sākotnējā izlaidumā, novērtēts 100 000 sintētisku gadījumu ņemti no Kantesti sintētisko gadījumu kopas un aptverot 127 valstu etiķetes un 75+ valodas. Katrs gadījums pabeidza dzinēja galveno ceļu; slazdgadījumu hiperdagnostikas karoga aktivācijas palika pie 0 / 87,412. Sākotnējais V11 palaidiens 2026. gada 23. aprīlī aptvēra 15 ar rokām atlasītus gadījumus (saliktais 99.12%) un apstiprināja rubriku; Otrā atjauninājuma rubrika paliek baitu ziņā identiska un paplašina izvērtēšanu līdz populācijas mēroga kohortai.

Saliktais 99.80% 100 000 no 100 000 gadījumiem ieguva vērtējumu
1.000 Strukturālais rezultāts
0.996 Klīniskais rezultāts
13.26 s Vidējā latentuma vērtība
0 / 87,412 Slazdu viltus pozitīvie

Salikto formulu veido trīs komponentes: strukturālā atbilstība ar septiņām obligātajām ziņošanas sadaļām un sešpadsmit obligātajām apakšsadaļām, satura precizitāte mērīta kā atslēgvārdu atcerēšanās plus punktu sistēmas atcerēšanās plus varbūtību sadalījuma derīguma pārbaude, un atbildes latentums pret galveno ceļu apkalpošanas līmeņa mērķi. Precīzs sadalījums ir parādīts rubrikas formulā zemāk — neviens no šiem svariem vai apakšrubrikām netika mainīts Otrajā atjauninājumā.

Saliktais = 0.35 × Strukturālais + 0.55 × Klīniskais + 0.10 × Latentums

Atlikušās 0.20 procentpunktu brīvības vietas gandrīz pilnībā sadalās klīniskajā apakšrezultātā — nelielai daļai gadījumu (galvenokārt Hepatoloģijā un Reimatoloģijā) viens paredzēts vērtēšanas-sistēmas atslēgvārds nebija klātesošs dzinēja interpretācijā, lai gan diagnostiskais saturs bija pareizs. Neviens gadījums 100 000 lietu Otrā atjauninājuma kohortā neizlaida pašu diagnozi. Latence uzlabojās no vidējās 20.17 s V11 sākotnējā izlaidumā līdz 13.26 s Otrajā atjauninājumā, atspoguļojot ražošanas dzinēja optimizācijas starp abiem palaidiens; rubrika, vērtēšanas kods un API gala punkts nav mainīti.

Uz vienas etiķetes balstītie saliktie rādītāji svārstījās no 0,9971 līdz 0,9985 30 visbiežāk pārstāvētajās valstu etiķetēs. Garā aste no 97 papildu etiķetēm (kopā ≈7 300 gadījumu) neuzrādīja sistemātisku pasliktināšanos. Visbiežāk sastopamās etiķetes pēc gadījumu skaita bija Amerikas Savienotās Valstis (10 500), Brazīlija (9 500), Spānija (9 000), Itālija (8 000), Vācija (7 800), Francija (7 400), Portugāle (5 800), Türkiye (3 400), Apvienotā Karaliste (2 900) un Meksika (2 500).

No 15 gadījumiem līdz 100 000: kohortas evolūcija 127 valstu etiķetēs

Sākotnējā V11 gadījumu kopa aptvēra septiņas specialitātes — hematoloģiju, endokrinoloģiju, metabolo medicīnu, hepatoloģiju, nefroloģiju, kardioloģiju, reimatoloģiju — kā arī divus īpaši veltītus hiperdiagnostikas slazdu gadījumus, un katrs gadījums bija sintētiski ģenerēta asinsanalīžu paneļa. V11 otrais atjauninājums paplašina novērtējumu līdz 100 000 sintētiskiem gadījumiem 127 valstu etiķetēs, sadalīti astoņās specialitātēs (sākotnējās septiņas plus īpašs iekšējās medicīnas “spainis”, kas absorbē slazdu apakškopu). Tā pati vērtēšanas rubrika tiek piemērota baitu ziņā identiski abos palaidienos.

V11 sākotnējā gadījumu paneļa dizains — piecpadsmit sintētiski asinsanalīzes gadījumi septiņās medicīnas specialitātēs plus divi hiperdiaģnozes slazdgadījumi; tā pati rubrika sasniedza 99,80% salikto rezultātu 100 000 gadījumos V11 Otrajā atjauninājumā
2. attēls: V11 sākotnējais gadījumu paneļa dizains hematoloģijai, endokrinoloģijai, metabolo medicīnai, hepatoloģijai, nefroloģijai, kardioloģijai, reimatoloģijai, kā arī diviem slazdgadījumiem — Gilberta sindromam un pilnīgi normālam skrīninga panelim. Otrā atjauninājuma laikā šī rubrika tiek saglabāta baitu ziņā identiska, vienlaikus paplašinot kohortu līdz 100 000 gadījumu, kas iegūti no Kantesti SQL repozitorijas.

Tā kā visi gadījumi ir sintētiski ģenerēti, nav reālu identifikatoru, ko noņemt, un netiek iesaistīti personas dati. Katrs sintētiskais gadījums ietver etalona iekšējo gadījuma kodu (BT-NNN-LABEL V11 sākotnējā komplektā, stabils case_uid Otrajā atjauninājumā). Neviens personas datu elements neparādās ne publicētajā ietvarā, ne tehniskajā ziņojumā, ne izlaistajās datu kopās.

V11 sākotnējo izlaidumu — 15 ar rokām atlasīti gadījumi

Sākotnējo V11 gadījumu paneli ar roku atlasīja doktors Tomass Kleins, lai pārbaudītu diagnostikas modeļus, ko laboratorijas medicīnas asistenti visbiežāk kļūdaini interpretē. Katrs no piecpadsmit gadījumiem tika izvēlēts konkrētai diagnostikas īpašībai, kas uzskaitīta zemāk.

Hematoloģija (3) BT-001, BT-006, BT-007 Dzelzs deficīta anēmija · B12 deficīts · Bēta-talasēmija minor
Endokrinoloģija (3) BT-002, BT-008, BT-012 Hašimoto tireoidīts · PCOS ar insulīna rezistenci · Smags D vitamīna deficīts
Metaboliskais (2) BT-003, BT-013 T2DM ar metabolisko sindromu · Hiperurikēmija ar podagras risku
Hepatoloģija (2) BT-004, BT-009 NAFLD / NASH · Akūts vīrusu hepatīts
Nefroloģija · Kardioloģija · Reimatoloģija (3) BT-005, BT-010, BT-011 HNS 3. stadija · Aterogēna dislipidēmija · Sistēmiskā sarkanā vilkēde
Slazdu gadījumi (2) BT-014, BT-015 Gilberta sindroms (izolēta netiešā hiperbilirubinēmija) · Pilnīgi normāls pieaugušo skrīnings

Kāpēc tieši šāds sadalījums

Hematoloģija iegūst trīs gadījumus, jo mikrocitāro diferenciāļu un makrocitāro diferenciāļu slazdi reālās dzīves laboratorijas praksē ir vislielākās apjoma slazdi. Endokrinoloģija iegūst trīs, jo Hašimoto, PCOS un D vitamīna deficīta izpausmes veido atšķirīgas diagnostikas formas (autoantivielu virzītas, hormonu attiecību virzītas, viena marķiera virzītas). Viena gadījuma specialitātes joprojām ir nozīmīgas, jo katram no CKD, ASCVD riska un SLE ir sava punktu sistēma, kuru dzinējam vajadzētu izsaukt (attiecīgi KDIGO stadēšana, ASCVD 10 gadu risks, 2019. gada EULAR/ACR SLE kritēriji).

V11 otrais atjauninājums — 100 000 sintētisku gadījumu 127 valstu etiķetēs

Otrais atjauninājums aizstāj sākotnējo V11 cieti kodēto 15 gadījumu Python literāli ar lielāku, programmatiski ģenerētu sintētisku gadījumu kopu. Gadījumu kopa tiek ielādēta katras palaišanas sākumā, un konfigurācija tiek reģistrēta pārskatāmībai. Kohortas sadalījums pēc satura jomas ir parādīts zemāk.

Endokrinoloģija 23,900 gadījumi (23.9%) Vairogdziedzeris, PCOS, D vitamīns, gonadālā ass, hipofīze
Metabolā medicīna 21,900 gadījumi (21.9%) T2DM, metabolais sindroms, lipīdu paneļi, hiperurikēmija
Hematoloģija 15,400 gadījumi (15.4%) Mikrocitāras un makrocitāras diferenciāles, B12/folāts, dzelzs izmeklējumi
Hepatoloģija 12,400 gadījumi (12.4%) NAFLD/NASH, vīrusu hepatīts, FIB-4, holestāze
Iekšķīgā medicīna (t.sk. “trap” apakškopa) 9,000 gadījumi (9.0%) Jauktas izpausmes un 8,723 īpaši veltīti hiperdianostikas “trap” gadījumi
Kardioloģija 7,500 gadījumi (7.5%) ASCVD risks, aterogēna dislipidēmija, hs-CRP
Reimatoloģija 6,000 gadījumi (6.0%) SLE, RA, vaskulīts, autoantivielu paneļi (EULAR/ACR kritēriji)
Nefroloģija 4,000 gadījumi (4.0%) CKD stadēšana (KDIGO), eGFR tendences, elektrolītu traucējumi

Sintētiska valstu-etiķešu sadalījuma diagramma — top 10 etiķetes

100 000 sintētisko gadījumu ietver 127 valstu etiķetes (ISO 3166-1 alpha-2), lai pārbaudītu lokalizācijas apstrādi. Etiķešu piešķiršana: Eiropa 57,7%, Amerikas 25,4%, Āzijas un Klusā okeāna reģions 6,2%, nosauktās Tuvie Austrumi/Afrika etiķetes 3,4% un gara aste no 97 papildu etiķetēm kopā aptuveni 7,3%. Desmit visbiežāk sastopamās etiķetes pēc gadījumu skaita bija Amerikas Savienotās Valstis (10 500), Brazīlija (9 500), Spānija (9 000), Itālija (8 000), Vācija (7 800), Francija (7 400), Portugāle (5 800), Türkiye (3 400), Apvienotā Karaliste (2 900) un Meksika (2 500). Uz vienas etiķetes balstītie saliktie rādītāji svārstījās no 0,9971 līdz 0,9985. Šo etiķešu skaitu īpašības ir ģenerēto gadījumu raksturlielumi, kas izmantoti lokalizācijas apstrādes pārbaudei — tās nav reāli lietotāji un nav reāla mēroga ģeogrāfiska pārklājuma.

Iepriekš reģistrēto vērtēšanas kritēriju skaidrojums

Pirmsreģistrācija ir vissvarīgākā metodoloģiskā izvēle šajā etalonā. Katrs paredzamais diagnozes gadījums, katra klīniskā punktu sistēma un katra atskaites sadaļa tika apņemtas pirmkoda līmenī pirms dzinēja izsaukšanas. Tāpēc rubrikas post-hoc pielāgošana, lai glaimotu dzinējam, nav iespējama.

Salikto punktu veido trīs komponentes. strukturālā komponente veido 35 procentus un mēra, vai dzinējs atgrieza septiņas obligātās atskaites sadaļas (virsraksts, kopsavilkums, galvenie secinājumi, diferenciāļi, punktu sistēmas, ieteikumi, turpmākā rīcība) un sešpadsmit obligātās apakšsadaļas tajās. Sadaļas esamība strukturālajā aprēķinā sver 40 procentus, bet apakšsadaļas esamība — 60 procentus.

The klīniskā komponente veido 55 procentus un apvieno trīs lietas: diagnozes atslēgvārdu atsaukšanu (70 procenti no klīniskās apakšpunktu daļas), punktu sistēmas atsaukšanu (20 procenti — vai dzinējs aprēķina Mentzer, FIB-4, HOMA-IR, ASCVD risku, KDIGO stadēšanu, EULAR/ACR kritērijus, ja attiecināms), un varbūtību summas derīguma pārbaudi (10 procenti — diferenciāļu varbūtībām jāsummējas intervālā [90, 110]). Slazdu gadījumos tiek atņemta skaidra hiperdianozes soda maksa līdz 0.30, aprēķināta kā 0.10 par katru izdomātu patoloģijas karodziņu, ar griestiem līdz trim karodziņiem.

The latentuma komponente veido 10 procentus. Atbilde, kas ir īsāka par 20 sekundēm, saņem pilnus 0.10, atbilde, kas ir īsāka par 40 sekundēm, saņem 0.05, un jebkas lēnāks saņem nulli. 20 sekunžu mērķis atspoguļo ražošanas primārā-path servisa līmeņa mērķi; 40 sekunžu griesti atspoguļo 2. fāzes rezerves budžetu smagām dzinēja izsaukšanām.

Termināļa ekrānattēls no MIT licencētā Kantesti etalona ietvara, kas tiek palaists un izvada katra gadījuma rezultātus — tas pats ietvars, tagad balstīts uz SQL, V11 Otrā atjauninājuma 100 000 gadījumu palaišanā radīja 99.80% kompozīta rezultātu
3. attēls: Izpildē esošais “harness” — tas pats dzinējs, kas radīja 99.80% kompozīto rādītāju V11 Otrā atjauninājuma 100,000 gadījumu kohortā. Katrs gadījums tiek renderēts A4 PDF formātā, augšupielādēts ražošanas v11 endpointā un novērtēts pret iesaldēto rubriku. Otrais atjauninājums pievienoja parametrizētu SQL gadījumu ielādētāju; stratificēts nejaušs neapstrādātu dzinēja atbilžu paraugs (n = 201) tiek saglabāts līdzās agregētajam scorecard.

Ko novērš pirmsreģistrācija

Pirmās puses etaloni ir bēdīgi slaveni ar savu skaitļu uzpūšanu, veicot rubrikas post-hoc pielāgošanu. Modelis gandrīz vienmēr ir vienāds: komanda palaiž dzinēju, redz, kur tas nepietiekami veic, un tad klusi pielāgo rubriku tā, lai nepietiekami veiktās jomas tiktu vērtētas mazāk. Iesniedzot rubriku pirmkodā pirms pirmā dzinēja izsaukuma un publicējot testa ietvaru ar MIT licenci, šī pielāgošana kļūst redzama versiju kontrolē. Ikviens var klonēt repozitoriju, pārbaudīt rubrikas autoru datumus un verificēt, ka dzinēja rezultāti netika izmantoti vērtējuma veidošanai.

Hiperdiagnostikas slazda gadījumi — kāpēc pārmērīga izsaukšana ir īstais kļūmes režīms

Agresīva patoloģijas pārsaukšana normālos izmeklējumos ir dokumentēts kļūmes režīms patērētājam paredzētiem medicīnas asistentiem. Tās turpmākās izmaksas ietver nevajadzīgu izmeklēšanu, pacienta trauksmi un iatroģenisku izmeklējumu. Šī etalona divi slazdu gadījumi ir izstrādāti, lai padarītu šo kļūmes režīmu redzamu un vērtējamu.

Salīdzinājums blakus: naivs AI, kas izdomā hepatītu Gilberta sindroma panelī, salīdzinot ar Kantesti dzinēju, kas pareizi identificē labdabīgo UGT1A1 polimorfismu — metodoloģija, kas V11 Otrā atjauninājuma 99.80% etalonā mērogota līdz nullei viltus pozitīviem 87 412 slazda-flag iespēju gadījumos
4. attēls: “Trap-case” dizains no V11 sākotnējā izlaiduma — dzinējs, kas pārliecinoši Gilbert’s sindromu iezīmē kā hepatītu, vai kas ģenerē robežgadījuma patoloģiju pilnīgi normālā ekrānā, tiek sodīts, nevis apbalvots par klīniskai līdzīgas skanēšanas panākšanu. Šī metodoloģija tika mērogota uz 0 / 87,412 viltus pozitīvajiem gadījumiem V11 Otrā atjauninājuma 100,000 gadījumu izpildē, kas radīja 99.80% kompozīto rādītāju.

🟡 Slazds 1 — BT-014-GILBERT

Izpausme. 24 gadus vecs vīrietis ar kopējo bilirubīnu 2.4 mg/dL. Tiešā frakcija ir normāla, transamināzes un sārmainā fosfatāze atrodas savās atsauces robežās, retikulocīti ir bez ievērojamām īpatnībām, un haptoglobīns un LDH izslēdz hemolīzi.

Pareiza interpretācija. Džilberta sindroms — labdabīga UGT1A1 polimorfisma forma. Interpretācijā nedrīkst tikt piesaukts hepatīts, ciroze, hemolītiska anēmija vai žults ceļu obstrukcija.

V11 rezultāts. Saliktais 1.000. Neviens no sešiem uzraudzītajiem pārapzīmēšanas karodziņiem neparādījās kā aktīva diagnoze.

🟡 Slazds 2 — BT-015-HEALTHY

Izpausme. 35 gadus veca sieviete ar piecpadsmit parametru rutīnas skrīninga paneli. Katrs analīts ērti atrodas savā atsauces diapazonā.

Pareiza interpretācija. Pārliecība un dzīvesveida uzturēšana. Interpretācijai nevajadzētu izdomāt robežgadījumus, lai tā izklausītos klīniski noderīga.

V11 rezultāts. Kompozītais 1.000. Neviens no septiņiem uzraudzītajiem pārmērīgas diagnosticēšanas brīdinājumiem — diabēts, anēmija, hipotireoze, dislipidēmija, hepatīts, nieru slimība, deficīts — neparādījās kā aktīva diagnoze.

Abos slazdos tika pārbaudīti trīspadsmit uzraudzītie pārmērīgas diagnozes brīdinājumi. Neviens netika aktivizēts. Šis ir rezultāts, kas ir vissvarīgākais jebkuram ārstam, kurš apsver izmantot AI dzinēju kā triāžas vai pirmskonsultācijas rīku: sistēma neizdomāja slimību, ja tādas nebija.

Mentzera indekss: dzelzs deficīta nošķiršana no talasēmijas pazīmes

Otrs augstvērtīgs atradums attiecas uz gadījumu savienošanu: BT-001 (dzelzs deficīta anēmija) ar BT-007 (beta-talasēmijas minor). Abos gadījumos ir mikrocitoze, un tā ir labi zināma grūtība naiviem klasifikatoriem. Mentzera indekss, kas aprēķināts kā MCV dalīts ar RBC skaitu, dzelzs deficītā pārsniedz 13 un talasēmijas pazīmē nokrīt zem 13.

BT-001 gadījumā pacientei bija 34 gadus veca sieviete ar hemoglobīnu 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritīnu 6 ng/mL un paaugstinātu TIBC. Mentzera indekss, aptuveni 17,7, atbalsta absolūtu dzelzs deficītu. BT-007 gadījumā pacientam bija 28 gadus vecs vīrietis ar mikrocitozi (MCV 65,8 fL), bet ar augstu RBC skaitu 6,2, normālu RDW, normālu feritīnu un HbA2 5,6 procenti. Mentzera indekss, aptuveni 10,6, norāda uz talasēmijas pazīmi, un paaugstinātais HbA2 apstiprina beta-talasēmijas minor.

Dzelzs deficīta anēmija Mentzer > 13 Zems feritīns, zems TSAT, augsts TIBC, paaugstināts RDW
Beta-talassēmijas pazīme Mentzer < 13 Normāls feritīns, normāls RDW, paaugstināts HbA2 (>3,5%), augsts RBC skaits

Abiem gadījumiem rādītājs bija 1.000. Dzinējs abās interpretācijās skaidri izmantoja Mentzera indeksu un katrā gadījumā atgrieza pareizu diagnozi. Šis ir viens no klīniski visvairāk pārliecinošajiem rezultātiem visā etalonā, jo talasēmijas pazīmes nepareiza klasificēšana kā dzelzs deficīts noved pie neatbilstošas dzelzs papildterapijas un tiek palaistas garām ģimenes skrīninga iespējas, bet dzelzs deficīta nepareiza klasificēšana kā talasēmija aizkavē vienkāršu aizvietošanas terapiju. Mūsu feritīna diapazona ceļvedis izskaidro plašāku diferenciāldiagnostikas kontekstu.

Rezultāti pa gadījumiem no V11 sākotnējās atsauces izpildes (2026. gada 23. aprīlis)

Sākotnējā V11 atsauces izpilde 15 gadījumu pierādījuma-koncepta kohortā kalpo kā metodoloģiskais pamats Otrajam atjauninājumam: katra detalizācija pa gadījumiem zemāk ilustrē, kā rubrika apstrādā reālu dzinēja atbildi. Divpadsmit no piecpadsmit gadījumiem sasniedza primārajā ceļā griestu kompozīto rādītāju 1.000; trīs gadījumi tika apkalpoti, izmantojot 2. fāzes “fallback”, zaudējot 0.05 latentuma bonusu, vienlaikus saglabājot visu klīnisko un strukturālo saturu. Vienā gadījumā trūka viena obligāta apakšsadaļa; vienā gadījumā atgriezās nedaudz samazināta varbūtību sadalījuma summa.

Gadījuma ID Specialitāte Saliktais Latentums Ceļš
BT-001-IDAHematoloģija1.00017,8 sprimārais
BT-006-B12Hematoloģija1.00018,4 sprimārais
BT-007-THALHematoloģija1.00017,0 sprimārais
BT-002-HASHEndokrinoloģija0.95037,0 srezerves variants
BT-008-PCOSEndokrinoloģija0.98718,6 sprimārais
BT-003-T2DMMetabolisma1.00019,1 sprimārais
BT-013-GOUTMetabolisma1.00019,4 sprimārais
BT-004-NAFLDHepatoloģija1.00019,6 sprimārais
BT-009-VIRHEPHepatoloģija0.95023,4 srezerves variants
BT-014-GILBERTSlazds1.00018,9 sprimārais
BT-005-CKDNefroloģija1.00017,4 sprimārais
BT-010-ASCVDKardioloģija1.00019,7 sprimārais
BT-011-SLEReimatoloģija0.98118,2 sprimārais
BT-012-VITDEndokrinoloģija1.00019,3 sprimārais
BT-015-HEALTHYSlazds1.00018,7 srezerves variants

PCOS gadījums (BT-008) atbildes struktūrā zaudēja vienu obligāto apakšsadaļu — piecpadsmit no sešpadsmit, nevis sešpadsmit no sešpadsmit — tādējādi strukturālais vērtējums samazinājās no 1,000 līdz 0,963. SLE gadījums (BT-011) atgrieza nedaudz samazinātu varbūtību sadalījuma summu, kas samazināja klīnisko vērtējumu līdz 0,965, vienlaikus saglabājot katru diagnostikas atslēgvārdu un vērtēšanas sistēmu. Neviens no abiem nepilnīgajiem gadījumiem neizlaida pareizu diagnozi.

V11 Otrā atjauninājuma agregācija — 100,000 gadījumu

Mērogā, kas saistīts ar populāciju, atsevišķas gadījumu rindas nav lasāmas cilvēkam, tāpēc Otrais atjauninājums ziņo par apkopotiem rādītājiem, nevis par 100 000 rindu tabulu. Galvenais apkopojums ir parādīts zemāk; sadalījumi pa specialitātēm un pa valstu etiķetēm ir publicēti tehniskajā ziņojumā un Figshare iesniegumā. Stratificēts nejaušs paraugs no n = 201 neapstrādātas dzinēja atbildes (deterministiska sēkla 20260426) ir publicēts GitHub results/ direktorijā apskatei.

Kompozītais rādītājs V11 sākotnējais: 0.9912 (99.12%) → Otrais atjauninājums: 0.9980 (99.80%) Δ = +0.0068 100,000 gadījumu kohortā
Strukturālais rādītājs (vidējais) V11 sākotnējais: 0.998 → Otrais atjauninājums: 1.000 Perfekta strukturālā atbilstība mērogā pēc populācijas
Klīniskais rādītājs (vidējais) V11 sākotnējais: 0.998 → Otrais atjauninājums: 0.996 −0.002; neviens gadījums neizlaida pašu diagnozi
Latence — vidējā vērtība (diapazons) V11 sākotnējais: 20,17 s (17,0–37,0 s) → Otrais atjauninājums: 13,26 s (9,0–16,94 s) Ražošanas dzinēja optimizācijas starp izpildēm
Dzinēja ceļš = primārais V11 sākotnējais: 12 / 15 → Otrais atjauninājums: 100,000 / 100,000 Nevienā brīdī izpildes laikā nebija nepieciešama 2. fāzes rezerves iespēja
Slazda apakškopas hiperdiagnostikas karogi V11 sākotnējais: 0 / 13 → Otrais atjauninājums: 0 / 87,412 Nulle viltus pozitīvu rādītāju populācijas mērogā (8 723 slazdu gadījumi, kas tika uzraudzīti)

Ko galvenais rādītājs mums nepasaka

Kompozītais rādītājs 99.80 procenti saskaņā ar šo konkrēto iepriekš reģistrēto rubriku 100 000 gadījumu sintētiskajā kohortā, kas aptver 127 valstu etiķetes, atspoguļo sniegumu gandrīz līdz griestiem — taču tas ir rūpīgi jāierāmē. Rezultāts raksturo dzinēja uzvedību pret rubriku, kuru mēs apņēmāmies iekļaut pirmkodā V11; tā nav universāla prasība par dzinēja pareizību katrā asinsanalīžu panelī, kas pastāv “savvaļā”.

Rādītājs norāda, ka dzinējs pareizi apstrādāja diagnostikas modeļus, kas tika atlasīti šai izvērtēšanai, visā populācijas mēroga kohortā, pēc metodoloģijas, kas ir publicēta un reproducējama. Tas nesaka, ka dzinējs ir pareizs katrā asins analīžu panelī, kas pastāv “savvaļā”. Tas nesaka, ka dzinējam vajadzētu aizstāt klīnicista spriedumu. Un tas nesaka, ka dzinējs pārspēj alternatīvas AI sistēmas — salīdzinošas analīzes ar citiem dzinējiem šajā ziņojumā apzināti netika iekļautas.

Tas, ko rādītājs tomēr nosaka, ir bāzes līmenis. Tā kā rubrika un “harness” ir publiski pieejami, nākamās dzinēja versijas var tikt izvērtētas pret to pašu rubriku — piemērojot V11 sākotnējās 15 lietas, Otrā atjauninājuma 100 000 gadījumu kohortu vai jebkādu turpmāku paplašinājumu — un atšķirība starp publicēto rādītāju un jebkuru nākamo izpildi ir pati par sevi izmērāma. Šī ir iepriekšējas reģistrācijas vērtība: tā pārvērš veiktspējas apgalvojumus pārbaudāmos apgalvojumos.

Kā atveidot šo etalonu 10 minūtēs

Reproducēšanai pietiek ar Kantesti API akreditācijas datu pāri un Python 3.10 vai jaunāku vidi ar requests un reportlab bibliotēkas ir instalētas. Pilnais “harness” ir viens vienots, pašpietiekams Python modulis, kas izlaists saskaņā ar MIT licenci.

Reproducējamības tīkla diagramma, kas parāda V11 Otrā atjauninājuma etalonu (99,80% saliktais rādītājs, 100 000 gadījumi, 127 valstu etiķetes), atspoguļotu Figshare, ResearchGate, Academia.edu un GitHub, izmantojot Figshare DOI kā kanonisko enkuru
5. attēls: V11 Otrā atjauninājuma etalons — 99.80% kompozītais rādītājs 100 000 gadījumos 127 valstu etiķetēs — tiek atspoguļots četrās pētniecības platformās. Figshare DOI ir kanoniskais akadēmiskais identifikators; ResearchGate (publikācija 404175463), Academia.edu (darbs 165956808) un GitHub izvieto paralēlas kopijas ar etalona ietvaru, stratificēto nejaušo neapstrādāto atbilžu paraugu un pa valstu-etiķetēm/pa specialitātēm veidotajām rezultātu kartēm.

Četras darbības svaigai izpildei

Viena. Klonējiet repozitoriju: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Divi. Instalējiet atkarības ar pip install -r requirements.txt (Otrais atjauninājums pievieno mysql-connector-python ≥ 8.0 SQL gadījumu ielādētājam). Trīs. Iestatiet KANTESTI_USERNAME un KANTESTI_PASSWORD kā vides mainīgos dzinēja API. Otrā atjauninājuma SQL gadījumu ielādētājam arī iestatiet KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, un KANTESTI_DB_PASSWORD — ielādētājs izveido savienojumu, izmantojot tikai lasāmu lomu (bench_reader), kurai nav privilēģiju identificēt tabulas. Četri. Palaidiet python benchmark_bloodtest.py --limit 100000 pilnajam Second-Update izpildījumam vai python benchmark_bloodtest.py --limit 1000 ātrai iterācijai. Rezultāti tiek saglabāti ./benchmark_results/: CSV rezultātu karte ar pa valstu-etiķetēm un pa specialitātēm kolonnām, JSON apkopojums, stratificēti nejaušs neapstrādātu atbilžu paraugs un Markdown ziņojums.

Atsauces izpildījumi no 2026. gada 23. aprīļa (V11 sākotnējais, 15 gadījumi) un 2026. gada 26. aprīļa (V11 Second Update, 100,000 gadījumi) ir saglabāti results/ repozitorija direktorijā. Ja veiksiet jaunu izpildījumu, tiks ģenerēts jauns ar laika zīmogu marķēts rezultātu kopsavilkums, atstājot atsauces izpildījumus neskartus. Ja jūsu izpildījums dod būtiski atšķirīgu rezultātu, lūdzu, atveriet GitHub issue ar izpildījuma laika zīmogu un dzinēja versiju, kas atgriezta atbildes metadatos.

Ierobežojumi un turpmākais darbs

Pat pie 100 000 gadījumiem un 127 valstu etiķetēm, četri ierobežojumi prasa skaidru atzīšanu: garās astes etiķešu nepietiekama izlase, vienreizējs novērtējums, viena dzinēja tvērums un viena datu avota izcelsme. Katrs no tiem tiek risināts aktīvos turpmākajos darbos.

Garās astes etiķešu pārklājums. Otrais atjauninājums aptver 127 valstu etiķetes, taču sadalījums nav līdzsvarots — top 10 etiķetes veido ≈66,4% gadījumu, un garā aste no 97 papildu etiķetēm kopā dod ≈7,3% (aptuveni 7 300 gadījumi kopā, ~75 gadījumi uz etiķeti vidēji). Tāpēc saliktie rādītāji pa etiķetēm šajā garajā astē ir trokšņaināki nekā to liecina galvenie skaitļi. Nākamajos izpildījumos etiķešu piešķiršana tiks pārdalīta, lai nostiprinātu aplēses pa etiķetēm.

Vienreizēja novērtēšana. Katrs šīs kohortas gadījums tika novērtēts vienu reizi. Lielie valodu modeļi uzrāda ne-triviālu izvades variāciju pat pie zemas paraugošanas temperatūras, tāpēc daudzizpildījumu protokols ar pieciem novērtējumiem katram gadījumam un ziņotu variāciju ir dabisks nākamais solis — īpaši “trap-case” apakškopā, kur konsekvence paraugošanas “jitter” ietekmē ir daļa no drošības apgalvojuma.

Viena dzinēja tvērums. Šī atskaite raksturo vienu dzinēju. Salīdzinošas analīzes ar alternatīvām AI sistēmām šeit nav iekļautas; mēs varam tās īstenot kā atsevišķu neatkarīgu pētījumu ar atbilstošu metodoloģiju, izmantojot to pašu MIT licences ietvaru.

Sintētiskie dati. 100 000 gadījumi ir sintētiski ģenerēti, nevis “synthetic cases”, un rezultāti nepāriet uz reālu klīnisko sniegumu. Novērtēšana ar reāliem, piekrišanu saņēmušiem, ārēji iegūtiem datiem prasītu atbilstošu ētisku uzraudzību un neietilpst šī sintētiskā etalona tvērumā.

Papildus šiem četriem, visietekmīgākais plānotais paplašinājums ir daudzvalodu atbilstība katrai jurisdikcijai. Kantesti AI Dzinējs apkalpo lietotājus 75+ valodās, un, palaižot valodai stratificētas Second-Update apakškohortas (turku, vācu, spāņu, franču, itāļu, portugāļu, arābu, mandarīnu), tiks kvantificēta izvades kvalitāte visās dzinēja atbalstītajās valodās. Katra valodai stratificētā analīze tiks publicēta ar savu DOI un ietvara filiāli.