Af hverju þetta viðmið er til og hvað það prófar

AI-aðstoðuð túlkun blóðrannsókna er sífellt meira notuð í neytenda- og klínískum vinnuflæði, en endurgeranleg matsrammi sem er sérsniðinn að rannsóknarstofulækningum er enn sjaldgæfur. Spurningarnar sem skipta mestu máli í þessu samhengi eru ekki þær sem falla undir almenn viðmið fyrir læknisfræðilega spurninga-og-svar. getur vél aðgreint járnskort frá talassemíu-einkennum þegar meðalfrumumagn er eins, ofgreinir hún Gilbertsjúkdóm sem lifrarbólgu og skapar hún meinafræði í fullkomlega eðlilegum skimunarpakka?

Flæðirit fyrirfram skráðra matsviðmiða sem sýnir hvernig Kantesti AI-vélin — V11 seinni uppfærsla, 99.80% samsetta stig á 100.000 tilvikum — er metin gegn frystum matsviðmiðum
Mynd 1: Viðmiðunararkitektúrinn á bak við 99.80% samsett stig í V11 Second Update 100.000-mála hópnum — hvert mál, hvert leitarorð, hver stigakerfisregla er föst í frumkóða áður en vélin sér eitt einasta PDF, og matsviðmiðið er bæti-fyrir-bæti eins og í upphaflegri V11 útgáfu. Eftirá-matsviðmiðun (post-hoc) er ómöguleg samkvæmt hönnun.

Blóðprufusamstæða inniheldur venjulega nægjanlegt merki til að styðja nokkrar samkeppnislegar túlkanir og hlutverk túlkunarlæknisins er að vega þessar túlkanir hverja á móti annarri frekar en að sækja „rétta“ svarið eins og í kennslubók. Vél sem gengur vel á dæmigerðum tilvikum úr kennslubókum getur samt brugðist á þeim tilvikum sem skipta mestu: gildrurnar í mismunagreiningu, góðkynja afbrigðin sem líta ógnvekjandi út þegar þau eru einangruð, og fullkomlega eðlilegar samstæður sem freista öruggra aðstoðarmanna til að búa til meinafræði.

Þessi viðmiðun var smíðuð einmitt með þessi bilunarmynstur í huga. Hvert af fimmtán tilvikunum var valið vegna ákveðins greiningareiginleika: járnskorts-míkrósýtósu sem þarf að halda aðgreindri frá eiginleika beta-talassemíu með eins meðalfrumumagn, birtingarmynd Gilbert-sjúkdóms þar sem eina frávikið er einangruð óbein hækkun á gallrauðlitarefni í blóði (óbein hyperbilirúbínhækkun) og fimmtán þátta skimunarsamstæða þar sem hvert mæligildi liggur innan viðmiðunarsviðs. Viðmiðunarlýsingin verðlaunar vélar sem lesa hvert tilvik á eigin forsendum og refsar vélum sem reyna að komast að öruggri greiningu þegar slík greining á ekki við.

Sem Thomas Klein, læknir, valdi ég tilvikasafnið vegna þess að þetta eru mynstrin sem aðstoðarmenn á rannsóknarstofulækningum gera oftast rangt. Dýrasta bilunin er ekki "að missa af sjaldgæfum sjúkdómi" — heldur að búa til venjubundna meinafræði hjá sjúklingum sem hafa hana ekki. Okkar Læknisfræðileg staðfesting hub lýsir víðara ramma; þessi síða lýsir V11 fyrstu hugmyndaprófuninni og V11 annarri uppfærslu sem skalaði hana upp í 100.000 tilbúin tilvik sem dregin eru úr tilbúnum tilvikasafni sem nær yfir 127 landsmerkingar — með sama matsramma, bæti fyrir bæti, án leyfilegrar eftirvinnslu (post-hoc) stillingar.

Nýjasta viðmiðunar keyrsla — V11 Second Update (26. apríl 2026)

Viðmiðunar keyrsla V11 Second Update 26. apríl 2026 skilaði samsettu stigi 99.80% á sama fyrirfram skráða matsviðmiði og var notað í upphaflegri V11 útgáfu, metið á 100.000 tilbúin tilvik dregin úr Kantesti tilbúna tilvikasafninu og ná yfir 127 landsmerkingar og 75+ tungumál. Öll tilvik kláruðust á aðalferli vélarinnar; kveikjur á hypergreiningar-flaggi (trap-case hyperdiagnosis) héldust á 0 / 87,412. Upphaflega V11 keyrslan 23. apríl 2026 náði yfir 15 handvalin tilvik (samsett 99.12%) og staðfesti matsviðmiðið; Second Update heldur því matsviðmiði bæti-fyrir-bæti eins og framlengir matið í hóp í mælikvarða á þýði.

Samsett 99.80% 100.000 af 100.000 tilvikum fengu stig
1.000 Byggingarstig
0.996 Klínískt stig
13,26 s Meðalbiðtími
0 / 87,412 Rangar jákvæðar niðurstöður í gildrum

Samsetta formúlan sameinar þrjá þætti: byggingarleg samræmi við sjö skylduskýrslugreinar og sextán skyldubundnar undirgreinar, nákvæmni innihalds mælt sem orðlykils-endurköllun (keyword recall) auk endurköllunar í stigakerfi auk sannprófunar á gildi líkinda-dreifingar, og svörunartími miðað við aðalferils þjónustustigsmarkmið. Nákvæm sundurliðun er sýnd í matsviðmiðsformúlunni hér að neðan — engin af þessum vægjum eða undirmatsviðmiðum var breytt fyrir Second Update.

Samsett = 0.35 × Byggingarlegt + 0.55 × Klínískt + 0.10 × Biðtími

Afgangurinn af 0,20 prósentustigum af svigrúmi (headroom) skiptist næstum alfarið í klíníska undirmatsstigið — lítill hluti tilvika (aðallega í Lifrarfræði og Gigtlækningum) hafði eitt vænt stigakerfis-leitarorð sem vantaði í túlkun vélarinnar þrátt fyrir að greiningarefnið væri rétt. Engin tilvik í 100.000-tilvika Second-Update hópnum missti af sjálfri greiningunni. Seinkun batnaði úr meðaltali 20,17 s í upphaflegri V11 útgáfu í 13,26 s í Second Update, sem endurspeglar hagræðingu í framleiðsluvél milli keyrslna; matsviðmiðið, stigs-kóðinn og API-endapunkturinn eru óbreytt.

Samsettir mælikvarðar á hverja merkingu voru á bilinu 0.9971 til 0.9985 yfir 30 mest áberandi landsmerkingarnar. Langur hali 97 viðbótarmerkinga (≈7.300 tilvik samanlagt) sýndi enga kerfisbundna rýrnun. Algengustu merkingarnar eftir fjölda tilvika voru Bandaríkin (10.500), Brasilía (9.500), Spánn (9.000), Ítalía (8.000), Þýskaland (7.800), Frakkland (7.400), Portúgal (5.800), Türkiye (3.400), Bretland (2.900) og Mexíkó (2.500).

Frá 15 tilvikum til 100.000: þróun hóps yfir 127 landsmerkingar

Upprunalegi V11 tilvikapakkinn náði yfir sjö sérsvið — blóðmeinafræði, innkirtlafræði, efnaskiptalækningar, lifrarlækningar, nýrnalækningar, hjartalækningar, gigtlækningar — auk tveggja sérhæfðra „hyperdiagnosis trap“ tilvika, þar sem hvert tilvik var tilbúið blóðprófasnið. V11 önnur uppfærsla útvíkkar mat til 100.000 tilbúin tilvik yfir 127 landsmerkingar, dreift yfir átta sérsvið (hin sjö upprunalegu auk sérsniðins innri læknisfræðisviðs sem tekur við trap-undirmenginu). Sama stigakerfisviðmið er beitt bæti-fyrir-bæti eins í báðum keyrslum.

Hönnun tilvikspalls í upphaflegu V11 — fimmtán gervi blóðprófatilvik yfir sjö læknasérgreinum auk tveggja „hyperdiagnosis“ gildrutilvika; sama matskerfi náði 99,80% samsettu einkunnaskori á 100.000 tilvikum í V11 Second Update
Mynd 2: Hönnun upphaflega V11 tilvikspallsins fyrir blóðmeinafræði, innkirtlafræði, efnaskiptalækningar, lifrarfræði, nýrnalækningar, hjartalækningar, gigtlækningar, auk tveggja trap-tilvika — Gilbert-sjúkdóms og fullkomlega eðlilegs skimunarpalls. Second Update varðveitir þetta matsviðmið bæti-fyrir-bæti eins á meðan hún framlengir hópinn í 100.000 tilvik sem dregin eru úr Kantesti SQL-gagnasafninu.

Þar sem öll tilvik eru tilbúin eru engin raunauðkenni til að fjarlægja og engin persónuupplýsing er í notkun. Hvert tilbúið tilvik ber tilviksnúmer sem er innanhúss í viðmiðinu (BT-NNN-LABEL í upphaflega V11 safninu, stöðugt case_uid í annarri uppfærslu). Engin persónuupplýsing birtist neins staðar í birta matskerfinu, tækniskýrslunni eða útgefnu gagnasöfnunum.

V11 upphaflega útgáfu — 15 handvalin tilvik

Upprunalega V11 tilvikspjaldið var handvalið af Dr. Thomas Klein til að æfa greiningarmynstur sem aðstoðarmenn í rannsóknarstofulækningum fá oftast rangt. Hvert af fimmtán tilvikunum var valið með tilliti til tiltekins greiningareiginleika, sem er skráður hér að neðan.

Blóðmeinafræði (3) BT-001, BT-006, BT-007 Járnskortsblóðleysi · B12-vítamínskortur · Minniháttar beta-talassemía
Innkirtlafræði (3) BT-002, BT-008, BT-012 Hashimoto-sjúkdómur í skjaldkirtli · PCOS með insúlínviðnámi · Alvarlegur D-vítamínskortur
Efnaskipti (2) BT-003, BT-013 T2DM með efnaskiptavillu · Ofþvagsýruhækkun með áhættu á þvagsýrugigt
Lifrarlækningar (2) BT-004, BT-009 NAFLD / NASH · Bráð veiru lifrarbólga
Nýrnalækningar · Hjartalækningar · Gigtarlækningar (3) BT-005, BT-010, BT-011 CKD stig 3 · Æðahrörnunarfituóhóf (æðakölkunarvaldandi fitublóðleysi) · Kerfisbundinn rauður úlfur
„Trap“ tilvik (2) BT-014, BT-015 Gilbert-sjúkdómur (einangruð óbein blóðbilirúbínhækkun) · Fullkomlega eðlileg fullorðins-skimun

Af hverju þessi tiltekna dreifing

Blóðfræði fær þrjú tilvik vegna þess að mismunagreiningar fyrir míkrósýtósu og makrósýtósu eru mestu „gildrurnar“ í raunverulegri rannsóknarstofustarfsemi hvað varðar umfang. Innkirtlafræði fær þrjú vegna þess að birtingarmyndir Hashimoto-sjúkdóms, PCOS og D-vítamínskorts æfa mismunandi greiningarmynstur (sjálfsmótefnavaldar, hormónahlutfallavaldar og eins-markera-valdar). Sérgreinar með einu tilviki eru samt þýðingarmiklar vegna þess að hver um sig — CKD, ASCVD- áhættumat og SLE — hefur sitt eigið stigakerfi sem vélin á að kalla fram (KDIGO-stigsetning, ASCVD 10-ára áhætta og 2019 EULAR/ACR SLE-skilyrði, í sömu röð).

V11 önnur uppfærsla — 100.000 tilbúin tilvik yfir 127 landsmerkingar

Önnur uppfærslan kemur í stað upprunalega V11 harðkóðaða 15-tilvika Python bókstafsins með stærra, forritanlega mynduðu tilbúnu tilvikasafni. Tilvikasafnið er hlaðið í upphafi hverrar keyrslu og stillingarnar eru skráðar til gagnsæis. Dreifing hópsins eftir innihaldssviði er sýnd hér að neðan.

Innkirtlafræði 23.900 tilvik (23.9%) Skjaldkirtill, PCOS, D-vítamín, kynkirtlaás, heiladingull
Efnaskiptalækningar 21.900 tilvik (21.9%) T2DM, efnaskiptavilla, fitusnið, ofurþvagsýruhækkun
Blóðsjúkdómafræði 15.400 tilvik (15.4%) Míkrósýtískar og makrósýtískar mismunagreiningar, B12/folat, járnrannsóknir
lifrarlækningar 12.400 tilvik (12.4%) NAFLD/NASH, veiruhepatítis, FIB-4, gallteppa
Innri lækningar (þ.m.t. trap-undirmengi) 9.000 tilvik (9.0%) Blandaðar framsetningar og 8.723 sérhæfð trap-tilvik vegna ofgreiningar
Hjartalækningar 7.500 tilvik (7.5%) ASCVD- áhætta, æðakölkunarvaldandi fitublóðleysi, hs-CRP
Liðsjúkdómafræði 6.000 tilvik (6.0%) SLE, iktsýki (RA), æðabólga, sjálfsmótefnapjöld (EULAR/ACR skilyrði)
Nýrnafræði 4.000 tilvik (4.0%) Stigun langvinns nýrnasjúkdóms (KDIGO), þróun eGFR, truflun á blóðsalta

Dreifing tilbúinna landsmerkinga — topp 10 merkingar

Hin 100.000 tilbúnu tilvik bera 127 landsmerkingar (ISO 3166-1 alpha-2) til að prófa meðhöndlun staðfærslu (locale). Úthlutun merkinga: Evrópa 57.7%, Ameríkur 25.4%, Asíu-Kyrrahaf 6.2%, nefndar Mið-Austurlönd/Afríku-merkingar 3.4% og langur hali 97 viðbótarmerkinga samtals um 7.3%. Tíu algengustu merkingarnar eftir fjölda tilvika eru Bandaríkin (10.500), Brasilía (9.500), Spánn (9.000), Ítalía (8.000), Þýskaland (7.800), Frakkland (7.400), Portúgal (5.800), Türkiye (3.400), Bretland (2.900) og Mexíkó (2.500). Samsettir mælikvarðar á hverja merkingu voru á bilinu 0.9971 til 0.9985. Þessar talningar merkinga eru eiginleikar tilvikanna sem eru mynduð til að prófa meðhöndlun staðfærslu — þær eru ekki raunverulegir notendur og ekki raunveruleg landfræðileg þekja.

Matsviðmiðið sem var for-skráð, útskýrt

Forskráning (pre-registration) er mikilvægasta aðferðaval í þessari viðmiðun. Hver vænt greining, hvert klínískt stigakerfi og hver hluti skýrslunnar var skuldbundinn í frumkóða áður en vélin var kölluð fram. Þess vegna er ómögulegt að stilla matsviðmiðið (rubric) eftir á til að smjaðra vélinni.

Þrír þættir mynda samsetta einkunn. Byggingarþátturinn leggur til 35 prósent og mælir hvort vélin skilaði sjö skyldubundnum skýrsluhlutum (haus, samantekt, helstu niðurstöður, mismunagreining, stigakerfi, ráðleggingar, eftirfylgni) og sextán skyldubundnum undirköflum innan þeirra. Tilvist kafla vegur 40 prósent og tilvist undirkafla vegur 60 prósent innan byggingarútreikningsins.

The Klíníski þátturinn leggur til 55 prósent og sameinar þrennt: endurköllun greiningar-lykilorða (70 prósent af klínísku undireinkunninni), endurköllun stigakerfa (20 prósent — hvort vélin reikni Mentzer, FIB-4, HOMA-IR, ASCVD-áhættu, KDIGO-stigsetningu, EULAR/ACR-skilyrði þar sem við á), og gildiathugun á líkindasummu (10 prósent — mismunarlíkindin eiga að summa innan bilsins [90, 110]). Fyrir „gildru“-tilvik er dregin frá skýr ofgreiningarrefsing allt að 0.30, reiknuð sem 0.10 fyrir hvern tilbúinn meinafræðifána, með hámarki við þrjá fána.

The Seinkunarþátturinn leggur til 10 prósent. Svör á innan við 20 sekúndum fá fulla 0.10, svör á innan við 40 sekúndum fá 0.05 og allt sem er hægara fær núll. 20-sekúndna markmiðið endurspeglar framleiðslu-meginmarkmið þjónustustigs fyrir primary-path; 40-sekúndna þakið endurspeglar varasjóð fyrir Phase 2 þegar vélin er kölluð í þyngri tilvikum.

Lokaskjámynd af MIT-leyfðu Kantesti viðmiðunarhugbúnaðinum sem keyrir og skilar stigi fyrir hvert tilvik — sama skipulag, nú SQL-knúið, framleiddi 99.80% samsetta stiginu í V11 seinni uppfærslunnar 100.000 tilvika keyrslu
Mynd 3: Uppsetningin í keyrslu — sami vélbúnaður sem framleiddi 99.80% samsetta einkunn í V11 Second Update 100,000 tilfella hópnum. Hvert tilfelli er birt sem A4 PDF, sent á framleiðslu v11 endapunktinn og metið gegn frystu matsviðmiðunum. Second Update bætti við færibreytanlegum SQL tilfellahleðslutæki; lagskipt slembiúrtak af hráum vélsvörum (n = 201) er varðveitt samhliða samanteknu einkunnaspjaldi.

Hvað forskráning kemur í veg fyrir

Fyrstu-aðila viðmiðanir eru frægar fyrir að blása upp eigin tölur með því að stilla matsviðmiðið eftir á. Mynstrið er næstum alltaf það sama: teymið keyrir vélina, sér hvar hún stendur sig illa, og stillir síðan hljóðlega matsviðmiðið þannig að svæði sem standa sig illa telji minna. Með því að skuldbinda matsviðmiðið í frumkóða áður en fyrsta köllun vélarinnar fer fram og birta prófkerfið undir MIT-leyfi verður þessi breyting sýnileg í útgáfustýringu. Allir geta klónað geymsluna, skoðað dagsetningar höfundar matsviðmiðsins og staðfest að ekki hafi verið notaðar niðurstöður úr vélinni til að móta stigagjöfina.

Tilvik í gildru ofgreiningar — hvers vegna of mikil köllun er raunveruleg bilunarleið

Áköf ofnotkun á meinafræði á eðlilegum skjám er skjalfest bilunarháttur í læknisfræðilegum aðstoðarmönnum sem snúa að neytendum. Afleiddur kostnaður felur í sér óþarfa rannsóknir, kvíða sjúklinga og iatrogena (meðferðar- eða rannsóknartengda) vinnslu. Tvö „gildru“-tilvikin í þessari viðmiðun eru hönnuð til að gera þennan bilunarhátt sýnilegan og mælanlegan.

Samanburður hlið við hlið á því þegar naíf gervigreind býr til lifrarbólgu á Gilbert-sjúkdóms-skimunarsniði vs. Kantesti-vélin greinir rétt meinlausa UGT1A1 fjölbreytileikann — aðferð sem var stækkuð í núll rangjákvæðar niðurstöður yfir 87.412 möguleika til að flagga hypergreiningu í V11 seinni uppfærslunnar 99.80% viðmið
Mynd 4: Gildrutilfellahönnunin frá upphaflegri V11 útgáfu — vél sem merkir af fullri vissu Gilbert-heilkenni sem lifrarbólgu, eða sem framleiðir jaðarsjúkdómsmyndun á fullkomlega eðlilegri skönnun, er refsað frekar en umbunað fyrir að hljóma klínískt. Þessi aðferðafræði var skalanleg yfir í 0 / 87,412 falskar jákvæðar niðurstöður í V11 Second Update 100,000 tilfella keyrslunni sem skilaði 99.80% samsettu einkunninni.

🟡 Gildra 1 — BT-014-GILBERT

Birtingarmynd. 24 ára karlmaður með heildarbíilírúbín 2.4 mg/dL. Bein brotið er eðlilegt, transamínasar og basískur fosfatasi eru innan viðmiðunarsviða, retíkúlócýtur eru óathugaverðir og haptóglóbín og LDH útiloka blóðlýsu.

Rétt túlkun. Gilbert-sjúkdómur — góðkynja UGT1A1 fjölbreytileiki. Túlkunin á ekki að kalla fram lifrarbólgu, skorpulifur, blóðlýsublóðleysi eða gallteppu.

Niðurstaða V11. Samsett 1.000. Engin af sex eftirlits-„ofgreiningar“-fánunum birtist sem virk greining.

🟡 Gildra 2 — BT-015-HEALTHY

Birtingarmynd. 35 ára kona með fimmtán breytu reglubundið skimunarróf. Allir mældir mælikvarðar liggja þægilega innan viðmiðunarsviðs.

Rétt túlkun. Meging og viðhalds lífsstíls. Túlkunin ætti ekki að búa til jaðareinkenni sjúkdóma til að hljóma klínískt gagnleg.

Niðurstaða V11. Samsett 1.000. Ekkert af sjö eftirlitsmerkjum ofgreiningar — sykursýki, blóðleysi, skjaldvakabrestur, blóðfituröskun, lifrarbólga, nýrnasjúkdómur, skortur — birtist sem virkar greiningar.

Í báðum „gildrunum“ voru athuguð þrettán eftirlitsmerki ofgreiningar. Engin þeirra var kveikt. Þetta er niðurstaðan sem skiptir mestu máli fyrir hvern þann lækni sem íhugar að nota AI-kerfi sem skimunar- eða forráðgjafartæki: kerfið fann ekki upp sjúkdóma þar sem engir voru til staðar.

Mentzer-vísitala: aðgreining járnskorts frá eiginleikum blóðþynningar (thalassaemia trait)

Önnur mikilvæg niðurstaða varðar samsetningu máls BT-001 (járnskortsblóðleysi) við mál BT-007 (minniháttar beta-talassemíu). Bæði koma fram með míkrósýtósu og eru vel þekktur steingervingur fyrir óreynda flokkara. Mentzer-vísirinn, reiknaður sem MCV deilt með RBC-fjölda, er yfir 13 í járnskortsblóðleysi og fellur undir 13 í eiginleika talassemíu.

Í BT-001 var sjúklingurinn 34 ára kona með blóðrauða 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritín 6 ng/mL og hækkað TIBC. Mentzer-vísirinn, um 17,7, styður algeran járnskort. Í BT-007 var sjúklingurinn 28 ára karl með míkrósýtósu (MCV 65,8 fL) en háan RBC-fjölda 6,2, eðlilegt RDW, eðlilegt ferritín og HbA2 5,6 prósent. Mentzer-vísirinn, um 10,6, bendir til eiginleika talassemíu og hækkað HbA2 staðfestir minniháttar beta-talassemíu.

Járnskortsblóðleysi Mentzer > 13 Lágt ferritín, lágt TSAT, hátt TIBC, hækkað RDW
Eiginleiki beta-talassemíu Mentzer < 13 Eðlilegt ferritín, eðlilegt RDW, hækkað HbA2 (>3.5%), hár RBC-fjöldi

Bæði tilvikin skoruðu 1.000. Kerfið notaði Mentzer-vísinn skýrt í báðum túlkunum og skilaði réttri greiningu í hvert skipti. Þetta er ein öruggasta klíníska niðurstaðan í öllum viðmiðunarprófinu, vegna þess að það að flokka eiginleika talassemíu sem járnskort leiðir til óviðeigandi járnuppbótar og að missa af tækifærum til skimunar í fjölskyldu, og það að flokka járnskort sem talassemíu seinkar einfaldri staðgöngumeðferð. Okkar leiðarvísir fyrir ferritínbil útskýrir víðara mismunagreiningarsamhengið.

Niðurstöður eftir tilfelli úr V11 upphaflegu viðmiðunar keyrslunni (23. apríl 2026)

Upprunalega V11 viðmiðunar keyrslan á 15-tilfella proof-of-concept hópnum þjónar sem aðferðafræðilegur grunnur Second Update: hvert smáatriði fyrir hvert tilfelli hér að neðan sýnir hvernig matsviðmiðin meðhöndla raunverulegt vélarsvar. Tólf af fimmtán tilfellum náðu hámarkssamsettu einkunninni 1.000 á aðalbrautinni; þrjú tilfelli voru afgreidd í gegnum Phase 2 varafallið, þar sem tapaðist 0.05 seinkunarbónusinn en allur klínískur og byggingarlegur innihald hélt sér. Eitt tilfelli vantaði eitt skyldubundið undiratriði; eitt skilaði aðeins lægri summu líkindadreifingar.

Tilvikauðkenni Sérsvið Samsett Seinkun Ferli
BT-001-IDABlóðsjúkdómafræði1.00017,8 saðal
BT-006-B12Blóðsjúkdómafræði1.00018,4 saðal
BT-007-THALBlóðsjúkdómafræði1.00017,0 saðal
BT-002-HASHInnkirtlafræði0.95037,0 svarafall
BT-008-PCOSInnkirtlafræði0.98718,6 saðal
BT-003-T2DMEfnaskipta1.00019,1 saðal
BT-013-GOUTEfnaskipta1.00019,4 saðal
BT-004-NAFLDlifrarlækningar1.00019,6 saðal
BT-009-VIRHEPlifrarlækningar0.95023,4 svarafall
BT-014-GILBERTgildra1.00018,9 saðal
BT-005-CKDNýrnafræði1.00017,4 saðal
BT-010-ASCVDHjartalækningar1.00019,7 saðal
BT-011-SLELiðsjúkdómafræði0.98118,2 saðal
BT-012-VITDInnkirtlafræði1.00019,3 saðal
BT-015-HEALTHYgildra1.00018,7 svarafall

PCOS-tilvikið (BT-008) missti einn skyldubundinn undirlið í uppbyggingu svörunar — fimmtán af sextán í stað sextán af sextán — sem minnkaði uppbyggingareinkunn úr 1,000 í 0,963. SLE-tilvikið (BT-011) skilaði lítillega lækkuðu summu líkinda-dreifingar sem lækkaði klíníska einkunn í 0,965 en varðveitti alla greiningarlykla og stigakerfi. Hvorki af þeim tilvikum sem voru undir fullkomnun missti af réttri greiningu.

V11 Second Update samantekt — 100,000 tilfelli

Í mælikvarða á íbúafjölda eru einstakar raðir tilvika ekki læsilegar af mönnum, þannig að Önnur uppfærsla skýrir frá samansöfnuðum mælikvörðum frekar en 100.000-raða töflu. Aðal-samantektin er sýnd hér að neðan; sundurliðanir eftir sérsviði og eftir landsmerkingu eru birtar í tækniskýrslunni og í Figshare-innsetningunni. Lagskipt handahófsúrtak af n = 201 hráum vélsvörum (ákvarðanlegur fræi 20260426) er birt í GitHub results/ möppunni til skoðunar.

Samsett einkunn V11 upphaflegt: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 yfir 100,000 tilfella hópinn
Byggingareinkunn (meðaltal) V11 upphaflegt: 0.998 → Second Update: 1.000 Fullkomin byggingarleg samræmi í mælikvarða á þýði
Klínísk einkunn (meðaltal) V11 upphaflegt: 0.998 → Second Update: 0.996 −0.002; ekkert tilfelli missti greininguna sjálfa
Seinkun — meðaltal (bil) V11 upphaf: 20,17 s (17,0–37,0 s) → Önnur uppfærsla: 13,26 s (9,0–16,94 s) Hagræðingar framleiðsluvélar milli keyrslna
Vélarstígur = aðal V11 upphaf: 12 / 15 → Önnur uppfærsla: 100,000 / 100,000 Engin varafall (Phase 2) var nauðsynleg á neinum tímapunkti meðan á keyrslu stóð
Fánar fyrir ofgreiningu á undirmengi gildra (trap-subset hyperdiagnosis) V11 upphaf: 0 / 13 → Önnur uppfærsla: 0 / 87,412 Engin falsk jákvæðni á mælikvarða þýðis (8.723 gildrugildatilfelli fylgst með)

Það sem fyrirsagnareinkunnin segir okkur ekki

Samsettur mælikvarði upp á 99.80 prósent samkvæmt þessum tiltekna fyrirfram skráða matsramma, á 100.000-tilvika tilbúnum hópi sem nær yfir 127 landsmerkingar, táknar frammistöðu nær þaki — en það á skilið vandaða framsetningu. Niðurstaðan lýsir hegðun vélarinnar gagnvart matsrammanum sem við skuldbundum okkur til í frumkóða í V11; þetta er ekki alhliða fullyrðing um réttmæti vélarinnar fyrir hvert blóðprófasnið sem er til í raunheiminum.

Stigin segja að vélin hafi meðhöndlað greiningarmynstrin sem valin voru fyrir þessa úttekt rétt yfir þýðisúrtak á mælikvarða þýðis, samkvæmt aðferðafræði sem er birt og endurframkvæmanleg. Það segir ekki að vélin sé rétt fyrir hvert blóðprufuspjald sem er til í raunheiminum. Það segir ekki að vélin eigi að koma í stað klínískrar fagdóms. Og það segir ekki að vélin standi sig betur en aðrar gervigreindarkerfi — samanburðargreiningar við aðrar vélar voru vísvitandi utan gildissviðs fyrir þessa skýrslu.

Það sem stigin hins vegar staðfesta er grunnlína. Þar sem matsviðmiðið og búnaðurinn (harness) eru opinber, er hægt að meta framtíðarútgáfur af vélinni gegn sama matsviðmiði — beitt á V11 upphaf 15 tilfellin, Önnur uppfærsla 100.000 tilfella úrtakið, eða hvaða frekari stækkun sem er — og bilið milli birtra stiga og hvers kyns síðari keyrslu er sjálft mælanlegt. Þetta er gildi fyrirframskráningar: hún breytir fullyrðingum um afköst í prófanlegar fullyrðingar.

Hvernig á að endurtaka þetta viðmið á 10 mínútum

Endurframkvæmd krefst aðeins Kantesti API-heimildapar og Python 3.10 eða nýrra umhverfis með requests og reportlab bókasöfn uppsett. Heildarverkfærakistan er einn sjálfstæður Python-einingur sem gefinn er út undir MIT-leyfi.

Endurgeranleikakerfisdiagram sem sýnir V11 Second Update-viðmiðið (99,80% samsett, 100.000 tilvik, 127 landamerki) speglað yfir Figshare, ResearchGate, Academia.edu og GitHub með Figshare DOI sem kanónískt festipunkt
Mynd 5: V11 Önnur uppfærslu viðmiðið — 99.80% samsettur mælikvarði á 100.000 tilvikum yfir 127 landsmerkingar — er speglað yfir fjórum rannsókna­vettvangi. Figshare DOI er hið kanóníska fræðilega auðkenni; ResearchGate (útgáfa 404175463), Academia.edu (rit 165956808) og GitHub hýsa samhliða eintök með viðmiðunarprófunarhylkinu, lagskiptu handahófsúrtaki af hráum svörum og land-/sérgreinaeinkunnaspjöldum.

Fjórir skref til nýrrar keyrslu

Eitt. Klónaðu geymsluna: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Tvö. Settu upp ósjálfstæði með pip install -r requirements.txt (Önnur uppfærsla bætir við mysql-connector-python ≥ 8.0 fyrir SQL tilfellahleðslutækið). Þrír. Stilltu KANTESTI_USERNAME og KANTESTI_PASSWORD sem umhverfisbreytur fyrir vélarforritaviðmótið (engine API). Fyrir SQL tilfellahleðslutækið í Önnur uppfærslu, stilltu einnig KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, og KANTESTI_DB_PASSWORD — hleðslutækið tengist í gegnum lesaðgangs-hlutverk (bench_reader) sem hefur engin réttindi til að bera kennsl á töflur. Fjórir. Keyrðu python benchmark_bloodtest.py --limit 100000 fyrir fulla Second-Update keyrslu, eða python benchmark_bloodtest.py --limit 1000 fyrir hraða endurtekningu. Úttök lenda í ./benchmark_results/: CSV-einkunnaspjald með dálkum fyrir landamerki og sérgreinar, JSON-aggregat, lagskipt handahófsúrtak af hráum svörum og Markdown-skýrslu.

Tilvísunarkeyrslurnar frá 23. apríl 2026 (V11 upphaf, 15 tilvik) og 26. apríl 2026 (V11 Second Update, 100,000 tilvik) eru varðveittar í results/ möppu geymslunnar. Ný keyrsla mun búa til nýja tímastimplaða stigaskrá en skilja tilvísunarkeyrslurnar eftir óbreyttar. Ef keyrsla þín skilar marktækt öðru niðurstöðu, vinsamlegast opnaðu GitHub-mál með tímastimpli keyrslunnar og vélútgáfunni sem kemur fram í svarupplýsingum (response metadata).

Takmarkanir og framtíðarvinna

Jafnvel við 100.000 tilvik yfir 127 landamerki eiga fjórar takmarkanir skilið að vera skýrt viðurkenndar: vanúrtak á langhala-landmerkjum, einnota mat, afmörkuð umfangsregla (ein vél) og ein uppruni gagna. Hverri þeirra er verið að bregðast við í virku eftirfylgdarvinnu.

Umfjöllun um langhala-landmerki. Önnur uppfærsla nær yfir 127 landamerki, en dreifingin er ójafnvæg — topp 10 landmerkin skýra fyrir ≈66,4% tilvika og langhali 97 viðbótarmerkja leggur saman ≈7,3% (um það bil 7.300 tilvik samtals, ~75 tilvik á hvert merki að meðaltali). Því eru samsetningar á hvert merki í þessum langhala hávaðasamari en fyrirsagnartölur gefa til kynna. Næstu keyrslur munu endajafna úthlutun landmerkja til að festa niður áreiðanlegar áætlanir fyrir hvert merki.

Einnota mat. Hvert tilvik í hópnum var metið einu sinni. Stór tungumálalíkön sýna óverulegan breytileika í úttaki jafnvel við lágt sýnatökuhitastig, þannig að margra-keyrslu verklag með fimm mati á hvert tilvik og tilkynntum breytileika er eðlilegt næsta skref — sérstaklega á trap-case undirmengi, þar sem samkvæmni við sýnatökusveiflur er hluti af öryggiskröfunni.

Afmörkun við eina vél. Þessi skýrsla lýsir einni vél. Samanburðargreiningar gegn öðrum gervigreindarkerfum eru utan við þetta samhengi; við gætum stundað þær sem sérstaka sjálfstæða rannsókn með viðeigandi aðferðafræði, gegn sama MIT-leyfða prófunarbúnaði (harness).

Gervigögn. Hin 100.000 tilvik eru gervilega mynduð, ekki gervi-tilvik, og niðurstöðurnar flytjast ekki yfir á klíníska frammistöðu í raunheimum. Mat á raunverulegum, samþykktum, utanaðkomandi upprunagögnum myndi krefjast viðeigandi siðferðilegs eftirlits og fellur utan gildissviðs þessa gervi-viðmiðunar.

Fyrir utan þessar fjórar er áhrifamesta fyrirhugaða viðbótin jafnræði á mörgum tungumálum fyrir hvert lögsagnarumdæmi. Kantesti AI Engine þjónar notendum á 75+ tungumálum og með því að keyra tungumálaskipt Second-Update undirmengi (túrkska, þýska, spænska, franska, ítalska, portúgalska, arabíska, mandarín) verður mæld gæði úttaks yfir þeim tungumálum sem vélin styður. Hver tungumálaskipt greining verður birt með sínum eigin DOI og harness grein.