Af hverju þetta viðmið er til og hvað það prófar
AI-aðstoðuð túlkun blóðrannsókna er sífellt meira notuð í neytenda- og klínískum vinnuflæði, en endurgeranleg matsrammi sem er sérsniðinn að rannsóknarstofulækningum er enn sjaldgæfur. Spurningarnar sem skipta mestu máli í þessu samhengi eru ekki þær sem falla undir almenn viðmið fyrir læknisfræðilega spurninga-og-svar. getur vél aðgreint járnskort frá talassemíu-einkennum þegar meðalfrumumagn er eins, ofgreinir hún Gilbertsjúkdóm sem lifrarbólgu og skapar hún meinafræði í fullkomlega eðlilegum skimunarpakka?
Blóðprufusamstæða inniheldur venjulega nægjanlegt merki til að styðja nokkrar samkeppnislegar túlkanir og hlutverk túlkunarlæknisins er að vega þessar túlkanir hverja á móti annarri frekar en að sækja „rétta“ svarið eins og í kennslubók. Vél sem gengur vel á dæmigerðum tilvikum úr kennslubókum getur samt brugðist á þeim tilvikum sem skipta mestu: gildrurnar í mismunagreiningu, góðkynja afbrigðin sem líta ógnvekjandi út þegar þau eru einangruð, og fullkomlega eðlilegar samstæður sem freista öruggra aðstoðarmanna til að búa til meinafræði.
Þessi viðmiðun var smíðuð einmitt með þessi bilunarmynstur í huga. Hvert af fimmtán tilvikunum var valið vegna ákveðins greiningareiginleika: járnskorts-míkrósýtósu sem þarf að halda aðgreindri frá eiginleika beta-talassemíu með eins meðalfrumumagn, birtingarmynd Gilbert-sjúkdóms þar sem eina frávikið er einangruð óbein hækkun á gallrauðlitarefni í blóði (óbein hyperbilirúbínhækkun) og fimmtán þátta skimunarsamstæða þar sem hvert mæligildi liggur innan viðmiðunarsviðs. Viðmiðunarlýsingin verðlaunar vélar sem lesa hvert tilvik á eigin forsendum og refsar vélum sem reyna að komast að öruggri greiningu þegar slík greining á ekki við.
Sem Thomas Klein, læknir, valdi ég tilvikasafnið vegna þess að þetta eru mynstrin sem aðstoðarmenn á rannsóknarstofulækningum gera oftast rangt. Dýrasta bilunin er ekki "að missa af sjaldgæfum sjúkdómi" — heldur að búa til venjubundna meinafræði hjá sjúklingum sem hafa hana ekki. Okkar Læknisfræðileg staðfesting hub lýsir víðara ramma; þessi síða lýsir notkunarniðurstöðu þess á V11-vélina.
Nýjasta viðmiðunar keyrsla — V11 (apríl 2026)
Tilvísunarskeyrslan í apríl 2026 fyrir Kantesti AI Engine V11 skilaði samsettum heildareinkunn: 99.12% samkvæmt fyrirfram skráðri fimmtán-tilvika viðmiðunarlýsingu. Bæði tilvikin sem féllu í „ofgreiningar“-gildruna skoruðu á hámarki. Mentzer-vísirinn var beitt rétt í mismunagreiningunni milli járnskorts og talassemíu.
Samsetta formúlan sameinar þrjá þætti: byggingarleg samræmi við sjö skylduskýrslugreinar og sextán skyldubundnar undirgreinar, klínísk nákvæmni mælt sem orðlykils-endurköllun (keyword recall) auk endurköllunar í stigakerfi auk sannprófunar á gildi líkinda-dreifingar, og svörunartími miðað við 20 sekúndna aðalþjónustustig (primary service-level target). Nákvæm sundurliðun er sýnd í formúlunni í viðmiðunarlýsingunni hér að neðan.
Eftir eru 0,88 prósentustig af „headroom“ sem skiptast nánast alfarið í seinkunartap — þrjár varafallsbeiðnir í 2. fasa, hver um sig með -0,05 samsettum stuðli, lögðu til um 0,60 af 0,88-stiga skorti — frekar en í klínískt innihald. Vélin missti ekki af réttri greiningu í neinu af fimmtán tilvikum; þar sem hún skorti, gerði hún það með því að taka örlítið lengri tíma en 20 sekúndna markmið fyrir aðalferil í litlum minnihluta beiðna.
Fimmtán tilvik yfir sjö læknasérgreinar
Tilvikspallborðið nær yfir sjö sérsvið — blóðmeinafræði, innkirtlafræði, efnaskiptalækningar, lifrarlækningar, nýrnalækningar, hjartalækningar, gigtarlækningar — auk tveggja sértækra „hyperdiagnosis trap“ tilvika. Hvert tilvik er nafnlaust raunverulegt sjúkraskráarupplýsingar sem dregnar eru úr Kantesti klínísku gagnasafninu samkvæmt skriflegu upplýstu samþykki.
Auðkennisafnám var framkvæmt samkvæmt Safe Harbor-aðferðinni: allar beinar auðkennisupplýsingar voru fjarlægðar eða skipt út og hvert skráarupplýsing var úthlutað viðmiðunarsértæku innra tilvikskóða á sniðinu BT-NNN-LABEL. Vinnsla fór fram í samræmi við GDPR 9. gr. 2. mgr. (j) fyrir vísindarannsóknir með viðeigandi varúðarráðstöfunum og samsvarandi ákvæðum í bresku GDPR. Engar persónugreinanlegar upplýsingar birtast neins staðar í birta „harness“-kerfinu, tækniskýrslunni eða útgefnu gagnasöfnunum.
Af hverju þessi tiltekna dreifing
Blóðfræði fær þrjú tilvik vegna þess að mismunagreiningar fyrir míkrósýtósu og makrósýtósu eru mestu „gildrurnar“ í raunverulegri rannsóknarstofustarfsemi hvað varðar umfang. Innkirtlafræði fær þrjú vegna þess að birtingarmyndir Hashimoto-sjúkdóms, PCOS og D-vítamínskorts æfa mismunandi greiningarmynstur (sjálfsmótefnavaldar, hormónahlutfallavaldar og eins-markera-valdar). Sérgreinar með einu tilviki eru samt þýðingarmiklar vegna þess að hver um sig — CKD, ASCVD- áhættumat og SLE — hefur sitt eigið stigakerfi sem vélin á að kalla fram (KDIGO-stigsetning, ASCVD 10-ára áhætta og 2019 EULAR/ACR SLE-skilyrði, í sömu röð).
Matsviðmiðið sem var for-skráð, útskýrt
Forskráning (pre-registration) er mikilvægasta aðferðaval í þessari viðmiðun. Hver vænt greining, hvert klínískt stigakerfi og hver hluti skýrslunnar var skuldbundinn í frumkóða áður en vélin var kölluð fram. Þess vegna er ómögulegt að stilla matsviðmiðið (rubric) eftir á til að smjaðra vélinni.
Þrír þættir mynda samsetta einkunn. Byggingarþátturinn leggur til 35 prósent og mælir hvort vélin skilaði sjö skyldubundnum skýrsluhlutum (haus, samantekt, helstu niðurstöður, mismunagreining, stigakerfi, ráðleggingar, eftirfylgni) og sextán skyldubundnum undirköflum innan þeirra. Tilvist kafla vegur 40 prósent og tilvist undirkafla vegur 60 prósent innan byggingarútreikningsins.
The Klíníski þátturinn leggur til 55 prósent og sameinar þrennt: endurköllun greiningar-lykilorða (70 prósent af klínísku undireinkunninni), endurköllun stigakerfa (20 prósent — hvort vélin reikni Mentzer, FIB-4, HOMA-IR, ASCVD-áhættu, KDIGO-stigsetningu, EULAR/ACR-skilyrði þar sem við á), og gildiathugun á líkindasummu (10 prósent — mismunarlíkindin eiga að summa innan bilsins [90, 110]). Fyrir „gildru“-tilvik er dregin frá skýr ofgreiningarrefsing allt að 0.30, reiknuð sem 0.10 fyrir hvern tilbúinn meinafræðifána, með hámarki við þrjá fána.
The Seinkunarþátturinn leggur til 10 prósent. Svör á innan við 20 sekúndum fá fulla 0.10, svör á innan við 40 sekúndum fá 0.05 og allt sem er hægara fær núll. 20-sekúndna markmiðið endurspeglar framleiðslu-meginmarkmið þjónustustigs fyrir primary-path; 40-sekúndna þakið endurspeglar varasjóð fyrir Phase 2 þegar vélin er kölluð í þyngri tilvikum.
Hvað forskráning kemur í veg fyrir
Fyrstu-aðila viðmiðanir eru frægar fyrir að blása upp eigin tölur með því að stilla matsviðmiðið eftir á. Mynstrið er næstum alltaf það sama: teymið keyrir vélina, sér hvar hún stendur sig illa, og stillir síðan hljóðlega matsviðmiðið þannig að svæði sem standa sig illa telji minna. Með því að skuldbinda matsviðmiðið í frumkóða áður en fyrsta köllun vélarinnar fer fram og birta prófkerfið undir MIT-leyfi verður þessi breyting sýnileg í útgáfustýringu. Allir geta klónað geymsluna, skoðað dagsetningar höfundar matsviðmiðsins og staðfest að ekki hafi verið notaðar niðurstöður úr vélinni til að móta stigagjöfina.
Tilvik í gildru ofgreiningar — hvers vegna of mikil köllun er raunveruleg bilunarleið
Áköf ofnotkun á meinafræði á eðlilegum skjám er skjalfest bilunarháttur í læknisfræðilegum aðstoðarmönnum sem snúa að neytendum. Afleiddur kostnaður felur í sér óþarfa rannsóknir, kvíða sjúklinga og iatrogena (meðferðar- eða rannsóknartengda) vinnslu. Tvö „gildru“-tilvikin í þessari viðmiðun eru hönnuð til að gera þennan bilunarhátt sýnilegan og mælanlegan.
🟡 Gildra 1 — BT-014-GILBERT
Birtingarmynd. 24 ára karlmaður með heildarbíilírúbín 2.4 mg/dL. Bein brotið er eðlilegt, transamínasar og basískur fosfatasi eru innan viðmiðunarsviða, retíkúlócýtur eru óathugaverðir og haptóglóbín og LDH útiloka blóðlýsu.
Rétt túlkun. Gilbert-sjúkdómur — góðkynja UGT1A1 fjölbreytileiki. Túlkunin á ekki að kalla fram lifrarbólgu, skorpulifur, blóðlýsublóðleysi eða gallteppu.
Niðurstaða V11. Samsett 1.000. Engin af sex eftirlits-„ofgreiningar“-fánunum birtist sem virk greining.
🟡 Gildra 2 — BT-015-HEALTHY
Birtingarmynd. 35 ára kona með fimmtán breytu reglubundið skimunarróf. Allir mældir mælikvarðar liggja þægilega innan viðmiðunarsviðs.
Rétt túlkun. Meging og viðhalds lífsstíls. Túlkunin ætti ekki að búa til jaðareinkenni sjúkdóma til að hljóma klínískt gagnleg.
Niðurstaða V11. Samsett 1.000. Ekkert af sjö eftirlitsmerkjum ofgreiningar — sykursýki, blóðleysi, skjaldvakabrestur, blóðfituröskun, lifrarbólga, nýrnasjúkdómur, skortur — birtist sem virkar greiningar.
Í báðum „gildrunum“ voru athuguð þrettán eftirlitsmerki ofgreiningar. Engin þeirra var kveikt. Þetta er niðurstaðan sem skiptir mestu máli fyrir hvern þann lækni sem íhugar að nota AI-kerfi sem skimunar- eða forráðgjafartæki: kerfið fann ekki upp sjúkdóma þar sem engir voru til staðar.
Mentzer-vísitala: aðgreining járnskorts frá eiginleikum blóðþynningar (thalassaemia trait)
Önnur mikilvæg niðurstaða varðar samsetningu máls BT-001 (járnskortsblóðleysi) við mál BT-007 (minniháttar beta-talassemíu). Bæði koma fram með míkrósýtósu og eru vel þekktur steingervingur fyrir óreynda flokkara. Mentzer-vísirinn, reiknaður sem MCV deilt með RBC-fjölda, er yfir 13 í járnskortsblóðleysi og fellur undir 13 í eiginleika talassemíu.
Í BT-001 var sjúklingurinn 34 ára kona með blóðrauða 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritín 6 ng/mL og hækkað TIBC. Mentzer-vísirinn, um 17,7, styður algeran járnskort. Í BT-007 var sjúklingurinn 28 ára karl með míkrósýtósu (MCV 65,8 fL) en háan RBC-fjölda 6,2, eðlilegt RDW, eðlilegt ferritín og HbA2 5,6 prósent. Mentzer-vísirinn, um 10,6, bendir til eiginleika talassemíu og hækkað HbA2 staðfestir minniháttar beta-talassemíu.
Bæði tilvikin skoruðu 1.000. Kerfið notaði Mentzer-vísinn skýrt í báðum túlkunum og skilaði réttri greiningu í hvert skipti. Þetta er ein öruggasta klíníska niðurstaðan í öllum viðmiðunarprófinu, vegna þess að það að flokka eiginleika talassemíu sem járnskort leiðir til óviðeigandi járnuppbótar og að missa af tækifærum til skimunar í fjölskyldu, og það að flokka járnskort sem talassemíu seinkar einfaldri staðgöngumeðferð. Okkar leiðarvísir fyrir ferritínbil útskýrir víðara mismunagreiningarsamhengið.
Niðurstöður per tilfelli úr keyrslu í apríl 2026
Tíu af fimmtán tilvikum náðu þakinu í samsettu aðalskorinu, 1.000. Þrjú tilvik voru afgreidd í gegnum „Phase 2“ varafallið og misstu 0,05 seinkunarbónusinn en héldu öllum klínískum og byggingarlegum upplýsingum. Eitt tilvik vantaði eina skyldubundna undirgrein; eitt skilaði aðeins lægri summu líkinda.
PCOS-tilvikið (BT-008) missti einn skyldubundinn undirlið í uppbyggingu svörunar — fimmtán af sextán í stað sextán af sextán — sem minnkaði uppbyggingareinkunn úr 1,000 í 0,963. SLE-tilvikið (BT-011) skilaði lítillega lækkuðu summu líkinda-dreifingar sem lækkaði klíníska einkunn í 0,965 en varðveitti alla greiningarlykla og stigakerfi. Hvorki af þeim tilvikum sem voru undir fullkomnun missti af réttri greiningu.
Það sem fyrirsagnareinkunnin segir okkur ekki
Samsett einkunn upp á 99,12 prósent samkvæmt þessari tilteknu fyrirfram-skráðri viðmiðunarlýsingu gefur til kynna nær-lágmarkaafköst, en hún á skilið vandaða framsetningu. Niðurstaðan lýsir hegðun vélarinnar gagnvart fimmtán vandlega völdum nafnlausum tilvikum, metin einu sinni hvert, samkvæmt einni viðmiðunarlýsingu. Við erum skýr um hvað talan gerir og hvað hún staðfestir ekki.
Einkunnin segir að V11-vélin hafi meðhöndlað greiningarmynstrin sem valin voru fyrir þessa úttekt rétt, með aðferðafræði sem er birt og endurframkvæmanleg. Hún segir ekki að vélin sé rétt á hverju blóðprófasniði sem er til í raunheiminum. Hún segir ekki að vélin eigi að koma í stað klínískrar fagþekkingar. Og hún segir ekki að vélin standi sig betur en aðrar gervigreindarkerfi — samanburðargreiningar við aðrar vélar voru vísvitandi utan umfangs fyrir þessa skýrslu.
Það sem einkunnin staðfestir er grunnlína. Þegar viðmiðunarlýsingin og verkfærakistan (harness) eru opinberar er hægt að meta framtíðarútgáfur af vélinni gegn sömu fimmtán tilvikunum og bilið milli birtrar einkunnar og hvers kyns síðari keyrslu er sjálft mælanlegt. Þetta er gildi fyrirfram-skráningar: hún breytir fullyrðingum um afköst í prófanlegar fullyrðingar.
Hvernig á að endurtaka þetta viðmið á 10 mínútum
Endurframkvæmd krefst aðeins Kantesti API-heimildapar og Python 3.10 eða nýrra umhverfis með requests og reportlab bókasöfn uppsett. Heildarverkfærakistan er einn sjálfstæður Python-einingur sem gefinn er út undir MIT-leyfi.
Fjórir skref til nýrrar keyrslu
Eitt. Klónaðu geymsluna: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Tvö. Settu upp ósjálfstæði með pip install -r requirements.txt. Þrír. Stilltu KANTESTI_USERNAME og KANTESTI_PASSWORD sem umhverfisbreytur — skilríki eru lesin við keyrslu og ekkert er harðkóðað í handritinu. Fjórir. Keyrðu python benchmark_bloodtest.py og skoðaðu fjögur atriðin sem verða til í vinnuskránni: CSV-stigakort, JSON-stigakort, fullt JSON-útdráttur með hráum svörum vélarinnar og læsilega Markdown-skýrslu.
Tilvísunarkeyrsla frá 23. apríl 2026 er varðveitt í results/ möppunni í geymslunni. Ný keyrsla mun búa til nýtt stigakort með tímastimpli en skilja tilvísunarkeyrsluna eftir óbreytta. Ef keyrsla þín skilar marktækt öðru niðurstöðum, vinsamlegast opnaðu GitHub-mál með tímastimpli keyrslunnar og útgáfu vélarinnar sem skilað er í svarupplýsingum (response metadata).
Takmarkanir og framtíðarvinna
Fjórar takmarkanir eiga skilið skýra viðurkenningu: úrtaksstærð, einnota (single-shot) mat, afmörkun við eina vél og uppruni gagna frá einum aðila. Hver þeirra er verið að vinna að í virku eftirfylgni.
Úrtaksstærð. Fimmtán tilvik yfir átta sérsviðaflokka duga fyrir hugmyndapróf en ekki fyrir undirhópagreiningu innan sérsviðs. Áformað er að stækka í fimmtíu tilvik og mun það fela í sér storkupróf, skimun fyrir illkynja blóðsjúkdóma, meðgöngusnið og barnasjúkdóma.
Einnota mat. Hvert tilvik var metið einu sinni. Stór tungumálalíkön sýna óverulega breytileika í úttaki jafnvel við lágt sýnatökuhitastig, þannig að fjölkeyrsluferli með fimm mati á hvert tilvik og skráðri breytileika er eðlilegt næsta skref.
Afmörkun við eina vél. Þessi skýrsla lýsir einni vél. Samanburðargreiningar við aðrar gervigreindarkerfi eru utan gildissviðs hér; við gætum stundað slíkt sem sérstakt sjálfstætt rannsóknarverkefni með viðeigandi aðferðafræði.
Uppruni gagna frá einum aðila. Fimmtán tilvikin eru nafnlaus raunveruleg sjúkragögn sjúklinga úr einni klínískri gagnageymslu. Þau endurspegla sérvalið úrtak og eru ekki slembin, lýsandi úrtak fyrir þýði. Að auka matið í gögn frá mörgum miðstöðvum er á áætlun.
Áformuð framlenging sem hefur mest áhrif er jafngildi á mörgum tungumálum. Kantesti AI Engine þjónar notendum á 75+ tungumálum og með því að keyra sama 15-tilvika prófunarbúnaðinn á tyrknesku, þýsku, spænsku, frönsku og arabísku munum við mæla gæði úttaks yfir þeim tungumálum sem vélin styður. Við munum birta hverja keyrslu fyrir sig á sínu eigin DOI og með samsvarandi útibúi fyrir prófunarbúnaðinn.