Kantesti AI blóðrannsóknarviðmið — klínísk staðfesting

Klínísk staðfesting For-skráð viðmið V11 — apríl 2026 MIT-leyfi Hægt að sannreyna af jafningjum

99.12% samsett stig á fyrirfram skráðum matsramma með núll ofgreiningu falskra jákvæðra niðurstaðna

Óháð, for-skráð klínísk mat á Kantesti gervigreindarvélinni á nafnlausum blóðrannsóknargögnum. Matsviðmiðinu var læst í upprunakóða áður en fyrsta vélarútkall fór fram, matsprófunarbúnaðurinn er með MIT-leyfi og sérhver hrá svör eru birt.

📖 ~14 mínútur 📅 23. apríl 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Birt: 23. apríl 2026 🩺 Læknisfræðilega yfirfarið: 23. apríl 2026 ✅ For-skráð matsviðmið 🔓 Opinn kóði & gögn

Þessi klínísku staðfestingarrannsókn var stýrð af Dr. Thomas Klein, læknir, læknisforstjóra (Chief Medical Officer) hjá Kantesti gervigreind, í samstarfi við Julian Emirhan Bulut, eldri gervigreindarverkfræðing og framkvæmdastjóra (CEO) hjá Kantesti Ltd. Aðferðafræði og matsviðmið voru yfirfarin af Læknisfræðileg ráðgjafarnefnd Kantesti AI.

Höfuðhöfundur & klínískt eftirlit

Tómas Klein, læknir

Yfirlæknir, Kantesti AI

Dr. Thomas Klein er löggiltur klínískur blóðsjúkdómalæknir (hematologist) og innlæknir með yfir 15 ára reynslu í rannsóknarstofulækningum. Sem læknisforstjóri hjá Kantesti gervigreind valdi hann tilviksúrtakið fyrir þetta viðmið, yfirfór allar greiningarstaðreyndir (diagnostic ground truths) og samþykkti for-skráð matsviðmið áður en fyrsta vélarútkall fór fram.

ORCID 0009-0009-1490-1321 Rannsóknarhlið Google Scholar

Meðhöfundur & innleiðing

Julian Emirhan Bulut

Eldri gervigreindarverkfræðingur & framkvæmdastjóri, Kantesti Ltd

Julian Emirhan Bulut er stofnandi og framkvæmdastjóri Kantesti Ltd. Hann hannaði og innleiddi matsprófunarbúnaðinn, framkvæmdi API-innleiðingu, stýrði keyrslu viðmiðsins í apríl 2026 og útbjó tölfræðilega samantekt. Stofnandi vettvangsins frá 2019.

GitHub Um Kantesti

⚡ Stutt samantekt V11 — 23. apríl 2026

99.12% samsett einkunn á 15 nafnlausum raunverulegum blóðprufutilfellum hjá sjö læknasérgreinum.
Engin fölsk jákvæð ofgreining bæði í gildruatilfellum (Gilbertsjúkdómur og fullkomlega eðlileg skimun fullorðins).
For-skráð matsviðmið fryst í frumkóða áður en fyrsta vélarkallið átti sér stað — engin eftirá-túning var möguleg.
Mentzer-vísir rétt beittur til að aðgreina járnskortsblóðleysi frá beta-talassemíu minniháttar.
Aðeins framleiðsluendapunktur — engin forréttindaleiðsögn, metið nákvæmlega eins og greiddur viðskiptavinur myndi nálgast það.
20,17 sekúndna meðalviðurkenningartöf frá enda til enda, þar sem 12 af 15 tilfellum voru undir 20 sekúndna aðalmarkmiði leiðarinnar.
MIT-leyfisprófunarbúnaður gefinn út á GitHub með hverju hráu svari vélarinnar — sjálfstæð endurgerð er studd.
Figshare DOI: 10.6084/m9.figshare.32095435 · Speglað á ResearchGate, Academia.edu, GitHub.

Af hverju þetta viðmið er til og hvað það prófar

AI-aðstoðuð túlkun blóðrannsókna er sífellt meira notuð í neytenda- og klínískum vinnuflæði, en endurgeranleg matsrammi sem er sérsniðinn að rannsóknarstofulækningum er enn sjaldgæfur. Spurningarnar sem skipta mestu máli í þessu samhengi eru ekki þær sem falla undir almenn viðmið fyrir læknisfræðilega spurninga-og-svar. getur vél aðgreint járnskort frá talassemíu-einkennum þegar meðalfrumumagn er eins, ofgreinir hún Gilbertsjúkdóm sem lifrarbólgu og skapar hún meinafræði í fullkomlega eðlilegum skimunarpakka?

Blóðprufusamstæða inniheldur venjulega nægjanlegt merki til að styðja nokkrar samkeppnislegar túlkanir og hlutverk túlkunarlæknisins er að vega þessar túlkanir hverja á móti annarri frekar en að sækja „rétta“ svarið eins og í kennslubók. Vél sem gengur vel á dæmigerðum tilvikum úr kennslubókum getur samt brugðist á þeim tilvikum sem skipta mestu: gildrurnar í mismunagreiningu, góðkynja afbrigðin sem líta ógnvekjandi út þegar þau eru einangruð, og fullkomlega eðlilegar samstæður sem freista öruggra aðstoðarmanna til að búa til meinafræði.

Þessi viðmiðun var smíðuð einmitt með þessi bilunarmynstur í huga. Hvert af fimmtán tilvikunum var valið vegna ákveðins greiningareiginleika: járnskorts-míkrósýtósu sem þarf að halda aðgreindri frá eiginleika beta-talassemíu með eins meðalfrumumagn, birtingarmynd Gilbert-sjúkdóms þar sem eina frávikið er einangruð óbein hækkun á gallrauðlitarefni í blóði (óbein hyperbilirúbínhækkun) og fimmtán þátta skimunarsamstæða þar sem hvert mæligildi liggur innan viðmiðunarsviðs. Viðmiðunarlýsingin verðlaunar vélar sem lesa hvert tilvik á eigin forsendum og refsar vélum sem reyna að komast að öruggri greiningu þegar slík greining á ekki við.

Sem Thomas Klein, læknir, valdi ég tilvikasafnið vegna þess að þetta eru mynstrin sem aðstoðarmenn á rannsóknarstofulækningum gera oftast rangt. Dýrasta bilunin er ekki "að missa af sjaldgæfum sjúkdómi" — heldur að búa til venjubundna meinafræði hjá sjúklingum sem hafa hana ekki. Okkar Læknisfræðileg staðfesting hub lýsir víðara ramma; þessi síða lýsir notkunarniðurstöðu þess á V11-vélina.

Nýjasta viðmiðunar keyrsla — V11 (apríl 2026)

Tilvísunarskeyrslan í apríl 2026 fyrir Kantesti AI Engine V11 skilaði samsettum heildareinkunn: 99.12% samkvæmt fyrirfram skráðri fimmtán-tilvika viðmiðunarlýsingu. Bæði tilvikin sem féllu í „ofgreiningar“-gildruna skoruðu á hámarki. Mentzer-vísirinn var beitt rétt í mismunagreiningunni milli járnskorts og talassemíu.

Samsett 99.12% 15 af 15 tilvikum skoruðu

0.998 Byggingarstig

0.998 Klínískt stig

20.17 s Meðalbiðtími

0 / 13 Rangar jákvæðar niðurstöður í gildrum

Samsetta formúlan sameinar þrjá þætti: byggingarleg samræmi við sjö skylduskýrslugreinar og sextán skyldubundnar undirgreinar, klínísk nákvæmni mælt sem orðlykils-endurköllun (keyword recall) auk endurköllunar í stigakerfi auk sannprófunar á gildi líkinda-dreifingar, og svörunartími miðað við 20 sekúndna aðalþjónustustig (primary service-level target). Nákvæm sundurliðun er sýnd í formúlunni í viðmiðunarlýsingunni hér að neðan.

Samsett = 0.35 × Byggingarlegt + 0.55 × Klínískt + 0.10 × Biðtími

Eftir eru 0,88 prósentustig af „headroom“ sem skiptast nánast alfarið í seinkunartap — þrjár varafallsbeiðnir í 2. fasa, hver um sig með -0,05 samsettum stuðli, lögðu til um 0,60 af 0,88-stiga skorti — frekar en í klínískt innihald. Vélin missti ekki af réttri greiningu í neinu af fimmtán tilvikum; þar sem hún skorti, gerði hún það með því að taka örlítið lengri tíma en 20 sekúndna markmið fyrir aðalferil í litlum minnihluta beiðna.

Fimmtán tilvik yfir sjö læknasérgreinar

Tilvikspallborðið nær yfir sjö sérsvið — blóðmeinafræði, innkirtlafræði, efnaskiptalækningar, lifrarlækningar, nýrnalækningar, hjartalækningar, gigtarlækningar — auk tveggja sértækra „hyperdiagnosis trap“ tilvika. Hvert tilvik er nafnlaust raunverulegt sjúkraskráarupplýsingar sem dregnar eru úr Kantesti klínísku gagnasafninu samkvæmt skriflegu upplýstu samþykki.

Auðkennisafnám var framkvæmt samkvæmt Safe Harbor-aðferðinni: allar beinar auðkennisupplýsingar voru fjarlægðar eða skipt út og hvert skráarupplýsing var úthlutað viðmiðunarsértæku innra tilvikskóða á sniðinu BT-NNN-LABEL. Vinnsla fór fram í samræmi við GDPR 9. gr. 2. mgr. (j) fyrir vísindarannsóknir með viðeigandi varúðarráðstöfunum og samsvarandi ákvæðum í bresku GDPR. Engar persónugreinanlegar upplýsingar birtast neins staðar í birta „harness“-kerfinu, tækniskýrslunni eða útgefnu gagnasöfnunum.

Blóðmeinafræði (3) BT-001, BT-006, BT-007 Járnskortsblóðleysi · B12-vítamínskortur · Minniháttar beta-talassemía

Innkirtlafræði (3) BT-002, BT-008, BT-012 Hashimoto-sjúkdómur í skjaldkirtli · PCOS með insúlínviðnámi · Alvarlegur D-vítamínskortur

Efnaskipti (2) BT-003, BT-013 T2DM með efnaskiptavillu · Ofþvagsýruhækkun með áhættu á þvagsýrugigt

Lifrarlækningar (2) BT-004, BT-009 NAFLD / NASH · Bráð veiru lifrarbólga

Nýrnalækningar · Hjartalækningar · Gigtarlækningar (3) BT-005, BT-010, BT-011 CKD stig 3 · Æðahrörnunarfituóhóf (æðakölkunarvaldandi fitublóðleysi) · Kerfisbundinn rauður úlfur

„Trap“ tilvik (2) BT-014, BT-015 Gilbert-sjúkdómur (einangruð óbein blóðbilirúbínhækkun) · Fullkomlega eðlileg fullorðins-skimun

Af hverju þessi tiltekna dreifing

Blóðfræði fær þrjú tilvik vegna þess að mismunagreiningar fyrir míkrósýtósu og makrósýtósu eru mestu „gildrurnar“ í raunverulegri rannsóknarstofustarfsemi hvað varðar umfang. Innkirtlafræði fær þrjú vegna þess að birtingarmyndir Hashimoto-sjúkdóms, PCOS og D-vítamínskorts æfa mismunandi greiningarmynstur (sjálfsmótefnavaldar, hormónahlutfallavaldar og eins-markera-valdar). Sérgreinar með einu tilviki eru samt þýðingarmiklar vegna þess að hver um sig — CKD, ASCVD- áhættumat og SLE — hefur sitt eigið stigakerfi sem vélin á að kalla fram (KDIGO-stigsetning, ASCVD 10-ára áhætta og 2019 EULAR/ACR SLE-skilyrði, í sömu röð).

Matsviðmiðið sem var for-skráð, útskýrt

Forskráning (pre-registration) er mikilvægasta aðferðaval í þessari viðmiðun. Hver vænt greining, hvert klínískt stigakerfi og hver hluti skýrslunnar var skuldbundinn í frumkóða áður en vélin var kölluð fram. Þess vegna er ómögulegt að stilla matsviðmiðið (rubric) eftir á til að smjaðra vélinni.

Þrír þættir mynda samsetta einkunn. Byggingarþátturinn leggur til 35 prósent og mælir hvort vélin skilaði sjö skyldubundnum skýrsluhlutum (haus, samantekt, helstu niðurstöður, mismunagreining, stigakerfi, ráðleggingar, eftirfylgni) og sextán skyldubundnum undirköflum innan þeirra. Tilvist kafla vegur 40 prósent og tilvist undirkafla vegur 60 prósent innan byggingarútreikningsins.

The Klíníski þátturinn leggur til 55 prósent og sameinar þrennt: endurköllun greiningar-lykilorða (70 prósent af klínísku undireinkunninni), endurköllun stigakerfa (20 prósent — hvort vélin reikni Mentzer, FIB-4, HOMA-IR, ASCVD-áhættu, KDIGO-stigsetningu, EULAR/ACR-skilyrði þar sem við á), og gildiathugun á líkindasummu (10 prósent — mismunarlíkindin eiga að summa innan bilsins [90, 110]). Fyrir „gildru“-tilvik er dregin frá skýr ofgreiningarrefsing allt að 0.30, reiknuð sem 0.10 fyrir hvern tilbúinn meinafræðifána, með hámarki við þrjá fána.

The Seinkunarþátturinn leggur til 10 prósent. Svör á innan við 20 sekúndum fá fulla 0.10, svör á innan við 40 sekúndum fá 0.05 og allt sem er hægara fær núll. 20-sekúndna markmiðið endurspeglar framleiðslu-meginmarkmið þjónustustigs fyrir primary-path; 40-sekúndna þakið endurspeglar varasjóð fyrir Phase 2 þegar vélin er kölluð í þyngri tilvikum.

Hvað forskráning kemur í veg fyrir

Fyrstu-aðila viðmiðanir eru frægar fyrir að blása upp eigin tölur með því að stilla matsviðmiðið eftir á. Mynstrið er næstum alltaf það sama: teymið keyrir vélina, sér hvar hún stendur sig illa, og stillir síðan hljóðlega matsviðmiðið þannig að svæði sem standa sig illa telji minna. Með því að skuldbinda matsviðmiðið í frumkóða áður en fyrsta köllun vélarinnar fer fram og birta prófkerfið undir MIT-leyfi verður þessi breyting sýnileg í útgáfustýringu. Allir geta klónað geymsluna, skoðað dagsetningar höfundar matsviðmiðsins og staðfest að ekki hafi verið notaðar niðurstöður úr vélinni til að móta stigagjöfina.

Tilvik í gildru ofgreiningar — hvers vegna of mikil köllun er raunveruleg bilunarleið

Áköf ofnotkun á meinafræði á eðlilegum skjám er skjalfest bilunarháttur í læknisfræðilegum aðstoðarmönnum sem snúa að neytendum. Afleiddur kostnaður felur í sér óþarfa rannsóknir, kvíða sjúklinga og iatrogena (meðferðar- eða rannsóknartengda) vinnslu. Tvö „gildru“-tilvikin í þessari viðmiðun eru hönnuð til að gera þennan bilunarhátt sýnilegan og mælanlegan.

🟡 Gildra 1 — BT-014-GILBERT

Birtingarmynd. 24 ára karlmaður með heildarbíilírúbín 2.4 mg/dL. Bein brotið er eðlilegt, transamínasar og basískur fosfatasi eru innan viðmiðunarsviða, retíkúlócýtur eru óathugaverðir og haptóglóbín og LDH útiloka blóðlýsu.

Rétt túlkun. Gilbert-sjúkdómur — góðkynja UGT1A1 fjölbreytileiki. Túlkunin á ekki að kalla fram lifrarbólgu, skorpulifur, blóðlýsublóðleysi eða gallteppu.

Niðurstaða V11. Samsett 1.000. Engin af sex eftirlits-„ofgreiningar“-fánunum birtist sem virk greining.

🟡 Gildra 2 — BT-015-HEALTHY

Birtingarmynd. 35 ára kona með fimmtán breytu reglubundið skimunarróf. Allir mældir mælikvarðar liggja þægilega innan viðmiðunarsviðs.

Rétt túlkun. Meging og viðhalds lífsstíls. Túlkunin ætti ekki að búa til jaðareinkenni sjúkdóma til að hljóma klínískt gagnleg.

Niðurstaða V11. Samsett 1.000. Ekkert af sjö eftirlitsmerkjum ofgreiningar — sykursýki, blóðleysi, skjaldvakabrestur, blóðfituröskun, lifrarbólga, nýrnasjúkdómur, skortur — birtist sem virkar greiningar.

Í báðum „gildrunum“ voru athuguð þrettán eftirlitsmerki ofgreiningar. Engin þeirra var kveikt. Þetta er niðurstaðan sem skiptir mestu máli fyrir hvern þann lækni sem íhugar að nota AI-kerfi sem skimunar- eða forráðgjafartæki: kerfið fann ekki upp sjúkdóma þar sem engir voru til staðar.

Mentzer-vísitala: aðgreining járnskorts frá eiginleikum blóðþynningar (thalassaemia trait)

Önnur mikilvæg niðurstaða varðar samsetningu máls BT-001 (járnskortsblóðleysi) við mál BT-007 (minniháttar beta-talassemíu). Bæði koma fram með míkrósýtósu og eru vel þekktur steingervingur fyrir óreynda flokkara. Mentzer-vísirinn, reiknaður sem MCV deilt með RBC-fjölda, er yfir 13 í járnskortsblóðleysi og fellur undir 13 í eiginleika talassemíu.

Í BT-001 var sjúklingurinn 34 ára kona með blóðrauða 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritín 6 ng/mL og hækkað TIBC. Mentzer-vísirinn, um 17,7, styður algeran járnskort. Í BT-007 var sjúklingurinn 28 ára karl með míkrósýtósu (MCV 65,8 fL) en háan RBC-fjölda 6,2, eðlilegt RDW, eðlilegt ferritín og HbA2 5,6 prósent. Mentzer-vísirinn, um 10,6, bendir til eiginleika talassemíu og hækkað HbA2 staðfestir minniháttar beta-talassemíu.

Járnskortsblóðleysi Mentzer > 13 Lágt ferritín, lágt TSAT, hátt TIBC, hækkað RDW

Eiginleiki beta-talassemíu Mentzer < 13 Eðlilegt ferritín, eðlilegt RDW, hækkað HbA2 (>3.5%), hár RBC-fjöldi

Bæði tilvikin skoruðu 1.000. Kerfið notaði Mentzer-vísinn skýrt í báðum túlkunum og skilaði réttri greiningu í hvert skipti. Þetta er ein öruggasta klíníska niðurstaðan í öllum viðmiðunarprófinu, vegna þess að það að flokka eiginleika talassemíu sem járnskort leiðir til óviðeigandi járnuppbótar og að missa af tækifærum til skimunar í fjölskyldu, og það að flokka járnskort sem talassemíu seinkar einfaldri staðgöngumeðferð. Okkar leiðarvísir fyrir ferritínbil útskýrir víðara mismunagreiningarsamhengið.

Niðurstöður per tilfelli úr keyrslu í apríl 2026

Tíu af fimmtán tilvikum náðu þakinu í samsettu aðalskorinu, 1.000. Þrjú tilvik voru afgreidd í gegnum „Phase 2“ varafallið og misstu 0,05 seinkunarbónusinn en héldu öllum klínískum og byggingarlegum upplýsingum. Eitt tilvik vantaði eina skyldubundna undirgrein; eitt skilaði aðeins lægri summu líkinda.

Tilvikauðkenni Sérsvið Samsett Seinkun Ferli

BT-001-IDABlóðsjúkdómafræði1.00017,8 saðal

BT-006-B12Blóðsjúkdómafræði1.00018,4 saðal

BT-007-THALBlóðsjúkdómafræði1.00017,0 saðal

BT-002-HASHInnkirtlafræði0.95037,0 svarafall

BT-008-PCOSInnkirtlafræði0.98718,6 saðal

BT-003-T2DMEfnaskipta1.00019,1 saðal

BT-013-GOUTEfnaskipta1.00019,4 saðal

BT-004-NAFLDlifrarlækningar1.00019,6 saðal

BT-009-VIRHEPlifrarlækningar0.95023,4 svarafall

BT-014-GILBERTgildra1.00018,9 saðal

BT-005-CKDNýrnafræði1.00017,4 saðal

BT-010-ASCVDHjartalækningar1.00019,7 saðal

BT-011-SLELiðsjúkdómafræði0.98118,2 saðal

BT-012-VITDInnkirtlafræði1.00019,3 saðal

BT-015-HEALTHYgildra1.00018,7 svarafall

PCOS-tilvikið (BT-008) missti einn skyldubundinn undirlið í uppbyggingu svörunar — fimmtán af sextán í stað sextán af sextán — sem minnkaði uppbyggingareinkunn úr 1,000 í 0,963. SLE-tilvikið (BT-011) skilaði lítillega lækkuðu summu líkinda-dreifingar sem lækkaði klíníska einkunn í 0,965 en varðveitti alla greiningarlykla og stigakerfi. Hvorki af þeim tilvikum sem voru undir fullkomnun missti af réttri greiningu.

Það sem fyrirsagnareinkunnin segir okkur ekki

Samsett einkunn upp á 99,12 prósent samkvæmt þessari tilteknu fyrirfram-skráðri viðmiðunarlýsingu gefur til kynna nær-lágmarkaafköst, en hún á skilið vandaða framsetningu. Niðurstaðan lýsir hegðun vélarinnar gagnvart fimmtán vandlega völdum nafnlausum tilvikum, metin einu sinni hvert, samkvæmt einni viðmiðunarlýsingu. Við erum skýr um hvað talan gerir og hvað hún staðfestir ekki.

Einkunnin segir að V11-vélin hafi meðhöndlað greiningarmynstrin sem valin voru fyrir þessa úttekt rétt, með aðferðafræði sem er birt og endurframkvæmanleg. Hún segir ekki að vélin sé rétt á hverju blóðprófasniði sem er til í raunheiminum. Hún segir ekki að vélin eigi að koma í stað klínískrar fagþekkingar. Og hún segir ekki að vélin standi sig betur en aðrar gervigreindarkerfi — samanburðargreiningar við aðrar vélar voru vísvitandi utan umfangs fyrir þessa skýrslu.

Það sem einkunnin staðfestir er grunnlína. Þegar viðmiðunarlýsingin og verkfærakistan (harness) eru opinberar er hægt að meta framtíðarútgáfur af vélinni gegn sömu fimmtán tilvikunum og bilið milli birtrar einkunnar og hvers kyns síðari keyrslu er sjálft mælanlegt. Þetta er gildi fyrirfram-skráningar: hún breytir fullyrðingum um afköst í prófanlegar fullyrðingar.

Hvernig á að endurtaka þetta viðmið á 10 mínútum

Endurframkvæmd krefst aðeins Kantesti API-heimildapar og Python 3.10 eða nýrra umhverfis með requests og reportlab bókasöfn uppsett. Heildarverkfærakistan er einn sjálfstæður Python-einingur sem gefinn er út undir MIT-leyfi.

💻 GitHub Verkfærakista með MIT-leyfi · hrá svör · viðmiðunar keyrsla 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanónískt fræðilegt skráningaratriði 🎓 Rannsóknarhlið Birting 404175463 · fræðileg uppgötvunarlag 📄 Academia.edu Ritgerð 165956808 · fræðileg uppgötvunarlag

Fjórir skref til nýrrar keyrslu

Eitt. Klónaðu geymsluna: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Tvö. Settu upp ósjálfstæði með pip install -r requirements.txt. Þrír. Stilltu KANTESTI_USERNAME og KANTESTI_PASSWORD sem umhverfisbreytur — skilríki eru lesin við keyrslu og ekkert er harðkóðað í handritinu. Fjórir. Keyrðu python benchmark_bloodtest.py og skoðaðu fjögur atriðin sem verða til í vinnuskránni: CSV-stigakort, JSON-stigakort, fullt JSON-útdráttur með hráum svörum vélarinnar og læsilega Markdown-skýrslu.

Tilvísunarkeyrsla frá 23. apríl 2026 er varðveitt í results/ möppunni í geymslunni. Ný keyrsla mun búa til nýtt stigakort með tímastimpli en skilja tilvísunarkeyrsluna eftir óbreytta. Ef keyrsla þín skilar marktækt öðru niðurstöðum, vinsamlegast opnaðu GitHub-mál með tímastimpli keyrslunnar og útgáfu vélarinnar sem skilað er í svarupplýsingum (response metadata).

Takmarkanir og framtíðarvinna

Fjórar takmarkanir eiga skilið skýra viðurkenningu: úrtaksstærð, einnota (single-shot) mat, afmörkun við eina vél og uppruni gagna frá einum aðila. Hver þeirra er verið að vinna að í virku eftirfylgni.

Úrtaksstærð. Fimmtán tilvik yfir átta sérsviðaflokka duga fyrir hugmyndapróf en ekki fyrir undirhópagreiningu innan sérsviðs. Áformað er að stækka í fimmtíu tilvik og mun það fela í sér storkupróf, skimun fyrir illkynja blóðsjúkdóma, meðgöngusnið og barnasjúkdóma.

Einnota mat. Hvert tilvik var metið einu sinni. Stór tungumálalíkön sýna óverulega breytileika í úttaki jafnvel við lágt sýnatökuhitastig, þannig að fjölkeyrsluferli með fimm mati á hvert tilvik og skráðri breytileika er eðlilegt næsta skref.

Afmörkun við eina vél. Þessi skýrsla lýsir einni vél. Samanburðargreiningar við aðrar gervigreindarkerfi eru utan gildissviðs hér; við gætum stundað slíkt sem sérstakt sjálfstætt rannsóknarverkefni með viðeigandi aðferðafræði.

Uppruni gagna frá einum aðila. Fimmtán tilvikin eru nafnlaus raunveruleg sjúkragögn sjúklinga úr einni klínískri gagnageymslu. Þau endurspegla sérvalið úrtak og eru ekki slembin, lýsandi úrtak fyrir þýði. Að auka matið í gögn frá mörgum miðstöðvum er á áætlun.

Áformuð framlenging sem hefur mest áhrif er jafngildi á mörgum tungumálum. Kantesti AI Engine þjónar notendum á 75+ tungumálum og með því að keyra sama 15-tilvika prófunarbúnaðinn á tyrknesku, þýsku, spænsku, frönsku og arabísku munum við mæla gæði úttaks yfir þeim tungumálum sem vélin styður. Við munum birta hverja keyrslu fyrir sig á sínu eigin DOI og með samsvarandi útibúi fyrir prófunarbúnaðinn.

Prófaðu sömu vélina sem náði 99.12% samsettu stigi

Hladdu upp þínum eigin blóðrannsóknarprófunarspjaldi á sama framleiðsluendapunkt sem var metinn í þessari viðmiðun. Yfir 2 milljónir notenda um allan heim nota Kantesti gervigreindarvélina til að túlka yfir 15.000 lífmarkera á 75+ tungumálum.

🔬 Prófaðu ókeypis kynningu

Chrome viðbót App Store Google Play

📚 Hvernig á að vitna í þessa viðmiðun

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Klínísk staðfesting á Kantesti gervigreindarvélinni (2.78T)
                 á 15 nafnlausum blóðrannsóknatilfellum: Forskráð
                 viðmiðunarritstýrð viðmiðun sem inniheldur
                 ofgreiningargildruatilfelli
                 á sjö læknasviðum},
  institution = {Kantesti Ltd},
  address     = {London, Bretlandi},
  year        = {2026},
  month       = {April},
  type        = {Tækniskýrsla},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Klínísk staðfesting á Kantesti gervigreindarvélinni (2.78T) á 15 nafnlausum blóðrannsóknatilfellum: Forskráð viðmiðunarritstýrð viðmiðun sem inniheldur ofgreiningargildruatilfelli á sjö læknasviðum (Tækniskýrsla V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Tengdar Kantesti staðfestingarvinnur

Klein, T. (2025). Rammi fyrir klínískt staðfestingarkerfi fyrir túlkun blóðprufna með gervigreind: Þrefalt blind staðfestingarferli, afkastamælikvarðar og gæðatryggingarreglur. Kantesti AI læknisrannsókn.

🎓 Rannsóknarhlið

📖 Ytri aðferðafræðilegar tilvísanir

Mentzer, W. C. (1973). Aðgreining á járnskortsfrábrigði frá þalassemíuætt. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 flokkunarviðmið Evrópsku deildarinnar gegn gigt / Bandarísku gigtarlæknasamtakanna fyrir altæka rauða úlfarveiki. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test fyrir stór tungumálalíkön. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Samsett stig

15Tilfelli metin

7Sérsvið

0Gildru-falskjákvæði

Algengar spurningar

Hversu nákvæmt er Kantesti gervigreindarvélin á raunverulegum blóðrannsóknum?

Á forskráðu viðmiðunarriti með 15 nafnlausum raunverulegum blóðrannsóknatilfellum á sjö læknasviðum náði Kantesti gervigreindarvélin V11 samsettu stigi 99.12 prósentum, með núll ofgreiningargildru-falskjákvæðum bæði í gildruatilfellunum og með meðalviðbragðstíma (latency) upp á 20.17 sekúndur. Heildar stigaspjald fyrir hvert tilfelli er birt á Figshare undir DOI 10.6084/m9.figshare.32095435 og á GitHub undir MIT-leyfi.

Er Kantesti gervigreindarvélin klínískt staðfest?

Já. Vélin hefur verið klínískt staðfest gegn matsviðmiði sem var fryst í upprunakóða áður en vélin var kölluð, metið á 15 nafnlausum blóðrannsóknatilfellum á sviðum blóðmeinafræði, innkirtlafræði, efnaskiptalækninga, lifrarfræði, nýrnalækninga, hjartalækninga og gigtarlækninga. Klínísk yfirumsjón var veitt af Dr. Thomas Klein, lækni (MD) (ORCID 0009-0009-1490-1321), löggiltum klínískum blóðmeinafræðingi og framkvæmdastjóra lækninga hjá Kantesti AI.

Hvað er ofgreiningargildra?

Hypergreiningargildra (hyperdiagnosis trap) er klínískt atvik sem er sérstaklega hannað til að greina ofgreiningarhegðun í gervigreindarvélum. Kantesti V11 viðmiðið notar tvö slík tilvik. Fyrra tilvikið er einangruð óbein blóðbilirúbínhækkun sem samræmist Gilbert-sjúkdómi, þar sem rétta túlkunin er meinlaus UGT1A1 arfbreyting en ekki lifrarbólga eða blóðlýsa. Annað tilvikið er fullkomlega eðlilegt skimunarsnið fullorðins, þar sem rétta niðurstaðan er fullvissa og viðhald lífsstíls fremur en tilbúin jaðarsjúkdómsmynd.

Er hægt að endurtaka mat á Kantesti gervigreindarvélinni?

Heildarmatshandritið (evaluation harness) er gefið út undir MIT-leyfi sem einn sjálfstæður Python-eining. Endurgerð krefst aðeins Kantesti API auðkennispar og Python 3.10 eða nýrra. Kóðinn, skilgreiningar tilvikanna og allar hráar svör vélarinnar úr viðmiðunarkeyrslu apríl 2026 eru aðgengilegar á github.com/emirhanai/kantesti-blood-test-benchmark og speglaðar á Figshare, ResearchGate og Academia.edu.

Hvernig aðgreinir Kantesti gervigreindarvélina járnskort frá burðareiginleika beta-talassemíu?

Vélin beitir Mentzer-vísinum, sem er reiknaður sem meðaltal blóðkornaþvermáls (mean corpuscular volume) deilt með fjölda rauðra blóðkorna. Mentzer-vísir yfir 13 styður járnskortsblóðleysi, en gildi undir 13 styður eiginleika beta-thalassemíu. Í V11-viðmiðinu voru báðar framsetningarnar flokkaðar rétt með skýrri Mentzer-vísireiknireglu, studd af ferritín-, RDW- og HbA2-samhengi.

Hvar get ég fundið hrá viðmiðsgögn og frumkóða?

Tækniskýrslan er lögð inn á Figshare undir DOI 10.6084/m9.figshare.32095435, spegluð á ResearchGate útgáfu 404175463 og Academia.edu grein 165956808, og MIT-leyfða Python-handritið með öllum niðurstöðum úr viðmiðunarkeyrslunni er á github.com/emirhanai/kantesti-blood-test-benchmark. Fjögurra vettanga speglunarnet tryggir langtímaaðgengi og sveigjanleika í tilvísunum.

Af hverju er forskráning (pre-registration) mikilvæg fyrir læknisfræðileg viðmið gervigreindar?

For-skráning kemur í veg fyrir að matsviðmið séu stillt eftir á (post-hoc rubric tuning), sem er ein algengasta leiðin sem fyrirtækjarekinn viðmiðunarbúnaður (benchmarks) bólgnar eigin tölur. Með því að festa matsviðmiðið í upprunakóða áður en nokkur köllun á sér stað og birta handritið opinberlega, verða dagsetningar höfundar matsviðmiðsins skoðanlegar í útgáfustýringu og niðurstöður vélarinnar geta ekki mótað matsviðmiðin.

Inniheldur þetta viðmið samanburð við aðrar gervigreindarvélar?

Nei. V11-skýrslan lýsir vísvitandi einni vél gegn föstu matsviðmiði frekar en að setja hana fram miðað við aðrar viðskiptakerfi. Handritið er opinn uppspretta undir MIT-leyfi, þannig að óháðir rannsakendur geta metið hvaða vél sem þeir kjósa gegn sömu fimmtán tilvikum og sama matsviðmiði og birt niðurstöður sínar.

Eru sjúklingatilvikin raunveruleg eða tilbúin?

Hin fimmtán tilvik eru nafnlausar raunverulegar sjúkraskrár sem dregnar eru úr Kantesti klínísku gagnasafni samkvæmt skriflegu upplýstu samþykki. Af auðkennisupplýsingum var unnið samkvæmt Safe Harbor-aðferðinni, þar sem allar beinar auðkennisupplýsingar voru fjarlægðar eða skipt út. Vinnsla fór fram í samræmi við GDPR 9. gr. (2)(j) og samsvarandi ákvæði í bresku GDPR. Engar persónugreinanlegar upplýsingar birtast í birta handritinu, tækniskýrslunni eða útgefnu gagnasöfnunum.

⚕️ Læknisfræðileg fyrirvari & hagsmunaárekstur

Þessi viðmiðunar-/benchmark-skýrsla er ætluð til rannsókna og að tryggja aðferðafræðileg gagnsæi. Hún felur ekki í sér læknisráðgjöf. Leitaðu alltaf til hæfs heilbrigðisstarfsmanns varðandi greiningu og ákvarðanir um meðferð. Báðir höfundar eru starfsmenn hjá og eiga hlut í Kantesti Ltd og vélin sem er til skoðunar er viðskiptaleg vara frá sömu stofnun. Þessi hagsmunaárekstur er mildaður með því að forskrá matsviðmiðið í upprunakóða, gefa út handritið undir MIT-leyfi og birta allar hráar svör vélarinnar.

E-E-A-T traustmerki

⭐

Reynsla

15+ ára klínísk reynsla í blóðmeinafræði og rannsóknarstofulækningum við að hafa umsjón með vali tilvikspallsins.

📋

Sérþekking

For-skráð hönnun matsviðmiðs með skýrum refsiaðgerðum vegna ofgreiningar og viðurkenndum klínískum stigakerfum (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Yfirvald

Aðalhöfundur Dr. Thomas Klein, læknir (MD) (ORCID 0009-0009-1490-1321). Innleiðing af Julian Emirhan Bulut, framkvæmdastjóra (CEO) Kantesti Ltd.

🛡️

Traustleiki

Endurframkvæmanlegt handrit með MIT-leyfi, hrá svör vélarinnar birt, opið upplýsingagjöf um hagsmunaárekstur, fjögurra vettanga rannsóknarspegilnet.

🏢 Kantesti ehf. Skráð á Englandi og Wales · Fyrirtækjanúmer. 17090423 Lundúnir, Bretland · kantesti.net