Kantesti AI blóðrannsóknarviðmið — klínísk staðfesting

Sjálfvirkt viðmiðunarpróf For-skráð viðmið V11 önnur uppfærsla — apríl 2026 MIT-leyfi Endurframkvæmanlegt · Opið gögn 100K tilbúinn samsettur hópur · 127 landsmerkingar

99.80% samsettur mælikvarði á fyrirfram skráðum matsramma — V11 önnur uppfærsla, 100.000 tilvika hópur yfir 127 landsmerkingar

Fyrirfram skráð, matsrammabundin sjálfvirk tæknimæling á Kantesti vélinni á 100.000 tilbúnum blóðprófatilvikum með 127 landsmerkingum. Hún mælir samræmi framleiðslu, ekki greiningarnákvæmni. Matsramminn var læstur í frumkóða áður en V11 fyrstu útgáfan fór fram og var haldið óbreyttum bæti fyrir bæti fyrir þessa Önnur uppfærslu; matskerfið er MIT-leyft; lagskipt handahófsúrtak af hráum svörum vélarinnar er birt til skoðunar. Öll tilvik eru tilbúin; engin persónuupplýsing er notuð.

📖 ~14 mínútur 📅 Birt 23. apríl 2026 · Uppfært 26. apríl 2026 (V11 önnur uppfærsla) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Birt: 23. apríl 2026 🔄 V11 önnur uppfærsla: 26. apríl 2026 🩺 Læknisfræðilega yfirfarið: 26. apríl 2026 ✅ Fyrirfram skráður matsrammi (byte-azonar) 🔓 Opinn kóði & gögn

Þetta sjálfvirka viðmiðunarpróf var hannað og keyrt af Julian Emirhan Bulut, eldri gervigreindarverkfræðingi og forstjóra Kantesti Ltd. Einkunnagjöf er alfarið sjálfvirk í frumkóða; matsviðmið og dómnefnd voru þróuð með klínískri inntak frá Dr. Thomas Klein, læknir, læknastjóra (Chief Medical Officer) hjá Kantesti AI, og yfirfarin af Læknisfræðileg ráðgjafarnefnd Kantesti AI. Þetta er sjálfkeyrð innri viðmiðun, ekki sjálfstæð eða jafningjaskoðuð sjálfvirk tæknimæling.

Höfuðhöfundur & klínískt eftirlit

Tómas Klein, læknir

Yfirlæknir, Kantesti AI

Dr. Thomas Klein er löggiltur klínískur blóðsjúkdómalæknir og innlæknir með yfir 15 ára reynslu í rannsóknarstofulækningum. Sem læknisforstjóri (Chief Medical Officer) hjá Kantesti AI valdi hann tilvikspakkann fyrir þessa viðmiðun, yfirfór klínískt innihald og vænt svör tilbúnu tilvikanna og samþykkti fyrirfram skráðan matsramma áður en fyrsta keyrsla vélarinnar fór fram.

ORCID 0009-0009-1490-1321 Rannsóknarhlið Google Scholar

Meðhöfundur & innleiðing

Julian Emirhan Bulut

Eldri gervigreindarverkfræðingur & framkvæmdastjóri, Kantesti Ltd

Julian Emirhan Bulut er stofnandi og framkvæmdastjóri Kantesti Ltd. Hann hannaði og innleiddi matskeyrslubúnaðinn — þar á meðal SQL-tilvikshleðslutækið sem bætt var við fyrir V11 annarri uppfærsluna — framkvæmdi API-tengingu, framkvæmdi bæði V11 upphaflegu viðmiðunarkeyrsluna og V11 annarri uppfærsluna með 100.000 tilvikum og útbjó tölfræðilega samantekt. Stofnandi vettvangsins frá 2019.

GitHub Um Kantesti

⚡ Stutt samantekt V11 önnur uppfærsla — 26. apríl 2026

99.80% samsett stig á 100.000 tilbúnum blóðprófatilvikum yfir átta læknasérsvið og 127 landsmerkingar (V11 önnur uppfærsla).
Engin fölsk jákvæð ofgreining yfir 87.412 eftirlitsmöguleika fyrir „trap-case“ — sama „trap-case“ aðferðafræði og í V11 upphaflegu, skalað upp á íbúastig.
For-skráð matsviðmið fryst í upprunakóða áður en V11 upphafleg keyrsla fór fram og haldið byte-azonar fyrir þessa annarri uppfærslu — engin eftirvinnslustilling var möguleg.
Mentzer-vísir rétt beittur til að greina járnskortsblóðleysi frá beta-thalassemíu minniháttar í V11 upphaflegu útgáfunni; mismunandi hegðun var varðveitt á íbúastigi.
Aðeins framleiðsluendapunktur — engin forréttindaleiðsögn, metið nákvæmlega eins og greiddur viðskiptavinur myndi nálgast það.
13,26 sekúndna meðalviðurkenningartöf frá enda til enda (bil 9,0–16,94 s), þar sem öll 100.000 tilvik kláruðust á aðalferli vélarinnar.
Tilbúinn hópur. 100.000 tilbúin prófatilvik hlaðin við keyrslu. Engin tilbúin gögn og engin persónuupplýsing er notuð.
MIT-leyfisprófunarbúnaður gefið út á GitHub með lagskiptu slembiúrtaki (n = 201) af öllum hráum svörum vélarinnar til skoðunar.
Figshare DOI: 10.6084/m9.figshare.32095435 · Speglað á ResearchGate, Academia.edu, GitHub.

Af hverju þetta viðmið er til og hvað það prófar

AI-aðstoðuð túlkun blóðrannsókna er sífellt meira notuð í neytenda- og klínískum vinnuflæði, en endurgeranleg matsrammi sem er sérsniðinn að rannsóknarstofulækningum er enn sjaldgæfur. Spurningarnar sem skipta mestu máli í þessu samhengi eru ekki þær sem falla undir almenn viðmið fyrir læknisfræðilega spurninga-og-svar. getur vél aðgreint járnskort frá talassemíu-einkennum þegar meðalfrumumagn er eins, ofgreinir hún Gilbertsjúkdóm sem lifrarbólgu og skapar hún meinafræði í fullkomlega eðlilegum skimunarpakka?

Blóðprufusamstæða inniheldur venjulega nægjanlegt merki til að styðja nokkrar samkeppnislegar túlkanir og hlutverk túlkunarlæknisins er að vega þessar túlkanir hverja á móti annarri frekar en að sækja „rétta“ svarið eins og í kennslubók. Vél sem gengur vel á dæmigerðum tilvikum úr kennslubókum getur samt brugðist á þeim tilvikum sem skipta mestu: gildrurnar í mismunagreiningu, góðkynja afbrigðin sem líta ógnvekjandi út þegar þau eru einangruð, og fullkomlega eðlilegar samstæður sem freista öruggra aðstoðarmanna til að búa til meinafræði.

Þessi viðmiðun var smíðuð einmitt með þessi bilunarmynstur í huga. Hvert af fimmtán tilvikunum var valið vegna ákveðins greiningareiginleika: járnskorts-míkrósýtósu sem þarf að halda aðgreindri frá eiginleika beta-talassemíu með eins meðalfrumumagn, birtingarmynd Gilbert-sjúkdóms þar sem eina frávikið er einangruð óbein hækkun á gallrauðlitarefni í blóði (óbein hyperbilirúbínhækkun) og fimmtán þátta skimunarsamstæða þar sem hvert mæligildi liggur innan viðmiðunarsviðs. Viðmiðunarlýsingin verðlaunar vélar sem lesa hvert tilvik á eigin forsendum og refsar vélum sem reyna að komast að öruggri greiningu þegar slík greining á ekki við.

Sem Thomas Klein, læknir, valdi ég tilvikasafnið vegna þess að þetta eru mynstrin sem aðstoðarmenn á rannsóknarstofulækningum gera oftast rangt. Dýrasta bilunin er ekki "að missa af sjaldgæfum sjúkdómi" — heldur að búa til venjubundna meinafræði hjá sjúklingum sem hafa hana ekki. Okkar Læknisfræðileg staðfesting hub lýsir víðara ramma; þessi síða lýsir V11 fyrstu hugmyndaprófuninni og V11 annarri uppfærslu sem skalaði hana upp í 100.000 tilbúin tilvik sem dregin eru úr tilbúnum tilvikasafni sem nær yfir 127 landsmerkingar — með sama matsramma, bæti fyrir bæti, án leyfilegrar eftirvinnslu (post-hoc) stillingar.

Nýjasta viðmiðunar keyrsla — V11 Second Update (26. apríl 2026)

Viðmiðunar keyrsla V11 Second Update 26. apríl 2026 skilaði samsettu stigi 99.80% á sama fyrirfram skráða matsviðmiði og var notað í upphaflegri V11 útgáfu, metið á 100.000 tilbúin tilvik dregin úr Kantesti tilbúna tilvikasafninu og ná yfir 127 landsmerkingar og 75+ tungumál. Öll tilvik kláruðust á aðalferli vélarinnar; kveikjur á hypergreiningar-flaggi (trap-case hyperdiagnosis) héldust á 0 / 87,412. Upphaflega V11 keyrslan 23. apríl 2026 náði yfir 15 handvalin tilvik (samsett 99.12%) og staðfesti matsviðmiðið; Second Update heldur því matsviðmiði bæti-fyrir-bæti eins og framlengir matið í hóp í mælikvarða á þýði.

Samsett 99.80% 100.000 af 100.000 tilvikum fengu stig

1.000 Byggingarstig

0.996 Klínískt stig

13,26 s Meðalbiðtími

0 / 87,412 Rangar jákvæðar niðurstöður í gildrum

Samsetta formúlan sameinar þrjá þætti: byggingarleg samræmi við sjö skylduskýrslugreinar og sextán skyldubundnar undirgreinar, nákvæmni innihalds mælt sem orðlykils-endurköllun (keyword recall) auk endurköllunar í stigakerfi auk sannprófunar á gildi líkinda-dreifingar, og svörunartími miðað við aðalferils þjónustustigsmarkmið. Nákvæm sundurliðun er sýnd í matsviðmiðsformúlunni hér að neðan — engin af þessum vægjum eða undirmatsviðmiðum var breytt fyrir Second Update.

Samsett = 0.35 × Byggingarlegt + 0.55 × Klínískt + 0.10 × Biðtími

Afgangurinn af 0,20 prósentustigum af svigrúmi (headroom) skiptist næstum alfarið í klíníska undirmatsstigið — lítill hluti tilvika (aðallega í Lifrarfræði og Gigtlækningum) hafði eitt vænt stigakerfis-leitarorð sem vantaði í túlkun vélarinnar þrátt fyrir að greiningarefnið væri rétt. Engin tilvik í 100.000-tilvika Second-Update hópnum missti af sjálfri greiningunni. Seinkun batnaði úr meðaltali 20,17 s í upphaflegri V11 útgáfu í 13,26 s í Second Update, sem endurspeglar hagræðingu í framleiðsluvél milli keyrslna; matsviðmiðið, stigs-kóðinn og API-endapunkturinn eru óbreytt.

Samsettir mælikvarðar á hverja merkingu voru á bilinu 0.9971 til 0.9985 yfir 30 mest áberandi landsmerkingarnar. Langur hali 97 viðbótarmerkinga (≈7.300 tilvik samanlagt) sýndi enga kerfisbundna rýrnun. Algengustu merkingarnar eftir fjölda tilvika voru Bandaríkin (10.500), Brasilía (9.500), Spánn (9.000), Ítalía (8.000), Þýskaland (7.800), Frakkland (7.400), Portúgal (5.800), Türkiye (3.400), Bretland (2.900) og Mexíkó (2.500).

Frá 15 tilvikum til 100.000: þróun hóps yfir 127 landsmerkingar

Upprunalegi V11 tilvikapakkinn náði yfir sjö sérsvið — blóðmeinafræði, innkirtlafræði, efnaskiptalækningar, lifrarlækningar, nýrnalækningar, hjartalækningar, gigtlækningar — auk tveggja sérhæfðra „hyperdiagnosis trap“ tilvika, þar sem hvert tilvik var tilbúið blóðprófasnið. V11 önnur uppfærsla útvíkkar mat til 100.000 tilbúin tilvik yfir 127 landsmerkingar, dreift yfir átta sérsvið (hin sjö upprunalegu auk sérsniðins innri læknisfræðisviðs sem tekur við trap-undirmenginu). Sama stigakerfisviðmið er beitt bæti-fyrir-bæti eins í báðum keyrslum.

Þar sem öll tilvik eru tilbúin eru engin raunauðkenni til að fjarlægja og engin persónuupplýsing er í notkun. Hvert tilbúið tilvik ber tilviksnúmer sem er innanhúss í viðmiðinu (BT-NNN-LABEL í upphaflega V11 safninu, stöðugt case_uid í annarri uppfærslu). Engin persónuupplýsing birtist neins staðar í birta matskerfinu, tækniskýrslunni eða útgefnu gagnasöfnunum.

V11 upphaflega útgáfu — 15 handvalin tilvik

Upprunalega V11 tilvikspjaldið var handvalið af Dr. Thomas Klein til að æfa greiningarmynstur sem aðstoðarmenn í rannsóknarstofulækningum fá oftast rangt. Hvert af fimmtán tilvikunum var valið með tilliti til tiltekins greiningareiginleika, sem er skráður hér að neðan.

Blóðmeinafræði (3) BT-001, BT-006, BT-007 Járnskortsblóðleysi · B12-vítamínskortur · Minniháttar beta-talassemía

Innkirtlafræði (3) BT-002, BT-008, BT-012 Hashimoto-sjúkdómur í skjaldkirtli · PCOS með insúlínviðnámi · Alvarlegur D-vítamínskortur

Efnaskipti (2) BT-003, BT-013 T2DM með efnaskiptavillu · Ofþvagsýruhækkun með áhættu á þvagsýrugigt

Lifrarlækningar (2) BT-004, BT-009 NAFLD / NASH · Bráð veiru lifrarbólga

Nýrnalækningar · Hjartalækningar · Gigtarlækningar (3) BT-005, BT-010, BT-011 CKD stig 3 · Æðahrörnunarfituóhóf (æðakölkunarvaldandi fitublóðleysi) · Kerfisbundinn rauður úlfur

„Trap“ tilvik (2) BT-014, BT-015 Gilbert-sjúkdómur (einangruð óbein blóðbilirúbínhækkun) · Fullkomlega eðlileg fullorðins-skimun

Af hverju þessi tiltekna dreifing

Blóðfræði fær þrjú tilvik vegna þess að mismunagreiningar fyrir míkrósýtósu og makrósýtósu eru mestu „gildrurnar“ í raunverulegri rannsóknarstofustarfsemi hvað varðar umfang. Innkirtlafræði fær þrjú vegna þess að birtingarmyndir Hashimoto-sjúkdóms, PCOS og D-vítamínskorts æfa mismunandi greiningarmynstur (sjálfsmótefnavaldar, hormónahlutfallavaldar og eins-markera-valdar). Sérgreinar með einu tilviki eru samt þýðingarmiklar vegna þess að hver um sig — CKD, ASCVD- áhættumat og SLE — hefur sitt eigið stigakerfi sem vélin á að kalla fram (KDIGO-stigsetning, ASCVD 10-ára áhætta og 2019 EULAR/ACR SLE-skilyrði, í sömu röð).

V11 önnur uppfærsla — 100.000 tilbúin tilvik yfir 127 landsmerkingar

Önnur uppfærslan kemur í stað upprunalega V11 harðkóðaða 15-tilvika Python bókstafsins með stærra, forritanlega mynduðu tilbúnu tilvikasafni. Tilvikasafnið er hlaðið í upphafi hverrar keyrslu og stillingarnar eru skráðar til gagnsæis. Dreifing hópsins eftir innihaldssviði er sýnd hér að neðan.

Innkirtlafræði 23.900 tilvik (23.9%) Skjaldkirtill, PCOS, D-vítamín, kynkirtlaás, heiladingull

Efnaskiptalækningar 21.900 tilvik (21.9%) T2DM, efnaskiptavilla, fitusnið, ofurþvagsýruhækkun

Blóðsjúkdómafræði 15.400 tilvik (15.4%) Míkrósýtískar og makrósýtískar mismunagreiningar, B12/folat, járnrannsóknir

lifrarlækningar 12.400 tilvik (12.4%) NAFLD/NASH, veiruhepatítis, FIB-4, gallteppa

Innri lækningar (þ.m.t. trap-undirmengi) 9.000 tilvik (9.0%) Blandaðar framsetningar og 8.723 sérhæfð trap-tilvik vegna ofgreiningar

Hjartalækningar 7.500 tilvik (7.5%) ASCVD- áhætta, æðakölkunarvaldandi fitublóðleysi, hs-CRP

Liðsjúkdómafræði 6.000 tilvik (6.0%) SLE, iktsýki (RA), æðabólga, sjálfsmótefnapjöld (EULAR/ACR skilyrði)

Nýrnafræði 4.000 tilvik (4.0%) Stigun langvinns nýrnasjúkdóms (KDIGO), þróun eGFR, truflun á blóðsalta

Dreifing tilbúinna landsmerkinga — topp 10 merkingar

Hin 100.000 tilbúnu tilvik bera 127 landsmerkingar (ISO 3166-1 alpha-2) til að prófa meðhöndlun staðfærslu (locale). Úthlutun merkinga: Evrópa 57.7%, Ameríkur 25.4%, Asíu-Kyrrahaf 6.2%, nefndar Mið-Austurlönd/Afríku-merkingar 3.4% og langur hali 97 viðbótarmerkinga samtals um 7.3%. Tíu algengustu merkingarnar eftir fjölda tilvika eru Bandaríkin (10.500), Brasilía (9.500), Spánn (9.000), Ítalía (8.000), Þýskaland (7.800), Frakkland (7.400), Portúgal (5.800), Türkiye (3.400), Bretland (2.900) og Mexíkó (2.500). Samsettir mælikvarðar á hverja merkingu voru á bilinu 0.9971 til 0.9985. Þessar talningar merkinga eru eiginleikar tilvikanna sem eru mynduð til að prófa meðhöndlun staðfærslu — þær eru ekki raunverulegir notendur og ekki raunveruleg landfræðileg þekja.

Matsviðmiðið sem var for-skráð, útskýrt

Forskráning (pre-registration) er mikilvægasta aðferðaval í þessari viðmiðun. Hver vænt greining, hvert klínískt stigakerfi og hver hluti skýrslunnar var skuldbundinn í frumkóða áður en vélin var kölluð fram. Þess vegna er ómögulegt að stilla matsviðmiðið (rubric) eftir á til að smjaðra vélinni.

Þrír þættir mynda samsetta einkunn. Byggingarþátturinn leggur til 35 prósent og mælir hvort vélin skilaði sjö skyldubundnum skýrsluhlutum (haus, samantekt, helstu niðurstöður, mismunagreining, stigakerfi, ráðleggingar, eftirfylgni) og sextán skyldubundnum undirköflum innan þeirra. Tilvist kafla vegur 40 prósent og tilvist undirkafla vegur 60 prósent innan byggingarútreikningsins.

The Klíníski þátturinn leggur til 55 prósent og sameinar þrennt: endurköllun greiningar-lykilorða (70 prósent af klínísku undireinkunninni), endurköllun stigakerfa (20 prósent — hvort vélin reikni Mentzer, FIB-4, HOMA-IR, ASCVD-áhættu, KDIGO-stigsetningu, EULAR/ACR-skilyrði þar sem við á), og gildiathugun á líkindasummu (10 prósent — mismunarlíkindin eiga að summa innan bilsins [90, 110]). Fyrir „gildru“-tilvik er dregin frá skýr ofgreiningarrefsing allt að 0.30, reiknuð sem 0.10 fyrir hvern tilbúinn meinafræðifána, með hámarki við þrjá fána.

The Seinkunarþátturinn leggur til 10 prósent. Svör á innan við 20 sekúndum fá fulla 0.10, svör á innan við 40 sekúndum fá 0.05 og allt sem er hægara fær núll. 20-sekúndna markmiðið endurspeglar framleiðslu-meginmarkmið þjónustustigs fyrir primary-path; 40-sekúndna þakið endurspeglar varasjóð fyrir Phase 2 þegar vélin er kölluð í þyngri tilvikum.

Hvað forskráning kemur í veg fyrir

Fyrstu-aðila viðmiðanir eru frægar fyrir að blása upp eigin tölur með því að stilla matsviðmiðið eftir á. Mynstrið er næstum alltaf það sama: teymið keyrir vélina, sér hvar hún stendur sig illa, og stillir síðan hljóðlega matsviðmiðið þannig að svæði sem standa sig illa telji minna. Með því að skuldbinda matsviðmiðið í frumkóða áður en fyrsta köllun vélarinnar fer fram og birta prófkerfið undir MIT-leyfi verður þessi breyting sýnileg í útgáfustýringu. Allir geta klónað geymsluna, skoðað dagsetningar höfundar matsviðmiðsins og staðfest að ekki hafi verið notaðar niðurstöður úr vélinni til að móta stigagjöfina.

Tilvik í gildru ofgreiningar — hvers vegna of mikil köllun er raunveruleg bilunarleið

Áköf ofnotkun á meinafræði á eðlilegum skjám er skjalfest bilunarháttur í læknisfræðilegum aðstoðarmönnum sem snúa að neytendum. Afleiddur kostnaður felur í sér óþarfa rannsóknir, kvíða sjúklinga og iatrogena (meðferðar- eða rannsóknartengda) vinnslu. Tvö „gildru“-tilvikin í þessari viðmiðun eru hönnuð til að gera þennan bilunarhátt sýnilegan og mælanlegan.

🟡 Gildra 1 — BT-014-GILBERT

Birtingarmynd. 24 ára karlmaður með heildarbíilírúbín 2.4 mg/dL. Bein brotið er eðlilegt, transamínasar og basískur fosfatasi eru innan viðmiðunarsviða, retíkúlócýtur eru óathugaverðir og haptóglóbín og LDH útiloka blóðlýsu.

Rétt túlkun. Gilbert-sjúkdómur — góðkynja UGT1A1 fjölbreytileiki. Túlkunin á ekki að kalla fram lifrarbólgu, skorpulifur, blóðlýsublóðleysi eða gallteppu.

Niðurstaða V11. Samsett 1.000. Engin af sex eftirlits-„ofgreiningar“-fánunum birtist sem virk greining.

🟡 Gildra 2 — BT-015-HEALTHY

Birtingarmynd. 35 ára kona með fimmtán breytu reglubundið skimunarróf. Allir mældir mælikvarðar liggja þægilega innan viðmiðunarsviðs.

Rétt túlkun. Meging og viðhalds lífsstíls. Túlkunin ætti ekki að búa til jaðareinkenni sjúkdóma til að hljóma klínískt gagnleg.

Niðurstaða V11. Samsett 1.000. Ekkert af sjö eftirlitsmerkjum ofgreiningar — sykursýki, blóðleysi, skjaldvakabrestur, blóðfituröskun, lifrarbólga, nýrnasjúkdómur, skortur — birtist sem virkar greiningar.

Í báðum „gildrunum“ voru athuguð þrettán eftirlitsmerki ofgreiningar. Engin þeirra var kveikt. Þetta er niðurstaðan sem skiptir mestu máli fyrir hvern þann lækni sem íhugar að nota AI-kerfi sem skimunar- eða forráðgjafartæki: kerfið fann ekki upp sjúkdóma þar sem engir voru til staðar.

Mentzer-vísitala: aðgreining járnskorts frá eiginleikum blóðþynningar (thalassaemia trait)

Önnur mikilvæg niðurstaða varðar samsetningu máls BT-001 (járnskortsblóðleysi) við mál BT-007 (minniháttar beta-talassemíu). Bæði koma fram með míkrósýtósu og eru vel þekktur steingervingur fyrir óreynda flokkara. Mentzer-vísirinn, reiknaður sem MCV deilt með RBC-fjölda, er yfir 13 í járnskortsblóðleysi og fellur undir 13 í eiginleika talassemíu.

Í BT-001 var sjúklingurinn 34 ára kona með blóðrauða 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritín 6 ng/mL og hækkað TIBC. Mentzer-vísirinn, um 17,7, styður algeran járnskort. Í BT-007 var sjúklingurinn 28 ára karl með míkrósýtósu (MCV 65,8 fL) en háan RBC-fjölda 6,2, eðlilegt RDW, eðlilegt ferritín og HbA2 5,6 prósent. Mentzer-vísirinn, um 10,6, bendir til eiginleika talassemíu og hækkað HbA2 staðfestir minniháttar beta-talassemíu.

Járnskortsblóðleysi Mentzer > 13 Lágt ferritín, lágt TSAT, hátt TIBC, hækkað RDW

Eiginleiki beta-talassemíu Mentzer < 13 Eðlilegt ferritín, eðlilegt RDW, hækkað HbA2 (>3.5%), hár RBC-fjöldi

Bæði tilvikin skoruðu 1.000. Kerfið notaði Mentzer-vísinn skýrt í báðum túlkunum og skilaði réttri greiningu í hvert skipti. Þetta er ein öruggasta klíníska niðurstaðan í öllum viðmiðunarprófinu, vegna þess að það að flokka eiginleika talassemíu sem járnskort leiðir til óviðeigandi járnuppbótar og að missa af tækifærum til skimunar í fjölskyldu, og það að flokka járnskort sem talassemíu seinkar einfaldri staðgöngumeðferð. Okkar leiðarvísir fyrir ferritínbil útskýrir víðara mismunagreiningarsamhengið.

Niðurstöður eftir tilfelli úr V11 upphaflegu viðmiðunar keyrslunni (23. apríl 2026)

Upprunalega V11 viðmiðunar keyrslan á 15-tilfella proof-of-concept hópnum þjónar sem aðferðafræðilegur grunnur Second Update: hvert smáatriði fyrir hvert tilfelli hér að neðan sýnir hvernig matsviðmiðin meðhöndla raunverulegt vélarsvar. Tólf af fimmtán tilfellum náðu hámarkssamsettu einkunninni 1.000 á aðalbrautinni; þrjú tilfelli voru afgreidd í gegnum Phase 2 varafallið, þar sem tapaðist 0.05 seinkunarbónusinn en allur klínískur og byggingarlegur innihald hélt sér. Eitt tilfelli vantaði eitt skyldubundið undiratriði; eitt skilaði aðeins lægri summu líkindadreifingar.

Tilvikauðkenni Sérsvið Samsett Seinkun Ferli

BT-001-IDABlóðsjúkdómafræði1.00017,8 saðal

BT-006-B12Blóðsjúkdómafræði1.00018,4 saðal

BT-007-THALBlóðsjúkdómafræði1.00017,0 saðal

BT-002-HASHInnkirtlafræði0.95037,0 svarafall

BT-008-PCOSInnkirtlafræði0.98718,6 saðal

BT-003-T2DMEfnaskipta1.00019,1 saðal

BT-013-GOUTEfnaskipta1.00019,4 saðal

BT-004-NAFLDlifrarlækningar1.00019,6 saðal

BT-009-VIRHEPlifrarlækningar0.95023,4 svarafall

BT-014-GILBERTgildra1.00018,9 saðal

BT-005-CKDNýrnafræði1.00017,4 saðal

BT-010-ASCVDHjartalækningar1.00019,7 saðal

BT-011-SLELiðsjúkdómafræði0.98118,2 saðal

BT-012-VITDInnkirtlafræði1.00019,3 saðal

BT-015-HEALTHYgildra1.00018,7 svarafall

PCOS-tilvikið (BT-008) missti einn skyldubundinn undirlið í uppbyggingu svörunar — fimmtán af sextán í stað sextán af sextán — sem minnkaði uppbyggingareinkunn úr 1,000 í 0,963. SLE-tilvikið (BT-011) skilaði lítillega lækkuðu summu líkinda-dreifingar sem lækkaði klíníska einkunn í 0,965 en varðveitti alla greiningarlykla og stigakerfi. Hvorki af þeim tilvikum sem voru undir fullkomnun missti af réttri greiningu.

V11 Second Update samantekt — 100,000 tilfelli

Í mælikvarða á íbúafjölda eru einstakar raðir tilvika ekki læsilegar af mönnum, þannig að Önnur uppfærsla skýrir frá samansöfnuðum mælikvörðum frekar en 100.000-raða töflu. Aðal-samantektin er sýnd hér að neðan; sundurliðanir eftir sérsviði og eftir landsmerkingu eru birtar í tækniskýrslunni og í Figshare-innsetningunni. Lagskipt handahófsúrtak af n = 201 hráum vélsvörum (ákvarðanlegur fræi 20260426) er birt í GitHub results/ möppunni til skoðunar.

Samsett einkunn V11 upphaflegt: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 yfir 100,000 tilfella hópinn

Byggingareinkunn (meðaltal) V11 upphaflegt: 0.998 → Second Update: 1.000 Fullkomin byggingarleg samræmi í mælikvarða á þýði

Klínísk einkunn (meðaltal) V11 upphaflegt: 0.998 → Second Update: 0.996 −0.002; ekkert tilfelli missti greininguna sjálfa

Seinkun — meðaltal (bil) V11 upphaf: 20,17 s (17,0–37,0 s) → Önnur uppfærsla: 13,26 s (9,0–16,94 s) Hagræðingar framleiðsluvélar milli keyrslna

Vélarstígur = aðal V11 upphaf: 12 / 15 → Önnur uppfærsla: 100,000 / 100,000 Engin varafall (Phase 2) var nauðsynleg á neinum tímapunkti meðan á keyrslu stóð

Fánar fyrir ofgreiningu á undirmengi gildra (trap-subset hyperdiagnosis) V11 upphaf: 0 / 13 → Önnur uppfærsla: 0 / 87,412 Engin falsk jákvæðni á mælikvarða þýðis (8.723 gildrugildatilfelli fylgst með)

Það sem fyrirsagnareinkunnin segir okkur ekki

Samsettur mælikvarði upp á 99.80 prósent samkvæmt þessum tiltekna fyrirfram skráða matsramma, á 100.000-tilvika tilbúnum hópi sem nær yfir 127 landsmerkingar, táknar frammistöðu nær þaki — en það á skilið vandaða framsetningu. Niðurstaðan lýsir hegðun vélarinnar gagnvart matsrammanum sem við skuldbundum okkur til í frumkóða í V11; þetta er ekki alhliða fullyrðing um réttmæti vélarinnar fyrir hvert blóðprófasnið sem er til í raunheiminum.

Stigin segja að vélin hafi meðhöndlað greiningarmynstrin sem valin voru fyrir þessa úttekt rétt yfir þýðisúrtak á mælikvarða þýðis, samkvæmt aðferðafræði sem er birt og endurframkvæmanleg. Það segir ekki að vélin sé rétt fyrir hvert blóðprufuspjald sem er til í raunheiminum. Það segir ekki að vélin eigi að koma í stað klínískrar fagdóms. Og það segir ekki að vélin standi sig betur en aðrar gervigreindarkerfi — samanburðargreiningar við aðrar vélar voru vísvitandi utan gildissviðs fyrir þessa skýrslu.

Það sem stigin hins vegar staðfesta er grunnlína. Þar sem matsviðmiðið og búnaðurinn (harness) eru opinber, er hægt að meta framtíðarútgáfur af vélinni gegn sama matsviðmiði — beitt á V11 upphaf 15 tilfellin, Önnur uppfærsla 100.000 tilfella úrtakið, eða hvaða frekari stækkun sem er — og bilið milli birtra stiga og hvers kyns síðari keyrslu er sjálft mælanlegt. Þetta er gildi fyrirframskráningar: hún breytir fullyrðingum um afköst í prófanlegar fullyrðingar.

Hvernig á að endurtaka þetta viðmið á 10 mínútum

Endurframkvæmd krefst aðeins Kantesti API-heimildapar og Python 3.10 eða nýrra umhverfis með requests og reportlab bókasöfn uppsett. Heildarverkfærakistan er einn sjálfstæður Python-einingur sem gefinn er út undir MIT-leyfi.

💻 GitHub Verkfærakista með MIT-leyfi · hrá svör · viðmiðunar keyrsla 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanónískt fræðilegt skráningaratriði 🎓 Rannsóknarhlið Útgáfa 404175463 · V11 Önnur uppfærsla · fræðileg uppgötvunarlag 📄 Academia.edu Rit 165956808 · V11 Önnur uppfærsla · fræðileg uppgötvunarlag

Fjórir skref til nýrrar keyrslu

Eitt. Klónaðu geymsluna: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Tvö. Settu upp ósjálfstæði með pip install -r requirements.txt (Önnur uppfærsla bætir við mysql-connector-python ≥ 8.0 fyrir SQL tilfellahleðslutækið). Þrír. Stilltu KANTESTI_USERNAME og KANTESTI_PASSWORD sem umhverfisbreytur fyrir vélarforritaviðmótið (engine API). Fyrir SQL tilfellahleðslutækið í Önnur uppfærslu, stilltu einnig KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, og KANTESTI_DB_PASSWORD — hleðslutækið tengist í gegnum lesaðgangs-hlutverk (bench_reader) sem hefur engin réttindi til að bera kennsl á töflur. Fjórir. Keyrðu python benchmark_bloodtest.py --limit 100000 fyrir fulla Second-Update keyrslu, eða python benchmark_bloodtest.py --limit 1000 fyrir hraða endurtekningu. Úttök lenda í ./benchmark_results/: CSV-einkunnaspjald með dálkum fyrir landamerki og sérgreinar, JSON-aggregat, lagskipt handahófsúrtak af hráum svörum og Markdown-skýrslu.

Tilvísunarkeyrslurnar frá 23. apríl 2026 (V11 upphaf, 15 tilvik) og 26. apríl 2026 (V11 Second Update, 100,000 tilvik) eru varðveittar í results/ möppu geymslunnar. Ný keyrsla mun búa til nýja tímastimplaða stigaskrá en skilja tilvísunarkeyrslurnar eftir óbreyttar. Ef keyrsla þín skilar marktækt öðru niðurstöðu, vinsamlegast opnaðu GitHub-mál með tímastimpli keyrslunnar og vélútgáfunni sem kemur fram í svarupplýsingum (response metadata).

Takmarkanir og framtíðarvinna

Jafnvel við 100.000 tilvik yfir 127 landamerki eiga fjórar takmarkanir skilið að vera skýrt viðurkenndar: vanúrtak á langhala-landmerkjum, einnota mat, afmörkuð umfangsregla (ein vél) og ein uppruni gagna. Hverri þeirra er verið að bregðast við í virku eftirfylgdarvinnu.

Umfjöllun um langhala-landmerki. Önnur uppfærsla nær yfir 127 landamerki, en dreifingin er ójafnvæg — topp 10 landmerkin skýra fyrir ≈66,4% tilvika og langhali 97 viðbótarmerkja leggur saman ≈7,3% (um það bil 7.300 tilvik samtals, ~75 tilvik á hvert merki að meðaltali). Því eru samsetningar á hvert merki í þessum langhala hávaðasamari en fyrirsagnartölur gefa til kynna. Næstu keyrslur munu endajafna úthlutun landmerkja til að festa niður áreiðanlegar áætlanir fyrir hvert merki.

Einnota mat. Hvert tilvik í hópnum var metið einu sinni. Stór tungumálalíkön sýna óverulegan breytileika í úttaki jafnvel við lágt sýnatökuhitastig, þannig að margra-keyrslu verklag með fimm mati á hvert tilvik og tilkynntum breytileika er eðlilegt næsta skref — sérstaklega á trap-case undirmengi, þar sem samkvæmni við sýnatökusveiflur er hluti af öryggiskröfunni.

Afmörkun við eina vél. Þessi skýrsla lýsir einni vél. Samanburðargreiningar gegn öðrum gervigreindarkerfum eru utan við þetta samhengi; við gætum stundað þær sem sérstaka sjálfstæða rannsókn með viðeigandi aðferðafræði, gegn sama MIT-leyfða prófunarbúnaði (harness).

Gervigögn. Hin 100.000 tilvik eru gervilega mynduð, ekki gervi-tilvik, og niðurstöðurnar flytjast ekki yfir á klíníska frammistöðu í raunheimum. Mat á raunverulegum, samþykktum, utanaðkomandi upprunagögnum myndi krefjast viðeigandi siðferðilegs eftirlits og fellur utan gildissviðs þessa gervi-viðmiðunar.

Fyrir utan þessar fjórar er áhrifamesta fyrirhugaða viðbótin jafnræði á mörgum tungumálum fyrir hvert lögsagnarumdæmi. Kantesti AI Engine þjónar notendum á 75+ tungumálum og með því að keyra tungumálaskipt Second-Update undirmengi (túrkska, þýska, spænska, franska, ítalska, portúgalska, arabíska, mandarín) verður mæld gæði úttaks yfir þeim tungumálum sem vélin styður. Hver tungumálaskipt greining verður birt með sínum eigin DOI og harness grein.

Prófaðu sömu vélina sem náði 99.80% samsettu stigi á 100,000 tilvikum

Hladdu upp þínum eigin blóðrannsóknarprófunarspjaldi á sama framleiðsluendapunkt sem var metinn í þessari viðmiðun. Yfir 2 milljónir notenda um allan heim nota Kantesti gervigreindarvélina til að túlka yfir 15.000 lífmarkera á 75+ tungumálum.

🔬 Prófaðu ókeypis kynningu

Chrome viðbót App Store Google Play

📚 Hvernig á að vitna í þessa viðmiðun

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Tækniskýrsla V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Ytri aðferðafræðilegar tilvísanir

Mentzer, W. C. (1973). Aðgreining á járnskortsfrábrigði frá þalassemíuætt. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 flokkunarviðmið Evrópsku deildarinnar gegn gigt / Bandarísku gigtarlæknasamtakanna fyrir altæka rauða úlfarveiki. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test fyrir stór tungumálalíkön. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Samsett stig

100,000Tilfelli metin

127Landamerki sem náð er yfir

0 / 87,412Gildru-falskjákvæði

Algengar spurningar

Hversu nákvæmt er Kantesti gervigreindarvélin á tilbúnum prófunartilvikum?

Á fyrirfram skráðu matskerfi, keyrt á 100.000 gervilega mynduðum prófunartilvikum yfir átta innihaldssviðum og 127 landamerkjum (V11 Second Update), náði vélin samsettum einkunnaskori upp á 99,80 prósent, með engum merkjum um ofgreiningu (hyperdiagnosis) í 87.412 vöktuðum „trap-case“ tækifærum og með meðalsvörunartíma upp á 13,26 sekúndur. Þessi samsetta mælikvarði mælir samræmi framleiðslu við gervi-inntak, ekki greiningarnákvæmni. Upprunalega V11-útgáfan beitti sama matskerfi á 15 handsmíðuð tilvik (samsett 99,12%); Önnur uppfærsla heldur matskerfinu óbreyttu (byte-identical) og stækkar það í stærra gerviúrtak. Heildareinkunnaspjaldið er birt á Figshare undir DOI 10.6084/m9.figshare.32095435 og á GitHub undir MIT-leyfi.

Er Kantesti gervigreindarvélin klínískt staðfest?

Nei. Vélin hefur verið metin með sjálfvirku tæknimati (ekki klíníska staðfestingu), gegn matskerfi sem var fryst í frumkóða áður en V11 fyrstu keyrslu lauk og var haldið byte-óbreyttu fyrir V11 Second Update, metið á 100.000 gervi blóðprófatilvikum yfir blóðmeinafræði (hematology), innkirtlafræði (endocrinology), efnaskiptalækningum (metabolic medicine), lifrarlækningum (hepatology), nýrnalækningum (nephrology), hjartalækningum (cardiology), gigtlækningum (rheumatology) og innlæknisfræði (internal medicine), dregin úr 127 landamerkjum. Klínískt eftirlit var veitt af Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), löggiltum klínískum blóðmeinafræðingi og læknastjóra (Chief Medical Officer) hjá Kantesti AI.

Hvað er ofgreiningargildra?

Hypergreiningargildra er klínískt atvik sem er sérstaklega hannað til að greina ofgreiningarhegðun í gervigreindarvélum. V11 fyrstu viðmiðunarprófið notaði tvö slík tilvik sem aðferðafræðilega sönnun á hugmynd: einangraða óbeina ofbilirúbínhækkun sem samræmist Gilbert-sjúkdómi (þar sem rétta túlkunin er meinlaus UGT1A1 fjölbreytileiki en ekki lifrarbólga eða blóðlýsa) og fullkomlega eðlilegt skimunarsnið fullorðins (þar sem rétta útkoman er fullvissa en ekki tilbúin jaðarsjúkdómsmynd). V11 seinni uppfærslan stækkaði þessa gildragreiningaraðferð í sérhæfðan undirhóp með 8.723 tilvikum og skilaði 87.412 möguleikum til að fylgjast með hypergreiningarviðvörunum — og rangjákvæðni vélarinnar var áfram núll.

Er hægt að endurtaka mat á Kantesti gervigreindarvélinni?

Heildarmatsskipulagið er gefið út undir MIT-leyfi sem einn sjálfstæður Python-eining. V11 fyrstu keyrslan krefst aðeins Kantesti API auðkennispar og Python 3.10 eða nýrra. V11 seinni uppfærslan bætir við færibreytanlegum, les-aðeins SQL-tilfellahleðara sem krefst Kantesti klínískra gagnageymslaaðgangsorða (a bench_reader hlutverki án réttinda til að bera kennsl á töflur). Kóðinn, SQL-tilfellahleðaranum, matsviðmiðið (byte-óbreytt milli útgáfna) og lagskipt slembiúrtak af hráum svörum vélarinnar úr bæði V11 fyrstu keyrslunni og seinni uppfærslunnar viðmiðunarkeyrslum eru aðgengileg á github.com/emirhanai/kantesti-blood-test-benchmark og spegluð á Figshare, ResearchGate og Academia.edu.

Hvernig aðgreinir Kantesti gervigreindarvélina járnskort frá burðareiginleika beta-talassemíu?

Vélin beitir Mentzer-vísinum, reiknað sem meðaltal kyrninga rúmmáls (MCV) deilt með fjölda rauðra blóðkorna. Mentzer-vísir yfir 13 styður járnskortsblóðleysi, en gildi undir 13 styður eiginleika beta-thalassemíu. Í V11 fyrstu viðmiðunarprófinu voru báðar framsetningarnar flokkaðar rétt með skýrri Mentzer-vísireiknireglu, studd af ferritín, RDW og HbA2 samhengi. Í V11 seinni uppfærslunni, í 100.000 tilvika hópnum, var sama mismunandi hegðun varðveitt á þýðisstigi.

Hvar get ég fundið hrá viðmiðsgögn og frumkóða?

Tækniskýrslan er lögð inn á Figshare undir DOI 10.6084/m9.figshare.32095435 (sem nær yfir bæði V11 fyrstu útgáfuna og V11 seinni uppfærsluna), spegluð á ResearchGate útgáfuna 404175463 og Academia.edu ritgerðina 165956808 — báðar uppfærðar með titli V11 seinni uppfærslunnar og 100.000 tilvika niðurstöðum — og MIT-leyfða Python-skipulagið með öllum viðmiðunarkeyrsluniðurstöðum er á github.com/emirhanai/kantesti-blood-test-benchmark. Speglunarnet fjögurra vettvanga tryggir langtímaaðgengi og sveigjanleika í tilvísunum.

Af hverju er forskráning (pre-registration) mikilvæg fyrir læknisfræðileg viðmið gervigreindar?

For-skráning kemur í veg fyrir að matsviðmið séu stillt eftir á (post-hoc rubric tuning), sem er ein algengasta leiðin sem fyrirtækjarekinn viðmiðunarbúnaður (benchmarks) bólgnar eigin tölur. Með því að festa matsviðmiðið í upprunakóða áður en nokkur köllun á sér stað og birta handritið opinberlega, verða dagsetningar höfundar matsviðmiðsins skoðanlegar í útgáfustýringu og niðurstöður vélarinnar geta ekki mótað matsviðmiðin.

Inniheldur þetta viðmið samanburð við aðrar gervigreindarvélar?

Nei. V11 skýrslan — bæði upphaflega útgáfan og seinni uppfærslan — lýsir vísvitandi einni vél gegn föstu matsviðmiði frekar en að setja hana upp á móti öðrum samkeppniskerfum. Skipulagið er opinn hugbúnaður undir MIT-leyfi (nú einnig með SQL-tilfellahleðaranum), þannig að óháðir rannsakendur geta metið hvaða vél sem þeir kjósa gegn sama matsviðmiði og tilfellahleðara og birt niðurstöður sínar.

Eru sjúklingatilvikin raunveruleg eða tilbúin?

Öll tilvik eru gervilega mynduð — 15 handsmíðuð tilvik í upphaflegri V11-útgáfu og 100.000 í Önnurri uppfærslu. Þetta eru ekki gervi-tilvik: engin gervigögn, ekkert samþykkisferli og engin afpersónugreining (de-identification) á sér stað, því engin persónuupplýsingar eru til staðar í úrtakinu. Engar persónuupplýsingar birtast í birta hylkinu, tækniskýrslunni eða útgefnu gagnasöfnunum.

⚕️ Læknisfræðileg fyrirvari & hagsmunaárekstur

Þessi skýrsla um viðmiðunarpróf er ætluð til rannsókna og að tryggja aðferðafræðilega gagnsæi. Hún felur ekki í sér læknisfræðilega ráðgjöf, er ekki greining og kemur ekki í stað faglegrar læknisþjónustu; engin niðurstaða hér ætti að vera notuð til að seinka eða forðast að leita til læknis. Leitaðu alltaf til hæfs heilbrigðisstarfsmanns vegna ákvarðana um greiningu og meðferð. Þetta er sjálfkeyrt innra viðmiðunarpróf á eigin vél fyrirtækisins og hefur ekki verið sjálfstætt staðfest eða jafningjagagnrýnt. Samsetta einkunnin mælir samræmi við fast sett matsviðmið (uppbyggingu skýrslu, endurheimt lykilorða og matskerfis og biðtíma); hún er ekki mælikvarði á raunverulega greiningarnákvæmni eða klínískt öryggi. Báðir höfundar starfa hjá og eiga hlut í Kantesti Ltd og vélin sem er til skoðunar er markaðsvara frá sama fyrirtæki. Þessi hagsmunaárekstur er mildaður með því að skrá matsviðmiðin fyrirfram í frumkóða, gefa út kerfisprófunarbúnaðinn (harness) undir MIT-leyfi og birta lagskipt af handahófi úrtak af hráum svörum vélarinnar.

E-E-A-T traustmerki

⭐

Reynsla

15+ ára klínísk reynsla í blóðmeinafræði og rannsóknarstofulækningum við að hafa umsjón með vali tilvikspallsins.

📋

Sérþekking

For-skráð hönnun matsviðmiðs með skýrum refsiaðgerðum vegna ofgreiningar og viðurkenndum klínískum stigakerfum (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Yfirvald

Aðalhöfundur Dr. Thomas Klein, læknir (MD) (ORCID 0009-0009-1490-1321). Innleiðing af Julian Emirhan Bulut, framkvæmdastjóra (CEO) Kantesti Ltd.

🛡️

Traustleiki

Endurframkvæmanlegt handrit með MIT-leyfi, hrá svör vélarinnar birt, opið upplýsingagjöf um hagsmunaárekstur, fjögurra vettanga rannsóknarspegilnet.

🏢 Kantesti ehf. Skráð á Englandi og Wales · Fyrirtækjanúmer. 17090423 Lundúnir, Bretland · kantesti.net