Af hverju þetta viðmið er til og hvað það prófar
AI-aðstoðuð túlkun blóðrannsókna er sífellt meira notuð í neytenda- og klínískum vinnuflæði, en endurgeranleg matsrammi sem er sérsniðinn að rannsóknarstofulækningum er enn sjaldgæfur. Spurningarnar sem skipta mestu máli í þessu samhengi eru ekki þær sem falla undir almenn viðmið fyrir læknisfræðilega spurninga-og-svar. getur vél aðgreint járnskort frá talassemíu-einkennum þegar meðalfrumumagn er eins, ofgreinir hún Gilbertsjúkdóm sem lifrarbólgu og skapar hún meinafræði í fullkomlega eðlilegum skimunarpakka?
Blóðprufusamstæða inniheldur venjulega nægjanlegt merki til að styðja nokkrar samkeppnislegar túlkanir og hlutverk túlkunarlæknisins er að vega þessar túlkanir hverja á móti annarri frekar en að sækja „rétta“ svarið eins og í kennslubók. Vél sem gengur vel á dæmigerðum tilvikum úr kennslubókum getur samt brugðist á þeim tilvikum sem skipta mestu: gildrurnar í mismunagreiningu, góðkynja afbrigðin sem líta ógnvekjandi út þegar þau eru einangruð, og fullkomlega eðlilegar samstæður sem freista öruggra aðstoðarmanna til að búa til meinafræði.
Þessi viðmiðun var smíðuð einmitt með þessi bilunarmynstur í huga. Hvert af fimmtán tilvikunum var valið vegna ákveðins greiningareiginleika: járnskorts-míkrósýtósu sem þarf að halda aðgreindri frá eiginleika beta-talassemíu með eins meðalfrumumagn, birtingarmynd Gilbert-sjúkdóms þar sem eina frávikið er einangruð óbein hækkun á gallrauðlitarefni í blóði (óbein hyperbilirúbínhækkun) og fimmtán þátta skimunarsamstæða þar sem hvert mæligildi liggur innan viðmiðunarsviðs. Viðmiðunarlýsingin verðlaunar vélar sem lesa hvert tilvik á eigin forsendum og refsar vélum sem reyna að komast að öruggri greiningu þegar slík greining á ekki við.
Sem Thomas Klein, læknir, valdi ég tilvikasafnið vegna þess að þetta eru mynstrin sem aðstoðarmenn á rannsóknarstofulækningum gera oftast rangt. Dýrasta bilunin er ekki "að missa af sjaldgæfum sjúkdómi" — heldur að búa til venjubundna meinafræði hjá sjúklingum sem hafa hana ekki. Okkar Læknisfræðileg staðfesting lýsir víðara ramma; þessi síða lýsir upphaflegri V11 hugmyndasönnun og V11 Second Update sem skalaði hana upp í 100.000 nafnlausu tilvika sem dregin voru úr SQL-studdri klínískri gagnagrunni sem nær yfir 127 lönd — með sama stigakerfisviðmiði, bæti-fyrir-bæti eins, án þess að leyfa eftirá-matsviðmiðun.
Nýjasta viðmiðunar keyrsla — V11 Second Update (26. apríl 2026)
Viðmiðunar keyrsla V11 Second Update 26. apríl 2026 skilaði samsettu stigi 99.80% á sama fyrirfram skráða matsviðmiði og var notað í upphaflegri V11 útgáfu, metið á 100.000 nafnlausum tilvikum dregin úr Kantesti SQL-studdri klínískri gagnagrunni og ná yfir 127 löndum og 75+ tungumál. Öll tilvik kláruðust á aðalferli vélarinnar; kveikjur á hypergreiningar-flaggi (trap-case hyperdiagnosis) héldust á 0 / 87,412. Upphaflega V11 keyrslan 23. apríl 2026 náði yfir 15 handvalin tilvik (samsett 99.12%) og staðfesti matsviðmiðið; Second Update heldur því matsviðmiði bæti-fyrir-bæti eins og framlengir matið í hóp í mælikvarða á þýði.
Samsetta formúlan sameinar þrjá þætti: byggingarleg samræmi við sjö skylduskýrslugreinar og sextán skyldubundnar undirgreinar, klínísk nákvæmni mælt sem orðlykils-endurköllun (keyword recall) auk endurköllunar í stigakerfi auk sannprófunar á gildi líkinda-dreifingar, og svörunartími miðað við aðalferils þjónustustigsmarkmið. Nákvæm sundurliðun er sýnd í matsviðmiðsformúlunni hér að neðan — engin af þessum vægjum eða undirmatsviðmiðum var breytt fyrir Second Update.
Afgangurinn af 0,20 prósentustigum af svigrúmi (headroom) skiptist næstum alfarið í klíníska undirmatsstigið — lítill hluti tilvika (aðallega í Lifrarfræði og Gigtlækningum) hafði eitt vænt stigakerfis-leitarorð sem vantaði í túlkun vélarinnar þrátt fyrir að greiningarefnið væri rétt. Engin tilvik í 100.000-tilvika Second-Update hópnum missti af sjálfri greiningunni. Seinkun batnaði úr meðaltali 20,17 s í upphaflegri V11 útgáfu í 13,26 s í Second Update, sem endurspeglar hagræðingu í framleiðsluvél milli keyrslna; matsviðmiðið, stigs-kóðinn og API-endapunkturinn eru óbreytt.
Samsett stig eftir löndum voru á bilinu 0,9971 (Indland) til 0,9985 (Sviss) yfir 30 mest fulltrúa löndin. Langur hali 97 viðbótarlanda (≈7.300 tilvik samanlagt) sýndi enga kerfisbundna rýrnun. Helstu framlag eftir fjölda tilvika voru Bandaríkin (10.500), Brasilía (9.500), Spánn (9.000), Ítalía (8.000), Þýskaland (7.800), Frakkland (7.400), Portúgal (5.800), Türkiye (3.400), Bretland (2.900) og Mexíkó (2.500).
Frá 15 tilvikum í 100.000: þróun hóps yfir 127 lönd
Upphaflegi V11 tilvikspallurinn náði yfir sjö sérsvið — blóðmeinafræði, innkirtlafræði, efnaskiptalækningar, lifrarfræði, nýrnalækningar, hjartalækningar, gigtlækningar — auk tveggja sértækra hypergreiningar-trap tilvika, þar sem hvert tilvik var nafnlaust raunverulegt sjúkraskráargögn sjúklings sem dregin voru úr Kantesti klínísku gagnasafni með skriflegu upplýstu samþykki. V11 Second Update framlengir matið í 100.000 nafnlaus tilvik yfir 127 lönd, dreift yfir átta sérsvið (hin sjö upprunalegu auk sérsniðins innri læknisfræðisviðs sem tekur við trap-undirmenginu). Sama stigakerfisviðmið er beitt bæti-fyrir-bæti eins í báðum keyrslum.
Nafnleynd var framkvæmd samkvæmt Safe Harbor-aðferðinni: allar beinar auðkennisupplýsingar voru fjarlægðar eða skipt út, og hver færsla fékk viðmiðunar-innra tilvikskóða á formi BT-NNN-LABEL (V11 upphaflega) eða stöðugt nafnlaust case_uid fyrir Second Update. Vinnsla var framkvæmd í samræmi við GDPR 9. gr. 2. mgr. (j) fyrir vísindarannsóknir með viðeigandi varúðarráðstöfunum og samsvarandi ákvæðum í bresku GDPR. Engar persónugreinanlegar upplýsingar birtast neins staðar í birta „harness“-kerfinu, tækniskýrslunni eða útgefnu gagnasöfnunum.
V11 upphaflega útgáfu — 15 handvalin tilvik
Upprunalega V11 tilvikspjaldið var handvalið af Dr. Thomas Klein til að æfa greiningarmynstur sem aðstoðarmenn í rannsóknarstofulækningum fá oftast rangt. Hvert af fimmtán tilvikunum var valið með tilliti til tiltekins greiningareiginleika, sem er skráður hér að neðan.
Af hverju þessi tiltekna dreifing
Blóðfræði fær þrjú tilvik vegna þess að mismunagreiningar fyrir míkrósýtósu og makrósýtósu eru mestu „gildrurnar“ í raunverulegri rannsóknarstofustarfsemi hvað varðar umfang. Innkirtlafræði fær þrjú vegna þess að birtingarmyndir Hashimoto-sjúkdóms, PCOS og D-vítamínskorts æfa mismunandi greiningarmynstur (sjálfsmótefnavaldar, hormónahlutfallavaldar og eins-markera-valdar). Sérgreinar með einu tilviki eru samt þýðingarmiklar vegna þess að hver um sig — CKD, ASCVD- áhættumat og SLE — hefur sitt eigið stigakerfi sem vélin á að kalla fram (KDIGO-stigsetning, ASCVD 10-ára áhætta og 2019 EULAR/ACR SLE-skilyrði, í sömu röð).
V11 önnur uppfærsla — 100.000 nafnlaus tilvik í 127 löndum
Önnur uppfærsla kemur í stað upprunalega V11 harðkóðaða 15-tilvika Python-literalsins með færibreytanlegri, lesanlegri SQL fyrirspurn gegn Kantesti klínísku gagnasafni (anonymised_blood_panels). Fyrirspurnin sía á consent_research = 1 AND released_for_benchmark = 1 og er prentuð efst í hverri viðmiðunar keyrslu til gagnsæis. Dreifing hópsins eftir sérgrein er sýnd hér að neðan.
Landfræðileg dreifing — 10 efstu löndin
Hópurinn nær yfir 127 lönd (ISO 3166-1 alpha-2). Evrópa leggur til 57.7%, Ameríkur 25.4%, Así og Kyrrahaf 6.2%, skráð færslur fyrir Mið-Austurlönd/Afríku 3.4% og langur hali 97 til viðbótar landa samtals um 7.3%. Tíu stærstu framlögin eru Bandaríkin (10,500), Brasilía (9,500), Spánn (9,000), Ítalía (8,000), Þýskaland (7,800), Frakkland (7,400), Portúgal (5,800), Tyrkland (3,400), Bretland (2,900) og Mexíkó (2,500). Samsettu einkunnir eftir landi voru á bilinu 0.9971 (Indland) til 0.9985 (Sviss).
Matsviðmiðið sem var for-skráð, útskýrt
Forskráning (pre-registration) er mikilvægasta aðferðaval í þessari viðmiðun. Hver vænt greining, hvert klínískt stigakerfi og hver hluti skýrslunnar var skuldbundinn í frumkóða áður en vélin var kölluð fram. Þess vegna er ómögulegt að stilla matsviðmiðið (rubric) eftir á til að smjaðra vélinni.
Þrír þættir mynda samsetta einkunn. Byggingarþátturinn leggur til 35 prósent og mælir hvort vélin skilaði sjö skyldubundnum skýrsluhlutum (haus, samantekt, helstu niðurstöður, mismunagreining, stigakerfi, ráðleggingar, eftirfylgni) og sextán skyldubundnum undirköflum innan þeirra. Tilvist kafla vegur 40 prósent og tilvist undirkafla vegur 60 prósent innan byggingarútreikningsins.
The Klíníski þátturinn leggur til 55 prósent og sameinar þrennt: endurköllun greiningar-lykilorða (70 prósent af klínísku undireinkunninni), endurköllun stigakerfa (20 prósent — hvort vélin reikni Mentzer, FIB-4, HOMA-IR, ASCVD-áhættu, KDIGO-stigsetningu, EULAR/ACR-skilyrði þar sem við á), og gildiathugun á líkindasummu (10 prósent — mismunarlíkindin eiga að summa innan bilsins [90, 110]). Fyrir „gildru“-tilvik er dregin frá skýr ofgreiningarrefsing allt að 0.30, reiknuð sem 0.10 fyrir hvern tilbúinn meinafræðifána, með hámarki við þrjá fána.
The Seinkunarþátturinn leggur til 10 prósent. Svör á innan við 20 sekúndum fá fulla 0.10, svör á innan við 40 sekúndum fá 0.05 og allt sem er hægara fær núll. 20-sekúndna markmiðið endurspeglar framleiðslu-meginmarkmið þjónustustigs fyrir primary-path; 40-sekúndna þakið endurspeglar varasjóð fyrir Phase 2 þegar vélin er kölluð í þyngri tilvikum.
Hvað forskráning kemur í veg fyrir
Fyrstu-aðila viðmiðanir eru frægar fyrir að blása upp eigin tölur með því að stilla matsviðmiðið eftir á. Mynstrið er næstum alltaf það sama: teymið keyrir vélina, sér hvar hún stendur sig illa, og stillir síðan hljóðlega matsviðmiðið þannig að svæði sem standa sig illa telji minna. Með því að skuldbinda matsviðmiðið í frumkóða áður en fyrsta köllun vélarinnar fer fram og birta prófkerfið undir MIT-leyfi verður þessi breyting sýnileg í útgáfustýringu. Allir geta klónað geymsluna, skoðað dagsetningar höfundar matsviðmiðsins og staðfest að ekki hafi verið notaðar niðurstöður úr vélinni til að móta stigagjöfina.
Tilvik í gildru ofgreiningar — hvers vegna of mikil köllun er raunveruleg bilunarleið
Áköf ofnotkun á meinafræði á eðlilegum skjám er skjalfest bilunarháttur í læknisfræðilegum aðstoðarmönnum sem snúa að neytendum. Afleiddur kostnaður felur í sér óþarfa rannsóknir, kvíða sjúklinga og iatrogena (meðferðar- eða rannsóknartengda) vinnslu. Tvö „gildru“-tilvikin í þessari viðmiðun eru hönnuð til að gera þennan bilunarhátt sýnilegan og mælanlegan.
🟡 Gildra 1 — BT-014-GILBERT
Birtingarmynd. 24 ára karlmaður með heildarbíilírúbín 2.4 mg/dL. Bein brotið er eðlilegt, transamínasar og basískur fosfatasi eru innan viðmiðunarsviða, retíkúlócýtur eru óathugaverðir og haptóglóbín og LDH útiloka blóðlýsu.
Rétt túlkun. Gilbert-sjúkdómur — góðkynja UGT1A1 fjölbreytileiki. Túlkunin á ekki að kalla fram lifrarbólgu, skorpulifur, blóðlýsublóðleysi eða gallteppu.
Niðurstaða V11. Samsett 1.000. Engin af sex eftirlits-„ofgreiningar“-fánunum birtist sem virk greining.
🟡 Gildra 2 — BT-015-HEALTHY
Birtingarmynd. 35 ára kona með fimmtán breytu reglubundið skimunarróf. Allir mældir mælikvarðar liggja þægilega innan viðmiðunarsviðs.
Rétt túlkun. Meging og viðhalds lífsstíls. Túlkunin ætti ekki að búa til jaðareinkenni sjúkdóma til að hljóma klínískt gagnleg.
Niðurstaða V11. Samsett 1.000. Ekkert af sjö eftirlitsmerkjum ofgreiningar — sykursýki, blóðleysi, skjaldvakabrestur, blóðfituröskun, lifrarbólga, nýrnasjúkdómur, skortur — birtist sem virkar greiningar.
Í báðum „gildrunum“ voru athuguð þrettán eftirlitsmerki ofgreiningar. Engin þeirra var kveikt. Þetta er niðurstaðan sem skiptir mestu máli fyrir hvern þann lækni sem íhugar að nota AI-kerfi sem skimunar- eða forráðgjafartæki: kerfið fann ekki upp sjúkdóma þar sem engir voru til staðar.
Mentzer-vísitala: aðgreining járnskorts frá eiginleikum blóðþynningar (thalassaemia trait)
Önnur mikilvæg niðurstaða varðar samsetningu máls BT-001 (járnskortsblóðleysi) við mál BT-007 (minniháttar beta-talassemíu). Bæði koma fram með míkrósýtósu og eru vel þekktur steingervingur fyrir óreynda flokkara. Mentzer-vísirinn, reiknaður sem MCV deilt með RBC-fjölda, er yfir 13 í járnskortsblóðleysi og fellur undir 13 í eiginleika talassemíu.
Í BT-001 var sjúklingurinn 34 ára kona með blóðrauða 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritín 6 ng/mL og hækkað TIBC. Mentzer-vísirinn, um 17,7, styður algeran járnskort. Í BT-007 var sjúklingurinn 28 ára karl með míkrósýtósu (MCV 65,8 fL) en háan RBC-fjölda 6,2, eðlilegt RDW, eðlilegt ferritín og HbA2 5,6 prósent. Mentzer-vísirinn, um 10,6, bendir til eiginleika talassemíu og hækkað HbA2 staðfestir minniháttar beta-talassemíu.
Bæði tilvikin skoruðu 1.000. Kerfið notaði Mentzer-vísinn skýrt í báðum túlkunum og skilaði réttri greiningu í hvert skipti. Þetta er ein öruggasta klíníska niðurstaðan í öllum viðmiðunarprófinu, vegna þess að það að flokka eiginleika talassemíu sem járnskort leiðir til óviðeigandi járnuppbótar og að missa af tækifærum til skimunar í fjölskyldu, og það að flokka járnskort sem talassemíu seinkar einfaldri staðgöngumeðferð. Okkar leiðarvísir fyrir ferritínbil útskýrir víðara mismunagreiningarsamhengið.
Niðurstöður eftir tilfelli úr V11 upphaflegu viðmiðunar keyrslunni (23. apríl 2026)
Upprunalega V11 viðmiðunar keyrslan á 15-tilfella proof-of-concept hópnum þjónar sem aðferðafræðilegur grunnur Second Update: hvert smáatriði fyrir hvert tilfelli hér að neðan sýnir hvernig matsviðmiðin meðhöndla raunverulegt vélarsvar. Tólf af fimmtán tilfellum náðu hámarkssamsettu einkunninni 1.000 á aðalbrautinni; þrjú tilfelli voru afgreidd í gegnum Phase 2 varafallið, þar sem tapaðist 0.05 seinkunarbónusinn en allur klínískur og byggingarlegur innihald hélt sér. Eitt tilfelli vantaði eitt skyldubundið undiratriði; eitt skilaði aðeins lægri summu líkindadreifingar.
PCOS-tilvikið (BT-008) missti einn skyldubundinn undirlið í uppbyggingu svörunar — fimmtán af sextán í stað sextán af sextán — sem minnkaði uppbyggingareinkunn úr 1,000 í 0,963. SLE-tilvikið (BT-011) skilaði lítillega lækkuðu summu líkinda-dreifingar sem lækkaði klíníska einkunn í 0,965 en varðveitti alla greiningarlykla og stigakerfi. Hvorki af þeim tilvikum sem voru undir fullkomnun missti af réttri greiningu.
V11 Second Update samantekt — 100,000 tilfelli
Í mælikvarða á þýði eru einstakar raðir ekki læsilegar fyrir fólk, þannig að Second Update skýrir frá samantektarmælingum frekar en 100,000 raða töflu. Aðal-samantektin er sýnd hér að neðan; sundurliðanir eftir sérgrein og landi eru birtar í tækniskýrslunni og í Figshare-innlegginu. Lagskipt slembiúrtak af n = 201 hráum vélsvörum (ákvarðanlegur fræi 20260426) er birt í GitHub results/ möppunni til skoðunar.
Það sem fyrirsagnareinkunnin segir okkur ekki
Samsett stig upp á 99,80 prósent samkvæmt þessari tilteknu fyrirfram skráðu matsviðmiðun, á 100.000 tilfella nafnlausu úrtaki sem nær yfir 127 lönd, táknar frammistöðu nær þakinu — en það á skilið vandaða framsetningu. Niðurstaðan lýsir hegðun vélarinnar gagnvart matsviðmiðinu sem við skuldbundum okkur til að styðjast við í V11 frumkóðanum; hún er ekki alhliða fullyrðing um réttmæti vélarinnar fyrir hverja blóðprufuspjald sem er til í raunheiminum.
Stigin segja að vélin hafi meðhöndlað greiningarmynstrin sem valin voru fyrir þessa úttekt rétt yfir þýðisúrtak á mælikvarða þýðis, samkvæmt aðferðafræði sem er birt og endurframkvæmanleg. Það segir ekki að vélin sé rétt fyrir hvert blóðprufuspjald sem er til í raunheiminum. Það segir ekki að vélin eigi að koma í stað klínískrar fagdóms. Og það segir ekki að vélin standi sig betur en aðrar gervigreindarkerfi — samanburðargreiningar við aðrar vélar voru vísvitandi utan gildissviðs fyrir þessa skýrslu.
Það sem stigin hins vegar staðfesta er grunnlína. Þar sem matsviðmiðið og búnaðurinn (harness) eru opinber, er hægt að meta framtíðarútgáfur af vélinni gegn sama matsviðmiði — beitt á V11 upphaf 15 tilfellin, Önnur uppfærsla 100.000 tilfella úrtakið, eða hvaða frekari stækkun sem er — og bilið milli birtra stiga og hvers kyns síðari keyrslu er sjálft mælanlegt. Þetta er gildi fyrirframskráningar: hún breytir fullyrðingum um afköst í prófanlegar fullyrðingar.
Hvernig á að endurtaka þetta viðmið á 10 mínútum
Endurframkvæmd krefst aðeins Kantesti API-heimildapar og Python 3.10 eða nýrra umhverfis með requests og reportlab bókasöfn uppsett. Heildarverkfærakistan er einn sjálfstæður Python-einingur sem gefinn er út undir MIT-leyfi.
Fjórir skref til nýrrar keyrslu
Eitt. Klónaðu geymsluna: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Tvö. Settu upp ósjálfstæði með pip install -r requirements.txt (Önnur uppfærsla bætir við mysql-connector-python ≥ 8.0 fyrir SQL tilfellahleðslutækið). Þrír. Stilltu KANTESTI_USERNAME og KANTESTI_PASSWORD sem umhverfisbreytur fyrir vélarforritaviðmótið (engine API). Fyrir SQL tilfellahleðslutækið í Önnur uppfærslu, stilltu einnig KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, og KANTESTI_DB_PASSWORD — hleðslutækið tengist í gegnum lesaðgangs-hlutverk (bench_reader) sem hefur engin réttindi til að bera kennsl á töflur. Fjórir. Keyrðu python benchmark_bloodtest.py --limit 100000 fyrir fulla Second-Update keyrslu, eða python benchmark_bloodtest.py --limit 1000 fyrir hraða endurtekningu. Úttök lenda í ./benchmark_results/: CSV-stigaskrá með dálkum fyrir hvert land og hverja sérgrein, JSON-samantekt, lagskipt handahófskennt hrá-svarasýni og Markdown-skýrslu.
Tilvísunarkeyrslurnar frá 23. apríl 2026 (V11 upphaf, 15 tilvik) og 26. apríl 2026 (V11 Second Update, 100,000 tilvik) eru varðveittar í results/ möppu geymslunnar. Ný keyrsla mun búa til nýja tímastimplaða stigaskrá en skilja tilvísunarkeyrslurnar eftir óbreyttar. Ef keyrsla þín skilar marktækt öðru niðurstöðu, vinsamlegast opnaðu GitHub-mál með tímastimpli keyrslunnar og vélútgáfunni sem kemur fram í svarupplýsingum (response metadata).
Takmarkanir og framtíðarvinna
Jafnvel með 100,000 tilvikum yfir 127 lönd, eiga fjórar takmarkanir skýlaust að fá viðurkenningu: vanrannsókn á löngum hala landa, einnota mat, einnar-vélar umfang og einnar-uppruna gagna uppruni. Hver þeirra er verið að vinna að í virku eftirfylgni.
Umfjöllun um löngan hala landa. Second Update nær yfir 127 lönd, en dreifingin er ójafnvæg — topp 10 framlagshöfundar standa fyrir ≈66.4% af tilvikum og langhali 97 til viðbótar landa leggur saman ≈7.3% (um 7,300 tilvik samtals, ~75 tilvik á land að meðaltali). Því eru samsetningar fyrir hvert land í þessum langhala hávaðasamari en fyrirsagnartölur gefa til kynna. Í framtíðarkeyrslum verður frekar valið úr vanrannsökuðum löndum til að styrkja áætlanir fyrir hvert lögsagnarumdæmi.
Einnota mat. Hvert tilvik í hópnum var metið einu sinni. Stór tungumálalíkön sýna óverulegan breytileika í úttaki jafnvel við lágt sýnatökuhitastig, þannig að margra-keyrslu verklag með fimm mati á hvert tilvik og tilkynntum breytileika er eðlilegt næsta skref — sérstaklega á trap-case undirmengi, þar sem samkvæmni við sýnatökusveiflur er hluti af öryggiskröfunni.
Afmörkun við eina vél. Þessi skýrsla lýsir einni vél. Samanburðargreiningar gegn öðrum gervigreindarkerfum eru utan við þetta samhengi; við gætum stundað þær sem sérstaka sjálfstæða rannsókn með viðeigandi aðferðafræði, gegn sama MIT-leyfða prófunarbúnaði (harness).
Uppruni gagna frá einum aðila. Hin 100,000 tilvik eru nafnlaus raunveruleg sjúkragögn sem dregin eru úr einni klínískri gagnageymslu (Kantesti SQL-studdri klínískri gagnageymslu). Þau tákna sérsniðið framleiðsluflæði og eru ekki slembidregin úrtak sem endurspeglar þýði á heimsvísu. Að auka matið með gögnum sem koma utan frá, frá mörgum miðstöðvum, er á áætlun.
Fyrir utan þessar fjórar er áhrifamesta fyrirhugaða viðbótin jafnræði á mörgum tungumálum fyrir hvert lögsagnarumdæmi. Kantesti AI Engine þjónar notendum á 75+ tungumálum og með því að keyra tungumálaskipt Second-Update undirmengi (túrkska, þýska, spænska, franska, ítalska, portúgalska, arabíska, mandarín) verður mæld gæði úttaks yfir þeim tungumálum sem vélin styður. Hver tungumálaskipt greining verður birt með sínum eigin DOI og harness grein.