Zergatik existitzen den erreferentzia hau eta zer probatzen duen
AI-laguntzazko odol-analisien interpretazioa gero eta gehiago erabiltzen da kontsumo- eta klinika-arloko lan-fluxuetan; hala ere, laborategiko medikuntzarako egokitutako ebaluazio-esparru erreproduzigarriak ez dira ohikoak. Testuinguru honetan gehien axola duten galderak ez dira mediku-galdera orokorrei erantzuteko erreferentzia orokorrek estaltzen dituztenak: motor batek bereizi al dezake burdin-gabezia talasemia-traitetik bolumen korpuskular ertaina berdina denean? Gehiegi diagnostikatzen al du Gilbert-en sindromea hepatitis gisa? Eta ba al du patologia sortzen baheketa-panel guztiz normal batean?
Odol-analisien panel bakar batek normalean hainbat interpretazio lehiakor onartzeko adina seinale izaten du, eta interpretatzen duen klinikariaren lana da interpretazio horiek elkarrekin pisatzea, testuliburuetako erantzun bat berreskuratu beharrean. Testuliburu-kasuetan ondo aritzen den motor batek oraindik huts egin dezake gehien axola duten kasuetan: diferentzial-diagnostikoaren tranpetan, isolatuta kezkagarriak diruditen aldaera onberetan, eta guztiz normalak diren paneletan, zeinek laguntzaile ziurrei patologia fabrikatzera bultzatzen baitie.
Aurkagai hau porrot-modu horien inguruan eraiki zen. Hamabost kasu horietako bakoitza propietate diagnostiko jakin baterako aukeratu zen: burdin-gabeziak eragindako mikrozitosia, bolumen korpuskular ertain berdina duen beta-talassemia ezaugarritik bereizita mantendu behar dena; Gibert-en sindromearen aurkezpena, non anomalia bakarra zeharkako hiperbilirubinemia isolatua den; eta hamabost parametroko baheketa-panel bat, non analito bakoitza bere erreferentzia-barrutian dagoen. Rubrikak kasu bakoitza bere terminoetan irakurtzen duten motorrei ematen die saria, eta halako diagnostikorik justifikatuta ez dagoenean diagnostiko ziur bat lortzen saiatzen diren motorrei zigortzen die.
Thomas Klein, MD, naizen aldetik, kasu-panel hau aukeratu nuen, hauek baitira laborategiko medikuntzako laguntzaileek gehien okertzen dituzten ereduak. Porrot garestia ez da "gaixotasun arraro bat galtzea" — baizik eta hori ez duten pazienteetan ohiko patologia fabrikatzea. Gure Baliozkotasun Medikoa hub-ek esparru zabalagoa deskribatzen du; orrialde honek V11 hasierako froga-kontzeptua eta V11 Bigarren Eguneratzea azaltzen ditu, 127 herrialdetan zehar hedatzen den SQL bidezko biltegi kliniko batetik ateratako 100.000 kasu anonimizatuetara eskalatu zuena — puntuazio-rubrika bera erabiliz, byte-identikoa, eta post-hoc doikuntzarik onartu gabe.
Azken erreferentziazko exekuzioa — V11 Bigarren Eguneratzea (2026ko apirilaren 26a)
2026ko apirilaren 26ko V11 Bigarren Eguneratze erreferentziazko exekuzioak puntuazio konposatu bat sortu zuen 99.80% V11 hasierako argitalpenean erabilitako aurrez erregistratutako rubrika berean ebaluatua, 100.000 kasu anonimizatuetan Kantesti SQL bidezko biltegi klinikotik ateratakoak eta 127 herrialdetan eta 75+ hizkuntzetan zehar. Kasu bakoitza motorraren ibilbide nagusian amaitu zen; trap-kasuen hiperdiagnostikoaren hiperdiagnostikoaren bandera aktibazioak geratu ziren 0 / 87,412. 2026ko apirilaren 23ko jatorrizko V11 exekuzioak 15 eskuz aukeratutako kasu estali zituen (puntuazio konposatua 99.12%) eta rubrika baliozkotu zuen; Bigarren Eguneratzeak rubrika byte-identiko mantentzen du eta ebaluazioa populazio-mailako kohorte batera hedatzen du.
Formula konposatuak hiru osagai konbinatzen ditu: egituraren egokitasuna zazpi derrigorrezko txosten-sekzioekin eta hamasei derrigorrezko azpisekzioekin, zehaztasun klinikoa honela neurtuta: gako-hitzen gogoratzea + puntuazio-sistemaren gogoratzea + probabilitate-banaketa baliozkotasunaren egiaztapena, eta erantzunaren latentzia ibilbide nagusiko zerbitzu-mailako helburuaren aurka. Beheko rubrika-formulan ageri da deskonposizio zehatza — ez pisu horiek ez azpi-rubrikak ez ziren aldatu Bigarren Eguneratzearentzat.
Edukiera-espazioaren gainerako 0.20 ehuneko-puntuek ia osorik klinikako azpi-puntuaziora deskonposatzen dira — kasu gutxi batzuek (batez ere Hepatologia eta Erreumatologia arloetan) espero zen puntuazio-sistemako gako-hitz bat falta zuten motorraren interpretazioan, diagnostiko-edukia zuzena izan arren. 100.000 kasuko Bigarren Eguneratze kohorteko kasu bakar batek ere ez zuen galdu diagnostikoa bera. Latentzia hobetu egin zen V11 hasierako argitalpenean batez beste 20.17 s-tik Bigarren Eguneratzean 13.26 s-ra; bi exekuzioen arteko ekoizpen-motorraren optimizazioak islatzen ditu horrek; rubrika, puntuazio-kodea eta API amaierako puntua aldatu gabe daude.
Herrialdeka puntuazio konposatuak 0.9971 (India) eta 0.9985 (Suitza) artean ibili ziren gehien ordezkatutako 30 herrialdetan. Beste 97 herrialdetako isats luzeak (≈7.300 kasu guztira) ez zuen degradazio sistematikorik erakutsi. Kasu-kopuruaren arabera ekarpen nagusiak hauek izan ziren: Estatu Batuak (10.500), Brasil (9.500), Espainia (9.000), Italia (8.000), Alemania (7.800), Frantzia (7.400), Portugal (5.800), Türkiye (3.400), Erresuma Batua (2.900) eta Mexiko (2.500).
15 kasutik 100.000ra: kohortearen bilakaera 127 herrialdetan zehar
Jatorrizko V11 kasu-panelak zazpi espezialitate estali zituen — hematologia, endokrinologia, medikuntza metabolikoa, hepatologia, nefrologia, kardiologia, erreumatologia — eta bi hiperdignostiko trap kasu espezifiko, eta kasu bakoitza anonimizatutako benetako paziente-erregistro bat zen, Kantesti datu-biltegi klinikotik ateratakoa, idatzizko baimen informatuaren pean. V11 Bigarren Eguneratzeak ebaluazioa 127 herrialdetan zehar 100.000 kasu anonimizatuetara hedatzen du, zortzi espezialitatetan banatuta (jatorrizko zazpiak plus barne-medikuntzako ontzi espezifiko bat, trap azpimultzoa xurgatzen duena). Puntuazio-rubrika bera aplikatzen da byte-identikoki bi exekuzioetan.
Desidentifikazioa Safe Harbor ikuspegiaren arabera egin zen: identifikatzaile zuzen guztiak kendu edo ordezkatu ziren, eta erregistro bakoitzari benchmark barneko kasu-kode bat esleitu zitzaion BT-NNN-LABEL formatuan (V11 hasierakoa) edo Bigarren Eguneratzearentzat egonkorra den anonimizatutako case_uid . Prozesamendua bat etorriz egin zen GDPR 9. artikulua 9(2)(j) ikerketa zientifikorako, beharrezko babes-neurriekin, eta Erresuma Batuko GDPR baliokidearen xedapenekin. Argitaratutako harness-ean, txosten teknikoan edo askatutako datu-multzoetan ez da agertzen inongo informazio pertsonal identifikatzailerik.
V11 hasierako argitalpena — 15 eskuz aukeratutako kasu
Jatorrizko V11 kasu-panela Dr. Thomas Klein-ek eskuz aukeratu zuen, laborategiko medikuntzako laguntzaileek gehienetan gaizki interpretatzen dituzten diagnostiko-ereduak lantzeko. Hamabost kasu bakoitza behean zerrendatutako diagnostiko-ezaugarri zehatz baterako aukeratu zen.
Zergatik banaketa zehatz hau
Hematologiak hiru kasu lortzen ditu, mikrozitikoen eta makrozitikoen diferentzialak baitira benetako laborategi-praktikan bolumen handieneko tranpak. Endokrinologiak hiru lortzen ditu, Hashimotoren, PCOSen eta D bitamina gabeziaren aurkezpenek diagnostiko-forma desberdinak lantzen dituztelako (autoantigorputzek bultzatua, hormona-erlazioek bultzatua, markatzaile bakar batek bultzatua). Kasu bakarreko espezialitateek ere badute zentzua, CKD, ASCVD arriskua eta SLE bakoitzak bere puntuazio-sistema duelako eta sistemak deitu behar duelako (KDIGO sailkapena, ASCVD 10 urteko arriskua, eta hurrenez hurren 2019ko EULAR/ACR SLE irizpideak).
V11 Bigarren Eguneratzea — 127 herrialdetan 100.000 kasu anonimizatu
Bigarren Eguneratzeak ordezkatzen du jatorrizko V11 15 kasuko Python literal gogor-kodetua, parametroztatutako, irakurtzeko soilik den SQL kontsulta batekin Kantesti biltegi klinikoaren aurka (anonymised_blood_panels). Kontsultak honela iragazten du consent_research = 1 AND released_for_benchmark = 1 eta gardentasunerako benchmark exekuzio bakoitzaren goialdean inprimatzen da. Espezialitatearen araberako kohorte-banaketa behean ageri da.
Banaketa geografikoa — lehen 10 herrialdeak
Kohorteak 127 herrialde hartzen ditu (ISO 3166-1 alpha-2). Europak 57.7% ematen du, Amerikek 25.4%, Asia-Pazifikoak 6.2%, Ekialde Ertaina/Afrika izendatutako sarrerak 3.4%, eta 97 herrialde gehigarriren isats luze batek, guztira, gutxi gorabehera 7.3%. Hamarrik handienak honako hauek dira: Estatu Batuak (10,500), Brasil (9,500), Espainia (9,000), Italia (8,000), Alemania (7,800), Frantzia (7,400), Portugal (5,800), Türkiye (3,400), Erresuma Batua (2,900) eta Mexiko (2,500). Herrialde bakoitzeko konposite-puntuazioak 0.9971 (India) eta 0.9985 (Suitza) artean ibili ziren.
Aurrez erregistratutako rubrica, azaldua
Aurre-erregistroa da benchmark honetan aukerarik metodologiko garrantzitsuena. Espero den diagnostiko bakoitza, puntuazio kliniko-sistema bakoitza eta txosten-atal bakoitza iturburu-kodean konprometituta zegoen motorra deitu aurretik. Rubrikaren doikuntza post-hoc-a, beraz, ezinezkoa da motorra laitzeko.
Puntuazio konposatua osatzen duten hiru osagai daude. osagai estrukturala ekoa da eta neurtzen du motorak zazpi derrigorrezko txosten-atalak itzuli dituen ala ez (goiburua, laburpena, aurkikuntza nagusiak, diferentziala, puntuazio-sistemak, gomendioak, jarraipena) eta horien barruan dauden hamasei derrigorrezko azpiatalak. Atal-presentziak pisatzen du eta azpiatal-presentziak egitura-kalkuluaren barruan.
The osagai klinikoa ekoa da eta hiru gauza konbinatzen ditu: diagnostiko-hitz-gakoen oroimena (puntuazio klinikoaren azpiatalaren ), puntuazio-sistemaren oroimena ( — motorak Mentzer, FIB-4, HOMA-IR, ASCVD arriskua, KDIGO sailkapena, eta dagokionean EULAR/ACR irizpideak kalkulatzen dituen), eta probabilitateen batura baliozkotzeko egiaztapena ( — diferentzialaren probabilitateek [90, 110] tartearen barruan batu behar dute). Tranpa-kasuetan, gehiegizko diagnostikoaren zigor esplizitu bat kentzen da, gehienez 0.30: 0.10 kasu bakoitzeko asmatutako patologia-flag batengatik, gehienez hiru flagetara mugatuta.
The latentzia osagaia ekoa da. Erantzun bat 20 segundoren azpitik bada 0.10 osoa lortzen du, 40 segundoren azpitik bada 0.05, eta motelagoa den edozerk zero balio du. 20 segundoko helburuak ekoizpeneko primary-path zerbitzu-mailako helburua islatzen du; 40 segundoko sabaia Phase 2ko atzerako aurrekontua da, motor-inbokazio astunak direnean.
Zer eragozten du aurre-erregistroak
Lehen alderdiaren benchmark-ak gaizki famatuak dira post-hoc rubrikaren doikuntzaren bidez beren zenbakiak puzteko. Eredua ia beti berdina da: taldeak motorra exekutatzen du, non huts egiten duen ikusten du, eta gero isil-isilik doitzen du rubrika, huts egiten duten arloek gutxiago konta dezaten. Rubrika iturburu-kodean konprometitzen bada lehen motor-deia egin aurretik eta euskarria MIT lizentziapean argitaratzen bada, doikuntza hori bertsio-kontrolera ikusgai bihurtzen da. Edonork errepositorioa klonatu, rubrikaren egile-datak egiaztatu, eta motorren emaitzak puntuazioa moldatzeko erabili ez direla baieztatu dezake.
Gehidiagnostikoaren tranpa-kasuak — zergatik den gehiegi deitzea porrot-modu errealena
Patologia gehiegi deitzea pantaila normaletan, kontsumitzaileentzako mediku-laguntzaileetan, dokumentatutako porrot-modu bat da. Horren ondorengo kostuek barne hartzen dituzte ikerketa beharrezkoak ez izatea, pazientearen antsietatea eta iatrogenikoen azterketa egitea. Benchmark-eko bi tranpa-kasuak porrot-modu hori ikusgai eta puntuagarri egiteko diseinatuta daude.
🟡 Tranpa 1 — BT-014-GILBERT
Aurkezpena. 24 urteko gizonezko bat, bilirubina osoa 2.4 mg/dL-koa. Frakzio zuzena normala da, transaminasak eta fosfatasa alkalinoa beren erreferentzia-tarteetan daude, erretikulocitoak ez dira nabarmenak, eta haptoglobinak eta LDH-k hemolisia baztertzen dute.
Interpretazio zuzena. Gilbert-en sindromea — UGT1A1 polimorfismo onbera. Interpretazioak ez luke hepatitisik, zirrosirik, anemia hemolitikorik edo biliar-obstrukziorik deitu behar.
V11 emaitza. Konposatua 1.000. Sei gainadierazpen-flag kontrolatuetatik bat ere ez agertu zen diagnostiko aktibo gisa.
🟡 Tranpa 2 — BT-015-HEALTHY
Aurkezpena. 35 urteko emakumezko bat, hamabost parametroko ohiko baheketa-panela. Analito bakoitza eroso dago bere erreferentzia-tartearen barruan.
Interpretazio zuzena. Ezarpen-laguntza eta bizimoduaren mantentzea. Interpretazioak ez luke patologia mugakide bat asmatu behar, erabilgarri klinikoa emateko.
V11 emaitza. 1.000 osagai-konposatua. Jarraitutako zazpi gehiegizko diagnostikoaren abisu-ikurretatik bat ere ez —diabetesa, anemia, hipotiroidismoa, dislipidemia, hepatitis, giltzurrun-gaixotasuna, gabezia— ez zen diagnostiko aktibo gisa agertu.
Bi tranpetan, hamahiru gehiegizko diagnostikoaren abisu-ikur kontrolatu ziren. Bat ere ez zen aktibatu. Hau da edozein klinikarik AI motor bat triage edo kontsultaren aurreko tresna gisa erabiltzea pentsatzen duenean gehien axola duen emaitza: sistemak ez zuen gaixotasunik asmatu, ez bazegoen.
Mentzer indizea: burdin-gabezia thalassemia ezaugarritik bereiztea
Bigarren aurkikuntza balio handikoa kasu BT-001 (burdin-gabeziako anemia) eta BT-007 kasuarekin (beta-talassemia minor) lotzea da. Biak mikrozitosiarekin agertzen dira, eta oztopo ezagun bat dira sailkatzaile inuzenteentzat. Mentzer indizea, MCV RBC kopuruaren bidez zatituta kalkulatzen dena, 13tik gora dago burdin-gabezian eta 13tik behera jaisten da talasemia ezaugarrian.
BT-001n, pazientea 34 urteko emakumea zen, hemoglobina 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritina 6 ng/mL eta TIBC altua zituena. Gutxi gorabeherako 17,7ko Mentzer indizeak burdin-gabezia absolutua onartzen du. BT-007n, pazientea 28 urteko gizonezkoa zen, mikrozitosiarekin (MCV 65,8 fL), baina RBC kopuru altua 6,2, RDW normala, ferritina normala eta HbA2 5,6 ehunekoa. Gutxi gorabeherako 10,6ko Mentzer indizeak talasemia ezaugarria adierazten du, eta HbA2 altuak beta-talassemia minor baieztatzen du.
Bi kasuek 1.000 puntuatu zuten. Motorra Mentzer indizea esplizituki erabili zuen bi interpretazioetan, eta kasu bakoitzean diagnostiko zuzena itzuli zuen. Hau da, benchmark osoan, emaitza klinikoki lasigarriena, izan ere, talasemia ezaugarria burdin-gabeziatzat sailkatzeak burdin-osagarri desegokiak eragiten ditu eta familiako baheketa-aukera batzuk galtzen dira; eta burdin-gabezia talasemia gisa oker sailkatzeak ordezkapen-terapia errazaren atzerapena dakar. Gure ferritina-bitartekoen gidak testuinguru diferentzial zabalagoa azaltzen du.
V11 hasierako erreferentziazko exekuzioaren kasuz kasuko emaitzak (2026ko apirilaren 23a)
V11 erreferentziazko jatorrizko exekuzioa, 15 kasuko froga-kontzeptuko kohortean, da bigarren eguneratzearen oinarri metodologikoa: beheko kasu bakoitzeko xehetasunek erakusten dute nola kudeatzen duen errubrikak benetako motor-erantzun bat. Hamabost kasuetatik 12k lortu zuten 1.000ko sabai-konposite-puntuazioa bide nagusian; hiru kasu 2. faseko ordezkoaren bidez zerbitzatu ziren, 0.05 latentzia-bonusa galduz baina eduki kliniko eta egiturazko guztia mantenduz. Kasu batek derrigorrezko azpiatal bakar bat falta zuen; batek probabilitate-banaketaren batura apur bat murriztuta itzuli zuen. V11 Bigarren Eguneratze agregatua — 100,000 kasu.
PCOS kasuak (BT-008) erantzun-egituraren derrigorrezko azpiatal bakar bat galdu zuen — hamaseitik hamabost, hamaseitik hamasei izan beharrean—, eta horrek egitura-puntuazioa 1,000tik 0,963ra murriztu zuen. SLE kasuak (BT-011) probabilitate-banaketaren batura apur bat murriztuta itzuli zuen, eta horrek puntuazio klinikoa 0,965era jaitsi zuen, diagnostiko-gako-hitz eta puntuazio-sistema guztiak mantenduta. Bi kasu perfektutik beherakoek ez zuten diagnostiko zuzena galdu.
Populazio-mailan, kasu bakoitzeko errenkadak ez dira gizakiek irakurtzeko modukoak, beraz Bigarren Eguneratzeak 100,000 errenkadako taula baten ordez metrikak agregatuak ematen ditu. Goiburuko agregatua behean ageri da; espezialitateko eta herrialdeko banaketak txosten teknikoan eta Figshare gordailuan argitaratzen dira. Ausazko lagin estratifikatua
n = 201 jatorrizko motor-erantzunak (seed deterministikoa ) GitHubeko 20260426direktorioan argitaratzen da ikuskatze-lanerako. results/ Konposite-puntuazioa.
Titularreko puntuazioak ez diguna esaten
Rubrika aurre-erregistratu jakin honen arabera 99,80 ehuneko inguruko puntuazio konposatua, 127 herrialdetan zehar hedatutako 100.000 kasuko anonimizatutako kohorte batean, sabaia ia-ia gainditzen duen errendimendua da — baina arretaz kokatu behar da. Emaitzak V11n iturburu-kodean konprometitu genuen rubrikaren aurrean motoreak izan duen portaera deskribatzen du; ez da motorearen zuzentasunari buruzko aldarrikapen unibertsala, basatian dagoen edozein odol-analisien panel guztietan.
Puntuazioak dio motoreak ebaluazio honetarako hautatutako diagnostiko-ereduak behar bezala kudeatu zituela populazio-mailako kohorte batean, argitaratutako eta erreproduzigarria den metodologia baten bidez. Ez du esaten motorea zuzena denik basatian dagoen edozein odol-analisien panel guztietan. Ez du esaten motoreak ordezkatu behar duenik klinikariaren irizpidea. Eta ez du esaten motoreak gainditzen dituenik beste AI sistema batzuk — beste motoreen aurkako analisi konparatiboak deliberatuki kanpo geratu dira txosten honen esparrutik.
Puntuazioak ezartzen duena oinarrizko lerro bat da. Rubrika eta euskarria publikoak direnez, motorearen etorkizuneko bertsioak rubrika beraren aurrean ebaluatu daitezke — V11 hasierako 15 kasuei aplikatuta, Bigarren Eguneratzean 100.000 kasuko kohortean, edo ondorengo edozein hedapenetan — eta argitaratutako puntuazioaren eta ondorengo edozein exekuzioren arteko aldea bera neurgarria da. Hori da aurre-erregistroaren balioa: errendimenduari buruzko aldarrikapenak probagarriak diren aldarrikapen bihurtzen ditu.
10 minututan erreferentzia hau nola erreproduzitu
Erreprodukzioa egiteko Kantesti API kredentzial-parra besterik ez da behar, eta Python 3.10 edo berriagoa duen ingurunea, honako hauekin: requests eta reportlab liburutegiak instalatuta. Euskarria osorik, MIT lizentziapean argitaratutako Python modulu bakar eta berez-berezkoa da.
Lau urrats exekuzio berri baterako
Bat. Klonatu biltegia: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Bi. Instalatu mendekotasunak honekin: pip install -r requirements.txt (Bigarren Eguneratzeak gehitzen du mysql-connector-python ≥ 8.0 SQL kasuen kargatzailearentzat). Hiru. Ezarri KANTESTI_USERNAME eta KANTESTI_PASSWORD ingurune-bagai gisa motorearen APIarentzat. Bigarren Eguneratzean SQL kasuen kargatzailea erabiltzeko, ezarri ere KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, eta KANTESTI_DB_PASSWORD — kargatzaileak irakurtzeko soilik duen rol baten bidez konektatzen du (bench_reader) identifikatzeko tauluei buruzko pribilegiorik ez duena. Lau. Exekutatu python benchmark_bloodtest.py --limit 100000 Bigarren Eguneratze osorako, edo python benchmark_bloodtest.py --limit 1000 iterazio azkar baterako. Irteerak hona doaz: ./benchmark_results/: herrialdeko eta espezialitateko zutabeak dituen CSV scorecard bat, JSON agregatu bat, ausazko erantzun lagin estratifikatu bat eta Markdown txosten bat.
2026ko apirilaren 23ko (V11 hasierakoa, 15 kasu) eta 2026ko apirilaren 26ko (V11 Bigarren Eguneratzea, 100,000 kasu) erreferentzia-errunaldiak gordetzen dira biltegiaren results/ direktorioan. Errunaldi berri batek denbora-markadun scorecard berri bat sortuko du, erreferentzia-errunaldiak ukitu gabe utzita. Zure errunaldiak emaitza nabarmen desberdina sortzen badu, mesedez ireki GitHub issue bat errunaldiaren denbora-markarekin eta erantzunaren metadatuetan itzulitako motor-bertsioarekin.
Mugak eta etorkizuneko lana
127 herrialdetan 100,000 kasu eginda ere, lau muga hauek aipatzea merezi dute modu esplizituan: luzerako isatsaren herrialdeen azpi-ordezkaritza, ebaluazio bakarreko proba, motor bakarreko esparrua eta datu-iturri bakarretik jatorria. Horietako bakoitza jarraipen-lan aktiboetan ari da lantzen.
Luzerako isatsaren herrialdeen estaldura. Bigarren Eguneratzeak 127 herrialde hartzen ditu, baina banaketa desorekatua da — lehen 10 ekarpenek kasuen ≈66.4% hartzen dute, eta 97 herrialde gehigarriren luzerako isatsak elkarrekin ≈7.3% (gutxi gorabehera 7,300 kasu guztira, herrialde bakoitzeko ~75 batez beste) ematen du. Horrenbestez, luzerako isats horretako herrialdeko konposatuak titularreko datuek iradokitzen dutena baino zaratatsuagoak dira. Etorkizuneko errunaldiak lehentasunez azpi-ordezkatutako herrialdeetatik kontratatuko dira jurisdikzio bakoitzeko estimazioak sendotzeko.
Ebaluazio bakarreko proba (single-shot). Kohorteko kasu bakoitza behin ebaluatu zen. Hizkuntza-eredu handiek irteera-aldakortasun ez-triviala erakusten dute laginketa-tenperatura baxuan ere, beraz, kasu bakoitzeko bost ebaluazio eta jakinarazitako aldakortasuna dituen multi-run protokoloa hurrengo urrats natural bat da — bereziki tranpa-kasu azpimultzoan, non laginketa-zirrikituaren azpian koherentzia segurtasun-aldarrikapenaren parte den.
Engine bakarreko esparrua. Txosten honek motor bakar bat deskribatzen du. Beste AI sistema batzuen aurkako analisi konparatiboak ez daude hemen; baliteke horiek ikerketa independente bereizi gisa egitea, metodologia egokiarekin, MIT lizentziadun euskarriarekin berarekin.
Datu-iturri bakarreko jatorria. 100,000 kasuak anonimizatutako benetako pazienteen erregistroak dira, jatorri bakarreko biltegi kliniko batetik ateratakoak (Kantesti SQL bidezko datu-biltegi klinikoa). Produkzio-fluxu landu bat adierazten dute eta ez dira maila globalean populazio-ordezkaritza duen ausazko lagin bat. Ebaluazioa kanpotik eskuratutako zentro anitzeko datuetara hedatzea bidean dago.
Lau horiez gain, aurreikusitako hedapenik eraginkorrena jurisdikzio bakoitzeko hizkuntza-berdintasuna da. Kantesti AI Engine-ak 75+ hizkuntzatan eskaintzen die zerbitzua erabiltzaileei, eta Bigarren Eguneratze azpi-kohorteak hizkuntzaren arabera estratifikatuta exekutatzeak (turkiera, alemana, gaztelania, frantsesa, italiera, portugesa, arabiera, mandarina) motorrean onartutako hizkuntzetan irteeraren kalitatea kuantifikatuko du. Hizkuntza bakoitzeko analisi estratifikatua bere DOI eta euskarriko adararekin argitaratuko da.