Zergatik existitzen den erreferentzia hau eta zer probatzen duen

AI-laguntzazko odol-analisien interpretazioa gero eta gehiago erabiltzen da kontsumo- eta klinika-arloko lan-fluxuetan; hala ere, laborategiko medikuntzarako egokitutako ebaluazio-esparru erreproduzigarriak ez dira ohikoak. Testuinguru honetan gehien axola duten galderak ez dira mediku-galdera orokorrei erantzuteko erreferentzia orokorrek estaltzen dituztenak: motor batek bereizi al dezake burdin-gabezia talasemia-traitetik bolumen korpuskular ertaina berdina denean? Gehiegi diagnostikatzen al du Gilbert-en sindromea hepatitis gisa? Eta ba al du patologia sortzen baheketa-panel guztiz normal batean?

Aurrez erregistratutako errubrika-fluxu-diagrama, Kantesti AI Motorra nola ebaluatzen den izoztutako puntuazio-irizpideen aurrean erakusten duena
1. irudia: Erreferentziaren arkitektura — kasu bakoitza, gako-hitz bakoitza, puntuazio-sistema bakoitza finkatuta dago iturburu-kodean motorra PDF bakar bat ikusi aurretik. Post-hoc errubrika-doikuntza ezinezkoa da, diseinuz.

Odol-analisien panel bakar batek normalean hainbat interpretazio lehiakor onartzeko adina seinale izaten du, eta interpretatzen duen klinikariaren lana da interpretazio horiek elkarrekin pisatzea, testuliburuetako erantzun bat berreskuratu beharrean. Testuliburu-kasuetan ondo aritzen den motor batek oraindik huts egin dezake gehien axola duten kasuetan: diferentzial-diagnostikoaren tranpetan, isolatuta kezkagarriak diruditen aldaera onberetan, eta guztiz normalak diren paneletan, zeinek laguntzaile ziurrei patologia fabrikatzera bultzatzen baitie.

Aurkagai hau porrot-modu horien inguruan eraiki zen. Hamabost kasu horietako bakoitza propietate diagnostiko jakin baterako aukeratu zen: burdin-gabeziak eragindako mikrozitosia, bolumen korpuskular ertain berdina duen beta-talassemia ezaugarritik bereizita mantendu behar dena; Gibert-en sindromearen aurkezpena, non anomalia bakarra zeharkako hiperbilirubinemia isolatua den; eta hamabost parametroko baheketa-panel bat, non analito bakoitza bere erreferentzia-barrutian dagoen. Rubrikak kasu bakoitza bere terminoetan irakurtzen duten motorrei ematen die saria, eta halako diagnostikorik justifikatuta ez dagoenean diagnostiko ziur bat lortzen saiatzen diren motorrei zigortzen die.

Thomas Klein, MD, naizen aldetik, kasu-panel hau aukeratu nuen, hauek baitira laborategiko medikuntzako laguntzaileek gehien okertzen dituzten ereduak. Porrot garestia ez da "gaixotasun arraro bat galtzea" — baizik eta hori ez duten pazienteetan ohiko patologia fabrikatzea. Gure Baliozkotasun Medikoa hubek esparru zabalagoa deskribatzen du; orrialde honek V11 motorrean duen aplikatutako emaitza deskribatzen du.

Azken erreferentziazko exekuzioa — V11 (2026ko apirila)

Kantesti AI Engine V11-en 2026ko apirileko erreferentzia-errunaldiak puntuazio konposatu bat sortu zuen 99.12% hamabost kasuko aurrez erregistratutako rubrikan. Gehiegi-diagnostikatzeko tranpa kasuek sabaian lortu zuten puntuazioa. Mentzer indizea zuzen aplikatu zen burdin-gabeziaren eta talasemiaren arteko diferentzialean.

Konposatua 99.12% 15/15 kasu puntuatu
0.998 Egitura-puntua
0.998 Klinika-puntua
20.17 s Latentzia ertaina
0 / 13 Tranpa faltsu-positiboak

Formula konposatuak hiru osagai konbinatzen ditu: egituraren egokitasuna zazpi derrigorrezko txosten-sekzioekin eta hamasei derrigorrezko azpisekzioekin, zehaztasun klinikoa honela neurtuta: gako-hitzen gogoratzea + puntuazio-sistemaren gogoratzea + probabilitate-banaketa baliozkotasunaren egiaztapena, eta erantzunaren latentzia 20 segundoko zerbitzu-maila nagusiaren helburuaren aurrean. Deskonposizio zehatza beheko rubrika-formulan ageri da.

Konposatua = 0.35 × Egitura + 0.55 × Klinika + 0.10 × Latentzia

Buruko-espazioaren (headroom) gainerako %0,88 puntu ia osorik latentzia-galeran deskonposatzen dira: 2. faseko hiru ordezko (fallback) dei, bakoitza -0,05 konposatuarekin, 0,88 puntuko defizitaren %0,60 inguru ekarri zuten—eduki klinikoan sartu beharrean. Motorra ez zen diagnostiko zuzena galdu kasuetako hamabostetan; huts egin zuenean, dei gutxiengo txiki batean 20 segundoko helburu nagusia baino apur bat luzeagoa izan zelako izan zen.

Bost kasu hamabi espezialitate medikotan

Kasuen panelak zazpi espezialitate hartzen ditu—hematologia, endokrinologia, medikuntza metabolikoa, hepatologia, nefrologia, kardiologia, erreumatologia—eta bi kasu bereizi hiperdiagnostikoaren tranpa (hyperdiagnosis trap) gisa. Kasu bakoitza anonimizatutako benetako paziente-erregistro bat da, idatzizko baimen informatuaren pean, Kantesti datu klinikoen biltegitik hartua.

Hamabost odol-analisiren estaldura-mapa, zazpi espezialitate medikotan banatuta, gehi hiperdiagnostikoaren tranpa-kasuak
2. irudia: Kasuen banaketa hematologia, endokrinologia, medikuntza metabolikoa, hepatologia, nefrologia, kardiologia, erreumatologia artean, gehi bi tranpa-kasu—Gilbert-en sindromea eta guztiz normal den baheketa-panela.

Identifikazio-ezabatzea (de-identification) Safe Harbor ikuspegiaren arabera egin zen: identifikatzaile zuzen guztiak kendu edo ordezkatu ziren, eta erregistro bakoitzari barne-benchmark kasu-kode bat esleitu zitzaion BT-NNN-LABEL formatuan. Prozesamendua honen arabera egin zen GDPR 9. artikulua 9(2)(j) ikerketa zientifikorako, beharrezko babes-neurriekin, eta Erresuma Batuko GDPR baliokidearen xedapenekin. Argitaratutako harness-ean, txosten teknikoan edo askatutako datu-multzoetan ez da agertzen inongo informazio pertsonal identifikatzailerik.

Hematologia (3) BT-001, BT-006, BT-007 Burdin-gabeziako anemia · B12 gabezia · Beta-talasemia minorra
Endokrinologia (3) BT-002, BT-008, BT-012 Hashimoto-ren tiroiditisa · Intsulinarekiko erresistentziarekin PCOS · D bitamina gabezia larria
Metabolikoa (2) BT-003, BT-013 T2DM sindrome metabolikoarekin · Gota-arriskuarekin hiperurizemia
Hepatologia (2) BT-004, BT-009 NAFLD / NASH · Hepatitis biriko akutua
Nefrologia · Kardiologia · Erreumatologia (3) BT-005, BT-010, BT-011 Giltzurruneko gaixotasun kronikoa (GKG) 3. etapa · Dislipidemia aterogenikoa · Lupus eritematoso sistemikoa
Tranpa-kasuak (2) BT-014, BT-015 Gilbert-en sindromea (zeharkako hiperbilirubinemia isolatua) · Helduen baheketa guztiz normala

Zergatik banaketa zehatz hau

Hematologiak hiru kasu lortzen ditu, mikrozitikoen eta makrozitikoen diferentzialak baitira benetako laborategi-praktikan bolumen handieneko tranpak. Endokrinologiak hiru lortzen ditu, Hashimotoren, PCOSen eta D bitamina gabeziaren aurkezpenek diagnostiko-forma desberdinak lantzen dituztelako (autoantigorputzek bultzatua, hormona-erlazioek bultzatua, markatzaile bakar batek bultzatua). Kasu bakarreko espezialitateek ere badute zentzua, CKD, ASCVD arriskua eta SLE bakoitzak bere puntuazio-sistema duelako eta sistemak deitu behar duelako (KDIGO sailkapena, ASCVD 10 urteko arriskua, eta hurrenez hurren 2019ko EULAR/ACR SLE irizpideak).

Aurrez erregistratutako rubrica, azaldua

Aurre-erregistroa da benchmark honetan aukerarik metodologiko garrantzitsuena. Espero den diagnostiko bakoitza, puntuazio kliniko-sistema bakoitza eta txosten-atal bakoitza iturburu-kodean konprometituta zegoen motorra deitu aurretik. Rubrikaren doikuntza post-hoc-a, beraz, ezinezkoa da motorra laitzeko.

Puntuazio konposatua osatzen duten hiru osagai daude. osagai estrukturala ekoa da eta neurtzen du motorak zazpi derrigorrezko txosten-atalak itzuli dituen ala ez (goiburua, laburpena, aurkikuntza nagusiak, diferentziala, puntuazio-sistemak, gomendioak, jarraipena) eta horien barruan dauden hamasei derrigorrezko azpiatalak. Atal-presentziak pisatzen du eta azpiatal-presentziak egitura-kalkuluaren barruan.

The osagai klinikoa ekoa da eta hiru gauza konbinatzen ditu: diagnostiko-hitz-gakoen oroimena (puntuazio klinikoaren azpiatalaren ), puntuazio-sistemaren oroimena ( — motorak Mentzer, FIB-4, HOMA-IR, ASCVD arriskua, KDIGO sailkapena, eta dagokionean EULAR/ACR irizpideak kalkulatzen dituen), eta probabilitateen batura baliozkotzeko egiaztapena ( — diferentzialaren probabilitateek [90, 110] tartearen barruan batu behar dute). Tranpa-kasuetan, gehiegizko diagnostikoaren zigor esplizitu bat kentzen da, gehienez 0.30: 0.10 kasu bakoitzeko asmatutako patologia-flag batengatik, gehienez hiru flagetara mugatuta.

The latentzia osagaia ekoa da. Erantzun bat 20 segundoren azpitik bada 0.10 osoa lortzen du, 40 segundoren azpitik bada 0.05, eta motelagoa den edozerk zero balio du. 20 segundoko helburuak ekoizpeneko primary-path zerbitzu-mailako helburua islatzen du; 40 segundoko sabaia Phase 2ko atzerako aurrekontua da, motor-inbokazio astunak direnean.

MIT lizentziadun Kantesti erreferentziazko (benchmark) euskarria martxan dagoela eta kasu bakoitzeko puntuazioak igortzen dituela erakusten duen amaierako pantaila-argazkia
3. irudia: Exekuzioan dagoen euskarria. Kasu bakoitza A4 PDF batean errendatzen da, ekoizpeneko v11 endpoint-era igotzen da, eta rubrika izoztuaren aurka puntuatu egiten da. Erantzun gordina bakoitza scorecard metatuarekin batera gordetzen da.

Zer eragozten du aurre-erregistroak

Lehen alderdiaren benchmark-ak gaizki famatuak dira post-hoc rubrikaren doikuntzaren bidez beren zenbakiak puzteko. Eredua ia beti berdina da: taldeak motorra exekutatzen du, non huts egiten duen ikusten du, eta gero isil-isilik doitzen du rubrika, huts egiten duten arloek gutxiago konta dezaten. Rubrika iturburu-kodean konprometitzen bada lehen motor-deia egin aurretik eta euskarria MIT lizentziapean argitaratzen bada, doikuntza hori bertsio-kontrolera ikusgai bihurtzen da. Edonork errepositorioa klonatu, rubrikaren egile-datak egiaztatu, eta motorren emaitzak puntuazioa moldatzeko erabili ez direla baieztatu dezake.

Gehidiagnostikoaren tranpa-kasuak — zergatik den gehiegi deitzea porrot-modu errealena

Patologia gehiegi deitzea pantaila normaletan, kontsumitzaileentzako mediku-laguntzaileetan, dokumentatutako porrot-modu bat da. Horren ondorengo kostuek barne hartzen dituzte ikerketa beharrezkoak ez izatea, pazientearen antsietatea eta iatrogenikoen azterketa egitea. Benchmark-eko bi tranpa-kasuak porrot-modu hori ikusgai eta puntuagarri egiteko diseinatuta daude.

Alde banako konparazioa: AI naif batek hepatitis faltsutzen du Gilbert-en sindromearen panel batean, Kantesti motorra UGT1A1 polimorfismo kaltegabea behar bezala identifikatzen duen bitartean
4. irudia: Tranpa-kasuen diseinua. Motor batek konfiantzaz Gilbert-en sindromea hepatitis gisa etiketatzen badu, edo guztiz pantaila normal batean patologia mugaz gaindikoak fabrikatzen baditu, zigortu egiten da — ez da saritzen klinikoki entzutea.

🟡 Tranpa 1 — BT-014-GILBERT

Aurkezpena. 24 urteko gizonezko bat, bilirubina osoa 2.4 mg/dL-koa. Frakzio zuzena normala da, transaminasak eta fosfatasa alkalinoa beren erreferentzia-tarteetan daude, erretikulocitoak ez dira nabarmenak, eta haptoglobinak eta LDH-k hemolisia baztertzen dute.

Interpretazio zuzena. Gilbert-en sindromea — UGT1A1 polimorfismo onbera. Interpretazioak ez luke hepatitisik, zirrosirik, anemia hemolitikorik edo biliar-obstrukziorik deitu behar.

V11 emaitza. Konposatua 1.000. Sei gainadierazpen-flag kontrolatuetatik bat ere ez agertu zen diagnostiko aktibo gisa.

🟡 Tranpa 2 — BT-015-HEALTHY

Aurkezpena. 35 urteko emakumezko bat, hamabost parametroko ohiko baheketa-panela. Analito bakoitza eroso dago bere erreferentzia-tartearen barruan.

Interpretazio zuzena. Ezarpen-laguntza eta bizimoduaren mantentzea. Interpretazioak ez luke patologia mugakide bat asmatu behar, erabilgarri klinikoa emateko.

V11 emaitza. 1.000 osagai-konposatua. Jarraitutako zazpi gehiegizko diagnostikoaren abisu-ikurretatik bat ere ez —diabetesa, anemia, hipotiroidismoa, dislipidemia, hepatitis, giltzurrun-gaixotasuna, gabezia— ez zen diagnostiko aktibo gisa agertu.

Bi tranpetan, hamahiru gehiegizko diagnostikoaren abisu-ikur kontrolatu ziren. Bat ere ez zen aktibatu. Hau da edozein klinikarik AI motor bat triage edo kontsultaren aurreko tresna gisa erabiltzea pentsatzen duenean gehien axola duen emaitza: sistemak ez zuen gaixotasunik asmatu, ez bazegoen.

Mentzer indizea: burdin-gabezia thalassemia ezaugarritik bereiztea

Bigarren aurkikuntza balio handikoa kasu BT-001 (burdin-gabeziako anemia) eta BT-007 kasuarekin (beta-talassemia minor) lotzea da. Biak mikrozitosiarekin agertzen dira, eta oztopo ezagun bat dira sailkatzaile inuzenteentzat. Mentzer indizea, MCV RBC kopuruaren bidez zatituta kalkulatzen dena, 13tik gora dago burdin-gabezian eta 13tik behera jaisten da talasemia ezaugarrian.

BT-001n, pazientea 34 urteko emakumea zen, hemoglobina 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritina 6 ng/mL eta TIBC altua zituena. Gutxi gorabeherako 17,7ko Mentzer indizeak burdin-gabezia absolutua onartzen du. BT-007n, pazientea 28 urteko gizonezkoa zen, mikrozitosiarekin (MCV 65,8 fL), baina RBC kopuru altua 6,2, RDW normala, ferritina normala eta HbA2 5,6 ehunekoa. Gutxi gorabeherako 10,6ko Mentzer indizeak talasemia ezaugarria adierazten du, eta HbA2 altuak beta-talassemia minor baieztatzen du.

Burdin-gabeziako anemia Mentzer > 13 Ferritina baxua, TSAT baxua, TIBC altua, RDW altua
Beta-talassemia ezaugarria Mentzer < 13 Ferritina normala, RDW normala, HbA2 altua (>3,5%), RBC kopuru altua

Bi kasuek 1.000 puntuatu zuten. Motorra Mentzer indizea esplizituki erabili zuen bi interpretazioetan, eta kasu bakoitzean diagnostiko zuzena itzuli zuen. Hau da, benchmark osoan, emaitza klinikoki lasigarriena, izan ere, talasemia ezaugarria burdin-gabeziatzat sailkatzeak burdin-osagarri desegokiak eragiten ditu eta familiako baheketa-aukera batzuk galtzen dira; eta burdin-gabezia talasemia gisa oker sailkatzeak ordezkapen-terapia errazaren atzerapena dakar. Gure ferritina-bitartekoen gidak testuinguru diferentzial zabalagoa azaltzen du.

2026ko apirileko exekuzioaren emaitza kasu bakoitzeko

Hamabost kasuetatik hamabik 1.000eko sabaiko konposatu-puntua lortu zuten bide nagusian. Hiru kasu 2. faseko ordezkoaren bidez zerbitzatu ziren, 0,05eko latentzia-bonusa galduz baina eduki kliniko eta egitura guztia mantenduz. Kasu batek derrigorrezko azpiatal bakar bat falta zuen; batek probabilitate-banaketa batura apur bat murriztuta itzuli zuen.

Kasu ID Espezialitatea Konposatua Latentzia Bidea
BT-001-IDAHematologia1.00017,8 snagusia
BT-006-B12Hematologia1.00018,4 snagusia
BT-007-THALHematologia1.00017,0 snagusia
BT-002-HASHEndokrinologia0.95037,0 sordezko aukera
BT-008-PCOSEndokrinologia0.98718,6 snagusia
BT-003-T2DMMetabolikoa1.00019,1 snagusia
BT-013-GOUTMetabolikoa1.00019,4 snagusia
BT-004-NAFLDHepatologia1.00019,6 snagusia
BT-009-VIRHEPHepatologia0.95023,4 sordezko aukera
BT-014-GILBERTTranpa1.00018,9 snagusia
BT-005-CKDNefrologia1.00017,4 snagusia
BT-010-ASCVDKardiologia1.00019,7 snagusia
BT-011-SLEErreumatologia0.98118,2 snagusia
BT-012-VITDEndokrinologia1.00019,3 snagusia
BT-015-HEALTHYTranpa1.00018,7 sordezko aukera

PCOS kasuak (BT-008) erantzun-egituraren derrigorrezko azpiatal bakar bat galdu zuen — hamaseitik hamabost, hamaseitik hamasei izan beharrean—, eta horrek egitura-puntuazioa 1,000tik 0,963ra murriztu zuen. SLE kasuak (BT-011) probabilitate-banaketaren batura apur bat murriztuta itzuli zuen, eta horrek puntuazio klinikoa 0,965era jaitsi zuen, diagnostiko-gako-hitz eta puntuazio-sistema guztiak mantenduta. Bi kasu perfektutik beherakoek ez zuten diagnostiko zuzena galdu.

Titularreko puntuazioak ez diguna esaten

Rubrika aurre-erregistratu honen arabera 99,12 ehunekoetako puntuazio konposatu batek sabaia ia-ia gainditzen duen errendimendua adierazten du, baina arretaz markatu behar da. Emaitzak ebaluazio honetarako arretaz hautatutako hamabost kasuren aurrean motorrak duen portaera deskribatzen du, kasu bakoitza behin ebaluatuta, rubrika bakar baten pean. Zenbakiak zer ezartzen duen eta zer ez duen argi esaten dugu.

Puntuazioak dio V11 motorrak ebaluazio honetarako hautatutako diagnostiko-ereduak behar bezala kudeatu zituela, argitaratutako eta erreproduzigarria den metodologia baten bidez. Horrek ez du esaten motorra zuzen dagoenik basatian dauden odol-analisien panel guztietan. Ez du esaten motorra klinikariaren iritzia ordezkatu behar duenik. Eta ez du esaten motorra beste AI sistema batzuek baino hobea denik — beste motorren aurkako analisi konparatiboak deliberatuki txosten honen esparrutik kanpo geratu ziren.

Puntuazioak ezartzen duena oinarrizko maila bat da. Rubrika eta euskarria publikoak direnez, motorraren etorkizuneko bertsioak hamabost kasu berberen aurrean ebaluatu daitezke, eta argitaratutako puntuazioaren eta ondorengo edozein exekuzioren arteko aldea bera neurgarria da. Hau da aurre-erregistroaren balioa: errendimenduari buruzko aldarrikapenak probagarriak diren aldarrikapen bihurtzen ditu.

10 minututan erreferentzia hau nola erreproduzitu

Erreprodukzioa egiteko Kantesti API kredentzial-parra besterik ez da behar, eta Python 3.10 edo berriagoa duen ingurunea, honako hauekin: requests eta reportlab liburutegiak instalatuta. Euskarria osorik, MIT lizentziapean argitaratutako Python modulu bakar eta berez-berezkoa da.

Errepikagarritasun-sarearen diagrama, erreferentziazko (benchmark) edukia Figshare, ResearchGate, Academia.edu eta GitHuben islatuta erakusten duena, Figshare DOIa aingura kanoniko gisa
5. irudia: Etalongaia lau ikerketa-plataformatan islatuta dago. Figshare DOI identifikatzaile akademiko kanonikoa da; ResearchGate, Academia.edu eta GitHubek kopia paraleloak eta kodea zein datu gordina ostatzen dituzte.

Lau urrats exekuzio berri baterako

Bat. Klonatu biltegia: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Bi. Instalatu mendekotasunak honekin: pip install -r requirements.txt. Hiru. Ezarri KANTESTI_USERNAME eta KANTESTI_PASSWORD ingurune-baldintza gisa — kredentzialak exekuzioan irakurtzen dira eta ezer ez dago script-ean gogor kodetuta. Lau. Exekutatu python benchmark_bloodtest.py eta aztertu lan-direktorioan igorritako lau artefaktuak: CSV scorecard bat, JSON scorecard bat, JSON dump oso bat (motorren erantzun gordinak barne), eta gizakientzako irakurgarria den Markdown txosten bat.

2026ko apirilaren 23ko erreferentziazko exekuzioa gordeta dago results/ biltegiko direktorioan. Exekuzio berri batek timestamp-dun scorecard berri bat sortuko du, erreferentziazko exekuzioa ukitu gabe utzita. Zure exekuzioak emaitza nabarmen desberdina sortzen badu, mesedez ireki GitHub issue bat exekuzioaren timestamparekin eta erantzunaren metadataan itzulitako engine bertsioarekin.

Mugak eta etorkizuneko lana

Lau muga argi aitortzea merezi dute: lagin-tamaina, ebaluazio bakarreko proba (single-shot), engine bakarreko esparrua, eta datu-iturri bakarreko jatorria. Horietako bakoitza jarraipen-lan aktiboetan ari da lantzen.

Lagin-tamaina. Zortzi espezialitate-kutxatan hamabost kasu nahikoa da froga-kontzepturako, baina ez espezialitate barruko azpitalde-analisi baterako. Berrogeita hamar kasura zabaltzea aurreikusita dago, eta koagulazio-panelak, gaiztotasun hematologikoen baheketa, haurdunaldi-panelak eta pediatriako aurkezpenak barne hartuko ditu.

Ebaluazio bakarreko proba (single-shot). Kasu bakoitza behin ebaluatu zen. Eredu linguistiko handiek irteeraren bariantza ez da hutsala erakusten, nahiz eta laginketa-tenperatura baxua izan; beraz, kasu bakoitzeko bost ebaluazio dituen eta jakinarazitako bariantza duen multi-run protokoloa hurrengo urrats naturala da.

Engine bakarreko esparrua. Txosten honek engine bakar bat deskribatzen du. Beste AI sistema batzuekiko analisi konparatiboak ez daude hemen; baliteke horiek ikerketa independente bereizi gisa egitea, metodologia egokiarekin.

Datu-iturri bakarreko jatorria. Hamabost kasuak benetako pazienteen erregistro anonimizatuak dira, klinika-erregistro bakar batekoak. Aukeratutako lagin bat adierazten dute, eta ez dira ausazko populazio-ordezkaritza duen lagin bat. Ebaluazioa hainbat zentrotara hedatzea bidean dago.

Aurreikusitako hedapenik eraginkorrena hizkuntza anitzeko parekotasuna da. Kantesti AI Engine-ak 75+ hizkuntzatan eskaintzen die zerbitzua erabiltzaileei, eta turkieraz, alemanez, gaztelaniaz, frantsesez eta arabieraz hamabost kasuko harness bera exekutatzeak engine-ak onartzen dituen hizkuntzen artean irteeraren kalitatea kuantifikatuko du. Hizkuntza bakoitzeko exekuzio bakoitza bere DOIarekin eta harness adarrarekin argitaratuko dugu.