Baliozkotze Klinikoa Aurrez erregistratutako erreferentzia V11 — 2026ko apirila MIT lizentziaduna Parekideek egiaztatzeko modukoa

Kantesti AI Engine — Odol-analisien erreferentzia: Baliozkotze klinikoa zazpi mediku-espezialitatetan zehar

Kantesti AI Enginearen ebaluazio kliniko independente, aurrez erregistratua, odol-analisien kasu anonimizatuetan oinarrituta. Ebaluazio-irizpidea (rubrica) iturburu-kodean izoztuta zegoen lehenengo engine deiaren aurretik; ebaluazio-egitura MIT lizentziaduna da, eta erantzun gordina guztiak argitaratzen dira.

📖 ~14 minutu 📅 2026ko apirilaren 23a 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Argitaratua: 2026ko apirilaren 23a 🩺 Berrikuspen medikoa: 2026ko apirilaren 23a ✅ Aurrez erregistratutako rubrica 🔓 Kodea eta datuak irekita

Ebaluazio kliniko honen gidaritza egin zuen Thomas Klein doktorea, MD, Kantesti AIko Medikuntza Zuzendari Nagusiak (Chief Medical Officer), lankidetzan Julian Emirhan Bulut, Kantesti Ltdko Senior AI Ingeniariak eta CEOak. Metodologia eta rubrica berrikusi zituen Kantesti AI Medikuntzako Aholku Batzordea.

Egile Nagusiak & Klinika gainbegiratzeak

Thomas Klein, doktorea

Kantesti AIko Medikuntza Burua

Dr. Thomas Klein mediku hematologo eta barne-mediku ziurtatua da, eta 15 urte baino gehiagoko esperientzia du laborategiko medikuntzan. Kantesti AIko Medikuntza Zuzendari Nagusi gisa, erreferentzia honetarako kasu-panela hautatu zuen, diagnostikoaren egiazkotasun guztiak berrikusi zituen, eta lehenengo engine deiaren aurretik onartu zuen aurrez erregistratutako rubrica.

ORCID 0009-0009-1490-1321 IkerketaGate Google Scholar

Egilekide & Inplementazioa

Julian Emirhan Bulut

Senior AI Ingeniaria & CEO, Kantesti Ltd

Julian Emirhan Bulut Kantesti Ltd enpresaren sortzailea eta CEOa da. Ebaluazio-egitura diseinatu eta inplementatu zuen, APIaren integrazioa egin zuen, 2026ko apirileko erreferentzia exekuzioa burutu zuen, eta estatistika-bateratzea prestatu zuen. 2019az geroztik plataformaren sortzailea.

GitHub Kantestiri buruz

⚡ Laburpen azkarra V11 — 2026ko apirilaren 23a

99.12% puntuazio konposatua zazpi espezialitate medikotan 15 paziente errealen odol-analisien kasu anonimizatuetan.
Gehiegizko diagnostikoaren faltsu positibo zero bi tranpa-kasutan (Gilbert-en sindromea eta heldu guztiz normal baten baheketa osoa).
Aurrez erregistratutako errubrika iturburu-kodean izoztuta lehenengo motor-deiaren aurretik — ez zen posible post-hoc doikuntzarik.
Mentzer indizea behar bezala aplikatuta burdin-gabeziako anemia beta-talasemia minorretik bereizteko.
Produkzio-amaierako puntua soilik — ez dago pribilegiozko bideratzerik; ordaintzen duen bezero batek bezalaxe ebaluatu da.
20,17 segundoko batez besteko latentzia end-to-end, eta 15 kasuetatik 12 20 segundoko ibilbide nagusiaren helburuaren azpitik.
MIT lizentziadun euskarria GitHuben argitaratua, motor-erantzun gordin guztiekin — erreprodukzio independentea onartzen da.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu eta GitHuben islatuta.

Zergatik existitzen den erreferentzia hau eta zer probatzen duen

AI-laguntzazko odol-analisien interpretazioa gero eta gehiago erabiltzen da kontsumo- eta klinika-arloko lan-fluxuetan; hala ere, laborategiko medikuntzarako egokitutako ebaluazio-esparru erreproduzigarriak ez dira ohikoak. Testuinguru honetan gehien axola duten galderak ez dira mediku-galdera orokorrei erantzuteko erreferentzia orokorrek estaltzen dituztenak: motor batek bereizi al dezake burdin-gabezia talasemia-traitetik bolumen korpuskular ertaina berdina denean? Gehiegi diagnostikatzen al du Gilbert-en sindromea hepatitis gisa? Eta ba al du patologia sortzen baheketa-panel guztiz normal batean?

Odol-analisien panel bakar batek normalean hainbat interpretazio lehiakor onartzeko adina seinale izaten du, eta interpretatzen duen klinikariaren lana da interpretazio horiek elkarrekin pisatzea, testuliburuetako erantzun bat berreskuratu beharrean. Testuliburu-kasuetan ondo aritzen den motor batek oraindik huts egin dezake gehien axola duten kasuetan: diferentzial-diagnostikoaren tranpetan, isolatuta kezkagarriak diruditen aldaera onberetan, eta guztiz normalak diren paneletan, zeinek laguntzaile ziurrei patologia fabrikatzera bultzatzen baitie.

Aurkagai hau porrot-modu horien inguruan eraiki zen. Hamabost kasu horietako bakoitza propietate diagnostiko jakin baterako aukeratu zen: burdin-gabeziak eragindako mikrozitosia, bolumen korpuskular ertain berdina duen beta-talassemia ezaugarritik bereizita mantendu behar dena; Gibert-en sindromearen aurkezpena, non anomalia bakarra zeharkako hiperbilirubinemia isolatua den; eta hamabost parametroko baheketa-panel bat, non analito bakoitza bere erreferentzia-barrutian dagoen. Rubrikak kasu bakoitza bere terminoetan irakurtzen duten motorrei ematen die saria, eta halako diagnostikorik justifikatuta ez dagoenean diagnostiko ziur bat lortzen saiatzen diren motorrei zigortzen die.

Thomas Klein, MD, naizen aldetik, kasu-panel hau aukeratu nuen, hauek baitira laborategiko medikuntzako laguntzaileek gehien okertzen dituzten ereduak. Porrot garestia ez da "gaixotasun arraro bat galtzea" — baizik eta hori ez duten pazienteetan ohiko patologia fabrikatzea. Gure Baliozkotasun Medikoa hubek esparru zabalagoa deskribatzen du; orrialde honek V11 motorrean duen aplikatutako emaitza deskribatzen du.

Azken erreferentziazko exekuzioa — V11 (2026ko apirila)

Kantesti AI Engine V11-en 2026ko apirileko erreferentzia-errunaldiak puntuazio konposatu bat sortu zuen 99.12% hamabost kasuko aurrez erregistratutako rubrikan. Gehiegi-diagnostikatzeko tranpa kasuek sabaian lortu zuten puntuazioa. Mentzer indizea zuzen aplikatu zen burdin-gabeziaren eta talasemiaren arteko diferentzialean.

Konposatua 99.12% 15/15 kasu puntuatu

0.998 Egitura-puntua

0.998 Klinika-puntua

20.17 s Latentzia ertaina

0 / 13 Tranpa faltsu-positiboak

Formula konposatuak hiru osagai konbinatzen ditu: egituraren egokitasuna zazpi derrigorrezko txosten-sekzioekin eta hamasei derrigorrezko azpisekzioekin, zehaztasun klinikoa honela neurtuta: gako-hitzen gogoratzea + puntuazio-sistemaren gogoratzea + probabilitate-banaketa baliozkotasunaren egiaztapena, eta erantzunaren latentzia 20 segundoko zerbitzu-maila nagusiaren helburuaren aurrean. Deskonposizio zehatza beheko rubrika-formulan ageri da.

Konposatua = 0.35 × Egitura + 0.55 × Klinika + 0.10 × Latentzia

Buruko-espazioaren (headroom) gainerako %0,88 puntu ia osorik latentzia-galeran deskonposatzen dira: 2. faseko hiru ordezko (fallback) dei, bakoitza -0,05 konposatuarekin, 0,88 puntuko defizitaren %0,60 inguru ekarri zuten—eduki klinikoan sartu beharrean. Motorra ez zen diagnostiko zuzena galdu kasuetako hamabostetan; huts egin zuenean, dei gutxiengo txiki batean 20 segundoko helburu nagusia baino apur bat luzeagoa izan zelako izan zen.

Bost kasu hamabi espezialitate medikotan

Kasuen panelak zazpi espezialitate hartzen ditu—hematologia, endokrinologia, medikuntza metabolikoa, hepatologia, nefrologia, kardiologia, erreumatologia—eta bi kasu bereizi hiperdiagnostikoaren tranpa (hyperdiagnosis trap) gisa. Kasu bakoitza anonimizatutako benetako paziente-erregistro bat da, idatzizko baimen informatuaren pean, Kantesti datu klinikoen biltegitik hartua.

Identifikazio-ezabatzea (de-identification) Safe Harbor ikuspegiaren arabera egin zen: identifikatzaile zuzen guztiak kendu edo ordezkatu ziren, eta erregistro bakoitzari barne-benchmark kasu-kode bat esleitu zitzaion BT-NNN-LABEL formatuan. Prozesamendua honen arabera egin zen GDPR 9. artikulua 9(2)(j) ikerketa zientifikorako, beharrezko babes-neurriekin, eta Erresuma Batuko GDPR baliokidearen xedapenekin. Argitaratutako harness-ean, txosten teknikoan edo askatutako datu-multzoetan ez da agertzen inongo informazio pertsonal identifikatzailerik.

Hematologia (3) BT-001, BT-006, BT-007 Burdin-gabeziako anemia · B12 gabezia · Beta-talasemia minorra

Endokrinologia (3) BT-002, BT-008, BT-012 Hashimoto-ren tiroiditisa · Intsulinarekiko erresistentziarekin PCOS · D bitamina gabezia larria

Metabolikoa (2) BT-003, BT-013 T2DM sindrome metabolikoarekin · Gota-arriskuarekin hiperurizemia

Hepatologia (2) BT-004, BT-009 NAFLD / NASH · Hepatitis biriko akutua

Nefrologia · Kardiologia · Erreumatologia (3) BT-005, BT-010, BT-011 Giltzurruneko gaixotasun kronikoa (GKG) 3. etapa · Dislipidemia aterogenikoa · Lupus eritematoso sistemikoa

Tranpa-kasuak (2) BT-014, BT-015 Gilbert-en sindromea (zeharkako hiperbilirubinemia isolatua) · Helduen baheketa guztiz normala

Zergatik banaketa zehatz hau

Hematologiak hiru kasu lortzen ditu, mikrozitikoen eta makrozitikoen diferentzialak baitira benetako laborategi-praktikan bolumen handieneko tranpak. Endokrinologiak hiru lortzen ditu, Hashimotoren, PCOSen eta D bitamina gabeziaren aurkezpenek diagnostiko-forma desberdinak lantzen dituztelako (autoantigorputzek bultzatua, hormona-erlazioek bultzatua, markatzaile bakar batek bultzatua). Kasu bakarreko espezialitateek ere badute zentzua, CKD, ASCVD arriskua eta SLE bakoitzak bere puntuazio-sistema duelako eta sistemak deitu behar duelako (KDIGO sailkapena, ASCVD 10 urteko arriskua, eta hurrenez hurren 2019ko EULAR/ACR SLE irizpideak).

Aurrez erregistratutako rubrica, azaldua

Aurre-erregistroa da benchmark honetan aukerarik metodologiko garrantzitsuena. Espero den diagnostiko bakoitza, puntuazio kliniko-sistema bakoitza eta txosten-atal bakoitza iturburu-kodean konprometituta zegoen motorra deitu aurretik. Rubrikaren doikuntza post-hoc-a, beraz, ezinezkoa da motorra laitzeko.

Puntuazio konposatua osatzen duten hiru osagai daude. osagai estrukturala ekoa da eta neurtzen du motorak zazpi derrigorrezko txosten-atalak itzuli dituen ala ez (goiburua, laburpena, aurkikuntza nagusiak, diferentziala, puntuazio-sistemak, gomendioak, jarraipena) eta horien barruan dauden hamasei derrigorrezko azpiatalak. Atal-presentziak pisatzen du eta azpiatal-presentziak egitura-kalkuluaren barruan.

The osagai klinikoa ekoa da eta hiru gauza konbinatzen ditu: diagnostiko-hitz-gakoen oroimena (puntuazio klinikoaren azpiatalaren ), puntuazio-sistemaren oroimena ( — motorak Mentzer, FIB-4, HOMA-IR, ASCVD arriskua, KDIGO sailkapena, eta dagokionean EULAR/ACR irizpideak kalkulatzen dituen), eta probabilitateen batura baliozkotzeko egiaztapena ( — diferentzialaren probabilitateek [90, 110] tartearen barruan batu behar dute). Tranpa-kasuetan, gehiegizko diagnostikoaren zigor esplizitu bat kentzen da, gehienez 0.30: 0.10 kasu bakoitzeko asmatutako patologia-flag batengatik, gehienez hiru flagetara mugatuta.

The latentzia osagaia ekoa da. Erantzun bat 20 segundoren azpitik bada 0.10 osoa lortzen du, 40 segundoren azpitik bada 0.05, eta motelagoa den edozerk zero balio du. 20 segundoko helburuak ekoizpeneko primary-path zerbitzu-mailako helburua islatzen du; 40 segundoko sabaia Phase 2ko atzerako aurrekontua da, motor-inbokazio astunak direnean.

Zer eragozten du aurre-erregistroak

Lehen alderdiaren benchmark-ak gaizki famatuak dira post-hoc rubrikaren doikuntzaren bidez beren zenbakiak puzteko. Eredua ia beti berdina da: taldeak motorra exekutatzen du, non huts egiten duen ikusten du, eta gero isil-isilik doitzen du rubrika, huts egiten duten arloek gutxiago konta dezaten. Rubrika iturburu-kodean konprometitzen bada lehen motor-deia egin aurretik eta euskarria MIT lizentziapean argitaratzen bada, doikuntza hori bertsio-kontrolera ikusgai bihurtzen da. Edonork errepositorioa klonatu, rubrikaren egile-datak egiaztatu, eta motorren emaitzak puntuazioa moldatzeko erabili ez direla baieztatu dezake.

Gehidiagnostikoaren tranpa-kasuak — zergatik den gehiegi deitzea porrot-modu errealena

Patologia gehiegi deitzea pantaila normaletan, kontsumitzaileentzako mediku-laguntzaileetan, dokumentatutako porrot-modu bat da. Horren ondorengo kostuek barne hartzen dituzte ikerketa beharrezkoak ez izatea, pazientearen antsietatea eta iatrogenikoen azterketa egitea. Benchmark-eko bi tranpa-kasuak porrot-modu hori ikusgai eta puntuagarri egiteko diseinatuta daude.

🟡 Tranpa 1 — BT-014-GILBERT

Aurkezpena. 24 urteko gizonezko bat, bilirubina osoa 2.4 mg/dL-koa. Frakzio zuzena normala da, transaminasak eta fosfatasa alkalinoa beren erreferentzia-tarteetan daude, erretikulocitoak ez dira nabarmenak, eta haptoglobinak eta LDH-k hemolisia baztertzen dute.

Interpretazio zuzena. Gilbert-en sindromea — UGT1A1 polimorfismo onbera. Interpretazioak ez luke hepatitisik, zirrosirik, anemia hemolitikorik edo biliar-obstrukziorik deitu behar.

V11 emaitza. Konposatua 1.000. Sei gainadierazpen-flag kontrolatuetatik bat ere ez agertu zen diagnostiko aktibo gisa.

🟡 Tranpa 2 — BT-015-HEALTHY

Aurkezpena. 35 urteko emakumezko bat, hamabost parametroko ohiko baheketa-panela. Analito bakoitza eroso dago bere erreferentzia-tartearen barruan.

Interpretazio zuzena. Ezarpen-laguntza eta bizimoduaren mantentzea. Interpretazioak ez luke patologia mugakide bat asmatu behar, erabilgarri klinikoa emateko.

V11 emaitza. 1.000 osagai-konposatua. Jarraitutako zazpi gehiegizko diagnostikoaren abisu-ikurretatik bat ere ez —diabetesa, anemia, hipotiroidismoa, dislipidemia, hepatitis, giltzurrun-gaixotasuna, gabezia— ez zen diagnostiko aktibo gisa agertu.

Bi tranpetan, hamahiru gehiegizko diagnostikoaren abisu-ikur kontrolatu ziren. Bat ere ez zen aktibatu. Hau da edozein klinikarik AI motor bat triage edo kontsultaren aurreko tresna gisa erabiltzea pentsatzen duenean gehien axola duen emaitza: sistemak ez zuen gaixotasunik asmatu, ez bazegoen.

Mentzer indizea: burdin-gabezia thalassemia ezaugarritik bereiztea

Bigarren aurkikuntza balio handikoa kasu BT-001 (burdin-gabeziako anemia) eta BT-007 kasuarekin (beta-talassemia minor) lotzea da. Biak mikrozitosiarekin agertzen dira, eta oztopo ezagun bat dira sailkatzaile inuzenteentzat. Mentzer indizea, MCV RBC kopuruaren bidez zatituta kalkulatzen dena, 13tik gora dago burdin-gabezian eta 13tik behera jaisten da talasemia ezaugarrian.

BT-001n, pazientea 34 urteko emakumea zen, hemoglobina 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritina 6 ng/mL eta TIBC altua zituena. Gutxi gorabeherako 17,7ko Mentzer indizeak burdin-gabezia absolutua onartzen du. BT-007n, pazientea 28 urteko gizonezkoa zen, mikrozitosiarekin (MCV 65,8 fL), baina RBC kopuru altua 6,2, RDW normala, ferritina normala eta HbA2 5,6 ehunekoa. Gutxi gorabeherako 10,6ko Mentzer indizeak talasemia ezaugarria adierazten du, eta HbA2 altuak beta-talassemia minor baieztatzen du.

Burdin-gabeziako anemia Mentzer > 13 Ferritina baxua, TSAT baxua, TIBC altua, RDW altua

Beta-talassemia ezaugarria Mentzer < 13 Ferritina normala, RDW normala, HbA2 altua (>3,5%), RBC kopuru altua

Bi kasuek 1.000 puntuatu zuten. Motorra Mentzer indizea esplizituki erabili zuen bi interpretazioetan, eta kasu bakoitzean diagnostiko zuzena itzuli zuen. Hau da, benchmark osoan, emaitza klinikoki lasigarriena, izan ere, talasemia ezaugarria burdin-gabeziatzat sailkatzeak burdin-osagarri desegokiak eragiten ditu eta familiako baheketa-aukera batzuk galtzen dira; eta burdin-gabezia talasemia gisa oker sailkatzeak ordezkapen-terapia errazaren atzerapena dakar. Gure ferritina-bitartekoen gidak testuinguru diferentzial zabalagoa azaltzen du.

2026ko apirileko exekuzioaren emaitza kasu bakoitzeko

Hamabost kasuetatik hamabik 1.000eko sabaiko konposatu-puntua lortu zuten bide nagusian. Hiru kasu 2. faseko ordezkoaren bidez zerbitzatu ziren, 0,05eko latentzia-bonusa galduz baina eduki kliniko eta egitura guztia mantenduz. Kasu batek derrigorrezko azpiatal bakar bat falta zuen; batek probabilitate-banaketa batura apur bat murriztuta itzuli zuen.

Kasu ID Espezialitatea Konposatua Latentzia Bidea

BT-001-IDAHematologia1.00017,8 snagusia

BT-006-B12Hematologia1.00018,4 snagusia

BT-007-THALHematologia1.00017,0 snagusia

BT-002-HASHEndokrinologia0.95037,0 sordezko aukera

BT-008-PCOSEndokrinologia0.98718,6 snagusia

BT-003-T2DMMetabolikoa1.00019,1 snagusia

BT-013-GOUTMetabolikoa1.00019,4 snagusia

BT-004-NAFLDHepatologia1.00019,6 snagusia

BT-009-VIRHEPHepatologia0.95023,4 sordezko aukera

BT-014-GILBERTTranpa1.00018,9 snagusia

BT-005-CKDNefrologia1.00017,4 snagusia

BT-010-ASCVDKardiologia1.00019,7 snagusia

BT-011-SLEErreumatologia0.98118,2 snagusia

BT-012-VITDEndokrinologia1.00019,3 snagusia

BT-015-HEALTHYTranpa1.00018,7 sordezko aukera

PCOS kasuak (BT-008) erantzun-egituraren derrigorrezko azpiatal bakar bat galdu zuen — hamaseitik hamabost, hamaseitik hamasei izan beharrean—, eta horrek egitura-puntuazioa 1,000tik 0,963ra murriztu zuen. SLE kasuak (BT-011) probabilitate-banaketaren batura apur bat murriztuta itzuli zuen, eta horrek puntuazio klinikoa 0,965era jaitsi zuen, diagnostiko-gako-hitz eta puntuazio-sistema guztiak mantenduta. Bi kasu perfektutik beherakoek ez zuten diagnostiko zuzena galdu.

Titularreko puntuazioak ez diguna esaten

Rubrika aurre-erregistratu honen arabera 99,12 ehunekoetako puntuazio konposatu batek sabaia ia-ia gainditzen duen errendimendua adierazten du, baina arretaz markatu behar da. Emaitzak ebaluazio honetarako arretaz hautatutako hamabost kasuren aurrean motorrak duen portaera deskribatzen du, kasu bakoitza behin ebaluatuta, rubrika bakar baten pean. Zenbakiak zer ezartzen duen eta zer ez duen argi esaten dugu.

Puntuazioak dio V11 motorrak ebaluazio honetarako hautatutako diagnostiko-ereduak behar bezala kudeatu zituela, argitaratutako eta erreproduzigarria den metodologia baten bidez. Horrek ez du esaten motorra zuzen dagoenik basatian dauden odol-analisien panel guztietan. Ez du esaten motorra klinikariaren iritzia ordezkatu behar duenik. Eta ez du esaten motorra beste AI sistema batzuek baino hobea denik — beste motorren aurkako analisi konparatiboak deliberatuki txosten honen esparrutik kanpo geratu ziren.

Puntuazioak ezartzen duena oinarrizko maila bat da. Rubrika eta euskarria publikoak direnez, motorraren etorkizuneko bertsioak hamabost kasu berberen aurrean ebaluatu daitezke, eta argitaratutako puntuazioaren eta ondorengo edozein exekuzioren arteko aldea bera neurgarria da. Hau da aurre-erregistroaren balioa: errendimenduari buruzko aldarrikapenak probagarriak diren aldarrikapen bihurtzen ditu.

10 minututan erreferentzia hau nola erreproduzitu

Erreprodukzioa egiteko Kantesti API kredentzial-parra besterik ez da behar, eta Python 3.10 edo berriagoa duen ingurunea, honako hauekin: requests eta reportlab liburutegiak instalatuta. Euskarria osorik, MIT lizentziapean argitaratutako Python modulu bakar eta berez-berezkoa da.

💻 GitHub MIT lizentziadun euskarria · erantzun gordinak · erreferentziazko exekuzioa 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · erregistro akademiko kanonikoa 🎓 IkerketaGate 404175463 argitalpena · aurkikuntza-geruza akademikoa 📄 Academia.edu 165956808 papera · aurkikuntza-geruza akademikoa

Lau urrats exekuzio berri baterako

Bat. Klonatu biltegia: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Bi. Instalatu mendekotasunak honekin: pip install -r requirements.txt. Hiru. Ezarri KANTESTI_USERNAME eta KANTESTI_PASSWORD ingurune-baldintza gisa — kredentzialak exekuzioan irakurtzen dira eta ezer ez dago script-ean gogor kodetuta. Lau. Exekutatu python benchmark_bloodtest.py eta aztertu lan-direktorioan igorritako lau artefaktuak: CSV scorecard bat, JSON scorecard bat, JSON dump oso bat (motorren erantzun gordinak barne), eta gizakientzako irakurgarria den Markdown txosten bat.

2026ko apirilaren 23ko erreferentziazko exekuzioa gordeta dago results/ biltegiko direktorioan. Exekuzio berri batek timestamp-dun scorecard berri bat sortuko du, erreferentziazko exekuzioa ukitu gabe utzita. Zure exekuzioak emaitza nabarmen desberdina sortzen badu, mesedez ireki GitHub issue bat exekuzioaren timestamparekin eta erantzunaren metadataan itzulitako engine bertsioarekin.

Mugak eta etorkizuneko lana

Lau muga argi aitortzea merezi dute: lagin-tamaina, ebaluazio bakarreko proba (single-shot), engine bakarreko esparrua, eta datu-iturri bakarreko jatorria. Horietako bakoitza jarraipen-lan aktiboetan ari da lantzen.

Lagin-tamaina. Zortzi espezialitate-kutxatan hamabost kasu nahikoa da froga-kontzepturako, baina ez espezialitate barruko azpitalde-analisi baterako. Berrogeita hamar kasura zabaltzea aurreikusita dago, eta koagulazio-panelak, gaiztotasun hematologikoen baheketa, haurdunaldi-panelak eta pediatriako aurkezpenak barne hartuko ditu.

Ebaluazio bakarreko proba (single-shot). Kasu bakoitza behin ebaluatu zen. Eredu linguistiko handiek irteeraren bariantza ez da hutsala erakusten, nahiz eta laginketa-tenperatura baxua izan; beraz, kasu bakoitzeko bost ebaluazio dituen eta jakinarazitako bariantza duen multi-run protokoloa hurrengo urrats naturala da.

Engine bakarreko esparrua. Txosten honek engine bakar bat deskribatzen du. Beste AI sistema batzuekiko analisi konparatiboak ez daude hemen; baliteke horiek ikerketa independente bereizi gisa egitea, metodologia egokiarekin.

Datu-iturri bakarreko jatorria. Hamabost kasuak benetako pazienteen erregistro anonimizatuak dira, klinika-erregistro bakar batekoak. Aukeratutako lagin bat adierazten dute, eta ez dira ausazko populazio-ordezkaritza duen lagin bat. Ebaluazioa hainbat zentrotara hedatzea bidean dago.

Aurreikusitako hedapenik eraginkorrena hizkuntza anitzeko parekotasuna da. Kantesti AI Engine-ak 75+ hizkuntzatan eskaintzen die zerbitzua erabiltzaileei, eta turkieraz, alemanez, gaztelaniaz, frantsesez eta arabieraz hamabost kasuko harness bera exekutatzeak engine-ak onartzen dituen hizkuntzen artean irteeraren kalitatea kuantifikatuko du. Hizkuntza bakoitzeko exekuzio bakoitza bere DOIarekin eta harness adarrarekin argitaratuko dugu.

Saiatu 99.12% Konposite Score-a lortu zuen Engine bera

Kargatu zure odol-analisien panel propioa ebaluatu zen ekoizpeneko amaierako puntu berean. Mundu osoan 2 milioitik gora erabiltzailek erabiltzen dute Kantesti AI Engine-a, 15.000 biomarkatzaile baino gehiago 75+ hizkuntzatan interpretatzeko.

🔬 Probatu doako demoa

Chrome luzapena Aplikazioen denda Google Play

📚 Nola aipatu erreferentzia-benchmark hau

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Kantesti AI Engine-aren baliozkotze klinikoa (2.78T)
                 15 odol-analisien kasu anonimizatuetan: aurrez erregistratutako
                 rubrika-oinarrizko benchmark bat, hiperdiagnostikoaren tranpa kasuak barne
                 zazpi espezialitate medikoren artean},
  institution = {Kantesti Ltd},
  address     = {London, Erresuma Batua},
  year        = {2026},
  month       = {April},
  type        = {Txosten Teknikoa},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti AI Engine-aren baliozkotze klinikoa (2.78T) 15 odol-analisien kasu anonimizatuetan: aurrez erregistratutako rubrika-oinarrizko benchmark bat, hiperdiagnostikoaren tranpa kasuak barne zazpi espezialitate medikoren artean (Txosten Teknikoa V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Kantesti baliozkotze-lan erlazionatua

Klein, T. (2025). Adimen Artifizialaren Bidezko Odol-Analisten Interpretaziorako Balidazio Klinikoaren Esparrua: Hirukoitz Itsuko Balidazio Metodologia, Errendimendu Metrikak eta Kalitate Bermatzeko Protokoloak. Kantesti AI Medikuntza Ikerketa.

🎓 IkerketaGate

📖 Kanpoko erreferentzia metodologikoak

Mentzer, W. C. (1973). Burdin-gabezia bereiztea talasemia-traitetik. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019ko Europako Erreumatismoaren Aurkako Liga / Amerikako Erreumatologia Kolegioaren sailkapen-irizpideak lupus eritematoso sistemikorako. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Large Language Models-rako mediku-domeinuaren haluzinazio-proba. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Puntuazio konposatua

15Ebaluatutako kasuak

7Espezialitateak

0Tranpa-false positiboak

Maiz egiten diren galderak

Zenbateraino da zehatza Kantesti AI Enginea benetako odol-analisien kasuetan?

Aurrez erregistratutako 15 odol-analisien kasu erreal anonimizatuen rubrika batean, zazpi espezialitate medikoren artean, Kantesti AI Engine V11-ek 99,12 ehuneko-ko puntuazio konposatua lortu zuen, eta tranpa-kasuetan zero hiperdiagnostiko false-positibo izan zituen, baita erantzunaren batez besteko latentzia 20,17 segundokoa ere. Kasu bakoitzeko puntuazio-taula osoa Figsharen argitaratuta dago DOI 10.6084/m9.figshare.32095435 azpian eta GitHub-en MIT lizentziapean.

Kantesti AI Engine-a klinikoki balioztatuta dago?

Bai. Motorra klinikoki baliozkotu da, motorra deitu aurretik iturburu-kodean izoztuta zegoen rubrika baten aurka; hematologian, endokrinologian, medikuntza metabolikoan, hepatologian, nefrologian, kardiologian eta erreumatologian 15 odol-analisiren kasu anonimizatuetan ebaluatu da. Gainbegiratze klinikoa Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) doktoreak eman zuen, Kantesti AI erakundeko zuzendari mediko nagusia eta ziurtatutako hematologo klinikoa.

Zer da hiperdiagnosiaren tranpa kasu bat?

Hiperdiagnosiaren tranpa kasu bat AI motorretan gehiegi diagnostikatzeko portaera detektatzeko berariaz diseinatutako eszenatoki klinikoa da. Kantesti V11 benchmarkak horrelako bi kasu erabiltzen ditu. Lehenengoa Gilbert-en sindromearekin bat datorren zeharkako hiperbilirubinemia isolatua da; interpretazio zuzena hepatitis edo hemolisia baino UGT1A1 polimorfismo onbera da. Bigarrena helduen baheketa-panel guztiz normala da; irteera zuzena lasaitasuna eta bizimoduaren mantentzea da, fabrikatutako muga-azaleko patologia baten ordez.

Kantesti AI Engine ebaluazioa erreproduzigarria al da?

Ebaluazio-euskarri osoa MIT lizentziaren pean argitaratzen da, Python modulu bakar eta bereziki autonomo gisa. Erreproduzitzeko Kantesti API kredentzial-parra eta Python 3.10 edo berriagoa besterik ez dira behar. Kodea, kasuen definizioak, eta 2026ko apirileko erreferentziazko exekuzioaren motor-erantzun gordin guztiak eskuragarri daude github.com/emirhanai/kantesti-blood-test-benchmark helbidean, eta Figshare, ResearchGate eta Academia.edu-n ere islatuta daude.

Nola bereizten du Kantesti AI Engine-ak burdin-gabezia beta-talasemia ezaugarritik?

Motorak Mentzer indizea aplikatzen du, zeina bolumen korpuskular ertaina (mean corpuscular volume) eritrozito-kopuruaren (red blood cell count) bidez zatituta kalkulatzen den. Mentzer indizea 13tik gorakoa bada, burdin-gabeziako anemia onartzen du; 13tik beherakoa bada, beta-talasemia ezaugarriari eusten dio. V11 benchmarkean bi aurkezpenak behar bezala sailkatu ziren Mentzer indizearen kalkulu esplizituarekin, ferritina, RDW eta HbA2 testuinguruarekin lagunduta.

Non dago non aurki dezaket oinarrizko konparazio-datu gordina eta iturburu-kodea?

Txosten teknikoa Figshare-n gordailututa dago DOI 10.6084/m9.figshare.32095435 pean; ResearchGate argitalpen 404175463 eta Academia.edu paper 165956808-n ere islatuta dago, eta MIT lizentziadun Python euskarriaren bidez, erreferentziazko exekuzio-emaitza guztiak barne, github.com/emirhanai/kantesti-blood-test-benchmark helbidean daude. Lau plataformatako ispiluen sareak epe luzerako erabilgarritasuna eta aipamen malgutasuna bermatzen ditu.

Zergatik da garrantzitsua aurre-erregistratzea AI mediku-benchmarketan?

Aurre-erregistratzeak post-hoc rubrika doikuntza eragozten du; hori da enpresa batek gidatutako benchmarkek beren zenbakiak puzteko erabiltzen duten modurik ohikoena. Rubrika iturburu-kodean konprometitzen bada motorra deitu aurretik eta euskarriari publiko egiten bazaio, rubrika-egilearen data-izenak bertsio-kontrolean ikus daitezke, eta motorren emaitzek ezin dute ebaluazio-irizpideak moldatu.

Benchmark honek beste AI motor batzuekiko konparazioak barne hartzen al ditu?

Ez. V11 txostenak deliberatuki motor bakar bat rubrika finko baten aurka karakterizatzen du, ez alternatiba komertzialen aurka kokatzeko. Euskarriaren kodea irekia da MIT lizentziaren pean, beraz ikertzaile independenteek edozein motor ebaluatu dezakete aukeratzen dutenaren arabera, kasu berberak eta rubrika bera erabiliz, eta beren emaitzak argitaratu.

Pazienteen kasuak benetakoak ala sintetikoak dira?

Hamabost kasuak benetako paziente-erregistro anonimizatuak dira, Kantesti datu klinikoen biltegitik jasotakoak, baimen informatu idatziarekin. Desidentifikazioa Safe Harbor ikuspegiaren arabera egin zen, identifikatzaile zuzen guztiak kenduta edo ordezkatuta. Prozesamendua GDPR 9(2)(j) artikuluaren eta Erresuma Batuko GDPR baliokidearen xedapenen arabera egin zen. Ez dago informazio pertsonal identifikatzailerik argitaratutako euskarrian, txosten teknikoan, ezta askatutako datu-multzoetan ere.

⚕️ Medikuntza-ohartarazpena & Interes-gatazka

Benchmark txosten hau ikerketa- eta gardentasun metodologikorako da. Ez da aholku medikorik. Beti kontsultatu osasun-profesional kualifikatu bat diagnostiko- eta tratamendu-erabakietarako. Bi egileak Kantesti Ltd-n enplegatuta daude eta akzio-interesa dute, eta ebaluatzen ari den motorra erakunde beraren produktu komertziala da. Interes-gatazka hori arindu egiten da rubrika iturburu-kodean aurre-erregistratuz, euskarriari MIT lizentziaren pean argitaratuz, eta motor-erantzun gordina dena argitaratuz.

E-E-A-T Konfiantza-seinaleak

⭐

Esperientzia

15+ urteko klinika-hematologia eta laborategiko medikuntza praktika, kasu-panelaren hautapena gainbegiratzen.

📋

Espezializazioa

Rubrika diseinu aurre-erregistratua, hiperdignosiaren zigor esplizituekin eta onartutako puntuazio-sistema klinikoekin (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoritatea

Egile nagusia Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Inplementazioa Julian Emirhan Bulut-ek, Kantesti Ltd-ko zuzendari nagusiak.

🛡️

Fidagarritasuna

MIT lizentziadun erreproduzigarria den euskarri bat, motor-erantzun gordinak argitaratuta, interes-gatazkaren berri emate irekia, lau plataformatako ikerketa-ispilu sarearekin.

🏢 Kantesti LTD Erregistratua Ingalaterran eta Galesen · Enpresa zk. 17090423 Londres, Erresuma Batua · kantesti.net