Zergatik existitzen den erreferentzia hau eta zer probatzen duen

AI-laguntzazko odol-analisien interpretazioa gero eta gehiago erabiltzen da kontsumo- eta klinika-arloko lan-fluxuetan; hala ere, laborategiko medikuntzarako egokitutako ebaluazio-esparru erreproduzigarriak ez dira ohikoak. Testuinguru honetan gehien axola duten galderak ez dira mediku-galdera orokorrei erantzuteko erreferentzia orokorrek estaltzen dituztenak: motor batek bereizi al dezake burdin-gabezia talasemia-traitetik bolumen korpuskular ertaina berdina denean? Gehiegi diagnostikatzen al du Gilbert-en sindromea hepatitis gisa? Eta ba al du patologia sortzen baheketa-panel guztiz normal batean?

Aldez aurretik erregistratutako rubrikaren fluxu-diagrama, erakusten duena nola ebaluatzen den Kantesti AI Engine — V11 Bigarren Eguneratzea, 99.80% konposatuaren puntuazioa 100,000 kasutan — puntuazio-irizpide izoztuen aurka
1. irudia: V11 hasierako bertsioaren atzean dagoen erreferentziazko arkitektura 99.80% puntuazio konposatua V11 Bigarren Eguneratzean 100.000 kasuko kohortean — kasu bakoitza, gako-hitz bakoitza, puntuazio-sistema bakoitza iturburu-kodean finkatuta dago motorra PDF bakar bat ikusi aurretik, eta rubrika byte-identikoa da V11 hasierako argitalpenarekin. Rubrikaren doikuntza post-hoc ezinezkoa da, diseinuz.

Odol-analisien panel bakar batek normalean hainbat interpretazio lehiakor onartzeko adina seinale izaten du, eta interpretatzen duen klinikariaren lana da interpretazio horiek elkarrekin pisatzea, testuliburuetako erantzun bat berreskuratu beharrean. Testuliburu-kasuetan ondo aritzen den motor batek oraindik huts egin dezake gehien axola duten kasuetan: diferentzial-diagnostikoaren tranpetan, isolatuta kezkagarriak diruditen aldaera onberetan, eta guztiz normalak diren paneletan, zeinek laguntzaile ziurrei patologia fabrikatzera bultzatzen baitie.

Aurkagai hau porrot-modu horien inguruan eraiki zen. Hamabost kasu horietako bakoitza propietate diagnostiko jakin baterako aukeratu zen: burdin-gabeziak eragindako mikrozitosia, bolumen korpuskular ertain berdina duen beta-talassemia ezaugarritik bereizita mantendu behar dena; Gibert-en sindromearen aurkezpena, non anomalia bakarra zeharkako hiperbilirubinemia isolatua den; eta hamabost parametroko baheketa-panel bat, non analito bakoitza bere erreferentzia-barrutian dagoen. Rubrikak kasu bakoitza bere terminoetan irakurtzen duten motorrei ematen die saria, eta halako diagnostikorik justifikatuta ez dagoenean diagnostiko ziur bat lortzen saiatzen diren motorrei zigortzen die.

Thomas Klein, MD, naizen aldetik, kasu-panel hau aukeratu nuen, hauek baitira laborategiko medikuntzako laguntzaileek gehien okertzen dituzten ereduak. Porrot garestia ez da "gaixotasun arraro bat galtzea" — baizik eta hori ez duten pazienteetan ohiko patologia fabrikatzea. Gure Baliozkotasun Medikoa hubek esparru zabalagoa deskribatzen du; orrialde honek V11 hasierako froga-kontzeptua eta V11 Bigarren Eguneratzea deskribatzen ditu, hura 100,000 kasu sintetikora eskalatuz, 127 herrialde-etiketetan zehar hedatutako kasu multzo sintetikotik abiatuta — puntuazio-errubrika bera erabiliz, byte-identikoa, eta ez da onartzen post-hoc doikuntzarik.

Azken erreferentziazko exekuzioa — V11 Bigarren Eguneratzea (2026ko apirilaren 26a)

2026ko apirilaren 26ko V11 Bigarren Eguneratze erreferentziazko exekuzioak puntuazio konposatu bat sortu zuen 99.80% V11 hasierako argitalpenean erabilitako aurrez erregistratutako rubrika berean ebaluatua, 100,000 kasu sintetiko Kantesti kasu multzo sintetikotik hartuta eta zehar hedatuta 127 herrialde-etiketa eta 75+ hizkuntzetan zehar. Kasu bakoitza motorraren ibilbide nagusian amaitu zen; trap-kasuen hiperdiagnostikoaren hiperdiagnostikoaren bandera aktibazioak geratu ziren 0 / 87,412. 2026ko apirilaren 23ko jatorrizko V11 exekuzioak 15 eskuz aukeratutako kasu estali zituen (puntuazio konposatua 99.12%) eta rubrika baliozkotu zuen; Bigarren Eguneratzeak rubrika byte-identiko mantentzen du eta ebaluazioa populazio-mailako kohorte batera hedatzen du.

Konposatua 99.80% 100.000 kasuetatik 100.000ek puntuazioa lortu zuten
1.000 Egitura-puntua
0.996 Klinika-puntua
13.26 s Latentzia ertaina
0 / 87,412 Tranpa faltsu-positiboak

Formula konposatuak hiru osagai konbinatzen ditu: egituraren egokitasuna zazpi derrigorrezko txosten-sekzioekin eta hamasei derrigorrezko azpisekzioekin, edukien zehaztasuna honela neurtuta: gako-hitzen gogoratzea + puntuazio-sistemaren gogoratzea + probabilitate-banaketa baliozkotasunaren egiaztapena, eta erantzunaren latentzia ibilbide nagusiko zerbitzu-mailako helburuaren aurka. Beheko rubrika-formulan ageri da deskonposizio zehatza — ez pisu horiek ez azpi-rubrikak ez ziren aldatu Bigarren Eguneratzearentzat.

Konposatua = 0.35 × Egitura + 0.55 × Klinika + 0.10 × Latentzia

Edukiera-espazioaren gainerako 0.20 ehuneko-puntuek ia osorik klinikako azpi-puntuaziora deskonposatzen dira — kasu gutxi batzuek (batez ere Hepatologia eta Erreumatologia arloetan) espero zen puntuazio-sistemako gako-hitz bat falta zuten motorraren interpretazioan, diagnostiko-edukia zuzena izan arren. 100.000 kasuko Bigarren Eguneratze kohorteko kasu bakar batek ere ez zuen galdu diagnostikoa bera. Latentzia hobetu egin zen V11 hasierako argitalpenean batez beste 20.17 s-tik Bigarren Eguneratzean 13.26 s-ra; bi exekuzioen arteko ekoizpen-motorraren optimizazioak islatzen ditu horrek; rubrika, puntuazio-kodea eta API amaierako puntua aldatu gabe daude.

Etiketa bakoitzeko puntuazio konposatuak 0.9971 eta 0.9985 artean ibili ziren 30 herrialde-etiketa gehien ordezkatutakoetan. 97 etiketa gehigarriren isats luzeak (≈7,300 kasu guztira) ez zuen narriadura sistematikorik erakutsi. Kasu-kopuruaren arabera etiketarik ohikoenak hauek izan ziren: Estatu Batuak (10,500), Brasil (9,500), Espainia (9,000), Italia (8,000), Alemania (7,800), Frantzia (7,400), Portugal (5,800), Türkiye (3,400), Erresuma Batua (2,900) eta Mexiko (2,500).

15 kasutik 100,000ra: kohortearen bilakaera 127 herrialde-etiketetan zehar

Jatorrizko V11 kasu-panela zazpi espezialitatetan zegoen — hematologia, endokrinologia, medikuntza metabolikoa, hepatologia, nefrologia, kardiologia, erreumatologia — eta bi hipodiagnostiko tranpa kasu espezifikorekin; kasu bakoitza odol-analisiko panel sintetikoki sortu batez osatua zen. V11 Bigarren Eguneratzeak ebaluazioa hedatzen du 100,000 kasu sintetikotan 127 herrialde-etiketetan zehar, zortzi espezialitatetan banatuta (jatorrizko zazpiak plus barne-medikuntzako ontzi espezifiko bat, trap azpimultzoa xurgatzen duena). Puntuazio-rubrika bera aplikatzen da byte-identikoki bi exekuzioetan.

V11 hasierako kasu-panelaren diseinua — zazpi espezialitate medikotan zeharreko hamabost odol-proba kasu sintetiko, gehi bi hiperdignostiko tranpa-kasu; rubrika bera 99.80% konposatu puntuaziora iritsi zen V11 Bigarren Eguneratzean 100.000 kasutan
2. irudia: V11 hasierako kasu-panelaren diseinua hematologia, endokrinologia, medikuntza metabolikoa, hepatologia, nefrologia, kardiologia, erreumatologia arloetan, plus bi trap kasu — Gilbert-en sindromea eta guztiz normal den baheketa-panel bat. Bigarren Eguneratzeak rubrika hau byte-identiko mantentzen du, eta kohortea 100.000 kasura hedatzen du Kantesti SQL biltegitik ateratakoekin.

Kasu guztiak sintetikoki sortuak direnez, ez dago kentzeko identifikatzaile errealik eta ez dago datu pertsonalik inplikatuta. Kasu sintetikoko bakoitzak erreferentzia barruko kasu-kode bat darama (BT-NNN-LABEL V11 hasierako multzoan, egonkorra case_uid Bigarren Eguneratzean). Ez da datu pertsonalik agertzen argitaratutako egituran, txosten teknikoan, ezta kaleratutako datu-multzoetan ere.

V11 hasierako argitalpena — 15 eskuz aukeratutako kasu

Jatorrizko V11 kasu-panela Dr. Thomas Klein-ek eskuz aukeratu zuen, laborategiko medikuntzako laguntzaileek gehienetan gaizki interpretatzen dituzten diagnostiko-ereduak lantzeko. Hamabost kasu bakoitza behean zerrendatutako diagnostiko-ezaugarri zehatz baterako aukeratu zen.

Hematologia (3) BT-001, BT-006, BT-007 Burdin-gabeziako anemia · B12 gabezia · Beta-talasemia minorra
Endokrinologia (3) BT-002, BT-008, BT-012 Hashimoto-ren tiroiditisa · Intsulinarekiko erresistentziarekin PCOS · D bitamina gabezia larria
Metabolikoa (2) BT-003, BT-013 T2DM sindrome metabolikoarekin · Gota-arriskuarekin hiperurizemia
Hepatologia (2) BT-004, BT-009 NAFLD / NASH · Hepatitis biriko akutua
Nefrologia · Kardiologia · Erreumatologia (3) BT-005, BT-010, BT-011 Giltzurruneko gaixotasun kronikoa (GKG) 3. etapa · Dislipidemia aterogenikoa · Lupus eritematoso sistemikoa
Tranpa-kasuak (2) BT-014, BT-015 Gilbert-en sindromea (zeharkako hiperbilirubinemia isolatua) · Helduen baheketa guztiz normala

Zergatik banaketa zehatz hau

Hematologiak hiru kasu lortzen ditu, mikrozitikoen eta makrozitikoen diferentzialak baitira benetako laborategi-praktikan bolumen handieneko tranpak. Endokrinologiak hiru lortzen ditu, Hashimotoren, PCOSen eta D bitamina gabeziaren aurkezpenek diagnostiko-forma desberdinak lantzen dituztelako (autoantigorputzek bultzatua, hormona-erlazioek bultzatua, markatzaile bakar batek bultzatua). Kasu bakarreko espezialitateek ere badute zentzua, CKD, ASCVD arriskua eta SLE bakoitzak bere puntuazio-sistema duelako eta sistemak deitu behar duelako (KDIGO sailkapena, ASCVD 10 urteko arriskua, eta hurrenez hurren 2019ko EULAR/ACR SLE irizpideak).

V11 Bigarren Eguneratzea — 100,000 kasu sintetikotan 127 herrialde-etiketetan zehar

Bigarren Eguneratzeak jatorrizko V11n gogor kodetutako 15 kasuko Python literal-a ordezkatzen du, handiagoa den eta programatikoki sortutako kasu multzo sintetikoz. Kasu multzoa exekuzio bakoitzaren hasieran kargatzen da eta konfigurazioa gardentasunerako erregistratzen da. Eduki-arloaren araberako kohortearen banaketa behean ageri da.

Endokrinologia 23.900 kasu (23,9%) Tiroidea, PCOS, D bitamina, ardatz gonadala, hipofisia
Medikuntza metabolikoa 21.900 kasu (21,9%) T2DM, sindrome metabolikoa, lipido-panelak, hiperurizemia
Hematologia 15.400 kasu (15,4%) Diferentzial mikrozitiko eta makrozitikoak, B12/folatoa, burdinaren azterlanak
Hepatologia 12.400 kasu (12,4%) NAFLD/NASH, hepatitis birikoa, FIB-4, kolestasia
Barne-medikuntza (trap azpimultzoa barne) 9.000 kasu (9,0%) Aurkezpen mistoak eta 8.723 hiperdiagnostiko tranpa-kasu espezializatu
Kardiologia 7.500 kasu (7,5%) ASCVD arriskua, dislipidemia aterogenoa, hs-CRP
Erreumatologia 6.000 kasu (6,0%) SLE, RA, baskulitisa, autoantigorputz-panelak (EULAR/ACR irizpideak)
Nefrologia 4.000 kasu (4,0%) CKD sailkapena (KDIGO), eGFR joerak, elektrolito-nahasmendua

Banaketa sintetikoko herrialde-etiketak — 10 etiketa nagusiak

100,000 kasu sintetikok 127 herrialde-etiketa daramatzate (ISO 3166-1 alpha-2), localearen kudeaketa ariketa egiteko. Etiketa-esleipena: Europa 57.7%, Amerikak 25.4%, Asia-Pazifikoa 6.2%, Ekialde Ertaina/Afrika izendatutako etiketak 3.4%, eta 97 etiketa gehigarriren isats luze bat, gutxi gorabehera 7.3% guztira. Kasu-kopuruaren arabera hamar etiketa ohikoenak hauek dira: Estatu Batuak (10,500), Brasil (9,500), Espainia (9,000), Italia (8,000), Alemania (7,800), Frantzia (7,400), Portugal (5,800), Türkiye (3,400), Erresuma Batua (2,900) eta Mexiko (2,500). Etiketa bakoitzeko puntuazio konposatuak 0.9971 eta 0.9985 artean ibili ziren. Etiketa-kontu hauek localearen kudeaketa ariketa egiteko sortutako kasuen propietateak dira — ez dira erabiltzaile errealak eta ez dute benetako mundu-mailako estaldura geografikorik.

Aurrez erregistratutako rubrica, azaldua

Aurre-erregistroa da benchmark honetan aukerarik metodologiko garrantzitsuena. Espero den diagnostiko bakoitza, puntuazio kliniko-sistema bakoitza eta txosten-atal bakoitza iturburu-kodean konprometituta zegoen motorra deitu aurretik. Rubrikaren doikuntza post-hoc-a, beraz, ezinezkoa da motorra laitzeko.

Puntuazio konposatua osatzen duten hiru osagai daude. osagai estrukturala ekoa da eta neurtzen du motorak zazpi derrigorrezko txosten-atalak itzuli dituen ala ez (goiburua, laburpena, aurkikuntza nagusiak, diferentziala, puntuazio-sistemak, gomendioak, jarraipena) eta horien barruan dauden hamasei derrigorrezko azpiatalak. Atal-presentziak pisatzen du eta azpiatal-presentziak egitura-kalkuluaren barruan.

The osagai klinikoa ekoa da eta hiru gauza konbinatzen ditu: diagnostiko-hitz-gakoen oroimena (puntuazio klinikoaren azpiatalaren ), puntuazio-sistemaren oroimena ( — motorak Mentzer, FIB-4, HOMA-IR, ASCVD arriskua, KDIGO sailkapena, eta dagokionean EULAR/ACR irizpideak kalkulatzen dituen), eta probabilitateen batura baliozkotzeko egiaztapena ( — diferentzialaren probabilitateek [90, 110] tartearen barruan batu behar dute). Tranpa-kasuetan, gehiegizko diagnostikoaren zigor esplizitu bat kentzen da, gehienez 0.30: 0.10 kasu bakoitzeko asmatutako patologia-flag batengatik, gehienez hiru flagetara mugatuta.

The latentzia osagaia ekoa da. Erantzun bat 20 segundoren azpitik bada 0.10 osoa lortzen du, 40 segundoren azpitik bada 0.05, eta motelagoa den edozerk zero balio du. 20 segundoko helburuak ekoizpeneko primary-path zerbitzu-mailako helburua islatzen du; 40 segundoko sabaia Phase 2ko atzerako aurrekontua da, motor-inbokazio astunak direnean.

MIT lizentziadun Kantesti benchmark euskarria exekutatzen eta kasuz kasuko puntuazioak igortzen dituen amaierako pantaila-argazkia — euskarria bera, orain SQL bidez gidatua, 99.80% konposatu puntuazioa sortu zuen V11 Bigarren Eguneratzean 100,000 kasuko exekuzioan
3. irudia: Exekuzioan dagoen euskarria — sortu zuen motor bera 99.80% konposatua V11 Bigarren Eguneratzean 100,000 kasuko kohortean. Kasu bakoitza A4 PDF batean errendatzen da, ekoizpeneko v11 amaierako puntura igotzen da, eta aurrez izoztutako errubrikaren aurka puntuatu egiten da. Bigarren Eguneratzeak parametro bidezko SQL kasuen kargatzailea gehitu zuen; jatorrizko motor-erantzunen ausazko lagin estratifikatua (n = 201) gordetzen da, puntuazio-taula agregatuarekin batera.

Zer eragozten du aurre-erregistroak

Lehen alderdiaren benchmark-ak gaizki famatuak dira post-hoc rubrikaren doikuntzaren bidez beren zenbakiak puzteko. Eredua ia beti berdina da: taldeak motorra exekutatzen du, non huts egiten duen ikusten du, eta gero isil-isilik doitzen du rubrika, huts egiten duten arloek gutxiago konta dezaten. Rubrika iturburu-kodean konprometitzen bada lehen motor-deia egin aurretik eta euskarria MIT lizentziapean argitaratzen bada, doikuntza hori bertsio-kontrolera ikusgai bihurtzen da. Edonork errepositorioa klonatu, rubrikaren egile-datak egiaztatu, eta motorren emaitzak puntuazioa moldatzeko erabili ez direla baieztatu dezake.

Gehidiagnostikoaren tranpa-kasuak — zergatik den gehiegi deitzea porrot-modu errealena

Patologia gehiegi deitzea pantaila normaletan, kontsumitzaileentzako mediku-laguntzaileetan, dokumentatutako porrot-modu bat da. Horren ondorengo kostuek barne hartzen dituzte ikerketa beharrezkoak ez izatea, pazientearen antsietatea eta iatrogenikoen azterketa egitea. Benchmark-eko bi tranpa-kasuak porrot-modu hori ikusgai eta puntuagarri egiteko diseinatuta daude.

Alde-aldiko konparazioa: AI naif batek hepatitis bat asmatzen du Gilbert-en sindrome panel batean, Kantesti motorrak UGT1A1 polimorfismo onbera behar bezala identifikatzen duenaren aurka — metodologia honek zero faltsu-positibo lortu zituen 87,412 tranpa-alerta aukeretan V11 Bigarren Eguneratze 99.80% benchmarkean
4. irudia: V11 hasierako argitalpeneko tranpa-kasuaren diseinua — motor batek konfiantzaz etiketatzen badu Gilbert-en sindromea hepatitis gisa, edo pantaila guztiz normal batean patologia mugaz gaindiko bat fabrikatzen badu, zigorra jasotzen du klinikoa entzuteagatik saritua izan beharrean. Metodologia honek eskalatu egin zuen 0 / 87,412 faltsu-positiboetara V11 Bigarren Eguneratzean 100,000 kasuko exekuzioan, 99.80% konposite-puntuazioa sortu zuena.

🟡 Tranpa 1 — BT-014-GILBERT

Aurkezpena. 24 urteko gizonezko bat, bilirubina osoa 2.4 mg/dL-koa. Frakzio zuzena normala da, transaminasak eta fosfatasa alkalinoa beren erreferentzia-tarteetan daude, erretikulocitoak ez dira nabarmenak, eta haptoglobinak eta LDH-k hemolisia baztertzen dute.

Interpretazio zuzena. Gilbert-en sindromea — UGT1A1 polimorfismo onbera. Interpretazioak ez luke hepatitisik, zirrosirik, anemia hemolitikorik edo biliar-obstrukziorik deitu behar.

V11 emaitza. Konposatua 1.000. Sei gainadierazpen-flag kontrolatuetatik bat ere ez agertu zen diagnostiko aktibo gisa.

🟡 Tranpa 2 — BT-015-HEALTHY

Aurkezpena. 35 urteko emakumezko bat, hamabost parametroko ohiko baheketa-panela. Analito bakoitza eroso dago bere erreferentzia-tartearen barruan.

Interpretazio zuzena. Ezarpen-laguntza eta bizimoduaren mantentzea. Interpretazioak ez luke patologia mugakide bat asmatu behar, erabilgarri klinikoa emateko.

V11 emaitza. 1.000 osagai-konposatua. Jarraitutako zazpi gehiegizko diagnostikoaren abisu-ikurretatik bat ere ez —diabetesa, anemia, hipotiroidismoa, dislipidemia, hepatitis, giltzurrun-gaixotasuna, gabezia— ez zen diagnostiko aktibo gisa agertu.

Bi tranpetan, hamahiru gehiegizko diagnostikoaren abisu-ikur kontrolatu ziren. Bat ere ez zen aktibatu. Hau da edozein klinikarik AI motor bat triage edo kontsultaren aurreko tresna gisa erabiltzea pentsatzen duenean gehien axola duen emaitza: sistemak ez zuen gaixotasunik asmatu, ez bazegoen.

Mentzer indizea: burdin-gabezia thalassemia ezaugarritik bereiztea

Bigarren aurkikuntza balio handikoa kasu BT-001 (burdin-gabeziako anemia) eta BT-007 kasuarekin (beta-talassemia minor) lotzea da. Biak mikrozitosiarekin agertzen dira, eta oztopo ezagun bat dira sailkatzaile inuzenteentzat. Mentzer indizea, MCV RBC kopuruaren bidez zatituta kalkulatzen dena, 13tik gora dago burdin-gabezian eta 13tik behera jaisten da talasemia ezaugarrian.

BT-001n, pazientea 34 urteko emakumea zen, hemoglobina 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritina 6 ng/mL eta TIBC altua zituena. Gutxi gorabeherako 17,7ko Mentzer indizeak burdin-gabezia absolutua onartzen du. BT-007n, pazientea 28 urteko gizonezkoa zen, mikrozitosiarekin (MCV 65,8 fL), baina RBC kopuru altua 6,2, RDW normala, ferritina normala eta HbA2 5,6 ehunekoa. Gutxi gorabeherako 10,6ko Mentzer indizeak talasemia ezaugarria adierazten du, eta HbA2 altuak beta-talassemia minor baieztatzen du.

Burdin-gabeziako anemia Mentzer > 13 Ferritina baxua, TSAT baxua, TIBC altua, RDW altua
Beta-talassemia ezaugarria Mentzer < 13 Ferritina normala, RDW normala, HbA2 altua (>3,5%), RBC kopuru altua

Bi kasuek 1.000 puntuatu zuten. Motorra Mentzer indizea esplizituki erabili zuen bi interpretazioetan, eta kasu bakoitzean diagnostiko zuzena itzuli zuen. Hau da, benchmark osoan, emaitza klinikoki lasigarriena, izan ere, talasemia ezaugarria burdin-gabeziatzat sailkatzeak burdin-osagarri desegokiak eragiten ditu eta familiako baheketa-aukera batzuk galtzen dira; eta burdin-gabezia talasemia gisa oker sailkatzeak ordezkapen-terapia errazaren atzerapena dakar. Gure ferritina-bitartekoen gidak testuinguru diferentzial zabalagoa azaltzen du.

V11 hasierako erreferentziazko exekuzioaren kasuz kasuko emaitzak (2026ko apirilaren 23a)

V11 erreferentziazko jatorrizko exekuzioa, 15 kasuko froga-kontzeptuko kohortean, da bigarren eguneratzearen oinarri metodologikoa: beheko kasu bakoitzeko xehetasunek erakusten dute nola kudeatzen duen errubrikak benetako motor-erantzun bat. Hamabost kasuetatik 12k lortu zuten 1.000ko sabai-konposite-puntuazioa bide nagusian; hiru kasu 2. faseko ordezkoaren bidez zerbitzatu ziren, 0.05 latentzia-bonusa galduz baina eduki kliniko eta egiturazko guztia mantenduz. Kasu batek derrigorrezko azpiatal bakar bat falta zuen; batek probabilitate-banaketaren batura apur bat murriztuta itzuli zuen. V11 Bigarren Eguneratze agregatua — 100,000 kasu.

Kasu ID Espezialitatea Konposatua Latentzia Bidea
BT-001-IDAHematologia1.00017,8 snagusia
BT-006-B12Hematologia1.00018,4 snagusia
BT-007-THALHematologia1.00017,0 snagusia
BT-002-HASHEndokrinologia0.95037,0 sordezko aukera
BT-008-PCOSEndokrinologia0.98718,6 snagusia
BT-003-T2DMMetabolikoa1.00019,1 snagusia
BT-013-GOUTMetabolikoa1.00019,4 snagusia
BT-004-NAFLDHepatologia1.00019,6 snagusia
BT-009-VIRHEPHepatologia0.95023,4 sordezko aukera
BT-014-GILBERTTranpa1.00018,9 snagusia
BT-005-CKDNefrologia1.00017,4 snagusia
BT-010-ASCVDKardiologia1.00019,7 snagusia
BT-011-SLEErreumatologia0.98118,2 snagusia
BT-012-VITDEndokrinologia1.00019,3 snagusia
BT-015-HEALTHYTranpa1.00018,7 sordezko aukera

PCOS kasuak (BT-008) erantzun-egituraren derrigorrezko azpiatal bakar bat galdu zuen — hamaseitik hamabost, hamaseitik hamasei izan beharrean—, eta horrek egitura-puntuazioa 1,000tik 0,963ra murriztu zuen. SLE kasuak (BT-011) probabilitate-banaketaren batura apur bat murriztuta itzuli zuen, eta horrek puntuazio klinikoa 0,965era jaitsi zuen, diagnostiko-gako-hitz eta puntuazio-sistema guztiak mantenduta. Bi kasu perfektutik beherakoek ez zuten diagnostiko zuzena galdu.

Populazio-mailan, kasu bakoitzeko errenkadak ez dira gizakiek irakurtzeko modukoak, beraz Bigarren Eguneratzeak 100,000 errenkadako taula baten ordez metrikak agregatuak ematen ditu. Goiburuko agregatua behean ageri da; espezialitateko eta herrialdeko banaketak txosten teknikoan eta Figshare gordailuan argitaratzen dira. Ausazko lagin estratifikatua

Populazio-mailan, kasu-lerro indibidualak ez dira gizakiak irakurtzeko modukoak, beraz Bigarren Eguneratzeak 100,000 errenkadako taula bat baino metrikak biltzen ditu. Titulupeko metrika behean ageri da; espezialitateko eta herrialde-etiketako banaketak txosten teknikoan eta Figshare gordailuan argitaratzen dira. Ausazko lagin estratifikatu bat jatorrizko motor-erantzunak (seed deterministikoa ) GitHubeko 20260426direktorioan argitaratzen da ikuskatze-lanerako. results/ Konposite-puntuazioa.

V11 hasierakoa: 0.9912 (99.12%) → Bigarren Eguneratzea: Δ = +0.0068 100,000 kasuko kohortean zehar 0.9980 (99.80%) Egitura-puntuazioa (batez bestekoa)
V11 hasierakoa: 0.998 → Bigarren Eguneratzea: Egitura-betetze perfektua populazio-mailan 1.000 Puntuazio klinikoa (batez bestekoa)
−0.002; ez zen kasurik galdu diagnostikoa bera Egitura-betetze perfektua populazio-mailan 0.996 −0.002; no case missed the diagnosis itself
Latentzia — batez bestekoa (bitartean) V11 hasierakoa: 20,17 s (17,0–37,0 s) → Bigarren Eguneratzea: 13,26 s (9,0–16,94 s) Produkzio-motorearen optimizazioak exekuzioen artean
Motorearen bidea = lehenetsia V11 hasierakoa: 12 / 15 → Bigarren Eguneratzea: 100,000 / 100,000 Ez zen beharrezkoa izan 2. faseko atzerabideratzerik exekuzioaren une bakar batean ere
Tranpa-multzoaren hiperdiagnostikoaren banderak V11 hasierakoa: 0 / 13 → Bigarren Eguneratzea: 0 / 87,412 Zero faltsu-positibo populazio-mailan (8.723 tranpa-kasu kontrolatu)

Titularreko puntuazioak ez diguna esaten

Puntuazio konposatu bat 99.80 ehuneko, aurrez erregistratutako errubrika zehatz honen arabera, 127 herrialde-etiketetan zehar hedatutako 100,000 kasuko kohorte sintetiko batean, sabaia oso-osorik lortzeko errendimendu ia da — baina arretaz kokatu behar da. Emaitzak V11n iturburu-kodean konprometitu genuen errubrikaren aurrean motoreak duen portaera deskribatzen du; ez da motorearen zuzentasunari buruzko aldarrikapen unibertsala, basatian existitzen den odol-analisiko panel bakoitzean.

Puntuazioak dio motoreak ebaluazio honetarako hautatutako diagnostiko-ereduak behar bezala kudeatu zituela populazio-mailako kohorte batean, argitaratutako eta erreproduzigarria den metodologia baten bidez. Ez du esaten motorea zuzena denik basatian dagoen edozein odol-analisien panel guztietan. Ez du esaten motoreak ordezkatu behar duenik klinikariaren irizpidea. Eta ez du esaten motoreak gainditzen dituenik beste AI sistema batzuk — beste motoreen aurkako analisi konparatiboak deliberatuki kanpo geratu dira txosten honen esparrutik.

Puntuazioak ezartzen duena oinarrizko lerro bat da. Rubrika eta euskarria publikoak direnez, motorearen etorkizuneko bertsioak rubrika beraren aurrean ebaluatu daitezke — V11 hasierako 15 kasuei aplikatuta, Bigarren Eguneratzean 100.000 kasuko kohortean, edo ondorengo edozein hedapenetan — eta argitaratutako puntuazioaren eta ondorengo edozein exekuzioren arteko aldea bera neurgarria da. Hori da aurre-erregistroaren balioa: errendimenduari buruzko aldarrikapenak probagarriak diren aldarrikapen bihurtzen ditu.

10 minututan erreferentzia hau nola erreproduzitu

Erreprodukzioa egiteko Kantesti API kredentzial-parra besterik ez da behar, eta Python 3.10 edo berriagoa duen ingurunea, honako hauekin: requests eta reportlab liburutegiak instalatuta. Euskarria osorik, MIT lizentziapean argitaratutako Python modulu bakar eta berez-berezkoa da.

V11 Bigarren Eguneratzea erakusten duen erreproduzigarritasun-sarearen diagrama (99.80% konposatua, 100.000 kasu, 127 herrialde-etiketa) Figshare, ResearchGate, Academia.edu eta GitHuben islatuta, Figshare DOIa aingura kanoniko gisa
5. irudia: V11 Bigarren Eguneratze benchmark-a — 99.80% puntuazio konposatua 100,000 kasutan 127 herrialde-etiketetan zehar — lau ikerketa-plataformatan islatuta dago. Figshare DOIa da identifikatzaile akademiko kanonikoa; ResearchGate (publication 404175463), Academia.edu (paper 165956808) eta GitHubek kopia paraleloak ostatzen dituzte, benchmark-aren euskarriarekin, erantzun gordinen lagin ausaz estratifikatuarekin eta herrialdeko-etiketa/hizkuntza-espezialitateko puntuazio-taularekin batera.

Lau urrats exekuzio berri baterako

Bat. Klonatu biltegia: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Bi. Instalatu mendekotasunak honekin: pip install -r requirements.txt (Bigarren Eguneratzeak gehitzen du mysql-connector-python ≥ 8.0 SQL kasuen kargatzailearentzat). Hiru. Ezarri KANTESTI_USERNAME eta KANTESTI_PASSWORD ingurune-bagai gisa motorearen APIarentzat. Bigarren Eguneratzean SQL kasuen kargatzailea erabiltzeko, ezarri ere KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, eta KANTESTI_DB_PASSWORD — kargatzaileak irakurtzeko soilik duen rol baten bidez konektatzen du (bench_reader) identifikatzeko tauluei buruzko pribilegiorik ez duena. Lau. Exekutatu python benchmark_bloodtest.py --limit 100000 Bigarren Eguneratze osorako, edo python benchmark_bloodtest.py --limit 1000 iterazio azkar baterako. Irteerak hona doaz: ./benchmark_results/: herrialdeko-etiketa eta espezialitateko zutabeekin CSV puntuazio-taula bat, JSON agregatu bat, ausaz estratifikatutako erantzun gordinen lagin bat eta Markdown txosten bat.

2026ko apirilaren 23ko (V11 hasierakoa, 15 kasu) eta 2026ko apirilaren 26ko (V11 Bigarren Eguneratzea, 100,000 kasu) erreferentzia-errunaldiak gordetzen dira biltegiaren results/ direktorioan. Errunaldi berri batek denbora-markadun scorecard berri bat sortuko du, erreferentzia-errunaldiak ukitu gabe utzita. Zure errunaldiak emaitza nabarmen desberdina sortzen badu, mesedez ireki GitHub issue bat errunaldiaren denbora-markarekin eta erantzunaren metadatuetan itzulitako motor-bertsioarekin.

Mugak eta etorkizuneko lana

100.000 kasu 127 herrialde-etiketatan ere, lau muga aitortu behar dira esplizituki: buztan luzeko etiketaren azpi-laginazioa, ebaluazio bakarra, esparru bakarreko motorra eta jatorri bakarreko datuen jatorria. Horietako bakoitza jarraipen-lan aktiboetan ari da lantzen.

Buztan luzeko etiketaren estaldura. Bigarren Eguneratzeak 127 herrialde-etiketa hartzen ditu, baina banaketa desorekatua da: goiko 10 etiketek kasuen ≈66.4% hartzen dute, eta 97 etiketako buztan luzeak, elkarrekin, ≈7.3% ematen du (gutxi gorabehera 7.300 kasu guztira, batez beste ~75 kasu etiketa bakoitzeko). Beraz, buztan luzeko etiketako konposatuak, titularreko zifrek iradokitzen dutena baino zaratatsuagoak dira. Etorkizuneko exekuzioek etiketaren esleipena berriro orekatuko dute, etiketa bakoitzeko estimazioak sendotzeko.

Ebaluazio bakarreko proba (single-shot). Kohorteko kasu bakoitza behin ebaluatu zen. Hizkuntza-eredu handiek irteera-aldakortasun ez-triviala erakusten dute laginketa-tenperatura baxuan ere, beraz, kasu bakoitzeko bost ebaluazio eta jakinarazitako aldakortasuna dituen multi-run protokoloa hurrengo urrats natural bat da — bereziki tranpa-kasu azpimultzoan, non laginketa-zirrikituaren azpian koherentzia segurtasun-aldarrikapenaren parte den.

Engine bakarreko esparrua. Txosten honek motor bakar bat deskribatzen du. Beste AI sistema batzuen aurkako analisi konparatiboak ez daude hemen; baliteke horiek ikerketa independente bereizi gisa egitea, metodologia egokiarekin, MIT lizentziadun euskarriarekin berarekin.

Datu sintetikoak. 100.000 kasuak sintetikoki sortuak dira, ez “kasu sintetikoak”; eta emaitzak ez dira transferitzen benetako munduko errendimendu klinikora. Datu errealetan, baimendutako eta kanpotik eskuratutakoetan, ebaluatzeak gainbegiratze etiko egokia eskatuko luke, eta ez dago benchmark sintetiko honen esparruan.

Lau horiez gain, aurreikusitako hedapenik eraginkorrena jurisdikzio bakoitzeko hizkuntza-berdintasuna da. Kantesti AI Engine-ak 75+ hizkuntzatan eskaintzen die zerbitzua erabiltzaileei, eta Bigarren Eguneratze azpi-kohorteak hizkuntzaren arabera estratifikatuta exekutatzeak (turkiera, alemana, gaztelania, frantsesa, italiera, portugesa, arabiera, mandarina) motorrean onartutako hizkuntzetan irteeraren kalitatea kuantifikatuko du. Hizkuntza bakoitzeko analisi estratifikatua bere DOI eta euskarriko adararekin argitaratuko da.