Validimi Klinik Standard i Regjistruar paraprakisht i Benchmark-ut V11 — Prill 2026 Me licencë MIT I verifikueshëm nga kolegët

Motori AI Kantesti — Standardi i analizave të gjakut: Validim klinik në shtatë specialitete mjekësore

Një vlerësim klinik i pavarur, i regjistruar paraprakisht, i motorit AI Kantesti në raste të anonimizuara të analizave të gjakut. Rubrika u ngrinë në kodin burimor përpara thirrjes së parë të motorit, mjeti i vlerësimit është me licencë MIT dhe çdo përgjigje e papërpunuar publikohet.

📖 ~14 minuta 📅 23 prill 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publikuar: 23 prill 2026 🩺 Rishikuar mjekësisht: 23 prill 2026 ✅ Rubrikë e Regjistruar paraprakisht 🔓 Kod & të dhëna të hapura

Ky studim i validimit klinik u drejtua nga Dr. Thomas Klein, MD, Shef Mjekësor (Chief Medical Officer) në Kantesti AI, në bashkëpunim me Julian Emirhan Bulut, Inxhinier i Lartë i AI dhe CEO i Kantesti Ltd. Metodologjia dhe rubrika u rishikuan nga Bordi Këshillimor Mjekësor i Kantestit AI.

Autor Kryesor & Mbikëqyrje Klinike

Thomas Klein, MD

Kryemjeku, Kantesti AI

Dr. Thomas Klein është hematolog klinik dhe mjek i brendshëm i certifikuar nga bordi, me mbi 15 vjet përvojë në mjekësinë laboratorike. Si Shef Mjekësor në Kantesti AI, ai përzgjodhi panelin e rasteve për këtë benchmark, rishikoi të gjitha të vërtetat diagnostike dhe miratoi rubrikën e regjistruar paraprakisht përpara thirrjes së parë të motorit.

ORCID 0009-0009-1490-1321 Porta e Kërkimeve Google Scholar

Bashkëautor & Implementim

Julian Emirhan Bulut

Inxhinier i Lartë i AI & CEO, Kantesti Ltd

Julian Emirhan Bulut është themeluesi dhe CEO i Kantesti Ltd. Ai projektoi dhe implementoi mjetin e vlerësimit, kreu integrimin e API-së, realizoi ekzekutimin e benchmark-ut të prillit 2026 dhe përgatiti agregimin statistikor. Themelues i platformës që nga viti 2019.

GitHub Rreth Kantestit

⚡ Përmbledhje e shpejtë V11 — 23 prill 2026

Rezultati i përbërë 99.12% në 15 raste reale të analizave të gjakut, të anonimizuara, nga shtatë specialitete mjekësore.
Zero false-pozitive të hiperdianozës në të dyja rastet “trap” (sindroma e Gilbert-it dhe një skanim i plotësisht normal i një të rrituri).
Rubrikë e pararegistruar e ngrirë në kodin burimor përpara thirrjes së parë të motorit — nuk ishte e mundur asnjë akordim post-hoc.
Indeksi Mentzer u aplikua saktë për të dalluar aneminë nga mungesa e hekurit nga beta-talassemia e lehtë.
Vetëm endpoint prodhimi — pa rrugëzim të privilegjuar, i vlerësuar saktësisht siç do ta aksesonte një klient që paguan.
Latencë mesatare 20.17 sekonda end-to-end, me 12 nga 15 raste nën objektivin kryesor prej 20 sekondash.
“Harness” me licencë MIT publikuar në GitHub me çdo përgjigje të papërpunuar të motorit — mbështetet riprodhimi i pavarur.
DOI në Figshare: 10.6084/m9.figshare.32095435 · Pasqyruar në ResearchGate, Academia.edu, GitHub.

Pse ekziston ky benchmark dhe çfarë teston

Interpretimi i analizave të gjakut me AI po përdoret gjithnjë e më shumë në procese të orientuara nga konsumatorët dhe në ato klinike, megjithatë kornizat e vlerësimit të riprodhueshme të përshtatura për mjekësinë laboratorike mbeten të rralla. Pyetjet që kanë më shumë rëndësi në këtë kontekst nuk janë ato të mbuluara nga standardet e përgjithshme të pyetje-përgjigjes mjekësore: a mundet një motor të dallojë mungesën e hekurit nga tipari i talasemisë kur vëllimi mesatar korpuskular është identik, a e diagnostikon gabimisht sindromën e Gilbert-it si hepatit, dhe a krijon patologji në një panel skanimi plotësisht normal?

Një panel i vetëm i analizave të gjakut zakonisht përmban sinjal të mjaftueshëm për të mbështetur disa interpretime konkurruese, dhe puna e mjekut që interpreton është t’i peshojë ato interpretime kundrejt njëra-tjetrës, jo të rikuperojë një përgjigje si në tekst shkollor. Një motor që ia del mirë në rastet “si në libër” mund të dështojë ende në rastet që kanë më shumë rëndësi: kurthet e diagnozës diferenciale, variantet beninje që duken alarmante kur merren veçmas, dhe panelet plotësisht normale që i tundin asistentët e sigurt të prodhojnë patologji të fabrikuar.

Ky benchmark u ndërtua pikërisht rreth këtyre mënyrave dështimi. Secili prej pesëmbëdhjetë rasteve u zgjodh për një veçori të caktuar diagnostike: një mikrocitozë nga mungesa e hekurit që duhet të mbahet e veçuar nga një tipar i beta-talasemisë me vëllim mesatar të eritrociteve identik, një paraqitje e sindromës së Gilbert-it ku e vetmja anomali është një hiperbilirubinemi e izoluar indirekte, dhe një panel skriningu me pesëmbëdhjetë parametra ku çdo analit qëndron brenda intervalit të tij të referencës. Rubrika shpërblen motorët që e lexojnë çdo rast sipas kushteve të tij dhe penalizon motorët që arrijnë në një diagnozë të sigurt kur një diagnozë e tillë nuk justifikohet.

Si Thomas Klein, MD, e zgjodha panelin e rasteve sepse këto janë modelet që i shoh se asistentët e mjekësisë laboratorike i ngatërrojnë më shpesh. Mënyra e shtrenjtë e dështimit nuk është "të humbasësh një sëmundje të rrallë" — është të fabrikohet patologji rutinë te pacientët që nuk e kanë atë. Tonë Validimi Mjekësor hub përshkruan kornizën më të gjerë; kjo faqe përshkruan rezultatin e saj të aplikuar në motorin V11.

Ekzekutimi i fundit si referencë — V11 (Prill 2026)

Vrapimi referues i prillit 2026 i Kantesti AI Engine V11 prodhoi një rezultat të përbërë prej 99.12% në rubrikën e pesëmbëdhjetë rasteve të pararegistruara. Të dy rastet e kurthit të hiperdia gnozës shënuan në kufi. Indeksi Mentzer u aplikua saktë në diferencimin hekur-mungesë kundrejt talasemisë.

Rezultat i përbërë 99.12% 15 nga 15 raste u vlerësuan

0.998 Rezultat strukturor

0.998 Rezultat klinik

20.17 s Mesatarja e latencës

0 / 13 Pozitivë të rremë në kurthe

Formula e rezultatit të përbërë kombinon tre komponentë: përputhshmëria strukturore me shtatë seksionet e detyrueshme të raportimit dhe gjashtëmbëdhjetë nënseksionet e detyrueshme, saktësia klinike e matur si rikujtim i fjalëkyçeve plus rikujtim i sistemit të pikëzimit plus një kontroll i vlefshmërisë së shpërndarjes së probabilitetit, dhe latenca e përgjigjes kundrejt objektivit kryesor të shërbimit prej 20 sekondash. Dekompozimi i saktë tregohet në formulën e rubrikës më poshtë.

Rezultat i përbërë = 0.35 × Struktura + 0.55 × Klinika + 0.10 × Latenca

Pjesa e mbetur prej 0,88 pikësh përqindjeje e hapësirës së tepërt (headroom) shpërbëhet pothuajse tërësisht në humbje nga vonesa (latency loss) — tre thirrje rezervë (fallback) të Fazës 2, secila me kompozit prej -0,05, kontribuan rreth 0,60 nga deficitit prej 0,88 pikësh — dhe jo në përmbajtje klinike. Motori nuk humbi asnjë diagnozë të saktë në asnjërin prej pesëmbëdhjetë rasteve; aty ku nuk arriti, e bëri duke marrë pak më shumë se objektivi kryesor prej 20 sekondash në një pakicë të vogël thirrjesh.

Pesëmbëdhjetë raste në shtatë specialitete mjekësore

Paneli i rasteve mbulon shtatë specialitete — hematologji, endokrinologji, mjekësi metabolike, hepatologji, nefrologji, kardiologji, reumatologji — plus dy raste të dedikuara “hyperdiagnosis trap”. Çdo rast është një regjistrim real i pacientit i anonimizuar, i nxjerrë nga depoja e të dhënave klinike Kantesti, nën pëlqim të informuar me shkrim.

De-identifikimi u krye sipas qasjes Safe Harbor: të gjithë identifikuesit direkt u hoqën ose u zëvendësuan, dhe çdo regjistrim iu caktua një kod i brendshëm i rastit (benchmark-internal case code) në formatin BT-NNN-LABEL. Përpunimi u krye në përputhje me GDPR Neni 9(2)(j) për kërkime shkencore me masa të përshtatshme mbrojtëse dhe dispozitat ekuivalente të UK GDPR. Asnjë informacion që identifikon personalisht nuk shfaqet askund në “harness” e publikuar, në raportin teknik, ose në grupet e të dhënave të lëshuara.

Hematologji (3) BT-001, BT-006, BT-007 Anemi nga mungesa e hekurit · Mungesë e B12 · Talasemi beta e lehtë (minor)

Endokrinologji (3) BT-002, BT-008, BT-012 Tiroiditi i Hashimoto-s · PCOS me rezistencë ndaj insulinës · Mungesë e rëndë e vitaminës D

Metabolike (2) BT-003, BT-013 T2DM me sindromë metabolike · Hiperurikemi me rrezik për përdhes

Hepatologji (2) BT-004, BT-009 NAFLD / NASH · Hepatit akut viral

Nefrologji · Kardiologji · Reumatologji (3) BT-005, BT-010, BT-011 Sëmundje kronike e veshkave (CKD) faza 3 · Dislipidemi dislipidemike aterogjene · Lupus eritematoz sistemik

Raste “trap” (2) BT-014, BT-015 Sindroma e Gilbert-it (hiperbilirubinemi e izoluar indirekte) · Skriningu i të rriturve plotësisht normal

Pse kjo shpërndarje e veçantë

Hematologjia merr tre raste, sepse diferencimet mikrocitare dhe diferencimet makrocitare janë kurthet me volumin më të lartë në praktikën reale laboratorike. Endokrinologjia merr tre, sepse paraqitjet e Hashimoto-s, PCOS dhe mungesës së vitaminës D ushtrojnë forma të ndryshme diagnostike (të drejtuara nga autoantitrupat, të drejtuara nga raportet hormonale, të drejtuara nga një marker i vetëm). Specialitetet me një rast janë ende kuptimplote, sepse secila prej CKD, rrezikut ASCVD dhe SLE ka sistemin e vet të pikëzimit që motori duhet të thërrasë (përkatësisht stadifikimi KDIGO, rreziku 10-vjeçar i ASCVD, kriteret 2019 EULAR/ACR për SLE).

Rubrika e regjistruar paraprakisht, e shpjeguar

Regjistrimi paraprak është zgjedhja metodologjike e vetme më e rëndësishme në këtë benchmark. Çdo diagnozë e pritur, çdo sistem klinik pikëzimi dhe çdo seksion raporti u angazhuan në kodin burim përpara se të thirrej motori. Prandaj, akordimi post-hoc i rubrikës për ta bërë motorin të duket më mirë është i pamundur.

Tre komponentë përbëjnë rezultatin e përbërë. Komponenti strukturor kontribuon me 35 për qind dhe mat nëse motori ktheu shtatë seksionet e detyrueshme të raportit (header, përmbledhje, gjetje kyçe, diferencim, sisteme pikëzimi, rekomandime, ndjekje) dhe gjashtëmbëdhjetë nënseksionet e detyrueshme brenda tyre. Prania e seksionit peshon 40 për qind dhe prania e nënseksionit peshon 60 për qind brenda llogaritjes strukturore.

I/E/Të/Të komponenti klinik kontribuon me 55 për qind dhe kombinon tre gjëra: rikujtimi i diagnozës sipas fjalëkyçeve (70 për qind e nën-pikës klinike), rikujtimi i sistemit të pikëzimit (20 për qind — a e llogarit motori Mentzer, FIB-4, HOMA-IR, rrezikun ASCVD, stadifikimin KDIGO, kriteret EULAR/ACR kur është relevante), dhe një kontroll i vlefshmërisë së shumës së probabiliteteve (10 për qind — probabilitetet e diferencimit duhet të mblidhen brenda intervalit [90, 110]). Për rastet kurth, zbritet një penalizim i qartë për hiperdetektim deri në 0.30, i llogaritur si 0.10 për çdo flamur patologjie të fabrikuar, i kufizuar në tre flamuj.

I/E/Të/Të komponenti i latencës kontribuon me 10 për qind. Një përgjigje nën 20 sekonda merr 0.10 të plotë, një përgjigje nën 40 sekonda merr 0.05, dhe çdo gjë më e ngadaltë merr zero. Objektivi 20-sekondësh pasqyron objektivin e nivelit të shërbimit për prodhimin e shërbimit parësor të path; kufiri 40-sekondësh pasqyron buxhetin e rikthimit të Fazës 2 për thirrje të rënda të motorit.

Çfarë parandalon regjistrimi paraprak

Benchmark-et nga vetë palët e para janë të njohura për fryrjen e numrave të tyre përmes akordimit post-hoc të rubrikës. Modeli është pothuajse gjithmonë i njëjtë: ekipi e ekzekuton motorin, sheh ku nënperformon, pastaj rregullon në heshtje rubrikën që zonat që nënperformojnë të llogariten më pak. Duke e angazhuar rubrikën në kodin burim përpara thirrjes së parë të motorit dhe duke publikuar testin nën licencën MIT, ky rregullim bëhet i dukshëm në kontrollin e versioneve. Kushdo mund ta klonojë repository-n, të kontrollojë datat e autorit të rubrikës dhe të verifikojë që rezultatet e motorit nuk u përdorën për të formësuar pikëzimin.

Rastet “kurth i hiperdiagnostikimit” — pse thirrja e tepërt është mënyra reale e dështimit

Thirrja agresive e patologjisë në ekrane normale është një mënyrë dështimi e dokumentuar e asistentëve mjekësorë për konsumatorë. Kostot e saj pasuese përfshijnë hetim të panevojshëm, ankth te pacienti dhe punë diagnostike iatrogjene. Dy rastet kurth në këtë benchmark janë projektuar për ta bërë këtë mënyrë dështimi të dukshme dhe të matshme.

🟡 Kurthi 1 — BT-014-GILBERT

Paraqitja. Një mashkull 24-vjeçar me bilirubinë totale 2.4 mg/dL. Fraksioni direkt është normal, transaminazat dhe fosfataza alkaline qëndrojnë brenda intervaleve të tyre të referencës, retikulocitet janë pa veçori, dhe haptoglobina dhe LDH përjashtojnë hemolizën.

Interpretimi i saktë. Sindroma e Gilbert-it — një polimorfizëm beninj i UGT1A1. Interpretimi nuk duhet të thërrasë hepatit, cirrozë, anemi hemolitike ose obstruksion biliar.

Rezultati V11. Kompozit 1.000. Asnjë nga gjashtë flamujt e monitoruar për mbi-diagnostikim nuk u shfaq si diagnozë aktive.

🟡 Kurthi 2 — BT-015-HEALTHY

Paraqitja. Një femër 35-vjeçare me një panel rutinë skriningu me pesëmbëdhjetë parametra. Çdo analit qëndron rehat brenda intervalit të tij të referencës.

Interpretimi i saktë. Sigurim dhe ruajtje e stilit të jetesës. Interpretimi nuk duhet të krijojë patologji kufitare vetëm që të duket klinikisht i dobishëm.

Rezultati V11. Përbërësi 1.000. Asnjë nga shtatë flamujt e mbidiagnostikimit të monitoruar — diabeti, anemia, hipotiroidizmi, dislipidemia, hepatiti, sëmundja e veshkave, mungesa — nuk u shfaq si diagnozë aktive.

Në të dyja “trap”-et, u kontrolluan trembëdhjetë flamuj të hiperdianostikimit të monitoruar. Asnjë nuk u aktivizua. Ky është rezultati që ka më shumë rëndësi për çdo klinicist që po mendon të përdorë një motor AI si mjet triage ose para-konsultimi: sistemi nuk shpiku sëmundje aty ku nuk ekzistonte.

Indeksi Mentzer: ndarja e mungesës së hekurit nga tipari i talasemisë

Një gjetje e dytë me vlerë të lartë lidhet me çiftëzimin e rastit BT-001 (anemi nga mungesa e hekurit) me rastin BT-007 (beta-talassemia e vogël). Të dyja shfaqen me mikrocitozë dhe janë një pengesë e njohur për klasifikuesit naivë. Indeksi Mentzer, i llogaritur si MCV i ndarë me numrin e RBC, tejkalon 13 te mungesa e hekurit dhe bie nën 13 te tipari i talasemisë.

Në BT-001, pacientja ishte 34-vjeçare femër me hemoglobinë 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritinë 6 ng/mL dhe TIBC të rritur. Indeksi Mentzer prej afërsisht 17.7 mbështet mungesën absolute të hekurit. Në BT-007, pacienti ishte 28-vjeçar mashkull me mikrocitozë (MCV 65.8 fL) por me një numër të lartë RBC prej 6.2, RDW normal, ferritinë normale dhe HbA2 prej 5.6 përqind. Indeksi Mentzer prej afërsisht 10.6 tregon për tiparin e talasemisë, dhe HbA2 e rritur konfirmon beta-talassemia e vogël.

Anemi nga mungesa e hekurit Mentzer > 13 Ferritinë e ulët, TSAT e ulët, TIBC e lartë, RDW e rritur

Tipari i beta-talassemise Mentzer < 13 Ferritinë normale, RDW normale, HbA2 e rritur (>3.5%), numër i lartë RBC

Të dy rastet shënuan 1.000. Motori e përdori në mënyrë eksplicite indeksin Mentzer në të dy interpretimet dhe ktheu diagnozën e saktë në secilin rast. Ky është rezultati i vetëm më qetësues klinikisht në të gjithë benchmark-un, sepse keqklasifikimi i tiparit të talasemisë si mungesë hekuri çon në suplementim të papërshtatshëm me hekur dhe në humbjen e mundësive për shqyrtim të historisë familjare, ndërsa keqklasifikimi i mungesës së hekurit si talasemi e vonon terapinë e thjeshtë të zëvendësimit. Yni për intervalin e ferritinës shpjegon kontekstin më të gjerë të diferencimit.

Rezultate për rast nga ekzekutimi i prillit 2026

Dymbëdhjetë nga pesëmbëdhjetë raste arritën rezultatin maksimal të përbërë 1.000 në path-in kryesor. Tre raste u shërbyen përmes “Phase 2 fallback”, duke humbur bonusin e latencës 0.05 ndërkohë që ruajtën të gjithë përmbajtjen klinike dhe strukturore. Një rast mungonte një nënseksion i vetëm i detyrueshëm; një tjetër ktheu një shumë të reduktuar lehtë të shpërndarjes së probabilitetit.

ID e rastit Specialiteti Rezultat i përbërë Latency Path

BT-001-IDAHematologji1.00017.8 skryesor

BT-006-B12Hematologji1.00018.4 skryesor

BT-007-THALHematologji1.00017.0 skryesor

BT-002-HASHEndokrinologji0.95037.0 srikthim (fallback)

BT-008-PCOSEndokrinologji0.98718.6 skryesor

BT-003-T2DMMetabolike1.00019.1 skryesor

BT-013-GOUTMetabolike1.00019.4 skryesor

BT-004-NAFLDHepatologji1.00019.6 skryesor

BT-009-VIRHEPHepatologji0.95023.4 srikthim (fallback)

BT-014-GILBERTKurth1.00018.9 skryesor

BT-005-CKDNefrologji1.00017.4 skryesor

BT-010-ASCVDKardiologji1.00019.7 skryesor

BT-011-SLEReumatologji0.98118.2 skryesor

BT-012-VITDEndokrinologji1.00019.3 skryesor

BT-015-HEALTHYKurth1.00018.7 srikthim (fallback)

Rasti i PCOS (BT-008) humbi një nënseksion të detyrueshëm në strukturën e përgjigjes — pesëmbëdhjetë nga gjashtëmbëdhjetë në vend të gjashtëmbëdhjetë nga gjashtëmbëdhjetë — gjë që uli pikën strukturore nga 1.000 në 0.963. Rasti i SLE (BT-011) ktheu një shumë të lehtë të reduktuar të shpërndarjes së probabilitetit, e cila uli pikën klinike në 0.965, duke ruajtur çdo fjalë kyçe diagnostike dhe sistem vlerësimi. Asnjë nga dy rastet nën-perfekte nuk humbi një diagnozë të saktë.

Çfarë nuk na tregon rezultati kryesor

Një pikë e përbërë prej 99.12 për qind sipas kësaj rubrike të veçantë të pararegistruar përfaqëson performancë afër tavanit, por meriton një kornizim të kujdesshëm. Rezultati përshkruan sjelljen e motorit kundrejt pesëmbëdhjetë rasteve të zgjedhura me kujdes, të anonimizuara, të vlerësuara një herë secila, sipas një rubrike të vetme. Ne jemi të qartë për atë që numri tregon dhe nuk tregon.

Pika tregon se motori V11 i trajtoi saktë modelet diagnostike të përzgjedhura për këtë vlerësim, sipas një metodologjie të publikuar dhe të riprodhueshme. Ajo nuk thotë se motori është i saktë për çdo panel analizash gjaku që ekziston në botën reale. Nuk thotë se motori duhet të zëvendësojë gjykimin e klinicistit. Dhe nuk thotë se motori tejkalon sisteme të tjera të AI — analizat krahasuese kundrejt motorëve të tjerë ishin qëllimisht jashtë fushës së këtij raporti.

Ajo që pika vërteton është një bazë. Me rubrikën dhe mjetin (harness) të publikuar, versionet e ardhshme të motorit mund të vlerësohen kundrejt të njëjtave pesëmbëdhjetë raste, dhe diferenca midis pikës së publikuar dhe çdo ekzekutimi pasues është vetë e matshme. Kjo është vlera e pararegistrimit: i shndërron pretendimet për performancën në pretendime të verifikueshme.

Si ta riprodhoni këtë standard brenda 10 minutash

Riprodhimi kërkon vetëm një çift kredencialesh API Kantesti dhe një mjedis Python 3.10 ose më të ri me requests dhe reportlab bibliotekat e instaluara. Mjeti i plotë është një modul i vetëm Python, vetëpërmbajtur, i lëshuar nën licencën MIT.

💻 GitHub Mjet (harness) me licencë MIT · përgjigje të papërpunuara · ekzekutim referencë 🔗 DOI në Figshare 10.6084/m9.figshare.32095435 · rekord kanonik akademik 🎓 Porta e Kërkimeve Publikimi 404175463 · shtresa e zbulimit akademik 📄 Academia.edu Punimi 165956808 · shtresa e zbulimit akademik

Katër hapa për një ekzekutim të ri

Një. Klono depon: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dy. Instaloni varësitë me pip install -r requirements.txt. Tre. Vendosni KANTESTI_USERNAME dhe KANTESTI_PASSWORD si variabla mjedisore — kredencialet lexohen në kohën e ekzekutimit dhe asgjë nuk është e koduar fort në skript. Katër. Ekzekutoni python benchmark_bloodtest.py dhe inspektoni katër artefaktet e emetuara në drejtorinë e punës: një CSV scorecard, një JSON scorecard, një hedhje e plotë JSON duke përfshirë përgjigjet e papërpunuara të motorit, dhe një raport Markdown i lexueshëm nga njeriu.

Ekzekutimi referencë nga 23 prill 2026 ruhet në results/ në drejtorinë e repository-t. Një ekzekutim i ri do të prodhojë një scorecard të re me timestamp, duke e lënë ekzekutimin referencë të paprekur. Nëse ekzekutimi juaj prodhon një rezultat dukshëm të ndryshëm, ju lutemi hapni një issue në GitHub me timestamp-in e ekzekutimit dhe versionin e motorit të kthyer në metadata e përgjigjes.

Kufizimet dhe puna e ardhshme

Katër kufizime meritojnë njohje të qartë: madhësia e kampionit, vlerësimi një herë (single-shot), shtrirja vetëm e një motori, dhe origjina e të dhënave nga një burim i vetëm. Secili po adresohet në punë pasuese aktive.

Madhësia e kampionit. Pesëmbëdhjetë raste në tetë kategori specialitetesh janë të mjaftueshme për një provë koncepti, por jo për analizë nëngrupesh brenda një specialiteti. Zgjerimi në pesëdhjetë raste është planifikuar dhe do të përfshijë panele të koagulimit, shqyrtim për malignancitë hematologjike, panele për shtatzëni dhe paraqitje pediatrike.

Vlerësimi një herë (single-shot). Çdo rast u vlerësua vetëm një herë. Modelet e gjuhës së madhe shfaqin variancë jo të parëndësishme të daljes edhe në temperaturë të ulët të kampionimit, prandaj një protokoll me shumë ekzekutime me pesë vlerësime për rast dhe variancë të raportuar është hapi tjetër natyror.

Shtrirja vetëm e një motori. Ky raport karakterizon një motor. Analizat krahasuese kundrejt sistemeve të tjera AI janë jashtë objektit këtu; mund t’i ndjekim ato si një studim i veçantë i pavarur me metodologji të përshtatshme.

Origjina e të dhënave nga një burim i vetëm. Pesëmbëdhjetë rastet janë të anonimizuara, të dhëna reale të pacientëve, të nxjerra nga një repository i vetëm klinik. Ato përfaqësojnë një mostër të përzgjedhur dhe nuk janë një përzgjedhje e rastësishme që përfaqëson popullatën. Zgjerimi i vlerësimit në të dhëna nga shumë qendra është në planifikim.

Zgjerimi më me ndikim i planifikuar është barazia shumëgjuhëshe. Motori AI Kantesti u shërben përdoruesve në 75+ gjuhë, dhe ekzekutimi i të njëjtit harness me pesëmbëdhjetë raste në turqisht, gjermanisht, spanjisht, frëngjisht dhe arabisht do të masë cilësinë e daljes në gjuhët e mbështetura nga motori. Ne do të publikojmë çdo ekzekutim specifik për gjuhën me DOI-n e vet dhe degën e harness-it.

Provoni të njëjtin motor që arriti një rezultat të përbërë prej 99.12%

Ngarko panelin tënd të analizave të gjakut në të njëjtin endpoint prodhimi që u vlerësua në këtë benchmark. Mbi 2 milionë përdorues në mbarë botën përdorin motorin AI Kantesti për të interpretuar mbi 15,000 biomarkerë në 75+ gjuhë.

🔬 Provo Demon Falas

Zgjerimi i Chrome Dyqani i Aplikacioneve Google Play

📚 Si të citoni këtë benchmark

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Validimi klinik i motorit AI Kantesti (2.78T)
                 në 15 raste të anonimuzuara të analizave të gjakut: Një benchmark i pararegistruar
                 i bazuar në rubrikë, duke përfshirë raste të kurthit të hiperdianozës
                 në shtatë specialitete mjekësore},
  institution = {Kantesti Ltd},
  address     = {Londër, Mbretëria e Bashkuar},
  year        = {2026},
  month       = {Prill},
  type        = {Raport Teknik},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Validimi klinik i motorit AI Kantesti (2.78T) në 15 raste të anonimuzuara të analizave të gjakut: Një benchmark i pararegistruar i bazuar në rubrikë, duke përfshirë rastet e kurthit të hiperdianozës në shtatë specialitete mjekësore (Raport Teknik V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Punë e lidhur për validimin e Kantesti

Klein, T. (2025). Korniza e Validimit Klinik për Interpretimin e Testeve të Gjakut të Mundësuar nga IA: Metodologjia e Validimit të Trefishtë të Verbër, Metrikat e Performancës dhe Protokollet e Sigurimit të Cilësisë. Kantesti AI Medical Research.

🎓 Porta e Kërkimeve

📖 Referenca të jashtme metodologjike

Mentzer, W. C. (1973). Diferencimi i mungesës së hekurit nga tipari i talasemisë. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Kriteret e klasifikimit të vitit 2019 të Ligës Evropiane kundër Reumatizmit / Kolegji Amerikan i Reumatologjisë për Lupusin Eritematoz Sistemik. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Testi i halucinacionit në domenin mjekësor për modelet e gjuhës së mëdha. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Rezultati i përbërë

15Rastet e vlerësuara

7Specialitetet

0Pozitivë të rremë të kurthit

Pyetje të Shpeshta

Sa i saktë është motori i AI Kantesti në rastet reale të analizave të gjakut?

Në një rubrikë të pararegistruar prej 15 rastesh reale të anonimuzuara të analizave të gjakut nga shtatë specialitete mjekësore, motori AI Kantesti V11 arriti një rezultat të përbërë prej 99.12 për qind, me zero pozitivë të rremë të hiperdianozës si në rastet e kurthit, ashtu edhe me një mesatare të kohës së përgjigjes prej 20.17 sekondash. Kartela e plotë e rezultateve për rast është publikuar në Figshare nën DOI 10.6084/m9.figshare.32095435 dhe në GitHub nën licencën MIT.

A është i verifikuar klinikisht motori AI Kantesti?

Po. Motori është verifikuar klinikisht kundrejt një rubrike që ishte ngrirë në kodin burimor përpara se të thirrej motori, e vlerësuar në 15 raste të anonimizuara të analizave të gjakut në hematologji, endokrinologji, mjekësi metabolike, hepatologji, nefrologji, kardiologji dhe reumatologji. Mbikëqyrja klinike u ofrua nga Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), hematolog klinik i certifikuar nga bordi dhe Drejtor Mjekësor (Chief Medical Officer) në Kantesti AI.

Çfarë është një rast “hyperdiagnosis trap”?

Një rast “hyperdiagnosis trap” është një skenar klinik i dizajnuar posaçërisht për të zbuluar sjellje të mbi-diagnostikimit në motorët e AI. Standardi (benchmark) Kantesti V11 përdor dy raste të tilla. E para është një hiperbilirubinemi indirekte e izoluar, në përputhje me sindromën e Gilbert-it, ku interpretimi i saktë është polimorfizmi i qetë (beninj) UGT1A1, jo hepatiti apo hemoliza. E dyta është një panel skriningu i plotësisht normal i të rriturve, ku rezultati i saktë është qetësim dhe ruajtje e stilit të jetesës, jo një patologji kufitare e prodhuar.

A është i riprodhueshëm vlerësimi i motorit AI Kantesti?

Korniza e plotë e vlerësimit (evaluation harness) lëshohet nën licencën MIT si një modul i vetëm Python, i vetëpërmbajtur. Riprodhimi kërkon vetëm një çift kredencialesh API të Kantesti dhe Python 3.10 ose më të ri. Kodi, përkufizimet e rasteve dhe çdo përgjigje e papërpunuar e motorit nga ekzekutimi referencë i prillit 2026 janë të disponueshme në github.com/emirhanai/kantesti-blood-test-benchmark dhe pasqyrohen në Figshare, ResearchGate dhe Academia.edu.

Si e dallon motori i AI Kantesti mungesën e hekurit nga tipari i beta-talasemisë?

Motori aplikon indeksin Mentzer, i llogaritur si volumi mesatar korpuskular i ndarë me numrin e qelizave të kuqe të gjakut (red blood cell count). Një indeks Mentzer mbi 13 mbështet aneminë nga mungesa e hekurit, ndërsa një vlerë nën 13 mbështet tiparin e talasemisë beta. Në benchmark-un V11 të dy paraqitjet u klasifikuan saktë me llogaritje të qartë të indeksit Mentzer, të mbështetur nga konteksti i ferritinës, RDW dhe HbA2.

Ku mund t’i gjej të dhënat e papërpunuara të standardeve dhe kodin burimor?

Raporti teknik depozitohet në Figshare nën DOI 10.6084/m9.figshare.32095435, pasqyrohet në publikimin e ResearchGate 404175463 dhe në punimin e Academia.edu 165956808, dhe korniza Python e licencuar me MIT me të gjitha rezultatet e ekzekutimit referencë është në github.com/emirhanai/kantesti-blood-test-benchmark. Rrjeti i pasqyrimit në katër platforma siguron disponueshmëri afatgjatë dhe fleksibilitet citimi.

Pse është e rëndësishme para-regjistrimi për benchmark-et mjekësore të AI?

Para-regjistrimi parandalon rregullimin post-hoc të rubrikës, që është mënyra e vetme më e zakonshme se si benchmark-et e drejtuara nga kompani i fryjnë vetë numrat e tyre. Duke e angazhuar rubrikën në kodin burimor përpara çdo thirrjeje të motorit dhe duke e publikuar kornizën (harness) publikisht, datat e autorit të rubrikës bëhen të verifikueshme në kontrollin e versioneve, dhe rezultatet e motorit nuk mund të kenë formësuar kriteret e vlerësimit.

A përfshin ky benchmark krahasime me motorë të tjerë të AI?

Jo. Raporti V11 e karakterizon me qëllim një motor të vetëm kundrejt një rubrike fikse, në vend që ta pozicionojë atë kundrejt sistemeve alternative komerciale. Korniza (harness) është me kod të hapur nën licencën MIT, ndaj studiuesit e pavarur mund të vlerësojnë çdo motor që zgjedhin kundrejt të njëjtave pesëmbëdhjetë raste dhe rubrikë dhe të publikojnë rezultatet e tyre.

A janë rastet e pacientëve reale apo sintetike?

Pesëmbëdhjetë rastet janë të dhëna reale të anonimizuara të pacientëve, të nxjerra nga depoja e të dhënave klinike të Kantesti, nën pëlqim të informuar me shkrim. De-identifikimi u krye sipas qasjes Safe Harbor, me të gjithë identifikuesit direkt të hequr ose të zëvendësuar. Përpunimi u krye në përputhje me GDPR Neni 9(2)(j) dhe dispozitat ekuivalente të UK GDPR. Asnjë informacion që identifikon personalisht nuk shfaqet në kornizën e publikuar, në raportin teknik, ose në datasetet e lëshuara.

⚕️ Mohim mjekësor & Konflikt interesi

Ky raport benchmark-u është për qëllime kërkimore dhe transparence metodologjike. Ai nuk përbën këshillë mjekësore. Konsultohuni gjithmonë me një ofrues të kualifikuar të kujdesit shëndetësor për vendimet e diagnostikimit dhe trajtimit. Të dy autorët janë të punësuar nga dhe mbajnë aksione në Kantesti Ltd, dhe motori që po vlerësohet është një produkt komercial i të njëjtës organizatë. Ky konflikt interesi zbutet duke para-regjistruar rubrikën në kodin burimor, duke lëshuar kornizën (harness) nën licencën MIT dhe duke publikuar çdo përgjigje të papërpunuar të motorit.

E-E-A-T Trust Signals

⭐

Përvoja

15+ vjet praktikë klinike në hematologji dhe mjekësi laboratorike, duke mbikëqyrur përzgjedhjen e panelit të rasteve.

📋

Ekspertizë

Dizajn rubrike i para-regjistruar me penalizime të qarta për hyperdiagnosis dhe sisteme të njohura të vlerësimit klinik (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoritariteti

Autor kryesor Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementimi nga Julian Emirhan Bulut, CEO i Kantesti Ltd.

🛡️

Besueshmëria

Kornizë riprodhuese me licencë MIT, përgjigje të papërpunuara të motorit të publikuara, deklarim i hapur i konfliktit të interesit, rrjet pasqyrimi kërkimor në katër platforma.

🏢 Kantesti SH.P.K. Regjistruar në Angli & Uells · Numri i kompanisë. 17090423 Londër, Mbretëria e Bashkuar · kantesti.net