Pse ekziston ky benchmark dhe çfarë teston
Interpretimi i analizave të gjakut me AI po përdoret gjithnjë e më shumë në procese të orientuara nga konsumatorët dhe në ato klinike, megjithatë kornizat e vlerësimit të riprodhueshme të përshtatura për mjekësinë laboratorike mbeten të rralla. Pyetjet që kanë më shumë rëndësi në këtë kontekst nuk janë ato të mbuluara nga standardet e përgjithshme të pyetje-përgjigjes mjekësore: a mundet një motor të dallojë mungesën e hekurit nga tipari i talasemisë kur vëllimi mesatar korpuskular është identik, a e diagnostikon gabimisht sindromën e Gilbert-it si hepatit, dhe a krijon patologji në një panel skanimi plotësisht normal?
Një panel i vetëm i analizave të gjakut zakonisht përmban sinjal të mjaftueshëm për të mbështetur disa interpretime konkurruese, dhe puna e mjekut që interpreton është t’i peshojë ato interpretime kundrejt njëra-tjetrës, jo të rikuperojë një përgjigje si në tekst shkollor. Një motor që ia del mirë në rastet “si në libër” mund të dështojë ende në rastet që kanë më shumë rëndësi: kurthet e diagnozës diferenciale, variantet beninje që duken alarmante kur merren veçmas, dhe panelet plotësisht normale që i tundin asistentët e sigurt të prodhojnë patologji të fabrikuar.
Ky benchmark u ndërtua pikërisht rreth këtyre mënyrave dështimi. Secili prej pesëmbëdhjetë rasteve u zgjodh për një veçori të caktuar diagnostike: një mikrocitozë nga mungesa e hekurit që duhet të mbahet e veçuar nga një tipar i beta-talasemisë me vëllim mesatar të eritrociteve identik, një paraqitje e sindromës së Gilbert-it ku e vetmja anomali është një hiperbilirubinemi e izoluar indirekte, dhe një panel skriningu me pesëmbëdhjetë parametra ku çdo analit qëndron brenda intervalit të tij të referencës. Rubrika shpërblen motorët që e lexojnë çdo rast sipas kushteve të tij dhe penalizon motorët që arrijnë në një diagnozë të sigurt kur një diagnozë e tillë nuk justifikohet.
Si Thomas Klein, MD, e zgjodha panelin e rasteve sepse këto janë modelet që i shoh se asistentët e mjekësisë laboratorike i ngatërrojnë më shpesh. Mënyra e shtrenjtë e dështimit nuk është "të humbasësh një sëmundje të rrallë" — është të fabrikohet patologji rutinë te pacientët që nuk e kanë atë. Tonë Validimi Mjekësor hub përshkruan kornizën më të gjerë; kjo faqe përshkruan rezultatin e saj të aplikuar në motorin V11.
Ekzekutimi i fundit si referencë — V11 (Prill 2026)
Vrapimi referues i prillit 2026 i Kantesti AI Engine V11 prodhoi një rezultat të përbërë prej 99.12% në rubrikën e pesëmbëdhjetë rasteve të pararegistruara. Të dy rastet e kurthit të hiperdia gnozës shënuan në kufi. Indeksi Mentzer u aplikua saktë në diferencimin hekur-mungesë kundrejt talasemisë.
Formula e rezultatit të përbërë kombinon tre komponentë: përputhshmëria strukturore me shtatë seksionet e detyrueshme të raportimit dhe gjashtëmbëdhjetë nënseksionet e detyrueshme, saktësia klinike e matur si rikujtim i fjalëkyçeve plus rikujtim i sistemit të pikëzimit plus një kontroll i vlefshmërisë së shpërndarjes së probabilitetit, dhe latenca e përgjigjes kundrejt objektivit kryesor të shërbimit prej 20 sekondash. Dekompozimi i saktë tregohet në formulën e rubrikës më poshtë.
Pjesa e mbetur prej 0,88 pikësh përqindjeje e hapësirës së tepërt (headroom) shpërbëhet pothuajse tërësisht në humbje nga vonesa (latency loss) — tre thirrje rezervë (fallback) të Fazës 2, secila me kompozit prej -0,05, kontribuan rreth 0,60 nga deficitit prej 0,88 pikësh — dhe jo në përmbajtje klinike. Motori nuk humbi asnjë diagnozë të saktë në asnjërin prej pesëmbëdhjetë rasteve; aty ku nuk arriti, e bëri duke marrë pak më shumë se objektivi kryesor prej 20 sekondash në një pakicë të vogël thirrjesh.
Pesëmbëdhjetë raste në shtatë specialitete mjekësore
Paneli i rasteve mbulon shtatë specialitete — hematologji, endokrinologji, mjekësi metabolike, hepatologji, nefrologji, kardiologji, reumatologji — plus dy raste të dedikuara “hyperdiagnosis trap”. Çdo rast është një regjistrim real i pacientit i anonimizuar, i nxjerrë nga depoja e të dhënave klinike Kantesti, nën pëlqim të informuar me shkrim.
De-identifikimi u krye sipas qasjes Safe Harbor: të gjithë identifikuesit direkt u hoqën ose u zëvendësuan, dhe çdo regjistrim iu caktua një kod i brendshëm i rastit (benchmark-internal case code) në formatin BT-NNN-LABEL. Përpunimi u krye në përputhje me GDPR Neni 9(2)(j) për kërkime shkencore me masa të përshtatshme mbrojtëse dhe dispozitat ekuivalente të UK GDPR. Asnjë informacion që identifikon personalisht nuk shfaqet askund në “harness” e publikuar, në raportin teknik, ose në grupet e të dhënave të lëshuara.
Pse kjo shpërndarje e veçantë
Hematologjia merr tre raste, sepse diferencimet mikrocitare dhe diferencimet makrocitare janë kurthet me volumin më të lartë në praktikën reale laboratorike. Endokrinologjia merr tre, sepse paraqitjet e Hashimoto-s, PCOS dhe mungesës së vitaminës D ushtrojnë forma të ndryshme diagnostike (të drejtuara nga autoantitrupat, të drejtuara nga raportet hormonale, të drejtuara nga një marker i vetëm). Specialitetet me një rast janë ende kuptimplote, sepse secila prej CKD, rrezikut ASCVD dhe SLE ka sistemin e vet të pikëzimit që motori duhet të thërrasë (përkatësisht stadifikimi KDIGO, rreziku 10-vjeçar i ASCVD, kriteret 2019 EULAR/ACR për SLE).
Rubrika e regjistruar paraprakisht, e shpjeguar
Regjistrimi paraprak është zgjedhja metodologjike e vetme më e rëndësishme në këtë benchmark. Çdo diagnozë e pritur, çdo sistem klinik pikëzimi dhe çdo seksion raporti u angazhuan në kodin burim përpara se të thirrej motori. Prandaj, akordimi post-hoc i rubrikës për ta bërë motorin të duket më mirë është i pamundur.
Tre komponentë përbëjnë rezultatin e përbërë. Komponenti strukturor kontribuon me 35 për qind dhe mat nëse motori ktheu shtatë seksionet e detyrueshme të raportit (header, përmbledhje, gjetje kyçe, diferencim, sisteme pikëzimi, rekomandime, ndjekje) dhe gjashtëmbëdhjetë nënseksionet e detyrueshme brenda tyre. Prania e seksionit peshon 40 për qind dhe prania e nënseksionit peshon 60 për qind brenda llogaritjes strukturore.
I/E/Të/Të komponenti klinik kontribuon me 55 për qind dhe kombinon tre gjëra: rikujtimi i diagnozës sipas fjalëkyçeve (70 për qind e nën-pikës klinike), rikujtimi i sistemit të pikëzimit (20 për qind — a e llogarit motori Mentzer, FIB-4, HOMA-IR, rrezikun ASCVD, stadifikimin KDIGO, kriteret EULAR/ACR kur është relevante), dhe një kontroll i vlefshmërisë së shumës së probabiliteteve (10 për qind — probabilitetet e diferencimit duhet të mblidhen brenda intervalit [90, 110]). Për rastet kurth, zbritet një penalizim i qartë për hiperdetektim deri në 0.30, i llogaritur si 0.10 për çdo flamur patologjie të fabrikuar, i kufizuar në tre flamuj.
I/E/Të/Të komponenti i latencës kontribuon me 10 për qind. Një përgjigje nën 20 sekonda merr 0.10 të plotë, një përgjigje nën 40 sekonda merr 0.05, dhe çdo gjë më e ngadaltë merr zero. Objektivi 20-sekondësh pasqyron objektivin e nivelit të shërbimit për prodhimin e shërbimit parësor të path; kufiri 40-sekondësh pasqyron buxhetin e rikthimit të Fazës 2 për thirrje të rënda të motorit.
Çfarë parandalon regjistrimi paraprak
Benchmark-et nga vetë palët e para janë të njohura për fryrjen e numrave të tyre përmes akordimit post-hoc të rubrikës. Modeli është pothuajse gjithmonë i njëjtë: ekipi e ekzekuton motorin, sheh ku nënperformon, pastaj rregullon në heshtje rubrikën që zonat që nënperformojnë të llogariten më pak. Duke e angazhuar rubrikën në kodin burim përpara thirrjes së parë të motorit dhe duke publikuar testin nën licencën MIT, ky rregullim bëhet i dukshëm në kontrollin e versioneve. Kushdo mund ta klonojë repository-n, të kontrollojë datat e autorit të rubrikës dhe të verifikojë që rezultatet e motorit nuk u përdorën për të formësuar pikëzimin.
Rastet “kurth i hiperdiagnostikimit” — pse thirrja e tepërt është mënyra reale e dështimit
Thirrja agresive e patologjisë në ekrane normale është një mënyrë dështimi e dokumentuar e asistentëve mjekësorë për konsumatorë. Kostot e saj pasuese përfshijnë hetim të panevojshëm, ankth te pacienti dhe punë diagnostike iatrogjene. Dy rastet kurth në këtë benchmark janë projektuar për ta bërë këtë mënyrë dështimi të dukshme dhe të matshme.
🟡 Kurthi 1 — BT-014-GILBERT
Paraqitja. Një mashkull 24-vjeçar me bilirubinë totale 2.4 mg/dL. Fraksioni direkt është normal, transaminazat dhe fosfataza alkaline qëndrojnë brenda intervaleve të tyre të referencës, retikulocitet janë pa veçori, dhe haptoglobina dhe LDH përjashtojnë hemolizën.
Interpretimi i saktë. Sindroma e Gilbert-it — një polimorfizëm beninj i UGT1A1. Interpretimi nuk duhet të thërrasë hepatit, cirrozë, anemi hemolitike ose obstruksion biliar.
Rezultati V11. Kompozit 1.000. Asnjë nga gjashtë flamujt e monitoruar për mbi-diagnostikim nuk u shfaq si diagnozë aktive.
🟡 Kurthi 2 — BT-015-HEALTHY
Paraqitja. Një femër 35-vjeçare me një panel rutinë skriningu me pesëmbëdhjetë parametra. Çdo analit qëndron rehat brenda intervalit të tij të referencës.
Interpretimi i saktë. Sigurim dhe ruajtje e stilit të jetesës. Interpretimi nuk duhet të krijojë patologji kufitare vetëm që të duket klinikisht i dobishëm.
Rezultati V11. Përbërësi 1.000. Asnjë nga shtatë flamujt e mbidiagnostikimit të monitoruar — diabeti, anemia, hipotiroidizmi, dislipidemia, hepatiti, sëmundja e veshkave, mungesa — nuk u shfaq si diagnozë aktive.
Në të dyja “trap”-et, u kontrolluan trembëdhjetë flamuj të hiperdianostikimit të monitoruar. Asnjë nuk u aktivizua. Ky është rezultati që ka më shumë rëndësi për çdo klinicist që po mendon të përdorë një motor AI si mjet triage ose para-konsultimi: sistemi nuk shpiku sëmundje aty ku nuk ekzistonte.
Indeksi Mentzer: ndarja e mungesës së hekurit nga tipari i talasemisë
Një gjetje e dytë me vlerë të lartë lidhet me çiftëzimin e rastit BT-001 (anemi nga mungesa e hekurit) me rastin BT-007 (beta-talassemia e vogël). Të dyja shfaqen me mikrocitozë dhe janë një pengesë e njohur për klasifikuesit naivë. Indeksi Mentzer, i llogaritur si MCV i ndarë me numrin e RBC, tejkalon 13 te mungesa e hekurit dhe bie nën 13 te tipari i talasemisë.
Në BT-001, pacientja ishte 34-vjeçare femër me hemoglobinë 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritinë 6 ng/mL dhe TIBC të rritur. Indeksi Mentzer prej afërsisht 17.7 mbështet mungesën absolute të hekurit. Në BT-007, pacienti ishte 28-vjeçar mashkull me mikrocitozë (MCV 65.8 fL) por me një numër të lartë RBC prej 6.2, RDW normal, ferritinë normale dhe HbA2 prej 5.6 përqind. Indeksi Mentzer prej afërsisht 10.6 tregon për tiparin e talasemisë, dhe HbA2 e rritur konfirmon beta-talassemia e vogël.
Të dy rastet shënuan 1.000. Motori e përdori në mënyrë eksplicite indeksin Mentzer në të dy interpretimet dhe ktheu diagnozën e saktë në secilin rast. Ky është rezultati i vetëm më qetësues klinikisht në të gjithë benchmark-un, sepse keqklasifikimi i tiparit të talasemisë si mungesë hekuri çon në suplementim të papërshtatshëm me hekur dhe në humbjen e mundësive për shqyrtim të historisë familjare, ndërsa keqklasifikimi i mungesës së hekurit si talasemi e vonon terapinë e thjeshtë të zëvendësimit. Yni për intervalin e ferritinës shpjegon kontekstin më të gjerë të diferencimit.
Rezultate për rast nga ekzekutimi i prillit 2026
Dymbëdhjetë nga pesëmbëdhjetë raste arritën rezultatin maksimal të përbërë 1.000 në path-in kryesor. Tre raste u shërbyen përmes “Phase 2 fallback”, duke humbur bonusin e latencës 0.05 ndërkohë që ruajtën të gjithë përmbajtjen klinike dhe strukturore. Një rast mungonte një nënseksion i vetëm i detyrueshëm; një tjetër ktheu një shumë të reduktuar lehtë të shpërndarjes së probabilitetit.
Rasti i PCOS (BT-008) humbi një nënseksion të detyrueshëm në strukturën e përgjigjes — pesëmbëdhjetë nga gjashtëmbëdhjetë në vend të gjashtëmbëdhjetë nga gjashtëmbëdhjetë — gjë që uli pikën strukturore nga 1.000 në 0.963. Rasti i SLE (BT-011) ktheu një shumë të lehtë të reduktuar të shpërndarjes së probabilitetit, e cila uli pikën klinike në 0.965, duke ruajtur çdo fjalë kyçe diagnostike dhe sistem vlerësimi. Asnjë nga dy rastet nën-perfekte nuk humbi një diagnozë të saktë.
Çfarë nuk na tregon rezultati kryesor
Një pikë e përbërë prej 99.12 për qind sipas kësaj rubrike të veçantë të pararegistruar përfaqëson performancë afër tavanit, por meriton një kornizim të kujdesshëm. Rezultati përshkruan sjelljen e motorit kundrejt pesëmbëdhjetë rasteve të zgjedhura me kujdes, të anonimizuara, të vlerësuara një herë secila, sipas një rubrike të vetme. Ne jemi të qartë për atë që numri tregon dhe nuk tregon.
Pika tregon se motori V11 i trajtoi saktë modelet diagnostike të përzgjedhura për këtë vlerësim, sipas një metodologjie të publikuar dhe të riprodhueshme. Ajo nuk thotë se motori është i saktë për çdo panel analizash gjaku që ekziston në botën reale. Nuk thotë se motori duhet të zëvendësojë gjykimin e klinicistit. Dhe nuk thotë se motori tejkalon sisteme të tjera të AI — analizat krahasuese kundrejt motorëve të tjerë ishin qëllimisht jashtë fushës së këtij raporti.
Ajo që pika vërteton është një bazë. Me rubrikën dhe mjetin (harness) të publikuar, versionet e ardhshme të motorit mund të vlerësohen kundrejt të njëjtave pesëmbëdhjetë raste, dhe diferenca midis pikës së publikuar dhe çdo ekzekutimi pasues është vetë e matshme. Kjo është vlera e pararegistrimit: i shndërron pretendimet për performancën në pretendime të verifikueshme.
Si ta riprodhoni këtë standard brenda 10 minutash
Riprodhimi kërkon vetëm një çift kredencialesh API Kantesti dhe një mjedis Python 3.10 ose më të ri me requests dhe reportlab bibliotekat e instaluara. Mjeti i plotë është një modul i vetëm Python, vetëpërmbajtur, i lëshuar nën licencën MIT.
Katër hapa për një ekzekutim të ri
Një. Klono depon: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dy. Instaloni varësitë me pip install -r requirements.txt. Tre. Vendosni KANTESTI_USERNAME dhe KANTESTI_PASSWORD si variabla mjedisore — kredencialet lexohen në kohën e ekzekutimit dhe asgjë nuk është e koduar fort në skript. Katër. Ekzekutoni python benchmark_bloodtest.py dhe inspektoni katër artefaktet e emetuara në drejtorinë e punës: një CSV scorecard, një JSON scorecard, një hedhje e plotë JSON duke përfshirë përgjigjet e papërpunuara të motorit, dhe një raport Markdown i lexueshëm nga njeriu.
Ekzekutimi referencë nga 23 prill 2026 ruhet në results/ në drejtorinë e repository-t. Një ekzekutim i ri do të prodhojë një scorecard të re me timestamp, duke e lënë ekzekutimin referencë të paprekur. Nëse ekzekutimi juaj prodhon një rezultat dukshëm të ndryshëm, ju lutemi hapni një issue në GitHub me timestamp-in e ekzekutimit dhe versionin e motorit të kthyer në metadata e përgjigjes.
Kufizimet dhe puna e ardhshme
Katër kufizime meritojnë njohje të qartë: madhësia e kampionit, vlerësimi një herë (single-shot), shtrirja vetëm e një motori, dhe origjina e të dhënave nga një burim i vetëm. Secili po adresohet në punë pasuese aktive.
Madhësia e kampionit. Pesëmbëdhjetë raste në tetë kategori specialitetesh janë të mjaftueshme për një provë koncepti, por jo për analizë nëngrupesh brenda një specialiteti. Zgjerimi në pesëdhjetë raste është planifikuar dhe do të përfshijë panele të koagulimit, shqyrtim për malignancitë hematologjike, panele për shtatzëni dhe paraqitje pediatrike.
Vlerësimi një herë (single-shot). Çdo rast u vlerësua vetëm një herë. Modelet e gjuhës së madhe shfaqin variancë jo të parëndësishme të daljes edhe në temperaturë të ulët të kampionimit, prandaj një protokoll me shumë ekzekutime me pesë vlerësime për rast dhe variancë të raportuar është hapi tjetër natyror.
Shtrirja vetëm e një motori. Ky raport karakterizon një motor. Analizat krahasuese kundrejt sistemeve të tjera AI janë jashtë objektit këtu; mund t’i ndjekim ato si një studim i veçantë i pavarur me metodologji të përshtatshme.
Origjina e të dhënave nga një burim i vetëm. Pesëmbëdhjetë rastet janë të anonimizuara, të dhëna reale të pacientëve, të nxjerra nga një repository i vetëm klinik. Ato përfaqësojnë një mostër të përzgjedhur dhe nuk janë një përzgjedhje e rastësishme që përfaqëson popullatën. Zgjerimi i vlerësimit në të dhëna nga shumë qendra është në planifikim.
Zgjerimi më me ndikim i planifikuar është barazia shumëgjuhëshe. Motori AI Kantesti u shërben përdoruesve në 75+ gjuhë, dhe ekzekutimi i të njëjtit harness me pesëmbëdhjetë raste në turqisht, gjermanisht, spanjisht, frëngjisht dhe arabisht do të masë cilësinë e daljes në gjuhët e mbështetura nga motori. Ne do të publikojmë çdo ekzekutim specifik për gjuhën me DOI-n e vet dhe degën e harness-it.