Pse ekziston ky benchmark dhe çfarë teston

interpretimi i analizave të gjakut me AI po përdoret gjithnjë e më shumë në procese pune për konsumatorë dhe në mjedise klinike, megjithatë kornizat e vlerësimit të riprodhueshme të përshtatura për mjekësinë laboratorike mbeten të rralla. Pyetjet që kanë më shumë rëndësi në këtë kontekst nuk janë ato të mbuluara nga standardet e përgjithshme të pyetje-përgjigjes mjekësore: a mundet një motor të dallojë mungesën e hekurit nga tipari i talasemisë kur vëllimi mesatar korpuskular është identik, a e diagnostikon gabimisht sindromën e Gilbert-it si hepatit, dhe a prodhon patologji në një panel kontrolli plotësisht normal?

Diagrami i rrjedhës së rubrikës së para-regjistruar që tregon si vlerësohet Kantesti AI Engine — Përditësimi i Dytë V11, rezultati kompozit 99.80% në 100,000 raste — kundrejt kritereve të ngrira të vlerësimit
Figura 1: Arkitektura e standardit pas Rezultat i përbërë 99.80% në V11 Përditësimin e Dytë, grupi prej 100,000 rastesh — çdo rast, çdo fjalë kyçe, çdo sistem vlerësimi është i fiksuar në kodin burimor përpara se motori të shohë qoftë edhe një PDF, dhe rubrika është identike në nivel bajtesh me publikimin fillestar të V11. Rregullimi i rubrikës post-hoc është i pamundur nga dizajni.

Një panel i vetëm i analizave të gjakut zakonisht përmban sinjal të mjaftueshëm për të mbështetur disa interpretime konkurruese, dhe puna e mjekut që interpreton është t’i peshojë ato interpretime kundrejt njëra-tjetrës, jo të rikuperojë një përgjigje si në tekst shkollor. Një motor që ia del mirë në rastet “nga teksti” mund të dështojë ende në ato raste që kanë më shumë rëndësi: kurthet e diagnozës diferenciale, variantet beninje që duken alarmante kur merren veçmas, dhe panelet plotësisht normale që i tundin asistentët e sigurt të prodhojnë patologji të fabrikuar.

Ky benchmark u ndërtua pikërisht rreth këtyre mënyrave dështimi. Secili prej pesëmbëdhjetë rasteve u zgjodh për një veçori të caktuar diagnostike: një mikrocitozë nga mungesa e hekurit që duhet të mbahet e veçuar nga një tipar i beta-talassemisë me vëllim mesatar të eritrociteve identik, një paraqitje e sindromës së Gilbert-it ku e vetmja anomali është një hiperbilirubinemi e izoluar indirekte, dhe një panel shqyrtimi me pesëmbëdhjetë parametra ku çdo analit qëndron brenda intervalit të tij të referencës. Rubrika shpërblen motorët që e lexojnë çdo rast sipas kushteve të veta dhe penalizon motorët që arrijnë në një diagnozë të sigurt kur një diagnozë e tillë nuk justifikohet.

Si Thomas Klein, MD, e zgjodha panelin e rasteve sepse këto janë modelet që i shoh se asistentët e mjekësisë laboratorike i ngatërrojnë më shpesh. Mënyra e shtrenjtë e dështimit nuk është "të humbasësh një sëmundje të rrallë" — është të fabrikohet patologji rutinë te pacientët që nuk e kanë atë. Tonë Validimi Mjekësor hub përshkruan kornizën më të gjerë; kjo faqe përshkruan provën fillestare të V11 dhe Përditësimin e Dytë V11 që e shkallëzoi atë në 100,000 raste sintetike të nxjerra nga një grup rastesh sintetik që përfshin 127 etiketa vendesh — duke përdorur të njëjtën rubrikë vlerësimi, identike në bajt, pa lejuar akordim post-hoc.

Ekzekutimi i fundit i referencës — V11 Përditësimi i Dytë (26 prill 2026)

Ekzekutimi i referencës së V11 Përditësimit të Dytë më 26 prill 2026 prodhoi një rezultat të përbërë prej 99.80% në të njëjtën rubrikë të pararegistruar të përdorur në publikimin fillestar të V11, vlerësuar në 100,000 raste sintetike të nxjerra nga grupi i rasteve sintetike të Kantesti dhe që shtrihen në 127 etiketa vendesh dhe gjuhët 75+. Çdo rast u përfundua në shtegun kryesor të motorit; aktivizimet e flamurit të hiperdetektimit të rasteve-trap mbetën në 0 / 87,412. Ekzekutimi origjinal i V11 më 23 prill 2026 mbuloi 15 raste të kuruara manualisht (rezultat i përbërë 99.12%) dhe verifikoi rubrikën; Përditësimi i Dytë e mban atë rubrikë identike në nivel bajtesh dhe e shtrin vlerësimin në një grup në shkallë popullsie.

I përbërë 99.80% 100,000 nga 100,000 raste me rezultat
1.000 Rezultati strukturor
0.996 Rezultati klinik
13.26 s Mesatarja e vonesës
0 / 87,412 Pozitivë të rremë në kurthe

Formula e përbërë kombinon tre komponentë: përputhshmëria strukturore me shtatë seksionet e detyrueshme të raportimit dhe gjashtëmbëdhjetë nënseksionet e detyrueshme, saktësia e përmbajtjes e matur si rikujtim i fjalëkyçeve plus rikujtim i sistemit të pikëzimit plus një kontroll i vlefshmërisë së shpërndarjes së probabilitetit, dhe vonesa e përgjigjes kundrejt objektivit të shërbimit në shtegun kryesor. Dekompozimi i saktë tregohet në formulën e rubrikës më poshtë — asnjë nga këto pesha apo nën-rubrika nuk u ndryshua për Përditësimin e Dytë.

I përbërë = 0.35 × Struktura + 0.55 × Klinika + 0.10 × Vonesa

Pikat e mbetura të hapësirës (headroom) prej 0.20 përqindësh dekompozohen pothuajse tërësisht në nën-rezultatin klinik — një pjesë e vogël e rasteve (kryesisht në Hepatologji dhe Reumatologji) kishin një fjalë kyçe të pritur të sistemit të vlerësimit që mungonte në interpretimin e motorit, pavarësisht se përmbajtja diagnostike ishte e saktë. Asnjë rast në grupin e Përditësimit të Dytë me 100,000 raste nuk e humbi vetë diagnozën. Latenca u përmirësua nga një mesatare prej 20.17 s në publikimin fillestar të V11 në 13.26 s në Përditësimin e Dytë, duke reflektuar optimizimet e motorit të prodhimit midis dy ekzekutimeve; rubrika, kodi i vlerësimit dhe endpoint-i i API-së janë të pandryshuara.

Rezultatet e përbëra për etiketë varionin nga 0.9971 deri në 0.9985 në 30 etiketat më të përfaqësuara të vendeve. Fundi i gjatë i 97 etiketave shtesë (≈7,300 raste të kombinuara) nuk tregoi degradim sistematik. Etiketat më të shpeshta sipas numrit të rasteve ishin Shtetet e Bashkuara (10,500), Brazili (9,500), Spanja (9,000), Italia (8,000), Gjermania (7,800), Franca (7,400), Portugalia (5,800), Türkiye (3,400), Mbretëria e Bashkuar (2,900) dhe Meksika (2,500).

Nga 15 raste në 100,000: evolucion i kohoortit në 127 etiketa vendesh

Paneli origjinal i rasteve V11 mbulonte shtatë specialitete — hematologji, endokrinologji, mjekësi metabolike, hepatologji, nefrologji, kardiologji, reumatologji — plus dy raste të dedikuara “hyperdiagnosis trap”, ku secili rast ishte një panel analizash gjaku i gjeneruar në mënyrë sintetike. Përditësimi i Dytë V11 e shtrin vlerësimin në 100,000 raste sintetike në 127 etiketa vendesh, të shpërndara në tetë specialitete (shtatë origjinale plus një kategori e dedikuar e mjekësisë së brendshme që përthith nën-grupin trap). E njëjta rubrikë vlerësimi aplikohet identike në nivel bajtesh në të dy ekzekutimet.

Dizajni i panelit të rasteve fillestare V11 — pesëmbëdhjetë raste testimi sintetike të analizës së gjakut në shtatë specialitete mjekësore plus dy raste “trap” për hiperdignostikim; e njëjta rubrikë arriti një rezultat kompozit 99.80% në 100,000 raste në Përditësimin e Dytë V11
Figura 2: Dizajni fillestar i panelit të rasteve të V11 në hematologji, endokrinologji, mjekësi metabolike, hepatologji, nefrologji, kardiologji, reumatologji, plus dy raste trap — sindroma e Gilbert-it dhe një panel skriningu plotësisht normal. Përditësimi i Dytë ruan këtë rubrikë identike në nivel bajtesh, ndërsa e shtrin grupin në 100,000 raste të nxjerra nga depoja SQL Kantesti.

Meqë të gjitha rastet janë të gjeneruara në mënyrë sintetike, nuk ka identifikues realë për t’u hequr dhe nuk përfshihen të dhëna personale. Çdo rast sintetik mban një kod të brendshëm të rastit për benchmark (BT-NNN-LABEL në grupin fillestar të V11, një case_uid në Përditësimin e Dytë). Asnjë e dhënë personale nuk shfaqet askund në mjetin e publikuar, raportin teknik ose në grupet e të dhënave të lëshuara.

publikimin fillestar të V11 — 15 raste të kuruara manualisht

Paneli origjinal i rastit V11 u përzgjodh me dorë nga Dr. Thomas Klein për të ushtruar modelet diagnostike që asistentët e mjekësisë laboratorike i ngatërrojnë më shpesh. Secili nga pesëmbëdhjetë rastet u zgjodh për një veçori të caktuar diagnostike, e renditur më poshtë.

Hematologji (3) BT-001, BT-006, BT-007 Anemi nga mungesa e hekurit · Mungesë e B12 · Talasemi beta e lehtë (minor)
Endokrinologji (3) BT-002, BT-008, BT-012 Tiroiditi i Hashimoto-s · PCOS me rezistencë ndaj insulinës · Mungesë e rëndë e vitaminës D
Metabolike (2) BT-003, BT-013 T2DM me sindromë metabolike · Hiperurikemi me rrezik për përdhes
Hepatologji (2) BT-004, BT-009 NAFLD / NASH · Hepatit akut viral
Nefrologji · Kardiologji · Reumatologji (3) BT-005, BT-010, BT-011 Sëmundje kronike e veshkave (CKD) faza 3 · Dislipidemi aterogjene · Lupus eritematoz sistemik
Rastet “trap” (2) BT-014, BT-015 Sindroma e Gilbert-it (hiperbilirubinemi e izoluar indirekte) · Skriningu i të rriturve plotësisht normal

Pse kjo shpërndarje e veçantë

Hematologjia merr tre raste, sepse diferencialet mikrocitike dhe diferencat makrocitike janë kurthet me volumin më të lartë në praktikën reale të laboratorit. Endokrinologjia merr tre, sepse paraqitjet e Hashimoto-s, PCOS dhe mungesës së vitaminës D ushtrojnë forma të ndryshme diagnostikuese (të drejtuara nga autoantitrupat, të drejtuara nga raportet hormonale, të drejtuara nga një marker i vetëm). Specialitetet me një rast janë ende domethënëse, sepse secila prej CKD, rrezikut ASCVD dhe SLE ka sistemin e vet të pikëzimit që motori duhet ta thërrasë (stazhimi KDIGO, rreziku 10-vjeçar ASCVD, kriteret 2019 EULAR/ACR për SLE, përkatësisht).

Përditësimi i Dytë V11 — 100,000 raste sintetike në 127 etiketa vendesh

Përditësimi i Dytë zëvendëson literal-in origjinal të ngurtë 15-rastesh të Python-it të V11 me një grup më të madh, të gjeneruar në mënyrë programatike, të rasteve sintetike. Grupi i rasteve ngarkohet në fillim të çdo ekzekutimi dhe konfigurimi regjistrohet për transparencë. Shpërndarja e kohoortit sipas fushës së përmbajtjes tregohet më poshtë.

Endokrinologji 23,900 raste (23.9%) Tiroidja, PCOS, mungesë e vitaminës D, boshti gonadal, hipofiza
Mjekësi metabolike 21,900 raste (21.9%) T2DM, sindromë metabolike, panele lipidike, hiperurikemi
Hematologji 15,400 raste (15.4%) Diferenciale mikrocitike dhe makrocitike, B12/folat, studime të hekurit
Hepatologji 12,400 raste (12.4%) NAFLD/NASH, hepatit viral, FIB-4, kolestazë
Mjekësi e brendshme (përfshirë nën-pjesën “trap”) 9,000 raste (9.0%) Prezantime të përziera dhe 8,723 raste të dedikuara “hyperdiagnosis trap”
Kardiologji 7,500 raste (7.5%) Rreziku ASCVD, dislipidemia aterogjenike, hs-CRP
Reumatologji 6,000 raste (6.0%) SLE, RA, vaskulit, panele të autoantitrupave (kriteret EULAR/ACR)
Nefrologji 4,000 raste (4.0%) Stadifikimi i CKD (KDIGO), trendet e eGFR, çrregullim i elektroliteve

Shpërndarja sintetike e etiketave të vendeve — top 10 etiketa

100,000 rastet sintetike mbajnë 127 etiketa vendesh (ISO 3166-1 alpha-2) për të ushtruar trajtimin e lokalitetit. Caktimi i etiketës: Evropa 57.7%, Amerikët 25.4%, Azia-Paqësori 6.2%, etiketa të emërtuara për Lindjen e Mesme/Afrikën 3.4% dhe një bisht i gjatë prej 97 etiketash shtesë afërsisht 7.3% të kombinuara. Dhjetë etiketat më të shpeshta sipas numrit të rasteve janë Shtetet e Bashkuara (10,500), Brazili (9,500), Spanja (9,000), Italia (8,000), Gjermania (7,800), Franca (7,400), Portugalia (5,800), Türkiye (3,400), Mbretëria e Bashkuar (2,900) dhe Meksika (2,500). Rezultatet e përbëra për etiketë varionin nga 0.9971 deri në 0.9985. Këto numërime etiketash janë veti të rasteve të gjeneruara të përdorura për të ushtruar trajtimin e lokalitetit — ato nuk janë përdorues realë dhe as mbulim gjeografik real në botën reale.

Rubrika e regjistruar paraprakisht, e shpjeguar

Regjistrimi paraprak është zgjedhja metodologjike e vetme më e rëndësishme në këtë benchmark. Çdo diagnozë e pritur, çdo sistem klinik pikëzimi dhe çdo seksion raporti u angazhuan në kodin burim përpara se të thirrej motori. Prandaj, akordimi post-hoc i rubrikës për ta bërë motorin të duket më mirë është i pamundur.

Tre komponentë përbëjnë rezultatin e përbërë. Komponenti strukturor kontribuon me 35 për qind dhe mat nëse motori ktheu shtatë seksionet e detyrueshme të raportit (titulli, përmbledhja, gjetjet kryesore, diferencimi, sistemet e pikëzimit, rekomandimet, ndjekja) dhe gjashtëmbëdhjetë nënseksionet e detyrueshme brenda tyre. Prania e seksionit peshon 40 për qind dhe prania e nënseksionit peshon 60 për qind brenda llogaritjes strukturore.

I/E/Të/Të komponenti klinik kontribuon me 55 për qind dhe kombinon tre gjëra: rikujtimi i diagnozës sipas fjalëkyçit (70 për qind e nën-pikës klinike), rikujtimi i sistemit të pikëzimit (20 për qind — a llogarit motori Mentzer, FIB-4, HOMA-IR, rrezikun ASCVD, stazhimin KDIGO, kriteret EULAR/ACR kur është relevante), dhe një kontroll i vlefshmërisë së shumës së probabiliteteve (10 për qind — probabilitetet e diferencës duhet të mblidhen brenda intervalit [90, 110]). Për rastet kurth, zbritet një penalitet i qartë për hiperdetajim deri në 0.30, i llogaritur si 0.10 për çdo flamur patologjie të fabrikuar, i kufizuar në tre flamuj.

I/E/Të/Të komponenti i vonesës kontribuon me 10 për qind. Një përgjigje nën 20 sekonda fiton 0.10 të plotë, një përgjigje nën 40 sekonda fiton 0.05, dhe çdo gjë më e ngadaltë fiton zero. Objektivi 20-sekondësh pasqyron objektivin kryesor të nivelit të shërbimit të prodhimit; kufiri 40-sekondësh pasqyron buxhetin e rikthimit të Fazës 2 për thirrje të rënda të motorit.

Pamje përfundimtare (screenshot) terminale e “harness”-it të standardit Kantesti me licencë MIT duke u ekzekutuar dhe duke nxjerrë rezultate për rast — i njëjti “harness”, tani i drejtuar nga SQL, prodhoi rezultatin kompozit 99.80% në ekzekutimin me 100,000 raste të Përditësimit të Dytë V11
Figura 3: Korniza gjatë ekzekutimit — i njëjti motor që prodhoi kompozitin 99.80% në koortën V11 Second Update me 100,000 raste. Çdo rast paraqitet si një PDF A4, postohet në endpointin e prodhimit v11 dhe vlerësohet kundrejt rubrikës së ngrirë. Second Update shtoi një ngarkues rastesh SQL të parametrizuar; një mostër e rastësishme e shtresëzuar e përgjigjeve të papërpunuara të motorit (n = 201) ruhet krahas tabelës së agreguar të rezultateve.

Çfarë parandalon regjistrimi paraprak

Benchmark-et e palës së parë janë të njohura për fryrjen e numrave të tyre përmes akordimit post-hoc të rubrikës. Modeli është pothuajse gjithmonë i njëjtë: ekipi e ekzekuton motorin, sheh ku nënperformon, pastaj rregullon në heshtje rubrikën që zonat që nënperformojnë të llogariten më pak. Duke e angazhuar rubrikën në kodin burim përpara thirrjes së parë të motorit dhe duke publikuar pajisjen nën licencën MIT, ky rregullim bëhet i dukshëm në kontrollin e versioneve. Çdokush mund ta klonojë depozitën, të kontrollojë datat e autorit të rubrikës dhe të verifikojë që rezultatet e motorit nuk u përdorën për të formësuar pikëzimin.

Rastet “kurth i hiperdiagnostikimit” — pse thirrja e tepërt është mënyra reale e dështimit

Thirrja agresive e patologjisë në ekrane normale është një mënyrë dështimi e dokumentuar e asistentëve mjekësorë për konsumatorë. Kostot e saj pasuese përfshijnë hetime të panevojshme, ankth te pacienti dhe punë mjekësore të shkaktuar nga ndërhyrja (iatrogjene). Dy rastet kurth në këtë benchmark janë projektuar për ta bërë këtë mënyrë dështimi të dukshme dhe të matshme.

Krahasim krah për krah i një AI naive që fabrikon hepatitin në një panel të sindromës së Gilbert-it, kundrejt motorit Kantesti që identifikon saktë polimorfizmin e qetë UGT1A1 — metodologji që u shkallëzua në zero false-pozitive në 87,412 mundësi “trap-flag” në standardin V11 Përditësimi i Dytë 99.80%
Figura 4: Dizajni i rastit “trap” nga publikimi fillestar i V11 — një motor që etiketojnë me besim sindromën e Gilbert-it si hepatit, ose që prodhon patologji kufitare në një ekran plotësisht normal, penalizohet dhe jo shpërblehet për tingëllimin klinik. Kjo metodologji u shtrirë në 0 / 87,412 false-pozitive gjatë ekzekutimit të V11 Second Update me 100,000 raste që prodhoi rezultatin e përbërë 99.80%.

🟡 Kurthi 1 — BT-014-GILBERT

Paraqitja. Një mashkull 24-vjeçar me bilirubinë totale 2.4 mg/dL. Fraksioni direkt është normal, transaminazat dhe fosfataza alkaline qëndrojnë brenda intervaleve të tyre të referencës, retikulocitet janë pa veçori, dhe haptoglobina dhe LDH përjashtojnë hemolizën.

Interpretimi i saktë. Sindroma e Gilbert-it — një polimorfizëm beninj i UGT1A1. Interpretimi nuk duhet të thërrasë hepatit, cirrozë, anemi hemolitike ose obstruksion biliar.

Rezultati V11. Kompoziti 1.000. Asnjë nga gjashtë flamujt e monitoruar për mbi-diagnostikim nuk u shfaq si diagnozë aktive.

🟡 Kurthi 2 — BT-015-HEALTHY

Paraqitja. Një panel rutinë skriningu me pesëmbëdhjetë parametra. Çdo analit qëndron rehat brenda intervalit të tij të referencës.

Interpretimi i saktë. Sigurim dhe ruajtje e stilit të jetesës. Interpretimi nuk duhet të krijojë patologji kufitare vetëm që të duket klinikisht i dobishëm.

Rezultati V11. Përbërësi 1.000. Asnjë nga shtatë flamujt e monitoruar për mbi-diagnostikim — diabeti, anemia, hipotiroidizmi, dislipidemia, hepatiti, sëmundja e veshkave, mungesa — nuk u shfaq si diagnozë aktive.

Në të dyja “trap”-et, u kontrolluan trembëdhjetë flamuj të monitoruar për hiperdetektim. Asnjë nuk u aktivizua. Ky është rezultati që ka më shumë rëndësi për çdo klinicist që po mendon të përdorë një motor AI si mjet triage ose para-konsultimi: sistemi nuk shpiku sëmundje aty ku nuk ekzistonte.

Indeksi Mentzer: ndarja e mungesës së hekurit nga tipari i talasemisë

Një gjetje e dytë me vlerë të lartë lidhet me çiftëzimin e rastit BT-001 (anemi nga mungesa e hekurit) me rastin BT-007 (talasemi beta e vogël). Të dyja paraqiten me mikrocitozë dhe janë një pengesë e njohur për klasifikuesit naivë. Indeksi Mentzer, i llogaritur si MCV pjesëtuar me numrin e RBC, tejkalon 13 te mungesa e hekurit dhe bie nën 13 te tipari i talasemisë.

Në BT-001, pacientja ishte një grua 34-vjeçare me hemoglobinë 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritinë 6 ng/mL dhe TIBC të rritur. Indeksi Mentzer prej afërsisht 17.7 mbështet mungesën absolute të hekurit. Në BT-007, pacienti ishte një burrë 28-vjeç me mikrocitozë (MCV 65.8 fL), por me një numër të lartë RBC prej 6.2, RDW normal, ferritinë normale dhe HbA2 prej 5.6 për qind. Indeksi Mentzer prej afërsisht 10.6 tregon për tiparin e talasemisë, dhe HbA2 e rritur konfirmon talaseminë beta të vogël.

Anemi nga mungesa e hekurit Mentzer > 13 Ferritinë e ulët, TSAT e ulët, TIBC e lartë, RDW e rritur
Tipari i talasemisë beta Mentzer < 13 Ferritinë normale, RDW normale, HbA2 e rritur (>3.5%), numër i lartë RBC

Të dy rastet shënuan 1.000. Motori e përdori në mënyrë eksplicite indeksin Mentzer në të dy interpretimet dhe dha diagnozën e saktë në secilin rast. Ky është rezultati i vetëm më qetësues klinikisht në të gjithë benchmark-un, sepse keqklasifikimi i tiparit të talasemisë si mungesë hekuri çon në suplementim të papërshtatshëm me hekur dhe në humbje të mundësive për shqyrtim të historisë familjare, ndërsa keqklasifikimi i mungesës së hekurit si talasemi e vonon terapinë e thjeshtë zëvendësuese. Tonë për intervalin e ferritinës shpjegon kontekstin më të gjerë të diferencimit.

Rezultatet për rast nga ekzekutimi fillestar referencë i V11 (23 prill 2026)

Ekzekutimi origjinal referencë i V11 në koortën provë-koncept me 15 raste shërben si themeli metodologjik i Second Update: çdo detaj për rastin më poshtë tregon se si rubrika trajton një përgjigje reale të motorit. Dymbëdhjetë nga pesëmbëdhjetë rastet arritën rezultatin maksimal të përbërë prej 1.000 në rrugën kryesore; tre raste u shërbyen përmes rikthimit të Phase 2, duke humbur bonusin e latencës 0.05 ndërkohë që ruajtën të gjithë përmbajtjen klinike dhe strukturore. Një rast mungonte një nënseksion i vetëm i detyrueshëm; një tjetër ktheu një shumë të shpërndarjes së probabilitetit paksa të reduktuar.

ID e rastit Specialiteti I përbërë Latency Path
BT-001-IDAHematologji1.00017.8 sprimary
BT-006-B12Hematologji1.00018.4 sprimary
BT-007-THALHematologji1.00017.0 sprimary
BT-002-HASHEndokrinologji0.95037.0 srikthim (fallback)
BT-008-PCOSEndokrinologji0.98718.6 sprimary
BT-003-T2DMMetabolike1.00019.1 sprimary
BT-013-GOUTMetabolike1.00019.4 sprimary
BT-004-NAFLDHepatologji1.00019.6 sprimary
BT-009-VIRHEPHepatologji0.95023.4 srikthim (fallback)
BT-014-GILBERTKurth (Trap)1.00018.9 sprimary
BT-005-CKDNefrologji1.00017.4 sprimary
BT-010-ASCVDKardiologji1.00019.7 sprimary
BT-011-SLEReumatologji0.98118.2 sprimary
BT-012-VITDEndokrinologji1.00019.3 sprimary
BT-015-HEALTHYKurth (Trap)1.00018.7 srikthim (fallback)

Rasti i PCOS (BT-008) humbi një nënseksion të detyrueshëm në strukturën e përgjigjes — pesëmbëdhjetë nga gjashtëmbëdhjetë në vend të gjashtëmbëdhjetë nga gjashtëmbëdhjetë — gjë që uli pikën strukturore nga 1.000 në 0.963. Rasti i SLE (BT-011) ktheu një shumë të lehtë të reduktuar të shpërndarjes së probabilitetit që e uli pikën klinike në 0.965, duke ruajtur çdo fjalë kyçe diagnostike dhe sistem pikëzimi. Asnjë nga dy rastet nën-optimale nuk humbi një diagnozë të saktë.

Agregati V11 Second Update — 100,000 raste

Në shkallë popullsie, rreshtat individualë të rasteve nuk janë të lexueshëm nga njeriu, prandaj Përditësimi i Dytë raporton metrika të agreguara, jo një tabelë me 100,000 rreshta. Agregati kryesor tregohet më poshtë; zbërthimet sipas specialitetit dhe sipas etiketës së vendit publikohen në raportin teknik dhe në depozitimin Figshare. Një mostër e rastësishme e shtresëzuar e n = 201 përgjigjeve të papërpunuara të motorit (farë deterministe 20260426) publikohet në direktorinë GitHub results/ për inspektim.

Rezultati i përbërë Fillestar V11: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 në koortën me 100,000 raste
Rezultati strukturor (mesatar) Fillestar V11: 0.998 → Second Update: 1.000 Konformitet perfekt strukturor në shkallë popullsie
Rezultati klinik (mesatar) Fillestar V11: 0.998 → Second Update: 0.996 −0.002; asnjë rast nuk e humbi vetë diagnozën
Latenca — mesatare (interval) Fillimi V11: 20,17 s (17,0–37,0 s) → Përditësimi i dytë: 13,26 s (9,0–16,94 s) Optimizime të motorit të prodhimit midis ekzekutimeve
Shtegu i motorit = primar Fillimi V11: 12 / 15 → Përditësimi i dytë: 100,000 / 100,000 Nuk u nevojit asnjëherë një rikthim (fallback) për Fazën 2 gjatë gjithë ekzekutimit
Flamujt e hiperdiagnostikimit për nën-bashkësinë e “trap” Fillimi V11: 0 / 13 → Përditësimi i dytë: 0 / 87,412 Zero pozitive të rreme në shkallë popullsie (8.723 raste “trap” të monitoruara)

Çfarë nuk na tregon rezultati kryesor

Një rezultat i përbërë prej 99.80 për qind sipas kësaj rubrike të veçantë të pararegistruar, në një kohoort sintetik me 100,000 raste që përfshin 127 etiketa vendesh, përfaqëson performancë afër tavanit — por meriton një kornizim të kujdesshëm. Rezultati përshkruan sjelljen e motorit kundrejt rubrikës që ne angazhuam në kodin burimor në V11; nuk është një pretendim universal për saktësinë e motorit në çdo panel analizash gjaku që ekziston në terren.

Rezultati thotë se motori i trajtoi saktë modelet diagnostike të përzgjedhura për këtë vlerësim, në një grup në shkallë popullsie, sipas një metodologjie që është publikuar dhe e riprodhueshme. Ai nuk thotë se motori është i saktë në çdo panel analizash gjaku që ekziston në botën reale. Ai nuk thotë se motori duhet të zëvendësojë gjykimin klinik. Dhe nuk thotë se motori tejkalon sisteme të tjera të AI — analizat krahasuese kundrejt motorëve të tjerë ishin qëllimisht jashtë fushës së këtij raporti.

Ajo që rezultati vërteton është një bazë reference. Me rubrikën dhe “harness”-in të publikuar, versionet e ardhshme të motorit mund të vlerësohen kundrejt të njëjtës rubrikë — të aplikuar te 15 rastet fillestare të V11, te grupi i dytë me 100.000 raste, ose te çdo zgjerim pasues — dhe diferenca midis rezultatit të publikuar dhe çdo ekzekutimi pasues është vetë e matshme. Kjo është vlera e pararegistrimit: i shndërron pretendimet e performancës në pretendime të verifikueshme.

Si ta riprodhoni këtë standard brenda 10 minutash

Riprodhimi kërkon vetëm një çift kredencialesh API Kantesti dhe një mjedis Python 3.10 ose më të ri me requests dhe reportlab bibliotekat e instaluara. Mjeti i plotë (harness) është një modul i vetëm Python, vetëpërmbajtur, i lëshuar nën licencën MIT.

Diagrami i rrjetit të riprodhueshmërisë që tregon benchmark-un e Përditësimit të Dytë V11 (kompozit 99.80%, 100,000 raste, 127 etiketa vendesh) i pasqyruar në Figshare, ResearchGate, Academia.edu dhe GitHub, me DOI e Figshare si ankorë kanonike
Figura 5: Standardi i V11 Përditësimi i Dytë — Rezultat i përbërë 99.80% në 100,000 raste në 127 etiketa vendesh — pasqyrohet në katër platforma kërkimore. DOI e Figshare është identifikuesi kanonik shkencor; ResearchGate (publikimi 404175463), Academia.edu (punimi 165956808) dhe GitHub presin kopje paralele me harness-in e benchmark-ut, kampionin e rastësishëm të shtresëzuar të përgjigjeve bruto dhe kartat e rezultateve për vend/etiketë për vend dhe për specialitet.

Katër hapa për një ekzekutim të ri

Një. Klononi depon (repository): git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dy. Instaloni varësitë me pip install -r requirements.txt (Përditësimi i Dytë shton mysql-connector-python ≥ 8.0 për ngarkuesin e rasteve SQL). Tre. Vendosni KANTESTI_USERNAME dhe KANTESTI_PASSWORD si variabla mjedisore për API-n e motorit. Për ngarkuesin e rasteve SQL të Përditësimit të Dytë, vendosni gjithashtu KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, dhe KANTESTI_DB_PASSWORD — ngarkuesi lidhet përmes një roli vetëm për lexim (bench_reader) që nuk ka privilegje për identifikimin e tabelave. Katër. Ekzekutoni python benchmark_bloodtest.py --limit 100000 për ekzekutimin e plotë Second-Update, ose python benchmark_bloodtest.py --limit 1000 për përsëritje të shpejtë. Rezultatet dalin në ./benchmark_results/: një kartelë scorecard CSV me kolona për vend/etiketë dhe për specialitet, një agregat JSON, një kampion i rastësishëm i shtresëzuar i përgjigjeve bruto dhe një raport në Markdown.

Ekzekutimet referencë nga 23 prill 2026 (V11 fillestar, 15 raste) dhe 26 prill 2026 (V11 Second Update, 100,000 raste) ruhen në results/ direktorinë e repozitorit. Një ekzekutim i ri do të prodhojë një scorecard të re me timestamp, duke i lënë ekzekutimet referencë të pandryshuara. Nëse ekzekutimi juaj prodhon një rezultat dukshëm të ndryshëm, ju lutemi hapni një çështje (issue) në GitHub me timestamp-in e ekzekutimit dhe versionin e motorit të kthyer në metadata e përgjigjes.

Kufizimet dhe puna e ardhshme

Edhe me 100,000 raste në 127 etiketa vendesh, katër kufizime meritojnë njohje të qartë: nënmostrimi i etiketave me bisht të gjatë, vlerësim një herë, shtrirje vetëm me një motor dhe origjinë vetëm nga një burim të dhënash. Secili po adresohet në punë pasuese aktive.

Mbulimi i etiketave me bisht të gjatë. Përditësimi i Dytë përfshin 127 etiketa vendesh, por shpërndarja është e pabalancuar — 10 etiketat kryesore përbëjnë ≈66.4% të rasteve, dhe bishti i gjatë i 97 etiketave shtesë së bashku kontribuon ≈7.3% (afërsisht 7,300 raste të kombinuara, ~75 raste për etiketë mesatarisht). Prandaj, kompozitetet për etiketë në këtë bisht të gjatë janë më të zhurmshme sesa sugjerojnë shifrat kryesore. Rishikimet e ardhshme do të ribilancojnë caktimin e etiketave për të forcuar vlerësimet për etiketë.

Vlerësimi një herë (single-shot). Çdo rast në koort u vlerësua vetëm një herë. Modelet e gjuhës së madhe shfaqin variancë jo të parëndësishme të daljes edhe në temperaturë të ulët të kampionimit, prandaj një protokoll me shumë ekzekutime me pesë vlerësime për rast dhe variancë të raportuar është një hap natyror i ardhshëm — veçanërisht në nën-grupin e rasteve “trap”, ku qëndrueshmëria nën luhatje kampionimi është pjesë e pretendimit për siguri.

Shtrirja vetëm e një motori. Ky raport karakterizon një motor. Analizat krahasuese kundrejt sistemeve të tjera AI janë jashtë fushës këtu; ne mund t’i ndjekim ato si një studim i veçantë i pavarur me metodologji të përshtatshme, kundrejt të njëjtit “harness” me licencë MIT.

Të dhëna sintetike. 100,000 rastet gjenerohen në mënyrë sintetike, jo janë raste sintetike, dhe rezultatet nuk transferohen në performancë klinike në botën reale. Vlerësimi mbi të dhëna reale, me pëlqim dhe të siguruara nga burime të jashtme, do të kërkonte mbikëqyrje të përshtatshme etike dhe është jashtë fushës së këtij benchmark-u sintetik.

Përtej këtyre katër, zgjerimi më me ndikim i planifikuar është barazia shumë-gjuhëshe për juridiksion. Motori Kantesti AI u shërben përdoruesve në 75+ gjuhë, dhe ekzekutimi i nën-koorteve Second-Update të stratifikura sipas gjuhës (turqisht, gjermanisht, spanjisht, frëngjisht, italisht, portugalisht, arabisht, mandarinisht) do të masë cilësinë e daljes nëpër gjuhët e mbështetura të motorit. Çdo analizë e stratifikur sipas gjuhës do të publikohet me DOI-n e vet dhe degën e “harness”.