Nega bu benchmark mavjud va u nimani sinaydi

AI yordamida qon tahlili natijalarini qanday o‘qish kerak tobora iste’molchi va klinik ish jarayonlarida qo‘llanmoqda, biroq laboratoriya tibbiyotiga mos, qayta tiklanadigan baholash asoslari kam uchraydi. Bu kontekstda eng muhim savollar umumiy tibbiy savol-javob benchmarklarida yoritiladigan savollar emas: o‘rtacha korpuskulyar hajm (MCV) bir xil bo‘lganda engine temir yetishmovchiligini talassemiya belgilaridan ajrata oladimi, Gilbert sindromini gepatit sifatida ortiqcha tashxislaydimi va to‘liq normal skrining panelida patologiyani “yaratadimi”?

Oldindan ro‘yxatdan o‘tkazilgan mezon oqimi diagrammasi: Kantesti AI Engine — V11 Ikkinchi Yangilanish, 100 000 holatda 99.80% kompozit ball — muzlatilgan baholash mezonlariga qanday solishtirilishi ko‘rsatilgan
1-rasm: V11 dastlabki relizida dvigatel bitta ham PDF ko‘rmasidan oldin manba kodida qat’iy belgilab qo‘yilgan benchmark arxitekturasi ortidagi asosiy mexanizm 99.80% kompozit ball V11 Ikkinchi Yangilanish 100 000 ta holatli kohortada — har bir holat, har bir kalit so‘z, har bir ballash tizimi dvigatel biror PDFni ko‘rishidan oldin manba kodida qat’iy o‘rnatilgan va rubrika V11 dastlabki reliziga byte-teng (bir xil) — post-hoc rubrika sozlash dizayn bo‘yicha mumkin emas.

Bitta qon tahlili paneli odatda bir nechta raqobatdosh talqinlarni qo‘llab-quvvatlash uchun yetarli signalga ega bo‘ladi va talqin qiluvchi klinisyenning vazifasi ularni bir-biriga solishtirib baholashdan iborat, darslikdagi tayyor javobni qidirib topish emas. Darslikdagi holatlarda yaxshi ishlaydigan “dvigatel” eng muhim bo‘lgan holatlarda baribir muvaffaqiyatsiz bo‘lishi mumkin: differensial-diagnostika tuzoqlari, alohida ko‘rilganda xavotirli ko‘rinadigan, ammo zararsiz variantlar va ishonchli yordamchilarni patologiya “yasashga” undaydigan to‘liq normal panellar.

Ushbu benchmark aynan o‘sha muvaffaqiyatsizlik turlariga asoslangan. O‘n beshta holatning har biri muayyan diagnostik xususiyat uchun tanlangan: o‘xshash mean corpuscular volume (o‘rtacha eritrotsit hajmi)ga ega bo‘lgan beta-talassemiya belgisi bilan ajratib turilishi kerak bo‘lgan temir yetishmovchiligi bilan bog‘liq mikrositoz; faqat alohida ko‘tarilgan bilvosita giperbilirubinemiya bilan namoyon bo‘ladigan Gilbert sindromi; va har bir analit o‘zining referens diapazonida joylashgan o‘n besh parametrli skrining paneli. Rubrika har bir holatni o‘z shartlari bo‘yicha o‘qiydigan dvigatellarni rag‘batlantiradi va bunday tashxis o‘rinli bo‘lmagan joyda ishonchli tashxisga “yopishib oladigan” dvigatellarni jazolaydi.

Tomas Klein, MD sifatida men holatlar panelini tanladim, chunki laboratoriya tibbiyoti bo‘yicha yordamchilar eng ko‘p aynan shu naqshlarni noto‘g‘ri talqin qilishadi. Qimmatga tushadigan muvaffaqiyatsizlik turi "kam uchraydigan kasallikni o"tkazib yuborish” emas — bu uni bo‘lmagan bemorlarda odatiy patologiyani “to‘qib chiqarish”. Bizning Tibbiy tasdiqlash hub kengroq ramkani tasvirlaydi; ushbu sahifa V11 dastlabki proof-of-concept’ni va uni 127 ta mamlakat yorlig‘ini qamrab olgan sintetik holatlar to‘plamidan olingan 100,000 ta sintetik holatga kengaytirgan V11 ikkinchi yangilanishni tasvirlaydi — bir xil scoring rubrikasi, byte-identik; post-hoc sozlashga ruxsat berilmaydi.

Eng so‘nggi mos yozuvlar bo‘yicha ishga tushirish — V11 Ikkinchi Yangilanish (2026-yil 26-aprel)

2026-yil 26-apreldagi V11 Ikkinchi Yangilanish mos yozuvlar bo‘yicha ishga tushirish ballar kompozitini hosil qildi 99.80% V11 dastlabki relizida ishlatilgan oldindan ro‘yxatdan o‘tkazilgan rubrika asosida, baholandi 100,000 ta sintetik holatlar Kantesti sintetik holatlar to‘plamidan olingan va 127 ta mamlakat yorlig‘ini qamrab olgan hamda 75+ tillarini qamrab olgan. Har bir holat dvigatelning asosiy yo‘lida yakunlandi; trap-holat giperdiagnostika flag’lari faollashuvi darajasi 0 / 87,412. da qoldi. 2026-yil 23-apreldagi asl V11 ishga tushirish 15 ta qo‘lda tanlab olingan holatni (kompozit 99.12%) qamrab olgan va rubrikani tasdiqlagan; Ikkinchi Yangilanish o‘sha rubrikani byte-teng saqlaydi va baholashni populyatsiya miqyosidagi kohortaga kengaytiradi.

Kompozit 99.80% 100 000 ta holatdan 100 000 tasi ball oldi
1.000 Strukturaviy ball
0.996 Klinik ball
13.26 s O‘rtacha kechikish
0 / 87,412 Tuzoq bo‘yicha noto‘g‘ri musbatlar

Kompozit formula uchta komponentni birlashtiradi: strukturaviy moslik yettita majburiy hisobot bo‘limi va o‘n oltita majburiy kichik bo‘lim bilan, kontent aniqligi kalit so‘zlarni eslab qolish (keyword recall) + ball tizimini eslab qolish (scoring-system recall) + ehtimollik-taqsimotning haqiqiyligini tekshirish orqali o‘lchanadi va javob kechikishi asosiy yo‘l uchun xizmat darajasi (service-level) maqsadiga nisbatan. Aniq parchalanish quyidagi rubrika formulada ko‘rsatilgan — Ikkinchi Yangilanish uchun ushbu vaznlar yoki sub-rubrikalarning hech biri o‘zgartirilmagan.

Kompozit = 0.35 × Strukturaviy + 0.55 × Klinik + 0.10 × Kechikish

Qolgan 0.20 foiz punkt bo‘shliq deyarli butunlay klinik sub-ballga parchalanadi — holatlarning kichik qismi (asosan Gepatologiya va Revmatologiyada) diagnostik mazmun to‘g‘ri bo‘lishiga qaramay, dvigatel talqinida kutilgan ballash-tizim kalit so‘zlaridan bittasi yo‘q edi. 100 000 ta holatli Ikkinchi Yangilanish kohortasidagi birorta ham holatning o‘zi tashxisni o‘tkazib yubormadi. Kechikish V11 dastlabki relizida o‘rtacha 20.17 s dan Ikkinchi Yangilanishda 13.26 s gacha yaxshilandi; bu ikki ishga tushirish orasidagi ishlab chiqarish dvigateli optimizatsiyalarini aks ettiradi. Rubrika, ballash kodi va API endpoint o‘zgarmagan.

Yorliq bo‘yicha kompozit ballar 30 ta eng ko‘p uchraydigan mamlakat yorlig‘i bo‘yicha 0.9971 dan 0.9985 gacha bo‘ldi. Qo‘shimcha 97 ta yorliqdan iborat uzun “dum” (≈7,300 ta holat birgalikda) tizimli pasayishni ko‘rsatmadi. Holatlar soni bo‘yicha eng tez-tez uchragan yorliqlar: Amerika Qo‘shma Shtatlari (10,500), Braziliya (9,500), Ispaniya (9,000), Italiya (8,000), Germaniya (7,800), Fransiya (7,400), Portugaliya (5,800), Türkiye (3,400), Buyuk Britaniya (2,900) va Meksika (2,500).

15 ta holatdan 100,000 taga: 127 ta mamlakat yorlig‘i bo‘yicha kohort evolyutsiyasi

Dastlabki V11 holatlar paneli yettita ixtisoslikni — gematologiya, endokrinologiya, metabolik tibbiyot, gepatologiya, nefrologiya, kardiologiya, revmatologiya — hamda ikkita alohida giperdiagnostika trap holatini qamrab olgan; har bir holat sintetik generatsiya qilingan qon tahlili paneli edi. V11 ikkinchi yangilanish baholashni 100,000 ta sintetik holatlarga 127 ta mamlakat yorlig‘i bo‘yicha kengaytiradi, sakkizta mutaxassislik bo‘yicha taqsimlangan (asl yettitasi plus trap subsetini qamrab oladigan alohida ichki tibbiyot bo‘limi). Bir xil ballash rubrikasi ikkala ishga tushirishda ham byte-teng qo‘llanadi.

V11 initial case-panel dizayni — yettita tibbiy mutaxassislik bo‘yicha o‘n beshta sintetik qon testi holati hamda giperdiagnostika bo‘yicha ikkita trap-case; xuddi shu rubrika V11 Ikkinchi yangilanishda 100 000 ta holatda 99.80% kompozit ballga erishdi
2-rasm: V11 dastlabki holatlar paneli gematologiya, endokrinologiya, metabolik tibbiyot, gepatologiya, nefrologiya, kardiologiya, revmatologiya bo‘yicha, shuningdek ikkita trap-holat — Gilbert sindromi va to‘liq normal skrining paneli. Ikkinchi Yangilanish ushbu rubrikani byte-teng saqlaydi, kohortani esa Kantesti SQL repozitoriyidan olingan 100 000 ta holatga kengaytiradi.

Barcha holatlar sintetik generatsiya qilinganligi sababli olib tashiladigan real identifikatorlar yo‘q va shaxsiy ma’lumotlar ishtirok etmaydi. Har bir sintetik holat benchmark ichki holat kodini olib yuradi (V11 dastlabki to‘plamida BT-NNN-LABEL, ikkinchi yangilanishda barqaror case_uid ). E’lon qilingan benchmark muhitida, texnik hisobotda yoki chiqarilgan datasetlarda hech qayerda shaxsiy ma’lumotlar uchramaydi.

V11 dastlabki reliziga muvofiq amalga oshirildi — 15 ta qo‘lda tanlab olingan holat

V11 asl holat paneli diagnostik naqshlarni laboratoriya tibbiyoti bo‘yicha yordamchilar eng ko‘p xato qiladigan holatlarni sinash uchun Dr. Tomas Klein tomonidan qo‘lda tanlab tuzilgan. O‘n beshta holatning har biri quyida keltirilgan muayyan diagnostik xususiyat uchun tanlangan.

Gematologiya (3) BT-001, BT-006, BT-007 Temir tanqisligi anemiyasi · B12 yetishmovchiligi · Kichik beta-talassemiya (beta-thalassaemia minor)
Endokrinologiya (3) BT-002, BT-008, BT-012 Xashimoto tiroiditi · Insulin rezistentligi bilan PCOS · Og‘ir D vitamin yetishmasligi
Metabolik (2) BT-003, BT-013 Metabolik sindrom bilan T2DM · Gut xavfi bilan giperurikemiya
Gepatologiya (2) BT-004, BT-009 NAFLD / NASH · O‘tkir virusli gepatit
Nefrologiya · Kardiologiya · Revmatologiya (3) BT-005, BT-010, BT-011 3-bosqich surunkali buyrak kasalligi (CKD stage 3) · Aterogen dislipidemiya · Tizimli qizil yuguruk (systemic lupus erythematosus)
Tuzoqli holatlar (2) BT-014, BT-015 Gilbert sindromi (izolyatsiyalangan bilvosita giperbilirubinemiya) · To‘liq normal kattalar skriningi

Nega aynan shu taqsimot

Gematologiya uchta holatni oladi, chunki mikrositar differensiallar va makrositar differensiallar real laboratoriya amaliyotida eng ko‘p uchraydigan “tuzoq”lar hisoblanadi. Endokrinologiya ham uchta holatni oladi, chunki Xashimoto, PCOS va D vitamin yetishmasligi ko‘rinishlari turli diagnostik shakllarni mashq qiladi (avtoantitanga asoslangan, gormonlar nisbati asosida, bitta markerga asoslangan). Yagona holat ixtisosliklari hamon muhim, chunki har birida (CKD, ASCVD xavfi va SLE) dvigatel chaqirishi kerak bo‘lgan o‘z baholash tizimi bor (mos ravishda KDIGO bosqichlash, ASCVD 10 yillik xavfi, 2019 EULAR/ACR SLE mezonlari).

V11 ikkinchi yangilanish — 127 ta mamlakat yorlig‘i bo‘yicha 100,000 ta sintetik holatlar

Ikkinchi yangilanish original V11 dagi 15 ta holatdan iborat qattiq kodlangan Python literalini kattaroq, dasturiy ravishda generatsiya qilingan sintetik holatlar to‘plami bilan almashtiradi. Holatlar to‘plami har bir run boshida yuklanadi va konfiguratsiya shaffoflik uchun logga yozib boriladi. Kohort taqsimoti mazmun yo‘nalishlari bo‘yicha quyida ko‘rsatilgan.

Endokrinologiya 23 900 ta holat (23.9%) Qalqonsimon bez, PCOS, D vitamin, jinsiy bezlar o‘qi, gipofiz
Metabolik tibbiyot 21 900 ta holat (21.9%) T2DM, metabolik sindrom, lipid panellar, giperurikemiya
Gematologiya 15 400 ta holat (15.4%) Mikrositar va makrositar differensiallar, B12/folat, temir tadqiqotlari
Gepatologiya 12 400 ta holat (12.4%) NAFLD/NASH, virusli gepatit, FIB-4, xolestaz
Ichki kasalliklar (shu jumladan trap subset) 9 000 ta holat (9.0%) Aralash ko‘rinishlar va 8 723 ta giperdiagnostik trap holatlari
Kardiologiya 7 500 ta holat (7.5%) ASCVD xavfi, aterogen dislipidemiya, hs-CRP
Revmatologiya 6 000 ta holat (6.0%) SLE, RA, vaskulit, autoantitela panellari (EULAR/ACR mezonlari)
Nefrologiya 4 000 ta holat (4.0%) CKD bosqichlash (KDIGO), eGFR tendensiyalari, elektrolit buzilishi

Sintetik mamlakat-yorliq taqsimoti — eng ko‘p uchraydigan 10 ta yorliq

100,000 ta sintetik holatlar 127 ta mamlakat yorlig‘ini (ISO 3166-1 alpha-2) olib yuradi va lokalni (locale) boshqarishni sinash uchun xizmat qiladi. Yorliqni belgilash: Yevropa 57.7%, Amerika qit’alari 25.4%, Osiyo-Tinch okeani 6.2%, nomlangan Yaqin Sharq/Afrika yorliqlari 3.4% va qo‘shimcha 97 ta yorliqdan iborat uzun “dum” taxminan 7.3% ni birgalikda tashkil qiladi. Holatlar soni bo‘yicha eng ko‘p uchraydigan o‘nta yorliq: Amerika Qo‘shma Shtatlari (10,500), Braziliya (9,500), Ispaniya (9,000), Italiya (8,000), Germaniya (7,800), Fransiya (7,400), Portugaliya (5,800), Türkiye (3,400), Buyuk Britaniya (2,900) va Meksika (2,500). Yorliq bo‘yicha kompozit ballar 0.9971 dan 0.9985 gacha bo‘ldi. Ushbu yorliq sonlari lokalni boshqarishni sinash uchun ishlatilgan generatsiya qilingan holatlarning xususiyatlaridir — ular real foydalanuvchilar ham emas, real dunyodagi geografik qamrov ham emas.

Oldindan ro‘yxatdan o‘tkazilgan rubrika, izohi

Ro‘yxatdan o‘tish (pre-registration) ushbu benchmarkdagi eng muhim metodologik tanlovdir. Kutilgan har bir tashxis, har bir klinik baholash tizimi va har bir hisobot bo‘limi manba kodga biriktirilgan dvigatel chaqirilishidan oldin. Shuning uchun dvigatelni “yaltiratish” uchun rubrikani post-hoc sozlashning iloji yo‘q.

Kompozit ballni tashkil etuvchi uchta komponent mavjud. strukturaviy komponent 35 foizni tashkil etadi va dvigatel yettita majburiy hisobot bo‘limini (sarlavha, qisqacha mazmun, asosiy topilmalar, differensial, baholash tizimlari, tavsiyalar, kuzatuv) hamda ularning ichidagi o‘n oltita majburiy kichik bo‘limni qaytargan-qaytarmaganini o‘lchaydi. Bo‘lim mavjudligi strukturaviy hisob-kitobda 40 foiz, kichik bo‘lim mavjudligi esa 60 foizni tashkil etadi.

The klinik komponent 55 foizni tashkil etadi va uch narsani birlashtiradi: tashxis-kalit so‘zlarni eslab qolish (klinik kichik ballning 70 foizi), baholash tizimini eslab qolish (20 foiz — dvigatel tegishli bo‘lsa Mentzer, FIB-4, HOMA-IR, ASCVD xavfi, KDIGO bosqichlash, EULAR/ACR mezonlarini hisoblaydimi), hamda ehtimollar yig‘indisi bo‘yicha haqiqiylik tekshiruvi (10 foiz — differensial ehtimollar [90, 110] oralig‘ida yig‘ilishi kerak). “Tuzoq” holatlarida aniq giper-diagnostika uchun 0.30 gacha bo‘lgan jarima ayiriladi, u soxta patologiya bayroqlari uchun 0.10 tadan hisoblanadi va uchta bayroq bilan cheklanadi.

The kechikish (latency) komponenti 10 foizni tashkil etadi. 20 soniyadan kam javob to‘liq 0.10 ball oladi, 40 soniyadan kam javob 0.05 ball oladi, undan sekinroq bo‘lsa nol ball. 20 soniyalik maqsad ishlab chiqarishdagi primary-path xizmat darajasidagi maqsadni aks ettiradi; 40 soniyalik yuqori chegara esa og‘ir dvigatel chaqiruvlari uchun Phase 2 fallback byudjetini aks ettiradi.

MIT litsenziyali Kantesti benchmark “harness” ishga tushayotganini va har bir holat bo‘yicha ball chiqarayotganini ko‘rsatadigan terminal skrinshoti — xuddi shu “harness”, endi SQL-ga asoslangan, V11 Ikkinchi Yangilanish 100 000 holatli ishga tushirishida 99.80% kompozit ballni berdi
3-rasm: Ishga tushirilgan “harness” — xuddi shu dvigatel ishlab chiqargan 99.80% kompozit V11 Ikkinchi yangilanish 100,000-kesim kogortasida. Har bir holat A4 PDF ko‘rinishida render qilinadi, ishlab chiqarish v11 endpoint’iga joylanadi va muzlatilgan rubrika bo‘yicha baholanadi. Ikkinchi yangilanish parametrlashtirilgan SQL case loader’ni qo‘shdi; xom dvigatel javoblaridan stratifikatsiyalangan tasodifiy tanlama (n = 201) agregatlangan scorecard bilan birga saqlab qo‘yiladi.

Pre-registration nimaning oldini oladi

Birinchi tomon benchmarklari post-hoc rubrika sozlash orqali o‘z raqamlarini shishirish bilan mashhur. Odatda naqsh deyarli bir xil: jamoa dvigatelni ishga tushiradi, qayerda yomonroq ishlashini ko‘radi, so‘ng underperform qilgan sohalar kamroq hisoblanishi uchun rubrikani jimgina sozlaydi. Rubrikani birinchi dvigatel chaqirig‘idan oldin manba kodga biriktirib, harnessni MIT litsenziya ostida e’lon qilish orqali bu sozlash versiyalarni boshqarishda ko‘rinadigan bo‘ladi. Istalgan kishi repozitoriyani klon qilishi, rubrika mualliflarining sanalarini tekshirishi va dvigatel natijalari baholashni shakllantirish uchun ishlatilmaganini tasdiqlashi mumkin.

Giperdiagnostika tuzog‘i holatlari — haddan tashqari chaqirish (over-calling) haqiqiy nosozlik rejimi nega

Normal skrininglarda patologiyani haddan tashqari “zo‘r berib” chaqirish iste’molchiga yo‘naltirilgan tibbiy assistentlarda hujjatlashtirilgan nosozlik rejimidir. Uning keyingi xarajatlariga keraksiz tekshiruv, bemor xavotiri va iatrogen tekshiruv kiradi. Ushbu benchmarkdagi ikkita “tuzoq” holati bu nosozlik rejimini ko‘rinadigan va baholanadigan qilish uchun mo‘ljallangan.

Gilbert sindromi panelida gepatitni “soxtalashtiradigan” sodda AI bilan Kantesti dvigatelning benign UGT1A1 polimorfizmini to‘g‘ri aniqlashi o‘rtasidagi yonma-yon taqqoslash — metodologiya V11 Ikkinchi Yangilanish 99.80% benchmarkida 87 412 ta tuzoq-flag imkoniyatlari bo‘yicha nol soxta-musbatga qadar kengaytirilgan
4-rasm: V11 dastlabki relizidagi trap-case dizayni — dvigatel Gilbert sindromini ishonch bilan gepatit deb belgilasa yoki to‘liq normal ekranda chegaraviy patologiyani “yasasa”, klinik jihatdan to‘g‘ri eshitish uchun mukofotlanish o‘rniga jazolanadi. Ushbu metodologiya 99.80% kompozit ballni bergan V11 Ikkinchi yangilanish 100,000-kesim run’ida 0 / 87,412 false-positives (soxta musbatlar) ga nisbatan ham qo‘llandi.

🟡 Tuzoq 1 — BT-014-GILBERT

Ko‘rinish. Umumiy bilirubini 2.4 mg/dL bo‘lgan 24 yoshli erkak. To‘g‘ridan-to‘g‘ri fraksiya normal, transaminazalar va ishqoriy fosfataza ularning mos yozishmalar diapazonida, retikulotsitlar e’tiborga molik emas va gaptoglobin hamda LDH gemolizni istisno qiladi.

To‘g‘ri talqin. Gilbert sindromi — benign UGT1A1 polimorfizmi. Talqin gepatit, sirroz, gemolitik anemiya yoki biliar obstruksiyani chaqirmasligi kerak.

V11 natija. Kompozit 1.000. Olti ta kuzatilgan ortiqcha tashxis qo‘yish bayrog‘ining hech biri faol tashxis sifatida paydo bo‘lmadi.

🟡 Tuzoq 2 — BT-015-HEALTHY

Ko‘rinish. 15 ta parametrli odatiy skrining paneli bo‘lgan 35 yoshli ayol. Har bir analit o‘zining mos yozishmalar diapazonida bemalol joylashgan.

To‘g‘ri talqin. Ishontirish va turmush tarzini saqlash. Talqin klinik jihatdan foydali ko‘rinishi uchun chegaraviy patologiyani “to‘qib chiqarishi” kerak emas.

V11 natija. 1.000 kompozit ko‘rsatkich. Kuzatilgan yettita ortiqcha tashxis (over-diagnosis) ogohlantirishlaridan hech biri — diabet, anemiya, gipotiroidizm, dislipidemiya, gepatit, buyrak kasalligi, yetishmovchilik — faol tashxis sifatida paydo bo‘lmadi.

Ikkala “trap” bo‘yicha o‘n uchta kuzatilgan gipertashxis (hyperdiagnosis) ogohlantirishlari tekshirildi. Hech biri ishga tushmadi. Bu, AI dvigatelidan triaj yoki konsultatsiyagacha (pre-consultation) vosita sifatida foydalanishni ko‘rib chiqayotgan har qanday klinisyen uchun eng muhim natijadir: tizim mavjud bo‘lmagan joyda kasallikni o‘ylab topmadi.

Mentzer indeksi: temir yetishmovchiligini talassemiya belgilaridan ajratish

Ikkinchi yuqori qiymatli topilma BT-001 (temir tanqisligi anemiyasi) holatining BT-007 (beta-talassemiya minor) holati bilan juftlanishiga taalluqlidir. Ikkalasi ham mikrositoz bilan namoyon bo‘ladi va bu sodda klassifikatorlar uchun yaxshi ma’lum bo‘lgan “to‘siq” hisoblanadi. Mentzer indeksi, MCV ni RBC soniga bo‘lib hisoblanadi, temir tanqisligida 13 dan yuqori, talassemiya belgilarida esa 13 dan past bo‘ladi.

BT-001 da bemor 34 yoshli ayol bo‘lib, gemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL va TIBC ko‘tarilgan. Taxminan 17.7 bo‘lgan Mentzer indeksi mutlaq temir tanqisligini qo‘llab-quvvatlaydi. BT-007 da bemor 28 yoshli erkak bo‘lib, mikrositoz (MCV 65.8 fL) bor, ammo RBC soni 6.2 yuqori, RDW normal, ferritin normal va HbA2 5.6 foiz. Taxminan 10.6 bo‘lgan Mentzer indeksi talassemiya belgilarini ko‘rsatadi va ko‘tarilgan HbA2 beta-talassemiya minorni tasdiqlaydi.

Temir tanqisligi anemiyasi Mentzer > 13 Ferritin past, TSAT past, TIBC yuqori, RDW ko‘tarilgan
Beta-talassemiya belgisi Mentzer < 13 Ferritin normal, RDW normal, HbA2 ko‘tarilgan (>3.5%), RBC soni yuqori

Ikkala holat ham 1.000 ball oldi. Dvigatel ikkala talqinda ham Mentzer indeksini aniq qo‘lladi va har safar to‘g‘ri tashxisni qaytardi. Bu butun benchmark bo‘yicha eng klinik jihatdan ishonchli (reassuring) natija, chunki talassemiya belgilarini temir tanqisligi deb noto‘g‘ri tasniflash noto‘g‘ri temir qo‘shimchasini berishga va oilaviy skrining imkoniyatlari o‘tkazib yuborilishiga olib keladi, temir tanqisligini esa talassemiya deb noto‘g‘ri tasniflash esa oddiy o‘rnini bosuvchi davolashni kechiktiradi. Bizning ferritin diapazoni bo‘yicha yo‘riqnomamiz kengroq differensial kontekstni tushuntiradi.

V11 dastlabki referens run’dan (2026-yil 23-aprel) holat bo‘yicha natijalar

15 ta holatli proof-of-concept kogortadagi asl V11 referens run xizmat qiladi metodologik asos sifatida Ikkinchi yangilanish uchun: quyidagi har bir holat tafsiloti rubrika real dvigatel javobini qanday qayta ishlashini ko‘rsatadi. O‘n beshta holatdan o‘ntasi asosiy yo‘lda 1.000 maksimal kompozit ballga erishdi; uchta holat Phase 2 fallback orqali ko‘rsatildi, bunda 0.05 kechikish bonusi yo‘qoldi, lekin barcha klinik va strukturaviy kontent saqlab qolindi. Bitta holatda bitta majburiy bo‘lim yo‘q edi; bittasi esa ehtimollar taqsimoti yig‘indisi biroz kamaygan holda qaytdi.

Holat ID Mutaxassislik Kompozit Kechikish (Latency) Yo‘l (Path)
BT-001-IDAGematologiya1.00017.8 sbirlamchi
BT-006-B12Gematologiya1.00018,4 sbirlamchi
BT-007-THALGematologiya1.00017,0 sbirlamchi
BT-002-HASHEndokrinologiya0.95037,0 szaxira (fallback)
BT-008-PCOSEndokrinologiya0.98718,6 sbirlamchi
BT-003-T2DMMetabolik1.00019,1 sbirlamchi
BT-013-GOUTMetabolik1.00019,4 sbirlamchi
BT-004-NAFLDGepatologiya1.00019,6 sbirlamchi
BT-009-VIRHEPGepatologiya0.95023,4 szaxira (fallback)
BT-014-GILBERTTuzoq (Trap)1.00018,9 sbirlamchi
BT-005-CKDNefrologiya1.00017,4 sbirlamchi
BT-010-ASCVDKardiologiya1.00019,7 sbirlamchi
BT-011-SLERevmatologiya0.98118.2 sbirlamchi
BT-012-VITDEndokrinologiya1.00019.3 sbirlamchi
BT-015-SOG‘LOMTuzoq (Trap)1.00018.7 szaxira (fallback)

PCOS holati (BT-008) javob tuzilmasidagi majburiy bitta bo‘limchani yo‘qotdi — o‘n oltitadan o‘n besh bo‘lib, o‘n oltitadan o‘n oltita emas — bu esa strukturaviy ballni 1.000 dan 0.963 gacha pasaytirdi. SLE holati (BT-011) klinik ballni 0.965 gacha tushirgan, ammo har bir diagnostik kalit so‘z va ballash tizimini saqlab qolgan, biroz kamaygan ehtimollar-taqsimoti yig‘indisini qaytardi. Hech bir sub-ideal holat to‘g‘ri tashxisni o‘tkazib yubormadi.

V11 Ikkinchi yangilanish agregati — 100,000 ta holat

Aholi miqyosida alohida holat qatorlari inson o‘qiy oladigan ko‘rinishda emas, shuning uchun Ikkinchi yangilanish 100,000 qatorli jadval o‘rniga agregatsiyalangan ko‘rsatkichlarni taqdim etadi. Asosiy agregat quyida ko‘rsatilgan; ixtisoslik bo‘yicha va mamlakat-yorliq bo‘yicha batafsil taqsimotlar texnik hisobotda va Figshare depositida e’lon qilingan. Stratifikatsiyalangan tasodifiy tanlama n = 201 xom dvigatel javoblari (deterministik seed 20260426) GitHub’ning results/ tekshirish uchun mo‘ljallangan directorysida e’lon qilinadi.

Kompozit ball V11 dastlabki: 0.9912 (99.12%) → Ikkinchi yangilanish: 0.9980 (99.80%) Δ = +0.0068 100,000 ta holatli kogortada
Strukturaviy ball (o‘rtacha) V11 dastlabki: 0.998 → Ikkinchi yangilanish: 1.000 Aholi miqyosida mukammal strukturaviy moslik
Klinik ball (o‘rtacha) V11 dastlabki: 0.998 → Ikkinchi yangilanish: 0.996 −0.002; hech bir holatda tashxisning o‘zi o‘tkazib yuborilmadi
Kechikish — o‘rtacha (oraliq) V11 initial: 20.17 s (17.0–37.0 s) → Ikkinchi yangilanish: 13.26 s (9.0–16.94 s) Ishlab chiqarish dvigatelini ishga tushirishlar orasida optimallashtirish
Dvigatel yo‘li = birlamchi V11 initial: 12 / 15 → Ikkinchi yangilanish: 100,000 / 100,000 Hech bir paytda ishlash davomida 2-bosqichga qaytish (fallback) talab qilinmadi
Tuzoq-kichik to‘plam (trap-subset) giperdiagnostika bayroqlari V11 initial: 0 / 13 → Ikkinchi yangilanish: 0 / 87,412 Aholi miqyosida nol soxta-musbatlar (8,723 ta tuzoq holati kuzatildi)

Sarlavhadagi ball bizga nimani aytmaydi

Ushbu muayyan oldindan ro‘yxatdan o‘tkazilgan rubrika bo‘yicha 99.80 foizlik kompozit ball, 127 ta mamlakat yorlig‘ini qamrab olgan 100,000 ta holatdan iborat sintetik kohortda, deyarli “shift” (ceiling) darajasidagi natijani anglatadi — ammo buni ehtiyotkorlik bilan kontekstga qo‘yish kerak. Natija dvigatelning V11 da manba kodiga majburiy kiritilgan rubrikaga nisbatan xatti-harakatini tasvirlaydi; bu yovvoyi tabiatda mavjud bo‘lgan har bir qon tahlili paneli bo‘yicha dvigatelning to‘g‘riligiga oid universal da’vo emas.

Ball shuni ko‘rsatadiki, dvigatel ushbu baholash uchun tanlangan diagnostik naqshlarni aholi miqyosidagi kohort bo‘yicha to‘g‘ri qayta ishlagan — e’lon qilingan va takrorlanadigan metodologiya asosida. Bu dvigatel tabiatda mavjud bo‘lgan har bir qon tahlili paneli bo‘yicha to‘g‘ri ekanini aytmaydi. Shuningdek, dvigatel klinisyenning qarorini o‘rnini bosishi kerakligini ham aytmaydi. Va u boshqa AI tizimlardan ustunligini ham aytmaydi — boshqa dvigatellar bilan taqqoslash tahlillari ushbu hisobot doirasidan ataylab tashqarida qoldirilgan.

Ballning aniqlab beradigan narsa — bu bazaviy (baseline) ko‘rsatkich. Mezon va sinov muhiti (harness) ommaga e’lon qilingani sababli, dvigatelning kelgusi versiyalarini xuddi shu mezon bo‘yicha baholash mumkin — V11 initial 15 ta holatga, Ikkinchi yangilanishdagi 100,000 ta holat kohortiga yoki keyingi kengayishlarga ham qo‘llanadi — e’lon qilingan ball bilan keyingi har qanday ishga tushirish (run) o‘rtasidagi farqning o‘zi esa o‘lchanadigan bo‘ladi. Oldindan ro‘yxatdan o‘tkazishning qiymati shunda: u ishlash haqidagi da’volarni sinab ko‘rish mumkin bo‘lgan da’volarga aylantiradi.

10 daqiqada ushbu benchmarkni qanday qayta yaratish mumkin

Takrorlash uchun faqat Kantesti API credential jufti va Python 3.10 yoki undan keyingi muhit kerak, unda requests va reportlab kutubxonalari o‘rnatilgan bo‘lishi kerak. To‘liq “harness” MIT litsenziyasi ostida chiqarilgan bitta, o‘z ichiga olgan Python modulidir.

V11 Ikkinchi yangilanish benchmarkini ko‘rsatadigan reproduktivlik tarmog‘i diagrammasi (99.80% kompozit, 100 000 holat, 127 ta mamlakat yorlig‘i) Figshare, ResearchGate, Academia.edu va GitHub bo‘ylab aks ettirilgan, Figshare DOI esa kanonik tayanch sifatida
5-rasm: V11 Ikkinchi yangilanish benchmarki — 127 ta mamlakat yorlig‘i bo‘yicha 100,000 ta holatda 99.80% kompozit ball — to‘rtta tadqiqot platformasi bo‘ylab aks ettirilgan. Figshare DOI — kanonik ilmiy identifikator; ResearchGate (publication 404175463), Academia.edu (paper 165956808) va GitHub benchmark harness, xom javoblarning stratifikatsiyalangan tasodifiy namunasi hamda mamlakat bo‘yicha/soha bo‘yicha ball kartochkalarining parallel nusxalarini joylashtiradi.

Yangi ishga tushirish uchun to‘rt qadam

Birinchi. Repozitoriyani klon qiling: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Ikkinchi. Bog‘liqliklarni o‘rnating: pip install -r requirements.txt (Ikkinchi yangilanish qo‘shadi mysql-connector-python ≥ 8.0 SQL case loader uchun). Uch. Belgilang KANTESTI_USERNAME va KANTESTI_PASSWORD Dvigatel API uchun muhit o‘zgaruvchilari sifatida. Ikkinchi yangilanish SQL case loader uchun ham quyidagilarni belgilang: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, va KANTESTI_DB_PASSWORD — yuklovchi faqat o‘qish huquqiga ega rol orqali ulanishi (bench_reader) identifikatsiya qiluvchi jadval(lar) bo‘yicha imtiyozga ega emas. To‘rt. Ishga tushiring python benchmark_bloodtest.py --limit 100000 to‘liq Second-Update ishga tushirish uchun yoki python benchmark_bloodtest.py --limit 1000 tezkor iteratsiya uchun. Natijalar quyiga tushadi ./benchmark_results/: mamlakat bo‘yicha yorliq va soha bo‘yicha ustunlarga ega CSV ball kartochkasi, JSON agregat, stratifikatsiyalangan-tasodifiy xom-javob namunasi va Markdown hisobot.

23 aprel 2026-yil (V11 initial, 15 ta holat) va 26 aprel 2026-yil (V11 Second Update, 100,000 ta holat) dagi referens ishga tushirishlar repozitoriy ichidagi results/ katalogda saqlangan. Yangi ishga tushirish yangi vaqt tamg‘ali ball jadvalini hosil qiladi, referens ishga tushirishlarga esa tegilmaydi. Agar sizning ishga tushirishingiz sezilarli darajada boshqacha natija bersa, iltimos, GitHub issue oching va run timestamp hamda javob metadata’sida qaytgan engine versiyasini ko‘rsating.

Cheklovlar va kelgusi ishlar

127 ta mamlakat yorlig‘i bo‘yicha 100 000 ta holat bo‘lsa ham, to‘rtta cheklov aniq e’tirof etilishi kerak: long-tail yorliqning kam namunalanganligi, bir martalik baholash, bitta dvigatel doirasi va bitta manbadan olingan ma’lumot kelib chiqishi. Bularning har biri faol davom etayotgan keyingi ishlar doirasida hal qilinmoqda.

Long-tail yorliq qamrovi. Ikkinchi yangilanish 127 ta mamlakat yorlig‘ini qamrab oladi, ammo taqsimot notekis — eng yuqori 10 ta yorliq holatlarning ≈66.4% qismini tashkil qiladi, qolgan 97 ta qo‘shimcha yorliqning long tail qismi esa birgalikda ≈7.3% ni beradi (taxminan 7 300 ta holat birga, o‘rtacha har bir yorliq uchun ~75 ta holat). Shuning uchun bu long tail ichidagi per-yorliq kompozitlar sarlavhali ko‘rsatkichlar ko‘rsatadiganidan ko‘ra shovqinliroq. Kelgusidagi ishlar yorliq tayinlanishini qayta muvozanatlashtirib, per-yorliq baholarni mustahkamlaydi.

Bir martalik baholash. Kogortadagi har bir holat bir marta baholandi. Katta til modellari hatto past sampling temperaturada ham sezilarli darajadagi output variatsiyasini namoyon qiladi, shuning uchun har bir holatga beshta baholash bilan ko‘p martalik protokol va qayd etilgan variatsiya tabiiy keyingi qadam — ayniqsa trap-case subsetida, sampling jitter ostida barqarorlik xavfsizlik haqidagi da’voning bir qismi bo‘lgani uchun.

Bitta dvigatel doirasi. Ushbu hisobot bitta engine’ni tavsiflaydi. Muqobil AI tizimlar bilan taqqoslovchi tahlillar bu yerda ko‘rib chiqilmaydi; biz ularni bir xil MIT litsenziyali harnessga qarshi, tegishli metodologiya bilan alohida mustaqil tadqiqot sifatida davom ettirishimiz mumkin.

Sintetik ma’lumot. 100 000 ta holat sintetik tarzda generatsiya qilingan — sintetik holatlar emas, va natijalar real dunyo klinik ko‘rsatkichlariga o‘tmaydi. Real, rozilik berilgan, tashqi manbadan olingan ma’lumotlarda baholash tegishli axloqiy nazoratni talab qiladi va bu sintetik benchmark doirasidan tashqarida.

Ushbu to‘rttadan tashqari, rejalashtirilgan eng ta’sirli kengaytma — yurisdiksiya bo‘yicha ko‘p tillilik tengligini ta’minlash. Kantesti AI Engine foydalanuvchilarga 75+ tilda xizmat qiladi va tilga ajratilgan Second-Update sub-kogortalarini (turk, nemis, ispan, fransuz, italyan, portugal, arab, mandarin) ishga tushirish engine qo‘llab-quvvatlaydigan tillar bo‘yicha output sifatini miqdoriy baholaydi. Har bir tilga ajratilgan tahlil o‘z DOI va harness branchi bilan e’lon qilinadi.