Nega bu benchmark mavjud va u nimani sinaydi

AI yordamida qon tahlili natijalarini qanday o‘qish kerak tobora iste’molchi va klinik ish jarayonlarida qo‘llanmoqda, biroq laboratoriya tibbiyotiga mos, qayta tiklanadigan baholash asoslari kam uchraydi. Bu kontekstda eng muhim savollar umumiy tibbiy savol-javob benchmarklarida yoritiladigan savollar emas: o‘rtacha korpuskulyar hajm (MCV) bir xil bo‘lganda engine temir yetishmovchiligini talassemiya belgilaridan ajrata oladimi, Gilbert sindromini gepatit sifatida ortiqcha tashxislaydimi va to‘liq normal skrining panelida patologiyani “yaratadimi”?

Kantesti AI Engine muzlatilgan baholash mezonlariga qanday solishtirib baholanishini ko‘rsatadigan oldindan ro‘yxatdan o‘tkazilgan rubrika oqim diagrammasi
1-rasm: Benchmark arxitekturasi — har bir holat, har bir kalit so‘z, har bir ballash tizimi engine biror PDF’ni ko‘rishidan oldin manba kodida qat’iy belgilangan. Post-hoc rubrika sozlash dizayn bo‘yicha mumkin emas.

Bitta qon tahlili paneli odatda bir nechta raqobatdosh talqinlarni qo‘llab-quvvatlash uchun yetarli signalga ega bo‘ladi va talqin qiluvchi klinisyenning vazifasi ularni bir-biriga solishtirib baholashdan iborat, darslikdagi tayyor javobni qidirib topish emas. Darslikdagi holatlarda yaxshi ishlaydigan “dvigatel” eng muhim bo‘lgan holatlarda baribir muvaffaqiyatsiz bo‘lishi mumkin: differensial-diagnostika tuzoqlari, alohida ko‘rilganda xavotirli ko‘rinadigan, ammo zararsiz variantlar va ishonchli yordamchilarni patologiya “yasashga” undaydigan to‘liq normal panellar.

Ushbu benchmark aynan o‘sha muvaffaqiyatsizlik turlariga asoslangan. O‘n beshta holatning har biri muayyan diagnostik xususiyat uchun tanlangan: o‘xshash mean corpuscular volume (o‘rtacha eritrotsit hajmi)ga ega bo‘lgan beta-talassemiya belgisi bilan ajratib turilishi kerak bo‘lgan temir yetishmovchiligi bilan bog‘liq mikrositoz; faqat alohida ko‘tarilgan bilvosita giperbilirubinemiya bilan namoyon bo‘ladigan Gilbert sindromi; va har bir analit o‘zining referens diapazonida joylashgan o‘n besh parametrli skrining paneli. Rubrika har bir holatni o‘z shartlari bo‘yicha o‘qiydigan dvigatellarni rag‘batlantiradi va bunday tashxis o‘rinli bo‘lmagan joyda ishonchli tashxisga “yopishib oladigan” dvigatellarni jazolaydi.

Tomas Klein, MD sifatida men holatlar panelini tanladim, chunki laboratoriya tibbiyoti bo‘yicha yordamchilar eng ko‘p aynan shu naqshlarni noto‘g‘ri talqin qilishadi. Qimmatga tushadigan muvaffaqiyatsizlik turi "kam uchraydigan kasallikni o"tkazib yuborish” emas — bu uni bo‘lmagan bemorlarda odatiy patologiyani “to‘qib chiqarish”. Bizning Tibbiy tasdiqlash hub kengroq asosni tasvirlaydi; bu sahifa uning V11 dvigatelida qo‘llangan natijasini bayon qiladi.

Eng so‘nggi referens ish — V11 (2026-yil aprel)

Kantesti AI Engine V11’ning 2026-yil aprel oyidagi referens ishga tushirish (reference run) natijasida kompozit ball olindi: 99.12% oldindan ro‘yxatdan o‘tkazilgan o‘n besh holatli rubrika bo‘yicha. Giper-diagnostika tuzoqlariga tushgan ikkala holat ham maksimal darajada ball oldi. Mentzer indeksi temir yetishmovchiligi va talassemiya differensiali bo‘yicha to‘g‘ri qo‘llangan.

Kompozit 99.12% 15 tadan 15 ta holat ball oldi
0.998 Strukturaviy ball
0.998 Klinik ball
20.17 s O‘rtacha kechikish
0 / 13 Tuzoq bo‘yicha noto‘g‘ri musbatlar

Kompozit formula uchta komponentni birlashtiradi: strukturaviy moslik yettita majburiy hisobot bo‘limi va o‘n oltita majburiy kichik bo‘lim bilan, klinik aniqlik kalit so‘zlarni eslab qolish (keyword recall) + ball tizimini eslab qolish (scoring-system recall) + ehtimollik-taqsimotning haqiqiyligini tekshirish orqali o‘lchanadi va javob kechikishi 20 soniyalik asosiy xizmat darajasi (service-level) maqsadiga nisbatan. Aniq ajratma quyidagi rubrika formulada ko‘rsatilgan.

Kompozit = 0.35 × Strukturaviy + 0.55 × Klinik + 0.10 × Kechikish

Boshliq (headroom)ning qolgan 0,88 foiz punktga teng qismi deyarli butunlay kechikish (latency) yo‘qotishiga ajraladi — har biri minus 0,05 bo‘lgan uchta 2-bosqich (Phase 2) zaxira (fallback) chaqiruvi 0,88 punktlik yetishmovchilikning taxminan 0,60 qismini tashkil etdi — klinik mazmunga emas. Dvigatel o‘n beshta holatning hech birida to‘g‘ri tashxisni o‘tkazib yubormadi; u qayerdadir yetishgan bo‘lsa, u buni chaqiruvlarning ozchilik qismida 20 soniyalik asosiy (primary-path) maqsaddan biroz ko‘proq vaqt olgani bilan qildi.

Yetti tibbiy mutaxassislik bo‘yicha o‘n beshta holat

Holatlar paneli yettita mutaxassislikni qamrab oladi — gematologiya, endokrinologiya, metabolik tibbiyot, gepatologiya, nefrologiya, kardiologiya, revmatologiya — shuningdek, ikkita alohida giper-diagnostika tuzoq (hyperdiagnosis trap) holati. Har bir holat yozma ravishda olingan xabardor rozilik asosida Kantesti klinik ma’lumotlar omboridan olingan anonimlashtirilgan real bemor yozuvini ifodalaydi.

Yetti tibbiy mutaxassislik bo‘yicha taqsimlangan o‘n beshta anonimlashtirilgan qon tahlili holatlari qamrovi xaritasi, shuningdek giperdiaqnoz tuzoq holatlari
2-rasm: Holatlarning taqsimoti gematologiya, endokrinologiya, metabolik tibbiyot, gepatologiya, nefrologiya, kardiologiya, revmatologiya bo‘yicha, shuningdek ikkita tuzoq holati — Gilbert sindromi va to‘liq normal skrining paneli.

De-identifikatsiya Safe Harbor yondashuvi bo‘yicha amalga oshirildi: barcha bevosita identifikatorlar olib tashlandi yoki almashtirildi va har bir yozuv BT-NNN-LABEL formatida benchmark-ichki holat kodi bilan belgilandi. Qayta ishlash GDPR 9-moddasi 2-qismi (j) bandiga ilmiy tadqiqotlar uchun tegishli himoya choralarini qo‘llagan holda va Buyuk Britaniyaning GDPRga teng qoidalariga muvofiq bajarildi. Nashr etilgan “harness”, texnik hisobot yoki chiqarilgan ma’lumotlar to‘plamlarining hech birida shaxsni aniqlashga xizmat qiladigan ma’lumotlar uchramaydi.

Gematologiya (3) BT-001, BT-006, BT-007 Temir tanqisligi anemiyasi · B12 yetishmovchiligi · Kichik beta-talassemiya (beta-thalassaemia minor)
Endokrinologiya (3) BT-002, BT-008, BT-012 Xashimoto tiroiditi · Insulin rezistentligi bilan PCOS · Og‘ir D vitamin yetishmasligi
Metabolik (2) BT-003, BT-013 Metabolik sindrom bilan T2DM · Gut xavfi bilan giperurikemiya
Gepatologiya (2) BT-004, BT-009 NAFLD / NASH · O‘tkir virusli gepatit
Nefrologiya · Kardiologiya · Revmatologiya (3) BT-005, BT-010, BT-011 3-bosqich surunkali buyrak kasalligi (CKD stage 3) · Aterogen dislipidemiya · Tizimli qizil yuguruk (systemic lupus erythematosus)
Tuzoqli holatlar (2) BT-014, BT-015 Gilbert sindromi (izolyatsiyalangan bilvosita giperbilirubinemiya) · To‘liq normal kattalar skriningi

Nega aynan shu taqsimot

Gematologiya uchta holatni oladi, chunki mikrositar differensiallar va makrositar differensiallar real laboratoriya amaliyotida eng ko‘p uchraydigan “tuzoq”lar hisoblanadi. Endokrinologiya ham uchta holatni oladi, chunki Xashimoto, PCOS va D vitamin yetishmasligi ko‘rinishlari turli diagnostik shakllarni mashq qiladi (avtoantitanga asoslangan, gormonlar nisbati asosida, bitta markerga asoslangan). Yagona holat ixtisosliklari hamon muhim, chunki har birida (CKD, ASCVD xavfi va SLE) dvigatel chaqirishi kerak bo‘lgan o‘z baholash tizimi bor (mos ravishda KDIGO bosqichlash, ASCVD 10 yillik xavfi, 2019 EULAR/ACR SLE mezonlari).

Oldindan ro‘yxatdan o‘tkazilgan rubrika, izohi

Ro‘yxatdan o‘tish (pre-registration) ushbu benchmarkdagi eng muhim metodologik tanlovdir. Kutilgan har bir tashxis, har bir klinik baholash tizimi va har bir hisobot bo‘limi manba kodga biriktirilgan dvigatel chaqirilishidan oldin. Shuning uchun dvigatelni “yaltiratish” uchun rubrikani post-hoc sozlashning iloji yo‘q.

Kompozit ballni tashkil etuvchi uchta komponent mavjud. strukturaviy komponent 35 foizni tashkil etadi va dvigatel yettita majburiy hisobot bo‘limini (sarlavha, qisqacha mazmun, asosiy topilmalar, differensial, baholash tizimlari, tavsiyalar, kuzatuv) hamda ularning ichidagi o‘n oltita majburiy kichik bo‘limni qaytargan-qaytarmaganini o‘lchaydi. Bo‘lim mavjudligi strukturaviy hisob-kitobda 40 foiz, kichik bo‘lim mavjudligi esa 60 foizni tashkil etadi.

The klinik komponent 55 foizni tashkil etadi va uch narsani birlashtiradi: tashxis-kalit so‘zlarni eslab qolish (klinik kichik ballning 70 foizi), baholash tizimini eslab qolish (20 foiz — dvigatel tegishli bo‘lsa Mentzer, FIB-4, HOMA-IR, ASCVD xavfi, KDIGO bosqichlash, EULAR/ACR mezonlarini hisoblaydimi), hamda ehtimollar yig‘indisi bo‘yicha haqiqiylik tekshiruvi (10 foiz — differensial ehtimollar [90, 110] oralig‘ida yig‘ilishi kerak). “Tuzoq” holatlarida aniq giper-diagnostika uchun 0.30 gacha bo‘lgan jarima ayiriladi, u soxta patologiya bayroqlari uchun 0.10 tadan hisoblanadi va uchta bayroq bilan cheklanadi.

The kechikish (latency) komponenti 10 foizni tashkil etadi. 20 soniyadan kam javob to‘liq 0.10 ball oladi, 40 soniyadan kam javob 0.05 ball oladi, undan sekinroq bo‘lsa nol ball. 20 soniyalik maqsad ishlab chiqarishdagi primary-path xizmat darajasidagi maqsadni aks ettiradi; 40 soniyalik yuqori chegara esa og‘ir dvigatel chaqiruvlari uchun Phase 2 fallback byudjetini aks ettiradi.

MIT litsenziyali Kantesti benchmark “harness” ishga tushirilgani va har bir holat bo‘yicha ballarni chiqarayotgan terminal skrinshoti
3-rasm: Ishga tushirishdagi “harness”. Har bir holat A4 PDF ko‘rinishida render qilinadi, production v11 endpointga joylanadi va muzlatilgan rubrika bo‘yicha baholanadi. Har bir raw javob agregatlangan scorecard bilan birga saqlanadi.

Pre-registration nimaning oldini oladi

Birinchi tomon benchmarklari post-hoc rubrika sozlash orqali o‘z raqamlarini shishirish bilan mashhur. Odatda naqsh deyarli bir xil: jamoa dvigatelni ishga tushiradi, qayerda yomonroq ishlashini ko‘radi, so‘ng underperform qilgan sohalar kamroq hisoblanishi uchun rubrikani jimgina sozlaydi. Rubrikani birinchi dvigatel chaqirig‘idan oldin manba kodga biriktirib, harnessni MIT litsenziya ostida e’lon qilish orqali bu sozlash versiyalarni boshqarishda ko‘rinadigan bo‘ladi. Istalgan kishi repozitoriyani klon qilishi, rubrika mualliflarining sanalarini tekshirishi va dvigatel natijalari baholashni shakllantirish uchun ishlatilmaganini tasdiqlashi mumkin.

Giperdiagnostika tuzog‘i holatlari — haddan tashqari chaqirish (over-calling) haqiqiy nosozlik rejimi nega

Normal skrininglarda patologiyani haddan tashqari “zo‘r berib” chaqirish iste’molchiga yo‘naltirilgan tibbiy assistentlarda hujjatlashtirilgan nosozlik rejimidir. Uning keyingi xarajatlariga keraksiz tekshiruv, bemor xavotiri va iatrogen tekshiruv kiradi. Ushbu benchmarkdagi ikkita “tuzoq” holati bu nosozlik rejimini ko‘rinadigan va baholanadigan qilish uchun mo‘ljallangan.

Gilbert sindromi panelida bexosdan AI gepatitni “to‘qib chiqarishi” va Kantesti engine benign UGT1A1 polimorfizmini to‘g‘ri aniqlashi bo‘yicha yonma-yon taqqoslash
4-rasm: “Tuzoq” holat dizayni. Dvigatel Gilbert sindromini gepatit deb ishonch bilan belgilasa yoki to‘liq normal skrinda chegaraviy patologiyani “yasab” bersa — klinikdek eshitilgani uchun mukofotlanmaydi, balki jarimaga tortiladi.

🟡 Tuzoq 1 — BT-014-GILBERT

Ko‘rinish. Umumiy bilirubini 2.4 mg/dL bo‘lgan 24 yoshli erkak. To‘g‘ridan-to‘g‘ri fraksiya normal, transaminazalar va ishqoriy fosfataza ularning mos yozishmalar diapazonida, retikulotsitlar e’tiborga molik emas va gaptoglobin hamda LDH gemolizni istisno qiladi.

To‘g‘ri talqin. Gilbert sindromi — benign UGT1A1 polimorfizmi. Talqin gepatit, sirroz, gemolitik anemiya yoki biliar obstruksiyani chaqirmasligi kerak.

V11 natija. Kompozit 1.000. Olti ta kuzatilgan ortiqcha tashxis qo‘yish bayrog‘ining hech biri faol tashxis sifatida paydo bo‘lmadi.

🟡 Tuzoq 2 — BT-015-HEALTHY

Ko‘rinish. 15 ta parametrli odatiy skrining paneli bo‘lgan 35 yoshli ayol. Har bir analit o‘zining mos yozishmalar diapazonida bemalol joylashgan.

To‘g‘ri talqin. Ishontirish va turmush tarzini saqlash. Talqin klinik jihatdan foydali ko‘rinishi uchun chegaraviy patologiyani “to‘qib chiqarishi” kerak emas.

V11 natija. 1.000 kompozit ko‘rsatkich. Kuzatilgan yettita ortiqcha tashxis (over-diagnosis) ogohlantirishlaridan hech biri — diabet, anemiya, gipotiroidizm, dislipidemiya, gepatit, buyrak kasalligi, yetishmovchilik — faol tashxis sifatida paydo bo‘lmadi.

Ikkala “trap” bo‘yicha o‘n uchta kuzatilgan gipertashxis (hyperdiagnosis) ogohlantirishlari tekshirildi. Hech biri ishga tushmadi. Bu, AI dvigatelidan triaj yoki konsultatsiyagacha (pre-consultation) vosita sifatida foydalanishni ko‘rib chiqayotgan har qanday klinisyen uchun eng muhim natijadir: tizim mavjud bo‘lmagan joyda kasallikni o‘ylab topmadi.

Mentzer indeksi: temir yetishmovchiligini talassemiya belgilaridan ajratish

Ikkinchi yuqori qiymatli topilma BT-001 (temir tanqisligi anemiyasi) holatining BT-007 (beta-talassemiya minor) holati bilan juftlanishiga taalluqlidir. Ikkalasi ham mikrositoz bilan namoyon bo‘ladi va bu sodda klassifikatorlar uchun yaxshi ma’lum bo‘lgan “to‘siq” hisoblanadi. Mentzer indeksi, MCV ni RBC soniga bo‘lib hisoblanadi, temir tanqisligida 13 dan yuqori, talassemiya belgilarida esa 13 dan past bo‘ladi.

BT-001 da bemor 34 yoshli ayol bo‘lib, gemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL va TIBC ko‘tarilgan. Taxminan 17.7 bo‘lgan Mentzer indeksi mutlaq temir tanqisligini qo‘llab-quvvatlaydi. BT-007 da bemor 28 yoshli erkak bo‘lib, mikrositoz (MCV 65.8 fL) bor, ammo RBC soni 6.2 yuqori, RDW normal, ferritin normal va HbA2 5.6 foiz. Taxminan 10.6 bo‘lgan Mentzer indeksi talassemiya belgilarini ko‘rsatadi va ko‘tarilgan HbA2 beta-talassemiya minorni tasdiqlaydi.

Temir tanqisligi anemiyasi Mentzer > 13 Ferritin past, TSAT past, TIBC yuqori, RDW ko‘tarilgan
Beta-talassemiya belgisi Mentzer < 13 Ferritin normal, RDW normal, HbA2 ko‘tarilgan (>3.5%), RBC soni yuqori

Ikkala holat ham 1.000 ball oldi. Dvigatel ikkala talqinda ham Mentzer indeksini aniq qo‘lladi va har safar to‘g‘ri tashxisni qaytardi. Bu butun benchmark bo‘yicha eng klinik jihatdan ishonchli (reassuring) natija, chunki talassemiya belgilarini temir tanqisligi deb noto‘g‘ri tasniflash noto‘g‘ri temir qo‘shimchasini berishga va oilaviy skrining imkoniyatlari o‘tkazib yuborilishiga olib keladi, temir tanqisligini esa talassemiya deb noto‘g‘ri tasniflash esa oddiy o‘rnini bosuvchi davolashni kechiktiradi. Bizning ferritin diapazoni bo‘yicha yo‘riqnomamiz kengroq differensial kontekstni tushuntiradi.

2026-yil aprel oyidagi ishga tushirish natijalari bo‘yicha har bir holat kesimida natijalar

O‘n beshta holatdan o‘ntasi birlamchi yo‘lda 1.000 bo‘lgan maksimal kompozit ballga erishdi. Uchta holat Phase 2 fallback orqali xizmat ko‘rsatildi; bunda 0.05 kechikish (latency) bonusi yo‘qoldi, lekin barcha klinik va strukturaviy mazmun saqlandi. Bitta holatda bitta majburiy bo‘lim yetishmadi; bittasi esa ehtimollar taqsimoti yig‘indisi biroz kamaygan holda qaytdi.

Holat ID Mutaxassislik Kompozit Kechikish (Latency) Yo‘l (Path)
BT-001-IDAGematologiya1.00017.8 sbirlamchi
BT-006-B12Gematologiya1.00018,4 sbirlamchi
BT-007-THALGematologiya1.00017,0 sbirlamchi
BT-002-HASHEndokrinologiya0.95037,0 szaxira (fallback)
BT-008-PCOSEndokrinologiya0.98718,6 sbirlamchi
BT-003-T2DMMetabolik1.00019,1 sbirlamchi
BT-013-GOUTMetabolik1.00019,4 sbirlamchi
BT-004-NAFLDGepatologiya1.00019,6 sbirlamchi
BT-009-VIRHEPGepatologiya0.95023,4 szaxira (fallback)
BT-014-GILBERTTuzoq (Trap)1.00018,9 sbirlamchi
BT-005-CKDNefrologiya1.00017,4 sbirlamchi
BT-010-ASCVDKardiologiya1.00019,7 sbirlamchi
BT-011-SLERevmatologiya0.98118.2 sbirlamchi
BT-012-VITDEndokrinologiya1.00019.3 sbirlamchi
BT-015-SOG‘LOMTuzoq (Trap)1.00018.7 szaxira (fallback)

PCOS holati (BT-008) javob tuzilmasidagi majburiy bitta bo‘limchani yo‘qotdi — o‘n oltitadan o‘n besh bo‘lib, o‘n oltitadan o‘n oltita emas — bu esa strukturaviy ballni 1.000 dan 0.963 gacha pasaytirdi. SLE holati (BT-011) klinik ballni 0.965 gacha tushirgan, ammo har bir diagnostik kalit so‘z va ballash tizimini saqlab qolgan, biroz kamaygan ehtimollar-taqsimoti yig‘indisini qaytardi. Hech bir sub-ideal holat to‘g‘ri tashxisni o‘tkazib yubormadi.

Sarlavhadagi ball bizga nimani aytmaydi

Ushbu muayyan oldindan ro‘yxatdan o‘tkazilgan mezon bo‘yicha 99.12 foizlik kompozit ball deyarli “shift” darajasidagi natijani anglatadi, lekin uni ehtiyotkorlik bilan talqin qilish kerak. Natija dvigatelning bitta mezon bo‘yicha, har biri bir martadan baholangan, o‘n beshta ehtiyotkorlik bilan tanlangan anonimlashtirilgan holatga nisbatan qanday ishlaganini tasvirlaydi. Biz raqam nimani ko‘rsatishi va nimani ko‘rsatmasligini aniq aytamiz.

Ball shuni ko‘rsatadiki, V11 dvigateli ushbu baholash uchun tanlangan diagnostik naqshlarni e’lon qilingan va takrorlanadigan metodologiya asosida to‘g‘ri bajargan. Bu dvigatel dunyoda mavjud bo‘lgan har qanday qon tahlili panelida to‘g‘ri ekanini aytmaydi. Bu dvigatel klinisyen fikrini almashtirishi kerakligini ham aytmaydi. Va bu dvigatel boshqa AI tizimlaridan ustunligini ham aytmaydi — boshqa dvigatellarga nisbatan qiyosiy tahlillar ushbu hisobot doirasidan ataylab tashqarida qoldirilgan.

Ball nimani isbotlaydiki — bu asosiy (bazaviy) ko‘rsatkich. Mezon va “harness” (sinov muhiti) ommaga ochiq bo‘lgani uchun, dvigatelning kelgusi versiyalari aynan shu o‘n beshta holatga nisbatan baholanishi mumkin, va e’lon qilingan ball bilan keyingi har qanday ishga tushirish natijasi o‘rtasidagi farqning o‘zi ham o‘lchanadi. Oldindan ro‘yxatdan o‘tkazishning qiymati shunda: u ishlash haqidagi da’volarni sinab ko‘rish mumkin bo‘lgan da’volarga aylantiradi.

10 daqiqada ushbu benchmarkni qanday qayta yaratish mumkin

Takrorlash uchun faqat Kantesti API credential jufti va Python 3.10 yoki undan keyingi muhit kerak, unda requests va reportlab kutubxonalari o‘rnatilgan bo‘lishi kerak. To‘liq “harness” MIT litsenziyasi ostida chiqarilgan bitta, o‘z ichiga olgan Python modulidir.

Figshare, ResearchGate, Academia.edu va GitHub bo‘ylab benchmarkning Figshare DOI ni kanonik tayanch sifatida ko‘rsatgan holda aks ettirilgan takrorlanuvchanlik tarmog‘i diagrammasi
5-rasm: Benchmark to‘rtta tadqiqot platformasida aks ettirilgan. Figshare DOI — kanonik ilmiy identifikator; ResearchGate, Academia.edu va GitHub esa kod va xom ma’lumotlar bilan parallel nusxalarni joylashtiradi.

Yangi ishga tushirish uchun to‘rt qadam

Birinchi. Repozitoriyani klon qiling: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Ikkinchi. Bog‘liqliklarni o‘rnating: pip install -r requirements.txt. Uch. Belgilang KANTESTI_USERNAME va KANTESTI_PASSWORD muhit o‘zgaruvchilari sifatida — autentifikatsiya ma’lumotlari ish vaqtida o‘qiladi va skript ichiga hech narsa qattiq kodlanmaydi. To‘rt. Ishga tushiring python benchmark_bloodtest.py va ishchi katalogga chiqarilgan to‘rtta artefaktni ko‘rib chiqing: CSV ball jadvali, JSON ball jadvali, dvigatelning raw javoblarini ham o‘z ichiga olgan to‘liq JSON dump va inson o‘qishi uchun qulay Markdown hisoboti.

2026-yil 23-apreldagi mos yozuv (reference) ishga tushirish natijasi repository’ning results/ katalogida saqlangan. Yangi ishga tushirish yangi vaqt tamg‘ali (timestamped) ball jadvalini yaratadi, mos yozuv ishga tushirish esa o‘zgarmaydi. Agar sizning ishga tushirishingiz sezilarli darajada boshqacha natija bersa, iltimos, GitHub’da issue oching: ishga tushirish vaqt tamg‘asi va javob metadata’sida qaytarilgan dvigatel versiyasi bilan.

Cheklovlar va kelgusi ishlar

To‘rtta cheklov aniq e’tirof etilishga loyiq: tanlama hajmi, bir martalik baholash, bitta dvigatel doirasi va bitta manbadan olingan ma’lumotlar kelib chiqishi. Har biri faol davom etayotgan keyingi ishlar doirasida hal qilinmoqda.

Tanlama hajmi. Sakkizta ixtisoslik bo‘limi bo‘yicha o‘n beshta holat konsepsiyani isbotlash uchun yetarli, ammo ixtisoslik ichida kichik guruhlar tahlili uchun emas. Ellikta holatgacha kengaytirish rejalashtirilgan va u koagulyatsiya panellari, gematologik malign kasalliklar skriningi, homiladorlik panellari hamda pediatrik holatlarni o‘z ichiga oladi.

Bir martalik baholash. Har bir holat faqat bir marta baholandi. Katta til modellari hatto past sampling haroratida ham sezilarli darajada chiqish variatsiyasini namoyon qiladi, shuning uchun har bir holat uchun beshta baholash bilan ko‘p martalik (multi-run) protokol va qayd etilgan variatsiya keyingi tabiiy qadam hisoblanadi.

Bitta dvigatel doirasi. Ushbu hisobot bitta dvigatelni tavsiflaydi. Bu yerda muqobil AI tizimlar bilan taqqoslash tahlillari ko‘zda tutilmagan; biz ularni tegishli metodologiya bilan alohida mustaqil tadqiqot sifatida davom ettirishimiz mumkin.

Bitta manbadan olingan ma’lumotlar kelib chiqishi. O‘n beshta holat bitta klinik repozitoriydan olingan anonimlashtirilgan real bemor yozuvlaridir. Ular tanlab olingan (curated) namuna bo‘lib, populyatsiya uchun vakillik qiladigan tasodifiy tanlov emas. Baholashni ko‘p markazli (multi-centre) ma’lumotlarga kengaytirish yo‘l xaritasida.

Eng muhim rejalashtirilgan kengaytma — ko‘p tillilik bo‘yicha tenglik (parity). Kantesti AI Engine 75+ tilda foydalanuvchilarga xizmat qiladi va xuddi shu o‘n beshta holatli test-harnessni turkcha, nemischa, ispancha, fransuzcha va arabcha tillarda ishga tushirish dvigatel qo‘llab-quvvatlaydigan tillar bo‘yicha chiqish sifatini miqdoriy baholaydi. Har bir til bo‘yicha alohida ishga tushirishni o‘z DOI’si va harness branch’i bilan e’lon qilamiz.