Nega bu benchmark mavjud va u nimani sinaydi
AI yordamida qon tahlili natijalarini qanday o‘qish kerak tobora iste’molchi va klinik ish jarayonlarida qo‘llanmoqda, biroq laboratoriya tibbiyotiga mos, qayta tiklanadigan baholash asoslari kam uchraydi. Bu kontekstda eng muhim savollar umumiy tibbiy savol-javob benchmarklarida yoritiladigan savollar emas: o‘rtacha korpuskulyar hajm (MCV) bir xil bo‘lganda engine temir yetishmovchiligini talassemiya belgilaridan ajrata oladimi, Gilbert sindromini gepatit sifatida ortiqcha tashxislaydimi va to‘liq normal skrining panelida patologiyani “yaratadimi”?
Bitta qon tahlili paneli odatda bir nechta raqobatdosh talqinlarni qo‘llab-quvvatlash uchun yetarli signalga ega bo‘ladi va talqin qiluvchi klinisyenning vazifasi ularni bir-biriga solishtirib baholashdan iborat, darslikdagi tayyor javobni qidirib topish emas. Darslikdagi holatlarda yaxshi ishlaydigan “dvigatel” eng muhim bo‘lgan holatlarda baribir muvaffaqiyatsiz bo‘lishi mumkin: differensial-diagnostika tuzoqlari, alohida ko‘rilganda xavotirli ko‘rinadigan, ammo zararsiz variantlar va ishonchli yordamchilarni patologiya “yasashga” undaydigan to‘liq normal panellar.
Ushbu benchmark aynan o‘sha muvaffaqiyatsizlik turlariga asoslangan. O‘n beshta holatning har biri muayyan diagnostik xususiyat uchun tanlangan: o‘xshash mean corpuscular volume (o‘rtacha eritrotsit hajmi)ga ega bo‘lgan beta-talassemiya belgisi bilan ajratib turilishi kerak bo‘lgan temir yetishmovchiligi bilan bog‘liq mikrositoz; faqat alohida ko‘tarilgan bilvosita giperbilirubinemiya bilan namoyon bo‘ladigan Gilbert sindromi; va har bir analit o‘zining referens diapazonida joylashgan o‘n besh parametrli skrining paneli. Rubrika har bir holatni o‘z shartlari bo‘yicha o‘qiydigan dvigatellarni rag‘batlantiradi va bunday tashxis o‘rinli bo‘lmagan joyda ishonchli tashxisga “yopishib oladigan” dvigatellarni jazolaydi.
Tomas Klein, MD sifatida men holatlar panelini tanladim, chunki laboratoriya tibbiyoti bo‘yicha yordamchilar eng ko‘p aynan shu naqshlarni noto‘g‘ri talqin qilishadi. Qimmatga tushadigan muvaffaqiyatsizlik turi "kam uchraydigan kasallikni o"tkazib yuborish” emas — bu uni bo‘lmagan bemorlarda odatiy patologiyani “to‘qib chiqarish”. Bizning Tibbiy tasdiqlash hub kengroq ramkani tasvirlaydi; ushbu sahifa V11 dastlabki proof-of-concept’ni va uni 127 ta mamlakat yorlig‘ini qamrab olgan sintetik holatlar to‘plamidan olingan 100,000 ta sintetik holatga kengaytirgan V11 ikkinchi yangilanishni tasvirlaydi — bir xil scoring rubrikasi, byte-identik; post-hoc sozlashga ruxsat berilmaydi.
Eng so‘nggi mos yozuvlar bo‘yicha ishga tushirish — V11 Ikkinchi Yangilanish (2026-yil 26-aprel)
2026-yil 26-apreldagi V11 Ikkinchi Yangilanish mos yozuvlar bo‘yicha ishga tushirish ballar kompozitini hosil qildi 99.80% V11 dastlabki relizida ishlatilgan oldindan ro‘yxatdan o‘tkazilgan rubrika asosida, baholandi 100,000 ta sintetik holatlar Kantesti sintetik holatlar to‘plamidan olingan va 127 ta mamlakat yorlig‘ini qamrab olgan hamda 75+ tillarini qamrab olgan. Har bir holat dvigatelning asosiy yo‘lida yakunlandi; trap-holat giperdiagnostika flag’lari faollashuvi darajasi 0 / 87,412. da qoldi. 2026-yil 23-apreldagi asl V11 ishga tushirish 15 ta qo‘lda tanlab olingan holatni (kompozit 99.12%) qamrab olgan va rubrikani tasdiqlagan; Ikkinchi Yangilanish o‘sha rubrikani byte-teng saqlaydi va baholashni populyatsiya miqyosidagi kohortaga kengaytiradi.
Kompozit formula uchta komponentni birlashtiradi: strukturaviy moslik yettita majburiy hisobot bo‘limi va o‘n oltita majburiy kichik bo‘lim bilan, kontent aniqligi kalit so‘zlarni eslab qolish (keyword recall) + ball tizimini eslab qolish (scoring-system recall) + ehtimollik-taqsimotning haqiqiyligini tekshirish orqali o‘lchanadi va javob kechikishi asosiy yo‘l uchun xizmat darajasi (service-level) maqsadiga nisbatan. Aniq parchalanish quyidagi rubrika formulada ko‘rsatilgan — Ikkinchi Yangilanish uchun ushbu vaznlar yoki sub-rubrikalarning hech biri o‘zgartirilmagan.
Qolgan 0.20 foiz punkt bo‘shliq deyarli butunlay klinik sub-ballga parchalanadi — holatlarning kichik qismi (asosan Gepatologiya va Revmatologiyada) diagnostik mazmun to‘g‘ri bo‘lishiga qaramay, dvigatel talqinida kutilgan ballash-tizim kalit so‘zlaridan bittasi yo‘q edi. 100 000 ta holatli Ikkinchi Yangilanish kohortasidagi birorta ham holatning o‘zi tashxisni o‘tkazib yubormadi. Kechikish V11 dastlabki relizida o‘rtacha 20.17 s dan Ikkinchi Yangilanishda 13.26 s gacha yaxshilandi; bu ikki ishga tushirish orasidagi ishlab chiqarish dvigateli optimizatsiyalarini aks ettiradi. Rubrika, ballash kodi va API endpoint o‘zgarmagan.
Yorliq bo‘yicha kompozit ballar 30 ta eng ko‘p uchraydigan mamlakat yorlig‘i bo‘yicha 0.9971 dan 0.9985 gacha bo‘ldi. Qo‘shimcha 97 ta yorliqdan iborat uzun “dum” (≈7,300 ta holat birgalikda) tizimli pasayishni ko‘rsatmadi. Holatlar soni bo‘yicha eng tez-tez uchragan yorliqlar: Amerika Qo‘shma Shtatlari (10,500), Braziliya (9,500), Ispaniya (9,000), Italiya (8,000), Germaniya (7,800), Fransiya (7,400), Portugaliya (5,800), Türkiye (3,400), Buyuk Britaniya (2,900) va Meksika (2,500).
15 ta holatdan 100,000 taga: 127 ta mamlakat yorlig‘i bo‘yicha kohort evolyutsiyasi
Dastlabki V11 holatlar paneli yettita ixtisoslikni — gematologiya, endokrinologiya, metabolik tibbiyot, gepatologiya, nefrologiya, kardiologiya, revmatologiya — hamda ikkita alohida giperdiagnostika trap holatini qamrab olgan; har bir holat sintetik generatsiya qilingan qon tahlili paneli edi. V11 ikkinchi yangilanish baholashni 100,000 ta sintetik holatlarga 127 ta mamlakat yorlig‘i bo‘yicha kengaytiradi, sakkizta mutaxassislik bo‘yicha taqsimlangan (asl yettitasi plus trap subsetini qamrab oladigan alohida ichki tibbiyot bo‘limi). Bir xil ballash rubrikasi ikkala ishga tushirishda ham byte-teng qo‘llanadi.
Barcha holatlar sintetik generatsiya qilinganligi sababli olib tashiladigan real identifikatorlar yo‘q va shaxsiy ma’lumotlar ishtirok etmaydi. Har bir sintetik holat benchmark ichki holat kodini olib yuradi (V11 dastlabki to‘plamida BT-NNN-LABEL, ikkinchi yangilanishda barqaror case_uid ). E’lon qilingan benchmark muhitida, texnik hisobotda yoki chiqarilgan datasetlarda hech qayerda shaxsiy ma’lumotlar uchramaydi.
V11 dastlabki reliziga muvofiq amalga oshirildi — 15 ta qo‘lda tanlab olingan holat
V11 asl holat paneli diagnostik naqshlarni laboratoriya tibbiyoti bo‘yicha yordamchilar eng ko‘p xato qiladigan holatlarni sinash uchun Dr. Tomas Klein tomonidan qo‘lda tanlab tuzilgan. O‘n beshta holatning har biri quyida keltirilgan muayyan diagnostik xususiyat uchun tanlangan.
Nega aynan shu taqsimot
Gematologiya uchta holatni oladi, chunki mikrositar differensiallar va makrositar differensiallar real laboratoriya amaliyotida eng ko‘p uchraydigan “tuzoq”lar hisoblanadi. Endokrinologiya ham uchta holatni oladi, chunki Xashimoto, PCOS va D vitamin yetishmasligi ko‘rinishlari turli diagnostik shakllarni mashq qiladi (avtoantitanga asoslangan, gormonlar nisbati asosida, bitta markerga asoslangan). Yagona holat ixtisosliklari hamon muhim, chunki har birida (CKD, ASCVD xavfi va SLE) dvigatel chaqirishi kerak bo‘lgan o‘z baholash tizimi bor (mos ravishda KDIGO bosqichlash, ASCVD 10 yillik xavfi, 2019 EULAR/ACR SLE mezonlari).
V11 ikkinchi yangilanish — 127 ta mamlakat yorlig‘i bo‘yicha 100,000 ta sintetik holatlar
Ikkinchi yangilanish original V11 dagi 15 ta holatdan iborat qattiq kodlangan Python literalini kattaroq, dasturiy ravishda generatsiya qilingan sintetik holatlar to‘plami bilan almashtiradi. Holatlar to‘plami har bir run boshida yuklanadi va konfiguratsiya shaffoflik uchun logga yozib boriladi. Kohort taqsimoti mazmun yo‘nalishlari bo‘yicha quyida ko‘rsatilgan.
Sintetik mamlakat-yorliq taqsimoti — eng ko‘p uchraydigan 10 ta yorliq
100,000 ta sintetik holatlar 127 ta mamlakat yorlig‘ini (ISO 3166-1 alpha-2) olib yuradi va lokalni (locale) boshqarishni sinash uchun xizmat qiladi. Yorliqni belgilash: Yevropa 57.7%, Amerika qit’alari 25.4%, Osiyo-Tinch okeani 6.2%, nomlangan Yaqin Sharq/Afrika yorliqlari 3.4% va qo‘shimcha 97 ta yorliqdan iborat uzun “dum” taxminan 7.3% ni birgalikda tashkil qiladi. Holatlar soni bo‘yicha eng ko‘p uchraydigan o‘nta yorliq: Amerika Qo‘shma Shtatlari (10,500), Braziliya (9,500), Ispaniya (9,000), Italiya (8,000), Germaniya (7,800), Fransiya (7,400), Portugaliya (5,800), Türkiye (3,400), Buyuk Britaniya (2,900) va Meksika (2,500). Yorliq bo‘yicha kompozit ballar 0.9971 dan 0.9985 gacha bo‘ldi. Ushbu yorliq sonlari lokalni boshqarishni sinash uchun ishlatilgan generatsiya qilingan holatlarning xususiyatlaridir — ular real foydalanuvchilar ham emas, real dunyodagi geografik qamrov ham emas.
Oldindan ro‘yxatdan o‘tkazilgan rubrika, izohi
Ro‘yxatdan o‘tish (pre-registration) ushbu benchmarkdagi eng muhim metodologik tanlovdir. Kutilgan har bir tashxis, har bir klinik baholash tizimi va har bir hisobot bo‘limi manba kodga biriktirilgan dvigatel chaqirilishidan oldin. Shuning uchun dvigatelni “yaltiratish” uchun rubrikani post-hoc sozlashning iloji yo‘q.
Kompozit ballni tashkil etuvchi uchta komponent mavjud. strukturaviy komponent 35 foizni tashkil etadi va dvigatel yettita majburiy hisobot bo‘limini (sarlavha, qisqacha mazmun, asosiy topilmalar, differensial, baholash tizimlari, tavsiyalar, kuzatuv) hamda ularning ichidagi o‘n oltita majburiy kichik bo‘limni qaytargan-qaytarmaganini o‘lchaydi. Bo‘lim mavjudligi strukturaviy hisob-kitobda 40 foiz, kichik bo‘lim mavjudligi esa 60 foizni tashkil etadi.
The klinik komponent 55 foizni tashkil etadi va uch narsani birlashtiradi: tashxis-kalit so‘zlarni eslab qolish (klinik kichik ballning 70 foizi), baholash tizimini eslab qolish (20 foiz — dvigatel tegishli bo‘lsa Mentzer, FIB-4, HOMA-IR, ASCVD xavfi, KDIGO bosqichlash, EULAR/ACR mezonlarini hisoblaydimi), hamda ehtimollar yig‘indisi bo‘yicha haqiqiylik tekshiruvi (10 foiz — differensial ehtimollar [90, 110] oralig‘ida yig‘ilishi kerak). “Tuzoq” holatlarida aniq giper-diagnostika uchun 0.30 gacha bo‘lgan jarima ayiriladi, u soxta patologiya bayroqlari uchun 0.10 tadan hisoblanadi va uchta bayroq bilan cheklanadi.
The kechikish (latency) komponenti 10 foizni tashkil etadi. 20 soniyadan kam javob to‘liq 0.10 ball oladi, 40 soniyadan kam javob 0.05 ball oladi, undan sekinroq bo‘lsa nol ball. 20 soniyalik maqsad ishlab chiqarishdagi primary-path xizmat darajasidagi maqsadni aks ettiradi; 40 soniyalik yuqori chegara esa og‘ir dvigatel chaqiruvlari uchun Phase 2 fallback byudjetini aks ettiradi.
Pre-registration nimaning oldini oladi
Birinchi tomon benchmarklari post-hoc rubrika sozlash orqali o‘z raqamlarini shishirish bilan mashhur. Odatda naqsh deyarli bir xil: jamoa dvigatelni ishga tushiradi, qayerda yomonroq ishlashini ko‘radi, so‘ng underperform qilgan sohalar kamroq hisoblanishi uchun rubrikani jimgina sozlaydi. Rubrikani birinchi dvigatel chaqirig‘idan oldin manba kodga biriktirib, harnessni MIT litsenziya ostida e’lon qilish orqali bu sozlash versiyalarni boshqarishda ko‘rinadigan bo‘ladi. Istalgan kishi repozitoriyani klon qilishi, rubrika mualliflarining sanalarini tekshirishi va dvigatel natijalari baholashni shakllantirish uchun ishlatilmaganini tasdiqlashi mumkin.
Giperdiagnostika tuzog‘i holatlari — haddan tashqari chaqirish (over-calling) haqiqiy nosozlik rejimi nega
Normal skrininglarda patologiyani haddan tashqari “zo‘r berib” chaqirish iste’molchiga yo‘naltirilgan tibbiy assistentlarda hujjatlashtirilgan nosozlik rejimidir. Uning keyingi xarajatlariga keraksiz tekshiruv, bemor xavotiri va iatrogen tekshiruv kiradi. Ushbu benchmarkdagi ikkita “tuzoq” holati bu nosozlik rejimini ko‘rinadigan va baholanadigan qilish uchun mo‘ljallangan.
🟡 Tuzoq 1 — BT-014-GILBERT
Ko‘rinish. Umumiy bilirubini 2.4 mg/dL bo‘lgan 24 yoshli erkak. To‘g‘ridan-to‘g‘ri fraksiya normal, transaminazalar va ishqoriy fosfataza ularning mos yozishmalar diapazonida, retikulotsitlar e’tiborga molik emas va gaptoglobin hamda LDH gemolizni istisno qiladi.
To‘g‘ri talqin. Gilbert sindromi — benign UGT1A1 polimorfizmi. Talqin gepatit, sirroz, gemolitik anemiya yoki biliar obstruksiyani chaqirmasligi kerak.
V11 natija. Kompozit 1.000. Olti ta kuzatilgan ortiqcha tashxis qo‘yish bayrog‘ining hech biri faol tashxis sifatida paydo bo‘lmadi.
🟡 Tuzoq 2 — BT-015-HEALTHY
Ko‘rinish. 15 ta parametrli odatiy skrining paneli bo‘lgan 35 yoshli ayol. Har bir analit o‘zining mos yozishmalar diapazonida bemalol joylashgan.
To‘g‘ri talqin. Ishontirish va turmush tarzini saqlash. Talqin klinik jihatdan foydali ko‘rinishi uchun chegaraviy patologiyani “to‘qib chiqarishi” kerak emas.
V11 natija. 1.000 kompozit ko‘rsatkich. Kuzatilgan yettita ortiqcha tashxis (over-diagnosis) ogohlantirishlaridan hech biri — diabet, anemiya, gipotiroidizm, dislipidemiya, gepatit, buyrak kasalligi, yetishmovchilik — faol tashxis sifatida paydo bo‘lmadi.
Ikkala “trap” bo‘yicha o‘n uchta kuzatilgan gipertashxis (hyperdiagnosis) ogohlantirishlari tekshirildi. Hech biri ishga tushmadi. Bu, AI dvigatelidan triaj yoki konsultatsiyagacha (pre-consultation) vosita sifatida foydalanishni ko‘rib chiqayotgan har qanday klinisyen uchun eng muhim natijadir: tizim mavjud bo‘lmagan joyda kasallikni o‘ylab topmadi.
Mentzer indeksi: temir yetishmovchiligini talassemiya belgilaridan ajratish
Ikkinchi yuqori qiymatli topilma BT-001 (temir tanqisligi anemiyasi) holatining BT-007 (beta-talassemiya minor) holati bilan juftlanishiga taalluqlidir. Ikkalasi ham mikrositoz bilan namoyon bo‘ladi va bu sodda klassifikatorlar uchun yaxshi ma’lum bo‘lgan “to‘siq” hisoblanadi. Mentzer indeksi, MCV ni RBC soniga bo‘lib hisoblanadi, temir tanqisligida 13 dan yuqori, talassemiya belgilarida esa 13 dan past bo‘ladi.
BT-001 da bemor 34 yoshli ayol bo‘lib, gemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL va TIBC ko‘tarilgan. Taxminan 17.7 bo‘lgan Mentzer indeksi mutlaq temir tanqisligini qo‘llab-quvvatlaydi. BT-007 da bemor 28 yoshli erkak bo‘lib, mikrositoz (MCV 65.8 fL) bor, ammo RBC soni 6.2 yuqori, RDW normal, ferritin normal va HbA2 5.6 foiz. Taxminan 10.6 bo‘lgan Mentzer indeksi talassemiya belgilarini ko‘rsatadi va ko‘tarilgan HbA2 beta-talassemiya minorni tasdiqlaydi.
Ikkala holat ham 1.000 ball oldi. Dvigatel ikkala talqinda ham Mentzer indeksini aniq qo‘lladi va har safar to‘g‘ri tashxisni qaytardi. Bu butun benchmark bo‘yicha eng klinik jihatdan ishonchli (reassuring) natija, chunki talassemiya belgilarini temir tanqisligi deb noto‘g‘ri tasniflash noto‘g‘ri temir qo‘shimchasini berishga va oilaviy skrining imkoniyatlari o‘tkazib yuborilishiga olib keladi, temir tanqisligini esa talassemiya deb noto‘g‘ri tasniflash esa oddiy o‘rnini bosuvchi davolashni kechiktiradi. Bizning ferritin diapazoni bo‘yicha yo‘riqnomamiz kengroq differensial kontekstni tushuntiradi.
V11 dastlabki referens run’dan (2026-yil 23-aprel) holat bo‘yicha natijalar
15 ta holatli proof-of-concept kogortadagi asl V11 referens run xizmat qiladi metodologik asos sifatida Ikkinchi yangilanish uchun: quyidagi har bir holat tafsiloti rubrika real dvigatel javobini qanday qayta ishlashini ko‘rsatadi. O‘n beshta holatdan o‘ntasi asosiy yo‘lda 1.000 maksimal kompozit ballga erishdi; uchta holat Phase 2 fallback orqali ko‘rsatildi, bunda 0.05 kechikish bonusi yo‘qoldi, lekin barcha klinik va strukturaviy kontent saqlab qolindi. Bitta holatda bitta majburiy bo‘lim yo‘q edi; bittasi esa ehtimollar taqsimoti yig‘indisi biroz kamaygan holda qaytdi.
PCOS holati (BT-008) javob tuzilmasidagi majburiy bitta bo‘limchani yo‘qotdi — o‘n oltitadan o‘n besh bo‘lib, o‘n oltitadan o‘n oltita emas — bu esa strukturaviy ballni 1.000 dan 0.963 gacha pasaytirdi. SLE holati (BT-011) klinik ballni 0.965 gacha tushirgan, ammo har bir diagnostik kalit so‘z va ballash tizimini saqlab qolgan, biroz kamaygan ehtimollar-taqsimoti yig‘indisini qaytardi. Hech bir sub-ideal holat to‘g‘ri tashxisni o‘tkazib yubormadi.
V11 Ikkinchi yangilanish agregati — 100,000 ta holat
Aholi miqyosida alohida holat qatorlari inson o‘qiy oladigan ko‘rinishda emas, shuning uchun Ikkinchi yangilanish 100,000 qatorli jadval o‘rniga agregatsiyalangan ko‘rsatkichlarni taqdim etadi. Asosiy agregat quyida ko‘rsatilgan; ixtisoslik bo‘yicha va mamlakat-yorliq bo‘yicha batafsil taqsimotlar texnik hisobotda va Figshare depositida e’lon qilingan. Stratifikatsiyalangan tasodifiy tanlama n = 201 xom dvigatel javoblari (deterministik seed 20260426) GitHub’ning results/ tekshirish uchun mo‘ljallangan directorysida e’lon qilinadi.
Sarlavhadagi ball bizga nimani aytmaydi
Ushbu muayyan oldindan ro‘yxatdan o‘tkazilgan rubrika bo‘yicha 99.80 foizlik kompozit ball, 127 ta mamlakat yorlig‘ini qamrab olgan 100,000 ta holatdan iborat sintetik kohortda, deyarli “shift” (ceiling) darajasidagi natijani anglatadi — ammo buni ehtiyotkorlik bilan kontekstga qo‘yish kerak. Natija dvigatelning V11 da manba kodiga majburiy kiritilgan rubrikaga nisbatan xatti-harakatini tasvirlaydi; bu yovvoyi tabiatda mavjud bo‘lgan har bir qon tahlili paneli bo‘yicha dvigatelning to‘g‘riligiga oid universal da’vo emas.
Ball shuni ko‘rsatadiki, dvigatel ushbu baholash uchun tanlangan diagnostik naqshlarni aholi miqyosidagi kohort bo‘yicha to‘g‘ri qayta ishlagan — e’lon qilingan va takrorlanadigan metodologiya asosida. Bu dvigatel tabiatda mavjud bo‘lgan har bir qon tahlili paneli bo‘yicha to‘g‘ri ekanini aytmaydi. Shuningdek, dvigatel klinisyenning qarorini o‘rnini bosishi kerakligini ham aytmaydi. Va u boshqa AI tizimlardan ustunligini ham aytmaydi — boshqa dvigatellar bilan taqqoslash tahlillari ushbu hisobot doirasidan ataylab tashqarida qoldirilgan.
Ballning aniqlab beradigan narsa — bu bazaviy (baseline) ko‘rsatkich. Mezon va sinov muhiti (harness) ommaga e’lon qilingani sababli, dvigatelning kelgusi versiyalarini xuddi shu mezon bo‘yicha baholash mumkin — V11 initial 15 ta holatga, Ikkinchi yangilanishdagi 100,000 ta holat kohortiga yoki keyingi kengayishlarga ham qo‘llanadi — e’lon qilingan ball bilan keyingi har qanday ishga tushirish (run) o‘rtasidagi farqning o‘zi esa o‘lchanadigan bo‘ladi. Oldindan ro‘yxatdan o‘tkazishning qiymati shunda: u ishlash haqidagi da’volarni sinab ko‘rish mumkin bo‘lgan da’volarga aylantiradi.
10 daqiqada ushbu benchmarkni qanday qayta yaratish mumkin
Takrorlash uchun faqat Kantesti API credential jufti va Python 3.10 yoki undan keyingi muhit kerak, unda requests va reportlab kutubxonalari o‘rnatilgan bo‘lishi kerak. To‘liq “harness” MIT litsenziyasi ostida chiqarilgan bitta, o‘z ichiga olgan Python modulidir.
Yangi ishga tushirish uchun to‘rt qadam
Birinchi. Repozitoriyani klon qiling: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Ikkinchi. Bog‘liqliklarni o‘rnating: pip install -r requirements.txt (Ikkinchi yangilanish qo‘shadi mysql-connector-python ≥ 8.0 SQL case loader uchun). Uch. Belgilang KANTESTI_USERNAME va KANTESTI_PASSWORD Dvigatel API uchun muhit o‘zgaruvchilari sifatida. Ikkinchi yangilanish SQL case loader uchun ham quyidagilarni belgilang: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, va KANTESTI_DB_PASSWORD — yuklovchi faqat o‘qish huquqiga ega rol orqali ulanishi (bench_reader) identifikatsiya qiluvchi jadval(lar) bo‘yicha imtiyozga ega emas. To‘rt. Ishga tushiring python benchmark_bloodtest.py --limit 100000 to‘liq Second-Update ishga tushirish uchun yoki python benchmark_bloodtest.py --limit 1000 tezkor iteratsiya uchun. Natijalar quyiga tushadi ./benchmark_results/: mamlakat bo‘yicha yorliq va soha bo‘yicha ustunlarga ega CSV ball kartochkasi, JSON agregat, stratifikatsiyalangan-tasodifiy xom-javob namunasi va Markdown hisobot.
23 aprel 2026-yil (V11 initial, 15 ta holat) va 26 aprel 2026-yil (V11 Second Update, 100,000 ta holat) dagi referens ishga tushirishlar repozitoriy ichidagi results/ katalogda saqlangan. Yangi ishga tushirish yangi vaqt tamg‘ali ball jadvalini hosil qiladi, referens ishga tushirishlarga esa tegilmaydi. Agar sizning ishga tushirishingiz sezilarli darajada boshqacha natija bersa, iltimos, GitHub issue oching va run timestamp hamda javob metadata’sida qaytgan engine versiyasini ko‘rsating.
Cheklovlar va kelgusi ishlar
127 ta mamlakat yorlig‘i bo‘yicha 100 000 ta holat bo‘lsa ham, to‘rtta cheklov aniq e’tirof etilishi kerak: long-tail yorliqning kam namunalanganligi, bir martalik baholash, bitta dvigatel doirasi va bitta manbadan olingan ma’lumot kelib chiqishi. Bularning har biri faol davom etayotgan keyingi ishlar doirasida hal qilinmoqda.
Long-tail yorliq qamrovi. Ikkinchi yangilanish 127 ta mamlakat yorlig‘ini qamrab oladi, ammo taqsimot notekis — eng yuqori 10 ta yorliq holatlarning ≈66.4% qismini tashkil qiladi, qolgan 97 ta qo‘shimcha yorliqning long tail qismi esa birgalikda ≈7.3% ni beradi (taxminan 7 300 ta holat birga, o‘rtacha har bir yorliq uchun ~75 ta holat). Shuning uchun bu long tail ichidagi per-yorliq kompozitlar sarlavhali ko‘rsatkichlar ko‘rsatadiganidan ko‘ra shovqinliroq. Kelgusidagi ishlar yorliq tayinlanishini qayta muvozanatlashtirib, per-yorliq baholarni mustahkamlaydi.
Bir martalik baholash. Kogortadagi har bir holat bir marta baholandi. Katta til modellari hatto past sampling temperaturada ham sezilarli darajadagi output variatsiyasini namoyon qiladi, shuning uchun har bir holatga beshta baholash bilan ko‘p martalik protokol va qayd etilgan variatsiya tabiiy keyingi qadam — ayniqsa trap-case subsetida, sampling jitter ostida barqarorlik xavfsizlik haqidagi da’voning bir qismi bo‘lgani uchun.
Bitta dvigatel doirasi. Ushbu hisobot bitta engine’ni tavsiflaydi. Muqobil AI tizimlar bilan taqqoslovchi tahlillar bu yerda ko‘rib chiqilmaydi; biz ularni bir xil MIT litsenziyali harnessga qarshi, tegishli metodologiya bilan alohida mustaqil tadqiqot sifatida davom ettirishimiz mumkin.
Sintetik ma’lumot. 100 000 ta holat sintetik tarzda generatsiya qilingan — sintetik holatlar emas, va natijalar real dunyo klinik ko‘rsatkichlariga o‘tmaydi. Real, rozilik berilgan, tashqi manbadan olingan ma’lumotlarda baholash tegishli axloqiy nazoratni talab qiladi va bu sintetik benchmark doirasidan tashqarida.
Ushbu to‘rttadan tashqari, rejalashtirilgan eng ta’sirli kengaytma — yurisdiksiya bo‘yicha ko‘p tillilik tengligini ta’minlash. Kantesti AI Engine foydalanuvchilarga 75+ tilda xizmat qiladi va tilga ajratilgan Second-Update sub-kogortalarini (turk, nemis, ispan, fransuz, italyan, portugal, arab, mandarin) ishga tushirish engine qo‘llab-quvvatlaydigan tillar bo‘yicha output sifatini miqdoriy baholaydi. Har bir tilga ajratilgan tahlil o‘z DOI va harness branchi bilan e’lon qilinadi.