Nega bu benchmark mavjud va u nimani sinaydi
AI yordamida qon tahlili natijalarini qanday o‘qish kerak tobora iste’molchi va klinik ish jarayonlarida qo‘llanmoqda, biroq laboratoriya tibbiyotiga mos, qayta tiklanadigan baholash asoslari kam uchraydi. Bu kontekstda eng muhim savollar umumiy tibbiy savol-javob benchmarklarida yoritiladigan savollar emas: o‘rtacha korpuskulyar hajm (MCV) bir xil bo‘lganda engine temir yetishmovchiligini talassemiya belgilaridan ajrata oladimi, Gilbert sindromini gepatit sifatida ortiqcha tashxislaydimi va to‘liq normal skrining panelida patologiyani “yaratadimi”?
Bitta qon tahlili paneli odatda bir nechta raqobatdosh talqinlarni qo‘llab-quvvatlash uchun yetarli signalga ega bo‘ladi va talqin qiluvchi klinisyenning vazifasi ularni bir-biriga solishtirib baholashdan iborat, darslikdagi tayyor javobni qidirib topish emas. Darslikdagi holatlarda yaxshi ishlaydigan “dvigatel” eng muhim bo‘lgan holatlarda baribir muvaffaqiyatsiz bo‘lishi mumkin: differensial-diagnostika tuzoqlari, alohida ko‘rilganda xavotirli ko‘rinadigan, ammo zararsiz variantlar va ishonchli yordamchilarni patologiya “yasashga” undaydigan to‘liq normal panellar.
Ushbu benchmark aynan o‘sha muvaffaqiyatsizlik turlariga asoslangan. O‘n beshta holatning har biri muayyan diagnostik xususiyat uchun tanlangan: o‘xshash mean corpuscular volume (o‘rtacha eritrotsit hajmi)ga ega bo‘lgan beta-talassemiya belgisi bilan ajratib turilishi kerak bo‘lgan temir yetishmovchiligi bilan bog‘liq mikrositoz; faqat alohida ko‘tarilgan bilvosita giperbilirubinemiya bilan namoyon bo‘ladigan Gilbert sindromi; va har bir analit o‘zining referens diapazonida joylashgan o‘n besh parametrli skrining paneli. Rubrika har bir holatni o‘z shartlari bo‘yicha o‘qiydigan dvigatellarni rag‘batlantiradi va bunday tashxis o‘rinli bo‘lmagan joyda ishonchli tashxisga “yopishib oladigan” dvigatellarni jazolaydi.
Tomas Klein, MD sifatida men holatlar panelini tanladim, chunki laboratoriya tibbiyoti bo‘yicha yordamchilar eng ko‘p aynan shu naqshlarni noto‘g‘ri talqin qilishadi. Qimmatga tushadigan muvaffaqiyatsizlik turi "kam uchraydigan kasallikni o"tkazib yuborish” emas — bu uni bo‘lmagan bemorlarda odatiy patologiyani “to‘qib chiqarish”. Bizning Tibbiy tasdiqlash hub kengroq doirani tasvirlaydi; ushbu sahifa V11 dastlabki proof-of-concept’ni va uni 127 ta mamlakatni qamrab olgan SQL-ga tayangan klinik repozitoriydan olingan 100 000 ta anonimlashtirilgan holatga kengaytirgan V11 Ikkinchi Yangilanishni tasvirlaydi — bir xil ballash rubrikasi, byte-teng, post-hoc sozlashga ruxsat berilmagan.
Eng so‘nggi mos yozuvlar bo‘yicha ishga tushirish — V11 Ikkinchi Yangilanish (2026-yil 26-aprel)
2026-yil 26-apreldagi V11 Ikkinchi Yangilanish mos yozuvlar bo‘yicha ishga tushirish ballar kompozitini hosil qildi 99.80% V11 dastlabki relizida ishlatilgan oldindan ro‘yxatdan o‘tkazilgan rubrika asosida, baholandi 100 000 ta anonimlashtirilgan holat Kantesti SQL-ga tayangan klinik repozitoriydan olingan va 75+ til hamda 75+ tillarini qamrab olgan. Har bir holat dvigatelning asosiy yo‘lida yakunlandi; trap-holat giperdiagnostika flag’lari faollashuvi darajasi 0 / 87,412. da qoldi. 2026-yil 23-apreldagi asl V11 ishga tushirish 15 ta qo‘lda tanlab olingan holatni (kompozit 99.12%) qamrab olgan va rubrikani tasdiqlagan; Ikkinchi Yangilanish o‘sha rubrikani byte-teng saqlaydi va baholashni populyatsiya miqyosidagi kohortaga kengaytiradi.
Kompozit formula uchta komponentni birlashtiradi: strukturaviy moslik yettita majburiy hisobot bo‘limi va o‘n oltita majburiy kichik bo‘lim bilan, klinik aniqlik kalit so‘zlarni eslab qolish (keyword recall) + ball tizimini eslab qolish (scoring-system recall) + ehtimollik-taqsimotning haqiqiyligini tekshirish orqali o‘lchanadi va javob kechikishi asosiy yo‘l uchun xizmat darajasi (service-level) maqsadiga nisbatan. Aniq parchalanish quyidagi rubrika formulada ko‘rsatilgan — Ikkinchi Yangilanish uchun ushbu vaznlar yoki sub-rubrikalarning hech biri o‘zgartirilmagan.
Qolgan 0.20 foiz punkt bo‘shliq deyarli butunlay klinik sub-ballga parchalanadi — holatlarning kichik qismi (asosan Gepatologiya va Revmatologiyada) diagnostik mazmun to‘g‘ri bo‘lishiga qaramay, dvigatel talqinida kutilgan ballash-tizim kalit so‘zlaridan bittasi yo‘q edi. 100 000 ta holatli Ikkinchi Yangilanish kohortasidagi birorta ham holatning o‘zi tashxisni o‘tkazib yubormadi. Kechikish V11 dastlabki relizida o‘rtacha 20.17 s dan Ikkinchi Yangilanishda 13.26 s gacha yaxshilandi; bu ikki ishga tushirish orasidagi ishlab chiqarish dvigateli optimizatsiyalarini aks ettiradi. Rubrika, ballash kodi va API endpoint o‘zgarmagan.
Mamlakatlar bo‘yicha kompozit ballar 30 ta eng ko‘p ifodalangan mamlakatda 0.9971 (Hindiston) dan 0.9985 (Shveysariya) gacha bo‘ldi. Yana 97 ta mamlakatdan iborat uzun quyruq (≈7 300 ta holat birgalikda) hech qanday tizimli yomonlashuv ko‘rsatmadi. Holatlar soni bo‘yicha eng katta hissadorlar: Amerika Qo‘shma Shtatlari (10 500), Braziliya (9 500), Ispaniya (9 000), Italiya (8 000), Germaniya (7 800), Fransiya (7 400), Portugaliya (5 800), Türkiye (3 400), Buyuk Britaniya (2 900) va Meksika (2 500).
15 ta holatdan 100 000 taga: 127 mamlakat bo‘ylab kohort evolyutsiyasi
Asl V11 holatlar paneli yettita mutaxassislikni — gematologiya, endokrinologiya, metabolik tibbiyot, gepatologiya, nefrologiya, kardiologiya, revmatologiya — hamda giperdiagnostika uchun ikkita alohida trap-holatni qamrab olgan; har bir holat Kantesti klinik ma’lumotlar repozitoriyidan yozma ravishda berilgan xabardor rozilik asosida olingan anonimlashtirilgan real bemor yozuvi edi. V11 Ikkinchi Yangilanish baholashni 127 ta mamlakat bo‘yicha 100 000 ta anonimlashtirilgan holatga kengaytiradi, sakkizta mutaxassislik bo‘yicha taqsimlangan (asl yettitasi plus trap subsetini qamrab oladigan alohida ichki tibbiyot bo‘limi). Bir xil ballash rubrikasi ikkala ishga tushirishda ham byte-teng qo‘llanadi.
Identifikatsiyadan chiqarish (de-identification) Safe Harbor yondashuvi asosida amalga oshirildi: barcha bevosita identifikatorlar olib tashlandi yoki almashtirildi va har bir yozuv BT-NNN-LABEL formatida benchmark-ichki holat kodi bilan belgilandi (V11 dastlabki) yoki Ikkinchi Yangilanish uchun barqaror anonimlashtirilgan case_uid . Qayta ishlash GDPR 9-moddasi 2-qismi (j) bandiga ilmiy tadqiqotlar uchun tegishli himoya choralarini qo‘llagan holda va Buyuk Britaniyaning GDPRga teng qoidalariga muvofiq bajarildi. Nashr etilgan “harness”, texnik hisobot yoki chiqarilgan ma’lumotlar to‘plamlarining hech birida shaxsni aniqlashga xizmat qiladigan ma’lumotlar uchramaydi.
V11 dastlabki reliziga muvofiq amalga oshirildi — 15 ta qo‘lda tanlab olingan holat
V11 asl holat paneli diagnostik naqshlarni laboratoriya tibbiyoti bo‘yicha yordamchilar eng ko‘p xato qiladigan holatlarni sinash uchun Dr. Tomas Klein tomonidan qo‘lda tanlab tuzilgan. O‘n beshta holatning har biri quyida keltirilgan muayyan diagnostik xususiyat uchun tanlangan.
Nega aynan shu taqsimot
Gematologiya uchta holatni oladi, chunki mikrositar differensiallar va makrositar differensiallar real laboratoriya amaliyotida eng ko‘p uchraydigan “tuzoq”lar hisoblanadi. Endokrinologiya ham uchta holatni oladi, chunki Xashimoto, PCOS va D vitamin yetishmasligi ko‘rinishlari turli diagnostik shakllarni mashq qiladi (avtoantitanga asoslangan, gormonlar nisbati asosida, bitta markerga asoslangan). Yagona holat ixtisosliklari hamon muhim, chunki har birida (CKD, ASCVD xavfi va SLE) dvigatel chaqirishi kerak bo‘lgan o‘z baholash tizimi bor (mos ravishda KDIGO bosqichlash, ASCVD 10 yillik xavfi, 2019 EULAR/ACR SLE mezonlari).
V11 ikkinchi yangilanish — 127 ta mamlakat bo‘ylab 100 000 ta anonimlashtirilgan holat
Ikkinchi yangilanish asl V11’ning 15 ta holatga qattiq bog‘langan Python literalini Kantesti klinik repozitoriyga nisbatan parametrlashtirilgan, faqat o‘qish uchun mo‘ljallangan SQL so‘rov bilan almashtiradi (anonymised_blood_panels). So‘rov quyidagilarni filtrlash uchun ishlatiladi: consent_research = 1 AND released_for_benchmark = 1 va shaffoflik uchun har bir benchmark ishga tushirishining yuqorisida chop etiladi. Mutaxassislik bo‘yicha kohort taqsimoti quyida ko‘rsatilgan.
Geografik taqsimot — eng yaxshi 10 ta davlat
Kogorta 127 ta davlatni (ISO 3166-1 alpha-2) qamrab oladi. Yevropa 57.7% ni, Amerika qit'alari 25.4% ni, Osiyo-Tinch okeani 6.2% ni, Yaqin Sharq/Afrika bo‘yicha nomlangan yozuvlar 3.4% ni tashkil etadi va yana 97 ta qo‘shimcha davlatdan iborat uzun quyruq jami taxminan 7.3% ni beradi. Eng katta o‘n ta hissa qo‘shuvchi: AQSh (10,500), Braziliya (9,500), Ispaniya (9,000), Italiya (8,000), Germaniya (7,800), Fransiya (7,400), Portugaliya (5,800), Türkiye (3,400), Buyuk Britaniya (2,900) va Meksika (2,500). Mamlakat bo‘yicha kompozit ballar 0.9971 (Hindiston) dan 0.9985 (Shveytsariya) gacha bo‘lgan.
Oldindan ro‘yxatdan o‘tkazilgan rubrika, izohi
Ro‘yxatdan o‘tish (pre-registration) ushbu benchmarkdagi eng muhim metodologik tanlovdir. Kutilgan har bir tashxis, har bir klinik baholash tizimi va har bir hisobot bo‘limi manba kodga biriktirilgan dvigatel chaqirilishidan oldin. Shuning uchun dvigatelni “yaltiratish” uchun rubrikani post-hoc sozlashning iloji yo‘q.
Kompozit ballni tashkil etuvchi uchta komponent mavjud. strukturaviy komponent 35 foizni tashkil etadi va dvigatel yettita majburiy hisobot bo‘limini (sarlavha, qisqacha mazmun, asosiy topilmalar, differensial, baholash tizimlari, tavsiyalar, kuzatuv) hamda ularning ichidagi o‘n oltita majburiy kichik bo‘limni qaytargan-qaytarmaganini o‘lchaydi. Bo‘lim mavjudligi strukturaviy hisob-kitobda 40 foiz, kichik bo‘lim mavjudligi esa 60 foizni tashkil etadi.
The klinik komponent 55 foizni tashkil etadi va uch narsani birlashtiradi: tashxis-kalit so‘zlarni eslab qolish (klinik kichik ballning 70 foizi), baholash tizimini eslab qolish (20 foiz — dvigatel tegishli bo‘lsa Mentzer, FIB-4, HOMA-IR, ASCVD xavfi, KDIGO bosqichlash, EULAR/ACR mezonlarini hisoblaydimi), hamda ehtimollar yig‘indisi bo‘yicha haqiqiylik tekshiruvi (10 foiz — differensial ehtimollar [90, 110] oralig‘ida yig‘ilishi kerak). “Tuzoq” holatlarida aniq giper-diagnostika uchun 0.30 gacha bo‘lgan jarima ayiriladi, u soxta patologiya bayroqlari uchun 0.10 tadan hisoblanadi va uchta bayroq bilan cheklanadi.
The kechikish (latency) komponenti 10 foizni tashkil etadi. 20 soniyadan kam javob to‘liq 0.10 ball oladi, 40 soniyadan kam javob 0.05 ball oladi, undan sekinroq bo‘lsa nol ball. 20 soniyalik maqsad ishlab chiqarishdagi primary-path xizmat darajasidagi maqsadni aks ettiradi; 40 soniyalik yuqori chegara esa og‘ir dvigatel chaqiruvlari uchun Phase 2 fallback byudjetini aks ettiradi.
Pre-registration nimaning oldini oladi
Birinchi tomon benchmarklari post-hoc rubrika sozlash orqali o‘z raqamlarini shishirish bilan mashhur. Odatda naqsh deyarli bir xil: jamoa dvigatelni ishga tushiradi, qayerda yomonroq ishlashini ko‘radi, so‘ng underperform qilgan sohalar kamroq hisoblanishi uchun rubrikani jimgina sozlaydi. Rubrikani birinchi dvigatel chaqirig‘idan oldin manba kodga biriktirib, harnessni MIT litsenziya ostida e’lon qilish orqali bu sozlash versiyalarni boshqarishda ko‘rinadigan bo‘ladi. Istalgan kishi repozitoriyani klon qilishi, rubrika mualliflarining sanalarini tekshirishi va dvigatel natijalari baholashni shakllantirish uchun ishlatilmaganini tasdiqlashi mumkin.
Giperdiagnostika tuzog‘i holatlari — haddan tashqari chaqirish (over-calling) haqiqiy nosozlik rejimi nega
Normal skrininglarda patologiyani haddan tashqari “zo‘r berib” chaqirish iste’molchiga yo‘naltirilgan tibbiy assistentlarda hujjatlashtirilgan nosozlik rejimidir. Uning keyingi xarajatlariga keraksiz tekshiruv, bemor xavotiri va iatrogen tekshiruv kiradi. Ushbu benchmarkdagi ikkita “tuzoq” holati bu nosozlik rejimini ko‘rinadigan va baholanadigan qilish uchun mo‘ljallangan.
🟡 Tuzoq 1 — BT-014-GILBERT
Ko‘rinish. Umumiy bilirubini 2.4 mg/dL bo‘lgan 24 yoshli erkak. To‘g‘ridan-to‘g‘ri fraksiya normal, transaminazalar va ishqoriy fosfataza ularning mos yozishmalar diapazonida, retikulotsitlar e’tiborga molik emas va gaptoglobin hamda LDH gemolizni istisno qiladi.
To‘g‘ri talqin. Gilbert sindromi — benign UGT1A1 polimorfizmi. Talqin gepatit, sirroz, gemolitik anemiya yoki biliar obstruksiyani chaqirmasligi kerak.
V11 natija. Kompozit 1.000. Olti ta kuzatilgan ortiqcha tashxis qo‘yish bayrog‘ining hech biri faol tashxis sifatida paydo bo‘lmadi.
🟡 Tuzoq 2 — BT-015-HEALTHY
Ko‘rinish. 15 ta parametrli odatiy skrining paneli bo‘lgan 35 yoshli ayol. Har bir analit o‘zining mos yozishmalar diapazonida bemalol joylashgan.
To‘g‘ri talqin. Ishontirish va turmush tarzini saqlash. Talqin klinik jihatdan foydali ko‘rinishi uchun chegaraviy patologiyani “to‘qib chiqarishi” kerak emas.
V11 natija. 1.000 kompozit ko‘rsatkich. Kuzatilgan yettita ortiqcha tashxis (over-diagnosis) ogohlantirishlaridan hech biri — diabet, anemiya, gipotiroidizm, dislipidemiya, gepatit, buyrak kasalligi, yetishmovchilik — faol tashxis sifatida paydo bo‘lmadi.
Ikkala “trap” bo‘yicha o‘n uchta kuzatilgan gipertashxis (hyperdiagnosis) ogohlantirishlari tekshirildi. Hech biri ishga tushmadi. Bu, AI dvigatelidan triaj yoki konsultatsiyagacha (pre-consultation) vosita sifatida foydalanishni ko‘rib chiqayotgan har qanday klinisyen uchun eng muhim natijadir: tizim mavjud bo‘lmagan joyda kasallikni o‘ylab topmadi.
Mentzer indeksi: temir yetishmovchiligini talassemiya belgilaridan ajratish
Ikkinchi yuqori qiymatli topilma BT-001 (temir tanqisligi anemiyasi) holatining BT-007 (beta-talassemiya minor) holati bilan juftlanishiga taalluqlidir. Ikkalasi ham mikrositoz bilan namoyon bo‘ladi va bu sodda klassifikatorlar uchun yaxshi ma’lum bo‘lgan “to‘siq” hisoblanadi. Mentzer indeksi, MCV ni RBC soniga bo‘lib hisoblanadi, temir tanqisligida 13 dan yuqori, talassemiya belgilarida esa 13 dan past bo‘ladi.
BT-001 da bemor 34 yoshli ayol bo‘lib, gemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL va TIBC ko‘tarilgan. Taxminan 17.7 bo‘lgan Mentzer indeksi mutlaq temir tanqisligini qo‘llab-quvvatlaydi. BT-007 da bemor 28 yoshli erkak bo‘lib, mikrositoz (MCV 65.8 fL) bor, ammo RBC soni 6.2 yuqori, RDW normal, ferritin normal va HbA2 5.6 foiz. Taxminan 10.6 bo‘lgan Mentzer indeksi talassemiya belgilarini ko‘rsatadi va ko‘tarilgan HbA2 beta-talassemiya minorni tasdiqlaydi.
Ikkala holat ham 1.000 ball oldi. Dvigatel ikkala talqinda ham Mentzer indeksini aniq qo‘lladi va har safar to‘g‘ri tashxisni qaytardi. Bu butun benchmark bo‘yicha eng klinik jihatdan ishonchli (reassuring) natija, chunki talassemiya belgilarini temir tanqisligi deb noto‘g‘ri tasniflash noto‘g‘ri temir qo‘shimchasini berishga va oilaviy skrining imkoniyatlari o‘tkazib yuborilishiga olib keladi, temir tanqisligini esa talassemiya deb noto‘g‘ri tasniflash esa oddiy o‘rnini bosuvchi davolashni kechiktiradi. Bizning ferritin diapazoni bo‘yicha yo‘riqnomamiz kengroq differensial kontekstni tushuntiradi.
V11 dastlabki referens run’dan (2026-yil 23-aprel) holat bo‘yicha natijalar
15 ta holatli proof-of-concept kogortadagi asl V11 referens run xizmat qiladi metodologik asos sifatida Ikkinchi yangilanish uchun: quyidagi har bir holat tafsiloti rubrika real dvigatel javobini qanday qayta ishlashini ko‘rsatadi. O‘n beshta holatdan o‘ntasi asosiy yo‘lda 1.000 maksimal kompozit ballga erishdi; uchta holat Phase 2 fallback orqali ko‘rsatildi, bunda 0.05 kechikish bonusi yo‘qoldi, lekin barcha klinik va strukturaviy kontent saqlab qolindi. Bitta holatda bitta majburiy bo‘lim yo‘q edi; bittasi esa ehtimollar taqsimoti yig‘indisi biroz kamaygan holda qaytdi.
PCOS holati (BT-008) javob tuzilmasidagi majburiy bitta bo‘limchani yo‘qotdi — o‘n oltitadan o‘n besh bo‘lib, o‘n oltitadan o‘n oltita emas — bu esa strukturaviy ballni 1.000 dan 0.963 gacha pasaytirdi. SLE holati (BT-011) klinik ballni 0.965 gacha tushirgan, ammo har bir diagnostik kalit so‘z va ballash tizimini saqlab qolgan, biroz kamaygan ehtimollar-taqsimoti yig‘indisini qaytardi. Hech bir sub-ideal holat to‘g‘ri tashxisni o‘tkazib yubormadi.
V11 Ikkinchi yangilanish agregati — 100,000 ta holat
Aholi miqyosida alohida holat qatorlari inson o‘qiy oladigan ko‘rinishda emas, shuning uchun Ikkinchi yangilanish 100,000 qatorli jadval o‘rniga agregatlangan ko‘rsatkichlarni hisobot qiladi. Asosiy agregat quyida ko‘rsatilgan; ixtisoslik va mamlakat bo‘yicha taqsimotlar texnik hisobotda hamda Figshare deposit’ida e’lon qilinadi. Stratifikatsiyalangan tasodifiy tanlama n = 201 xom dvigatel javoblari (deterministik seed 20260426) GitHub’ning results/ tekshirish uchun mo‘ljallangan directorysida e’lon qilinadi.
Sarlavhadagi ball bizga nimani aytmaydi
Aynan shu oldindan ro‘yxatdan o‘tkazilgan mezon (rubrika) bo‘yicha 100,000 ta anonimlashtirilgan holatdan iborat 127 ta mamlakatni qamrab olgan kohortda 99.80 foizlik kompozit ball — deyarli maksimal darajadagi (near-ceiling) natijani anglatadi, lekin uni ehtiyotkorlik bilan talqin qilish kerak. Natija dvigatelning V11 dagi manba kodga biriktirgan mezonimizga nisbatan qanday ishlaganini tasvirlaydi; bu esa tabiatda mavjud bo‘lgan har bir qon tahlili paneli bo‘yicha dvigatelning to‘g‘riligiga oid universal da’vo emas.
Ball shuni ko‘rsatadiki, dvigatel ushbu baholash uchun tanlangan diagnostik naqshlarni aholi miqyosidagi kohort bo‘yicha to‘g‘ri qayta ishlagan — e’lon qilingan va takrorlanadigan metodologiya asosida. Bu dvigatel tabiatda mavjud bo‘lgan har bir qon tahlili paneli bo‘yicha to‘g‘ri ekanini aytmaydi. Shuningdek, dvigatel klinisyenning qarorini o‘rnini bosishi kerakligini ham aytmaydi. Va u boshqa AI tizimlardan ustunligini ham aytmaydi — boshqa dvigatellar bilan taqqoslash tahlillari ushbu hisobot doirasidan ataylab tashqarida qoldirilgan.
Ballning aniqlab beradigan narsa — bu bazaviy (baseline) ko‘rsatkich. Mezon va sinov muhiti (harness) ommaga e’lon qilingani sababli, dvigatelning kelgusi versiyalarini xuddi shu mezon bo‘yicha baholash mumkin — V11 initial 15 ta holatga, Ikkinchi yangilanishdagi 100,000 ta holat kohortiga yoki keyingi kengayishlarga ham qo‘llanadi — e’lon qilingan ball bilan keyingi har qanday ishga tushirish (run) o‘rtasidagi farqning o‘zi esa o‘lchanadigan bo‘ladi. Oldindan ro‘yxatdan o‘tkazishning qiymati shunda: u ishlash haqidagi da’volarni sinab ko‘rish mumkin bo‘lgan da’volarga aylantiradi.
10 daqiqada ushbu benchmarkni qanday qayta yaratish mumkin
Takrorlash uchun faqat Kantesti API credential jufti va Python 3.10 yoki undan keyingi muhit kerak, unda requests va reportlab kutubxonalari o‘rnatilgan bo‘lishi kerak. To‘liq “harness” MIT litsenziyasi ostida chiqarilgan bitta, o‘z ichiga olgan Python modulidir.
Yangi ishga tushirish uchun to‘rt qadam
Birinchi. Repozitoriyani klon qiling: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Ikkinchi. Bog‘liqliklarni o‘rnating: pip install -r requirements.txt (Ikkinchi yangilanish qo‘shadi mysql-connector-python ≥ 8.0 SQL case loader uchun). Uch. Belgilang KANTESTI_USERNAME va KANTESTI_PASSWORD Dvigatel API uchun muhit o‘zgaruvchilari sifatida. Ikkinchi yangilanish SQL case loader uchun ham quyidagilarni belgilang: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, va KANTESTI_DB_PASSWORD — yuklovchi faqat o‘qish huquqiga ega rol orqali ulanishi (bench_reader) identifikatsiya qiluvchi jadval(lar) bo‘yicha imtiyozga ega emas. To‘rt. Ishga tushiring python benchmark_bloodtest.py --limit 100000 to‘liq Second-Update ishga tushirish uchun yoki python benchmark_bloodtest.py --limit 1000 tezkor iteratsiya uchun. Natijalar quyiga tushadi ./benchmark_results/: mamlakat va mutaxassislik bo‘yicha ustunlarga ega CSV ball jadvali, JSON agregat, tabaqalangan-tasodifiy raw-response namunasi va Markdown hisoboti.
23 aprel 2026-yil (V11 initial, 15 ta holat) va 26 aprel 2026-yil (V11 Second Update, 100,000 ta holat) dagi referens ishga tushirishlar repozitoriy ichidagi results/ katalogda saqlangan. Yangi ishga tushirish yangi vaqt tamg‘ali ball jadvalini hosil qiladi, referens ishga tushirishlarga esa tegilmaydi. Agar sizning ishga tushirishingiz sezilarli darajada boshqacha natija bersa, iltimos, GitHub issue oching va run timestamp hamda javob metadata’sida qaytgan engine versiyasini ko‘rsating.
Cheklovlar va kelgusi ishlar
127 ta mamlakat bo‘yicha 100,000 ta holat bo‘lsa ham, to‘rtta cheklov aniq e’tirof etilishga loyiq: uzoq dumli mamlakatlar bo‘yicha kam namuna olish, bir martalik baholash, bitta engine doirasi va bitta manbadan olingan ma’lumot kelib chiqishi. Har biri faol davom etayotgan keyingi ishlar doirasida hal qilinmoqda.
Uzoq dumli mamlakatlar qamrovi. Second Update 127 ta mamlakatni qamrab oladi, ammo taqsimot muvozanatsiz — eng yaxshi 10 ta hissa qo‘shuvchi holatlarning ≈66.4% qismini tashkil qiladi, qolgan 97 ta qo‘shimcha mamlakatdan iborat uzoq dum esa birgalikda ≈7.3% (taxminan 7,300 ta holat, mamlakatga o‘rtacha ~75 ta holat) hissa qo‘shadi. Shuning uchun bu uzoq dumdagi mamlakatlar bo‘yicha kompozitlar sarlavhali ko‘rsatkichlarga qaraganda shovqinliroq. Kelgusidagi ishga tushirishlar yurisdiksiya bo‘yicha baholarni mustahkamlash uchun avval kam namuna olingan mamlakatlardan tanlab olishni ustuvor qiladi.
Bir martalik baholash. Kogortadagi har bir holat bir marta baholandi. Katta til modellari hatto past sampling temperaturada ham sezilarli darajadagi output variatsiyasini namoyon qiladi, shuning uchun har bir holatga beshta baholash bilan ko‘p martalik protokol va qayd etilgan variatsiya tabiiy keyingi qadam — ayniqsa trap-case subsetida, sampling jitter ostida barqarorlik xavfsizlik haqidagi da’voning bir qismi bo‘lgani uchun.
Bitta dvigatel doirasi. Ushbu hisobot bitta engine’ni tavsiflaydi. Muqobil AI tizimlar bilan taqqoslovchi tahlillar bu yerda ko‘rib chiqilmaydi; biz ularni bir xil MIT litsenziyali harnessga qarshi, tegishli metodologiya bilan alohida mustaqil tadqiqot sifatida davom ettirishimiz mumkin.
Bitta manbadan olingan ma’lumotlar kelib chiqishi. 100,000 ta holat bitta klinik repozitoriydan olingan anonimlashtirilgan real bemor yozuvlari (Kantesti SQL-ga tayangan klinik ma’lumotlar ombori). Ular saralangan ishlab chiqarish oqimini ifodalaydi va global miqyosda populyatsiya-representativ tasodifiy tanlov emas. Baholashni tashqaridan manbalar orqali olingan ko‘p markazli ma’lumotlarga kengaytirish yo‘l xaritasida.
Ushbu to‘rttadan tashqari, rejalashtirilgan eng ta’sirli kengaytma — yurisdiksiya bo‘yicha ko‘p tillilik tengligini ta’minlash. Kantesti AI Engine foydalanuvchilarga 75+ tilda xizmat qiladi va tilga ajratilgan Second-Update sub-kogortalarini (turk, nemis, ispan, fransuz, italyan, portugal, arab, mandarin) ishga tushirish engine qo‘llab-quvvatlaydigan tillar bo‘yicha output sifatini miqdoriy baholaydi. Har bir tilga ajratilgan tahlil o‘z DOI va harness branchi bilan e’lon qilinadi.