Klinik tasdiqlash Oldindan ro‘yxatdan o‘tkazilgan benchmark V11 — 2026-yil aprel MIT litsenziyali Tengdoshlar tomonidan tekshiriladigan

Kantesti AI dvigateli — Qon tahlili bo‘yicha benchmark: yettita tibbiy yo‘nalish bo‘yicha klinik tasdiqlash

Kantesti AI Engine’ning anonimlashtirilgan qon tahlili holatlari bo‘yicha mustaqil, oldindan ro‘yxatdan o‘tkazilgan klinik baholashi. Baholash mezoni (rubrika) birinchi engine chaqiruvidan oldin manba kodida muzlatib qo‘yilgan, baholash sinov muhiti MIT litsenziyali va har bir xom javob e’lon qilinadi.

📖 ~14 daqiqa 📅 2026-yil 23-aprel 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Nashr etilgan: 2026-yil 23-aprel 🩺 Tibbiy jihatdan ko‘rib chiqilgan: 2026-yil 23-aprel ✅ Oldindan ro‘yxatdan o‘tkazilgan rubrika 🔓 Ochiq kod va ma’lumotlar

Ushbu klinik validatsiya tadqiqotiga rahbarlik qilgan Doktor Tomas Klein, tibbiyot fanlari doktori, Kantesti AI’ning Bosh tibbiy xodimi (Chief Medical Officer), hamkorlikda Julian Emirxan Bulut, Kantesti Ltd’ning katta AI muhandisi va bosh direktori (CEO). Metodologiya va rubrika ko‘rib chiqilgan Kantesti AI tibbiy maslahat kengashi.

Bosh muallif va klinik nazorat

Tomas Klein, tibbiyot fanlari doktori

Kantesti AI bosh tibbiyot xodimi

Doktor Tomas Klein — laboratoriya tibbiyoti sohasida 15 yildan ortiq tajribaga ega, kengash tomonidan sertifikatlangan klinik gematolog va internist. Kantesti AI’ning Bosh tibbiy xodimi sifatida u ushbu benchmark uchun holatlar panelini tanladi, barcha diagnostik haqiqiy asoslarni (ground truths) ko‘rib chiqdi va birinchi engine chaqiruvidan oldin oldindan ro‘yxatdan o‘tkazilgan rubrikani tasdiqladi.

ORCID 0009-0009-1490-1321 Tadqiqot darvozasi Google Scholar

Hammuallif va implementatsiya

Julian Emirxan Bulut

Katta AI muhandisi va CEO, Kantesti Ltd

Julian Emirhan Bulut — Kantesti Ltd’ning asoschisi va bosh direktori (CEO). U baholash sinov muhitini (evaluation harness) ishlab chiqdi va joriy qildi, API integratsiyasini amalga oshirdi, 2026-yil aprel oyidagi benchmark ishini o‘tkazdi va statistik agregatsiyani tayyorladi. 2019-yildan beri platforma asoschisi.

GitHub Kantesti haqida

⚡ Qisqacha ma'lumot V11 — 2026-yil 23-aprel

99.12% kompozit ball yetti tibbiy mutaxassislik bo‘yicha 15 ta anonimlashtirilgan real bemor qon tahlili holatida.
Giperdiaqnoz bo‘yicha nol noto‘g‘ri musbat natijalar ikkala trap-holatda (Gilbert sindromi va to‘liq normal kattalar skriningi).
Oldindan ro‘yxatdan o‘tkazilgan rubrika birinchi engine chaqiruvidan oldin manba kodida “muzlatilgan” — post-hoc (keyinchalik) sozlash imkoni bo‘lmagan.
Mentzer indeksi to‘g‘ri qo‘llangan temir yetishmovchiligi anemiyasini beta-talassemiya minoridan ajratish uchun.
Faqat ishlab chiqarish (production) yakuniy nuqtasi — imtiyozli yo‘naltirish (privileged routing) yo‘q; u aynan to‘lovchi mijoz qanday kirsa, shunday baholangan.
O‘rtacha kechikish 20.17 soniya end-to-end; 15 ta holatdan 12 tasi 20 soniyalik asosiy yo‘l (primary-path) maqsadidan pastda.
MIT litsenziyali “harness” GitHub’da har bir xom engine javobi bilan birga e’lon qilindi — mustaqil qayta ishlab chiqish qo‘llab-quvvatlanadi.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub’da ko‘zgulangan.

Nega bu benchmark mavjud va u nimani sinaydi

AI yordamida qon tahlili natijalarini qanday o‘qish kerak tobora iste’molchi va klinik ish jarayonlarida qo‘llanmoqda, biroq laboratoriya tibbiyotiga mos, qayta tiklanadigan baholash asoslari kam uchraydi. Bu kontekstda eng muhim savollar umumiy tibbiy savol-javob benchmarklarida yoritiladigan savollar emas: o‘rtacha korpuskulyar hajm (MCV) bir xil bo‘lganda engine temir yetishmovchiligini talassemiya belgilaridan ajrata oladimi, Gilbert sindromini gepatit sifatida ortiqcha tashxislaydimi va to‘liq normal skrining panelida patologiyani “yaratadimi”?

Bitta qon tahlili paneli odatda bir nechta raqobatdosh talqinlarni qo‘llab-quvvatlash uchun yetarli signalga ega bo‘ladi va talqin qiluvchi klinisyenning vazifasi ularni bir-biriga solishtirib baholashdan iborat, darslikdagi tayyor javobni qidirib topish emas. Darslikdagi holatlarda yaxshi ishlaydigan “dvigatel” eng muhim bo‘lgan holatlarda baribir muvaffaqiyatsiz bo‘lishi mumkin: differensial-diagnostika tuzoqlari, alohida ko‘rilganda xavotirli ko‘rinadigan, ammo zararsiz variantlar va ishonchli yordamchilarni patologiya “yasashga” undaydigan to‘liq normal panellar.

Ushbu benchmark aynan o‘sha muvaffaqiyatsizlik turlariga asoslangan. O‘n beshta holatning har biri muayyan diagnostik xususiyat uchun tanlangan: o‘xshash mean corpuscular volume (o‘rtacha eritrotsit hajmi)ga ega bo‘lgan beta-talassemiya belgisi bilan ajratib turilishi kerak bo‘lgan temir yetishmovchiligi bilan bog‘liq mikrositoz; faqat alohida ko‘tarilgan bilvosita giperbilirubinemiya bilan namoyon bo‘ladigan Gilbert sindromi; va har bir analit o‘zining referens diapazonida joylashgan o‘n besh parametrli skrining paneli. Rubrika har bir holatni o‘z shartlari bo‘yicha o‘qiydigan dvigatellarni rag‘batlantiradi va bunday tashxis o‘rinli bo‘lmagan joyda ishonchli tashxisga “yopishib oladigan” dvigatellarni jazolaydi.

Tomas Klein, MD sifatida men holatlar panelini tanladim, chunki laboratoriya tibbiyoti bo‘yicha yordamchilar eng ko‘p aynan shu naqshlarni noto‘g‘ri talqin qilishadi. Qimmatga tushadigan muvaffaqiyatsizlik turi "kam uchraydigan kasallikni o"tkazib yuborish” emas — bu uni bo‘lmagan bemorlarda odatiy patologiyani “to‘qib chiqarish”. Bizning Tibbiy tasdiqlash hub kengroq asosni tasvirlaydi; bu sahifa uning V11 dvigatelida qo‘llangan natijasini bayon qiladi.

Eng so‘nggi referens ish — V11 (2026-yil aprel)

Kantesti AI Engine V11’ning 2026-yil aprel oyidagi referens ishga tushirish (reference run) natijasida kompozit ball olindi: 99.12% oldindan ro‘yxatdan o‘tkazilgan o‘n besh holatli rubrika bo‘yicha. Giper-diagnostika tuzoqlariga tushgan ikkala holat ham maksimal darajada ball oldi. Mentzer indeksi temir yetishmovchiligi va talassemiya differensiali bo‘yicha to‘g‘ri qo‘llangan.

Kompozit 99.12% 15 tadan 15 ta holat ball oldi

0.998 Strukturaviy ball

0.998 Klinik ball

20.17 s O‘rtacha kechikish

0 / 13 Tuzoq bo‘yicha noto‘g‘ri musbatlar

Kompozit formula uchta komponentni birlashtiradi: strukturaviy moslik yettita majburiy hisobot bo‘limi va o‘n oltita majburiy kichik bo‘lim bilan, klinik aniqlik kalit so‘zlarni eslab qolish (keyword recall) + ball tizimini eslab qolish (scoring-system recall) + ehtimollik-taqsimotning haqiqiyligini tekshirish orqali o‘lchanadi va javob kechikishi 20 soniyalik asosiy xizmat darajasi (service-level) maqsadiga nisbatan. Aniq ajratma quyidagi rubrika formulada ko‘rsatilgan.

Kompozit = 0.35 × Strukturaviy + 0.55 × Klinik + 0.10 × Kechikish

Boshliq (headroom)ning qolgan 0,88 foiz punktga teng qismi deyarli butunlay kechikish (latency) yo‘qotishiga ajraladi — har biri minus 0,05 bo‘lgan uchta 2-bosqich (Phase 2) zaxira (fallback) chaqiruvi 0,88 punktlik yetishmovchilikning taxminan 0,60 qismini tashkil etdi — klinik mazmunga emas. Dvigatel o‘n beshta holatning hech birida to‘g‘ri tashxisni o‘tkazib yubormadi; u qayerdadir yetishgan bo‘lsa, u buni chaqiruvlarning ozchilik qismida 20 soniyalik asosiy (primary-path) maqsaddan biroz ko‘proq vaqt olgani bilan qildi.

Yetti tibbiy mutaxassislik bo‘yicha o‘n beshta holat

Holatlar paneli yettita mutaxassislikni qamrab oladi — gematologiya, endokrinologiya, metabolik tibbiyot, gepatologiya, nefrologiya, kardiologiya, revmatologiya — shuningdek, ikkita alohida giper-diagnostika tuzoq (hyperdiagnosis trap) holati. Har bir holat yozma ravishda olingan xabardor rozilik asosida Kantesti klinik ma’lumotlar omboridan olingan anonimlashtirilgan real bemor yozuvini ifodalaydi.

De-identifikatsiya Safe Harbor yondashuvi bo‘yicha amalga oshirildi: barcha bevosita identifikatorlar olib tashlandi yoki almashtirildi va har bir yozuv BT-NNN-LABEL formatida benchmark-ichki holat kodi bilan belgilandi. Qayta ishlash GDPR 9-moddasi 2-qismi (j) bandiga ilmiy tadqiqotlar uchun tegishli himoya choralarini qo‘llagan holda va Buyuk Britaniyaning GDPRga teng qoidalariga muvofiq bajarildi. Nashr etilgan “harness”, texnik hisobot yoki chiqarilgan ma’lumotlar to‘plamlarining hech birida shaxsni aniqlashga xizmat qiladigan ma’lumotlar uchramaydi.

Gematologiya (3) BT-001, BT-006, BT-007 Temir tanqisligi anemiyasi · B12 yetishmovchiligi · Kichik beta-talassemiya (beta-thalassaemia minor)

Endokrinologiya (3) BT-002, BT-008, BT-012 Xashimoto tiroiditi · Insulin rezistentligi bilan PCOS · Og‘ir D vitamin yetishmasligi

Metabolik (2) BT-003, BT-013 Metabolik sindrom bilan T2DM · Gut xavfi bilan giperurikemiya

Gepatologiya (2) BT-004, BT-009 NAFLD / NASH · O‘tkir virusli gepatit

Nefrologiya · Kardiologiya · Revmatologiya (3) BT-005, BT-010, BT-011 3-bosqich surunkali buyrak kasalligi (CKD stage 3) · Aterogen dislipidemiya · Tizimli qizil yuguruk (systemic lupus erythematosus)

Tuzoqli holatlar (2) BT-014, BT-015 Gilbert sindromi (izolyatsiyalangan bilvosita giperbilirubinemiya) · To‘liq normal kattalar skriningi

Nega aynan shu taqsimot

Gematologiya uchta holatni oladi, chunki mikrositar differensiallar va makrositar differensiallar real laboratoriya amaliyotida eng ko‘p uchraydigan “tuzoq”lar hisoblanadi. Endokrinologiya ham uchta holatni oladi, chunki Xashimoto, PCOS va D vitamin yetishmasligi ko‘rinishlari turli diagnostik shakllarni mashq qiladi (avtoantitanga asoslangan, gormonlar nisbati asosida, bitta markerga asoslangan). Yagona holat ixtisosliklari hamon muhim, chunki har birida (CKD, ASCVD xavfi va SLE) dvigatel chaqirishi kerak bo‘lgan o‘z baholash tizimi bor (mos ravishda KDIGO bosqichlash, ASCVD 10 yillik xavfi, 2019 EULAR/ACR SLE mezonlari).

Oldindan ro‘yxatdan o‘tkazilgan rubrika, izohi

Ro‘yxatdan o‘tish (pre-registration) ushbu benchmarkdagi eng muhim metodologik tanlovdir. Kutilgan har bir tashxis, har bir klinik baholash tizimi va har bir hisobot bo‘limi manba kodga biriktirilgan dvigatel chaqirilishidan oldin. Shuning uchun dvigatelni “yaltiratish” uchun rubrikani post-hoc sozlashning iloji yo‘q.

Kompozit ballni tashkil etuvchi uchta komponent mavjud. strukturaviy komponent 35 foizni tashkil etadi va dvigatel yettita majburiy hisobot bo‘limini (sarlavha, qisqacha mazmun, asosiy topilmalar, differensial, baholash tizimlari, tavsiyalar, kuzatuv) hamda ularning ichidagi o‘n oltita majburiy kichik bo‘limni qaytargan-qaytarmaganini o‘lchaydi. Bo‘lim mavjudligi strukturaviy hisob-kitobda 40 foiz, kichik bo‘lim mavjudligi esa 60 foizni tashkil etadi.

The klinik komponent 55 foizni tashkil etadi va uch narsani birlashtiradi: tashxis-kalit so‘zlarni eslab qolish (klinik kichik ballning 70 foizi), baholash tizimini eslab qolish (20 foiz — dvigatel tegishli bo‘lsa Mentzer, FIB-4, HOMA-IR, ASCVD xavfi, KDIGO bosqichlash, EULAR/ACR mezonlarini hisoblaydimi), hamda ehtimollar yig‘indisi bo‘yicha haqiqiylik tekshiruvi (10 foiz — differensial ehtimollar [90, 110] oralig‘ida yig‘ilishi kerak). “Tuzoq” holatlarida aniq giper-diagnostika uchun 0.30 gacha bo‘lgan jarima ayiriladi, u soxta patologiya bayroqlari uchun 0.10 tadan hisoblanadi va uchta bayroq bilan cheklanadi.

The kechikish (latency) komponenti 10 foizni tashkil etadi. 20 soniyadan kam javob to‘liq 0.10 ball oladi, 40 soniyadan kam javob 0.05 ball oladi, undan sekinroq bo‘lsa nol ball. 20 soniyalik maqsad ishlab chiqarishdagi primary-path xizmat darajasidagi maqsadni aks ettiradi; 40 soniyalik yuqori chegara esa og‘ir dvigatel chaqiruvlari uchun Phase 2 fallback byudjetini aks ettiradi.

Pre-registration nimaning oldini oladi

Birinchi tomon benchmarklari post-hoc rubrika sozlash orqali o‘z raqamlarini shishirish bilan mashhur. Odatda naqsh deyarli bir xil: jamoa dvigatelni ishga tushiradi, qayerda yomonroq ishlashini ko‘radi, so‘ng underperform qilgan sohalar kamroq hisoblanishi uchun rubrikani jimgina sozlaydi. Rubrikani birinchi dvigatel chaqirig‘idan oldin manba kodga biriktirib, harnessni MIT litsenziya ostida e’lon qilish orqali bu sozlash versiyalarni boshqarishda ko‘rinadigan bo‘ladi. Istalgan kishi repozitoriyani klon qilishi, rubrika mualliflarining sanalarini tekshirishi va dvigatel natijalari baholashni shakllantirish uchun ishlatilmaganini tasdiqlashi mumkin.

Giperdiagnostika tuzog‘i holatlari — haddan tashqari chaqirish (over-calling) haqiqiy nosozlik rejimi nega

Normal skrininglarda patologiyani haddan tashqari “zo‘r berib” chaqirish iste’molchiga yo‘naltirilgan tibbiy assistentlarda hujjatlashtirilgan nosozlik rejimidir. Uning keyingi xarajatlariga keraksiz tekshiruv, bemor xavotiri va iatrogen tekshiruv kiradi. Ushbu benchmarkdagi ikkita “tuzoq” holati bu nosozlik rejimini ko‘rinadigan va baholanadigan qilish uchun mo‘ljallangan.

🟡 Tuzoq 1 — BT-014-GILBERT

Ko‘rinish. Umumiy bilirubini 2.4 mg/dL bo‘lgan 24 yoshli erkak. To‘g‘ridan-to‘g‘ri fraksiya normal, transaminazalar va ishqoriy fosfataza ularning mos yozishmalar diapazonida, retikulotsitlar e’tiborga molik emas va gaptoglobin hamda LDH gemolizni istisno qiladi.

To‘g‘ri talqin. Gilbert sindromi — benign UGT1A1 polimorfizmi. Talqin gepatit, sirroz, gemolitik anemiya yoki biliar obstruksiyani chaqirmasligi kerak.

V11 natija. Kompozit 1.000. Olti ta kuzatilgan ortiqcha tashxis qo‘yish bayrog‘ining hech biri faol tashxis sifatida paydo bo‘lmadi.

🟡 Tuzoq 2 — BT-015-HEALTHY

Ko‘rinish. 15 ta parametrli odatiy skrining paneli bo‘lgan 35 yoshli ayol. Har bir analit o‘zining mos yozishmalar diapazonida bemalol joylashgan.

To‘g‘ri talqin. Ishontirish va turmush tarzini saqlash. Talqin klinik jihatdan foydali ko‘rinishi uchun chegaraviy patologiyani “to‘qib chiqarishi” kerak emas.

V11 natija. 1.000 kompozit ko‘rsatkich. Kuzatilgan yettita ortiqcha tashxis (over-diagnosis) ogohlantirishlaridan hech biri — diabet, anemiya, gipotiroidizm, dislipidemiya, gepatit, buyrak kasalligi, yetishmovchilik — faol tashxis sifatida paydo bo‘lmadi.

Ikkala “trap” bo‘yicha o‘n uchta kuzatilgan gipertashxis (hyperdiagnosis) ogohlantirishlari tekshirildi. Hech biri ishga tushmadi. Bu, AI dvigatelidan triaj yoki konsultatsiyagacha (pre-consultation) vosita sifatida foydalanishni ko‘rib chiqayotgan har qanday klinisyen uchun eng muhim natijadir: tizim mavjud bo‘lmagan joyda kasallikni o‘ylab topmadi.

Mentzer indeksi: temir yetishmovchiligini talassemiya belgilaridan ajratish

Ikkinchi yuqori qiymatli topilma BT-001 (temir tanqisligi anemiyasi) holatining BT-007 (beta-talassemiya minor) holati bilan juftlanishiga taalluqlidir. Ikkalasi ham mikrositoz bilan namoyon bo‘ladi va bu sodda klassifikatorlar uchun yaxshi ma’lum bo‘lgan “to‘siq” hisoblanadi. Mentzer indeksi, MCV ni RBC soniga bo‘lib hisoblanadi, temir tanqisligida 13 dan yuqori, talassemiya belgilarida esa 13 dan past bo‘ladi.

BT-001 da bemor 34 yoshli ayol bo‘lib, gemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL va TIBC ko‘tarilgan. Taxminan 17.7 bo‘lgan Mentzer indeksi mutlaq temir tanqisligini qo‘llab-quvvatlaydi. BT-007 da bemor 28 yoshli erkak bo‘lib, mikrositoz (MCV 65.8 fL) bor, ammo RBC soni 6.2 yuqori, RDW normal, ferritin normal va HbA2 5.6 foiz. Taxminan 10.6 bo‘lgan Mentzer indeksi talassemiya belgilarini ko‘rsatadi va ko‘tarilgan HbA2 beta-talassemiya minorni tasdiqlaydi.

Temir tanqisligi anemiyasi Mentzer > 13 Ferritin past, TSAT past, TIBC yuqori, RDW ko‘tarilgan

Beta-talassemiya belgisi Mentzer < 13 Ferritin normal, RDW normal, HbA2 ko‘tarilgan (>3.5%), RBC soni yuqori

Ikkala holat ham 1.000 ball oldi. Dvigatel ikkala talqinda ham Mentzer indeksini aniq qo‘lladi va har safar to‘g‘ri tashxisni qaytardi. Bu butun benchmark bo‘yicha eng klinik jihatdan ishonchli (reassuring) natija, chunki talassemiya belgilarini temir tanqisligi deb noto‘g‘ri tasniflash noto‘g‘ri temir qo‘shimchasini berishga va oilaviy skrining imkoniyatlari o‘tkazib yuborilishiga olib keladi, temir tanqisligini esa talassemiya deb noto‘g‘ri tasniflash esa oddiy o‘rnini bosuvchi davolashni kechiktiradi. Bizning ferritin diapazoni bo‘yicha yo‘riqnomamiz kengroq differensial kontekstni tushuntiradi.

2026-yil aprel oyidagi ishga tushirish natijalari bo‘yicha har bir holat kesimida natijalar

O‘n beshta holatdan o‘ntasi birlamchi yo‘lda 1.000 bo‘lgan maksimal kompozit ballga erishdi. Uchta holat Phase 2 fallback orqali xizmat ko‘rsatildi; bunda 0.05 kechikish (latency) bonusi yo‘qoldi, lekin barcha klinik va strukturaviy mazmun saqlandi. Bitta holatda bitta majburiy bo‘lim yetishmadi; bittasi esa ehtimollar taqsimoti yig‘indisi biroz kamaygan holda qaytdi.

Holat ID Mutaxassislik Kompozit Kechikish (Latency) Yo‘l (Path)

BT-001-IDAGematologiya1.00017.8 sbirlamchi

BT-006-B12Gematologiya1.00018,4 sbirlamchi

BT-007-THALGematologiya1.00017,0 sbirlamchi

BT-002-HASHEndokrinologiya0.95037,0 szaxira (fallback)

BT-008-PCOSEndokrinologiya0.98718,6 sbirlamchi

BT-003-T2DMMetabolik1.00019,1 sbirlamchi

BT-013-GOUTMetabolik1.00019,4 sbirlamchi

BT-004-NAFLDGepatologiya1.00019,6 sbirlamchi

BT-009-VIRHEPGepatologiya0.95023,4 szaxira (fallback)

BT-014-GILBERTTuzoq (Trap)1.00018,9 sbirlamchi

BT-005-CKDNefrologiya1.00017,4 sbirlamchi

BT-010-ASCVDKardiologiya1.00019,7 sbirlamchi

BT-011-SLERevmatologiya0.98118.2 sbirlamchi

BT-012-VITDEndokrinologiya1.00019.3 sbirlamchi

BT-015-SOG‘LOMTuzoq (Trap)1.00018.7 szaxira (fallback)

PCOS holati (BT-008) javob tuzilmasidagi majburiy bitta bo‘limchani yo‘qotdi — o‘n oltitadan o‘n besh bo‘lib, o‘n oltitadan o‘n oltita emas — bu esa strukturaviy ballni 1.000 dan 0.963 gacha pasaytirdi. SLE holati (BT-011) klinik ballni 0.965 gacha tushirgan, ammo har bir diagnostik kalit so‘z va ballash tizimini saqlab qolgan, biroz kamaygan ehtimollar-taqsimoti yig‘indisini qaytardi. Hech bir sub-ideal holat to‘g‘ri tashxisni o‘tkazib yubormadi.

Sarlavhadagi ball bizga nimani aytmaydi

Ushbu muayyan oldindan ro‘yxatdan o‘tkazilgan mezon bo‘yicha 99.12 foizlik kompozit ball deyarli “shift” darajasidagi natijani anglatadi, lekin uni ehtiyotkorlik bilan talqin qilish kerak. Natija dvigatelning bitta mezon bo‘yicha, har biri bir martadan baholangan, o‘n beshta ehtiyotkorlik bilan tanlangan anonimlashtirilgan holatga nisbatan qanday ishlaganini tasvirlaydi. Biz raqam nimani ko‘rsatishi va nimani ko‘rsatmasligini aniq aytamiz.

Ball shuni ko‘rsatadiki, V11 dvigateli ushbu baholash uchun tanlangan diagnostik naqshlarni e’lon qilingan va takrorlanadigan metodologiya asosida to‘g‘ri bajargan. Bu dvigatel dunyoda mavjud bo‘lgan har qanday qon tahlili panelida to‘g‘ri ekanini aytmaydi. Bu dvigatel klinisyen fikrini almashtirishi kerakligini ham aytmaydi. Va bu dvigatel boshqa AI tizimlaridan ustunligini ham aytmaydi — boshqa dvigatellarga nisbatan qiyosiy tahlillar ushbu hisobot doirasidan ataylab tashqarida qoldirilgan.

Ball nimani isbotlaydiki — bu asosiy (bazaviy) ko‘rsatkich. Mezon va “harness” (sinov muhiti) ommaga ochiq bo‘lgani uchun, dvigatelning kelgusi versiyalari aynan shu o‘n beshta holatga nisbatan baholanishi mumkin, va e’lon qilingan ball bilan keyingi har qanday ishga tushirish natijasi o‘rtasidagi farqning o‘zi ham o‘lchanadi. Oldindan ro‘yxatdan o‘tkazishning qiymati shunda: u ishlash haqidagi da’volarni sinab ko‘rish mumkin bo‘lgan da’volarga aylantiradi.

10 daqiqada ushbu benchmarkni qanday qayta yaratish mumkin

Takrorlash uchun faqat Kantesti API credential jufti va Python 3.10 yoki undan keyingi muhit kerak, unda requests va reportlab kutubxonalari o‘rnatilgan bo‘lishi kerak. To‘liq “harness” MIT litsenziyasi ostida chiqarilgan bitta, o‘z ichiga olgan Python modulidir.

💻 GitHub MIT litsenziyali harness · xom javoblar · reference run 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanonik ilmiy yozuv 🎓 Tadqiqot darvozasi Publication 404175463 · akademik kashfiyot qatlamı 📄 Academia.edu Paper 165956808 · akademik kashfiyot qatlamı

Yangi ishga tushirish uchun to‘rt qadam

Birinchi. Repozitoriyani klon qiling: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Ikkinchi. Bog‘liqliklarni o‘rnating: pip install -r requirements.txt. Uch. Belgilang KANTESTI_USERNAME va KANTESTI_PASSWORD muhit o‘zgaruvchilari sifatida — autentifikatsiya ma’lumotlari ish vaqtida o‘qiladi va skript ichiga hech narsa qattiq kodlanmaydi. To‘rt. Ishga tushiring python benchmark_bloodtest.py va ishchi katalogga chiqarilgan to‘rtta artefaktni ko‘rib chiqing: CSV ball jadvali, JSON ball jadvali, dvigatelning raw javoblarini ham o‘z ichiga olgan to‘liq JSON dump va inson o‘qishi uchun qulay Markdown hisoboti.

2026-yil 23-apreldagi mos yozuv (reference) ishga tushirish natijasi repository’ning results/ katalogida saqlangan. Yangi ishga tushirish yangi vaqt tamg‘ali (timestamped) ball jadvalini yaratadi, mos yozuv ishga tushirish esa o‘zgarmaydi. Agar sizning ishga tushirishingiz sezilarli darajada boshqacha natija bersa, iltimos, GitHub’da issue oching: ishga tushirish vaqt tamg‘asi va javob metadata’sida qaytarilgan dvigatel versiyasi bilan.

Cheklovlar va kelgusi ishlar

To‘rtta cheklov aniq e’tirof etilishga loyiq: tanlama hajmi, bir martalik baholash, bitta dvigatel doirasi va bitta manbadan olingan ma’lumotlar kelib chiqishi. Har biri faol davom etayotgan keyingi ishlar doirasida hal qilinmoqda.

Tanlama hajmi. Sakkizta ixtisoslik bo‘limi bo‘yicha o‘n beshta holat konsepsiyani isbotlash uchun yetarli, ammo ixtisoslik ichida kichik guruhlar tahlili uchun emas. Ellikta holatgacha kengaytirish rejalashtirilgan va u koagulyatsiya panellari, gematologik malign kasalliklar skriningi, homiladorlik panellari hamda pediatrik holatlarni o‘z ichiga oladi.

Bir martalik baholash. Har bir holat faqat bir marta baholandi. Katta til modellari hatto past sampling haroratida ham sezilarli darajada chiqish variatsiyasini namoyon qiladi, shuning uchun har bir holat uchun beshta baholash bilan ko‘p martalik (multi-run) protokol va qayd etilgan variatsiya keyingi tabiiy qadam hisoblanadi.

Bitta dvigatel doirasi. Ushbu hisobot bitta dvigatelni tavsiflaydi. Bu yerda muqobil AI tizimlar bilan taqqoslash tahlillari ko‘zda tutilmagan; biz ularni tegishli metodologiya bilan alohida mustaqil tadqiqot sifatida davom ettirishimiz mumkin.

Bitta manbadan olingan ma’lumotlar kelib chiqishi. O‘n beshta holat bitta klinik repozitoriydan olingan anonimlashtirilgan real bemor yozuvlaridir. Ular tanlab olingan (curated) namuna bo‘lib, populyatsiya uchun vakillik qiladigan tasodifiy tanlov emas. Baholashni ko‘p markazli (multi-centre) ma’lumotlarga kengaytirish yo‘l xaritasida.

Eng muhim rejalashtirilgan kengaytma — ko‘p tillilik bo‘yicha tenglik (parity). Kantesti AI Engine 75+ tilda foydalanuvchilarga xizmat qiladi va xuddi shu o‘n beshta holatli test-harnessni turkcha, nemischa, ispancha, fransuzcha va arabcha tillarda ishga tushirish dvigatel qo‘llab-quvvatlaydigan tillar bo‘yicha chiqish sifatini miqdoriy baholaydi. Har bir til bo‘yicha alohida ishga tushirishni o‘z DOI’si va harness branch’i bilan e’lon qilamiz.

99.12% kompozit ballga erishgan xuddi o‘sha dvigatelni sinab ko‘ring

O‘zingizning qon tahlil panelingizni ushbu benchmarkda baholangan aynan o‘sha ishlab chiqarish (production) endpointiga yuklang. Dunyo bo‘ylab 2 milliondan ortiq foydalanuvchi Kantesti AI Engine’dan 75+ tilda 15 000 dan ortiq biomarkerlarni talqin qilish uchun foydalanadi.

🔬 Bepul demo versiyasini sinab ko'ring

Chrome kengaytmasi Ilovalar do'koni Google Play

📚 Ushbu benchmarkni qanday keltirish (cite) kerak

BibTeX

@techreport{klein2026kantesti,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {Kantesti AI Engine (2.78T) ning 15 ta anonimlashtirilgan qon tahlili holatlarida klinik validatsiyasi: yetti tibbiy ixtisoslik bo‘yicha giperdiagnostika trap holatlarini ham o‘z ichiga olgan, oldindan ro‘yxatdan o‘tkazilgan rubrikaga asoslangan benchmark},  
  institution = {Kantesti Ltd},  
  address     = {London, Buyuk Britaniya},  
  year        = {2026},  
  month       = {April},  
  type        = {Texnik hisobot},  
  number      = {V11},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti AI Engine (2.78T) ning 15 ta anonimlashtirilgan qon tahlili holatlarida klinik validatsiyasi: yetti tibbiy ixtisoslik bo‘yicha giperdiagnostika trap holatlarini ham o‘z ichiga olgan, oldindan ro‘yxatdan o‘tkazilgan rubrikaga asoslangan benchmark (Texnik hisobot V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Tegishli Kantesti validatsiya ishlari

Klein, T. (2025). Sun'iy intellektga asoslangan qon testini talqin qilish uchun klinik tasdiqlash doirasi: uch karra ko'r-ko'rona tasdiqlash metodologiyasi, ishlash ko'rsatkichlari va sifatni ta'minlash protokollari. Kantesti AI tibbiy tadqiqot.

🎓 Tadqiqot darvozasi

📖 Tashqi metodologik manbalar

Mentzer, W. C. (1973). Temir yetishmovchiligini talassemiya belgilaridan farqlash. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 European League Against Rheumatism / American College of Rheumatology tizimli qizil yugurik (systemic lupus erythematosus) tasniflash mezonlari. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Katta til modellari uchun tibbiy soha gallyutsinatsiya testi. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Kompozit ball

15Baholangan holatlar

7Ixtisosliklar

0Trap noto‘g‘ri musbatlari

Tez-tez so'raladigan savollar

Real qon tahlili holatlarida Kantesti AI Engine qanchalik aniq?

Oldindan ro‘yxatdan o‘tkazilgan rubrika bo‘yicha yetti tibbiy ixtisoslik doirasida 15 ta anonimlashtirilgan real bemor qon tahlili holatida Kantesti AI Engine V11 kompozit ballni 99.12 foizga erishdi; trap holatlarda ham, giperdiagnostika bo‘yicha ham nol noto‘g‘ri musbat (false-positive) qayd etildi va o‘rtacha javob berish kechikishi 20.17 soniyani tashkil etdi. Har bir holat bo‘yicha to‘liq ball jadvali Figshare’da DOI 10.6084/m9.figshare.32095435 ostida va GitHub’da MIT litsenziyasi ostida e’lon qilingan.

Kantesti AI dvigateli klinik jihatdan tasdiqlanganmi?

Ha. Dvigatel manbasi kodida dvigatel ishga tushirilishidan oldin muzlatilgan rubrika asosida klinik jihatdan tasdiqlangan; gematologiya, endokrinologiya, metabolik tibbiyot, gepatologiya, nefrologiya, kardiologiya va revmatologiya bo‘yicha 15 ta anonimlashtirilgan qon tahlili holatida baholangan. Klinik nazoratni Dr. Tomas Klein, MD (ORCID 0009-0009-1490-1321), Kantesti AI’dagi kengash tomonidan sertifikatlangan klinik gematolog va Bosh tibbiy xodim amalga oshirgan.

Giperdiaqnoz tuzog‘i holati nima?

Giperdiagnostika tuzog‘i holati — AI dvigatellarida ortiqcha tashxis qo‘yish (over-diagnosis) xatti-harakatini aniqlash uchun maxsus ishlab chiqilgan klinik vaziyat. Kantesti V11 benchmark bunday holatlardan ikkitadan foydalanadi. Birinchisi Gilbert sindromiga mos keladigan izolyatsiyalangan bilvosita giperbilirubinemiya bo‘lib, to‘g‘ri talqin gepatit yoki gemoliz emas, balki UGT1A1 polimorfizmining benign (xavfsiz) ko‘rinishidir. Ikkinchisi esa to‘liq normal kattalar skrining paneli bo‘lib, to‘g‘ri javob ishlab chiqarilgan (sun’iy) chegaraviy patologiya emas, balki ishonch (xotirjamlik) va turmush tarzini saqlashdir.

Kantesti AI Engine baholash natijalari takrorlanuvchanmi?

To‘liq baholash (evaluation) mexanizmi MIT litsenziyasi ostida bitta, o‘z ichiga olgan (self-contained) Python moduli sifatida chiqariladi. Qayta yaratish uchun faqat Kantesti API credential jufti va Python 3.10 yoki undan keyingi versiya talab qilinadi. Kod, holat (case) ta’riflari va 2026-yil aprel oyidagi referens run’dan olingan har bir dvigatelning xom javobi github.com/emirhanai/kantesti-blood-test-benchmark manzilida mavjud hamda Figshare, ResearchGate va Academia.edu’da ko‘zguda (mirror) joylashtirilgan.

Kantesti AI Engine temir tanqisligi va beta-talassemiya belgilarini qanday farqlaydi?

Dvigatel Mentzer indeksini qo‘llaydi; u o‘rtacha eritrotsit hajmi (mean corpuscular volume)ni eritrotsitlar soniga (red blood cell count) bo‘lish orqali hisoblanadi. Mentzer indeksi 13 dan yuqori bo‘lsa temir tanqisligi anemiyasini qo‘llab-quvvatlaydi, 13 dan past bo‘lsa beta-talassemiya belgisi (trait)ni qo‘llab-quvvatlaydi. V11 benchmarkda ikkala ko‘rinish ham Mentzer indeksini aniq hisoblash bilan to‘g‘ri tasniflangan; ferritin, RDW va HbA2 konteksti bilan qo‘llab-quvvatlangan.

Xom benchmark ma’lumotlarini va manba kodini qayerdan topishim mumkin?

Texnik hisobot Figshare’da DOI 10.6084/m9.figshare.32095435 ostida joylashtirilgan, ResearchGate’da 404175463 nashri va Academia.edu’da 165956808 maqolasi bilan ko‘zguda (mirror) berilgan; MIT litsenziyali Python mexanizmi esa barcha referens run natijalari bilan github.com/emirhanai/kantesti-blood-test-benchmark manzilida. To‘rt platformali ko‘zgular tarmog‘i uzoq muddatli mavjudlik va iqtibos (citation) moslashuvchanligini ta’minlaydi.

Nega AI tibbiy benchmarklarida oldindan ro‘yxatdan o‘tkazish (pre-registration) muhim?

Oldindan ro‘yxatdan o‘tkazish post-hoc rubrika sozlashining oldini oladi; bu kompaniya boshqaradigan benchmarklar o‘z ko‘rsatkichlarini sun’iy oshirishining eng keng tarqalgan usuli. Rubrikani har qanday dvigatel chaqiruvidan oldin manba kodiga biriktirib, mexanizmni (harness) ommaga e’lon qilish orqali rubrika muallifining sanalari versiyalarni boshqarishda tekshiriladigan bo‘ladi va dvigatel natijalari baholash mezonlarini shakllantira olmagan bo‘ladi.

Ushbu benchmark boshqa AI dvigatellari bilan taqqoslashlarni ham o‘z ichiga oladimi?

Yo‘q. V11 hisobotida u muqobil tijorat tizimlariga nisbatan joylashtirilmasdan, bitta dvigatel qat’iy rubrika bilan ataylab tavsiflanadi. Mexanizm MIT litsenziyasi ostida ochiq manbali (open source), shuning uchun mustaqil tadqiqotchilar istalgan dvigatelni aynan o‘sha o‘n beshta holat va rubrika bo‘yicha baholab, o‘z natijalarini e’lon qilishlari mumkin.

Bemorlarga oid holatlar realmi yoki sintetikmi?

O‘n beshta holat Kantesti klinik ma’lumotlar omboridan yozma ravishda berilgan xabardor rozilik asosida olingan anonimlashtirilgan real bemor yozuvlaridan iborat. De-identifikatsiya Safe Harbor yondashuvi bo‘yicha amalga oshirilgan: barcha bevosita identifikatorlar olib tashlangan yoki almashtirilgan. Qayta ishlash GDPR 9(2)(j)-moddasi va Buyuk Britaniyaning unga teng ekvivalent GDPR qoidalariga muvofiq bajarilgan. Nashr etilgan mexanizmda, texnik hisobotda yoki chiqarilgan ma’lumotlar to‘plamlarida shaxsni aniqlashga yordam beradigan shaxsiy ma’lumotlar uchramaydi.

⚕️ Tibbiy rad etish (Medical Disclaimer) va manfaatlar to‘qnashuvi

Ushbu benchmark hisoboti tadqiqot va metodologik shaffoflik maqsadlari uchun mo‘ljallangan. U tibbiy maslahatni anglatmaydi. Tashxis va davolash qarorlari uchun har doim malakali sog‘liqni saqlash mutaxassisiga murojaat qiling. Ikkala muallif ham Kantesti Ltd’da ishlaydi va unda ulush (equity)ga ega, baholanayotgan dvigatel esa ayni tashkilotning tijorat mahsulotidir. Ushbu manfaatlar to‘qnashuvi rubrikani manba kodida oldindan ro‘yxatdan o‘tkazish, mexanizmni MIT litsenziyasi ostida chiqarish va dvigatelning har bir xom javobini e’lon qilish orqali kamaytiriladi.

E-E-A-T ishonch signallari

⭐

Tajriba

Holatlar panelini tanlashni nazorat qilgan holda 15+ yillik klinik gematologiya va laboratoriya tibbiyoti amaliyoti.

📋

Tajriba

Oldindan ro‘yxatdan o‘tkazilgan rubrika dizayni: giperdiagnostika uchun aniq jarimalar va tan olingan klinik baholash tizimlari (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Vakolatlilik

Bosh muallif Dr. Tomas Klein, MD (ORCID 0009-0009-1490-1321). Amalga oshirish (implementation) Julian Emirhan Bulut, Kantesti Ltd’ning bosh direktori (CEO) tomonidan.

🛡️

Ishonchlilik

MIT litsenziyali qayta ishlab bo‘ladigan (reproducible) mexanizm, xom dvigatel javoblari e’lon qilingan, manfaatlar to‘qnashuvi bo‘yicha ochiq oshkor, to‘rt platformali tadqiqot ko‘zgular tarmog‘i.

🏢 Kantesti MChJ Angliya va Uelsda ro‘yxatdan o‘tgan · Kompaniya raqami. 17090423 London, Buyuk Britaniya · kantesti.net