Klinik Təsdiqləmə Əvvəlcədən qeydiyyatdan keçmiş benchmark V11 — 2026-cı ilin aprel ayı MIT lisenziyası ilə Peer tərəfindən yoxlana bilən

Kantesti AI Mühərriki — Qan Analizi Benchmark: Yeddi Tibbi İxtisas üzrə Klinik Təsdiqləmə

Kantesti AI Mühərrikinin anonimləşdirilmiş qan analizi nümunələri üzərində müstəqil, əvvəlcədən qeydiyyatdan keçmiş klinik qiymətləndirilməsi. Qiymətləndirmə meyarı (rubrik) ilk mühərrik çağırışından əvvəl mənbə kodunda dondurulmuşdu, qiymətləndirmə (evaluation) mühiti MIT lisenziyası ilədir və hər bir xam cavab dərc olunur.

📖 ~14 dəqiqə 📅 23 aprel, 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Dərc edilib: 23 aprel, 2026 🩺 Tibbi baxış: 23 aprel, 2026 ✅ Əvvəlcədən qeydiyyatdan keçmiş rubrik 🔓 Açıq kod və məlumat

Bu klinik təsdiqləmə tədqiqatına rəhbərlik edib Doktor Tomas Klein, MD, Kantesti AI şirkətinin Baş Tibb Direktoru (Chief Medical Officer), əməkdaşlıqla Julian Emirhan Bulut, Kantesti Ltd şirkətinin Baş Süni İntellekt Mühəndisi və CEO-su. Metodologiya və rubrik Kantesti AI Tibbi Məsləhət Şurası.

Baş Müəllif & Klinik Nəzarət

Tomas Klein, MD

Baş Tibbi Məmur, Kantesti AI

Dr. Thomas Klein laboratoriya təbabəti üzrə 15 ildən çox təcrübəyə malik, şura tərəfindən sertifikatlaşdırılmış klinik hematoloq və terapevtdir. Kantesti AI şirkətində Baş Tibb Direktoru kimi o, bu benchmark üçün işçi panelini (case panel) seçib, bütün diaqnostik “ground truth” məlumatlarını nəzərdən keçirib və ilk mühərrik çağırışından əvvəl əvvəlcədən qeydiyyatdan keçmiş rubriki təsdiqləyib.

ORCID 0009-0009-1490-1321 Tədqiqat Qapısı Google Scholar

Həmmüəllif & İcra

Julian Emirhan Bulut

Baş Süni İntellekt Mühəndisi & CEO, Kantesti Ltd

Julian Emirhan Bulut Kantesti Ltd şirkətinin təsisçisi və CEO-sudur. O, qiymətləndirmə mühitini (evaluation harness) dizayn edib və tətbiq edib, API inteqrasiyasını həyata keçirib, 2026-cı ilin aprel ayı üçün benchmark run-u keçirib və statistik yekunlaşdırmanı hazırlayıb. 2019-cu ildən platformanın təsisçisi.

GitHub Kantesti haqqında

⚡ Qısa Xülasə V11 — 23 aprel, 2026

99.12% kompozit balı yeddi tibb ixtisası üzrə 15 anonimləşdirilmiş real-pasiyent qan analizi işi üzrə.
Hiper-diaqnoz üzrə sıfır yalan-müsbət nəticə həm trap hallarda (Gilbert sindromu və tamamilə normal yetkin skrininqi).
Əvvəlcədən qeydiyyatdan keçmiş rubrika ilk mühərrik çağırışından əvvəl mənbə kodunda “dondurulmuşdur” — post-hoc (sonradan) tənzimləmə mümkün deyildi.
Mentzer indeksinin düzgün tətbiqi dəmir çatışmazlığı anemiyasını beta-talassemiya minor-dan ayırmaq üçün.
Yalnız istehsal (production) son nöqtəsi — imtiyazlı yönləndirmə yoxdur; tam olaraq ödəniş edən müştərinin daxil olduğu kimi qiymətləndirilib.
Orta gecikmə 20.17 saniyə uçdan-uça, 15 haldan 12-si 20 saniyəlik əsas-path hədəfinin altındadır.
MIT lisenziyalı “harness” GitHub-da hər bir xam mühərrik cavabı ilə birlikdə dərc edilib — müstəqil təkrar istehsal dəstəklənir.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub-da güzgülənib.

Bu benchmark niyə mövcuddur və nəyi yoxlayır

AI ilə dəstəklənən qan analizi nəticələrinin şərhi istehlakçı və klinik iş axınlarında getdikcə daha çox istifadə olunur, lakin laboratoriya təbabəti üçün uyğunlaşdırılmış, təkrarolunan qiymətləndirmə çərçivələri hələ də nadirdir. Bu kontekstdə ən vacib suallar ümumi tibbi sual-cavab benchmark-larında əhatə olunanlar deyil: orta korpuskulyar həcm eyni olduqda mühərrik dəmir çatışmazlığını talassemiya xüsusiyyətindən ayıra bilərmi, Gilbert sindromunu hepatit kimi həddən artıq diaqnoz qoyurmu və tamamilə normal skrininq panelində patoloji “yaradırmı”?

Tək bir qan analizi paneli adətən bir neçə rəqabətli şərhə əsas verəcək qədər siqnal ehtiva edir və şərh edən klinisistin işi həmin şərhləri bir-biri ilə müqayisə edib çəkiyə salmaqdır; dərslik cavabını çıxarmaq deyil. Dərslik tipli hallarda yaxşı nəticə göstərən bir “mühərrik” ən çox önəm daşıyan hallarda yenə də uğursuz ola bilər: diferensial-diaqnoz tələləri, təkbaşına baxıldıqda həyəcanverici görünən zərərsiz variantlar və kökündən normal panellər ki, bunlar da inamlı köməkçiləri patoloji uydurmağa sövq edir.

Bu benchmark məhz bu cür uğursuzluq ssenariləri əsasında qurulmuşdur. On beş halın hər biri konkret diaqnostik xüsusiyyətə görə seçilmişdir: identik orta korpuskulyar həcmə malik beta-talassemiya xüsusiyyəti ilə fərqləndirilməli olan dəmir çatışmazlığına bağlı mikrositoz; yalnız təcrid olunmuş qeyri-düz birbaşa olmayan hiperbilirubinemiya ilə xarakterizə olunan Gilbert sindromu təqdimatı; və hər bir analitin öz istinad diapazonu daxilində oturduğu on beş parametrli skrininq paneli. Rubrika, hər bir halı öz şərtləri ilə oxuyan mühərrikləri mükafatlandırır və belə bir diaqnozun əsaslandırılmadığı yerdə inamlı diaqnoza “tələsən” mühərrikləri cəzalandırır.

MD Tomas Klein kimi, bu hal panelini seçdim, çünki laboratoriya-tibb üzrə köməkçilərin ən çox səhv etdiyi nümunələr bunlardır. Bahalı uğursuzluq rejimi "nadir bir xəstəliyi qaçırmaq" deyil — onu olmayan xəstələrdə rutin patoloji uydurmaqdır. Bizim Tibbi Validasiya hub daha geniş çərçivəni təsvir edir; bu səhifə onun V11 mühərrikində tətbiq olunmuş nəticəsini təsvir edir.

Ən son istinad run — V11 (2026-cı ilin aprel ayı)

Kantesti AI Engine V11-in 2026-cı ilin aprel referens runu 99.12% əvvəlcədən qeydiyyatdan keçmiş on beş hal rubrikası üzrə kompozit bal topladı. Hiper-diaqnoz tələsi olan iki halın hər ikisi tavan həddinə çatdı. Mentzer indeksi dəmir çatışmazlığı ilə talassemiya arasındakı diferensialda düzgün tətbiq edildi.

Kompozit 99.12% 15/15 hal bal topladı

0.998 Struktur balı

0.998 Klinik bal

20.17 s Orta gecikmə

0 / 13 Tələ-yalan pozitivlər

Kompozit formula üç komponenti birləşdirir: struktur uyğunluğu yeddi məcburi hesabat bölməsi və on altı məcburi altbölmə ilə, klinik dəqiqlik açar sözün geri çağırılması + bal sisteminin geri çağırılması + ehtimal paylanması etibarlılığı yoxlaması kimi ölçülür və cavab gecikməsi 20 saniyəlik əsas xidmət səviyyəsi hədəfinə qarşı. Dəqiq parçalanma aşağıdakı rubrika formulunda göstərilib.

Kompozit = 0.35 × Struktur + 0.55 × Klinik + 0.10 × Gecikmə

Başlıq boşluğunun qalan 0,88 faiz bəndi demək olar ki, tamamilə gecikmə itkisinə parçalanır — hər biri -0,05 kompozit olan üç Phase 2 ehtiyat çağırışı 0,88 bəndlik çatışmazlığın təxminən 0,60 hissəsini təşkil edib; klinik məzmuna yox. Mühərrik on beş halın heç birində düzgün diaqnozu qaçırmadı; çatışdığı yerlərdə isə çağırışların kiçik bir hissəsində 20 saniyəlik əsas-path hədəfindən bir qədər uzun çəkdi.

Yeddi tibb ixtisası üzrə on beş hal

Hal paneli yeddi ixtisası əhatə edir — hematologiya, endokrinologiya, metabolik tibb, hepatologiya, nefrologiya, kardiologiya, revmatologiya — üstəlik iki xüsusi hiperdiaqnoz tələsi halı. Hər bir hal yazılı məlumatlı razılıq əsasında Kantesti klinik məlumat repozitoriyasından götürülmüş anonimləşdirilmiş real xəstə qeydi kimi təqdim olunur.

De-identifikasiya Safe Harbor yanaşması ilə aparılıb: bütün birbaşa identifikatorlar çıxarılıb və ya əvəz edilib, hər bir qeydə BT-NNN-LABEL formatında benchmark-daxili hal kodu təyin edilib. Emal aşağıdakılara uyğun həyata keçirilib GDPR Maddə 9(2)(j) müvafiq təminatlarla elmi tədqiqat üçün və ekvivalent UK GDPR müddəaları. Nəşr olunmuş “harness”də, texniki hesabatda və ya buraxılmış verilənlər toplusunda heç yerdə şəxsi identifikasiyaedici məlumat görünmür.

Hematologiya (3) BT-001, BT-006, BT-007 Dəmir çatışmazlığı anemiyası · B12 çatışmazlığı · Kiçik beta-talassemiya

Endokrinologiya (3) BT-002, BT-008, BT-012 Haşimoto tiroiditi · İnsulin rezistentliyi ilə PCOS · Ağır D vitamini çatışmazlığı

Metabolik (2) BT-003, BT-013 Metabolik sindromla T2DM · Qut riskli hiperurikemiya

Hepatologiya (2) BT-004, BT-009 NAFLD / NASH · Kəskin virus hepatiti

Nefrologiya · Kardiologiya · Revmatologiya (3) BT-005, BT-010, BT-011 CKD 3-cü mərhələ · Aterogen dislipidemiya · Sistemik qırmızı qurdeşən (SLE)

Tələ halı (2) BT-014, BT-015 Gilbert sindromu (izolyə olunmuş qeyri-birbaşa hiperbilirubinemiya) · Tamamilə normal yetkin skrininqi

Niyə məhz bu paylanma

Hematologiya real laboratoriya praktikasında ən yüksək həcmli “tələ”lər olan mikrositar differensiallar və makrositar differensiallar səbəbilə üç hal alır. Endokrinologiya isə Hashimoto, PCOS və D vitamini çatışmazlığı təqdimatlarının fərqli diaqnostik “formaları” (autoantikorla idarə olunan, hormon nisbəti ilə idarə olunan, tək markerlə idarə olunan) fərqli olduğuna görə üç hal alır. Tək-hal ixtisaslar hələ də mənalıdır, çünki CKD, ASCVD riski və SLE-nin hər birinin öz bal sistemləri var və mühərrik bunları çağırmalıdır (müvafiq olaraq KDIGO mərhələlənməsi, ASCVD 10 illik riski, 2019 EULAR/ACR SLE meyarları).

Əvvəlcədən qeydiyyatdan keçmiş rubrik, izahı

Bu benchmarkda pre-registrasiya ən vacib metodoloji seçimdir. Gözlənilən hər bir diaqnoz, hər bir klinik bal sistemi və hər bir hesabat bölməsi mənbə koduna həvalə edilib mühərrik çağırılmadan əvvəl. Buna görə də mühərriki “yaltaqlaşdırmaq” üçün rubrikaya post-hoc tənzimləmə aparmaq mümkün deyil.

Kompozit balı təşkil edən üç komponent var. struktur komponenti 35 faiz təşkil edir və mühərrikin yeddi məcburi hesabat bölməsini (başlıq, xülasə, əsas tapıntılar, differensial, bal sistemləri, tövsiyələr, izləmə) və onların daxilindəki on altı məcburi alt bölməni qaytarıb-qaytarmadığını ölçür. Bölmə mövcudluğu struktur hesablamada 40 faiz, alt bölmə mövcudluğu isə 60 faiz çəkidədir.

The klinik komponent 55 faiz təşkil edir və üç şeyi birləşdirir: diaqnoz-açar söz yaddaşı (klinik alt-balda 70 faiz), bal sisteminin yaddaşı (20 faiz — mühərrik uyğun olduqda Mentzer, FIB-4, HOMA-IR, ASCVD riski, KDIGO mərhələlənməsi, EULAR/ACR meyarlarını hesablayırmı), və ehtimal cəmi etibarlılıq yoxlaması (10 faiz — differensial ehtimalların cəmi [90, 110] intervalında olmalıdır). Tələ hallarında, maksimum 0.30-a qədər açıq “hiperdiaqnoz” cəriməsi çıxılır; bu, uydurulmuş patoloji bayrağına görə 0.10 kimi hesablanır və maksimum üç bayraqla məhdudlaşdırılır.

The gecikmə komponenti 10 faiz təşkil edir. 20 saniyədən az cavab tam 0.10, 40 saniyədən az cavab 0.05, daha yavaşı isə 0 verir. 20 saniyəlik hədəf istehsalın “primary-path” xidmət səviyyəsi məqsədini əks etdirir; 40 saniyəlik tavan isə ağır mühərrik çağırışları üçün 2-ci fazanın ehtiyat büdcəsini əks etdirir.

Pre-registrasiya nəyi önləyir

Birinci tərəf benchmarkları post-hoc rubrika tənzimləməsi ilə öz rəqəmlərini şişirtməkdə məşhurdur. Nümunə demək olar ki, həmişə eynidir: komanda mühərriki işə salır, harada zəif olduğunu görür, sonra zəif çıxan sahələrin daha az sayılması üçün rubrikanı səssizcə düzəldir. Rubrika ilk mühərrik çağırışından əvvəl mənbə koduna həvalə edilərək və harness MIT lisenziyası ilə dərc edilərək, bu düzəliş versiya nəzarətində görünən olur. Hər kəs repozitoriyanı klonlayıb rubrika müəllif tarixlərini yoxlaya və mühərrik nəticələrinin balın formalaşdırılmasına təsir etmək üçün istifadə edilmədiyini doğrulaya bilər.

Hiper-diaqnoz tələsi halları — həddən artıq çağırışın (over-calling) real uğursuzluq mexanizmi olması

Normal ekranlarda patoloji barədə aqressiv “həddən artıq çağırış” istehlakçıya yönəlik tibbi köməkçilərdə sənədləşdirilmiş uğursuzluq rejimidir. Onun sonrakı xərclərinə lazımsız müayinə, xəstə narahatlığı və iatrogenik işup daxildir. Bu benchmarkdakı iki tələ halı həmin uğursuzluq rejimini görünən və qiymətləndirilə bilən etmək üçün dizayn edilib.

🟡 Tələ 1 — BT-014-GILBERT

Təqdimat. Ümumi bilirubini 2.4 mg/dL olan 24 yaşlı kişi. Düz fraksiya normaldır, transaminazlar və qələvi fosfataza öz referens diapazonlarının daxilindədir, retikulositlər diqqətəlayiq deyil və haptoglobin ilə LDH hemolizi istisna edir.

Düzgün şərh. Gilbert sindromu — xeyirxah UGT1A1 polimorfizmi. Şərh hepatit, sirroz, hemolitik anemiya və ya biliyar obstruksiyanı çağırmamalıdır.

V11 nəticəsi. Kompozit 1.000. Altı izlənən həddən artıq diaqnoz bayrağından heç biri aktiv diaqnoz kimi görünmədi.

🟡 Tələ 2 — BT-015-HEALTHY

Təqdimat. On beş parametrli rutin skrininq paneli olan 35 yaşlı qadın. Hər bir analit öz referens diapazonunun daxilində rahat şəkildə yerləşir.

Düzgün şərh. Təsdiqləyici yanaşma və həyat tərzinin qorunması. Şərh klinik baxımdan faydalı səslənməsi üçün sərhəddə patoloji uydurmamalıdır.

V11 nəticəsi. Kompozit 1.000. Yeddi izlənən həddən artıq diaqnoz bayrağından heç biri — diabet, anemiya, hipotiroidizm, dislipidemiya, hepatit, böyrək xəstəliyi, çatışmazlıq — aktiv diaqnoz kimi görünmədi.

Hər iki sınaqdan (trap) on üç izlənən hiperdiaqnoz bayrağı yoxlanıldı. Heç biri işə düşmədi. Bu, AI mühərrikindən triage və ya konsultasiyadan əvvəl alət kimi istifadə etməyi düşünən hər bir klinisist üçün ən önəmli nəticədir: sistem mövcud olmayan yerdə xəstəlik uydurmadı.

Mentzer indeksi: dəmir çatışmazlığını talassemiya daşıyıcılığından ayırmaq

İkinci yüksək dəyərli tapıntı BT-001 (dəmir çatışmazlığı anemiyası) işi ilə BT-007 (beta-talassemiya minor) işinin cütləşdirilməsidir. Hər ikisi mikrositozla müşayiət olunur və naiv klassifikatorlar üçün yaxşı tanınan çətinlikdir. MCV-ni RBC sayına bölməklə hesablanan Mentzer indeksi dəmir çatışmazlığında 13-dən yüksək, talassemiya xüsusiyyətində isə 13-dən aşağı olur.

BT-001-də pasiyent 34 yaşlı qadın idi: hemoglobin 10.4 q/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL və yüksəlmiş TIBC. Təxminən 17.7 olan Mentzer indeksi mütləq dəmir çatışmazlığını dəstəkləyir. BT-007-də pasiyent 28 yaşlı kişi idi: mikrositoz (MCV 65.8 fL), lakin 6.2 kimi yüksək RBC sayı, normal RDW, normal ferritin və HbA2 5.6 faiz. Təxminən 10.6 olan Mentzer indeksi talassemiya xüsusiyyətini göstərir və yüksəlmiş HbA2 beta-talassemiya minoru təsdiqləyir.

Dəmir çatışmazlığı anemiyası Mentzer > 13 Aşağı ferritin, aşağı TSAT, yüksək TIBC, yüksəlmiş RDW

Beta-talassemiya xüsusiyyəti Mentzer < 13 Normal ferritin, normal RDW, yüksəlmiş HbA2 (>3.5%), yüksək RBC sayı

Hər iki hal 1.000 bal topladı. Mühərrik hər iki şərhdə Mentzer indeksini açıq şəkildə çağırdı və hər dəfə düzgün diaqnozu qaytardı. Bu, bütün benchmarkda klinik baxımdan ən çox təsəlli verən tək nəticədir, çünki talassemiya xüsusiyyətini dəmir çatışmazlığı kimi səhv təsnif etmək qeyri-münasib dəmir əlavəsinə və ailə skrininq imkanlarının qaçırılmasına gətirib çıxarır, dəmir çatışmazlığını isə talassemiya kimi səhv təsnif etmək isə sadə əvəzetmə terapiyasını gecikdirir. Bizim ferritin diapazonu bələdçimiz daha geniş diferensial konteksti izah edir.

2026-cı ilin aprel işə salınması üzrə hər bir işin nəticələri

On beş haldan on ikisi ilkin path üzrə əsas kompozit skoru 1.000-in tavanına çatdı. Üç hal Phase 2 fallback vasitəsilə xidmət göstərildi; klinik və struktur məzmunun hamısını qoruyaraq 0.05-latensiya bonusunu itirdi. Bir hal tək bir məcburi alt bölmədən məhrum idi; biri isə marjinal olaraq azaldılmış ehtimal paylanması cəmini qaytardı.

Hal ID-si İxtisas Kompozit Latensiya Path

BT-001-IDAHematologiya1.00017.8 silkin

BT-006-B12Hematologiya1.00018,4 silkin

BT-007-THALHematologiya1.00017,0 silkin

BT-002-HASHEndokrinologiya0.95037,0 sehtiyat (fallback)

BT-008-PCOSEndokrinologiya0.98718,6 silkin

BT-003-T2DMMetabolik1.00019,1 silkin

BT-013-GOUTMetabolik1.00019,4 silkin

BT-004-NAFLDHepatologiya1.00019,6 silkin

BT-009-VIRHEPHepatologiya0.95023,4 sehtiyat (fallback)

BT-014-GILBERTTələ1.00018,9 silkin

BT-005-CKDNefrologiya1.00017,4 silkin

BT-010-ASCVDKardiologiya1.00019,7 silkin

BT-011-SLERevmatologiya0.98118,2 silkin

BT-012-VITDEndokrinologiya1.00019,3 silkin

BT-015-SAĞLAMTələ1.00018,7 sehtiyat (fallback)

PCOS işi (BT-008) cavab strukturunda tək bir məcburi alt bölməni itirdi — on altıdan on beş — on altıdan on altı əvəzinə — bu da struktur balını 1,000-dən 0,963-ə endirdi. SLE işi (BT-011) klinik balı 0,965-ə salan, lakin hər bir diaqnostik açar sözü və qiymətləndirmə sistemini qoruyan, marjinal dərəcədə azalmış ehtimal-paylanması cəmini qaytardı. Hər iki sub-ideal halda düzgün diaqnoz qaçırılmadı.

Başlıq göstəricisinin bizə demədiyi şeylər

Bu xüsusi əvvəlcədən qeydiyyatdan keçmiş rubrikaya əsasən 99,12 faiz kompozit bal, demək olar ki, tavan səviyyəsinə yaxın performansı ifadə edir, amma bunu diqqətlə çərçivələmək lazımdır. Nəticə, eyni rubrikaya qarşı, hər biri bir dəfə qiymətləndirilmiş, diqqətlə seçilmiş on beş anonimləşdirilmiş hal üzrə mühərrikin davranışını təsvir edir. Rəqəmin nəyi və nəyi təsdiqləmədiyini açıq şəkildə bildiririk.

Bal onu göstərir ki, V11 mühərriki bu qiymətləndirmə üçün seçilmiş diaqnostik nümunələri dəqiq şəkildə idarə edib; metodologiya dərc olunub və təkrarlana biləndir. Bu, mühərrikin təbiətdə mövcud olan hər bir qan analizi panelində düzgün olduğunu demir. Bu, mühərrikin klinisist qərarını əvəz etməli olduğunu demir. Və bu, mühərrikin alternativ AI sistemlərindən üstün olduğunu demir — digər mühərriklərlə müqayisəli analizlər bu hesabatın əhatə dairəsinə qəsdən daxil edilməyib.

Balın təsdiqlədiyi şey başlanğıc göstəricidir. Rubrika və “harness” ictimai olduqdan sonra mühərrikin gələcək versiyaları eyni on beş hal üzrə qiymətləndirilə bilər və dərc olunmuş bal ilə sonrakı hər hansı icra arasındakı fərq özü də ölçülə bilər. Əvvəlcədən qeydiyyatın dəyəri budur: performans iddialarını yoxlanıla bilən iddialara çevirir.

Bu benchmark-ı 10 dəqiqəyə necə təkrarlamaq olar

Təkrar istehsal üçün yalnız Kantesti API etimadnamə cütü və Python 3.10 və ya daha sonrakı mühit lazımdır; requests və reportlab kitabxanaları quraşdırılmış olmalıdır. Tam “harness” MIT lisenziyası altında buraxılmış tək, özündə tam olan Python moduludur.

💻 GitHub MIT lisenziyalı “harness” · xam cavablar · istinad icrası 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanonik akademik qeyd 🎓 Tədqiqat Qapısı Publication 404175463 · akademik kəşf qatı 📄 Academia.edu Paper 165956808 · akademik kəşf qatı

Təzə icra üçün dörd addım

Birinci. Repozitoriyanı klonlayın: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. İkinci. Asılılıqları quraşdırın pip install -r requirements.txt. Üç. Təyin edin KANTESTI_USERNAME və KANTESTI_PASSWORD mühit dəyişənləri kimi — etimadnamələr icra zamanı oxunur və skriptin içində heç nə kodlaşdırılmır. Dörd. İşə salın python benchmark_bloodtest.py və işçi qovluğa çıxarılan dörd artefaktı yoxlayın: CSV skor kartı, JSON skor kartı, mühərrikin ilkin cavablarını da daxil edən tam JSON dump və insan tərəfindən oxunaqlı Markdown hesabatı.

23 aprel 2026 tarixli istinad icrası repozitoriyanın results/ qovluğunda saxlanılıb. Yeni icra yeni tarix-saatlı skor kartı yaradacaq, istinad icrası isə toxunulmadan qalacaq. Əgər icra nəticəsi mənalı dərəcədə fərqlidirsə, zəhmət olmasa GitHub issue açın: icranın tarix-saatı və cavabın metadata hissəsində qaytarılan mühərrik versiyası ilə birlikdə. directory of the repository. A fresh run will produce a new timestamped scorecard while leaving the reference run untouched. If your run produces a meaningfully different result, please open a GitHub issue with the run timestamp and the engine version returned in the response metadata.

Məhdudiyyətlər və gələcək işlər

Dörd məhdudiyyətin açıq şəkildə qeyd edilməsi vacibdir: nümunə ölçüsü, tək dəfəlik qiymətləndirmə, tək mühərrik əhatəsi və tək mənbədən məlumat mənşəyi. Bunların hər biri aktiv şəkildə davam edən sonrakı işlərdə həll olunur.

Nümunə ölçüsü. İxtisas üzrə səkkiz kateqoriyaya bölünmüş on beş hal konsept sübutu üçün kifayətdir, lakin ixtisas daxilində qrup təhlili üçün yetərli deyil. Əlli hala genişləndirmə planlaşdırılır və laxtalanma panelləri, hematoloji malign xəstəliklərin skrininqi, hamiləlik panelləri və pediatrik təqdimatlar daxil ediləcək.

Tək dəfəlik qiymətləndirmə. Hər bir hal yalnız bir dəfə qiymətləndirilib. Böyük dil modelləri aşağı nümunə götürmə temperaturunda belə əhəmiyyətli çıxış variasiyası nümayiş etdirir, buna görə də hər hal üçün beş qiymətləndirmə və bildirilmiş variasiya ilə çoxicralı protokol növbəti məntiqi addımdır.

Tək mühərrik əhatəsi. Bu hesabat bir mühərriki xarakterizə edir. Burada alternativ AI sistemləri ilə müqayisəli analizlər nəzərdə tutulmur; uyğun metodologiya ilə onları ayrıca müstəqil tədqiqat kimi həyata keçirə bilərik.

Tək mənbədən məlumat mənşəyi. On beş hal tək klinik repozitoriyadan götürülmüş anonimləşdirilmiş real xəstə qeydləridir. Bunlar seçilmiş nümunədir və populyasiyanı təmsil edən təsadüfi seçmə deyil. Qiymətləndirmənin çoxmərkəzli məlumatlara genişləndirilməsi yol xəritəsindədir.

Ən təsirli planlaşdırılmış genişləndirmə çoxdilli uyğunluqdur. Kantesti AI Engine 75+ dildə istifadəçilərə xidmət edir və eyni on beş haldan ibarət sınaq qurğusunu Türkiyə, Almaniya, İspaniya, Fransa və Ərəb dillərində işə salmaq mühərrikin dəstəklədiyi dillər üzrə çıxış keyfiyyətini ölçəcək. Hər bir dildəki ayrıca icranı öz DOI-si və sınaq qurğusu filialı ilə birlikdə dərc edəcəyik.

99.12% Kompozit Skoru əldə edən Eyni Mühərriki sınayın

Bu benchmarkda qiymətləndirilmiş eyni istehsal (production) endpointinə öz qan analizi panelinizi yükləyin. Dünyada 2 milyondan çox istifadəçi Kantesti AI Engine-dən istifadə edərək 75+ dildə 15,000-dən çox biomarkeri şərh edir.

🔬 Pulsuz Demo versiyasını sınayın

Chrome Genişləndirməsi Tətbiq Mağazası Google Play

📚 Bu benchmarkı necə sitat gətirmək olar

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Kantesti AI Engine-in klinik təsdiqi (2.78T)
                 15 anonimləşdirilmiş qan analizi halında: Hiperdiaqnoz tələsi daxil olmaqla,
                 yeddi tibb ixtisası üzrə rubrikaya əsaslanan əvvəlcədən qeydiyyatdan keçmiş benchmark},
  institution = {Kantesti Ltd},
  address     = {London, Birləşmiş Krallıq},
  year        = {2026},
  month       = {April},
  type        = {Texniki hesabat},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti AI Engine-in klinik təsdiqi (2.78T) 15 anonimləşdirilmiş qan analizi halında: Hiperdiaqnoz tələsi daxil olmaqla, yeddi tibb ixtisası üzrə rubrikaya əsaslanan əvvəlcədən qeydiyyatdan keçmiş benchmark (Texniki hesabat V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Əlaqəli Kantesti təsdiq işləri

Klein, T. (2025). Süni intellektlə işləyən qan testinin şərhi üçün klinik təsdiqləmə çərçivəsi: üçqat kor təsdiqləmə metodologiyası, performans ölçüləri və keyfiyyətə zəmanət protokolları. Kantesti AI Tibbi Tədqiqat.

🎓 Tədqiqat Qapısı

📖 Xarici metodoloji istinadlar

Mentzer, W. C. (1973). Dəmir çatışmazlığının talassemiya daşıyıcılığından fərqləndirilməsi. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 Avropa Revmatizm Liqası / Amerika Revmatologiya Kolleci Sistemik Qırmızı Qurd Ehtimalı (SLE) üçün təsnifat meyarları. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Böyük Dil Modelləri üçün Tibbi Domen Hallüsinasiyası Testi. CoNLL 2023 materialları.

🔗 ACL Anthology

99.12%Kompozit bal

15Qiymətləndirilmiş hallar

7İxtisaslar

0Tələdə yalan-müsbətlər

Tez-tez verilən suallar

Real qan analizi hallarında Kantesti AI Mühərriki nə qədər dəqiqdir?

Yeddi tibb ixtisası üzrə 15 anonimləşdirilmiş real-pasiyent qan analizi halında əvvəlcədən qeydiyyatdan keçmiş 15 rubrikaya əsasən, Kantesti AI Engine V11 99.12 faiz kompozit bal əldə etdi; tələ hallarında hiper diaqnoz yalan-müsbətləri isə sıfır idi və orta cavab gecikməsi 20.17 saniyə təşkil etdi. Hər bir hal üzrə tam bal cədvəli Figshare-də DOI 10.6084/m9.figshare.32095435 altında və GitHub-da MIT lisenziyası ilə dərc olunub.

Kantesti AI Mühərriki klinik olaraq təsdiqlənibmi?

Bəli. Mühərrik, işə salınmazdan əvvəl mənbə kodunda dondurulmuş bir rubrikaya qarşı klinik olaraq sınaqdan keçirilib və klinik validasiya olunub; hematologiya, endokrinologiya, metabolik tibb, hepatologiya, nefrologiya, kardiologiya və revmatologiya üzrə 15 anonimləşdirilmiş qan analizi nümunəsində qiymətləndirilib. Klinik nəzarət Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) tərəfindən təmin edilib; o, Kantesti AI-də sertifikatlı klinik hematoloq və Baş Tibbi Məmurdur.

Hiper-diaqnoz tələsi nədir?

Hiper-diaqnoz tələsi (hyperdiagnosis trap) AI mühərriklərində həddindən artıq diaqnoz qoyma davranışını aşkar etmək üçün xüsusi olaraq hazırlanmış klinik ssenaridir. Kantesti V11 benchmarkı bu cür iki ssenaridən istifadə edir. Birincisi Gilbert sindromuna uyğun gələn təcrid olunmuş qeyri-birbaşa hiperbilirubinemiya vəziyyətidir; burada düzgün şərh hepatit və ya hemoliz deyil, UGT1A1 polimorfizminin xeyirxah (benign) variantıdır. İkincisi tamamilə normal yetkinlər üçün skrininq panelidir; burada düzgün nəticə sərhəddə (borderline) patoloji uydurmaq yox, əminləndirmə və həyat tərzinin qorunmasıdır.

Kantesti AI Mühərrikinin qiymətləndirilməsi təkrarolunandırmı?

Tam qiymətləndirmə (evaluation) mexanizmi MIT lisenziyası altında tək, özündə tam olan (self-contained) Python modulu kimi təqdim olunur. Yalnız Kantesti API etimadnamə cütü və Python 3.10 və ya daha yeni versiya tələb olunur. Kod, işin (case) tərifləri və 2026-cı ilin aprelindəki istinad (reference) icrasından hər bir xam mühərrik cavabı github.com/emirhanai/kantesti-blood-test-benchmark ünvanında mövcuddur və Figshare, ResearchGate və Academia.edu-da da güzgülənib.

Kantesti AI Engine dəmir çatışmazlığını beta-talassemiya daşıyıcılığından necə fərqləndirir?

Mühərrik Mentzer indeksini tətbiq edir; bu indeks orta eritrosit həcminin (mean corpuscular volume) eritrositlərin sayına (red blood cell count) bölünməsi ilə hesablanır. Mentzer indeksi 13-dən yuxarı olduqda dəmir çatışmazlığı anemiyasını dəstəkləyir, 13-dən aşağı olduqda isə beta-talassemiya daşıyıcılığı (trait) ehtimalını dəstəkləyir. V11 benchmarkında hər iki təqdimat Mentzer indeksinin açıq hesablanması ilə düzgün təsnif edilib; bunu ferritin, RDW və HbA2 konteksti dəstəkləyib.

Xam müqayisə (benchmark) məlumatlarını və mənbə kodunu haradan tapa bilərəm?

Texniki hesabat Figshare-də DOI 10.6084/m9.figshare.32095435 altında yerləşdirilib; ResearchGate-də 404175463 nömrəli nəşrlə və Academia.edu-da 165956808 nömrəli məqalə ilə güzgülənib; MIT lisenziyası ilə verilən Python mexanizmi isə bütün istinad icra nəticələri ilə birlikdə github.com/emirhanai/kantesti-blood-test-benchmark ünvanındadır. Dörd platformalı güzgü şəbəkəsi uzunmüddətli əlçatanlığı və sitat çevikliyini təmin edir.

Niyə AI tibbi benchmarkları üçün əvvəlcədən qeydiyyat (pre-registration) vacibdir?

Əvvəlcədən qeydiyyat, şirkət tərəfindən idarə olunan benchmarkların öz rəqəmlərini şişirtməsinin ən çox yayılmış tək yolu olan post-hoc rubrika tənzimlənməsinin qarşısını alır. Rubrikanı hər hansı mühərrik çağırışından əvvəl mənbə koduna bağlayıb mexanizmi (harness) ictimai şəkildə dərc etməklə rubrika müəllifinin tarixləri versiya nəzarətində yoxlanıla bilən olur və mühərrik nəticələri qiymətləndirmə meyarlarını formalaşdıra bilməz.

Bu benchmark digər AI mühərrikləri ilə müqayisələri də əhatə edirmi?

Xeyr. V11 hesabatı alternativ kommersiya sistemləri ilə qarşılaşdırmaq əvəzinə, məqsədli şəkildə tək bir mühərriki sabit bir rubrikaya qarşı xarakterizə edir. Mexanizm MIT lisenziyası altında açıq mənbəlidir, buna görə də müstəqil tədqiqatçılar istədikləri hər hansı mühərriki eyni on beş iş (case) və rubrika ilə qiymətləndirə və nəticələrini dərc edə bilərlər.

Xəstə ssenariləri realdır, yoxsa sintetik?

On beş ssenari Kantesti klinik məlumat repozitoriyasından yazılı məlumatlı razılıq əsasında götürülmüş real xəstə qeydləridir və anonimləşdirilib. De-identifikasiya Safe Harbor yanaşması ilə aparılıb; bütün birbaşa identifikatorlar çıxarılıb və ya əvəz edilib. Emal GDPR Maddə 9(2)(j) və ekvivalent UK GDPR müddəalarına uyğun həyata keçirilib. Dərc olunmuş mexanizmdə, texniki hesabatda və buraxılmış dataset-lərdə heç bir şəxsi identifikasiyaedici məlumat yoxdur.

⚕️ Tibbi İmtina Bəyanatı və Maraqların Toqquşması

Bu benchmark hesabatı tədqiqat və metodoloji şəffaflıq məqsədləri üçündür. Tibbi məsləhət təşkil etmir. Diaqnoz və müalicə qərarları üçün həmişə ixtisaslı səhiyyə təminatçısına müraciət edin. Hər iki müəllif Kantesti Ltd-də çalışır və orada paya malikdir, qiymətləndirilən mühərrik isə eyni təşkilatın kommersiya məhsuludur. Bu maraqların toqquşması rubrikanı mənbə kodunda əvvəlcədən qeydiyyata almaq, mexanizmi MIT lisenziyası ilə buraxmaq və hər bir xam mühərrik cavabını dərc etməklə azaldılıb.

E-E-A-T Etibar Siqnalları

⭐

Təcrübə

İşin (case) panel seçiminə nəzarət edən 15+ illik klinik hematologiya və laboratoriya təbabəti təcrübəsi.

📋

Ekspertiza

Əvvəlcədən qeydiyyatdan keçmiş rubrika dizaynı: açıq hiper-diaqnoz cəzaları və tanınmış klinik qiymətləndirmə sistemləri (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Səlahiyyətlilik

Aparıcı müəllif Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). İcra (implementation) Julian Emirhan Bulut, Kantesti Ltd-nin CEO-su tərəfindən.

🛡️

Etibarlılıq

MIT lisenziyası ilə verilən təkrarolunan (reproducible) mexanizm, xam mühərrik cavabları dərc olunub, açıq maraqların toqquşması açıqlaması, dörd platformalı tədqiqat güzgü şəbəkəsi.

🏢 Kantesti MMC İngiltərə və Uelsdə qeydiyyatdan keçib · Şirkət No. 17090423 London, Birləşmiş Krallıq · kantesti.net