Bu benchmark niyə mövcuddur və nəyi yoxlayır

AI ilə qan analizi nəticələrinin şərhi istehlakçı və klinik iş axınlarında getdikcə daha çox istifadə olunur, lakin laboratoriya təbabətinə uyğun, təkrarlana bilən qiymətləndirmə çərçivələri hələ də nadirdir. Bu kontekstdə ən vacib suallar ümumi tibbi sual-cavab benchmark-larında əhatə olunanlar deyil: orta korpuskulyar həcm eyni olduqda mühərrik dəmir çatışmazlığını talassemiya xüsusiyyətindən ayıra bilərmi, Gilbert sindromunu hepatit kimi həddən artıq diaqnoz qoyurmu və tamamilə normal skrininq panelində patoloji “yaradırmı”?

Əvvəlcədən qeydiyyatdan keçmiş rubrika axın diaqramı: Kantesti AI Engine — V11 İkinci Yeniləmə, 100.000 iş üzrə 99.80% kompozit bal — dondurulmuş qiymətləndirmə meyarları ilə necə qiymətləndirilir
Şəkil 1: V11 ilkin buraxılışının arxasında duran 99.80% kompozit qiymət V11 İkinci Yeniləmə üzrə 100.000 işlik kohort — hər iş, hər açar söz, hər qiymətləndirmə sistemi mühərrik bircə PDF görməzdən əvvəl mənbə kodunda sabitlənib və rubrika V11 ilkin buraxılışla bayt-bayt eynidir. Dizayna görə post-hoc rubrika tənzimlənməsi mümkün deyil.

Tək bir qan analizi paneli adətən bir neçə rəqabətli şərhə əsas verəcək qədər siqnal ehtiva edir və şərh edən klinisistin işi həmin şərhləri bir-biri ilə müqayisə edib çəkməkdir; dərslik cavabını çıxarmaq deyil. Dərslik tipli hallarda yaxşı nəticə göstərən bir “mühərrik” ən çox önəm daşıyan hallarda yenə də uğursuz ola bilər: diferensial-diaqnoz tələləri, təkbaşına baxıldıqda həyəcanverici görünən zərərsiz variantlar və kökündən normal panellər ki, bunlar da inamlı köməkçiləri patoloji “istehsal etməyə” sövq edir.

Bu benchmark məhz bu uğursuzluq ssenariləri əsasında qurulmuşdur. On beş halın hər biri konkret diaqnostik xüsusiyyətə görə seçilmişdir: identik orta korpuskulyar həcmə malik beta-talassemiya xüsusiyyəti ilə fərqləndirilməli olan dəmir çatışmazlığına bağlı mikrositoz; yeganə anomaliyanın təcrid olunmuş qeyri-düz birbaşa hiperbilirubinemiya olduğu Gilbert sindromu təqdimatı; və hər bir analitin öz referens diapazonu daxilində oturduğu on beş parametrli skrininq paneli. Rubrika, hər bir halı öz şərtləri daxilində oxuyan mühərrikləri mükafatlandırır və belə bir diaqnozun əsaslandırılmadığı yerdə inamlı diaqnoza “tələsən” mühərrikləri cəzalandırır.

MD Tomas Klein kimi, bu hal panelini seçdim, çünki laboratoriya-tibb üzrə köməkçilərin ən çox səhv etdiyi nümunələr bunlardır. Bahalı uğursuzluq rejimi "nadir bir xəstəliyi qaçırmaq" deyil — onu olmayan xəstələrdə rutin patoloji uydurmaqdır. Bizim Tibbi Validasiya hub daha geniş çərçivəni təsvir edir; bu səhifə V11 ilkin proof-of-concept-i və onu 127 ölkə etiketini əhatə edən sintetik hadisə dəstindən götürülmüş 100,000 sintetik hadisəyə qədər genişləndirən V11 İkinci Yeniləməni təsvir edir — eyni qiymətləndirmə rubrikası ilə, byte-dəqiq, post-hoc (sonradan) tənzimləmə icazə verilmədən.

Ən son istinad icrası — V11 İkinci Yeniləmə (26 aprel 2026)

26 aprel 2026-cı il tarixli V11 İkinci Yeniləmə istinad icrası 99.80% V11 ilkin buraxılışda istifadə olunan əvvəlcədən qeydiyyatdan keçmiş rubrikaya əsasən, qiymətləndirilib 100,000 sintetik hadisə Kantesti sintetik hadisə dəstindən götürülmüş və 127 ölkə etiketi və 75+ dillərini əhatə edən. Hər bir iş mühərrikin əsas yolunda tamamlandı; trap-iş hiperdiaqnoz bayraq aktivləşmələri 0 / 87,412. səviyyəsində qaldı. 23 aprel 2026-cı il tarixli orijinal V11 icrası 15 əl ilə seçilmiş işdən (kompozit 99.12%) ibarət idi və rubrikanı təsdiqlədi; İkinci Yeniləmə həmin rubkanı bayt-bayt eyni saxlayır və qiymətləndirməni populyasiya miqyaslı kohorta genişləndirir.

Kompozit 99.80% 100.000-dən 100.000 iş qiymətləndirildi
1.000 Struktur balı
0.996 Klinik bal
13.26 s Orta gecikmə
0 / 87,412 Tələ yanlış-müsbətləri

Kompozit düsturu üç komponenti birləşdirir: struktur uyğunluğu yeddi məcburi hesabat bölməsi və on altı məcburi altbölmə ilə, məzmunun dəqiqliyi açar sözün geri çağırılması + bal sisteminin geri çağırılması + ehtimal paylanması etibarlılığı yoxlaması kimi ölçülür və cavab gecikməsi əsas yol üzrə xidmət səviyyəsi hədəfinə qarşı. Dəqiq parçalanma aşağıdakı rubrika formulunda göstərilib — bu çəkilər və ya alt-rubrikaların heç biri İkinci Yeniləmə üçün dəyişdirilməyib.

Kompozit = 0.35 × Struktur + 0.55 × Klinik + 0.10 × Gecikmə

Qalan 0.20 faiz bəndi demək olar ki, tamamilə klinik alt-bala düşür — az sayda iş (əsasən Hepatologiya və Revmatologiyada) diaqnostik məzmun düzgün olmasına baxmayaraq, mühərrikin şərhində gözlənilən qiymətləndirmə-sistemi açar sözlərindən biri yox idi. 100.000 işlik İkinci Yeniləmə kohortunda heç bir iş diaqnozu özü qaçırmadı. Gecikmə V11 ilkin buraxılışda orta hesabla 20.17 s-dən İkinci Yeniləmədə 13.26 s-ə düşdü; bu, iki icra arasında istehsal mühərriki optimizasiyalarını əks etdirir. Rubrika, qiymətləndirmə kodu və API endpoint dəyişməyib.

Etiket üzrə kompozit göstəricilər 30 ən çox təmsil olunan ölkə etiketində 0.9971-dən 0.9985-ə qədər dəyişib. Əlavə 97 etiketdən ibarət uzun quyruq (cəmi ≈7.300 hal) heç bir sistematik pisləşmə göstərməyib. Hal sayına görə ən tez-tez rast gəlinən etiketlər: Amerika Birləşmiş Ştatları (10.500), Braziliya (9.500), İspaniya (9.000), İtaliya (8.000), Almaniya (7.800), Fransa (7.400), Portuqaliya (5.800), Türkiye (3.400), Birləşmiş Krallıq (2.900) və Meksika (2.500). Etiket üzrə kompozit göstəricilər 0.9971-dən 0.9985-ə qədər dəyişib.

15 hadisədən 100,000-ə: 127 ölkə etiketi üzrə kohortun təkamülü

İlkin V11 hadisə paneli yeddi ixtisası — hematologiya, endokrinologiya, metabolik tibb, hepatologiya, nefrologiya, kardiologiya, revmatologiya — üstəgəl iki xüsusi hiperdiaqnoz tələsi hadisəni əhatə edirdi; hər bir hadisə sintetik yaradılmış qan analizi paneli idi. V11 İkinci Yeniləmə qiymətləndirməni 127 ölkə etiketini əhatə edən 100,000 sintetik hadisəyə qədər genişləndirir, — səkkiz ixtisas üzrə bölünmüş (orijinal yeddi + trap alt-kəsimini udan xüsusi daxili tibb qutusu). Eyni qiymətləndirmə rubrikası hər iki icrada bayt-bayt eyni tətbiq olunur.

V11 ilkin case-panel dizaynı — yeddi tibb ixtisası üzrə on beş sintetik qan testi halı və iki hiperdiaqnoz trap-case; eyni rubrik V11 İkinci Yeniləmədə 100.000 halda 99,80% kompozit balına çatdı
Şəkil 2: V11 ilkin iş-panel dizaynı hematologiya, endokrinologiya, metabolik tibb, hepatologiya, nefrologiya, kardiologiya, revmatologiya üzrə, üstəlik iki trap işi — Gilbert sindromu və tam normal skrininq paneli. İkinci Yeniləmə bu rubkanı bayt-bayt eyni saxlayır və kohortu Kantesti SQL repozitoriyasından götürülmüş 100.000 işə qədər genişləndirir.

Bütün hadisələr sintetik olaraq yaradıldığı üçün çıxarılacaq real identifikator yoxdur və şəxsi məlumat cəlb edilmir. Hər bir sintetik hadisə benchmark-daxili hadisə kodu daşıyır (V11 ilkin dəstində BT-NNN-LABEL, İkinci Yeniləmədə sabit case_uid ). Dərc olunmuş mühitdə (harness), texniki hesabatda və ya buraxılmış verilənlər dəstlərində heç yerdə şəxsi məlumat görünmür.

V11 initial release — 15 hand-curated cases

Orijinal V11 hal paneli Dr. Thomas Klein tərəfindən laboratoriya-tibb köməkçilərinin ən çox səhv etdiyi diaqnostik nümunələri yoxlamaq üçün əl ilə seçilmişdir. On beş halın hər biri aşağıda göstərilən konkret diaqnostik xüsusiyyətə görə seçilmişdir.

Hematologiya (3) BT-001, BT-006, BT-007 Dəmir çatışmazlığı anemiyası · B12 çatışmazlığı · Kiçik beta-talassemiya (beta-thalassaemia minor)
Endokrinologiya (3) BT-002, BT-008, BT-012 Haşimoto tiroiditi · İnsulin rezistentliyi ilə PCOS · Ağır D vitamini çatışmazlığı
Metabolik (2) BT-003, BT-013 Metabolik sindromla T2DM · Qut riskli hiperurikemiya
Hepatologiya (2) BT-004, BT-009 NAFLD / NASH · Kəskin virus hepatiti
Nefrologiya · Kardiologiya · Revmatologiya (3) BT-005, BT-010, BT-011 CKD 3-cü mərhələ · Aterogen dislipidemiya · Sistemik qırmızı qurdeşən (sistemik lupus eritematozus)
Tələ halı (2) BT-014, BT-015 Gilbert sindromu (izolyə olunmuş qeyri-birbaşa hiperbilirubinemiya) · Tamamilə normal yetkin skrininqi

Niyə məhz bu paylanma

Hematologiya real laboratoriya praktikasında ən yüksək həcmli “tələ”lər olan mikrositar diferensiallar və makrositar diferensiallar səbəbilə üç hal alır. Endokrinologiya isə Hashimoto, PCOS və D vitamini çatışmazlığı təqdimatlarının fərqli diaqnostik “formaları” (autoantikorla idarə olunan, hormon nisbəti ilə idarə olunan, tək markerlə idarə olunan) fərqli olduğuna görə üç hal alır. Tək-hal ixtisaslar yenə də mənalıdır, çünki CKD, ASCVD riski və SLE-nin hər birinin mühərrikin çağırmalı olduğu öz qiymətləndirmə sistemi var (müvafiq olaraq KDIGO mərhələlənməsi, ASCVD 10 illik riski, 2019 EULAR/ACR SLE meyarları).

V11 İkinci Yeniləmə — 127 ölkə etiketini əhatə edən 100,000 sintetik hadisə

İkinci Yeniləmə ilkin V11-dəki 15 hadisəli hard-coded Python literalını daha böyük, proqramatik yaradılmış sintetik hadisə dəsti ilə əvəz edir. Hadisə dəsti hər bir işin (run) əvvəlində yüklənir və şəffaflıq üçün konfiqurasiya qeydə alınır. Kohortun məzmun sahələri üzrə paylanması aşağıda göstərilir.

Endokrinologiya 23,900 hal (23.9%) Qalxanabənzər vəz, PCOS, D vitamini, gonadal ox, hipofiz
Metabolik tibb 21,900 hal (21.9%) T2DM, metabolik sindrom, lipid panelləri, hiperurikemiya
Hematologiya 15,400 hal (15.4%) Mikrositar və makrositar differensiallar, B12/folat, dəmir tədqiqatları
Hepatologiya 12,400 hal (12.4%) NAFLD/NASH, viral hepatit, FIB-4, xolestaz
Daxili xəstəliklər (o cümlədən trap alt dəsti) 9,000 hal (9.0%) Qarışıq təqdimatlar və 8,723 həsr olunmuş hiper-diaqnoz trap halları
Kardiologiya 7,500 hal (7.5%) ASCVD riski, aterogen dislipidemiya, hs-CRP
Revmatologiya 6,000 hal (6.0%) SLE, RA, vaskulit, autoantikor panelləri (EULAR/ACR meyarları)
Nefrologiya 4,000 hal (4.0%) CKD mərhələlənməsi (KDIGO), eGFR trendləri, elektrolit pozğunluğu

Sintetik ölkə-etiket paylanması — ilk 10 etiket

100.000 sintetik hal 127 ölkə etiketi daşıyır (ISO 3166-1 alpha-2) — lokallaşdırma idarəetməsini yoxlamaq üçün. Etiket təyini: Avropa 57.7%, Amerika qitələri 25.4%, Asiya-Sakit okean 6.2%, adlandırılmış Yaxın Şərq/Afrika etiketləri 3.4% və əlavə 97 etiketdən ibarət uzun quyruq birlikdə təxminən 7.3%. Hal sayına görə ən çox rast gəlinən on etiket: Amerika Birləşmiş Ştatları (10.500), Braziliya (9.500), İspaniya (9.000), İtaliya (8.000), Almaniya (7.800), Fransa (7.400), Portuqaliya (5.800), Türkiye (3.400), Birləşmiş Krallıq (2.900) və Meksika (2.500). Etiket üzrə kompozit göstəricilər 0.9971-dən 0.9985-ə qədər dəyişib. Bu etiket sayları lokallaşdırma idarəetməsini yoxlamaq üçün istifadə edilən generasiya olunmuş halların xüsusiyyətləridir — real istifadəçilər deyil və real dünyada coğrafi əhatəni əks etdirmir.

Əvvəlcədən qeydiyyatdan keçmiş rubrik — izahı

Qeydiyyatdan əvvəlcədən (pre-registration) bu benchmarkda ən vacib metodoloji seçimdir. Gözlənilən hər bir diaqnoz, hər bir klinik qiymətləndirmə sistemi və hər bir hesabat bölməsi mənbə koduna həvalə edilib mühərrik çağırılmadan əvvəl. Buna görə də mühərriki “yaltaqlaşdırmaq” üçün rubrikaya post-hoc (sonradan) tənzimləmə etmək mümkün deyil.

Kompozit balı təşkil edən üç komponent var. struktur komponenti 35 faiz töhfə verir və mühərrikin yeddi məcburi hesabat bölməsini (başlıq, xülasə, əsas tapıntılar, diferensial, qiymətləndirmə sistemləri, tövsiyələr, izləmə) və onların daxilindəki on altı məcburi alt bölməni qaytarıb-qaytarmadığını ölçür. Bölmənin mövcudluğu struktur hesablamada 40 faiz, alt bölmənin mövcudluğu isə 60 faiz çəkidədir.

The klinik komponent 55 faiz töhfə verir və üç şeyi birləşdirir: diaqnoz-açar söz yaddaşı (klinik alt-balonun 70 faizi), qiymətləndirmə sistemi yaddaşı (20 faiz — mühərrik uyğun olduqda Mentzer, FIB-4, HOMA-IR, ASCVD riski, KDIGO mərhələlənməsi, EULAR/ACR meyarlarını hesablayırmı), və ehtimal cəmi etibarlılıq yoxlaması (10 faiz — diferensial ehtimalların cəmi [90, 110] intervalında olmalıdır). Tələ hallarında, uydurulmuş patoloji bayrağına görə 0.10 olmaqla hesablanan və maksimum üç bayraqla məhdudlaşdırılan, 0.30-a qədər açıq “hiperdiaqnoz” cəriməsi çıxılır.

The gecikmə (latency) komponenti 10 faiz töhfə verir. 20 saniyədən az cavab tam 0.10, 40 saniyədən az cavab 0.05, daha yavaş hər şey isə 0 bal alır. 20 saniyəlik hədəf istehsalın primary-path xidmət səviyyəsi məqsədini əks etdirir; 40 saniyəlik tavan isə ağır mühərrik çağırışları üçün Phase 2 ehtiyat büdcəsini əks etdirir.

MIT-lisenziyalı Kantesti benchmark “harness”ın işlədiyini və hər iş üzrə ballar çıxardığını göstərən terminal ekran görüntüsü — eyni “harness”, indi SQL-ə əsaslanan, V11 İkinci Yeniləmədə 100.000 işlik icrada 99.80% kompozit balını istehsal edib
Şəkil 3: İcra olunan “harness” — nəticə çıxaran eyni mühərrik 99.80% kompozit V11 İkinci Yeniləmə 100,000-case kohortunda. Hər bir hal A4 PDF kimi render edilir, istehsal v11 endpointinə göndərilir və dondurulmuş rubrikaya əsasən qiymətləndirilir. İkinci Yeniləmə parametrli SQL case loader əlavə etdi; xam mühərrik cavablarından stratifikasiya olunmuş təsadüfi seçmə (n = 201) toplanmış scorecard ilə yanaşı saxlanılır.

Pre-registration nəyi önləyir

Birinci tərəf (first-party) benchmarklar post-hoc rubrika tənzimləməsi ilə öz rəqəmlərini şişirtməkdə məşhurdur. Nümunə demək olar ki, həmişə eynidir: komanda mühərriki işə salır, harada zəif olduğunu görür, sonra zəif çıxan sahələrin daha az sayılması üçün rubrikanı səssizcə düzəldir. Rubrikanı ilk mühərrik çağırışından əvvəl mənbə koduna həvalə edib harness-i MIT lisenziyası ilə dərc etməklə bu tənzimləmə versiya nəzarətində görünür. Hər kəs repozitoriyanı klonlayıb rubrika müəllif tarixlərini yoxlaya və mühərrik nəticələrinin qiymətləndirməni formalaşdırmaq üçün istifadə edilmədiyini təsdiqləyə bilər.

Hiper-diaqnoz tələsi halları — həddən artıq çağırışın (over-calling) real uğursuzluq mexanizmi olması

Normal ekranlarda patoloji barədə aqressiv “həddən artıq çağırış” istehlakçıya yönəlmiş tibbi köməkçilərdə sənədləşdirilmiş uğursuzluq rejimidir. Onun sonrakı xərclərinə lazımsız araşdırma, xəstə narahatlığı və iatrogen müayinə daxildir. Bu benchmarkdakı iki tələ halı bu uğursuzluq rejimini görünən və qiymətləndirilə bilən etmək üçün dizayn edilib.

Gilbert sindromu panelində hepatiti “uyduraraq” yaradan sadə AI ilə Kantesti mühərrikinin xeyirxah UGT1A1 polimorfizmini düzgün müəyyən etməsinin yan-yana müqayisəsi — metodologiya V11 İkinci Yeniləmə 99.80% benchmarkında 87.412 tələ-siqlal (trap-flag) imkanı üzrə sıfır yalan-müsbətə qədər miqyaslanıb
Şəkil 4: V11 ilkin buraxılışındakı “trap-case” dizaynı — Gilbert sindromunu hepatit kimi inamla etiketləyən və ya tamamilə normal ekranda sərhədyanı patoloji uyduran mühərrik, klinik səsləndirməyə görə mükafatlandırılmaq əvəzinə cəzalandırılır. Bu metodologiya, 99.80% kompozit göstəricisini yaradan V11 İkinci Yeniləmə 100,000-case run-da 0 / 87,412 false-positives-lərə qədər miqyaslandı.

🟡 Tələ 1 — BT-014-GILBERT

Təqdimat. Ümumi bilirubini 2.4 mg/dL olan 24 yaşlı kişi. Düz fraksiya normaldır, transaminazlar və qələvi fosfataza öz istinad diapazonlarının daxilindədir, retikulositlər diqqətəlayiq deyil və haptoglobin ilə LDH hemolizi istisna edir.

Düzgün şərh. Gilbert sindromu — xeyirxassəli UGT1A1 polimorfizmi. Şərh hepatit, sirroz, hemolitik anemiya və ya biliyar obstruksiyanı çağırmamalıdır.

V11 nəticəsi. Kompozit 1.000. Altı izlənən həddən artıq diaqnoz bayrağından heç biri aktiv diaqnoz kimi görünmədi.

🟡 Tələ 2 — BT-015-HEALTHY

Təqdimat. On beş parametrli rutin skrininq paneli olan 35 yaşlı qadın. Hər bir analit öz istinad diapazonunun daxilində rahat şəkildə yerləşir.

Düzgün şərh. Təsəlliverici yanaşma və həyat tərzinin qorunması. Şərh klinik baxımdan faydalı görünmək üçün sərhəddə patoloji uydurmamalıdır.

V11 nəticəsi. Kompozit 1.000. Yeddi izlənən həddən artıq diaqnoz (over-diagnosis) siqnalından heç biri — diabet, anemiya, hipotiroidizm, dislipidemiya, hepatit, böyrək xəstəliyi, çatışmazlıq — aktiv diaqnoz kimi görünmədi.

Hər iki sınaq (trap) üzrə on üç izlənən hiperdiaqnoz siqnalı yoxlanıldı. Heç biri işə düşmədi. Bu, AI mühərrikindən triage və ya konsultasiyadan əvvəl alət kimi istifadə etməyi düşünən hər bir klinisist üçün ən çox önəm daşıyan nəticədir: sistem mövcud olmayan yerdə xəstəlik uydurmadı.

Mentzer indeksi: dəmir çatışmazlığını talassemiya daşıyıcılığından ayırmaq

İkinci yüksək dəyərli tapıntı BT-001 (dəmir çatışmazlığı anemiyası) işi ilə BT-007 (beta-talassemiya minor) işinin cütləşdirilməsidir. Hər ikisi mikrositozla müşayiət olunur və sadəlövh klassifikatorlar üçün yaxşı tanınan çətinlikdir. MCV-ni RBC sayına bölməklə hesablanan Mentzer indeksi dəmir çatışmazlığında 13-dən yüksək, talassemiya xüsusiyyətində isə 13-dən aşağı olur.

BT-001-də pasiyent 34 yaşlı qadın idi: hemoglobin 10.4 q/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL və TIBC yüksəlmişdi. Təxminən 17.7 olan Mentzer indeksi mütləq dəmir çatışmazlığını dəstəkləyir. BT-007-də pasiyent 28 yaşlı kişi idi: mikrositoz (MCV 65.8 fL), lakin 6.2 kimi yüksək RBC sayı, normal RDW, normal ferritin və HbA2 5.6 faiz. Təxminən 10.6 olan Mentzer indeksi talassemiya xüsusiyyətini göstərir və yüksəlmiş HbA2 beta-talassemiya minoru təsdiqləyir.

Dəmir çatışmazlığı anemiyası Mentzer > 13 Aşağı ferritin, aşağı TSAT, yüksək TIBC, yüksəlmiş RDW
Beta-talassemiya xüsusiyyəti Mentzer < 13 Normal ferritin, normal RDW, yüksəlmiş HbA2 (>3.5%), yüksək RBC sayı

Hər iki hal 1.000 bal topladı. Mühərrik hər iki şərhdə Mentzer indeksini açıq şəkildə işə saldı və hər dəfə düzgün diaqnozu qaytardı. Bu, bütün benchmarkda klinik baxımdan ən çox təsəlliverici tək nəticədir, çünki talassemiya xüsusiyyətini dəmir çatışmazlığı kimi səhv təsnif etmək qeyri-münasib dəmir əlavəsinə və ailə skrininq imkanlarının qaçırılmasına gətirib çıxarır, dəmir çatışmazlığını isə talassemiya kimi səhv təsnif etmək isə sadə əvəzedici terapiyanın gecikməsinə səbəb olur. Bizim ferritin diapazonu bələdçimiz daha geniş diferensial konteksti izah edir.

V11 ilkin istinad run-dan (23 aprel 2026) hal üzrə nəticələr

15-case proof-of-concept kohortunda orijinal V11 istinad run-u metodoloji əsasdır İkinci Yeniləmə üçün: aşağıdakı hər bir hal üzrə detal rubrikanın real mühərrik cavabını necə idarə etdiyini göstərir. On beş haldan on ikisi əsas yolda 1.000 tavan kompozit göstəricisinə çatdı; üç hal Phase 2 fallback vasitəsilə təqdim edildi və klinik və struktur məzmunun hamısı qorunmaqla 0.05 latency bonusu itirildi. Bir halda tək bir məcburi alt bölmə çatışmırdı; biri isə marjinal olaraq azalmış ehtimal paylanması cəmini qaytardı.

Hal ID-si İxtisas Kompozit Latensiya Path
BT-001-IDAHematologiya1.00017.8 silkin
BT-006-B12Hematologiya1.00018,4 silkin
BT-007-THALHematologiya1.00017,0 silkin
BT-002-HASHEndokrinologiya0.95037,0 sehtiyat (fallback)
BT-008-PCOSEndokrinologiya0.98718,6 silkin
BT-003-T2DMMetabolik1.00019,1 silkin
BT-013-GOUTMetabolik1.00019,4 silkin
BT-004-NAFLDHepatologiya1.00019,6 silkin
BT-009-VIRHEPHepatologiya0.95023,4 sehtiyat (fallback)
BT-014-GILBERTTələ1.00018,9 silkin
BT-005-CKDNefrologiya1.00017,4 silkin
BT-010-ASCVDKardiologiya1.00019,7 silkin
BT-011-SLERevmatologiya0.98118,2 sanilkin
BT-012-VITDEndokrinologiya1.00019,3 sanilkin
BT-015-SAĞLAMTələ1.00018,7 sanehtiyat (fallback)

PCOS halı (BT-008) cavab strukturunda bir məcburi alt bölməni itirdi — on altıdan on beş — bu da struktur balını 1,000-dən 0,963-ə endirdi. SLE halı (BT-011) klinik balı 0,965-ə salan, lakin hər bir diaqnostik açar sözünü və qiymətləndirmə sistemini qoruyan, marjinal dərəcədə azalmış ehtimal-paylanması cəmini qaytardı. Hər iki sub-ideal hal düzgün diaqnozu qaçırmadı.

V11 İkinci Yeniləmə üzrə aqreqat — 100,000 hal

Populyasiya miqyasında fərdi hal sətirləri insan tərəfindən oxunaqlı deyil, buna görə İkinci Yeniləmə 100.000 sətirlik cədvəl əvəzinə toplanmış göstəricilər barədə hesabat verir. Əsas yekun aşağıda göstərilib; ixtisas üzrə və ölkə-etiketi üzrə bölgülər texniki hesabatda və Figshare depozitində dərc olunur. Stratifikasiya olunmuş təsadüfi nümunə n = 201 xam mühərrik cavabları (deterministik seed 20260426) yoxlanış üçün GitHub repozitoriyanın results/ qovluğunda saxlanılıb. Yeni icra yeni tarix-saatlı skor kartı yaradacaq, istinad icrası isə toxunulmadan qalacaq. Əgər icraınız mənalı dərəcədə fərqli nəticə verirsə, zəhmət olmasa GitHub issue açın və icra timestampini və cavabın metadata-sında qaytarılan mühərrik versiyasını göstərin. qovluğunda dərc edilib.

Kompozit göstərici V11 ilkin: 0.9912 (99.12%) → İkinci Yeniləmə: 0.9980 (99.80%) Δ = +0.0068 100,000 hal kohortu üzrə
Struktur göstəricisi (orta) V11 ilkin: 0.998 → İkinci Yeniləmə: 1.000 Populyasiya miqyasında mükəmməl struktur uyğunluğu
Klinik göstərici (orta) V11 ilkin: 0.998 → İkinci Yeniləmə: 0.996 −0.002; heç bir hal diaqnozu özü qaçırmadı
Gecikmə — orta (interval) V11 ilkin: 20.17 s (17.0–37.0 s) → İkinci Yeniləmə: 13.26 s (9.0–16.94 s) İcraatlar arası istehsal mühərriki optimizasiyaları
Mühərrik yolu = əsas V11 ilkin: 12 / 15 → İkinci Yeniləmə: 100,000 / 100,000 Heç bir mərhələdə (run zamanı) 2-ci mərhələyə (Phase 2) ehtiyat mexanizmi tələb olunmadı
Tələyə düşən alt-kəsim (trap-subset) hiperdiaqnostika bayraqları V11 ilkin: 0 / 13 → İkinci Yeniləmə: 0 / 87,412 Populyasiya miqyasında sıfır yanlış-müsbət nəticə (8,723 tələ hadisəsi izlənib)

Başlıq göstəricisi bizə nə demir

Bu konkret əvvəlcədən qeydiyyatdan keçmiş rubrika üzrə 99.80 faiz kompozit qiymət — 127 ölkə etiketini əhatə edən 100,000 hadisəlik sintetik kohortda — demək olar ki, “tavan” səviyyəsində performans deməkdir; lakin bunu diqqətlə çərçivələmək lazımdır. Nəticə mühərrikin V11-də mənbə koduna sadiq qaldığımız rubrikaya qarşı davranışını təsvir edir; bu, vəhşi təbiətdə mövcud olan hər bir qan analizi paneli üzrə mühərrikin düzgünlüyünə dair universal iddia deyil.

Göstərici deyir ki, mühərrik bu qiymətləndirmə üçün seçilmiş diaqnostik nümunələri populyasiya miqyasında kohortda düzgün idarə edib, dərc olunmuş və təkrarlana bilən metodologiya əsasında. Bu, mühərrikin vəhşi təbiətdə mövcud olan hər bir qan analizi panelində düzgün olduğunu demir. Bu, mühərrikin klinik qərarı əvəz etməli olduğunu demir. Və bu, mühərrikin alternativ AI sistemlərindən üstün olduğunu da demir — digər mühərriklərlə müqayisəli analizlər bu hesabatın əhatə dairəsinə qəsdən daxil edilməyib.

Göstəricinin ortaya qoyduğu şey bir baza xəttidir. Rubrika və test mühiti (harness) ictimai olduqca, mühərrikin gələcək versiyaları eyni rubrikaya qarşı qiymətləndirilə bilər — V11 ilkin 15 halda, İkinci Yeniləmədə 100,000 hadisəlik kohortda və ya sonrakı genişlənmələrdə — və dərc olunmuş göstərici ilə sonrakı hər hansı bir run arasındakı fərq özü də ölçülə bilər. Əvvəlcədən qeydiyyatın dəyəri budur: performans iddialarını yoxlanıla bilən iddialara çevirir.

Bu benchmark-ı 10 dəqiqəyə necə təkrarlamaq olar

Təkrar istehsal üçün yalnız Kantesti API etimadnamə cütü və Python 3.10 və ya daha sonrakı mühit lazımdır, requestsreportlab kitabxanaları quraşdırılmış olmalıdır. Tam “harness” MIT lisenziyası altında buraxılmış, tək, özündə tam olan Python moduludur.

V11 İkinci Yeniləmə benchmark-ını göstərən reproduksiya şəbəkə diaqramı (99.80% kompozit, 100.000 hal, 127 ölkə etiketi) Figshare, ResearchGate, Academia.edu və GitHub arasında əks olunub; Figshare DOI kanonik lövbər kimi göstərilib
Şəkil 5: V11 İkinci Yeniləmə benchmarkı — 127 ölkə etiketini əhatə edən 100,000 hadisə üzrə 99.80% kompozit qiymət — dörd tədqiqat platforması arasında əks olunur. Figshare DOI kanonik elmi identifikator kimi çıxış edir; ResearchGate (publication 404175463), Academia.edu (paper 165956808) və GitHub benchmark harness-ı, stratifikasiya olunmuş təsadüfi xam cavab nümunəsini və ölkə-etiketi/ixtisas üzrə scorecard-ları ilə paralel surətləri yerləşdirir.

Təzə icra üçün dörd addım

Birinci. Repozitoriyanı klonlayın: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. İkinci. Asılılıqları quraşdırın pip install -r requirements.txt (İkinci Yeniləmə əlavə edir mysql-connector-python ≥ 8.0 SQL case loader üçün). Üç. Təyin edin KANTESTI_USERNAMEKANTESTI_PASSWORD mühərrik API-si üçün mühit dəyişənləri kimi. İkinci Yeniləmənin SQL case loader-i üçün həmçinin təyin edin KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, və KANTESTI_DB_PASSWORD — yükləyici (read-only) rol vasitəsilə qoşulur (bench_reader) identifikasiya edən cədvəllər üzrə heç bir imtiyaza malik deyil. Dörd. İcra edin python benchmark_bloodtest.py --limit 100000 tam Second-Update icrası üçün, və ya python benchmark_bloodtest.py --limit 1000 sürətli iterasiya üçün. Nəticələr buraya düşür: ./benchmark_results/: ölkə-etiketi və ixtisas sütunları olan CSV scorecard, JSON toplanması, stratifikasiya olunmuş-təsadüfi xam cavab nümunəsi və Markdown hesabatı.

23 aprel 2026-cı il tarixli (V11 ilkin, 15 hal) və 26 aprel 2026-cı il tarixli (V11 Second Update, 100,000 hal) istinad icraları repozitoriyanın repozitoriyanın results/ qovluğunda saxlanılıb. Yeni icra yeni tarix-saatlı skor kartı yaradacaq, istinad icrası isə toxunulmadan qalacaq. Əgər icraınız mənalı dərəcədə fərqli nəticə verirsə, zəhmət olmasa GitHub issue açın və icra timestampini və cavabın metadata-sında qaytarılan mühərrik versiyasını göstərin. qovluğunda saxlanılır. Yeni icra yeni tarixçələnmiş scorecard yaradacaq, istinad icralarına isə toxunulmayacaq. Əgər icranız mənalı dərəcədə fərqli nəticə verirsə, zəhmət olmasa GitHub issue açın və cavabın metadata hissəsində göstərilən icra timestampini və qaytarılan engine versiyasını qeyd edin.

Məhdudiyyətlər və gələcək işlər

127 ölkə etiketi üzrə 100.000 hal olsa belə, dörd məhdudiyyətin açıq şəkildə qeyd edilməsi lazımdır: uzun quyruq etiketlərinin az təmsil olunması, tək mərhələli qiymətləndirmə, tək mühərrik əhatəsi və tək mənbədən məlumat mənşəyi. Bunların hər biri aktiv davam işlərində həll olunur.

Uzun quyruq etiketlərinin əhatəsi. İkinci Yeniləmə 127 ölkə etiketini əhatə edir, lakin paylanma balanslı deyil — ilk 10 etiket halın ≈66.4%-ni təşkil edir və əlavə 97 etiketdən ibarət uzun quyruq birlikdə ≈7.3% töhfə verir (cəmi təxminən 7.300 hal, orta hesabla etiket başına ~75 hal). Buna görə də bu uzun quyruqda etiket üzrə kompozitlər başlıq rəqəmlərinin göstərdiyindən daha çox səs-küylüdür. Gələcək icralar etiket təyinatını yenidən balanslaşdıracaq ki, etiket üzrə qiymətləndirmələr möhkəmlənsin.

Tək dəfəlik qiymətləndirmə. Kollektivdəki hər bir hal yalnız bir dəfə qiymətləndirilib. Böyük dil modelləri aşağı sampling temperaturunda belə əhəmiyyətli çıxış variasiyası nümayiş etdirir; buna görə də hər hal üçün beş qiymətləndirmə və bildirilmiş variasiya ilə çox-icralı protokol təbii növbəti addımdır — xüsusən də trap-case alt dəstində, burada sampling jitter altında ardıcıllıq təhlükəsizlik iddiasının bir hissəsidir.

Tək mühərrik əhatəsi. Bu hesabat bir engine-i xarakterizə edir. Alternativ AI sistemləri ilə müqayisəli analizlər burada əhatə dairəsinə daxil deyil; eyni MIT-lisenziyalı harness qarşısında uyğun metodologiya ilə onları ayrıca müstəqil tədqiqat kimi həyata keçirməyi düşünə bilərik.

Sintetik məlumat. 100,000 hadisə sintetik olaraq yaradılıb, sintetik “hadisələr” deyil və nəticələr real dünyadakı klinik performansa ötürülmür. Real, razılıqlı və xaricdən əldə edilmiş verilənlər üzərində qiymətləndirmə müvafiq etik nəzarət tələb edər və bu sintetik benchmarkın əhatə dairəsinə daxil deyil.

Bu dördündən əlavə, planlaşdırılan ən təsirli genişlənmə yurisdiksiya üzrə çoxdilli bərabərliyin təmin edilməsidir. Kantesti AI Engine 75+ dildə istifadəçilərə xidmət edir və dilə görə təbəqələndirilmiş Second-Update alt-kohortlarının (Türk, Alman, İspan, Fransız, İtalyan, Portuqal, Ərəb, Mandarin) işə salınması engine-in dəstəklədiyi dillər üzrə çıxış keyfiyyətini ölçəcək. Hər bir dilə görə təbəqələndirilmiş analiz öz DOI-si və harness branch-i ilə birlikdə dərc olunacaq.