Bu benchmark niyə mövcuddur və nəyi yoxlayır

AI ilə qan analizi nəticələrinin şərhi istehlakçı və klinik iş axınlarında getdikcə daha çox istifadə olunur, lakin laboratoriya təbabətinə uyğun, təkrarlana bilən qiymətləndirmə çərçivələri hələ də nadirdir. Bu kontekstdə ən vacib suallar ümumi tibbi sual-cavab benchmark-larında əhatə olunanlar deyil: orta korpuskulyar həcm eyni olduqda mühərrik dəmir çatışmazlığını talassemiya xüsusiyyətindən ayıra bilərmi, Gilbert sindromunu hepatit kimi həddən artıq diaqnoz qoyurmu və tamamilə normal skrininq panelində patoloji “yaradırmı”?

Kantesti AI Mühərrikinin dondurulmuş qiymətləndirmə meyarlarına necə uyğunlaşdırıldığını göstərən əvvəlcədən qeydiyyatdan keçmiş rubrik axın diaqramı
Şəkil 1: Benchmark arxitekturası — hər bir hal, hər bir açar söz, hər bir qiymətləndirmə sistemi mühərrik heç bir PDF görməmişdən əvvəl mənbə kodunda sabitlənib. Post-hoc rubrik tənzimləməsi dizayn üzrə mümkün deyil.

Tək bir qan analizi paneli adətən bir neçə rəqabətli şərhə əsas verəcək qədər siqnal ehtiva edir və şərh edən klinisistin işi həmin şərhləri bir-biri ilə müqayisə edib çəkməkdir; dərslik cavabını çıxarmaq deyil. Dərslik tipli hallarda yaxşı nəticə göstərən bir “mühərrik” ən çox önəm daşıyan hallarda yenə də uğursuz ola bilər: diferensial-diaqnoz tələləri, təkbaşına baxıldıqda həyəcanverici görünən zərərsiz variantlar və kökündən normal panellər ki, bunlar da inamlı köməkçiləri patoloji “istehsal etməyə” sövq edir.

Bu benchmark məhz bu uğursuzluq ssenariləri əsasında qurulmuşdur. On beş halın hər biri konkret diaqnostik xüsusiyyətə görə seçilmişdir: identik orta korpuskulyar həcmə malik beta-talassemiya xüsusiyyəti ilə fərqləndirilməli olan dəmir çatışmazlığına bağlı mikrositoz; yeganə anomaliyanın təcrid olunmuş qeyri-düz birbaşa hiperbilirubinemiya olduğu Gilbert sindromu təqdimatı; və hər bir analitin öz referens diapazonu daxilində oturduğu on beş parametrli skrininq paneli. Rubrika, hər bir halı öz şərtləri daxilində oxuyan mühərrikləri mükafatlandırır və belə bir diaqnozun əsaslandırılmadığı yerdə inamlı diaqnoza “tələsən” mühərrikləri cəzalandırır.

MD Tomas Klein kimi, bu hal panelini seçdim, çünki laboratoriya-tibb üzrə köməkçilərin ən çox səhv etdiyi nümunələr bunlardır. Bahalı uğursuzluq rejimi "nadir bir xəstəliyi qaçırmaq" deyil — onu olmayan xəstələrdə rutin patoloji uydurmaqdır. Bizim Tibbi Validasiya hub daha geniş çərçivəni təsvir edir; bu səhifə onun V11 mühərrikində tətbiq olunmuş nəticəsini təsvir edir.

Ən son istinad icrası — V11 (2026-cı ilin aprel ayı)

Kantesti AI Engine V11-in 2026-cı ilin aprel referens yoxlaması kompozit bal yaratdı 99.12% əvvəlcədən qeydiyyatdan keçmiş on beş hal rubrikası üzrə. Hiper-diaqnoz tələsi olan iki halın hər ikisi tavan həddinə çatdı. Mentzer indeksi dəmir çatışmazlığı ilə talassemiya arasındakı diferensialda düzgün tətbiq edildi.

Kompozit 99.12% 15/15 hal bal topladı
0.998 Struktur balı
0.998 Klinik bal
20.17 s Orta gecikmə
0 / 13 Tələ yanlış-müsbətləri

Kompozit düsturu üç komponenti birləşdirir: struktur uyğunluğu yeddi məcburi hesabat bölməsi və on altı məcburi altbölmə ilə, klinik dəqiqlik açar sözün geri çağırılması + bal sisteminin geri çağırılması + ehtimal paylanması etibarlılığı yoxlaması kimi ölçülür və cavab gecikməsi 20 saniyəlik əsas xidmət səviyyəsi hədəfinə qarşı. Dəqiq parçalanma aşağıdakı rubrika düsturunda göstərilib.

Kompozit = 0.35 × Struktur + 0.55 × Klinik + 0.10 × Gecikmə

Başlıq (headroom) üzrə qalan 0,88 faiz bəndi demək olar ki, tamamilə gecikmə itkisinə (latency loss) parçalanır — hər biri -0,05 kompozit olan üç Phase 2 ehtiyat çağırışı 0,88 bəndlik çatışmazlığın təxminən 0,60 hissəsini təşkil edib; klinik məzmuna isə yox. Mühərrik on beş halın heç birində düzgün diaqnozu qaçırmadı; çatışdığı yerlərdə isə çağırışların kiçik bir hissəsində 20 saniyəlik əsas (primary-path) hədəfindən bir qədər uzun çəkdi.

Yeddi tibb ixtisası üzrə on beş hal

Hal paneli yeddi ixtisası əhatə edir — hematologiya, endokrinologiya, metabolik tibb, hepatologiya, nefrologiya, kardiologiya, revmatologiya — üstəlik iki xüsusi hiperdiaqnoz tələsi (hyperdiagnosis trap) halı. Hər bir hal yazılı məlumatlı razılıq əsasında Kantesti klinik məlumat anbarından götürülmüş anonimləşdirilmiş real xəstə qeydi (record)dir.

Yeddi tibb ixtisası üzrə paylanmış on beş anonimləşdirilmiş qan analizi işinin əhatə xəritəsi, üstəlik hiper-diaqnoz tələ halları
Şəkil 2: Hematologiya, endokrinologiya, metabolik tibb, hepatologiya, nefrologiya, kardiologiya, revmatologiya üzrə hal bölgüsü, üstəlik iki tələ halı — Gilbert sindromu və tamamilə normal skrininq paneli.

De-identifikasiya Safe Harbor yanaşması ilə həyata keçirilib: bütün birbaşa identifikatorlar çıxarılıb və ya əvəz edilib, hər bir qeydə BT-NNN-LABEL formatında benchmark-daxili hal kodu verilib. Emal aşağıdakılara uyğun aparılıb GDPR Maddə 9(2)(j) müvafiq təminatlarla elmi tədqiqat üçün və ekvivalent UK GDPR müddəalarına uyğun. Dərc olunmuş harness-da, texniki hesabatda və ya buraxılmış dataset-lərdə heç yerdə şəxsi identifikasiyaedici məlumat görünmür.

Hematologiya (3) BT-001, BT-006, BT-007 Dəmir çatışmazlığı anemiyası · B12 çatışmazlığı · Kiçik beta-talassemiya (beta-thalassaemia minor)
Endokrinologiya (3) BT-002, BT-008, BT-012 Haşimoto tiroiditi · İnsulin rezistentliyi ilə PCOS · Ağır D vitamini çatışmazlığı
Metabolik (2) BT-003, BT-013 Metabolik sindromla T2DM · Qut riskli hiperurikemiya
Hepatologiya (2) BT-004, BT-009 NAFLD / NASH · Kəskin virus hepatiti
Nefrologiya · Kardiologiya · Revmatologiya (3) BT-005, BT-010, BT-011 CKD 3-cü mərhələ · Aterogen dislipidemiya · Sistemik qırmızı qurdeşən (sistemik lupus eritematozus)
Tələ halı (2) BT-014, BT-015 Gilbert sindromu (izolyə olunmuş qeyri-birbaşa hiperbilirubinemiya) · Tamamilə normal yetkin skrininqi

Niyə məhz bu paylanma

Hematologiya real laboratoriya praktikasında ən yüksək həcmli “tələ”lər olan mikrositar diferensiallar və makrositar diferensiallar səbəbilə üç hal alır. Endokrinologiya isə Hashimoto, PCOS və D vitamini çatışmazlığı təqdimatlarının fərqli diaqnostik “formaları” (autoantikorla idarə olunan, hormon nisbəti ilə idarə olunan, tək markerlə idarə olunan) fərqli olduğuna görə üç hal alır. Tək-hal ixtisaslar yenə də mənalıdır, çünki CKD, ASCVD riski və SLE-nin hər birinin mühərrikin çağırmalı olduğu öz qiymətləndirmə sistemi var (müvafiq olaraq KDIGO mərhələlənməsi, ASCVD 10 illik riski, 2019 EULAR/ACR SLE meyarları).

Əvvəlcədən qeydiyyatdan keçmiş rubrik — izahı

Qeydiyyatdan əvvəlcədən (pre-registration) bu benchmarkda ən vacib metodoloji seçimdir. Gözlənilən hər bir diaqnoz, hər bir klinik qiymətləndirmə sistemi və hər bir hesabat bölməsi mənbə koduna həvalə edilib mühərrik çağırılmadan əvvəl. Buna görə də mühərriki “yaltaqlaşdırmaq” üçün rubrikaya post-hoc (sonradan) tənzimləmə etmək mümkün deyil.

Kompozit balı təşkil edən üç komponent var. struktur komponenti 35 faiz töhfə verir və mühərrikin yeddi məcburi hesabat bölməsini (başlıq, xülasə, əsas tapıntılar, diferensial, qiymətləndirmə sistemləri, tövsiyələr, izləmə) və onların daxilindəki on altı məcburi alt bölməni qaytarıb-qaytarmadığını ölçür. Bölmənin mövcudluğu struktur hesablamada 40 faiz, alt bölmənin mövcudluğu isə 60 faiz çəkidədir.

The klinik komponent 55 faiz töhfə verir və üç şeyi birləşdirir: diaqnoz-açar söz yaddaşı (klinik alt-balonun 70 faizi), qiymətləndirmə sistemi yaddaşı (20 faiz — mühərrik uyğun olduqda Mentzer, FIB-4, HOMA-IR, ASCVD riski, KDIGO mərhələlənməsi, EULAR/ACR meyarlarını hesablayırmı), və ehtimal cəmi etibarlılıq yoxlaması (10 faiz — diferensial ehtimalların cəmi [90, 110] intervalında olmalıdır). Tələ hallarında, uydurulmuş patoloji bayrağına görə 0.10 olmaqla hesablanan və maksimum üç bayraqla məhdudlaşdırılan, 0.30-a qədər açıq “hiperdiaqnoz” cəriməsi çıxılır.

The gecikmə (latency) komponenti 10 faiz töhfə verir. 20 saniyədən az cavab tam 0.10, 40 saniyədən az cavab 0.05, daha yavaş hər şey isə 0 bal alır. 20 saniyəlik hədəf istehsalın primary-path xidmət səviyyəsi məqsədini əks etdirir; 40 saniyəlik tavan isə ağır mühərrik çağırışları üçün Phase 2 ehtiyat büdcəsini əks etdirir.

MIT lisenziyası ilə işləyən Kantesti benchmark (meyar) sınaq qurğusunun işə düşməsini və hər iş üzrə balları çıxarmasını göstərən yekun ekran görüntüsü
Şəkil 3: İcra zamanı “harness”. Hər bir hal A4 PDF kimi render edilir, istehsal v11 endpointinə göndərilir və dondurulmuş rubrikaya əsasən qiymətləndirilir. Hər bir xam cavab, toplanmış scorecard ilə birlikdə saxlanılır.

Pre-registration nəyi önləyir

Birinci tərəf (first-party) benchmarklar post-hoc rubrika tənzimləməsi ilə öz rəqəmlərini şişirtməkdə məşhurdur. Nümunə demək olar ki, həmişə eynidir: komanda mühərriki işə salır, harada zəif olduğunu görür, sonra zəif çıxan sahələrin daha az sayılması üçün rubrikanı səssizcə düzəldir. Rubrikanı ilk mühərrik çağırışından əvvəl mənbə koduna həvalə edib harness-i MIT lisenziyası ilə dərc etməklə bu tənzimləmə versiya nəzarətində görünür. Hər kəs repozitoriyanı klonlayıb rubrika müəllif tarixlərini yoxlaya və mühərrik nəticələrinin qiymətləndirməni formalaşdırmaq üçün istifadə edilmədiyini təsdiqləyə bilər.

Hiper-diaqnoz tələsi halları — həddən artıq çağırışın (over-calling) real uğursuzluq mexanizmi olması

Normal ekranlarda patoloji barədə aqressiv “həddən artıq çağırış” istehlakçıya yönəlmiş tibbi köməkçilərdə sənədləşdirilmiş uğursuzluq rejimidir. Onun sonrakı xərclərinə lazımsız araşdırma, xəstə narahatlığı və iatrogen müayinə daxildir. Bu benchmarkdakı iki tələ halı bu uğursuzluq rejimini görünən və qiymətləndirilə bilən etmək üçün dizayn edilib.

Gilbert sindromu panelində naiv AI-nin hepatiti uydurması ilə Kantesti mühərrikinin zərərsiz UGT1A1 polimorfizmini düzgün müəyyən etməsinin yan-yana müqayisəsi
Şəkil 4: Tələ-hal dizaynı. Gilbert sindromunu inamla hepatit kimi etiketləyən və ya tamamilə normal ekranda sərhədyanı patoloji “yaradan” bir mühərrik cəzalandırılır — klinik səslənməyə görə mükafatlandırılmır.

🟡 Tələ 1 — BT-014-GILBERT

Təqdimat. Ümumi bilirubini 2.4 mg/dL olan 24 yaşlı kişi. Düz fraksiya normaldır, transaminazlar və qələvi fosfataza öz istinad diapazonlarının daxilindədir, retikulositlər diqqətəlayiq deyil və haptoglobin ilə LDH hemolizi istisna edir.

Düzgün şərh. Gilbert sindromu — xeyirxassəli UGT1A1 polimorfizmi. Şərh hepatit, sirroz, hemolitik anemiya və ya biliyar obstruksiyanı çağırmamalıdır.

V11 nəticəsi. Kompozit 1.000. Altı izlənən həddən artıq diaqnoz bayrağından heç biri aktiv diaqnoz kimi görünmədi.

🟡 Tələ 2 — BT-015-HEALTHY

Təqdimat. On beş parametrli rutin skrininq paneli olan 35 yaşlı qadın. Hər bir analit öz istinad diapazonunun daxilində rahat şəkildə yerləşir.

Düzgün şərh. Təsəlliverici yanaşma və həyat tərzinin qorunması. Şərh klinik baxımdan faydalı görünmək üçün sərhəddə patoloji uydurmamalıdır.

V11 nəticəsi. Kompozit 1.000. Yeddi izlənən həddən artıq diaqnoz (over-diagnosis) siqnalından heç biri — diabet, anemiya, hipotiroidizm, dislipidemiya, hepatit, böyrək xəstəliyi, çatışmazlıq — aktiv diaqnoz kimi görünmədi.

Hər iki sınaq (trap) üzrə on üç izlənən hiperdiaqnoz siqnalı yoxlanıldı. Heç biri işə düşmədi. Bu, AI mühərrikindən triage və ya konsultasiyadan əvvəl alət kimi istifadə etməyi düşünən hər bir klinisist üçün ən çox önəm daşıyan nəticədir: sistem mövcud olmayan yerdə xəstəlik uydurmadı.

Mentzer indeksi: dəmir çatışmazlığını talassemiya daşıyıcılığından ayırmaq

İkinci yüksək dəyərli tapıntı BT-001 (dəmir çatışmazlığı anemiyası) işi ilə BT-007 (beta-talassemiya minor) işinin cütləşdirilməsidir. Hər ikisi mikrositozla müşayiət olunur və sadəlövh klassifikatorlar üçün yaxşı tanınan çətinlikdir. MCV-ni RBC sayına bölməklə hesablanan Mentzer indeksi dəmir çatışmazlığında 13-dən yüksək, talassemiya xüsusiyyətində isə 13-dən aşağı olur.

BT-001-də pasiyent 34 yaşlı qadın idi: hemoglobin 10.4 q/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL və TIBC yüksəlmişdi. Təxminən 17.7 olan Mentzer indeksi mütləq dəmir çatışmazlığını dəstəkləyir. BT-007-də pasiyent 28 yaşlı kişi idi: mikrositoz (MCV 65.8 fL), lakin 6.2 kimi yüksək RBC sayı, normal RDW, normal ferritin və HbA2 5.6 faiz. Təxminən 10.6 olan Mentzer indeksi talassemiya xüsusiyyətini göstərir və yüksəlmiş HbA2 beta-talassemiya minoru təsdiqləyir.

Dəmir çatışmazlığı anemiyası Mentzer > 13 Aşağı ferritin, aşağı TSAT, yüksək TIBC, yüksəlmiş RDW
Beta-talassemiya xüsusiyyəti Mentzer < 13 Normal ferritin, normal RDW, yüksəlmiş HbA2 (>3.5%), yüksək RBC sayı

Hər iki hal 1.000 bal topladı. Mühərrik hər iki şərhdə Mentzer indeksini açıq şəkildə işə saldı və hər dəfə düzgün diaqnozu qaytardı. Bu, bütün benchmarkda klinik baxımdan ən çox təsəlliverici tək nəticədir, çünki talassemiya xüsusiyyətini dəmir çatışmazlığı kimi səhv təsnif etmək qeyri-münasib dəmir əlavəsinə və ailə skrininq imkanlarının qaçırılmasına gətirib çıxarır, dəmir çatışmazlığını isə talassemiya kimi səhv təsnif etmək isə sadə əvəzedici terapiyanın gecikməsinə səbəb olur. Bizim ferritin diapazonu bələdçimiz daha geniş diferensial konteksti izah edir.

2026-cı ilin aprel işə salınması üzrə hər bir halın nəticələri

On beş haldan on ikisi ilkin path üzrə əsas kompozit skoru 1.000 həddinə çatdı. Üç hal Phase 2 ehtiyat mexanizmi ilə xidmət göstərildi; klinik və struktur məzmunun hamısı qorunmaqla 0.05 latensiya bonusu itirildi. Bir hal tək bir məcburi alt bölmədən məhrum idi; biri isə marjinal olaraq azaldılmış ehtimal paylanması cəmini qaytardı.

Hal ID-si İxtisas Kompozit Latensiya Path
BT-001-IDAHematologiya1.00017.8 silkin
BT-006-B12Hematologiya1.00018,4 silkin
BT-007-THALHematologiya1.00017,0 silkin
BT-002-HASHEndokrinologiya0.95037,0 sehtiyat (fallback)
BT-008-PCOSEndokrinologiya0.98718,6 silkin
BT-003-T2DMMetabolik1.00019,1 silkin
BT-013-GOUTMetabolik1.00019,4 silkin
BT-004-NAFLDHepatologiya1.00019,6 silkin
BT-009-VIRHEPHepatologiya0.95023,4 sehtiyat (fallback)
BT-014-GILBERTTələ1.00018,9 silkin
BT-005-CKDNefrologiya1.00017,4 silkin
BT-010-ASCVDKardiologiya1.00019,7 silkin
BT-011-SLERevmatologiya0.98118,2 sanilkin
BT-012-VITDEndokrinologiya1.00019,3 sanilkin
BT-015-SAĞLAMTələ1.00018,7 sanehtiyat (fallback)

PCOS halı (BT-008) cavab strukturunda bir məcburi alt bölməni itirdi — on altıdan on beş — bu da struktur balını 1,000-dən 0,963-ə endirdi. SLE halı (BT-011) klinik balı 0,965-ə salan, lakin hər bir diaqnostik açar sözünü və qiymətləndirmə sistemini qoruyan, marjinal dərəcədə azalmış ehtimal-paylanması cəmini qaytardı. Hər iki sub-ideal hal düzgün diaqnozu qaçırmadı.

Başlıq göstəricisi bizə nə demir

Bu xüsusi əvvəlcədən qeydiyyatdan keçmiş rubrikaya əsasən 99,12 faiz kompozit bal, demək olar ki, tavan səviyyəsinə yaxın performansı ifadə edir, amma bunu diqqətlə çərçivələmək lazımdır. Nəticə, mühərrikin davranışını eyni rubrikaya qarşı, hər biri bir dəfə qiymətləndirilmiş, diqqətlə seçilmiş on beş anonim hal üzrə təsvir edir. Rəqəmin nəyi və nəyi təsdiqləmədiyini açıq şəkildə bildiririk.

Bal onu göstərir ki, V11 mühərriki bu qiymətləndirmə üçün seçilmiş diaqnostik nümunələri dəqiq şəkildə idarə edib; metodologiya dərc olunub və təkrarlana biləndir. Bu, mühərrikin təbiətdə mövcud olan hər bir qan analizi panelində düzgün olduğunu demir. Bu, mühərrikin klinisist mülahizəsini əvəz etməli olduğunu demir. Və bu, mühərrikin alternativ AI sistemlərindən daha yaxşı olduğunu demir — digər mühərriklərlə müqayisəli analizlər bu hesabatın əhatə dairəsinə qəsdən daxil edilməyib.

Balın təsdiqlədiyi şey başlanğıc göstəricidir. Rubrika və “harness” ictimai olduqdan sonra mühərrikin gələcək versiyaları eyni on beş hal üzrə qiymətləndirilə bilər və dərc olunmuş bal ilə sonrakı hər hansı icra arasındakı fərq özü də ölçülə bilər. Əvvəlcədən qeydiyyatın dəyəri budur: performans iddialarını yoxlanıla bilən iddialara çevirir.

Bu benchmark-ı 10 dəqiqəyə necə təkrarlamaq olar

Təkrar istehsal üçün yalnız Kantesti API etimadnamə cütü və Python 3.10 və ya daha sonrakı mühit lazımdır, requestsreportlab kitabxanaları quraşdırılmış olmalıdır. Tam “harness” MIT lisenziyası altında buraxılmış, tək, özündə tam olan Python moduludur.

Figshare, ResearchGate, Academia.edu və GitHub üzərində benchmark-ın güzgü kimi təkrarlanmasını göstərən təkrarolunma şəbəkə diaqramı; Figshare DOI isə kanonik lövbər kimi göstərilib
Şəkil 5: Benchmark dörd tədqiqat platformasında əks olunub. Figshare DOI kanonik elmi identifikatordur; ResearchGate, Academia.edu və GitHub isə kod və xam məlumatlarla paralel nüsxələrə ev sahibliyi edir.

Təzə icra üçün dörd addım

Birinci. Repozitoriyanı klonlayın: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. İkinci. Asılılıqları quraşdırın pip install -r requirements.txt. Üç. Təyin edin KANTESTI_USERNAMEKANTESTI_PASSWORD mühit dəyişənləri kimi — etimadnamələr icra zamanı oxunur və skriptin içində heç nə kodlaşdırılmır. Dörd. İcra edin python benchmark_bloodtest.py və işçi qovluğuna çıxarılan dörd artefaktı yoxlayın: CSV skor kartı, JSON skor kartı, mühərrikin ilkin cavablarını da daxil edən tam JSON dump və insan tərəfindən oxunaqlı Markdown hesabatı.

23 aprel 2026 tarixli istinad icrası repozitoriyanın results/ qovluğunda saxlanılıb. Yeni icra yeni tarix-saatlı skor kartı yaradacaq, istinad icrası isə toxunulmadan qalacaq. Əgər icraınız mənalı dərəcədə fərqli nəticə verirsə, zəhmət olmasa GitHub issue açın və icra timestampini və cavabın metadata-sında qaytarılan mühərrik versiyasını göstərin. directory of the repository. A fresh run will produce a new timestamped scorecard while leaving the reference run untouched. If your run produces a meaningfully different result, please open a GitHub issue with the run timestamp and the engine version returned in the response metadata.

Məhdudiyyətlər və gələcək işlər

Dörd məhdudiyyətin açıq şəkildə qeyd edilməsi vacibdir: nümunə ölçüsü, tək dəfəlik qiymətləndirmə, tək mühərrik əhatəsi və tək mənbədən məlumat mənşəyi. Bunların hər biri aktiv davam işlərində həll olunur.

Nümunə ölçüsü. İxtisas üzrə səkkiz kateqoriyaya bölünmüş on beş hal konsept sübutu üçün kifayətdir, lakin ixtisas daxilində alt qrupların analizi üçün deyil. Əlli hala genişləndirmə planlaşdırılır və laxtalanma panelləri, hematoloji malign xəstəliklərin skrininqi, hamiləlik panelləri və pediatrik təqdimatlar daxil ediləcək.

Tək dəfəlik qiymətləndirmə. Hər bir hal yalnız bir dəfə qiymətləndirilib. Böyük dil modelləri aşağı nümunə götürmə temperaturunda belə əhəmiyyətli çıxış variasiyası nümayiş etdirir, buna görə də hər hal üçün beş qiymətləndirmə və bildirilən variasiya ilə çoxicralı protokol növbəti məntiqi addımdır.

Tək mühərrik əhatəsi. Bu hesabat bir mühərriki xarakterizə edir. Burada alternativ AI sistemləri ilə müqayisəli analizlər nəzərdə tutulmur; uyğun metodologiya ilə onları ayrıca müstəqil tədqiqat kimi həyata keçirə bilərik.

Tək mənbədən məlumat mənşəyi. On beş hal tək klinik repozitoriyadan götürülmüş anonimləşdirilmiş real xəstə qeydləridir. Bunlar seçilmiş nümunədir və populyasiyanı təmsil edən təsadüfi seçmə deyil. Qiymətləndirmənin çoxmərkəzli məlumatlara genişləndirilməsi yol xəritəsindədir.

Ən təsirli planlaşdırılmış genişləndirmə çoxdilli uyğunluqdur. Kantesti AI Engine 75+ dildə istifadəçilərə xidmət edir və eyni on beş haldan ibarət sınaq qurğusunu türk, alman, ispan, fransız və ərəb dillərində işə salmaq mühərrikin dəstəklədiyi dillər üzrə çıxış keyfiyyətini ölçəcək. Hər bir dildəki ayrıca icranı öz DOI-si və sınaq qurğusu branch-ı ilə birlikdə dərc edəcəyik.