Bu benchmark niyə mövcuddur və nəyi yoxlayır
AI ilə qan analizi nəticələrinin şərhi istehlakçı və klinik iş axınlarında getdikcə daha çox istifadə olunur, lakin laboratoriya təbabətinə uyğun, təkrarlana bilən qiymətləndirmə çərçivələri hələ də nadirdir. Bu kontekstdə ən vacib suallar ümumi tibbi sual-cavab benchmark-larında əhatə olunanlar deyil: orta korpuskulyar həcm eyni olduqda mühərrik dəmir çatışmazlığını talassemiya xüsusiyyətindən ayıra bilərmi, Gilbert sindromunu hepatit kimi həddən artıq diaqnoz qoyurmu və tamamilə normal skrininq panelində patoloji “yaradırmı”?
Tək bir qan analizi paneli adətən bir neçə rəqabətli şərhə əsas verəcək qədər siqnal ehtiva edir və şərh edən klinisistin işi həmin şərhləri bir-biri ilə müqayisə edib çəkməkdir; dərslik cavabını çıxarmaq deyil. Dərslik tipli hallarda yaxşı nəticə göstərən bir “mühərrik” ən çox önəm daşıyan hallarda yenə də uğursuz ola bilər: diferensial-diaqnoz tələləri, təkbaşına baxıldıqda həyəcanverici görünən zərərsiz variantlar və kökündən normal panellər ki, bunlar da inamlı köməkçiləri patoloji “istehsal etməyə” sövq edir.
Bu benchmark məhz bu uğursuzluq ssenariləri əsasında qurulmuşdur. On beş halın hər biri konkret diaqnostik xüsusiyyətə görə seçilmişdir: identik orta korpuskulyar həcmə malik beta-talassemiya xüsusiyyəti ilə fərqləndirilməli olan dəmir çatışmazlığına bağlı mikrositoz; yeganə anomaliyanın təcrid olunmuş qeyri-düz birbaşa hiperbilirubinemiya olduğu Gilbert sindromu təqdimatı; və hər bir analitin öz referens diapazonu daxilində oturduğu on beş parametrli skrininq paneli. Rubrika, hər bir halı öz şərtləri daxilində oxuyan mühərrikləri mükafatlandırır və belə bir diaqnozun əsaslandırılmadığı yerdə inamlı diaqnoza “tələsən” mühərrikləri cəzalandırır.
MD Tomas Klein kimi, bu hal panelini seçdim, çünki laboratoriya-tibb üzrə köməkçilərin ən çox səhv etdiyi nümunələr bunlardır. Bahalı uğursuzluq rejimi "nadir bir xəstəliyi qaçırmaq" deyil — onu olmayan xəstələrdə rutin patoloji uydurmaqdır. Bizim Tibbi Validasiya hub daha geniş çərçivəni təsvir edir; bu səhifə V11 ilkin proof-of-concept-i və onu 127 ölkə etiketini əhatə edən sintetik hadisə dəstindən götürülmüş 100,000 sintetik hadisəyə qədər genişləndirən V11 İkinci Yeniləməni təsvir edir — eyni qiymətləndirmə rubrikası ilə, byte-dəqiq, post-hoc (sonradan) tənzimləmə icazə verilmədən.
Ən son istinad icrası — V11 İkinci Yeniləmə (26 aprel 2026)
26 aprel 2026-cı il tarixli V11 İkinci Yeniləmə istinad icrası 99.80% V11 ilkin buraxılışda istifadə olunan əvvəlcədən qeydiyyatdan keçmiş rubrikaya əsasən, qiymətləndirilib 100,000 sintetik hadisə Kantesti sintetik hadisə dəstindən götürülmüş və 127 ölkə etiketi və 75+ dillərini əhatə edən. Hər bir iş mühərrikin əsas yolunda tamamlandı; trap-iş hiperdiaqnoz bayraq aktivləşmələri 0 / 87,412. səviyyəsində qaldı. 23 aprel 2026-cı il tarixli orijinal V11 icrası 15 əl ilə seçilmiş işdən (kompozit 99.12%) ibarət idi və rubrikanı təsdiqlədi; İkinci Yeniləmə həmin rubkanı bayt-bayt eyni saxlayır və qiymətləndirməni populyasiya miqyaslı kohorta genişləndirir.
Kompozit düsturu üç komponenti birləşdirir: struktur uyğunluğu yeddi məcburi hesabat bölməsi və on altı məcburi altbölmə ilə, məzmunun dəqiqliyi açar sözün geri çağırılması + bal sisteminin geri çağırılması + ehtimal paylanması etibarlılığı yoxlaması kimi ölçülür və cavab gecikməsi əsas yol üzrə xidmət səviyyəsi hədəfinə qarşı. Dəqiq parçalanma aşağıdakı rubrika formulunda göstərilib — bu çəkilər və ya alt-rubrikaların heç biri İkinci Yeniləmə üçün dəyişdirilməyib.
Qalan 0.20 faiz bəndi demək olar ki, tamamilə klinik alt-bala düşür — az sayda iş (əsasən Hepatologiya və Revmatologiyada) diaqnostik məzmun düzgün olmasına baxmayaraq, mühərrikin şərhində gözlənilən qiymətləndirmə-sistemi açar sözlərindən biri yox idi. 100.000 işlik İkinci Yeniləmə kohortunda heç bir iş diaqnozu özü qaçırmadı. Gecikmə V11 ilkin buraxılışda orta hesabla 20.17 s-dən İkinci Yeniləmədə 13.26 s-ə düşdü; bu, iki icra arasında istehsal mühərriki optimizasiyalarını əks etdirir. Rubrika, qiymətləndirmə kodu və API endpoint dəyişməyib.
Etiket üzrə kompozit göstəricilər 30 ən çox təmsil olunan ölkə etiketində 0.9971-dən 0.9985-ə qədər dəyişib. Əlavə 97 etiketdən ibarət uzun quyruq (cəmi ≈7.300 hal) heç bir sistematik pisləşmə göstərməyib. Hal sayına görə ən tez-tez rast gəlinən etiketlər: Amerika Birləşmiş Ştatları (10.500), Braziliya (9.500), İspaniya (9.000), İtaliya (8.000), Almaniya (7.800), Fransa (7.400), Portuqaliya (5.800), Türkiye (3.400), Birləşmiş Krallıq (2.900) və Meksika (2.500). Etiket üzrə kompozit göstəricilər 0.9971-dən 0.9985-ə qədər dəyişib.
15 hadisədən 100,000-ə: 127 ölkə etiketi üzrə kohortun təkamülü
İlkin V11 hadisə paneli yeddi ixtisası — hematologiya, endokrinologiya, metabolik tibb, hepatologiya, nefrologiya, kardiologiya, revmatologiya — üstəgəl iki xüsusi hiperdiaqnoz tələsi hadisəni əhatə edirdi; hər bir hadisə sintetik yaradılmış qan analizi paneli idi. V11 İkinci Yeniləmə qiymətləndirməni 127 ölkə etiketini əhatə edən 100,000 sintetik hadisəyə qədər genişləndirir, — səkkiz ixtisas üzrə bölünmüş (orijinal yeddi + trap alt-kəsimini udan xüsusi daxili tibb qutusu). Eyni qiymətləndirmə rubrikası hər iki icrada bayt-bayt eyni tətbiq olunur.
Bütün hadisələr sintetik olaraq yaradıldığı üçün çıxarılacaq real identifikator yoxdur və şəxsi məlumat cəlb edilmir. Hər bir sintetik hadisə benchmark-daxili hadisə kodu daşıyır (V11 ilkin dəstində BT-NNN-LABEL, İkinci Yeniləmədə sabit case_uid ). Dərc olunmuş mühitdə (harness), texniki hesabatda və ya buraxılmış verilənlər dəstlərində heç yerdə şəxsi məlumat görünmür.
V11 initial release — 15 hand-curated cases
Orijinal V11 hal paneli Dr. Thomas Klein tərəfindən laboratoriya-tibb köməkçilərinin ən çox səhv etdiyi diaqnostik nümunələri yoxlamaq üçün əl ilə seçilmişdir. On beş halın hər biri aşağıda göstərilən konkret diaqnostik xüsusiyyətə görə seçilmişdir.
Niyə məhz bu paylanma
Hematologiya real laboratoriya praktikasında ən yüksək həcmli “tələ”lər olan mikrositar diferensiallar və makrositar diferensiallar səbəbilə üç hal alır. Endokrinologiya isə Hashimoto, PCOS və D vitamini çatışmazlığı təqdimatlarının fərqli diaqnostik “formaları” (autoantikorla idarə olunan, hormon nisbəti ilə idarə olunan, tək markerlə idarə olunan) fərqli olduğuna görə üç hal alır. Tək-hal ixtisaslar yenə də mənalıdır, çünki CKD, ASCVD riski və SLE-nin hər birinin mühərrikin çağırmalı olduğu öz qiymətləndirmə sistemi var (müvafiq olaraq KDIGO mərhələlənməsi, ASCVD 10 illik riski, 2019 EULAR/ACR SLE meyarları).
V11 İkinci Yeniləmə — 127 ölkə etiketini əhatə edən 100,000 sintetik hadisə
İkinci Yeniləmə ilkin V11-dəki 15 hadisəli hard-coded Python literalını daha böyük, proqramatik yaradılmış sintetik hadisə dəsti ilə əvəz edir. Hadisə dəsti hər bir işin (run) əvvəlində yüklənir və şəffaflıq üçün konfiqurasiya qeydə alınır. Kohortun məzmun sahələri üzrə paylanması aşağıda göstərilir.
Sintetik ölkə-etiket paylanması — ilk 10 etiket
100.000 sintetik hal 127 ölkə etiketi daşıyır (ISO 3166-1 alpha-2) — lokallaşdırma idarəetməsini yoxlamaq üçün. Etiket təyini: Avropa 57.7%, Amerika qitələri 25.4%, Asiya-Sakit okean 6.2%, adlandırılmış Yaxın Şərq/Afrika etiketləri 3.4% və əlavə 97 etiketdən ibarət uzun quyruq birlikdə təxminən 7.3%. Hal sayına görə ən çox rast gəlinən on etiket: Amerika Birləşmiş Ştatları (10.500), Braziliya (9.500), İspaniya (9.000), İtaliya (8.000), Almaniya (7.800), Fransa (7.400), Portuqaliya (5.800), Türkiye (3.400), Birləşmiş Krallıq (2.900) və Meksika (2.500). Etiket üzrə kompozit göstəricilər 0.9971-dən 0.9985-ə qədər dəyişib. Bu etiket sayları lokallaşdırma idarəetməsini yoxlamaq üçün istifadə edilən generasiya olunmuş halların xüsusiyyətləridir — real istifadəçilər deyil və real dünyada coğrafi əhatəni əks etdirmir.
Əvvəlcədən qeydiyyatdan keçmiş rubrik — izahı
Qeydiyyatdan əvvəlcədən (pre-registration) bu benchmarkda ən vacib metodoloji seçimdir. Gözlənilən hər bir diaqnoz, hər bir klinik qiymətləndirmə sistemi və hər bir hesabat bölməsi mənbə koduna həvalə edilib mühərrik çağırılmadan əvvəl. Buna görə də mühərriki “yaltaqlaşdırmaq” üçün rubrikaya post-hoc (sonradan) tənzimləmə etmək mümkün deyil.
Kompozit balı təşkil edən üç komponent var. struktur komponenti 35 faiz töhfə verir və mühərrikin yeddi məcburi hesabat bölməsini (başlıq, xülasə, əsas tapıntılar, diferensial, qiymətləndirmə sistemləri, tövsiyələr, izləmə) və onların daxilindəki on altı məcburi alt bölməni qaytarıb-qaytarmadığını ölçür. Bölmənin mövcudluğu struktur hesablamada 40 faiz, alt bölmənin mövcudluğu isə 60 faiz çəkidədir.
The klinik komponent 55 faiz töhfə verir və üç şeyi birləşdirir: diaqnoz-açar söz yaddaşı (klinik alt-balonun 70 faizi), qiymətləndirmə sistemi yaddaşı (20 faiz — mühərrik uyğun olduqda Mentzer, FIB-4, HOMA-IR, ASCVD riski, KDIGO mərhələlənməsi, EULAR/ACR meyarlarını hesablayırmı), və ehtimal cəmi etibarlılıq yoxlaması (10 faiz — diferensial ehtimalların cəmi [90, 110] intervalında olmalıdır). Tələ hallarında, uydurulmuş patoloji bayrağına görə 0.10 olmaqla hesablanan və maksimum üç bayraqla məhdudlaşdırılan, 0.30-a qədər açıq “hiperdiaqnoz” cəriməsi çıxılır.
The gecikmə (latency) komponenti 10 faiz töhfə verir. 20 saniyədən az cavab tam 0.10, 40 saniyədən az cavab 0.05, daha yavaş hər şey isə 0 bal alır. 20 saniyəlik hədəf istehsalın primary-path xidmət səviyyəsi məqsədini əks etdirir; 40 saniyəlik tavan isə ağır mühərrik çağırışları üçün Phase 2 ehtiyat büdcəsini əks etdirir.
Pre-registration nəyi önləyir
Birinci tərəf (first-party) benchmarklar post-hoc rubrika tənzimləməsi ilə öz rəqəmlərini şişirtməkdə məşhurdur. Nümunə demək olar ki, həmişə eynidir: komanda mühərriki işə salır, harada zəif olduğunu görür, sonra zəif çıxan sahələrin daha az sayılması üçün rubrikanı səssizcə düzəldir. Rubrikanı ilk mühərrik çağırışından əvvəl mənbə koduna həvalə edib harness-i MIT lisenziyası ilə dərc etməklə bu tənzimləmə versiya nəzarətində görünür. Hər kəs repozitoriyanı klonlayıb rubrika müəllif tarixlərini yoxlaya və mühərrik nəticələrinin qiymətləndirməni formalaşdırmaq üçün istifadə edilmədiyini təsdiqləyə bilər.
Hiper-diaqnoz tələsi halları — həddən artıq çağırışın (over-calling) real uğursuzluq mexanizmi olması
Normal ekranlarda patoloji barədə aqressiv “həddən artıq çağırış” istehlakçıya yönəlmiş tibbi köməkçilərdə sənədləşdirilmiş uğursuzluq rejimidir. Onun sonrakı xərclərinə lazımsız araşdırma, xəstə narahatlığı və iatrogen müayinə daxildir. Bu benchmarkdakı iki tələ halı bu uğursuzluq rejimini görünən və qiymətləndirilə bilən etmək üçün dizayn edilib.
🟡 Tələ 1 — BT-014-GILBERT
Təqdimat. Ümumi bilirubini 2.4 mg/dL olan 24 yaşlı kişi. Düz fraksiya normaldır, transaminazlar və qələvi fosfataza öz istinad diapazonlarının daxilindədir, retikulositlər diqqətəlayiq deyil və haptoglobin ilə LDH hemolizi istisna edir.
Düzgün şərh. Gilbert sindromu — xeyirxassəli UGT1A1 polimorfizmi. Şərh hepatit, sirroz, hemolitik anemiya və ya biliyar obstruksiyanı çağırmamalıdır.
V11 nəticəsi. Kompozit 1.000. Altı izlənən həddən artıq diaqnoz bayrağından heç biri aktiv diaqnoz kimi görünmədi.
🟡 Tələ 2 — BT-015-HEALTHY
Təqdimat. On beş parametrli rutin skrininq paneli olan 35 yaşlı qadın. Hər bir analit öz istinad diapazonunun daxilində rahat şəkildə yerləşir.
Düzgün şərh. Təsəlliverici yanaşma və həyat tərzinin qorunması. Şərh klinik baxımdan faydalı görünmək üçün sərhəddə patoloji uydurmamalıdır.
V11 nəticəsi. Kompozit 1.000. Yeddi izlənən həddən artıq diaqnoz (over-diagnosis) siqnalından heç biri — diabet, anemiya, hipotiroidizm, dislipidemiya, hepatit, böyrək xəstəliyi, çatışmazlıq — aktiv diaqnoz kimi görünmədi.
Hər iki sınaq (trap) üzrə on üç izlənən hiperdiaqnoz siqnalı yoxlanıldı. Heç biri işə düşmədi. Bu, AI mühərrikindən triage və ya konsultasiyadan əvvəl alət kimi istifadə etməyi düşünən hər bir klinisist üçün ən çox önəm daşıyan nəticədir: sistem mövcud olmayan yerdə xəstəlik uydurmadı.
Mentzer indeksi: dəmir çatışmazlığını talassemiya daşıyıcılığından ayırmaq
İkinci yüksək dəyərli tapıntı BT-001 (dəmir çatışmazlığı anemiyası) işi ilə BT-007 (beta-talassemiya minor) işinin cütləşdirilməsidir. Hər ikisi mikrositozla müşayiət olunur və sadəlövh klassifikatorlar üçün yaxşı tanınan çətinlikdir. MCV-ni RBC sayına bölməklə hesablanan Mentzer indeksi dəmir çatışmazlığında 13-dən yüksək, talassemiya xüsusiyyətində isə 13-dən aşağı olur.
BT-001-də pasiyent 34 yaşlı qadın idi: hemoglobin 10.4 q/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL və TIBC yüksəlmişdi. Təxminən 17.7 olan Mentzer indeksi mütləq dəmir çatışmazlığını dəstəkləyir. BT-007-də pasiyent 28 yaşlı kişi idi: mikrositoz (MCV 65.8 fL), lakin 6.2 kimi yüksək RBC sayı, normal RDW, normal ferritin və HbA2 5.6 faiz. Təxminən 10.6 olan Mentzer indeksi talassemiya xüsusiyyətini göstərir və yüksəlmiş HbA2 beta-talassemiya minoru təsdiqləyir.
Hər iki hal 1.000 bal topladı. Mühərrik hər iki şərhdə Mentzer indeksini açıq şəkildə işə saldı və hər dəfə düzgün diaqnozu qaytardı. Bu, bütün benchmarkda klinik baxımdan ən çox təsəlliverici tək nəticədir, çünki talassemiya xüsusiyyətini dəmir çatışmazlığı kimi səhv təsnif etmək qeyri-münasib dəmir əlavəsinə və ailə skrininq imkanlarının qaçırılmasına gətirib çıxarır, dəmir çatışmazlığını isə talassemiya kimi səhv təsnif etmək isə sadə əvəzedici terapiyanın gecikməsinə səbəb olur. Bizim ferritin diapazonu bələdçimiz daha geniş diferensial konteksti izah edir.
V11 ilkin istinad run-dan (23 aprel 2026) hal üzrə nəticələr
15-case proof-of-concept kohortunda orijinal V11 istinad run-u metodoloji əsasdır İkinci Yeniləmə üçün: aşağıdakı hər bir hal üzrə detal rubrikanın real mühərrik cavabını necə idarə etdiyini göstərir. On beş haldan on ikisi əsas yolda 1.000 tavan kompozit göstəricisinə çatdı; üç hal Phase 2 fallback vasitəsilə təqdim edildi və klinik və struktur məzmunun hamısı qorunmaqla 0.05 latency bonusu itirildi. Bir halda tək bir məcburi alt bölmə çatışmırdı; biri isə marjinal olaraq azalmış ehtimal paylanması cəmini qaytardı.
PCOS halı (BT-008) cavab strukturunda bir məcburi alt bölməni itirdi — on altıdan on beş — bu da struktur balını 1,000-dən 0,963-ə endirdi. SLE halı (BT-011) klinik balı 0,965-ə salan, lakin hər bir diaqnostik açar sözünü və qiymətləndirmə sistemini qoruyan, marjinal dərəcədə azalmış ehtimal-paylanması cəmini qaytardı. Hər iki sub-ideal hal düzgün diaqnozu qaçırmadı.
V11 İkinci Yeniləmə üzrə aqreqat — 100,000 hal
Populyasiya miqyasında fərdi hal sətirləri insan tərəfindən oxunaqlı deyil, buna görə İkinci Yeniləmə 100.000 sətirlik cədvəl əvəzinə toplanmış göstəricilər barədə hesabat verir. Əsas yekun aşağıda göstərilib; ixtisas üzrə və ölkə-etiketi üzrə bölgülər texniki hesabatda və Figshare depozitində dərc olunur. Stratifikasiya olunmuş təsadüfi nümunə n = 201 xam mühərrik cavabları (deterministik seed 20260426) yoxlanış üçün GitHub repozitoriyanın results/ qovluğunda saxlanılıb. Yeni icra yeni tarix-saatlı skor kartı yaradacaq, istinad icrası isə toxunulmadan qalacaq. Əgər icraınız mənalı dərəcədə fərqli nəticə verirsə, zəhmət olmasa GitHub issue açın və icra timestampini və cavabın metadata-sında qaytarılan mühərrik versiyasını göstərin. qovluğunda dərc edilib.
Başlıq göstəricisi bizə nə demir
Bu konkret əvvəlcədən qeydiyyatdan keçmiş rubrika üzrə 99.80 faiz kompozit qiymət — 127 ölkə etiketini əhatə edən 100,000 hadisəlik sintetik kohortda — demək olar ki, “tavan” səviyyəsində performans deməkdir; lakin bunu diqqətlə çərçivələmək lazımdır. Nəticə mühərrikin V11-də mənbə koduna sadiq qaldığımız rubrikaya qarşı davranışını təsvir edir; bu, vəhşi təbiətdə mövcud olan hər bir qan analizi paneli üzrə mühərrikin düzgünlüyünə dair universal iddia deyil.
Göstərici deyir ki, mühərrik bu qiymətləndirmə üçün seçilmiş diaqnostik nümunələri populyasiya miqyasında kohortda düzgün idarə edib, dərc olunmuş və təkrarlana bilən metodologiya əsasında. Bu, mühərrikin vəhşi təbiətdə mövcud olan hər bir qan analizi panelində düzgün olduğunu demir. Bu, mühərrikin klinik qərarı əvəz etməli olduğunu demir. Və bu, mühərrikin alternativ AI sistemlərindən üstün olduğunu da demir — digər mühərriklərlə müqayisəli analizlər bu hesabatın əhatə dairəsinə qəsdən daxil edilməyib.
Göstəricinin ortaya qoyduğu şey bir baza xəttidir. Rubrika və test mühiti (harness) ictimai olduqca, mühərrikin gələcək versiyaları eyni rubrikaya qarşı qiymətləndirilə bilər — V11 ilkin 15 halda, İkinci Yeniləmədə 100,000 hadisəlik kohortda və ya sonrakı genişlənmələrdə — və dərc olunmuş göstərici ilə sonrakı hər hansı bir run arasındakı fərq özü də ölçülə bilər. Əvvəlcədən qeydiyyatın dəyəri budur: performans iddialarını yoxlanıla bilən iddialara çevirir.
Bu benchmark-ı 10 dəqiqəyə necə təkrarlamaq olar
Təkrar istehsal üçün yalnız Kantesti API etimadnamə cütü və Python 3.10 və ya daha sonrakı mühit lazımdır, requests və reportlab kitabxanaları quraşdırılmış olmalıdır. Tam “harness” MIT lisenziyası altında buraxılmış, tək, özündə tam olan Python moduludur.
Təzə icra üçün dörd addım
Birinci. Repozitoriyanı klonlayın: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. İkinci. Asılılıqları quraşdırın pip install -r requirements.txt (İkinci Yeniləmə əlavə edir mysql-connector-python ≥ 8.0 SQL case loader üçün). Üç. Təyin edin KANTESTI_USERNAME və KANTESTI_PASSWORD mühərrik API-si üçün mühit dəyişənləri kimi. İkinci Yeniləmənin SQL case loader-i üçün həmçinin təyin edin KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, və KANTESTI_DB_PASSWORD — yükləyici (read-only) rol vasitəsilə qoşulur (bench_reader) identifikasiya edən cədvəllər üzrə heç bir imtiyaza malik deyil. Dörd. İcra edin python benchmark_bloodtest.py --limit 100000 tam Second-Update icrası üçün, və ya python benchmark_bloodtest.py --limit 1000 sürətli iterasiya üçün. Nəticələr buraya düşür: ./benchmark_results/: ölkə-etiketi və ixtisas sütunları olan CSV scorecard, JSON toplanması, stratifikasiya olunmuş-təsadüfi xam cavab nümunəsi və Markdown hesabatı.
23 aprel 2026-cı il tarixli (V11 ilkin, 15 hal) və 26 aprel 2026-cı il tarixli (V11 Second Update, 100,000 hal) istinad icraları repozitoriyanın repozitoriyanın results/ qovluğunda saxlanılıb. Yeni icra yeni tarix-saatlı skor kartı yaradacaq, istinad icrası isə toxunulmadan qalacaq. Əgər icraınız mənalı dərəcədə fərqli nəticə verirsə, zəhmət olmasa GitHub issue açın və icra timestampini və cavabın metadata-sında qaytarılan mühərrik versiyasını göstərin. qovluğunda saxlanılır. Yeni icra yeni tarixçələnmiş scorecard yaradacaq, istinad icralarına isə toxunulmayacaq. Əgər icranız mənalı dərəcədə fərqli nəticə verirsə, zəhmət olmasa GitHub issue açın və cavabın metadata hissəsində göstərilən icra timestampini və qaytarılan engine versiyasını qeyd edin.
Məhdudiyyətlər və gələcək işlər
127 ölkə etiketi üzrə 100.000 hal olsa belə, dörd məhdudiyyətin açıq şəkildə qeyd edilməsi lazımdır: uzun quyruq etiketlərinin az təmsil olunması, tək mərhələli qiymətləndirmə, tək mühərrik əhatəsi və tək mənbədən məlumat mənşəyi. Bunların hər biri aktiv davam işlərində həll olunur.
Uzun quyruq etiketlərinin əhatəsi. İkinci Yeniləmə 127 ölkə etiketini əhatə edir, lakin paylanma balanslı deyil — ilk 10 etiket halın ≈66.4%-ni təşkil edir və əlavə 97 etiketdən ibarət uzun quyruq birlikdə ≈7.3% töhfə verir (cəmi təxminən 7.300 hal, orta hesabla etiket başına ~75 hal). Buna görə də bu uzun quyruqda etiket üzrə kompozitlər başlıq rəqəmlərinin göstərdiyindən daha çox səs-küylüdür. Gələcək icralar etiket təyinatını yenidən balanslaşdıracaq ki, etiket üzrə qiymətləndirmələr möhkəmlənsin.
Tək dəfəlik qiymətləndirmə. Kollektivdəki hər bir hal yalnız bir dəfə qiymətləndirilib. Böyük dil modelləri aşağı sampling temperaturunda belə əhəmiyyətli çıxış variasiyası nümayiş etdirir; buna görə də hər hal üçün beş qiymətləndirmə və bildirilmiş variasiya ilə çox-icralı protokol təbii növbəti addımdır — xüsusən də trap-case alt dəstində, burada sampling jitter altında ardıcıllıq təhlükəsizlik iddiasının bir hissəsidir.
Tək mühərrik əhatəsi. Bu hesabat bir engine-i xarakterizə edir. Alternativ AI sistemləri ilə müqayisəli analizlər burada əhatə dairəsinə daxil deyil; eyni MIT-lisenziyalı harness qarşısında uyğun metodologiya ilə onları ayrıca müstəqil tədqiqat kimi həyata keçirməyi düşünə bilərik.
Sintetik məlumat. 100,000 hadisə sintetik olaraq yaradılıb, sintetik “hadisələr” deyil və nəticələr real dünyadakı klinik performansa ötürülmür. Real, razılıqlı və xaricdən əldə edilmiş verilənlər üzərində qiymətləndirmə müvafiq etik nəzarət tələb edər və bu sintetik benchmarkın əhatə dairəsinə daxil deyil.
Bu dördündən əlavə, planlaşdırılan ən təsirli genişlənmə yurisdiksiya üzrə çoxdilli bərabərliyin təmin edilməsidir. Kantesti AI Engine 75+ dildə istifadəçilərə xidmət edir və dilə görə təbəqələndirilmiş Second-Update alt-kohortlarının (Türk, Alman, İspan, Fransız, İtalyan, Portuqal, Ərəb, Mandarin) işə salınması engine-in dəstəklədiyi dillər üzrə çıxış keyfiyyətini ölçəcək. Hər bir dilə görə təbəqələndirilmiş analiz öz DOI-si və harness branch-i ilə birlikdə dərc olunacaq.