Kantesti AI qan analizi üzrə benchmark

Avtomatlaşdırılmış Benchmark Əvvəlcədən qeydiyyatdan keçmiş benchmark V11 İkinci Yeniləmə — Aprel 2026 MIT lisenziyası ilə Təkrarlana bilən · Açıq Məlumat 100K Sintetik Kohort · 127 Ölkə Etiketləri

Əvvəlcədən qeydiyyatdan keçmiş rubrik üzrə 99.80% Kompozit Qiymət — V11 İkinci Yeniləmə, 127 ölkə etiketi üzrə 100,000 işlik kohort

Kantesti mühərrikinin 127 ölkə etiketi ilə işarələnmiş 100.000 sintetik qan analizi testi halında üzərində, rubrikaya əsaslanan əvvəlcədən qeydiyyatdan keçmiş avtomatlaşdırılmış texniki benchmark. O, diaqnostik dəqiqliyi deyil, çıxış uyğunluğunu ölçür. Rubrika V11 ilkin buraxılışından əvvəl mənbə kodunda dondurulmuş və bu İkinci Yeniləmə üçün byte-bə-bə eyni saxlanılmışdır; qiymətləndirmə harness-ı MIT lisenziyası ilədir; yoxlanış üçün mühərrikin xam cavablarından stratifikasiya olunmuş təsadüfi nümunə dərc olunur. Bütün hallar sintetikdir; heç bir şəxsi məlumat istifadə edilmir.

📖 ~14 dəqiqə 📅 23 Aprel 2026 tarixində dərc edilib · 26 Aprel 2026 tarixində yenilənib (V11 İkinci Yeniləmə) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Dərc edilib: 23 aprel, 2026 🔄 V11 İkinci Yeniləmə: 26 aprel 2026 🩺 Tibbi baxış: 26 aprel 2026 ✅ Qeydiyyatdan keçmiş rubrik (Byte-dəqiq) 🔓 Açıq kod və məlumat

Bu avtomatlaşdırılmış benchmarkı tərtib edən və işə salan Julian Emirhan Bulut, Kantesti Ltd şirkətinin Baş Süni İntellekt Mühəndisi və CEO-su. Qiymətləndirmə tamamilə mənbə kodunda avtomatlaşdırılıb; qiymətləndirmə meyarı və sınaq paneli Doktor Tomas Klein, MD, Kantesti AI şirkətinin Baş Tibbi Direktoru tərəfindən klinik töhfə ilə hazırlanıb və Kantesti AI Tibbi Məsləhət Şurası. Bu, müstəqil və ya həmyaşıd rəyinə (peer-reviewed) əsaslanan avtomatlaşdırılmış texniki sınaq deyil, öz-özünə işləyən daxili benchmarkdır.

Aparıcı müəllif və klinik nəzarət tərəfindən nəzərdən keçirilib

Tomas Klein, MD

Baş Tibbi Məmur, Kantesti AI

Dr. Thomas Klein 15 ildən artıq laboratoriya təbabəti təcrübəsinə malik, sertifikatlı klinik hematoloq və internistdir. Kantesti AI-da Baş Tibb Məmuru kimi o, bu benchmark üçün hadisə panelini seçdi, sintetik hadisələrin klinik məzmununu və gözlənilən cavablarını nəzərdən keçirdi və ilk mühərrik çağırışından əvvəl əvvəlcədən qeydiyyatdan keçmiş rubrikanı təsdiqlədi.

ORCID 0009-0009-1490-1321 Tədqiqat Qapısı Google Scholar

Həmmüəllif və implementasiya

Julian Emirhan Bulut

Baş Süni İntellekt Mühəndisi və CEO, Kantesti Ltd

Julian Emirhan Bulut Kantesti Ltd şirkətinin təsisçisi və CEO-sudur. O, qiymətləndirmə mühitini — V11 İkinci Yeniləmə üçün əlavə edilmiş SQL case loader daxil olmaqla — hazırlayıb həyata keçirib, API inteqrasiyasını həyata keçirib, həm V11 ilkin referens run-u, həm də V11 İkinci Yeniləmə üzrə 100.000 işlik run-u icra edib və statistik aqreqasiyanı hazırlayıb. Platformanın təsisçisi (2019-dan).

GitHub Kantesti haqqında

⚡ Qısa Xülasə V11 İkinci Yeniləmə — 26 aprel 2026

99.80% kompozit qiymət 127 ölkə etiketi ilə səkkiz tibb ixtisası üzrə 100.000 sintetik qan analizi testi halında (V11 İkinci Yeniləmə).
Hiper-diaqnoz üzrə sıfır yalan-müsbət nəticə 87.412 izlənilən “trap-case” bayraq imkanları üzrə — V11 ilkinindəki eyni “trap-case” metodologiyası, populyasiya səviyyəsinə miqyaslanıb.
Əvvəlcədən qeydiyyatdan keçmiş rubrik V11 ilkin run-dan əvvəl mənbə kodunda dondurulmuş və bu şəkildə saxlanılıb byte-dəqiq bu İkinci Yeniləmə üçün — post-hoc tənzimləmə mümkün deyildi.
Mentzer indeksinin düzgün tətbiqi V11 ilkin buraxılışında dəmir çatışmazlığı anemiyasını beta-talassemiya minor-dan fərqləndirmək üçün; diferensial davranış populyasiya miqyasında qorunub.
Yalnız istehsal (production) son nöqtəsi — imtiyazlı yönləndirmə yoxdur; tam olaraq ödəniş edən müştərinin daxil olduğu kimi qiymətləndirilib.
13.26 saniyə orta gecikmə (latency) end-to-end (9.0–16.94 s aralığında), bütün 100.000 iş mühərrikin əsas (primary) yolunda tamamlandı.
Sintetik kohort. İşləmə (run-time) zamanı yüklənmiş 100,000 sintetik yaradılmış sınaq hadisəsi. Heç bir sintetik məlumat və heç bir şəxsi məlumat istifadə edilmir.
MIT lisenziyalı “harness” yoxlanış üçün GitHub-da stratifikasiya olunmuş təsadüfi seçmə (n = 201) şəklində tam xam mühərrik cavabları ilə dərc edilib.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub-da güzgülənib.

Bu benchmark niyə mövcuddur və nəyi yoxlayır

AI ilə qan analizi nəticələrinin şərhi istehlakçı və klinik iş axınlarında getdikcə daha çox istifadə olunur, lakin laboratoriya təbabətinə uyğun, təkrarlana bilən qiymətləndirmə çərçivələri hələ də nadirdir. Bu kontekstdə ən vacib suallar ümumi tibbi sual-cavab benchmark-larında əhatə olunanlar deyil: orta korpuskulyar həcm eyni olduqda mühərrik dəmir çatışmazlığını talassemiya xüsusiyyətindən ayıra bilərmi, Gilbert sindromunu hepatit kimi həddən artıq diaqnoz qoyurmu və tamamilə normal skrininq panelində patoloji “yaradırmı”?

Tək bir qan analizi paneli adətən bir neçə rəqabətli şərhə əsas verəcək qədər siqnal ehtiva edir və şərh edən klinisistin işi həmin şərhləri bir-biri ilə müqayisə edib çəkməkdir; dərslik cavabını çıxarmaq deyil. Dərslik tipli hallarda yaxşı nəticə göstərən bir “mühərrik” ən çox önəm daşıyan hallarda yenə də uğursuz ola bilər: diferensial-diaqnoz tələləri, təkbaşına baxıldıqda həyəcanverici görünən zərərsiz variantlar və kökündən normal panellər ki, bunlar da inamlı köməkçiləri patoloji “istehsal etməyə” sövq edir.

Bu benchmark məhz bu uğursuzluq ssenariləri əsasında qurulmuşdur. On beş halın hər biri konkret diaqnostik xüsusiyyətə görə seçilmişdir: identik orta korpuskulyar həcmə malik beta-talassemiya xüsusiyyəti ilə fərqləndirilməli olan dəmir çatışmazlığına bağlı mikrositoz; yeganə anomaliyanın təcrid olunmuş qeyri-düz birbaşa hiperbilirubinemiya olduğu Gilbert sindromu təqdimatı; və hər bir analitin öz referens diapazonu daxilində oturduğu on beş parametrli skrininq paneli. Rubrika, hər bir halı öz şərtləri daxilində oxuyan mühərrikləri mükafatlandırır və belə bir diaqnozun əsaslandırılmadığı yerdə inamlı diaqnoza “tələsən” mühərrikləri cəzalandırır.

MD Tomas Klein kimi, bu hal panelini seçdim, çünki laboratoriya-tibb üzrə köməkçilərin ən çox səhv etdiyi nümunələr bunlardır. Bahalı uğursuzluq rejimi "nadir bir xəstəliyi qaçırmaq" deyil — onu olmayan xəstələrdə rutin patoloji uydurmaqdır. Bizim Tibbi Validasiya hub daha geniş çərçivəni təsvir edir; bu səhifə V11 ilkin proof-of-concept-i və onu 127 ölkə etiketini əhatə edən sintetik hadisə dəstindən götürülmüş 100,000 sintetik hadisəyə qədər genişləndirən V11 İkinci Yeniləməni təsvir edir — eyni qiymətləndirmə rubrikası ilə, byte-dəqiq, post-hoc (sonradan) tənzimləmə icazə verilmədən.

Ən son istinad icrası — V11 İkinci Yeniləmə (26 aprel 2026)

26 aprel 2026-cı il tarixli V11 İkinci Yeniləmə istinad icrası 99.80% V11 ilkin buraxılışda istifadə olunan əvvəlcədən qeydiyyatdan keçmiş rubrikaya əsasən, qiymətləndirilib 100,000 sintetik hadisə Kantesti sintetik hadisə dəstindən götürülmüş və 127 ölkə etiketi və 75+ dillərini əhatə edən. Hər bir iş mühərrikin əsas yolunda tamamlandı; trap-iş hiperdiaqnoz bayraq aktivləşmələri 0 / 87,412. səviyyəsində qaldı. 23 aprel 2026-cı il tarixli orijinal V11 icrası 15 əl ilə seçilmiş işdən (kompozit 99.12%) ibarət idi və rubrikanı təsdiqlədi; İkinci Yeniləmə həmin rubkanı bayt-bayt eyni saxlayır və qiymətləndirməni populyasiya miqyaslı kohorta genişləndirir.

Kompozit 99.80% 100.000-dən 100.000 iş qiymətləndirildi

1.000 Struktur balı

0.996 Klinik bal

13.26 s Orta gecikmə

0 / 87,412 Tələ yanlış-müsbətləri

Kompozit düsturu üç komponenti birləşdirir: struktur uyğunluğu yeddi məcburi hesabat bölməsi və on altı məcburi altbölmə ilə, məzmunun dəqiqliyi açar sözün geri çağırılması + bal sisteminin geri çağırılması + ehtimal paylanması etibarlılığı yoxlaması kimi ölçülür və cavab gecikməsi əsas yol üzrə xidmət səviyyəsi hədəfinə qarşı. Dəqiq parçalanma aşağıdakı rubrika formulunda göstərilib — bu çəkilər və ya alt-rubrikaların heç biri İkinci Yeniləmə üçün dəyişdirilməyib.

Kompozit = 0.35 × Struktur + 0.55 × Klinik + 0.10 × Gecikmə

Qalan 0.20 faiz bəndi demək olar ki, tamamilə klinik alt-bala düşür — az sayda iş (əsasən Hepatologiya və Revmatologiyada) diaqnostik məzmun düzgün olmasına baxmayaraq, mühərrikin şərhində gözlənilən qiymətləndirmə-sistemi açar sözlərindən biri yox idi. 100.000 işlik İkinci Yeniləmə kohortunda heç bir iş diaqnozu özü qaçırmadı. Gecikmə V11 ilkin buraxılışda orta hesabla 20.17 s-dən İkinci Yeniləmədə 13.26 s-ə düşdü; bu, iki icra arasında istehsal mühərriki optimizasiyalarını əks etdirir. Rubrika, qiymətləndirmə kodu və API endpoint dəyişməyib.

Etiket üzrə kompozit göstəricilər 30 ən çox təmsil olunan ölkə etiketində 0.9971-dən 0.9985-ə qədər dəyişib. Əlavə 97 etiketdən ibarət uzun quyruq (cəmi ≈7.300 hal) heç bir sistematik pisləşmə göstərməyib. Hal sayına görə ən tez-tez rast gəlinən etiketlər: Amerika Birləşmiş Ştatları (10.500), Braziliya (9.500), İspaniya (9.000), İtaliya (8.000), Almaniya (7.800), Fransa (7.400), Portuqaliya (5.800), Türkiye (3.400), Birləşmiş Krallıq (2.900) və Meksika (2.500). Etiket üzrə kompozit göstəricilər 0.9971-dən 0.9985-ə qədər dəyişib.

15 hadisədən 100,000-ə: 127 ölkə etiketi üzrə kohortun təkamülü

İlkin V11 hadisə paneli yeddi ixtisası — hematologiya, endokrinologiya, metabolik tibb, hepatologiya, nefrologiya, kardiologiya, revmatologiya — üstəgəl iki xüsusi hiperdiaqnoz tələsi hadisəni əhatə edirdi; hər bir hadisə sintetik yaradılmış qan analizi paneli idi. V11 İkinci Yeniləmə qiymətləndirməni 127 ölkə etiketini əhatə edən 100,000 sintetik hadisəyə qədər genişləndirir, — səkkiz ixtisas üzrə bölünmüş (orijinal yeddi + trap alt-kəsimini udan xüsusi daxili tibb qutusu). Eyni qiymətləndirmə rubrikası hər iki icrada bayt-bayt eyni tətbiq olunur.

Bütün hadisələr sintetik olaraq yaradıldığı üçün çıxarılacaq real identifikator yoxdur və şəxsi məlumat cəlb edilmir. Hər bir sintetik hadisə benchmark-daxili hadisə kodu daşıyır (V11 ilkin dəstində BT-NNN-LABEL, İkinci Yeniləmədə sabit case_uid ). Dərc olunmuş mühitdə (harness), texniki hesabatda və ya buraxılmış verilənlər dəstlərində heç yerdə şəxsi məlumat görünmür.

V11 initial release — 15 hand-curated cases

Orijinal V11 hal paneli Dr. Thomas Klein tərəfindən laboratoriya-tibb köməkçilərinin ən çox səhv etdiyi diaqnostik nümunələri yoxlamaq üçün əl ilə seçilmişdir. On beş halın hər biri aşağıda göstərilən konkret diaqnostik xüsusiyyətə görə seçilmişdir.

Hematologiya (3) BT-001, BT-006, BT-007 Dəmir çatışmazlığı anemiyası · B12 çatışmazlığı · Kiçik beta-talassemiya (beta-thalassaemia minor)

Endokrinologiya (3) BT-002, BT-008, BT-012 Haşimoto tiroiditi · İnsulin rezistentliyi ilə PCOS · Ağır D vitamini çatışmazlığı

Metabolik (2) BT-003, BT-013 Metabolik sindromla T2DM · Qut riskli hiperurikemiya

Hepatologiya (2) BT-004, BT-009 NAFLD / NASH · Kəskin virus hepatiti

Nefrologiya · Kardiologiya · Revmatologiya (3) BT-005, BT-010, BT-011 CKD 3-cü mərhələ · Aterogen dislipidemiya · Sistemik qırmızı qurdeşən (sistemik lupus eritematozus)

Tələ halı (2) BT-014, BT-015 Gilbert sindromu (izolyə olunmuş qeyri-birbaşa hiperbilirubinemiya) · Tamamilə normal yetkin skrininqi

Niyə məhz bu paylanma

Hematologiya real laboratoriya praktikasında ən yüksək həcmli “tələ”lər olan mikrositar diferensiallar və makrositar diferensiallar səbəbilə üç hal alır. Endokrinologiya isə Hashimoto, PCOS və D vitamini çatışmazlığı təqdimatlarının fərqli diaqnostik “formaları” (autoantikorla idarə olunan, hormon nisbəti ilə idarə olunan, tək markerlə idarə olunan) fərqli olduğuna görə üç hal alır. Tək-hal ixtisaslar yenə də mənalıdır, çünki CKD, ASCVD riski və SLE-nin hər birinin mühərrikin çağırmalı olduğu öz qiymətləndirmə sistemi var (müvafiq olaraq KDIGO mərhələlənməsi, ASCVD 10 illik riski, 2019 EULAR/ACR SLE meyarları).

V11 İkinci Yeniləmə — 127 ölkə etiketini əhatə edən 100,000 sintetik hadisə

İkinci Yeniləmə ilkin V11-dəki 15 hadisəli hard-coded Python literalını daha böyük, proqramatik yaradılmış sintetik hadisə dəsti ilə əvəz edir. Hadisə dəsti hər bir işin (run) əvvəlində yüklənir və şəffaflıq üçün konfiqurasiya qeydə alınır. Kohortun məzmun sahələri üzrə paylanması aşağıda göstərilir.

Endokrinologiya 23,900 hal (23.9%) Qalxanabənzər vəz, PCOS, D vitamini, gonadal ox, hipofiz

Metabolik tibb 21,900 hal (21.9%) T2DM, metabolik sindrom, lipid panelləri, hiperurikemiya

Hematologiya 15,400 hal (15.4%) Mikrositar və makrositar differensiallar, B12/folat, dəmir tədqiqatları

Hepatologiya 12,400 hal (12.4%) NAFLD/NASH, viral hepatit, FIB-4, xolestaz

Daxili xəstəliklər (o cümlədən trap alt dəsti) 9,000 hal (9.0%) Qarışıq təqdimatlar və 8,723 həsr olunmuş hiper-diaqnoz trap halları

Kardiologiya 7,500 hal (7.5%) ASCVD riski, aterogen dislipidemiya, hs-CRP

Revmatologiya 6,000 hal (6.0%) SLE, RA, vaskulit, autoantikor panelləri (EULAR/ACR meyarları)

Nefrologiya 4,000 hal (4.0%) CKD mərhələlənməsi (KDIGO), eGFR trendləri, elektrolit pozğunluğu

Sintetik ölkə-etiket paylanması — ilk 10 etiket

100.000 sintetik hal 127 ölkə etiketi daşıyır (ISO 3166-1 alpha-2) — lokallaşdırma idarəetməsini yoxlamaq üçün. Etiket təyini: Avropa 57.7%, Amerika qitələri 25.4%, Asiya-Sakit okean 6.2%, adlandırılmış Yaxın Şərq/Afrika etiketləri 3.4% və əlavə 97 etiketdən ibarət uzun quyruq birlikdə təxminən 7.3%. Hal sayına görə ən çox rast gəlinən on etiket: Amerika Birləşmiş Ştatları (10.500), Braziliya (9.500), İspaniya (9.000), İtaliya (8.000), Almaniya (7.800), Fransa (7.400), Portuqaliya (5.800), Türkiye (3.400), Birləşmiş Krallıq (2.900) və Meksika (2.500). Etiket üzrə kompozit göstəricilər 0.9971-dən 0.9985-ə qədər dəyişib. Bu etiket sayları lokallaşdırma idarəetməsini yoxlamaq üçün istifadə edilən generasiya olunmuş halların xüsusiyyətləridir — real istifadəçilər deyil və real dünyada coğrafi əhatəni əks etdirmir.

Əvvəlcədən qeydiyyatdan keçmiş rubrik — izahı

Qeydiyyatdan əvvəlcədən (pre-registration) bu benchmarkda ən vacib metodoloji seçimdir. Gözlənilən hər bir diaqnoz, hər bir klinik qiymətləndirmə sistemi və hər bir hesabat bölməsi mənbə koduna həvalə edilib mühərrik çağırılmadan əvvəl. Buna görə də mühərriki “yaltaqlaşdırmaq” üçün rubrikaya post-hoc (sonradan) tənzimləmə etmək mümkün deyil.

Kompozit balı təşkil edən üç komponent var. struktur komponenti 35 faiz töhfə verir və mühərrikin yeddi məcburi hesabat bölməsini (başlıq, xülasə, əsas tapıntılar, diferensial, qiymətləndirmə sistemləri, tövsiyələr, izləmə) və onların daxilindəki on altı məcburi alt bölməni qaytarıb-qaytarmadığını ölçür. Bölmənin mövcudluğu struktur hesablamada 40 faiz, alt bölmənin mövcudluğu isə 60 faiz çəkidədir.

The klinik komponent 55 faiz töhfə verir və üç şeyi birləşdirir: diaqnoz-açar söz yaddaşı (klinik alt-balonun 70 faizi), qiymətləndirmə sistemi yaddaşı (20 faiz — mühərrik uyğun olduqda Mentzer, FIB-4, HOMA-IR, ASCVD riski, KDIGO mərhələlənməsi, EULAR/ACR meyarlarını hesablayırmı), və ehtimal cəmi etibarlılıq yoxlaması (10 faiz — diferensial ehtimalların cəmi [90, 110] intervalında olmalıdır). Tələ hallarında, uydurulmuş patoloji bayrağına görə 0.10 olmaqla hesablanan və maksimum üç bayraqla məhdudlaşdırılan, 0.30-a qədər açıq “hiperdiaqnoz” cəriməsi çıxılır.

The gecikmə (latency) komponenti 10 faiz töhfə verir. 20 saniyədən az cavab tam 0.10, 40 saniyədən az cavab 0.05, daha yavaş hər şey isə 0 bal alır. 20 saniyəlik hədəf istehsalın primary-path xidmət səviyyəsi məqsədini əks etdirir; 40 saniyəlik tavan isə ağır mühərrik çağırışları üçün Phase 2 ehtiyat büdcəsini əks etdirir.

Pre-registration nəyi önləyir

Birinci tərəf (first-party) benchmarklar post-hoc rubrika tənzimləməsi ilə öz rəqəmlərini şişirtməkdə məşhurdur. Nümunə demək olar ki, həmişə eynidir: komanda mühərriki işə salır, harada zəif olduğunu görür, sonra zəif çıxan sahələrin daha az sayılması üçün rubrikanı səssizcə düzəldir. Rubrikanı ilk mühərrik çağırışından əvvəl mənbə koduna həvalə edib harness-i MIT lisenziyası ilə dərc etməklə bu tənzimləmə versiya nəzarətində görünür. Hər kəs repozitoriyanı klonlayıb rubrika müəllif tarixlərini yoxlaya və mühərrik nəticələrinin qiymətləndirməni formalaşdırmaq üçün istifadə edilmədiyini təsdiqləyə bilər.

Hiper-diaqnoz tələsi halları — həddən artıq çağırışın (over-calling) real uğursuzluq mexanizmi olması

Normal ekranlarda patoloji barədə aqressiv “həddən artıq çağırış” istehlakçıya yönəlmiş tibbi köməkçilərdə sənədləşdirilmiş uğursuzluq rejimidir. Onun sonrakı xərclərinə lazımsız araşdırma, xəstə narahatlığı və iatrogen müayinə daxildir. Bu benchmarkdakı iki tələ halı bu uğursuzluq rejimini görünən və qiymətləndirilə bilən etmək üçün dizayn edilib.

🟡 Tələ 1 — BT-014-GILBERT

Təqdimat. Ümumi bilirubini 2.4 mg/dL olan 24 yaşlı kişi. Düz fraksiya normaldır, transaminazlar və qələvi fosfataza öz istinad diapazonlarının daxilindədir, retikulositlər diqqətəlayiq deyil və haptoglobin ilə LDH hemolizi istisna edir.

Düzgün şərh. Gilbert sindromu — xeyirxassəli UGT1A1 polimorfizmi. Şərh hepatit, sirroz, hemolitik anemiya və ya biliyar obstruksiyanı çağırmamalıdır.

V11 nəticəsi. Kompozit 1.000. Altı izlənən həddən artıq diaqnoz bayrağından heç biri aktiv diaqnoz kimi görünmədi.

🟡 Tələ 2 — BT-015-HEALTHY

Təqdimat. On beş parametrli rutin skrininq paneli olan 35 yaşlı qadın. Hər bir analit öz istinad diapazonunun daxilində rahat şəkildə yerləşir.

Düzgün şərh. Təsəlliverici yanaşma və həyat tərzinin qorunması. Şərh klinik baxımdan faydalı görünmək üçün sərhəddə patoloji uydurmamalıdır.

V11 nəticəsi. Kompozit 1.000. Yeddi izlənən həddən artıq diaqnoz (over-diagnosis) siqnalından heç biri — diabet, anemiya, hipotiroidizm, dislipidemiya, hepatit, böyrək xəstəliyi, çatışmazlıq — aktiv diaqnoz kimi görünmədi.

Hər iki sınaq (trap) üzrə on üç izlənən hiperdiaqnoz siqnalı yoxlanıldı. Heç biri işə düşmədi. Bu, AI mühərrikindən triage və ya konsultasiyadan əvvəl alət kimi istifadə etməyi düşünən hər bir klinisist üçün ən çox önəm daşıyan nəticədir: sistem mövcud olmayan yerdə xəstəlik uydurmadı.

Mentzer indeksi: dəmir çatışmazlığını talassemiya daşıyıcılığından ayırmaq

İkinci yüksək dəyərli tapıntı BT-001 (dəmir çatışmazlığı anemiyası) işi ilə BT-007 (beta-talassemiya minor) işinin cütləşdirilməsidir. Hər ikisi mikrositozla müşayiət olunur və sadəlövh klassifikatorlar üçün yaxşı tanınan çətinlikdir. MCV-ni RBC sayına bölməklə hesablanan Mentzer indeksi dəmir çatışmazlığında 13-dən yüksək, talassemiya xüsusiyyətində isə 13-dən aşağı olur.

BT-001-də pasiyent 34 yaşlı qadın idi: hemoglobin 10.4 q/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL və TIBC yüksəlmişdi. Təxminən 17.7 olan Mentzer indeksi mütləq dəmir çatışmazlığını dəstəkləyir. BT-007-də pasiyent 28 yaşlı kişi idi: mikrositoz (MCV 65.8 fL), lakin 6.2 kimi yüksək RBC sayı, normal RDW, normal ferritin və HbA2 5.6 faiz. Təxminən 10.6 olan Mentzer indeksi talassemiya xüsusiyyətini göstərir və yüksəlmiş HbA2 beta-talassemiya minoru təsdiqləyir.

Dəmir çatışmazlığı anemiyası Mentzer > 13 Aşağı ferritin, aşağı TSAT, yüksək TIBC, yüksəlmiş RDW

Beta-talassemiya xüsusiyyəti Mentzer < 13 Normal ferritin, normal RDW, yüksəlmiş HbA2 (>3.5%), yüksək RBC sayı

Hər iki hal 1.000 bal topladı. Mühərrik hər iki şərhdə Mentzer indeksini açıq şəkildə işə saldı və hər dəfə düzgün diaqnozu qaytardı. Bu, bütün benchmarkda klinik baxımdan ən çox təsəlliverici tək nəticədir, çünki talassemiya xüsusiyyətini dəmir çatışmazlığı kimi səhv təsnif etmək qeyri-münasib dəmir əlavəsinə və ailə skrininq imkanlarının qaçırılmasına gətirib çıxarır, dəmir çatışmazlığını isə talassemiya kimi səhv təsnif etmək isə sadə əvəzedici terapiyanın gecikməsinə səbəb olur. Bizim ferritin diapazonu bələdçimiz daha geniş diferensial konteksti izah edir.

V11 ilkin istinad run-dan (23 aprel 2026) hal üzrə nəticələr

15-case proof-of-concept kohortunda orijinal V11 istinad run-u metodoloji əsasdır İkinci Yeniləmə üçün: aşağıdakı hər bir hal üzrə detal rubrikanın real mühərrik cavabını necə idarə etdiyini göstərir. On beş haldan on ikisi əsas yolda 1.000 tavan kompozit göstəricisinə çatdı; üç hal Phase 2 fallback vasitəsilə təqdim edildi və klinik və struktur məzmunun hamısı qorunmaqla 0.05 latency bonusu itirildi. Bir halda tək bir məcburi alt bölmə çatışmırdı; biri isə marjinal olaraq azalmış ehtimal paylanması cəmini qaytardı.

Hal ID-si İxtisas Kompozit Latensiya Path

BT-001-IDAHematologiya1.00017.8 silkin

BT-006-B12Hematologiya1.00018,4 silkin

BT-007-THALHematologiya1.00017,0 silkin

BT-002-HASHEndokrinologiya0.95037,0 sehtiyat (fallback)

BT-008-PCOSEndokrinologiya0.98718,6 silkin

BT-003-T2DMMetabolik1.00019,1 silkin

BT-013-GOUTMetabolik1.00019,4 silkin

BT-004-NAFLDHepatologiya1.00019,6 silkin

BT-009-VIRHEPHepatologiya0.95023,4 sehtiyat (fallback)

BT-014-GILBERTTələ1.00018,9 silkin

BT-005-CKDNefrologiya1.00017,4 silkin

BT-010-ASCVDKardiologiya1.00019,7 silkin

BT-011-SLERevmatologiya0.98118,2 sanilkin

BT-012-VITDEndokrinologiya1.00019,3 sanilkin

BT-015-SAĞLAMTələ1.00018,7 sanehtiyat (fallback)

PCOS halı (BT-008) cavab strukturunda bir məcburi alt bölməni itirdi — on altıdan on beş — bu da struktur balını 1,000-dən 0,963-ə endirdi. SLE halı (BT-011) klinik balı 0,965-ə salan, lakin hər bir diaqnostik açar sözünü və qiymətləndirmə sistemini qoruyan, marjinal dərəcədə azalmış ehtimal-paylanması cəmini qaytardı. Hər iki sub-ideal hal düzgün diaqnozu qaçırmadı.

V11 İkinci Yeniləmə üzrə aqreqat — 100,000 hal

Populyasiya miqyasında fərdi hal sətirləri insan tərəfindən oxunaqlı deyil, buna görə İkinci Yeniləmə 100.000 sətirlik cədvəl əvəzinə toplanmış göstəricilər barədə hesabat verir. Əsas yekun aşağıda göstərilib; ixtisas üzrə və ölkə-etiketi üzrə bölgülər texniki hesabatda və Figshare depozitində dərc olunur. Stratifikasiya olunmuş təsadüfi nümunə n = 201 xam mühərrik cavabları (deterministik seed 20260426) yoxlanış üçün GitHub repozitoriyanın results/ qovluğunda saxlanılıb. Yeni icra yeni tarix-saatlı skor kartı yaradacaq, istinad icrası isə toxunulmadan qalacaq. Əgər icraınız mənalı dərəcədə fərqli nəticə verirsə, zəhmət olmasa GitHub issue açın və icra timestampini və cavabın metadata-sında qaytarılan mühərrik versiyasını göstərin. qovluğunda dərc edilib.

Kompozit göstərici V11 ilkin: 0.9912 (99.12%) → İkinci Yeniləmə: 0.9980 (99.80%) Δ = +0.0068 100,000 hal kohortu üzrə

Struktur göstəricisi (orta) V11 ilkin: 0.998 → İkinci Yeniləmə: 1.000 Populyasiya miqyasında mükəmməl struktur uyğunluğu

Klinik göstərici (orta) V11 ilkin: 0.998 → İkinci Yeniləmə: 0.996 −0.002; heç bir hal diaqnozu özü qaçırmadı

Gecikmə — orta (interval) V11 ilkin: 20.17 s (17.0–37.0 s) → İkinci Yeniləmə: 13.26 s (9.0–16.94 s) İcraatlar arası istehsal mühərriki optimizasiyaları

Mühərrik yolu = əsas V11 ilkin: 12 / 15 → İkinci Yeniləmə: 100,000 / 100,000 Heç bir mərhələdə (run zamanı) 2-ci mərhələyə (Phase 2) ehtiyat mexanizmi tələb olunmadı

Tələyə düşən alt-kəsim (trap-subset) hiperdiaqnostika bayraqları V11 ilkin: 0 / 13 → İkinci Yeniləmə: 0 / 87,412 Populyasiya miqyasında sıfır yanlış-müsbət nəticə (8,723 tələ hadisəsi izlənib)

Başlıq göstəricisi bizə nə demir

Bu konkret əvvəlcədən qeydiyyatdan keçmiş rubrika üzrə 99.80 faiz kompozit qiymət — 127 ölkə etiketini əhatə edən 100,000 hadisəlik sintetik kohortda — demək olar ki, “tavan” səviyyəsində performans deməkdir; lakin bunu diqqətlə çərçivələmək lazımdır. Nəticə mühərrikin V11-də mənbə koduna sadiq qaldığımız rubrikaya qarşı davranışını təsvir edir; bu, vəhşi təbiətdə mövcud olan hər bir qan analizi paneli üzrə mühərrikin düzgünlüyünə dair universal iddia deyil.

Göstərici deyir ki, mühərrik bu qiymətləndirmə üçün seçilmiş diaqnostik nümunələri populyasiya miqyasında kohortda düzgün idarə edib, dərc olunmuş və təkrarlana bilən metodologiya əsasında. Bu, mühərrikin vəhşi təbiətdə mövcud olan hər bir qan analizi panelində düzgün olduğunu demir. Bu, mühərrikin klinik qərarı əvəz etməli olduğunu demir. Və bu, mühərrikin alternativ AI sistemlərindən üstün olduğunu da demir — digər mühərriklərlə müqayisəli analizlər bu hesabatın əhatə dairəsinə qəsdən daxil edilməyib.

Göstəricinin ortaya qoyduğu şey bir baza xəttidir. Rubrika və test mühiti (harness) ictimai olduqca, mühərrikin gələcək versiyaları eyni rubrikaya qarşı qiymətləndirilə bilər — V11 ilkin 15 halda, İkinci Yeniləmədə 100,000 hadisəlik kohortda və ya sonrakı genişlənmələrdə — və dərc olunmuş göstərici ilə sonrakı hər hansı bir run arasındakı fərq özü də ölçülə bilər. Əvvəlcədən qeydiyyatın dəyəri budur: performans iddialarını yoxlanıla bilən iddialara çevirir.

Bu benchmark-ı 10 dəqiqəyə necə təkrarlamaq olar

Təkrar istehsal üçün yalnız Kantesti API etimadnamə cütü və Python 3.10 və ya daha sonrakı mühit lazımdır, requests və reportlab kitabxanaları quraşdırılmış olmalıdır. Tam “harness” MIT lisenziyası altında buraxılmış, tək, özündə tam olan Python moduludur.

💻 GitHub MIT lisenziyalı “harness” · xam cavablar · istinad icrası 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanonik akademik qeyd 🎓 Tədqiqat Qapısı Publication 404175463 · V11 Second Update · akademik kəşf qatı 📄 Academia.edu Paper 165956808 · V11 Second Update · akademik kəşf qatı

Təzə icra üçün dörd addım

Birinci. Repozitoriyanı klonlayın: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. İkinci. Asılılıqları quraşdırın pip install -r requirements.txt (İkinci Yeniləmə əlavə edir mysql-connector-python ≥ 8.0 SQL case loader üçün). Üç. Təyin edin KANTESTI_USERNAME və KANTESTI_PASSWORD mühərrik API-si üçün mühit dəyişənləri kimi. İkinci Yeniləmənin SQL case loader-i üçün həmçinin təyin edin KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, və KANTESTI_DB_PASSWORD — yükləyici (read-only) rol vasitəsilə qoşulur (bench_reader) identifikasiya edən cədvəllər üzrə heç bir imtiyaza malik deyil. Dörd. İcra edin python benchmark_bloodtest.py --limit 100000 tam Second-Update icrası üçün, və ya python benchmark_bloodtest.py --limit 1000 sürətli iterasiya üçün. Nəticələr buraya düşür: ./benchmark_results/: ölkə-etiketi və ixtisas sütunları olan CSV scorecard, JSON toplanması, stratifikasiya olunmuş-təsadüfi xam cavab nümunəsi və Markdown hesabatı.

23 aprel 2026-cı il tarixli (V11 ilkin, 15 hal) və 26 aprel 2026-cı il tarixli (V11 Second Update, 100,000 hal) istinad icraları repozitoriyanın repozitoriyanın results/ qovluğunda saxlanılıb. Yeni icra yeni tarix-saatlı skor kartı yaradacaq, istinad icrası isə toxunulmadan qalacaq. Əgər icraınız mənalı dərəcədə fərqli nəticə verirsə, zəhmət olmasa GitHub issue açın və icra timestampini və cavabın metadata-sında qaytarılan mühərrik versiyasını göstərin. qovluğunda saxlanılır. Yeni icra yeni tarixçələnmiş scorecard yaradacaq, istinad icralarına isə toxunulmayacaq. Əgər icranız mənalı dərəcədə fərqli nəticə verirsə, zəhmət olmasa GitHub issue açın və cavabın metadata hissəsində göstərilən icra timestampini və qaytarılan engine versiyasını qeyd edin.

Məhdudiyyətlər və gələcək işlər

127 ölkə etiketi üzrə 100.000 hal olsa belə, dörd məhdudiyyətin açıq şəkildə qeyd edilməsi lazımdır: uzun quyruq etiketlərinin az təmsil olunması, tək mərhələli qiymətləndirmə, tək mühərrik əhatəsi və tək mənbədən məlumat mənşəyi. Bunların hər biri aktiv davam işlərində həll olunur.

Uzun quyruq etiketlərinin əhatəsi. İkinci Yeniləmə 127 ölkə etiketini əhatə edir, lakin paylanma balanslı deyil — ilk 10 etiket halın ≈66.4%-ni təşkil edir və əlavə 97 etiketdən ibarət uzun quyruq birlikdə ≈7.3% töhfə verir (cəmi təxminən 7.300 hal, orta hesabla etiket başına ~75 hal). Buna görə də bu uzun quyruqda etiket üzrə kompozitlər başlıq rəqəmlərinin göstərdiyindən daha çox səs-küylüdür. Gələcək icralar etiket təyinatını yenidən balanslaşdıracaq ki, etiket üzrə qiymətləndirmələr möhkəmlənsin.

Tək dəfəlik qiymətləndirmə. Kollektivdəki hər bir hal yalnız bir dəfə qiymətləndirilib. Böyük dil modelləri aşağı sampling temperaturunda belə əhəmiyyətli çıxış variasiyası nümayiş etdirir; buna görə də hər hal üçün beş qiymətləndirmə və bildirilmiş variasiya ilə çox-icralı protokol təbii növbəti addımdır — xüsusən də trap-case alt dəstində, burada sampling jitter altında ardıcıllıq təhlükəsizlik iddiasının bir hissəsidir.

Tək mühərrik əhatəsi. Bu hesabat bir engine-i xarakterizə edir. Alternativ AI sistemləri ilə müqayisəli analizlər burada əhatə dairəsinə daxil deyil; eyni MIT-lisenziyalı harness qarşısında uyğun metodologiya ilə onları ayrıca müstəqil tədqiqat kimi həyata keçirməyi düşünə bilərik.

Sintetik məlumat. 100,000 hadisə sintetik olaraq yaradılıb, sintetik “hadisələr” deyil və nəticələr real dünyadakı klinik performansa ötürülmür. Real, razılıqlı və xaricdən əldə edilmiş verilənlər üzərində qiymətləndirmə müvafiq etik nəzarət tələb edər və bu sintetik benchmarkın əhatə dairəsinə daxil deyil.

Bu dördündən əlavə, planlaşdırılan ən təsirli genişlənmə yurisdiksiya üzrə çoxdilli bərabərliyin təmin edilməsidir. Kantesti AI Engine 75+ dildə istifadəçilərə xidmət edir və dilə görə təbəqələndirilmiş Second-Update alt-kohortlarının (Türk, Alman, İspan, Fransız, İtalyan, Portuqal, Ərəb, Mandarin) işə salınması engine-in dəstəklədiyi dillər üzrə çıxış keyfiyyətini ölçəcək. Hər bir dilə görə təbəqələndirilmiş analiz öz DOI-si və harness branch-i ilə birlikdə dərc olunacaq.

100,000 halda 99.80% Kompozit Score əldə edən Eyni Engine-i sınayın

Bu benchmarkda qiymətləndirilmiş eyni istehsal (production) endpointinə öz qan analizi panelinizi yükləyin. Dünyada 2 milyondan çox istifadəçi Kantesti AI Engine-dən istifadə edərək 75+ dildə 15,000-dən çox biomarkeri şərh edir.

🔬 Pulsuz Demo versiyasını sınayın

Chrome Genişləndirməsi Tətbiq Mağazası Google Play

📚 Bu benchmarkı necə sitat gətirmək olar

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Kantesti Qan Analizi Şərh Mühərriki Üçün Əvvəlcədən Qeydiyyatdan Keçmiş, Rubrikaya Əsaslanan Avtomatlaşdırılmış Texniki
                 Benchmark — 100,000 Sintetik Sınaq Hadisəsi Üzərində
                 --- V11 İkinci Yeniləmə},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Texniki Hesabat},
  number      = {V11 (İkinci Yeniləmə)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti Qan Testi Şərh Mühərrikinin 100.000 Sintetik Test Halı üzərində Texniki Benchmarkının (Rubrik Əsaslı) Avtomatlaşdırılmış, Öncedən Qeydiyyatdan Keçmiş Qiymətləndirilməsi — V11 İkinci Yeniləmə (Texniki Hesabat V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Xarici metodoloji istinadlar

Mentzer, W. C. (1973). Dəmir çatışmazlığının talassemiya daşıyıcılığından fərqləndirilməsi. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 Avropa Revmatizm Liqası / Amerika Revmatologiya Kolleci Sistemik Qırmızı Qurd Erythematosus üçün təsnifat meyarları. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Böyük Dil Modelləri üçün Tibbi Domen Hallüsinasiyası Testi. CoNLL 2023 materialları.

🔗 ACL Anthology

99.80%Kompozit bal

100,000Qiymətləndirilmiş hallar

127Əhatə olunan ölkə etiketləri

0 / 87,412Tələdə yalan-müsbətlər

Tez-tez verilən suallar

Kantesti AI Mühərriki sintetik test hallarında nə qədər dəqiqdir?

Öncedən qeydiyyatdan keçmiş rubrik əsasında, səkkiz məzmun sahəsi üzrə və 127 ölkə etiketi ilə 100.000 sintetik olaraq yaradılmış test halında (V11 İkinci Yeniləmə) aparılan sınaq nəticəsində mühərrik 99,80 faiz kompozit bal əldə etdi; 87.412 izlənilən “trap-case” (tələ) imkanında sıfır hiperdiaqnoz bayrağı və 13,26 saniyə orta cavab gecikməsi qeydə alındı. Bu kompozit, sintetik girişlərdə çıxışın uyğunluğunu ölçür, diaqnostik dəqiqliyi yox. İlkin V11 buraxılışı eyni rubrikdən 15 əl ilə hazırlanmış halda istifadə etdi (kompozit 99,12%); İkinci Yeniləmə rubriki bayt-bayt eyni saxlayır və onu daha böyük sintetik kohorta genişləndirir. Tam scorecard Figshare-də DOI 10.6084/m9.figshare.32095435 altında və GitHub-da MIT lisenziyası ilə dərc olunub.

Kantesti AI Mühərriki klinik olaraq təsdiqlənibmi?

Xeyr. Mühərrik avtomatlaşdırılmış texniki benchmark ilə (klinik validasiya deyil) qiymətləndirilib; rubrika V11 ilkin icrasından əvvəl mənbə kodunda dondurulmuş və V11 İkinci Yeniləmə üçün byte-bə-bə eyni saxlanılmışdır; hematologiya, endokrinologiya, metabolik tibb, hepatologiya, nefrologiya, kardiologiya, revmatologiya və daxili xəstəliklər üzrə 127 ölkə etiketindən götürülmüş 100.000 sintetik qan analizi testi halında qiymətləndirilib. Klinik nəzarət Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) tərəfindən təmin edilib; Kantesti AI-da sertifikatlı klinik hematoloq və Baş Tibbi Məmur.

Hiper-diaqnoz tələsi nədir?

Hiper-diaqnoz tələsi (hyperdiagnosis trap) süni intellekt mühərriklərində həddindən artıq diaqnoz qoyma davranışını aşkar etmək üçün xüsusi olaraq hazırlanmış klinik ssenaridir. V11 ilkin benchmark bu cür iki haldan metodoloji sübut kimi istifadə edib: Gilbert sindromuna uyğun olan təcrid olunmuş qeyri-birbaşa hiperbilirubinemiya (burada düzgün şərh hepatit və ya hemoliz deyil, xeyirxah UGT1A1 polimorfizmidir) və tamamilə normal yetkin skrininq paneli (burada düzgün nəticə istehsal olunmuş sərhədyanı patoloji deyil, arxayınlaşdırmadır). V11 İkinci Yeniləmə bu tələ metodologiyasını 8.723 işdən ibarət hədəf alt dəstəyə genişləndirərək 87.412 izlənilən hiper-diaqnoz siqnalı (flag) imkanı yaradıb — və mühərrikin yalan-müsbət (false-positive) göstəricisi sıfır olaraq qalıb.

Kantesti AI Mühərrikinin qiymətləndirilməsi təkrarolunandırmı?

Tam qiymətləndirmə (evaluation) “harness” MIT lisenziyası altında tək, özündə tam olan bir Python modulu kimi buraxılır. V11 ilkin işə salınması yalnız Kantesti API etimadnamə cütü və Python 3.10 və ya daha sonrakını tələb edir. V11 İkinci Yeniləmə Kantesti klinik-repozitoriya etimadnamələri tələb edən parametrli, yalnız-oxunan SQL case loader əlavə edir (a bench_reader cədvəllərin identifikasiyası üzrə heç bir imtiyazı olmayan rol). Kod, case loader SQL, rubrika (buraxılışlar arasında byte-bəyt eynidir) və V11 ilkin və İkinci Yeniləmə istinad işə salınmalarından götürülmüş stratifikasiya olunmuş təsadüfi xam mühərrik cavab nümunəsi github.com/emirhanai/kantesti-blood-test-benchmark ünvanında mövcuddur və Figshare, ResearchGate və Academia.edu-da da güzgülənib.

Kantesti AI Engine dəmir çatışmazlığını beta-talassemiya daşıyıcılığından necə fərqləndirir?

Mühərrik Mentzer indeksini tətbiq edir; bu indeks orta eritrosit həcminin (mean corpuscular volume) eritrositlərin sayına bölünməsi ilə hesablanır. Mentzer indeksi 13-dən yuxarı olduqda dəmir çatışmazlığı anemiyasını dəstəkləyir, 13-dən aşağı olduqda isə beta-talassemiya xüsusiyyətini (trait) dəstəkləyir. V11 ilkin benchmarkda hər iki təqdimat Mentzer indeksinin açıq hesablanması ilə düzgün təsnif edilib; ferritin, RDW və HbA2 konteksti ilə dəstəklənib. V11 İkinci Yeniləmə üzrə 100.000 işlik kohortda eyni diferensial davranış populyasiya miqyasında qorunub saxlanılıb.

Xam müqayisə (benchmark) məlumatlarını və mənbə kodunu haradan tapa bilərəm?

Texniki hesabat Figshare-də DOI 10.6084/m9.figshare.32095435 altında yerləşdirilib (həm V11 ilkin buraxılışı, həm də V11 İkinci Yeniləməni əhatə edir), ResearchGate-də 404175463 və Academia.edu-da 165956808 nömrəli nəşrlə güzgülənib — hər ikisi V11 İkinci Yeniləmənin adı və 100.000 işlik nəticələrlə yenilənib — və MIT-lisenziyalı Python “harness” bütün istinad işə salınma nəticələri ilə birlikdə github.com/emirhanai/kantesti-blood-test-benchmark ünvanındadır. Dörd-platformalı güzgü şəbəkəsi uzunmüddətli əlçatanlıq və sitat çevikliyi təmin edir.

Niyə AI tibbi benchmarkları üçün əvvəlcədən qeydiyyat (pre-registration) vacibdir?

Əvvəlcədən qeydiyyat, şirkət tərəfindən idarə olunan benchmarkların öz rəqəmlərini şişirtməsinin ən çox yayılmış tək yolu olan post-hoc rubrika tənzimlənməsinin qarşısını alır. Rubrikanı hər hansı mühərrik çağırışından əvvəl mənbə koduna bağlayıb platformanı (harness) ictimai şəkildə dərc etməklə rubrika müəllifinin tarixləri versiya nəzarətində yoxlanıla bilən olur və mühərrik nəticələri qiymətləndirmə meyarlarını formalaşdıra bilməz.

Bu benchmark digər AI mühərrikləri ilə müqayisələri də əhatə edirmi?

Xeyr. V11 hesabatı — həm ilkin buraxılış, həm də İkinci Yeniləmə — alternativ kommersiya sistemləri ilə müqayisə etmədən, məqsədli şəkildə tək bir mühərriki sabit bir rubrika qarşısında xarakterizə edir. “Harness” MIT lisenziyası altında açıq mənbəlidir (indi SQL case loader da daxil olmaqla), beləliklə müstəqil tədqiqatçılar seçdikləri istənilən mühərriki eyni rubrika və case loader qarşısında qiymətləndirə və nəticələrini dərc edə bilərlər.

Xəstə nümunələri realdır, yoxsa sintetik?

Bütün hallar sintetik olaraq yaradılıb — V11 ilkin buraxılışında 15 əl ilə hazırlanmış hal və İkinci Yeniləmədə 100.000 hal. Bunlar sintetik hallar deyil: sintetik məlumat yoxdur, razılıq prosesi yoxdur və de-identifikasiya aparılmır, çünki kohortda şəxsi məlumat mövcud deyil. Dərc olunmuş harness-da, texniki hesabatda və ya buraxılmış dataset-lərdə heç bir şəxsi məlumat görünmür.

⚕️ Tibbi İmtina Bəyanatı və Maraqların Toqquşması

Bu benchmark hesabatı tədqiqat və metodoloji şəffaflıq məqsədləri üçündür. Bu, tibbi məsləhət təşkil etmir, diaqnoz deyil və peşəkar tibbi qayğının əvəzi deyil; burada göstərilən heç bir nəticə həkimə müraciəti gecikdirmək və ya ondan yayınmaq üçün istifadə edilməməlidir. Diaqnoz və müalicə qərarları üçün həmişə ixtisaslı səhiyyə təminatçısı ilə məsləhətləşin. Bu, şirkətin öz mühərriki üzrə özünün icra etdiyi daxili benchmarkdır və müstəqil şəkildə təsdiqlənməyib və ya həmyaşıd rəyinə təqdim edilməyib. Kompozit bal sabit bir meyara uyğunluğu ölçür (hesabat strukturu, açar söz və qiymətləndirmə sisteminin yaddaşının geri çağırılması, və gecikmə); bu, real dünyada diaqnostik dəqiqliyin və ya klinik təhlükəsizliyin ölçüsü deyil. Hər iki müəllif Kantesti Ltd-də çalışır və paya malikdir, qiymətləndirilən mühərrik isə həmin təşkilatın kommersiya məhsuludur. Bu maraq toqquşması meyarın mənbə kodunda əvvəlcədən qeydiyyata alınması, MIT lisenziyası altında harness-in (sınaq çərçivəsinin) buraxılması və xam mühərrik cavablarının təbəqələndirilmiş təsadüfi seçiminin dərc edilməsi ilə azaldılıb.

E-E-A-T Etibar Siqnalları

⭐

Təcrübə

Xəstə panelinin seçilməsinə nəzarət edən 15+ illik klinik hematologiya və laboratoriya təbabəti təcrübəsi.

📋

Ekspertiza

Əvvəlcədən qeydiyyatdan keçmiş rubrika dizaynı: açıq hiper-diaqnoz cəzaları və tanınmış klinik qiymətləndirmə sistemləri (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Səlahiyyətlilik

Aparıcı müəllif Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). İcra (implementation) Julian Emirhan Bulut, Kantesti Ltd-nin CEO-su tərəfindən.

🛡️

Etibarlılıq

MIT lisenziyası ilə verilmiş təkrarolunan platforma (harness), xam mühərrik cavabları dərc edilib, açıq maraqların toqquşması açıqlaması, dörd platformalı tədqiqat güzgü şəbəkəsi.

🏢 Kantesti MMC İngiltərə və Uelsdə qeydiyyatdan keçib · Şirkət No. 17090423 London, Birləşmiş Krallıq · kantesti.net