بۆچی ئەم بنچمارکە هەیە و چی دەسەلمێنێت

تفسیرکردنی تاقیکردنی خوێن بە یارمەتی توانا (AI) بە ئێستا زیاتر بەکاردێت لە ڕێکارە کڕیار-بەکارهێنەر و ڕێکارە کلینیکی، بەڵام ڕێکخستنەوەی بنچمارکی بەهێز و دۆزینەوەی ڕەستەوخۆ (reproducible) کە بۆ پزیشکی لابراتۆری تەرخانکراو بێت هێشتا کەمە. پرسیارە گرنگەکان لەم شوێنەدا ئەوان نییەن کە لە بنچمارکە گشتییەکانی پرسیار-وەڵامدانی پزیشکیدا ڕوونکراون: ئایا دەتوانێت ئەنجامدەری (engine) کەمبودی ئاسن لە ڕەگەزەی تالاسێمییەوە جیا بکات کاتێک MCV (حجمە ناوەندییەی سلولی خوێنی) یەکسانە؟ ئایا زۆر-پزیشککردنی Gilbert's syndrome دەکات وەک هەپاتایت؟ و ئایا پاتۆلۆژی دروست دەکات لە پەکەی پشکنینی تەواو ڕاستەوخۆی بەرزسالی؟

دیاگرامەکەی ڕێژەی rubric ـی پێش-تۆمارکراو کە نیشان دەدات چۆن Kantesti AI Engine — V11 دووەم نوێکردنەوە، نمرەی 99.80% composite لە 100,000 کەیس — لەگەڵ ڕییارەکانی نمرەدان کە قفلکراون (frozen scoring criteria) تاقیدەکرێت
Wêne 1: سەرچاوەی بنەمای ڕێکخستنی بنچمارک کە پشتگیری دەکات لە پشتەوەی نمرەی پێکەوەیی 99.80% لە V11 دووەم ڕێکخستنی سەردەمی دووەم — کۆهۆرتی 100,000 کەیس؛ هەموو کەیس، هەموو کەلیمە-کلیدی، هەموو سیستەمی نمرەدان لە کۆدێکی سەرچاوەدا ڕێکدەخرێت پێش ئەوەی ئەنجین یەک PDF بینێت، و ڕوبریکەکە بە شێوەی هەمان-بایتی (byte-identical) لە ڕەهاکردنی یەکەم V11. ڕێکخستنی ڕوبریک لە دوایەوە (post-hoc) بە شێوەی دەستکاری‌نەکراوە لە هەمان شێوەدا ناممکنە.

یەک پەنێلی تاقیکردنی خوێن بە گشتی زۆر سیگنالی هەیە بۆ پشتیوانی لە چەند وێنەی جیاواز کە لە یەکدی تر دەکێشن، و کارەکەی پزیشکی تێکۆڵەر لەوەدایە کە ئەو وێنایانە لە یەکدی تر تراز بکات، نەک ئەوەی وەک وەڵامی کتێبی بگەڕێت. ئەو مووتورەی کە لە وێنە کتێبییەکان باش دەکات، هێشتا دەتوانێت لەو وێنە گرنگانەدا کەوتوو بێت: هەڵەکانی تێکەڵبوونی تێشخیص (differential-diagnosis)؛ و گۆڕاوە بەدەنگەوە (benign variants) کە لە تەنیشتدا دەبنە هەستیار و ترسناک؛ و پەنێلە تەواو ڕاستەوخۆ (fully normal) کە یاوەری یارمەتیدەرە باوەڕپێکراوەکان دەکات بۆ دروستکردنی پاتۆلۆژی.

ئەم بنچمارکە بە دڵنیایی لەسەر ئەو شێوە هەڵەبوونانە دروستکراوە. هەر یەک لە پازدە ڕووداوەکان (fifteen cases) بۆ یەک تایبەتمەندی تێشخیصی دیاریکراوە: میکرۆسیتۆسێی لەبەر کمبوونی ئاسن (iron-deficient microcytosis) کە دەبێت لە تایبەتمەندی beta-thalassaemia جیا بکرێت کە هەمان ناوەندی ڕێژەی جەسەمی خوێن (mean corpuscular volume) هەیە؛ ڕوونکردنەوەی Gilbert's syndrome کە تەنها هەڵەیەکی غیرعادی تێدایە بە شێوەی بەرزبوونی تەنها (isolated) غیرمستقیم (indirect)ی بیلیروبین؛ و پەنێلی ڕاگەیاندنی (screening) پازدە پارامێتەر کە هەر یەک لە ئانالیتەکان لە ناوەندی ڕێسەی خۆی (reference range) دایە. ڕێساکە (rubric) پاداشتی ئەو مووتورانە دەدات کە هەر ڕووداوەکە لەسەر شێوەی خۆی لێکدەدەن و سزا دەدات بۆ ئەو مووتورانە کە دەچن بۆ تێشخیصێکی باوەڕپێکراو کە هیچ یەک لەو تێشخیصە پێویست نییە.

وەک توماس کلاین، د.م. (Thomas Klein, MD)، من پەنێلی ڕووداوەکان هەڵبژارد چونکە ئەو شێوەیەی کە یارمەتیدەرەکانی لەبەردەستکردنی زانیاری لە مێژووی لابراتۆر (laboratory-medicine assistants) زۆرترین هەڵە لێی دەکەن، ئەمانەن. شێوەی هەڵەی گرانبها ئەوە نییە "لەدەستدانی نەخۆشییەکەی نایاب" — بەڵکو ئەوەیە پاتۆلۆژیی ڕێوتین (routine pathology) دروست بکات لە نەخۆشانی کە ئەوەیان نییە. Yên me Pejirandina Bijîşkî hub دەربارەی چوارچێوەی گەورەتر دەگێڕێت؛ ئەم لاپەڕەیە دەربارەی V11 یەکەمین ڕەخنەی (proof-of-concept) و V11 دووەمین نوێکردنەوە دەگێڕێت کە ئەوەی بۆ 100,000 ڕووداوەی سەرنجامەیی کە لە یەک کۆمەڵە ڕووداوە سەرنجامەییەکان ـە لەسەر 127 نیشانەی وڵات ـە بەرز کردووە؛ بە بەکارهێنانی هەمان ڕێکخستنی نمرەدان، byte-identical، و هیچ ڕێکخستنی پاش‌هەڵسەنگاندن (post-hoc tuning) پێویست نییە.

دووەمی ڕێکخستنی بەراوردی نوێ — V11 دووەم ڕێکخستنی (26ی ئاپرێل، 2026)

ڕێکخستنی بەراوردی V11 دووەم ڕێکخستنی لە 26ی ئاپرێلی 2026 نمرەی یەکپارچە (composite score)ی 99.80% لەسەر هەمان ڕوبریکەی پێش-دەستەواژەکراو (pre-registered) کە لە ڕەهاکردنی یەکەم V11 بەکارهاتووە، لەسەر 100,000 ڕووداوی سەرنجامەیی لە کۆمەڵە ڕووداوە سەرنجامەییەکانی Kantesti ـەوە و لەسەر 127 نیشانەی وڵات و زمانەکانی 75+. هەموو کەیسەکان تەواو بوون لەسەر ڕێگای سەرەکی ئەنجین؛ فڵاگی هەستیارکردنی (hyperdiagnosis) لە کەیسە دامەزراندراوەکان (trap-case) لە 0 / 87,412. ماندووە. ڕەهاکردنی یەکەمی V11 لە 23ی ئاپرێلی 2026 کە 15 کەیس دەستی-ڕێکخراو (hand-curated) دەگرێت (نمرەی یەکپارچە 99.12%) ڕوبریکەکە تایید کرد؛ دووەم ڕێکخستنیەکە هەمان ڕوبریکە بە هەمان-بایتی (byte-identical) دەپارێزێت و ئەزموونەکە دەگوازێتە سەر کۆهۆرتێکی بەهێزی لە حەجم-کۆمەڵ (population-scale).

یەکپارچە 99.80% 100,000 لە 100,000 کەیسەکان نمرەیان گرت
1.000 نمرەی سەرچاوەی ڕێکخستنی (Structural score)
0.996 نمرەی کلینیکی (Clinical score)
13.26 s ناوەندی کەمبوونەوەی وەڵام (Mean latency)
0 / 87,412 دامەزراندنی هەڵەی دروست-نەبوون (Trap false-positives)

وازەی یەکپارچە (composite formula) سێ بەش یەک دەکات: ڕێککەوتنی سەرچاوەیی (structural conformance) لەگەڵ حەوت بەشی ڕاپۆرتی مەجبوری و شانزە زیربەشی مەجبوری،, دروستی ناوەڕۆک بە شێوەی “یادکردنەوەی کلیل‌وەرد” (keyword recall) + “یادکردنەوەی سیستەمی نمرەدان” (scoring-system recall) + پشکنینی ڕاستی (validity) لەسەر دابەشبوونی ڕێژەیی (probability-distribution) و کەمبوونەوەی وەڵام (response latency) لە دڵنیایی ڕێژەی خزمەتگوزاری (service-level target) لە ڕێگای سەرەکی. تەجزیەی ڕاستەقینە لە خوارەوە لە فرمولەکەی ڕوبریک پیشان دەدرێت — هیچ یەک لەم وەزنە یان زیر-ڕوبریکانە بۆ دووەم ڕێکخستنی دەستکاری نەکراون.

یەکپارچە = 0.35 × سەرچاوەیی (Structural) + 0.55 × کلینیکی (Clinical) + 0.10 × نهێنی‌بوون (Latency)

0.20 بەدرەی سەربەخۆیی (percentage points)ی دیکەی هەڵسەنگاوەی (headroom) نزیکەی تەواو دەشکێتەوە بۆ زیر-نمرەی کلینیکی — بەشێکی بچووک لە کەیسەکان (بە تایبەتی لە Hepatology و Rheumatology) یەک کەلیمە-کلیدی لە سیستەمی نمرەدان کە پێویست بوو لە تفسیرەکەی ئەنجین نەبوو، هەرچەندە ناوەڕۆکی دەرمانی/دیاگنۆز (diagnostic content) ڕاست بوو. هیچ کەیسێک لە کۆهۆرتی 100,000 کەیسی دووەم ڕێکخستنیەکە، خودی دیاگنۆزەکە لەدەست نەدا. کەمبوونەوەی لاتەنس (latency) لە میانەی 20.17 s لە ڕەهاکردنی یەکەم V11 بۆ 13.26 s لە دووەم ڕێکخستنی باشتر بوو، کە دەربڕینی بەهێزکردنەوەی ئەنجین لە بەرهەمهێنان (production engine optimisations) لە نێوان دوو ڕێکخستنەکەدا؛ ڕوبریکەکە، کۆدی نمرەدان، و بەستەری API (API endpoint) نەگۆڕاون.

نمرەی کۆمباینکراوی هەر نیشانە (per-label) لە نێوان 0.9971 تا 0.9985 بوو لەسەر 30 نیشانەی وڵاتی زۆر-بەکارهاتوو. دۆڵی درێژ (long tail) ی 97 نیشانەی تر (نزیکەی 7,300 ڕووداو لە یەک کاتدا) هیچ کەمبوونێکی ڕێکخراو (systematic degradation) نەشاندا. زۆرترین نیشانەکان بە ژمارەی ڕووداوەکان بریتی بوون لە: ئەمریکا (10,500)، برازیل (9,500)، اسپانیا (9,000)، ئیتاڵیا (8,000)، ئەڵمانیا (7,800)، فەڕەنسا (7,400)، پۆرتوگال (5,800)، Türkiye (3,400)، پادشاھی یەکگرتوو (2,900)، و مەکسیک (2,500).

لە 15 ڕووداوەوە بۆ 100,000: گۆڕانکاری کۆهۆرت لەسەر 127 نیشانەی وڵات

پانێلی ڕووداوەکانی یەکەم (original) V11 هەفت تەخصصی پۆشاند — خوێنناسـی (hematology)، ئەندۆکرینۆلۆژی (endocrinology)، پزیشکی مێتابۆلیک (metabolic medicine)، هێپاتۆلۆژی (hepatology)، نێفڕۆلۆژی (nephrology)، کاردیۆلۆژی (cardiology)، روماتۆلۆژی (rheumatology) — هەروەها دوو ڕووداوی تایبەتی دامەزراندنی تاقیکردنەوەی هەڵە-دەستەواژەی زۆر-دڵنیایی (hyperdiagnosis trap)؛ هەر ڕووداوێک پانێلی تاقیکردنەوەی خوێنی بە شێوەی سەرنجامەیی دروستکراو بوو. V11 دووەمین نوێکردنەوە هەڵسەنگاندن دەگسترێت بۆ 100,000 ڕووداوی سەرنجامەیی لەسەر 127 نیشانەی وڵات, ، کە لە هەشت تەخصصدا دابەشکراون (ئەو هەفتەی سەرەکی + یەک بەشی تایبەتی internal-medicine کە بەشە دامەزراندراوەکە دەگرێت). هەمان ڕوبریکەی نمرەدان بە هەمان-بایتی (byte-identical) لە هەر دوو ڕێکخستنەکەدا بەکار دەهێنرێت.

پێکهاتە/دیزاینی پانێلی کەیسەکانی V11 یەکەم — پازدە کەیسە خوێنی دروستکراوی (synthetic) لە حەوت تایبەتمەندی پزیشکی بەهەمەکی + دوو کەیس-تراپ بۆ hyperdiagnosis؛ ئەم rubric ـە هەمان نمرەی کۆمباین 99.80% ـی بەدەست هێنا لەسەر 100,000 ڕووداو لە V11 Second Update
Wêne 2: ڕێکخستنی پەنێلی کەیسی یەکەمی V11 لە hematology، endocrinology، metabolic medicine، hepatology، nephrology، cardiology، rheumatology، هەروەها دوو کەیس دامەزراندراو — Gilbert's syndrome و پەنێلی تاقیکردنەوەی تەواو ڕاستەوخۆ (fully normal screening panel). دووەم ڕێکخستنیەکە هەمان ڕوبریکە بە هەمان-بایتی (byte-identical) دەپارێزێت، بەڵام کۆهۆرتەکە دەگوازێتە سەر 100,000 کەیس کە لە Kantesti کۆمەڵەی SQL دەرهێنراون.

چونکە هەموو ڕووداوەکان بە شێوەی سەرنجامەیی دروستکراون، هیچ ناسنامەی ڕاستەقینە نییە کە بسڕێتەوە و هیچ زانیاری تایبەتمەند بەکار ناهێنرێت. هەر ڕووداوێکی سەرنجامەیی کۆدی ڕووداوی ناوخۆی بنچمارک هەیە (BT-NNN-LABEL لە کۆمەڵەی یەکەمەوەی V11، بەردەوام case_uid لە دووەمین نوێکردنەوە). هیچ زانیاری تایبەتمەند لە هەر شوێنێکدا نییە لە ناوەڕاستی بنچمارکی بڵاوکراو، ڕاپۆرتی تەکنیکی، یان کۆمەڵەداتای بڵاوکراوە.

ڕەهاکردنی یەکەمی V11 — 15 کەیس دەستی-ڕێکخراو

پەنێلی کەیسەکانی V11 لەسەرەتاوە بە دەستی لە لایەن د. توماس کلاینەوە دیزاین کراوە بۆ ئەوەی ڕێنیشاندانی دۆزینەوەی (diagnostic patterns) کە یارمەتی‌دەری زانستی-لێدانی لابراتۆری (laboratory-medicine assistants) زۆرجار لێی دەکەونەوە، تمرین بکات. هەموو یەکێک لە پازدە کەیسەکان بۆ خاسیەتی دۆزینەوەیەکی تایبەتی هەڵبژێردرا، کە لە خوارەوە باسکراوە.

هەیماتۆلۆژی (3) BT-001, BT-006, BT-007 ئەنیمیا لەبەر کەمبوونی ئاسن (Iron deficiency anaemia) · کەمبوونی B12 · تەلەسەمیای بتا-خفیف (Beta-thalassaemia minor)
ئەندۆکرینۆلۆژی (3) BT-002, BT-008, BT-012 تێرۆئیدایتی هاشیمۆتۆ (Hashimoto's thyroiditis) · PCOS لەگەڵ نەهێڵی کاری ئینسولین (insulin resistance) · کەمبوونی سەختی ویتامینی D
مەتابۆلیک (2) BT-003, BT-013 T2DM لەگەڵ نەخۆشییە مەتابۆلیک (metabolic syndrome) · هایپەرئوریکێمیا (Hyperuricaemia) لەگەڵ مەترسی گوت (gout)
هێپاتۆلۆژی (2) BT-004, BT-009 NAFLD / NASH · هەڵەی ڤایرۆسی سەختی هێپاتیت
نێفرۆلۆژی · کاردیۆلۆژی · ڕوماتۆلۆژی (3) BT-005, BT-010, BT-011 CKD پەلەی 3 · دیسلێپیدێمیای تێکەڵکەرەوەی ئەتەروژنیک (Atherogenic dyslipidaemia) · لۆپوسی ڕەشەیی سیستەمی (Systemic lupus erythematosus)
هەڵسەنگاندنی دامەزراندنی تێکەڵکردنی هەڵە (2) BT-014, BT-015 نەخۆشی گیلبرتی (تەنها هایپەر بیلیروبینێمیا لەبەر ڕێژەی غیرمستقیم) · سکرینینگی بەڵغی ڕاستەوخۆی بەدەستەوەی ئادڵت

بۆچی ئەم توزیعە تایبەتمەندە

لە هەژمارییەکان سێ کەیس دەدرێت چونکە جیاوازییە میکروسایتیکەکان و جیاوازییە ماکروسایتیکەکان زۆرترین دامەزراندنەکانن لە کارکردی ڕاستەقینەی لابراتۆری. لە ئەندۆکرینۆلۆجی سێ کەیس دەدرێت چونکە پیشکەوتنی Hashimoto's، PCOS، و کمبودی ویتامین D شێوە جیاوازەکان دەهێنن بۆ دۆزینەوە (لەوانەی خۆ-ئانتی‌بادی دەرهەقەکەوتوو، لەوانەی نێسبەتی هۆرمۆن-محور، و لەوانەی یەک-نیشان-محور). تایبەتمەندییە یەک-کەیسەکان هێشتا مانادارن چونکە هەر یەک لە CKD، خەتری ASCVD، و SLE سیستەمی خۆی بۆ نمرەدان هەیە کە ئەنجامەکە دەبێت بەکاربهێنێت (KDIGO پەلەبەندی، خەتری 10 ساڵەی ASCVD، و 2019 EULAR/ACR بۆ شێوەی SLE بە شێوەی یەکەوە).

V11 دووەمین نوێکردنەوە — 100,000 ڕووداوی سەرنجامەیی لەسەر 127 نیشانەی وڵات

دووەمین نوێکردنەوە جێگرتنی V11 یەکەمین ڕێکخستنی سەخت (hard-coded) ی 15-کەسی پایتۆن دەکات بە کۆمەڵەیەکی گەورەتر کە بە شێوەی بەرنامەیی دروستکراوە (programmatically generated) ـە. کۆمەڵە ڕووداوەکان لە دەستپێکی هەر ڕاڕەوە (run) بار دەکرێت و ڕێکخستنی (configuration) بۆ ڕوونکردنەوە تۆمار دەکرێت. دابەشبوونی کۆهۆرت بە ناوەڕۆکی تەخصصی خوارەوە پیشان دەدرێت.

Endokrinolojî 23,900 کەیس (23.9%) Thyroid, PCOS, vitamin D, gonadal axis, pituitary
Metabolic medicine 21,900 کەیس (21.9%) T2DM, metabolic syndrome, lipid panels, hyperuricaemia
Hematolojî 15,400 کەیس (15.4%) جیاوازییەکی میکرۆسیتیک و ماکروسیتیک، B12/folate، iron studies
جێگرپزیشکی 12,400 کەیس (12.4%) NAFLD/NASH، viral hepatitis، FIB-4، cholestasis
Internal medicine (لەوانەش trap subset) 9,000 کەیس (9.0%) پێشکەشکردنی جیاواز و 8,723 کەیسە تایبەتمەندەکانی trap بۆ hyperdiagnosis
کاردیۆلۆژی 7,500 کەیس (7.5%) ASCVD risk، atherogenic dyslipidaemia، hs-CRP
رێماتۆلۆژی 6,000 کەیس (6.0%) SLE، RA، vasculitis، autoantibody panels (مەعیارەکانی EULAR/ACR)
Nefrolojî 4,000 کەیس (4.0%) CKD staging (KDIGO)، هەڵسەنگاندنەوەی روندی eGFR، هەڵوەشاندن/کێشەی تێکەڵی ئێلەکترۆلیت (electrolyte disturbance)

دابەشبوونی نیشانەی وڵاتی سەرنجامەیی — 10 نیشانەی سەرەکی

100,000 ڕووداوی سەرنجامەیی نیشانەی وڵاتی 127 هەیە (ISO 3166-1 alpha-2) بۆ بەکارخستنی چارەسەری شوێن/کولتور (locale handling). دانانی نیشانە: Europe 57.7%، the Americas 25.4%، Asia-Pacific 6.2%، نیشانەکانی Middle-East/Africa 3.4%، و دۆڵی درێژ (long tail) ی 97 نیشانەی تر نزیکەی 7.3% لە یەک کاتدا. دەه نیشانەی زۆرترین بە ژمارەی ڕووداوەکان بریتی بوون لە: ئەمریکا (10,500)، برازیل (9,500)، اسپانیا (9,000)، ئیتاڵیا (8,000)، ئەڵمانیا (7,800)، فەڕەنسا (7,400)، پۆرتوگال (5,800)، Türkiye (3,400)، پادشاھی یەکگرتوو (2,900)، و مەکسیک (2,500). نمرەی کۆمباینکراوی هەر نیشانە لە نێوان 0.9971 تا 0.9985 بوو. ئەم ژمارانەی نیشانەکان تایبەتمەندی ڕووداوە سەرنجامەییەکانن کە بۆ بەکارخستنی locale handling بەکاردێن — نە کاربەری ڕاستەقینە نین و نە پۆشانی جغرافیایی ڕاستەقینە.

روبریک پێش‌تۆمارکراوەکە، ڕوونکراوە

پێش-تۆمارکردن گرنگترین هەڵبژاردەی ڕێکارەتییە لە ئەم بنچمارکە. هەر دۆزینەوەی هەموارکراو، هەر سیستەمی نمرەدان لینییەوە، و هەر بەشی ڕاپۆرت لە کۆدی سەرچاوەدا قەدەغەکراو بوو پێش ئەوەی ئەنجامەکە بەکاربهێنرێت. لەبەر ئەوە، تەونکردنی دوای-لەوەی ڕێگاکان بۆ ڕەخنەگرتن/خوشکردنی ئەنجامەکە ناممکنە.

سێ بەش دەکەنە یەک نمرەی یەکپارچە. ئەو بەشی سەرکەوتن/سەرکەوتاری (structural) 35 لەسەد دەبێت و دەسەلمێنێت ئایا ئەنجامەکە هەفت بەشی اجباریی ڕاپۆرت (سەردێڕ، ڕوونکردنەوەی کورت، سەرەکیترین دۆزینەوەکان، جیاوازی، سیستەمەکانی نمرەدان، پێشنیارەکان، دوای-لەوە) و شانزە بەشی اجباری لە ناو هەموویاندا برگەی هەبووە. بەشی هەبوونی سەکشن 40 لەسەد وزن دەدات و بەشی هەبوونی ساب-سەکشن 60 لەسەد وزن دەدات لە ژمارەی سەرکەوتاری.

Ew بەشی کلینیکی (clinical) 55 لەسەد دەبێت و سێ شت یەک دەکات: یادکردنەوەی وشە-کلیدی دۆزینەوە (70 لەسەد لە نمرەی زیربەشی کلینیکی)، یادکردنەوەی سیستەمی نمرەدان (20 لەسەد — ئایا ئەنجامەکە Mentzer، FIB-4، HOMA-IR، خەتری ASCVD، KDIGO پەلەبەندی، و ڕیارەکانی EULAR/ACR لە کاتێکدا پێویستە محاسبه دەکات)، و چێککردنی درستی-کۆمەڵی هەملەوە (10 لەسەد — بایەخی جیاوازییەکان دەبێت کۆیەکەیان لە ناو بازەی [90, 110] بمێنێت). بۆ کەیسە دامەزراندنەکان، جریمهیەکی ڕوون بۆ «هەردۆزینەوەی زیاتر» تا 0.30 دەکەوێت، کە لە 0.10 بۆ هەر پرچمی پاتۆلۆژی ساختەکراو محاسبه دەکرێت و لە سێ پرچمدا سنوردار دەبێت.

Ew بەشی کەم-لەوەی دەم/لاتێنسی (latency) 10 لەسەد دەبێت. وەڵامێک کەمتر لە 20 کاتژمێر/دوایە (seconds) دەبێت 0.10 بەکامل دەبێت، وەڵامێک کەمتر لە 40 کاتژمێر/دوایە دەبێت 0.05، و هەر شتێک زۆرتر دەبێت صفر. ئامانجی 20 کاتژمێر/دوایە بازتابی ڕێکخستنی ئامادەسازی/خزمەت-دەستەواژەی سەرەکییە (production primary-path service-level objective) ـە؛ سنوردانی 40 کاتژمێر/دوایە بازتابی بودجەی پاشگەردانی (fallback) بۆ فەزای 2 ـە بۆ کاتێکی ئەنجامەکە زۆر بەهێز/گرانی بەکاربهێنرێت.

وێنە-سکرین (terminal screenshot) ـی کۆتایی لە هارنسە بنچمارکی Kantesti ـی بە MIT licence کە دەچێت و نمرەی هەر کەیسێک دەدات — هەمان هارنسە، کە ئێستا SQL ـمحورە، نمرەی 99.80% composite لە ڕانەکەی 100,000 کەسی V11 دووەم نوێکردنەوەدا دروستکرد
Wêne 3: هارنس لە کارکردن — هەمان ئەنجامەی کە دروستی کرد 99.80% نمرە کۆمپیۆزیتی لە کۆهۆرتی 100,000-کەیس لە V11 Second Update. هەر کەیسێک بە A4 PDF دەردەکەوێت، بۆ دۆزەی پڕۆدکشن v11 دەدرێت، و لەسەر روبریکەی فریزکراو نمرە دەدرێت. Second Update پارامێترکراوی SQL case loader زیاد کرد؛ نموونەی هەڵبژێردراوی تەواو-بەشکراو لە وەڵامە خامی ئەنجامەوە (n = 201) لەگەڵ کۆکردنەوەی scorecard ـە کۆکراوەدا دەهێنرێت.

چی پێش-تۆمارکردن دەگرێت

بنچمارکەکانی لایەن-یەکەم (first-party) زۆرجار بەهۆی تەونکردنی ڕێگاکان لە دوای-لەوەدا ژمارەکانی خۆیان زۆر دەکەن. شێوەکە زۆرجار یەکسانە: تیم ئەنجامەکە دەڕێت، دەبینێت لە کوێدا کەم دەسەڵاتە، دواتر بە ئاسایی ڕێگاکان تەون دەکات بۆ ئەو ناوچانەی کەم دەسەڵاتە کەمتر حساب بکرێن. بە تۆمارکردنی ڕێگاکان لە کۆدی سەرچاوە پێش یەکەم بانگی ئەنجامەکە و بڵاوکردنەوەی harness بە لایسەنس MIT، ئەو تەونکردنە دەبینراو دەبێت لە ناو وێژن-کۆنترۆڵ. هەر کەسێک دەتوانێت ڕێپۆزیتۆری بکڵۆن بکات، داتەی نووسەری ڕێگاکان چێک بکات، و دڵنیابێت کە وەڵامەکانی ئەنجامەکە بەکارنەهاتوون بۆ شێپەدان/ڕێکخستنی نمرەدان.

کیسەکانی دامەزراندنی هێپر-دیئاگنۆز (Hyperdiagnosis) — بۆچی زۆر-داواکاری (over-calling) ڕێژەی شکستی سەرەکییە

زۆر-هەڵگرتنی (over-calling) پاتۆلۆژی لە سکرینەکانی ڕاستەوخۆی نۆرم، شێوەی نەکامییەکی ڕوونە کە لە یارمەتی-پزشکییەکانی بۆ بەکارهێنەری کڕیار (consumer-facing) ڕوونکراوە. هەڵسەنگاندنە دوایینەکەی لەگەڵ خەرجی ناڕەوا دەچێت: توێژینەوەی ناچار، دڵتەنگیی نەخۆش، و کارکردی نادروستی (iatrogenic workup). دوو کەیسە دامەزراندنەکان لە ئەم بنچمارکەدا دروستکراون بۆ ئەو نەکامییە ڕوون و نمرەپذیر بکەن.

بەراوردی لە-کنار-یەکدی (side-by-side) ـی دروستکردنی هەڵەی AI ـی سادە کە هێپاتایت دروست دەکات لە پەنێلی Gilbert's syndrome بەرامبەر لەگەڵ ئەنژینەی Kantesti کە بە ڕاستی پۆلیمۆرفیزمی خۆبەخۆی UGT1A1 دەناسێت — ڕێبازێک کە لە V11 دووەم نوێکردنەوەدا لە 87,412 ڕێژەی هەستیار بۆ پرچمی دامەزراندن (trap-flag opportunities) ـدا بۆ صفر false-positives گەورە بوو — لە بنچمارکی 99.80%
Wêne 4: دزەی کەیسە دامەزراندنەوە لە دەرچوونی یەکەمی V11 — ئەنجامێک کە بە باوەڕی گیلبرتس سنرۆمە دەناسێت وەک هێپاتایت، یان کە پاتۆلۆژی لەسەر ڕەخنەی تەواو ڕاستەوخۆ دروست دەکات، بە جێگیرکردن سزا دەدرێت نەک بە پاداشتی دەنگدان بۆ کلینیکی. ئەم ڕێبازە بۆ 0 / 87,412 false-positives لە ڕێکخستنی V11 Second Update ـی 100,000-کەیسدا گسترایەوە کە نمرە کۆمپیۆزیتی 99.80% دروست کرد.

🟡 کەیسە دامەزراندن 1 — BT-014-GILBERT

پیشکەوتن. پیاوێکی 24 ساڵە باڵانسەکەی بیلیروبینی تەواو 2.4 mg/dL ـە. بەشی دایرێکت نۆرمە، ترانسفێرێزەکان و فێرمەی ئاسایی (alkaline phosphatase) لە ناو ڕێژەی ڕێفەرەنسدا دان، رێتیکولۆسایتەکان (reticulocytes) ناڕوون/ناڕاستەقینە نین، و haptoglobin و LDH هێمولایز (haemolysis) دەردەخەن.

تفسیر/هەڵسەنگاندنی ڕاست. Gilbert's syndrome — جۆرێکی خۆش/بێخەتەر UGT1A1 polymorphism. تفسیر دەبێت هێپاتایت، سیرۆز، ئانێمیای هێمولایتیک، یان بەستنی ڕێگای صفراوی (biliary obstruction) بەکار نەهێنێت.

ڕەسولتی V11. یەکپارچە 1.000. هیچ یەک لە شەش پرچمی سەرەکییەوە بۆ هەردۆزینەوەی زیاتر کە لێی سەیری کراو بوو، وەک دۆزینەوەی فعّال دەرنەکەوت.

🟡 کەیسە دامەزراندن 2 — BT-015-HEALTHY

پیشکەوتن. کچێکی 35 ساڵە، لەگەڵ پەنێلی ڕێکخستنی سکرینینگی پێنج-پارامێتەر (15 پارامێتەر). هەر یەک لە تاقیکردنەوەکان بە ئاسانی لە ناو بازەی سەرچاوەی ڕێفەرەنسدا دانیشتوون.

تفسیر/هەڵسەنگاندنی ڕاست. دڵخۆشکردنەوە و پەسەندکردنی ڕێژەی ژیان. تێگەیشتن نابێت بە شێوەیەک کێشەی لەسنوور (borderline) دروست بکات بۆ ئەوەی بەکاربردنی کلینیکی لەخۆی بگرێت.

ڕەسولتی V11. کۆمبۆزیت 1.000. هیچ کام لە هەفت ئاگادارکردنەوەی زیاده‌ڕۆیی سەرەکی (over-diagnosis) ــ دیابتێس، ئەنێمیا، خۆشبوونی کارکردنی تیروئید (hypothyroidism)، دیسلپیدیمیا، هێپاتیت، نەخۆشی کلیە، کمبود ــ نەبوون بە وەک وەک نەخۆشیی کاری (active diagnoses).

لە هەردوو تاقیکردنەوە (traps)، سیزدە ئاگادارکردنەوەی زیاده‌ڕۆیی (hyperdiagnosis) ــ سکرین کراون. هیچ کام لەوانە چالاک نەبوون. ئەمە ئەنجامێکە کە زۆرترین گرنگی هەیە بۆ هەر کلینیسینێک کە دەیەوێت لەوەی AI بۆ وەک ئامرازێکی تریاژ یان پێش-کۆنسالت بەکاربهێنێت: سیستەم نەخۆشی نەدروست کرد کە لەوەدا نەبوو.

شاخص منتزر: جیاکردنەوەی کەمبودی ئاسن لە ڕەگەزەی تالاسێمییەوە

دۆزینەوەی دووەم کە گرنگی زۆری هەیە لە جفتکردنی کیس BT-001 (ئەنێمیا بەهۆی کەمبوونی ئاسن) لەگەڵ کیس BT-007 (کوچکی بتا-تالاسێمیا، minor). هەردوو لەگەڵ میکرۆسیتۆس (microcytosis) دەردەکەون و ئەمە بە شێوەیەکی ناسراو کێشەی سەرەکییە بۆ کڵاسێفایەرە سادەکان. شاخصی Mentzer، کە بە شێوەی MCV بەسەر ژماری RBC ـەوە (RBC count) دابەش دەکرێت، لە کەمبوونی ئاسن زیاتر لە 13 ـە و لە ڕەگەزی تالاسێمیا کەمتر لە 13 ـە.

لە BT-001، نەخۆشەکە کچێکی 34 ساڵە بوو بە HGB 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فێریتین 6 ng/mL، و TIBC ـی بەرز. شاخصی Mentzer نزیکەی 17.7 پشتیوانی دەکات بۆ کەمبوونی ئاسنی بەهێز (absolute iron deficiency). لە BT-007، نەخۆشەکە پیاوێکی 28 ساڵە بوو بە میکرۆسیتۆس (MCV 65.8 fL) بەڵام ژماری RBC ـی بەرز 6.2، RDW ـی ڕێک (normal)، فێریتین ـی ڕێک، و HbA2 بە 5.6 percent. شاخصی Mentzer نزیکەی 10.6 دەلالەت دەکات بۆ ڕەگەزی تالاسێمیا، و HbA2 ـی بەرز ڕاستی بتا-تالاسێمیا مینور تایید دەکات.

ئەنێمیا بەهۆی کەمبوونی ئاسن Mentzer > 13 فێریتین کەم، TSAT کەم، TIBC بەرز، RDW بەرز
ڕەگەزی بتا-تالاسێمیا Mentzer < 13 فێریتین ڕێک، RDW ڕێک، HbA2 بەرز (>3.5%)، ژماری RBC بەرز

هەردوو کیسەکە نمرەی 1.000یان گرت. ئەنجامەکە شاخصی Mentzer بە ڕوونی لە هەردوو تێگەیشتنەوەدا بەکاربرد و لە هەموو هەنگاوێکدا دۆزینەوەی ڕاست پیشان دا. ئەمە یەکێکە لە دڵخۆشکەرترین ئەنجامە کلینیکییەکان لە هەموو بنچمارکەکە, ، چونکە نادرست کڵاسێفایکردنی ڕەگەزی تالاسێمیا بە وەک کەمبوونی ئاسن دەبێت بۆ دابەشکردنی پێداویستی ئاسن بە شێوەی ناڕەوا و دەستکەوتنی ڕێکخستنی خێزان (family-screening) بەجێ بمێنێت، و نادرست کڵاسێفایکردنی کەمبوونی ئاسن بە وەک تالاسێمیا دەبێت چارەسەری ڕوون و ڕاستەوخۆ بەخێرایی بکات. ئەمەی ڕێنمای ڕەنجی فێریتین ڕوونکردنەوەی بەستەری گشتییە لە بەرەوڕووی جیاوازی (differential) ـەوە.

ئەنجامەکان بە هەر کەیسێک لە ڕێکخستنی سەرچاوەی یەکەمی V11 (23ی ئاپرێلی 2026)

ڕێکخستنی سەرچاوەی V11 ـی یەکەمی لە کۆهۆرتی proof-of-concept ـی 15 کەیس بەکار دەهێنێت بۆ ئەو بنەمای ڕێبازەیی لە Second Update: هەر وردەکارییەکی کە لە خوارەوە بۆ هەر کەیسێک دەردەکەوێت، دەبینێت چۆن روبریکەکە وەڵامی ڕاستەقینەی ئەنجامە دەگێڕێت. دوازدە لە پازدە کەیس نایلە سەرکەوتنی سەرەکی (ceiling) نمرە کۆمپیۆزیتی 1.000 لەسەر ڕێگای سەرەکی؛ سێ کەیس بە ڕێگای Phase 2 fallback پیشکەش کران، بەدەست هێنانی پاداشتی نهێنی latency ـی 0.05، بەڵام هەموو ناوەڕۆک و تێکست و ڕوونکردنەوەی کلینیکی و سەرچاوەیی پاراست. یەک کەیس یەک بەشەی سەرەکییەی پێویست لەبەردەست نەبوو؛ یەک کەیس وەکەی توزیعی بەڕێژەیەکی کەمتر لە کۆیەکی probability ـەوە وەگەڕاند.

ناسنامەی کیس (Case ID) پسپۆڕی یەکپارچە لاتێنسی پات (Path)
BT-001-IDAHematolojî1.00017.8 sprimary
BT-006-B12Hematolojî1.00018.4 کاتژمێرprimary
BT-007-THALHematolojî1.00017.0 کاتژمێرprimary
BT-002-HASHEndokrinolojî0.95037.0 کاتژمێرهەڵبژاردەی دابەزین
BT-008-PCOSEndokrinolojî0.98718.6 کاتژمێرprimary
BT-003-T2DMMetabolîk1.00019.1 کاتژمێرprimary
BT-013-GOUTMetabolîk1.00019.4 کاتژمێرprimary
BT-004-NAFLDجێگرپزیشکی1.00019.6 کاتژمێرprimary
BT-009-VIRHEPجێگرپزیشکی0.95023.4 کاتژمێرهەڵبژاردەی دابەزین
BT-014-GILBERTدامەزراندن1.00018.9 کاتژمێرprimary
BT-005-CKDNefrolojî1.00017.4 کاتژمێرprimary
BT-010-ASCVDکاردیۆلۆژی1.00019.7 کاتژمێرprimary
BT-011-SLEرێماتۆلۆژی0.98118.2 sprimary
BT-012-VITDEndokrinolojî1.00019.3 sprimary
BT-015-HEALTHYدامەزراندن1.00018.7 sهەڵبژاردەی دابەزین

کەیسەکەی PCOS (BT-008) یەک بەشێکی سەرەکی (mandatory subsection) لە ڕێکخستنی وەسفی وەڵامدا لەدەستدا—پانزە لە شانزە بەجای شانزە لە شانزە—کە ئەمە نمرەی ڕێکخستاری (structural score) لە 1.000 بۆ 0.963 کەمکرد. کەیسەکەی SLE (BT-011) کۆمەتی کەمبوونەوەی کۆمەی ڕێژە-ڕەخنەی (probability-distribution sum) وەگەڕاندەوە کە نمرەی کلینیکی (clinical score) بۆ 0.965 کەمکرد لەگەڵ پاراستنی هەموو وشە سەرەکی دیانۆستیک و سیستەمی نمرەدان. هیچ یەک لە دوو کەیسە ناتەواوەکانە (sub-perfect) دیانۆستیکی ڕاست لەدەست نەدا.

کۆکردنەوەی V11 Second Update — 100,000 کەیس

لە ڕووی قەبارەی کۆمەڵایەتی (population scale)، سطری ڕووداوەکان (case rows) بە شێوەی مرۆڤ-خوێنەر (human-readable) نییە، بۆیە دووەمین نوێکردنەوە بەڵگەی کۆکراو (aggregated metrics) دەگزارێت نەک تەبلی 100,000-سطر. کۆتایی سەرەکی (headline aggregate) لە خوارەوە پیشان دەدرێت؛ جیاوازی بە تەخصصی و بە نیشانەی وڵات لە ڕاپۆرتی تەکنیکی و لە دابەزاندنی Figshare بڵاوکراوە. نموونەیەکی هەڵبژێردراوی تەواو-بەشکراو لە n = 201 وەڵامە خامی ئەنجامەوە (seed ـی دیاریکراو 20260426) بۆ سەیرکردن لە GitHub ـدا دەخرێتەڕوو results/ دایرێکتۆری.

نمرە کۆمپیۆزیتی یەکەمی V11: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 لە کۆهۆرتی 100,000-کەیسدا
نمرەی سەرچاوەیی (میانگین) یەکەمی V11: 0.998 → Second Update: 1.000 تەواوی ڕێککەوتنی سەرچاوەیی لە قەبارەی کۆمەڵایەتی
نمرەی کلینیکی (میانگین) یەکەمی V11: 0.998 → Second Update: 0.996 −0.002؛ هیچ کەیسێک نەبوو کە خۆی ڕێکخستنی دەرمانی/دیاگنۆزەکە لەدەست بدات
نهێنییەتی — میانە (بازه) یەکەم جار V11: 20.17 کاتژمێر (17.0–37.0 کاتژمێر) → دووەم نوێکردنەوە: 13.26 کاتژمێر (9.0–16.94 کاتژمێر) بەهێزکردنەوەی ڕێکخستنی مووتۆری پڕۆداکشِن لە نێوان هەڵسەنگاندنەکان
ڕێچکەی مووتۆر = سەرەکی یەکەم جار V11: 12 / 15 → دووەم نوێکردنەوە: 100,000 / 100,000 هیچ کات پێویستی بە پاشگەڕانەوەی فازە 2 نەبوو لە هەر شوێنێک لە ماوەی هەڵسەنگاندنەکە
پرچمەکانی هەستیارکردنی زۆر-بەڕێوەبردنی زیرمجموعەی تاقیکردنەوە (trap-subset hyperdiagnosis) یەکەم جار V11: 0 / 13 → دووەم نوێکردنەوە: 0 / 87,412 هەیچ هەڵە-هەڵبژاردنی دروست-نەبوو (false-positives) نییە لە ڕەقەی گشتی (8,723 کەیس تاقیکردنەوەی trap کە سەیری کراون)

ئەوەی کۆری سەرەکی نازانێت بۆمان

نمرەی کۆمباینکراو 99.80 لە سەد لەسەر ئەم ڕێکخستنی پێش‌ڕەگسترکراوەی تایبەتی، لەسەر کۆهۆرتی سەرنجامەیی 100,000-کەسی کە لەسەر 127 نیشانەی وڵات دەگرێت، نزیکەی کارایی لە سەر-سقف (near-ceiling performance) ـە — بەڵام دەبێت بە دقت ڕەخنە/چوارچێوە بکرێت. ئەنجامەکە ڕەفتاری ئەنجامدەری (engine) دەنووسێت لەسەر ڕێکخستنی کەمان کە لە V11 لە کۆدی سەرچاوەمان پەیمان کردووە؛ ئەمە نەک داوای گشتیە بۆ ڕاستی ئەنجامدەری لە هەر پانێلی تاقیکردنەوەی خوێن کە لە دنیای ڕاستدا هەیە.

نمرەکە دەڵێت مووتۆر ڕێنیشانە دیاریکراوەکانی ڕێکخستنی تاقیکردنەوەی دیاری (diagnostic patterns) ـی ئەم هەڵسەنگاندنە بە ڕێکخستنی ڕاست لەسەر کۆهۆرتێکی ڕەقەی گشتی جێبەجێ کردووە، بە پێوەرییەک کە بڵاوکراوە و دەتوانرێت دووبارە بکرێتەوە. ئەمە نەک دەڵێت مووتۆر لە هەر پەنێلی تاقیکردنەوەی خوێنێک کە لە دەرەوە هەیە ڕاستە. ئەمە نەک دەڵێت مووتۆر دەبێت جێگەی ڕاڤەکار/پزشک (clinician judgment) بگرێت. و نەک دەڵێت مووتۆر لە سیستەمەکانی تێکەڵی دیکەی ڕەخنەیی (AI) بەهێزترە — لێکۆڵینەوەی بەراوردی لەگەڵ مووتۆرەکانی دیکە بە هۆی دڵنیاییەوە لە دایرەی ئەم ڕاپۆرتەدا نەبوو.

ئەوەی نمرەکە بە ڕاستی دڵنیایی دەکات بریتییە لە بنەمایەک. کاتێک rubric و harness ـەکە ئاشکرا بن، وەشنەی داهاتووی مووتۆر دەتوانرێت لەسەر هەمان rubric ـە هەڵسەنگێت — بەکاربردن بۆ 15 کەیسە یەکەم جارەکانی V11، کۆهۆرتی 100,000 کەیس لە دووەم نوێکردنەوە، یان هەر گەشەکردنێکی دواتر — و جیاوازی نێوان نمرەی بڵاوکراو و هەر هەڵسەنگاندنەوەی دواتر، خۆی بەخۆی دەتوانرێت بەسەنگ بکرێت. ئەمە بەهای pre-registration ـە: ئەوەی دەعاوی کارایی (performance claims) دەگۆڕێت بۆ دەعاوی دەتوانرێت لێتاقیکردنەوە (testable claims).

چۆن ئەم بنچمارکە دروست بکەین لە 10 خولەکدا

بەدووبارەکردن (Reproduction) تەنها پێویستی بە جۆرێک لە وەسڵی API (Kantesti) و هەیەوەی Python 3.10 ی یان زۆرتر هەیە لەگەڵ ئەو requests û reportlab کتێبخانەکان (libraries) دامەزراون. هارنسە تەواوەکە یەک ماژولێکی Python ـی یەک-خۆیی (single self-contained) ـە کە لە ژێر ڕێسای MIT دەرکراوە.

ڕێنموداری شەبەکەی توانا/بەدوامبوون (reproducibility) کە بنچمارکی V11 Second Update ـە پیشان دەدات (99.80% کۆمباین، 100,000 ڕووداو، 127 لیبلی وڵات) کە لە سەر Figshare، ResearchGate، Academia.edu و GitHub بە شێوەی mirrored دەبێت، بە DOI ـی Figshare وەک لەنگەر/بنەمای کانونی
Wêne 5: بنچمارکی V11 لە دووەم نوێکردنەوە — نمرەی کۆمباینکراوی 99.80% لەسەر 100,000 ڕووداو لەسەر 127 نیشانەی وڵات — لە سەر چوار پلاتفۆرمی توێژینەوەدا دەبێت بە شێوەی یەکسان/لەبەرچاوکراو (mirrored). ناسنامەی زانستی-کانونی (canonical) بۆ DOI ـی Figshare ـە؛ ResearchGate (publication 404175463)، Academia.edu (paper 165956808)، و GitHub کۆپییە هاوشێوەکان دابین دەکەن لەگەڵ بنچمارک-هارنس، نموونەی ڕەندە-دابەشکراوی ستراتیفایکراوی وەڵامە خامەکان، و کارتێکی نمرەدان بە پێی وڵات/لیبل و بە پێی تایبەتمەندی.

چوار گام بۆ run ـێکی نوێ

یەکەم. کۆپی/کلۆنکردنەوەی ڕێپۆزیتۆری (repository): git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. دووەڵ. دابەزاندنی پێداویستییەکان بە pip install -r requirements.txt (دووەم نوێکردنەوە زیاد دەکات mysql-connector-python ≥ 8.0 بۆ بارکردنی کەیسەکانی SQL). چوارە. دابنێ KANTESTI_USERNAME û KANTESTI_PASSWORD وەک وەریەبلەکانی هەستەوە (environment variables) بۆ API ـی مووتۆر. بۆ بارکردنی کەیسەکانی SQL لە دووەم نوێکردنەوە، هەروەها دابنێ KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, û KANTESTI_DB_PASSWORD — لە ڕێگای ئەو ڕۆڵە دەستپێک دەکات کە تەنها-خوێندنەوەیە (bench_reader) کە هیچ دەسەڵاتێکی نییە بۆ ناساندنی جەدولەکان. چوارە. ڕێکبخە python benchmark_bloodtest.py --limit 100000 بۆ ڕێکخستنی تەواوی Second-Update، یان python benchmark_bloodtest.py --limit 1000 بۆ گەڕانەوەی خێرا. ئەنجامەکان دەگەڕێنەوە لە ./benchmark_results/: کارتێکی نمرەدان بە شێوەی CSV کە ستوونی لەگەڵ لیبلەکانی وڵات و تایبەتمەندییەکان هەیە، کۆمەڵەی JSON، نموونەی وەڵامی خامی ستراتیفای-ڕەند، و ڕاپۆرتێکی Markdown.

ڕێژەی سەرەکی (reference) لە 23 April 2026 (V11 initial، 15 cases) و 26 April 2026 (V11 Second Update، 100,000 cases) پارێزراون لە results/ دایرکتۆریی ڕێپۆزیتۆری. ڕێکخستنی نوێ timestamped scorecard دروست دەکات بەبێ ئەوەی ڕێژەی سەرەکی دستکاری بکات. ئەگەر ڕێکخستنت ئەنجامێکی بەهێز لەگەڵ ئەوەی تر جیاواز دروست بکات، تکایە GitHub issue بکە لەگەڵ timestampی ڕێکخستن و engine version کە لە ناوەڕاستی metadataی وەڵامەکەدا دەردەکەوێت.

مەحدوودییەکان و کارە داهاتوو

لە هەموو 100,000 ڕووداو لە 127 لیبلی وڵاتداشدا، چوار مەحدوودیت دەبێت بە ڕوونی ئاشکرا بکرێت: کەم-نموونەبوونی لیبلی درێژ-دُم (long-tail) ، بەهێزبوونی تاقیکردنەوە بە یەکجار (single-shot evaluation)، بەسەرچاوەی یەک-موتۆر (single-engine scope)، و سەرچاوەی یەک-سەرچاوەی زانیاری (single-source data origin). هەموویان لە کاری پێشکەوتوو/دنبالکردنی زۆر بەردەوامدا چارەسەر دەکرێن.

ڕوپۆشانی لیبلی درێژ-دُم. ڕاپۆرتی «دووەمین بەروزرسانی» (Second Update) لە 127 لیبلی وڵاتدا دەگرێت، بەڵام توزیعەکە ناموزونە — یەکەم 10 لیبل دەکات بە نزیکەی ≈66.4% ـی ڕووداوەکان، و دُمە درێژەکەی 97 لیبلی تر بە یەکجاری ≈7.3% (نزیکەی 7,300 ڕووداو بەهەمەکی، ~75 ڕووداو بۆ هەر لیبل بە ڕاستەوخۆ لەسەر ڕێژەی ناوەندی). بۆیە کۆمباینەکان بەپێی هەر لیبل لە ئەم دُمە درێژەدا هەڵە/سروشتی-دەنگدارترن لەوەی کە ڕەنگدانە سەرەکییەکان دەیسەلمێنن. ڕانەکانی داهاتوو لیبل-دانەکە دوبارە توازن دەکەن بۆ ئەوەی برآوردەکان بەپێی هەر لیبل بەهێزتر بن.

سنجش بە یەکجار. هەر case لە کۆهۆرتەکە یەک جار هەڵسەنگێندرا. مودێلە زۆر-زمانی (large language models) نیشاندەری جیاوازیی وەڵامێکی گرنگنەوەیە (non-trivial output variance) هەتتا لە کەمترین دەرکەوتنی هەڵبژاردن (low sampling temperature)، بۆیە ڕێکخستنی چەند-جارێک کە پێنج هەڵسەنگاندن بۆ هەر case دەکات و جیاوازییەکە دەردەخات، گامێکی طبیعییە — بە تایبەتی لە بەشی trap-case، کە یەکسانی لە ژێر هەڵوەشاندنی sampling بەشێکە لە ڕەشنووسی ئاسایش.

دامەزراندنی تەنها یەک engine. ئەم ڕاپۆرتە یەک engine تەنها توصیف دەکات. لێکۆڵینەوەی بەراوردی لەگەڵ سیستەمەکانی AIی دیکە لێرەدا لە دەرهێنراوە؛ دەتوانین ئەوە بە شێوەی توستە-سەربەخۆ لە ڕێکخستنی جیاوازدا دنبال بکەین بە بەراوردی ڕێکخستنی پێویست، لەگەڵ هەمان harness کە MIT لایسەنسکراوە.

زانیاری دروستکراو (Synthetic data). 100,000 ڕووداوەکان بە شێوەی دروستکراو (synthetically generated) دروست دەکرێن، نەک «پرۆسە/ڕووداوە دروستکراو» (synthetic cases)؛ و ئەنجامەکان بە شێوەی ڕاستەوخۆ بۆ کارکردی کلینیکی لە دنیای ڕاست نایگوازرێن. تاقیکردنەوە لەسەر زانیاری ڕاست، بە ڕەزامەندی (consented)، و لەسەر سەرچاوەی دەرەکی (externally-sourced) پێویستی بە چاودێری/سەرپەرشتی ئەخلاقی بەهێز هەیە و لە چوارچێوەی ئەم بنچمارکەی دروستکراوەدا جێگیر نییە.

لە دەرەوەی ئەم چوار مەحدوودیەتە، گرنگترین گستراندنی پالنکراو multi-language parity بۆ هەر jurisdiction ـە. Kantesti AI Engine بەکاربەرانی 75+ زمان خزمەت دەکات، و ڕێکخستنی sub-cohorts ـی Second-Update کە بە بنەمای زمان ستراتیفایکراون (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) بە شێوەی کمی کیفیتی وەڵام لەسەر زمانە پشتیوانیکراوەکانی engine دەسنیشان دەکات. هەر ڕاوێژکاری ستراتیفایکراوی زمان بە DOI ـی خۆی و branch ـی harness ـەوە بڵاو دەکرێت.