بۆچی ئەم بنچمارکە هەیە و چی دەسەلمێنێت
تفسیرکردنی تاقیکردنی خوێن بە یارمەتی توانا (AI) بە ئێستا زیاتر بەکاردێت لە ڕێکارە کڕیار-بەکارهێنەر و ڕێکارە کلینیکی، بەڵام ڕێکخستنەوەی بنچمارکی بەهێز و دۆزینەوەی ڕەستەوخۆ (reproducible) کە بۆ پزیشکی لابراتۆری تەرخانکراو بێت هێشتا کەمە. پرسیارە گرنگەکان لەم شوێنەدا ئەوان نییەن کە لە بنچمارکە گشتییەکانی پرسیار-وەڵامدانی پزیشکیدا ڕوونکراون: ئایا دەتوانێت ئەنجامدەری (engine) کەمبودی ئاسن لە ڕەگەزەی تالاسێمییەوە جیا بکات کاتێک MCV (حجمە ناوەندییەی سلولی خوێنی) یەکسانە؟ ئایا زۆر-پزیشککردنی Gilbert's syndrome دەکات وەک هەپاتایت؟ و ئایا پاتۆلۆژی دروست دەکات لە پەکەی پشکنینی تەواو ڕاستەوخۆی بەرزسالی؟
یەک پەنێلی تاقیکردنی خوێن بە گشتی زۆر سیگنالی هەیە بۆ پشتیوانی لە چەند وێنەی جیاواز کە لە یەکدی تر دەکێشن، و کارەکەی پزیشکی تێکۆڵەر لەوەدایە کە ئەو وێنایانە لە یەکدی تر تراز بکات، نەک ئەوەی وەک وەڵامی کتێبی بگەڕێت. ئەو مووتورەی کە لە وێنە کتێبییەکان باش دەکات، هێشتا دەتوانێت لەو وێنە گرنگانەدا کەوتوو بێت: هەڵەکانی تێکەڵبوونی تێشخیص (differential-diagnosis)؛ و گۆڕاوە بەدەنگەوە (benign variants) کە لە تەنیشتدا دەبنە هەستیار و ترسناک؛ و پەنێلە تەواو ڕاستەوخۆ (fully normal) کە یاوەری یارمەتیدەرە باوەڕپێکراوەکان دەکات بۆ دروستکردنی پاتۆلۆژی.
ئەم بنچمارکە بە دڵنیایی لەسەر ئەو شێوە هەڵەبوونانە دروستکراوە. هەر یەک لە پازدە ڕووداوەکان (fifteen cases) بۆ یەک تایبەتمەندی تێشخیصی دیاریکراوە: میکرۆسیتۆسێی لەبەر کمبوونی ئاسن (iron-deficient microcytosis) کە دەبێت لە تایبەتمەندی beta-thalassaemia جیا بکرێت کە هەمان ناوەندی ڕێژەی جەسەمی خوێن (mean corpuscular volume) هەیە؛ ڕوونکردنەوەی Gilbert's syndrome کە تەنها هەڵەیەکی غیرعادی تێدایە بە شێوەی بەرزبوونی تەنها (isolated) غیرمستقیم (indirect)ی بیلیروبین؛ و پەنێلی ڕاگەیاندنی (screening) پازدە پارامێتەر کە هەر یەک لە ئانالیتەکان لە ناوەندی ڕێسەی خۆی (reference range) دایە. ڕێساکە (rubric) پاداشتی ئەو مووتورانە دەدات کە هەر ڕووداوەکە لەسەر شێوەی خۆی لێکدەدەن و سزا دەدات بۆ ئەو مووتورانە کە دەچن بۆ تێشخیصێکی باوەڕپێکراو کە هیچ یەک لەو تێشخیصە پێویست نییە.
وەک توماس کلاین، د.م. (Thomas Klein, MD)، من پەنێلی ڕووداوەکان هەڵبژارد چونکە ئەو شێوەیەی کە یارمەتیدەرەکانی لەبەردەستکردنی زانیاری لە مێژووی لابراتۆر (laboratory-medicine assistants) زۆرترین هەڵە لێی دەکەن، ئەمانەن. شێوەی هەڵەی گرانبها ئەوە نییە "لەدەستدانی نەخۆشییەکەی نایاب" — بەڵکو ئەوەیە پاتۆلۆژیی ڕێوتین (routine pathology) دروست بکات لە نەخۆشانی کە ئەوەیان نییە. Yên me Pejirandina Bijîşkî hub دەربارەی چوارچێوەی گشتی دەڵێت؛ ئەم لاپەڕەیە دەربارەی ڕێکخستنی یەکەم V11 لە شێوەی دەستپێکی (proof-of-concept) و V11 دووەم ڕێکخستنیە کە ئەوەی بەرز کرد بۆ 100,000 کەیس بەناونیشان (anonymised) کە لە وێنەی کۆمەڵەی کلینیکی پشتیوانیکراو بە SQL دەرهێنراوە کە 127 وڵات دەگرێت — بە بەکارهێنانی هەمان ڕوبریکەی نمرەدان، بە هەمان-بایتی (byte-identical)، و هیچ ڕێکخستنی لە دوایەوە (post-hoc) ڕێگەپێدراو نییە.
دووەمی ڕێکخستنی بەراوردی نوێ — V11 دووەم ڕێکخستنی (26ی ئاپرێل، 2026)
ڕێکخستنی بەراوردی V11 دووەم ڕێکخستنی لە 26ی ئاپرێلی 2026 نمرەی یەکپارچە (composite score)ی 99.80% لەسەر هەمان ڕوبریکەی پێش-دەستەواژەکراو (pre-registered) کە لە ڕەهاکردنی یەکەم V11 بەکارهاتووە، لەسەر 100,000 کەیس بەناونیشان کە لە Kantesti کۆمەڵەی کلینیکی پشتیوانیکراو بە SQL دەرهێنراون و دەستپێکیان لە 127 واڵت و زمانەکانی 75+. هەموو کەیسەکان تەواو بوون لەسەر ڕێگای سەرەکی ئەنجین؛ فڵاگی هەستیارکردنی (hyperdiagnosis) لە کەیسە دامەزراندراوەکان (trap-case) لە 0 / 87,412. ماندووە. ڕەهاکردنی یەکەمی V11 لە 23ی ئاپرێلی 2026 کە 15 کەیس دەستی-ڕێکخراو (hand-curated) دەگرێت (نمرەی یەکپارچە 99.12%) ڕوبریکەکە تایید کرد؛ دووەم ڕێکخستنیەکە هەمان ڕوبریکە بە هەمان-بایتی (byte-identical) دەپارێزێت و ئەزموونەکە دەگوازێتە سەر کۆهۆرتێکی بەهێزی لە حەجم-کۆمەڵ (population-scale).
وازەی یەکپارچە (composite formula) سێ بەش یەک دەکات: ڕێککەوتنی سەرچاوەیی (structural conformance) لەگەڵ حەوت بەشی ڕاپۆرتی مەجبوری و شانزە زیربەشی مەجبوری،, ڕاستی کلینیکی (clinical accuracy) بە شێوەی “یادکردنەوەی کلیلوەرد” (keyword recall) + “یادکردنەوەی سیستەمی نمرەدان” (scoring-system recall) + پشکنینی ڕاستی (validity) لەسەر دابەشبوونی ڕێژەیی (probability-distribution) و کەمبوونەوەی وەڵام (response latency) لە دڵنیایی ڕێژەی خزمەتگوزاری (service-level target) لە ڕێگای سەرەکی. تەجزیەی ڕاستەقینە لە خوارەوە لە فرمولەکەی ڕوبریک پیشان دەدرێت — هیچ یەک لەم وەزنە یان زیر-ڕوبریکانە بۆ دووەم ڕێکخستنی دەستکاری نەکراون.
0.20 بەدرەی سەربەخۆیی (percentage points)ی دیکەی هەڵسەنگاوەی (headroom) نزیکەی تەواو دەشکێتەوە بۆ زیر-نمرەی کلینیکی — بەشێکی بچووک لە کەیسەکان (بە تایبەتی لە Hepatology و Rheumatology) یەک کەلیمە-کلیدی لە سیستەمی نمرەدان کە پێویست بوو لە تفسیرەکەی ئەنجین نەبوو، هەرچەندە ناوەڕۆکی دەرمانی/دیاگنۆز (diagnostic content) ڕاست بوو. هیچ کەیسێک لە کۆهۆرتی 100,000 کەیسی دووەم ڕێکخستنیەکە، خودی دیاگنۆزەکە لەدەست نەدا. کەمبوونەوەی لاتەنس (latency) لە میانەی 20.17 s لە ڕەهاکردنی یەکەم V11 بۆ 13.26 s لە دووەم ڕێکخستنی باشتر بوو، کە دەربڕینی بەهێزکردنەوەی ئەنجین لە بەرهەمهێنان (production engine optimisations) لە نێوان دوو ڕێکخستنەکەدا؛ ڕوبریکەکە، کۆدی نمرەدان، و بەستەری API (API endpoint) نەگۆڕاون.
نمرەی یەکپارچەی لە هەر وڵاتەوە (per-country composite scores) لە 0.9971 (هندوستان) تا 0.9985 (سوئیس) بوو لە 30 وڵاتی زیاتر پێشکەشکراو. دۆڵی درێژ (long tail)ی 97 وڵاتی دیکە (≈7,300 کەیس لە یەک کاتدا) هیچ کەمبوونەوەی ڕێکخراو (systematic degradation) پیشان نەدا. سەرەکیترین بەشداربوونەکان بە ژمارەی کەیسەوە: ئەمریکا (10,500)، برازیل (9,500)، اسپانیا (9,000)، ئیتاڵیا (8,000)، ئەڵمانیا (7,800)، فەڕەنسا (7,400)، پۆرتوگال (5,800)، تورکیە (3,400)، پادشاھی یەکگرتوو (2,900)، و مەکسیک (2,500).
لە 15 کەیس بۆ 100,000: گۆڕانکاری کۆهۆرت لە 127 وڵاتدا
پەنێلی کەیسی یەکەمی V11 هەفت تەخصص دەگرێت — hematology، endocrinology، metabolic medicine، hepatology، nephrology، cardiology، rheumatology — هەروەها دوو کەیسی تایبەتمەند بۆ دامەزراندنی hyperdiagnosis، بە هەر کەیسێک بەناونیشانکردنی ڕیکۆردی ڕاستی نەخۆشێکی واقعی کە لە Kantesti کۆمەڵەی داتای کلینیکی بەدەست هاتووە بە پێداچوونی ڕەزامەندی-بە نووسراو (written informed consent). دووەم ڕێکخستنی V11 ئەزموونەکە دەگوازێتە سەر 100,000 کەیس بەناونیشان لە 127 وڵات, ، کە لە هەشت تەخصصدا دابەشکراون (ئەو هەفتەی سەرەکی + یەک بەشی تایبەتی internal-medicine کە بەشە دامەزراندراوەکە دەگرێت). هەمان ڕوبریکەی نمرەدان بە هەمان-بایتی (byte-identical) لە هەر دوو ڕێکخستنەکەدا بەکار دەهێنرێت.
بەناونیشانکردن (De-identification) بە شێوەی Safe Harbor ئەنجامدرا: هەموو ناسنامە-ڕاستەقینەی ڕێکخراو (direct identifiers) لەبردران یان جێگۆڕان کراون، و هەر ڕیکۆردێک کۆدی کەیسێکی ناوخۆی بنچمارک پێدرا بە شێوەی BT-NNN-LABEL (V11 initial) یان کۆدی بەناونیشانی پایدار case_uid بۆ دووەم ڕێکخستنی. کارکردن (Processing) بە پێی GDPR ماددە 9(2)(j) بۆ توێژینەوەی زانستی بە هەڵسەنگاندنی پاراستنی پێویست، و ڕێوشوێنی هاوشێوەی UK GDPR. هیچ زانیارییەکی تایبەتمەند-نەناسراو (personally identifying information) لە هەر شوێنێکدا لە ناوەڕۆکی هارنیسی (harness) باڵکراو، ڕاپۆرتی تەکنیکی، یان داتاسێتە ئازادکراوەکاندا نییە.
ڕەهاکردنی یەکەمی V11 — 15 کەیس دەستی-ڕێکخراو
پەنێلی کەیسەکانی V11 لەسەرەتاوە بە دەستی لە لایەن د. توماس کلاینەوە دیزاین کراوە بۆ ئەوەی ڕێنیشاندانی دۆزینەوەی (diagnostic patterns) کە یارمەتیدەری زانستی-لێدانی لابراتۆری (laboratory-medicine assistants) زۆرجار لێی دەکەونەوە، تمرین بکات. هەموو یەکێک لە پازدە کەیسەکان بۆ خاسیەتی دۆزینەوەیەکی تایبەتی هەڵبژێردرا، کە لە خوارەوە باسکراوە.
بۆچی ئەم توزیعە تایبەتمەندە
لە هەژمارییەکان سێ کەیس دەدرێت چونکە جیاوازییە میکروسایتیکەکان و جیاوازییە ماکروسایتیکەکان زۆرترین دامەزراندنەکانن لە کارکردی ڕاستەقینەی لابراتۆری. لە ئەندۆکرینۆلۆجی سێ کەیس دەدرێت چونکە پیشکەوتنی Hashimoto's، PCOS، و کمبودی ویتامین D شێوە جیاوازەکان دەهێنن بۆ دۆزینەوە (لەوانەی خۆ-ئانتیبادی دەرهەقەکەوتوو، لەوانەی نێسبەتی هۆرمۆن-محور، و لەوانەی یەک-نیشان-محور). تایبەتمەندییە یەک-کەیسەکان هێشتا مانادارن چونکە هەر یەک لە CKD، خەتری ASCVD، و SLE سیستەمی خۆی بۆ نمرەدان هەیە کە ئەنجامەکە دەبێت بەکاربهێنێت (KDIGO پەلەبەندی، خەتری 10 ساڵەی ASCVD، و 2019 EULAR/ACR بۆ شێوەی SLE بە شێوەی یەکەوە).
V11 دووەمین بەروزرسانی — 100,000 کەیس بە ناونیشانی نادیار (anonymised) لە 127 وڵات
دووەمین بەروزرسانی جێگرتنی ئەو V11 ـی سەرەتایی دەکات کە 15 کەیسەکەی بە شێوەی سەخت (hard-coded) لە کۆدی Python ـدا بوو، بە query ـێکی SQL ـی پارامێترکراو و بەردەست-نەکراو (read-only) لە ڕێپۆزیتۆری Kantesti ـی کلینیکی (anonymised_blood_panels). ئەم پرسیارە (query) فیلتر دەکات لەسەر consent_research = 1 AND released_for_benchmark = 1 و بۆ ڕوونکردنەوە لە سەرەوەی هەر جارێک لە هەنگاوەکانی benchmark چاپ دەکرێت. توزیعەکەی کۆهۆرت بە پێناسەی تایبەتمەندی (specialty) لە خوارەوە پیشان دەدرێت.
پێخشەی جغرافیایی — 10 وڵاتی سەرەکی
کۆهۆرتەکە دەکاتە 127 وڵات (ISO 3166-1 alpha-2). ئەوروپا 57.7% بەشداری دەکات، ئەمریکا 25.4%، ئاسیا-پاسفیک 6.2%، داخڵەکان بە ناوی خاورمیانه/ئەفریقا 3.4%، و دێرێکی درێژ لە 97 وڵاتی تر بە گشتی 7.3% ی کۆکردنەوە دەکات. دەرهەمییە سەرەکییەکان بریتین لە: ئەمریکای یەکگرتوو (10,500)، برازیل (9,500)، اسپانیا (9,000)، ئیتالی (8,000)، ئەڵمانیا (7,800)، فەڕەنسا (7,400)، پۆرتوگال (5,800)، تورکیە (3,400)، پادشاھی یەکگرتوو (2,900)، و مەکسیک (2,500). نمرە کۆمپیۆزیتی لە هەر وڵاتێکدا لە 0.9971 (هندوستان) تا 0.9985 (سوئیس) بوو.
روبریک پێشتۆمارکراوەکە، ڕوونکراوە
پێش-تۆمارکردن گرنگترین هەڵبژاردەی ڕێکارەتییە لە ئەم بنچمارکە. هەر دۆزینەوەی هەموارکراو، هەر سیستەمی نمرەدان لینییەوە، و هەر بەشی ڕاپۆرت لە کۆدی سەرچاوەدا قەدەغەکراو بوو پێش ئەوەی ئەنجامەکە بەکاربهێنرێت. لەبەر ئەوە، تەونکردنی دوای-لەوەی ڕێگاکان بۆ ڕەخنەگرتن/خوشکردنی ئەنجامەکە ناممکنە.
سێ بەش دەکەنە یەک نمرەی یەکپارچە. ئەو بەشی سەرکەوتن/سەرکەوتاری (structural) 35 لەسەد دەبێت و دەسەلمێنێت ئایا ئەنجامەکە هەفت بەشی اجباریی ڕاپۆرت (سەردێڕ، ڕوونکردنەوەی کورت، سەرەکیترین دۆزینەوەکان، جیاوازی، سیستەمەکانی نمرەدان، پێشنیارەکان، دوای-لەوە) و شانزە بەشی اجباری لە ناو هەموویاندا برگەی هەبووە. بەشی هەبوونی سەکشن 40 لەسەد وزن دەدات و بەشی هەبوونی ساب-سەکشن 60 لەسەد وزن دەدات لە ژمارەی سەرکەوتاری.
Ew بەشی کلینیکی (clinical) 55 لەسەد دەبێت و سێ شت یەک دەکات: یادکردنەوەی وشە-کلیدی دۆزینەوە (70 لەسەد لە نمرەی زیربەشی کلینیکی)، یادکردنەوەی سیستەمی نمرەدان (20 لەسەد — ئایا ئەنجامەکە Mentzer، FIB-4، HOMA-IR، خەتری ASCVD، KDIGO پەلەبەندی، و ڕیارەکانی EULAR/ACR لە کاتێکدا پێویستە محاسبه دەکات)، و چێککردنی درستی-کۆمەڵی هەملەوە (10 لەسەد — بایەخی جیاوازییەکان دەبێت کۆیەکەیان لە ناو بازەی [90, 110] بمێنێت). بۆ کەیسە دامەزراندنەکان، جریمهیەکی ڕوون بۆ «هەردۆزینەوەی زیاتر» تا 0.30 دەکەوێت، کە لە 0.10 بۆ هەر پرچمی پاتۆلۆژی ساختەکراو محاسبه دەکرێت و لە سێ پرچمدا سنوردار دەبێت.
Ew بەشی کەم-لەوەی دەم/لاتێنسی (latency) 10 لەسەد دەبێت. وەڵامێک کەمتر لە 20 کاتژمێر/دوایە (seconds) دەبێت 0.10 بەکامل دەبێت، وەڵامێک کەمتر لە 40 کاتژمێر/دوایە دەبێت 0.05، و هەر شتێک زۆرتر دەبێت صفر. ئامانجی 20 کاتژمێر/دوایە بازتابی ڕێکخستنی ئامادەسازی/خزمەت-دەستەواژەی سەرەکییە (production primary-path service-level objective) ـە؛ سنوردانی 40 کاتژمێر/دوایە بازتابی بودجەی پاشگەردانی (fallback) بۆ فەزای 2 ـە بۆ کاتێکی ئەنجامەکە زۆر بەهێز/گرانی بەکاربهێنرێت.
چی پێش-تۆمارکردن دەگرێت
بنچمارکەکانی لایەن-یەکەم (first-party) زۆرجار بەهۆی تەونکردنی ڕێگاکان لە دوای-لەوەدا ژمارەکانی خۆیان زۆر دەکەن. شێوەکە زۆرجار یەکسانە: تیم ئەنجامەکە دەڕێت، دەبینێت لە کوێدا کەم دەسەڵاتە، دواتر بە ئاسایی ڕێگاکان تەون دەکات بۆ ئەو ناوچانەی کەم دەسەڵاتە کەمتر حساب بکرێن. بە تۆمارکردنی ڕێگاکان لە کۆدی سەرچاوە پێش یەکەم بانگی ئەنجامەکە و بڵاوکردنەوەی harness بە لایسەنس MIT، ئەو تەونکردنە دەبینراو دەبێت لە ناو وێژن-کۆنترۆڵ. هەر کەسێک دەتوانێت ڕێپۆزیتۆری بکڵۆن بکات، داتەی نووسەری ڕێگاکان چێک بکات، و دڵنیابێت کە وەڵامەکانی ئەنجامەکە بەکارنەهاتوون بۆ شێپەدان/ڕێکخستنی نمرەدان.
کیسەکانی دامەزراندنی هێپر-دیئاگنۆز (Hyperdiagnosis) — بۆچی زۆر-داواکاری (over-calling) ڕێژەی شکستی سەرەکییە
زۆر-هەڵگرتنی (over-calling) پاتۆلۆژی لە سکرینەکانی ڕاستەوخۆی نۆرم، شێوەی نەکامییەکی ڕوونە کە لە یارمەتی-پزشکییەکانی بۆ بەکارهێنەری کڕیار (consumer-facing) ڕوونکراوە. هەڵسەنگاندنە دوایینەکەی لەگەڵ خەرجی ناڕەوا دەچێت: توێژینەوەی ناچار، دڵتەنگیی نەخۆش، و کارکردی نادروستی (iatrogenic workup). دوو کەیسە دامەزراندنەکان لە ئەم بنچمارکەدا دروستکراون بۆ ئەو نەکامییە ڕوون و نمرەپذیر بکەن.
🟡 کەیسە دامەزراندن 1 — BT-014-GILBERT
پیشکەوتن. پیاوێکی 24 ساڵە باڵانسەکەی بیلیروبینی تەواو 2.4 mg/dL ـە. بەشی دایرێکت نۆرمە، ترانسفێرێزەکان و فێرمەی ئاسایی (alkaline phosphatase) لە ناو ڕێژەی ڕێفەرەنسدا دان، رێتیکولۆسایتەکان (reticulocytes) ناڕوون/ناڕاستەقینە نین، و haptoglobin و LDH هێمولایز (haemolysis) دەردەخەن.
تفسیر/هەڵسەنگاندنی ڕاست. Gilbert's syndrome — جۆرێکی خۆش/بێخەتەر UGT1A1 polymorphism. تفسیر دەبێت هێپاتایت، سیرۆز، ئانێمیای هێمولایتیک، یان بەستنی ڕێگای صفراوی (biliary obstruction) بەکار نەهێنێت.
ڕەسولتی V11. یەکپارچە 1.000. هیچ یەک لە شەش پرچمی سەرەکییەوە بۆ هەردۆزینەوەی زیاتر کە لێی سەیری کراو بوو، وەک دۆزینەوەی فعّال دەرنەکەوت.
🟡 کەیسە دامەزراندن 2 — BT-015-HEALTHY
پیشکەوتن. کچێکی 35 ساڵە، لەگەڵ پەنێلی ڕێکخستنی سکرینینگی پێنج-پارامێتەر (15 پارامێتەر). هەر یەک لە تاقیکردنەوەکان بە ئاسانی لە ناو بازەی سەرچاوەی ڕێفەرەنسدا دانیشتوون.
تفسیر/هەڵسەنگاندنی ڕاست. دڵخۆشکردنەوە و پەسەندکردنی ڕێژەی ژیان. تێگەیشتن نابێت بە شێوەیەک کێشەی لەسنوور (borderline) دروست بکات بۆ ئەوەی بەکاربردنی کلینیکی لەخۆی بگرێت.
ڕەسولتی V11. کۆمبۆزیت 1.000. هیچ کام لە هەفت ئاگادارکردنەوەی زیادهڕۆیی سەرەکی (over-diagnosis) ــ دیابتێس، ئەنێمیا، خۆشبوونی کارکردنی تیروئید (hypothyroidism)، دیسلپیدیمیا، هێپاتیت، نەخۆشی کلیە، کمبود ــ نەبوون بە وەک وەک نەخۆشیی کاری (active diagnoses).
لە هەردوو تاقیکردنەوە (traps)، سیزدە ئاگادارکردنەوەی زیادهڕۆیی (hyperdiagnosis) ــ سکرین کراون. هیچ کام لەوانە چالاک نەبوون. ئەمە ئەنجامێکە کە زۆرترین گرنگی هەیە بۆ هەر کلینیسینێک کە دەیەوێت لەوەی AI بۆ وەک ئامرازێکی تریاژ یان پێش-کۆنسالت بەکاربهێنێت: سیستەم نەخۆشی نەدروست کرد کە لەوەدا نەبوو.
شاخص منتزر: جیاکردنەوەی کەمبودی ئاسن لە ڕەگەزەی تالاسێمییەوە
دۆزینەوەی دووەم کە گرنگی زۆری هەیە لە جفتکردنی کیس BT-001 (ئەنێمیا بەهۆی کەمبوونی ئاسن) لەگەڵ کیس BT-007 (کوچکی بتا-تالاسێمیا، minor). هەردوو لەگەڵ میکرۆسیتۆس (microcytosis) دەردەکەون و ئەمە بە شێوەیەکی ناسراو کێشەی سەرەکییە بۆ کڵاسێفایەرە سادەکان. شاخصی Mentzer، کە بە شێوەی MCV بەسەر ژماری RBC ـەوە (RBC count) دابەش دەکرێت، لە کەمبوونی ئاسن زیاتر لە 13 ـە و لە ڕەگەزی تالاسێمیا کەمتر لە 13 ـە.
لە BT-001، نەخۆشەکە کچێکی 34 ساڵە بوو بە HGB 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فێریتین 6 ng/mL، و TIBC ـی بەرز. شاخصی Mentzer نزیکەی 17.7 پشتیوانی دەکات بۆ کەمبوونی ئاسنی بەهێز (absolute iron deficiency). لە BT-007، نەخۆشەکە پیاوێکی 28 ساڵە بوو بە میکرۆسیتۆس (MCV 65.8 fL) بەڵام ژماری RBC ـی بەرز 6.2، RDW ـی ڕێک (normal)، فێریتین ـی ڕێک، و HbA2 بە 5.6 percent. شاخصی Mentzer نزیکەی 10.6 دەلالەت دەکات بۆ ڕەگەزی تالاسێمیا، و HbA2 ـی بەرز ڕاستی بتا-تالاسێمیا مینور تایید دەکات.
هەردوو کیسەکە نمرەی 1.000یان گرت. ئەنجامەکە شاخصی Mentzer بە ڕوونی لە هەردوو تێگەیشتنەوەدا بەکاربرد و لە هەموو هەنگاوێکدا دۆزینەوەی ڕاست پیشان دا. ئەمە یەکێکە لە دڵخۆشکەرترین ئەنجامە کلینیکییەکان لە هەموو بنچمارکەکە, ، چونکە نادرست کڵاسێفایکردنی ڕەگەزی تالاسێمیا بە وەک کەمبوونی ئاسن دەبێت بۆ دابەشکردنی پێداویستی ئاسن بە شێوەی ناڕەوا و دەستکەوتنی ڕێکخستنی خێزان (family-screening) بەجێ بمێنێت، و نادرست کڵاسێفایکردنی کەمبوونی ئاسن بە وەک تالاسێمیا دەبێت چارەسەری ڕوون و ڕاستەوخۆ بەخێرایی بکات. ئەمەی ڕێنمای ڕەنجی فێریتین ڕوونکردنەوەی بەستەری گشتییە لە بەرەوڕووی جیاوازی (differential) ـەوە.
ئەنجامەکان بە هەر کەیسێک لە ڕێکخستنی سەرچاوەی یەکەمی V11 (23ی ئاپرێلی 2026)
ڕێکخستنی سەرچاوەی V11 ـی یەکەمی لە کۆهۆرتی proof-of-concept ـی 15 کەیس بەکار دەهێنێت بۆ ئەو بنەمای ڕێبازەیی لە Second Update: هەر وردەکارییەکی کە لە خوارەوە بۆ هەر کەیسێک دەردەکەوێت، دەبینێت چۆن روبریکەکە وەڵامی ڕاستەقینەی ئەنجامە دەگێڕێت. دوازدە لە پازدە کەیس نایلە سەرکەوتنی سەرەکی (ceiling) نمرە کۆمپیۆزیتی 1.000 لەسەر ڕێگای سەرەکی؛ سێ کەیس بە ڕێگای Phase 2 fallback پیشکەش کران، بەدەست هێنانی پاداشتی نهێنی latency ـی 0.05، بەڵام هەموو ناوەڕۆک و تێکست و ڕوونکردنەوەی کلینیکی و سەرچاوەیی پاراست. یەک کەیس یەک بەشەی سەرەکییەی پێویست لەبەردەست نەبوو؛ یەک کەیس وەکەی توزیعی بەڕێژەیەکی کەمتر لە کۆیەکی probability ـەوە وەگەڕاند.
کەیسەکەی PCOS (BT-008) یەک بەشێکی سەرەکی (mandatory subsection) لە ڕێکخستنی وەسفی وەڵامدا لەدەستدا—پانزە لە شانزە بەجای شانزە لە شانزە—کە ئەمە نمرەی ڕێکخستاری (structural score) لە 1.000 بۆ 0.963 کەمکرد. کەیسەکەی SLE (BT-011) کۆمەتی کەمبوونەوەی کۆمەی ڕێژە-ڕەخنەی (probability-distribution sum) وەگەڕاندەوە کە نمرەی کلینیکی (clinical score) بۆ 0.965 کەمکرد لەگەڵ پاراستنی هەموو وشە سەرەکی دیانۆستیک و سیستەمی نمرەدان. هیچ یەک لە دوو کەیسە ناتەواوەکانە (sub-perfect) دیانۆستیکی ڕاست لەدەست نەدا.
کۆکردنەوەی V11 Second Update — 100,000 کەیس
لە ڕووی قەبارەی کۆمەڵایەتی، سطرەکانی هەر کەیسێک بە مرۆڤ نایان خوێندنەوە، بۆیە Second Update بەجای 100,000 سطری، مێتریکە کۆکراوەکان دەگزارێت. سەرنجڕاکێشەی کۆکراوەکە خوارەوە پیشان دەدرێت؛ بەشکردنەوەکان بە پۆست/تخصص و بە وڵات لە ڕاپۆرتی تەکنیکی و لە دابەزاندنی Figshare ـدا دەخرێنەڕوو. نموونەی هەڵبژێردراوی تەواو-بەشکراو لە n = 201 وەڵامە خامی ئەنجامەوە (seed ـی دیاریکراو 20260426) بۆ سەیرکردن لە GitHub ـدا دەخرێتەڕوو results/ دایرێکتۆری.
ئەوەی کۆری سەرەکی نازانێت بۆمان
نمرەیەکی یەکپارچەی 99.80 لە سەد لەسەر ئەم ڕێکخستنی تایبەتمەند (pre-registered rubric) ـی ئەم کاتەدا، لەسەر کۆهۆرتێکی 100,000 کەیس بە ناسڕاوکردن (anonymised) کە دەکاتەوە لە 127 وڵات، نزیکەی کارایی لەسەر سەرەوە (near-ceiling performance) ـە — بەڵام پێویستە بە وردی ڕەخنە و ڕوونکردنەوە بکرێت. ئەنجامەکە ڕەفتاری مووتۆر دەنووسێت لەسەر ئەو rubric ـەی کەمان پەیوەست بوو لە کۆدی سەرچاوەدا لە V11؛ ئەمە نەک دەعوایەکی گشتییە بۆ دروستیی مووتۆر لە هەر پەنێلی تاقیکردنەوەی خوێنێک کە لە دەرەوە هەیە.
نمرەکە دەڵێت مووتۆر ڕێنیشانە دیاریکراوەکانی ڕێکخستنی تاقیکردنەوەی دیاری (diagnostic patterns) ـی ئەم هەڵسەنگاندنە بە ڕێکخستنی ڕاست لەسەر کۆهۆرتێکی ڕەقەی گشتی جێبەجێ کردووە، بە پێوەرییەک کە بڵاوکراوە و دەتوانرێت دووبارە بکرێتەوە. ئەمە نەک دەڵێت مووتۆر لە هەر پەنێلی تاقیکردنەوەی خوێنێک کە لە دەرەوە هەیە ڕاستە. ئەمە نەک دەڵێت مووتۆر دەبێت جێگەی ڕاڤەکار/پزشک (clinician judgment) بگرێت. و نەک دەڵێت مووتۆر لە سیستەمەکانی تێکەڵی دیکەی ڕەخنەیی (AI) بەهێزترە — لێکۆڵینەوەی بەراوردی لەگەڵ مووتۆرەکانی دیکە بە هۆی دڵنیاییەوە لە دایرەی ئەم ڕاپۆرتەدا نەبوو.
ئەوەی نمرەکە بە ڕاستی دڵنیایی دەکات بریتییە لە بنەمایەک. کاتێک rubric و harness ـەکە ئاشکرا بن، وەشنەی داهاتووی مووتۆر دەتوانرێت لەسەر هەمان rubric ـە هەڵسەنگێت — بەکاربردن بۆ 15 کەیسە یەکەم جارەکانی V11، کۆهۆرتی 100,000 کەیس لە دووەم نوێکردنەوە، یان هەر گەشەکردنێکی دواتر — و جیاوازی نێوان نمرەی بڵاوکراو و هەر هەڵسەنگاندنەوەی دواتر، خۆی بەخۆی دەتوانرێت بەسەنگ بکرێت. ئەمە بەهای pre-registration ـە: ئەوەی دەعاوی کارایی (performance claims) دەگۆڕێت بۆ دەعاوی دەتوانرێت لێتاقیکردنەوە (testable claims).
چۆن ئەم بنچمارکە دروست بکەین لە 10 خولەکدا
بەدووبارەکردن (Reproduction) تەنها پێویستی بە جۆرێک لە وەسڵی API (Kantesti) و هەیەوەی Python 3.10 ی یان زۆرتر هەیە لەگەڵ ئەو requests û reportlab کتێبخانەکان (libraries) دامەزراون. هارنسە تەواوەکە یەک ماژولێکی Python ـی یەک-خۆیی (single self-contained) ـە کە لە ژێر ڕێسای MIT دەرکراوە.
چوار گام بۆ run ـێکی نوێ
یەکەم. کۆپی/کلۆنکردنەوەی ڕێپۆزیتۆری (repository): git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. دووەڵ. دابەزاندنی پێداویستییەکان بە pip install -r requirements.txt (دووەم نوێکردنەوە زیاد دەکات mysql-connector-python ≥ 8.0 بۆ بارکردنی کەیسەکانی SQL). چوارە. دابنێ KANTESTI_USERNAME û KANTESTI_PASSWORD وەک وەریەبلەکانی هەستەوە (environment variables) بۆ API ـی مووتۆر. بۆ بارکردنی کەیسەکانی SQL لە دووەم نوێکردنەوە، هەروەها دابنێ KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, û KANTESTI_DB_PASSWORD — لە ڕێگای ئەو ڕۆڵە دەستپێک دەکات کە تەنها-خوێندنەوەیە (bench_reader) کە هیچ دەسەڵاتێکی نییە بۆ ناساندنی جەدولەکان. چوارە. ڕێکبخە python benchmark_bloodtest.py --limit 100000 بۆ ڕێکخستنی تەواوی Second-Update، یان python benchmark_bloodtest.py --limit 1000 بۆ گەڕانەوەی خێرا. ئەنجامەکان دەگەڕێنەوە لە ./benchmark_results/: یەک CSV scorecard کە ستوونی لەسەر هەر وڵات و هەر تایبەتمەندی دەبێت، یەک JSON کۆکردنەوە، نموونەی خامی ستراتیفایکراو-هەڵبژاردن، و یەک ڕاپۆرتی Markdown.
ڕێژەی سەرەکی (reference) لە 23 April 2026 (V11 initial، 15 cases) و 26 April 2026 (V11 Second Update، 100,000 cases) پارێزراون لە results/ دایرکتۆریی ڕێپۆزیتۆری. ڕێکخستنی نوێ timestamped scorecard دروست دەکات بەبێ ئەوەی ڕێژەی سەرەکی دستکاری بکات. ئەگەر ڕێکخستنت ئەنجامێکی بەهێز لەگەڵ ئەوەی تر جیاواز دروست بکات، تکایە GitHub issue بکە لەگەڵ timestampی ڕێکخستن و engine version کە لە ناوەڕاستی metadataی وەڵامەکەدا دەردەکەوێت.
مەحدوودییەکان و کارە داهاتوو
هەتتا لە 100,000 cases لە 127 وڵاتدا، چوار مەحدوودیەت دەبێت بە ڕوونی ڕوونبکرێن: کەم-نمونەکردنی وڵاتە دوورەدەرەوە (long-tail)، بەهێزکردنی تەنها-جارێک (single-shot evaluation)، دەستەواژەی تەنها-یەک engine (single-engine scope)، و سەرچاوەی تەنها-یەک data (single-source data origin). هەموویان لە کاری پێچەوانەی داهاتوودا بەردەوام دەکرێن.
پۆشانی وڵاتە دوورەدەرەوە. Second Update لە 127 وڵاتدا دەگرێت، بەڵام توزیعەکە ناوازەیە — یەکەم 10 هەڵسەنگەرەکان نزیکەی ≈66.4% لە cases دەکەن، و دوورەدەرەوەی 97 وڵاتی تر بە یەکەوە ≈7.3% دەکەن (نزیکەی 7,300 cases بەهەمەکی، ~75 cases بۆ هەر وڵات بە ڕێژەی ناوەندی). بۆیە composite-ەکان لە ناوەندی long tail لەسەر هەمان شێوەیەک کە کەم-دەنگترن لەوەی کە ڕەنگدانە سەرەکی (headline figures) دەڵێن. ڕێکخستنی داهاتوو بە شێوەی پێشکەوتوو لە وڵاتە کەم-نمونەکراوەکان دەهێنێت بۆ ئەوەی ڕێژەی هەڵسەنگاندن بۆ هەر حوزە/قەبارە (jurisdiction) بەهێزتر بکات.
سنجش بە یەکجار. هەر case لە کۆهۆرتەکە یەک جار هەڵسەنگێندرا. مودێلە زۆر-زمانی (large language models) نیشاندەری جیاوازیی وەڵامێکی گرنگنەوەیە (non-trivial output variance) هەتتا لە کەمترین دەرکەوتنی هەڵبژاردن (low sampling temperature)، بۆیە ڕێکخستنی چەند-جارێک کە پێنج هەڵسەنگاندن بۆ هەر case دەکات و جیاوازییەکە دەردەخات، گامێکی طبیعییە — بە تایبەتی لە بەشی trap-case، کە یەکسانی لە ژێر هەڵوەشاندنی sampling بەشێکە لە ڕەشنووسی ئاسایش.
دامەزراندنی تەنها یەک engine. ئەم ڕاپۆرتە یەک engine تەنها توصیف دەکات. لێکۆڵینەوەی بەراوردی لەگەڵ سیستەمەکانی AIی دیکە لێرەدا لە دەرهێنراوە؛ دەتوانین ئەوە بە شێوەی توستە-سەربەخۆ لە ڕێکخستنی جیاوازدا دنبال بکەین بە بەراوردی ڕێکخستنی پێویست، لەگەڵ هەمان harness کە MIT لایسەنسکراوە.
سەرچاوەی تەنها یەک دەیتا. 100,000 cases بە شێوەی بێناسنامە (anonymised) و ڕاستەقینەی ڕیکۆردی نەخۆش دەبن کە لە یەک ڕێپۆزیتۆری کلینیکی (the Kantesti SQL-backed clinical data warehouse) دەستەواژە دەگرێت. ئەمانە ڕێژەی ڕێکخراوی بەرهەمهێنانی (curated production stream) نیشان دەدەن و لە ڕووی جیهانی بە شێوەی نمونەی ڕەندوم-ڕێژەی ڕاستەقینە (population-representative random draw) نییە. گستراندنی هەڵسەنگاندن بۆ dataی زۆر-ناوچەیی (multi-centre) کە لە دەرەوە سەرچاوە دەگرێت لە ڕێکخستنی داهاتوودا هەیە.
لە دەرەوەی ئەم چوار مەحدوودیەتە، گرنگترین گستراندنی پالنکراو multi-language parity بۆ هەر jurisdiction ـە. Kantesti AI Engine بەکاربەرانی 75+ زمان خزمەت دەکات، و ڕێکخستنی sub-cohorts ـی Second-Update کە بە بنەمای زمان ستراتیفایکراون (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) بە شێوەی کمی کیفیتی وەڵام لەسەر زمانە پشتیوانیکراوەکانی engine دەسنیشان دەکات. هەر ڕاوێژکاری ستراتیفایکراوی زمان بە DOI ـی خۆی و branch ـی harness ـەوە بڵاو دەکرێت.