چرا این معیار وجود دارد و چه چیزی را میسنجد
تفسیر آزمایش خون با کمک هوش مصنوعی بهطور فزایندهای در جریانهای کاری مصرفکننده و بالینی استفاده میشود، با این حال چارچوبهای ارزیابیِ قابلتکرارِ متناسب با پزشکی آزمایشگاهی همچنان رایج نیستند. مهمترین پرسشها در این زمینه، پرسشهایی نیستند که توسط معیارهای عمومیِ پاسخگویی به پرسشهای پزشکی پوشش داده میشوند: آیا یک موتور میتواند وقتی حجم متوسط گلبولها یکسان است، کمبود آهن را از ویژگی تالاسمی جدا کند، آیا سندرم گیلبرت را بهعنوان هپاتیت بیشتشخیص میدهد، و آیا در یک پنل غربالگری کاملاً طبیعی، پاتولوژی تولید میکند؟
یک پنل منفردِ آزمایش خون معمولاً به اندازهای سیگنال دارد که از چندین تفسیر رقیب پشتیبانی کند، و وظیفهٔ پزشکِ تفسیرکننده این است که آن تفسیرها را در برابر هم وزندهی کند، نه اینکه یک پاسخِ کتابدرسی را بازیابی کند. یک موتور که در مواردِ کتابدرسی عملکرد خوبی دارد ممکن است در مواردی که بیشترین اهمیت را دارند شکست بخورد: دامهای تشخیص افتراقی، واریانتهای خوشخیم که بهتنهایی نگرانکننده به نظر میرسند، و پنلهای کاملاً طبیعی که دستیارانِ بااعتماد را وسوسه میکنند تا «پاتولوژی» تولید کنند.
این بنچمارک دقیقاً برای همین حالتهای شکست ساخته شد. هر یک از پانزده کیس برای یک ویژگی تشخیصی مشخص انتخاب شد: میکروسیتوز ناشی از کمبود آهن که باید از صفت بتا-تالاسمی با حجم متوسط گلبول قرمز یکسان متمایز نگه داشته شود؛ یک تظاهرِ سندرم ژیلبرت که تنها ناهنجاری آن هایپربیلیروبینمیِ ایزولهٔ غیرمستقیم است؛ و یک پنل غربالگری پانزدهپارامتری که در آن هر آنالیت داخل محدودهٔ مرجع خود قرار دارد. این روبریک به موتورهایی پاداش میدهد که هر کیس را بر اساس شرایط خودش میخوانند و به موتورهایی که به سراغ یک تشخیصِ بااعتماد میروند وقتی چنین تشخیصی توجیه ندارد، امتیاز منفی میدهد.
بهعنوان دکتر توماس کلاین، من پنل کیس را انتخاب کردم چون این الگوهایی هستند که دستیارانِ پزشکیِ آزمایشگاهی بیشترین اشتباه را در آنها مرتکب میشوند. حالتِ شکستِ پرهزینه "از دست دادن یک بیماری نادر" نیست—بلکه ساختنِ پاتولوژیِ روتین در بیمارانی است که آن را ندارند. ما اعتبارسنجی پزشکی hub چارچوب گستردهتر را توصیف میکند؛ این صفحه، اثبات اولیه V11 و بهروزرسانی دوم V11 را که آن را تا 100,000 مورد مصنوعی مقیاس داده است شرح میدهد—با استفاده از همان شِمای امتیازدهی، بایت-یکسان، و بدون اجازه برای تنظیم پسینی (post-hoc).
جدیدترین اجرای مرجع — بهروزرسانی دوم V11 (26 آوریل 2026)
اجرای مرجع بهروزرسانی دوم V11 در تاریخ 26 آوریل 2026، امتیاز مرکبِ 99.80% بر اساس همان روبریک از پیش ثبتشدهای که در انتشار اولیه V11 استفاده شده بود، ارزیابی شد بر روی 100,000 مورد مصنوعی برگرفته از مجموعه موارد مصنوعی Kantesti و شامل 127 برچسب کشوری و زبانهای 75+ هستند. هر مورد در مسیر اصلیِ موتور کامل شد؛ فعالسازیهای پرچم بیشتشخیصِ موارد تله در سطح 0 / 87,412. باقی ماند. اجرای اولیه V11 در 23 آوریل 2026، 15 موردِ دستیِ گزینششده (امتیاز مرکب 99.12%) را پوشش داد و روبریک را اعتبارسنجی کرد؛ بهروزرسانی دوم همان روبریک را دقیقاً بایتبهبایت حفظ میکند و ارزیابی را به یک کوهورت در مقیاس جمعیتی گسترش میدهد.
فرمولِ ترکیبی سه مؤلفه را با هم ترکیب میکند: انطباق ساختاری با هفت بخش گزارشِ اجباری و شانزده زیربخشِ اجباری،, دقت محتوای که بهصورت «بازخوانیِ کلیدواژهها» بهعلاوهٔ «بازخوانیِ سیستم امتیازدهی» و نیز «بررسیِ اعتبارِ توزیع احتمال» اندازهگیری میشود، و تأخیر پاسخ در برابر هدف سطح خدمتِ مسیر اصلی. تجزیه دقیق در فرمول روبریکِ زیر نشان داده شده است — هیچیک از این وزنها یا زیر-روبریکها برای بهروزرسانی دوم تغییر نکردند.
0.20 امتیاز درصدیِ باقیمانده از فضای اطمینان، تقریباً تقریباً به طور کامل به زیر-امتیاز بالینی تجزیه میشود — بخش کوچکی از موارد (عمدتاً در هپاتولوژی و روماتولوژی) یک کلیدواژهِ مورد انتظارِ سیستم امتیازدهی را که باید در تفسیر موتور وجود میداشت، نداشتند، با اینکه محتوای تشخیصی درست بود. هیچ موردی در کوهورت 100,000 تاییِ بهروزرسانی دوم، خودِ تشخیص را از دست نداد. تأخیر از میانگین 20.17 ثانیه در انتشار اولیه V11 به 13.26 ثانیه در بهروزرسانی دوم بهبود یافت؛ که نشاندهنده بهینهسازیهای موتورِ تولیدی بین دو اجرا است؛ روبریک، کد امتیازدهی و نقطه پایانی API بدون تغییر ماندهاند.
نمرههای ترکیبیِ هر برچسب از 0.9971 تا 0.9985 در 30 برچسبِ پرتکرارِ نمایان بودند. دنباله بلندِ 97 برچسبِ اضافی (در مجموع ≈7,300 مورد) هیچ افتِ سیستماتیک نشان نداد. پرتکرارترین برچسبها بر اساس تعداد موارد عبارت بودند از: ایالات متحده (10,500)، برزیل (9,500)، اسپانیا (9,000)، ایتالیا (8,000)، آلمان (7,800)، فرانسه (7,400)، پرتغال (5,800)، Türkiye (3,400)، بریتانیا (2,900) و مکزیک (2,500).
از 15 مورد تا 100,000: تکامل همکوهورت در 127 برچسب کشور
پنل اصلی موارد در V11 هفت تخصص را پوشش میداد — هماتولوژی، غدد درونریز، پزشکی متابولیک، هپاتولوژی، نفرولوژی، قلبوعروق، روماتولوژی — بهعلاوه دو مورد اختصاصیِ دامِ تشخیصِ بیشازحد (hyperdiagnosis trap)، و هر مورد یک پنل آزمون خون تولیدشده بهصورت مصنوعی بود. بهروزرسانی دوم V11 ارزیابی را تا 100,000 مورد مصنوعی در 127 برچسب کشور گسترش میدهد, گسترش میدهد که در هشت تخصص توزیع شدهاند (هفت تخصص اصلی بهعلاوه یک سطل اختصاصیِ پزشکی داخلی که زیرمجموعه تله را جذب میکند). همان روبریک امتیازدهی در هر دو اجرا دقیقاً بایتبهبایت اعمال میشود.
از آنجا که همه موارد بهصورت مصنوعی تولید شدهاند، هیچ شناسه واقعی برای حذف وجود ندارد و هیچ داده شخصیای در کار نیست. هر مورد مصنوعی یک کد موردِ داخلیِ بنچمارک دارد (BT-NNN-LABEL در مجموعه اولیه V11، یک case_uid در بهروزرسانی دوم). هیچ داده شخصیای در هیچکجای سامانه منتشرشده، گزارش فنی، یا مجموعهدادههای منتشرشده دیده نمیشود.
انتشار اولیه V11 — 15 موردِ دستیِ گزینششده
پنل اصلی پروندههای V11 توسط دکتر توماس کلاین بهصورت دستی گزینش شد تا الگوهای تشخیصیای را تمرین دهد که دستیاران پزشکی آزمایشگاهی بیشترین اشتباه را در آنها مرتکب میشوند. هر یک از پانزده پرونده برای یک ویژگی تشخیصی مشخص انتخاب شد که در ادامه آمده است.
چرا این توزیعِ خاص
هماتولوژی به سه مورد میرسد، چون افتراقیهای میکروسیتیک و ماکروسیتیک، پرحجمترین دامها در عملکرد واقعیِ آزمایشگاه هستند. غدد درونریز به سه مورد میرسد، چون تظاهرهای بیماریِ هاشیموتو، PCOS و کمبود ویتامین D، شکلهای تشخیصی متفاوتی را به چالش میکشند (محرکِ خودآنتیبادی، محرکِ نسبتهای هورمونی، محرکِ تکنشانگر). تخصصهای تکموردی همچنان معنادار هستند، چون هر یک از CKD، ریسک ASCVD و SLE سیستم امتیازدهی مخصوص به خود را دارد که موتور باید آن را فراخوانی کند (بهترتیب مرحلهبندی KDIGO، ریسک ۱۰ساله ASCVD، و معیارهای 2019 EULAR/ACR برای SLE).
بهروزرسانی دوم V11 — 100,000 مورد مصنوعی در 127 برچسب کشور
بهروزرسانی دوم، متنِ پایتونِ اولیهِ 15 موردیِ سختکدشده در V11 را با یک مجموعه بزرگتر از موارد مصنوعی تولیدشده بهصورت برنامهای جایگزین میکند. این مجموعه موارد در ابتدای هر اجرا بارگذاری میشود و پیکربندی برای شفافیت ثبت (log) میگردد. توزیع همکوهورت بر اساس حوزه محتوا در ادامه نشان داده شده است.
توزیع برچسب کشوریِ مصنوعی — 10 برچسب برتر
100,000 موردِ مصنوعی دارای 127 برچسب کشوری (ISO 3166-1 alpha-2) هستند تا مدیریت محلیسازی را به چالش بکشند. انتساب برچسب: اروپا 57.7%، قارههای آمریکا 25.4%، آسیا-اقیانوسیه 6.2%، برچسبهای خاورمیانه/آفریقای نامگذاریشده 3.4%، و یک دنباله بلند از 97 برچسب اضافی که در مجموع حدود 7.3% را تشکیل میدهند. ده برچسبِ پرتکرار بر اساس تعداد موارد عبارت بودند از: ایالات متحده (10,500)، برزیل (9,500)، اسپانیا (9,000)، ایتالیا (8,000)، آلمان (7,800)، فرانسه (7,400)، پرتغال (5,800)، Türkiye (3,400)، بریتانیا (2,900) و مکزیک (2,500). نمرههای ترکیبیِ هر برچسب از 0.9971 تا 0.9985 متغیر بودند. این شمار برچسبها ویژگیِ موارد تولیدشده است که برای به چالش کشیدن مدیریت محلیسازی استفاده میشود—آنها کاربران واقعی و پوشش جغرافیاییِ واقعی نیستند.
روبریک از پیش ثبتشده، توضیح دادهشده
پیشثبتنام مهمترین انتخاب روششناختی در این بنچمارک است. هر تشخیصِ مورد انتظار، هر سیستم امتیازدهی بالینی، و هر بخشِ گزارش، پیش از فراخوانی موتور به کد منبع متعهد شده بود قبل از اینکه موتور فراخوانی شود. بنابراین تنظیم پسینیِ روبریک برای خوشایند موتور ممکن نیست.
سه مؤلفه، نمره مرکب را تشکیل میدهند. مؤلفه ساختاری ۳۵ درصد سهم دارد و بررسی میکند آیا موتور هفت بخش اجباری گزارش را برگردانده است یا نه (سربرگ، خلاصه، یافتههای کلیدی، افتراق، سیستمهای امتیازدهی، توصیهها، پیگیری) و شانزده زیربخش اجباریِ داخل آنها. حضورِ بخشها ۴۰ درصد و حضورِ زیربخشها ۶۰ درصد را در محاسبه ساختاری تشکیل میدهد.
این مؤلفه بالینی ۵۵ درصد سهم دارد و سه چیز را ترکیب میکند: یادآوریِ کلیدواژههای تشخیص (۷۰ درصد از زیرنمره بالینی)، یادآوریِ سیستمهای امتیازدهی (۲۰ درصد — آیا موتور در صورت لزوم Mentzer، FIB-4، HOMA-IR، ریسک ASCVD، مرحلهبندی KDIGO، و معیارهای EULAR/ACR را محاسبه میکند یا نه)، و یک بررسیِ اعتبارِ جمعِ احتمالها (۱۰ درصد — احتمالهای افتراقی باید در بازه [90، 110] جمع شوند). برای موارد دام، یک جریمهِ صریحِ بیشتشخیصی تا 0.30 کم میشود که بهصورت 0.10 به ازای هر پرچمِ پاتولوژیِ ساختگی محاسبه میشود و حداکثر تا سه پرچم محدود میگردد.
این مؤلفه تأخیر ۱۰ درصد سهم دارد. پاسخِ کمتر از ۲۰ ثانیه نمره کامل 0.10 میگیرد، پاسخِ کمتر از ۴۰ ثانیه نمره 0.05 میگیرد، و هر چیز کندتر صفر است. هدف ۲۰ ثانیه بازتابدهنده هدف سطح خدمتِ تولید برای سرویسِ primary-path است؛ سقف ۴۰ ثانیه بازتابدهنده بودجه پشتیبانِ فاز ۲ برای فراخوانیهای سنگینِ موتور است.
چه چیزی را پیشثبتنام جلوگیری میکند
بنچمارکهای دستاول بهطور بدنامی اعداد خودشان را با تنظیم پسینیِ روبریک باد میکنند. الگو تقریباً همیشه یکسان است: تیم موتور را اجرا میکند، میبیند کجاها کمعملکرد دارد، سپس بهطور بیصدا روبریک را طوری تنظیم میکند که نواحیِ کمعملکرد کمتر حساب شوند. با متعهد کردن روبریک به کد منبع پیش از اولین فراخوانی موتور و انتشار مهارگر تحت مجوز MIT، این تنظیم در کنترل نسخه قابل مشاهده میشود. هر کسی میتواند مخزن را کلون کند، تاریخهای نویسنده روبریک را بررسی کند، و تأیید کند که نتایج موتور برای شکلدهی به امتیازدهی استفاده نشده است.
موارد دامِ بیشتشخیص — چرا «زیاد اعلام کردن» حالت شکست واقعی است
بیشتشخیصِ تهاجمیِ پاتولوژی در غربالگریهای طبیعی، یک حالت شکستِ مستند در دستیارهای پزشکیِ مصرفکننده است. هزینههای پیامدی آن شامل بررسیهای غیرضروری، اضطراب بیمار و کارِ تشخیصیِ ناشی از مداخله (iatrogenic) است. دو مورد دام در این بنچمارک طراحی شدهاند تا این حالت شکست را قابل مشاهده و قابل امتیازدهی کنند.
🟡 دام ۱ — BT-014-GILBERT
تظاهر. یک مرد ۲۴ ساله با بیلیروبین تام 2.4 mg/dL. کسر مستقیم طبیعی است، ترانسآمینازها و آلکالین فسفاتاز در محدودههای مرجع خود قرار دارند، رتیکولوسیتها قابل توجه نیستند، و هاپتوگلوبین و LDH همولیز را رد میکنند.
تفسیر صحیح. سندرم گیلبرت — یک پلیمورفیسم خوشخیمِ UGT1A1. تفسیر نباید هپاتیت، سیروز، کمخونی همولیتیک یا انسداد صفراوی را فراخوانی کند.
نتیجه V11. مرکب 1.000. هیچیک از شش پرچمِ بیشتشخیصِ پایششده بهعنوان تشخیصِ فعال ظاهر نشدند.
🟡 دام ۲ — BT-015-HEALTHY
تظاهر. یک زن ۳۵ ساله با پنل روتین غربالگریِ پانزدهپارامتری. هر آنالیت با آسودگی کامل داخل محدوده مرجع خود قرار دارد.
تفسیر صحیح. اطمینانبخشی و حفظ سبک زندگی. تفسیر نباید برای اینکه از نظر بالینی مفید به نظر برسد، بیماریهای مرزی را بهطور مصنوعی تولید کند.
نتیجه V11. ترکیب 1.000. هیچیک از هفت پرچمِ بیشتشخیصِ پایششده—دیابت، کمخونی، کمکاری تیروئید، دیسلیپیدمی، هپاتیت، بیماری کلیه، کمبود—بهعنوان تشخیص فعال ظاهر نشدند.
در هر دو تله، سیزده پرچمِ بیشتشخیصِ پایششده بررسی شد. هیچکدام فعال نشدند. این نتیجه مهمترین چیزی است که برای هر پزشکِ در نظر گرفتن استفاده از یک موتور هوش مصنوعی بهعنوان ابزار تریاژ یا پیش از ویزیت اهمیت دارد: سیستم جایی که بیماری وجود نداشت، بیماری اختراع نکرد.
شاخص منتزر: تفکیک کمبود آهن از ویژگی تالاسمی
یافته ارزشمند دوم مربوط به جفت شدنِ مورد BT-001 (کمخونی فقر آهن) با مورد BT-007 (بتا-تالاسمی مینور) است. هر دو با میکروسیتوز همراهاند و یک مانع شناختهشده برای طبقهبندهای سادهلوحانه محسوب میشوند. شاخص منتزر که بهصورت MCV تقسیم بر تعداد RBC محاسبه میشود، در فقر آهن بیش از 13 است و در صفت تالاسمی کمتر از 13 میافتد.
در BT-001، بیمار یک زن 34 ساله با هموگلوبین 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فریتین 6 ng/mL و TIBC بالا بود. شاخص منتزرِ حدود 17.7 از کمبود مطلق آهن حمایت میکند. در BT-007، بیمار یک مرد 28 ساله با میکروسیتوز (MCV 65.8 fL) اما تعداد RBC بالا 6.2، RDW طبیعی، فریتین طبیعی و HbA2 برابر 5.6 درصد بود. شاخص منتزرِ حدود 10.6 به صفت تالاسمی اشاره دارد و HbA2 بالا، بتا-تالاسمی مینور را تأیید میکند.
هر دو مورد امتیاز 1.000 گرفتند. موتور در هر دو تفسیر، شاخص منتزر را بهطور صریح فراخوانی کرد و در هر مورد تشخیص درست را برگرداند. این تنها نتیجهای است که در کل بنچمارک از نظر بالینی بیشترین اطمینان را میدهد, ، زیرا اشتباه گرفتنِ صفت تالاسمی بهعنوان فقر آهن باعث تجویز نامناسب مکملهای آهن و از دست رفتن فرصتهای غربالگری خانوادگی میشود، و اشتباه گرفتنِ فقر آهن بهعنوان تالاسمی، درمان جایگزینی ساده را به تأخیر میاندازد. ما محدوده فریتین زمینه افتراق گستردهتر را توضیح میدهیم.
نتایج هر مورد از اجرای مرجع اولیه V11 (۲۳ آوریل ۲۰۲۶)
اجرای مرجع اصلی V11 روی کوهورت اثبات مفهوم ۱۵ موردی، بهعنوان پایه روششناختی Second Update عمل میکند: هر یک از جزئیاتِ هر مورد در ادامه نشان میدهد rubric چگونه یک پاسخ واقعیِ موتور را مدیریت میکند. دوازده مورد از پانزده مورد به سقف امتیاز ترکیبی 1.000 در مسیر اصلی رسیدند؛ سه مورد از طریق fallback فاز ۲ سرویس شدند و در نتیجه جایزه تأخیر 0.05 را از دست دادند، اما تمام محتوای بالینی و ساختاری حفظ شد. یک مورد یک زیربخش اجباری را نداشت؛ یکی دیگر مجموعِ توزیع احتمال را اندکی کاهشیافته برگرداند.
پرونده PCOS (BT-008) در ساختار پاسخ، یک زیربخش اجباری را از دست داد — پانزده از شانزده به جای شانزده از شانزده — که امتیاز ساختاری را از 1.000 به 0.963 کاهش داد. پرونده SLE (BT-011) مجموعِ احتمال-توزیعِ کاهشیافتهای را بهصورت جزئی برگرداند که امتیاز بالینی را به 0.965 رساند، در حالی که هر کلیدواژه تشخیصی و سیستم امتیازدهی حفظ شد. هیچیک از دو پروندهای که زیرِ حد کامل بودند، تشخیص درست را از دست ندادند.
تجمیع V11 Second Update — 100,000 مورد
در مقیاس جمعیتی، ردیفهای منفردِ هر مورد برای انسان قابل خواندن نیستند، بنابراین بهروزرسانی دوم بهجای جدول 100,000 ردیفی، معیارهای تجمیعشده را گزارش میکند. تجمیعِ تیترشده در ادامه نشان داده شده است؛ تفکیکهای هر تخصص و هر برچسب کشوری در گزارش فنی و سپرده Figshare منتشر شدهاند. یک نمونه تصادفی طبقهبندیشده از n = 201 پاسخهای خام موتور (seed قطعی 20260426) برای بررسی در دایرکتوری GitHub منتشر میشود. results/ دایرکتوری برای بررسی.
اینکه امتیاز تیتر چه چیزی به ما نمیگوید
یک امتیاز ترکیبی 99.80 درصد تحت این شِمای از پیش ثبتشده خاص، بر روی یک همکوهورت مصنوعی 100,000 موردی که 127 برچسب کشور را پوشش میدهد، عملکردی نزدیک به سقف را نشان میدهد — اما نیازمند چارچوببندی دقیق است. این نتیجه رفتار موتور را در برابر شِمایی توصیف میکند که ما در V11 متعهد شدیم در کد منبع قرار گیرد؛ این یک ادعای جهانشمول درباره درستبودن موتور در هر پنل آزمایش خونی که در دنیای واقعی وجود دارد نیست.
امتیاز میگوید موتور الگوهای تشخیصی انتخابشده برای این ارزیابی را بهدرستی در یک گروه در مقیاس جمعیت مدیریت کرده است، با روشی که منتشر شده و قابل بازتولید است. این نمیگوید موتور در هر پنل آزمایش خون موجود در دنیای واقعی درست است. این نمیگوید موتور باید جایگزین قضاوت بالینی شود. و این نمیگوید موتور از سامانههای هوش مصنوعی جایگزین بهتر است — تحلیلهای تطبیقی در برابر موتورهای دیگر عمداً خارج از دامنه این گزارش بوده است.
چیزی که امتیاز واقعاً ثابت میکند یک خط پایه است. با عمومی بودن چارچوب و سامانه آزمایشی، نسخههای آینده موتور میتوانند در برابر همان چارچوب ارزیابی شوند — اعمالشده بر 15 مورد اولیه V11، گروه 100,000 موردی بهروزرسانی دوم، یا هر گسترش بعدی — و فاصله بین امتیاز منتشرشده و هر اجرای بعدی، خودِ قابل اندازهگیری است. ارزشِ ثبت از پیش همین است: ادعاهای عملکرد را به ادعاهای قابل آزمون تبدیل میکند.
چگونه این معیار را در 10 دقیقه بازتولید کنیم
برای بازتولید فقط یک جفت اعتبارنامه API Kantesti و یک محیط با Python 3.10 یا بالاتر لازم است که همراه با requests و reportlab کتابخانهها نصب شده باشند. کل سامانه اجرا یک ماژول پایتونِ واحد و خودبسنده است که تحت مجوز MIT منتشر شده.
چهار مرحله برای یک اجرای تازه
یک. مخزن را کلون کنید: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. دو. نصب وابستگیها با pip install -r requirements.txt (بهروزرسانی دوم اضافه میکند mysql-connector-python ≥ 8.0 برای بارگذار موردهای SQL). سه. تنظیم KANTESTI_USERNAME و KANTESTI_PASSWORD بهعنوان متغیرهای محیطی برای API موتور. برای بارگذار موردهای SQL در بهروزرسانی دوم، همچنین تنظیم کنید KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، و KANTESTI_DB_PASSWORD — لودر از طریق یک نقش فقطخواندنی متصل میشود (bench_reader) که هیچ امتیازی برای شناسایی جدولها ندارد. چهار. اجرا کنید python benchmark_bloodtest.py --limit 100000 برای اجرای کامل Second-Update، یا python benchmark_bloodtest.py --limit 1000 برای تکرار سریع. خروجیها در ./benchmark_results/: یک کارت امتیاز CSV با ستونهای برچسب کشوری و تخصص پزشکی، یک تجمیع JSON، یک نمونه تصادفی طبقهبندیشده از پاسخ خام، و یک گزارش Markdown.
اجراهای مرجع از 23 آوریل 2026 (V11 اولیه، 15 مورد) و 26 آوریل 2026 (V11 Second Update، 100,000 مورد) در results/ پوشهی مخزن نگهداری میشوند. یک اجرای تازه یک داشبورد امتیازی جدید با مهر زمانی تولید میکند، در حالی که اجراهای مرجع بدون تغییر باقی میمانند. اگر اجرای شما نتیجهای بهطور معنادار متفاوت تولید کرد، لطفاً یک Issue در GitHub با مهر زمانی اجرا و نسخهی موتور بازگرداندهشده در متادیتای پاسخ باز کنید.
محدودیتها و کارهای آینده
حتی با 100,000 مورد و 127 برچسب کشوری، چهار محدودیت شایسته است بهصورت صریح مورد اذعان قرار گیرد: کمنمونهگیریِ برچسبهای دنبالهبلند، ارزیابیِ تکمرحلهای، دامنهِ تکموتور، و منشأ تکمنبعِ داده. هر یک در کارهای پیگیریِ فعال در حال رسیدگی است.
پوشش برچسبهای دنبالهبلند. بهروزرسانی دوم شامل 127 برچسب کشوری است، اما توزیع نامتوازن است—10 برچسب برتر حدود ≈66.4% از موارد را تشکیل میدهند، و دنباله بلندِ 97 برچسب اضافی در مجموع ≈7.3% را مشارکت میدهد (حدود 7,300 مورد بهصورت ترکیبی، ~75 مورد برای هر برچسب بهطور متوسط). بنابراین، ترکیبهای هر برچسب در این دنباله بلند نسبت به ارقام تیترشده نویزدارتر هستند. اجراهای آینده انتساب برچسب را دوباره متعادل میکنند تا تخمینهای هر برچسب محکمتر شود.
ارزیابی تکنوبتی. هر مورد در این گروه یکبار ارزیابی شد. مدلهای زبانی بزرگ حتی در دمای نمونهبرداری پایین نیز دارای نوسان خروجی غیرقابلچشمپوشی هستند، بنابراین یک پروتکل چند-اجرا با پنج ارزیابی برای هر مورد و گزارش واریانس، گام بعدی طبیعی است — بهویژه روی زیرمجموعهی «trap-case»، جایی که سازگاری تحت لرزش نمونهبرداری بخشی از ادعای ایمنی است.
دامنهٔ تکموتوری. این گزارش یک موتور را توصیف میکند. تحلیلهای مقایسهای در برابر سامانههای هوش مصنوعی جایگزین در اینجا خارج از دامنه است؛ ممکن است آنها را بهعنوان یک مطالعهی مستقل جداگانه با روششناسی مناسب، در برابر همان چارچوب دارای مجوز MIT دنبال کنیم.
داده مصنوعی. 100,000 مورد بهصورت مصنوعی تولید شدهاند، نه اینکه «موارد مصنوعی» باشند، و نتایج به عملکرد بالینی واقعی منتقل نمیشوند. ارزیابی بر روی داده واقعیِ دارای رضایت و با منشأ بیرونی، نیازمند نظارت اخلاقی مناسب است و در چارچوب این بنچمارک مصنوعی قرار نمیگیرد.
فراتر از این چهار مورد، اثرگذارترین توسعهی برنامهریزیشده، برابری چندزبانه برای هر حوزه است. موتور Kantesti AI به کاربران در 75+ زبان خدمت میدهد، و اجرای زیرگروههای Second-Update با طبقهبندی زبانی (ترکی، آلمانی، اسپانیایی، فرانسوی، ایتالیایی، پرتغالی، عربی، ماندارین) کیفیت خروجی را در زبانهای پشتیبانیشدهی موتور کمیسازی خواهد کرد. هر تحلیلِ طبقهبندیشدهی زبانی با DOI و شاخهی چارچوب مخصوص به خود منتشر میشود.