چرا این معیار وجود دارد و چه چیزی را میسنجد
تفسیر آزمایش خون با کمک هوش مصنوعی بهطور فزایندهای در جریانهای کاری مصرفکننده و بالینی استفاده میشود، با این حال چارچوبهای ارزیابیِ قابلتکرارِ متناسب با پزشکی آزمایشگاهی همچنان رایج نیستند. مهمترین پرسشها در این زمینه، پرسشهایی نیستند که توسط معیارهای عمومیِ پاسخگویی به پرسشهای پزشکی پوشش داده میشوند: آیا یک موتور میتواند وقتی حجم متوسط گلبولها یکسان است، کمبود آهن را از ویژگی تالاسمی جدا کند، آیا سندرم گیلبرت را بهعنوان هپاتیت بیشتشخیص میدهد، و آیا در یک پنل غربالگری کاملاً طبیعی، پاتولوژی تولید میکند؟
یک پنل منفردِ آزمایش خون معمولاً به اندازهای سیگنال دارد که از چندین تفسیر رقیب پشتیبانی کند، و وظیفهٔ پزشکِ تفسیرکننده این است که آن تفسیرها را در برابر هم وزندهی کند، نه اینکه یک پاسخِ کتابدرسی را بازیابی کند. یک موتور که در مواردِ کتابدرسی عملکرد خوبی دارد ممکن است در مواردی که بیشترین اهمیت را دارند شکست بخورد: دامهای تشخیص افتراقی، واریانتهای خوشخیم که بهتنهایی نگرانکننده به نظر میرسند، و پنلهای کاملاً طبیعی که دستیارانِ بااعتماد را وسوسه میکنند تا «پاتولوژی» تولید کنند.
این بنچمارک دقیقاً برای همین حالتهای شکست ساخته شد. هر یک از پانزده کیس برای یک ویژگی تشخیصی مشخص انتخاب شد: میکروسیتوز ناشی از کمبود آهن که باید از صفت بتا-تالاسمی با حجم متوسط گلبول قرمز یکسان متمایز نگه داشته شود؛ یک تظاهرِ سندرم ژیلبرت که تنها ناهنجاری آن هایپربیلیروبینمیِ ایزولهٔ غیرمستقیم است؛ و یک پنل غربالگری پانزدهپارامتری که در آن هر آنالیت داخل محدودهٔ مرجع خود قرار دارد. این روبریک به موتورهایی پاداش میدهد که هر کیس را بر اساس شرایط خودش میخوانند و به موتورهایی که به سراغ یک تشخیصِ بااعتماد میروند وقتی چنین تشخیصی توجیه ندارد، امتیاز منفی میدهد.
بهعنوان دکتر توماس کلاین، من پنل کیس را انتخاب کردم چون این الگوهایی هستند که دستیارانِ پزشکیِ آزمایشگاهی بیشترین اشتباه را در آنها مرتکب میشوند. حالتِ شکستِ پرهزینه "از دست دادن یک بیماری نادر" نیست—بلکه ساختنِ پاتولوژیِ روتین در بیمارانی است که آن را ندارند. ما اعتبارسنجی پزشکی چارچوب گستردهتر را توصیف میکند؛ این صفحه، اثبات مفهومی اولیه V11 و بهروزرسانی دوم V11 را شرح میدهد که آن را تا 100,000 مورد ناشناسسازیشده مقیاس داد؛ مواردی که از یک مخزن بالینی پشتیبانیشده با SQL و شامل 127 کشور استخراج شدهاند — با همان روبریک امتیازدهی، دقیقاً بایتبهبایت، و بدون اجازه برای تنظیم پسینی.
جدیدترین اجرای مرجع — بهروزرسانی دوم V11 (26 آوریل 2026)
اجرای مرجع بهروزرسانی دوم V11 در تاریخ 26 آوریل 2026، امتیاز مرکبِ 99.80% بر اساس همان روبریک از پیش ثبتشدهای که در انتشار اولیه V11 استفاده شده بود، ارزیابی شد بر روی 100,000 مورد ناشناسسازیشده که از مخزن بالینی پشتیبانیشده با SQL Kantesti استخراج شدهاند و دربرگیرنده 127 کشور و زبانهای 75+ هستند. هر مورد در مسیر اصلیِ موتور کامل شد؛ فعالسازیهای پرچم بیشتشخیصِ موارد تله در سطح 0 / 87,412. باقی ماند. اجرای اولیه V11 در 23 آوریل 2026، 15 موردِ دستیِ گزینششده (امتیاز مرکب 99.12%) را پوشش داد و روبریک را اعتبارسنجی کرد؛ بهروزرسانی دوم همان روبریک را دقیقاً بایتبهبایت حفظ میکند و ارزیابی را به یک کوهورت در مقیاس جمعیتی گسترش میدهد.
فرمولِ ترکیبی سه مؤلفه را با هم ترکیب میکند: انطباق ساختاری با هفت بخش گزارشِ اجباری و شانزده زیربخشِ اجباری،, دقت بالینی که بهصورت «بازخوانیِ کلیدواژهها» بهعلاوهٔ «بازخوانیِ سیستم امتیازدهی» و نیز «بررسیِ اعتبارِ توزیع احتمال» اندازهگیری میشود، و تأخیر پاسخ در برابر هدف سطح خدمتِ مسیر اصلی. تجزیه دقیق در فرمول روبریکِ زیر نشان داده شده است — هیچیک از این وزنها یا زیر-روبریکها برای بهروزرسانی دوم تغییر نکردند.
0.20 امتیاز درصدیِ باقیمانده از فضای اطمینان، تقریباً تقریباً به طور کامل به زیر-امتیاز بالینی تجزیه میشود — بخش کوچکی از موارد (عمدتاً در هپاتولوژی و روماتولوژی) یک کلیدواژهِ مورد انتظارِ سیستم امتیازدهی را که باید در تفسیر موتور وجود میداشت، نداشتند، با اینکه محتوای تشخیصی درست بود. هیچ موردی در کوهورت 100,000 تاییِ بهروزرسانی دوم، خودِ تشخیص را از دست نداد. تأخیر از میانگین 20.17 ثانیه در انتشار اولیه V11 به 13.26 ثانیه در بهروزرسانی دوم بهبود یافت؛ که نشاندهنده بهینهسازیهای موتورِ تولیدی بین دو اجرا است؛ روبریک، کد امتیازدهی و نقطه پایانی API بدون تغییر ماندهاند.
امتیازهای مرکب برحسب کشور از 0.9971 (هند) تا 0.9985 (سوئیس) در میان 30 کشورِ پرتکرارتر متغیر بود. دنباله بلندِ 97 کشورِ دیگر (≈7,300 مورد بهصورت ترکیبی) هیچ افتِ سیستماتیکی نشان نداد. مشارکتکنندگان برتر بر اساس تعداد موارد عبارت بودند از: ایالات متحده (10,500)، برزیل (9,500)، اسپانیا (9,000)، ایتالیا (8,000)، آلمان (7,800)، فرانسه (7,400)، پرتغال (5,800)، Türkiye (3,400)، بریتانیا (2,900) و مکزیک (2,500).
از 15 مورد تا 100,000: تکامل کوهورت در 127 کشور
پنل موردیِ اصلی V11 هفت تخصص را پوشش میداد — هماتولوژی، غدد درونریز، پزشکی متابولیک، هپاتولوژی، نفرولوژی، قلبوعروق، روماتولوژی — بهعلاوه دو مورد تله اختصاصیِ بیشتشخیص؛ و هر مورد یک پرونده واقعیِ بیمارِ ناشناسسازیشده بود که از مخزن داده بالینی Kantesti تحت رضایت آگاهانه کتبی استخراج شده بود. بهروزرسانی دوم V11 ارزیابی را به 100,000 مورد ناشناسسازیشده در 127 کشور, گسترش میدهد که در هشت تخصص توزیع شدهاند (هفت تخصص اصلی بهعلاوه یک سطل اختصاصیِ پزشکی داخلی که زیرمجموعه تله را جذب میکند). همان روبریک امتیازدهی در هر دو اجرا دقیقاً بایتبهبایت اعمال میشود.
ناشناسسازی تحت رویکرد Safe Harbor انجام شد: همه شناسههای مستقیم حذف یا جایگزین شدند، و هر رکورد به یک کد مورد داخلیِ معیار در قالب BT-NNN-LABEL (V11 اولیه) یا یک شناسه پایدارِ ناشناسسازیشده case_uid برای بهروزرسانی دوم اختصاص داده شد. پردازش مطابق با ماده 9(2)(j) مقررات GDPR برای پژوهش علمی با تدابیر حفاظتی مناسب و نیز مقررات معادل UK GDPR انجام شد. هیچ اطلاعاتی که بهطور شخصی شناساییکننده باشد، در هیچکجای سامانه منتشرشده، گزارش فنی یا مجموعهدادههای منتشرشده وجود ندارد.
انتشار اولیه V11 — 15 موردِ دستیِ گزینششده
پنل اصلی پروندههای V11 توسط دکتر توماس کلاین بهصورت دستی گزینش شد تا الگوهای تشخیصیای را تمرین دهد که دستیاران پزشکی آزمایشگاهی بیشترین اشتباه را در آنها مرتکب میشوند. هر یک از پانزده پرونده برای یک ویژگی تشخیصی مشخص انتخاب شد که در ادامه آمده است.
چرا این توزیعِ خاص
هماتولوژی به سه مورد میرسد، چون افتراقیهای میکروسیتیک و ماکروسیتیک، پرحجمترین دامها در عملکرد واقعیِ آزمایشگاه هستند. غدد درونریز به سه مورد میرسد، چون تظاهرهای بیماریِ هاشیموتو، PCOS و کمبود ویتامین D، شکلهای تشخیصی متفاوتی را به چالش میکشند (محرکِ خودآنتیبادی، محرکِ نسبتهای هورمونی، محرکِ تکنشانگر). تخصصهای تکموردی همچنان معنادار هستند، چون هر یک از CKD، ریسک ASCVD و SLE سیستم امتیازدهی مخصوص به خود را دارد که موتور باید آن را فراخوانی کند (بهترتیب مرحلهبندی KDIGO، ریسک ۱۰ساله ASCVD، و معیارهای 2019 EULAR/ACR برای SLE).
بهروزرسانی دوم V11 — 100,000 پرونده ناشناسسازیشده در 127 کشور
بهروزرسانی دوم، متن پایتونِ اصلیِ V11 با 15 پروندهِ ثابت را با یک پرسوجوی SQL پارامترده و فقطخواندنی علیه مخزن بالینی Kantesti جایگزین میکند (anonymised_blood_panels). این پرسوجو بر اساس consent_research = 1 AND released_for_benchmark = 1 فیلتر میکند و برای شفافیت، در بالای هر اجرای بنچمارک چاپ میشود. توزیع گروه نمونه برحسب تخصص در ادامه نشان داده شده است.
توزیع جغرافیایی — ۱۰ کشور برتر
این کوهورت در ۱۲۷ کشور (ISO 3166-1 alpha-2) گسترده است. اروپا 57.7%، قارههای آمریکا 25.4%، آسیا-اقیانوسیه 6.2%، ورودیهای خاورمیانه/آفریقا 3.4% و یک دنباله بلند از ۹۷ کشور دیگر که مجموعاً حدود 7.3% را تشکیل میدهند. ده مشارکتکننده بزرگ عبارتاند از: ایالات متحده (10,500)، برزیل (9,500)، اسپانیا (9,000)، ایتالیا (8,000)، آلمان (7,800)، فرانسه (7,400)، پرتغال (5,800)، Türkiye (3,400)، بریتانیا (2,900) و مکزیک (2,500). امتیازهای ترکیبیِ هر کشور از 0.9971 (هند) تا 0.9985 (سوئیس) متغیر بود.
روبریک از پیش ثبتشده، توضیح دادهشده
پیشثبتنام مهمترین انتخاب روششناختی در این بنچمارک است. هر تشخیصِ مورد انتظار، هر سیستم امتیازدهی بالینی، و هر بخشِ گزارش، پیش از فراخوانی موتور به کد منبع متعهد شده بود قبل از اینکه موتور فراخوانی شود. بنابراین تنظیم پسینیِ روبریک برای خوشایند موتور ممکن نیست.
سه مؤلفه، نمره مرکب را تشکیل میدهند. مؤلفه ساختاری ۳۵ درصد سهم دارد و بررسی میکند آیا موتور هفت بخش اجباری گزارش را برگردانده است یا نه (سربرگ، خلاصه، یافتههای کلیدی، افتراق، سیستمهای امتیازدهی، توصیهها، پیگیری) و شانزده زیربخش اجباریِ داخل آنها. حضورِ بخشها ۴۰ درصد و حضورِ زیربخشها ۶۰ درصد را در محاسبه ساختاری تشکیل میدهد.
این مؤلفه بالینی ۵۵ درصد سهم دارد و سه چیز را ترکیب میکند: یادآوریِ کلیدواژههای تشخیص (۷۰ درصد از زیرنمره بالینی)، یادآوریِ سیستمهای امتیازدهی (۲۰ درصد — آیا موتور در صورت لزوم Mentzer، FIB-4، HOMA-IR، ریسک ASCVD، مرحلهبندی KDIGO، و معیارهای EULAR/ACR را محاسبه میکند یا نه)، و یک بررسیِ اعتبارِ جمعِ احتمالها (۱۰ درصد — احتمالهای افتراقی باید در بازه [90، 110] جمع شوند). برای موارد دام، یک جریمهِ صریحِ بیشتشخیصی تا 0.30 کم میشود که بهصورت 0.10 به ازای هر پرچمِ پاتولوژیِ ساختگی محاسبه میشود و حداکثر تا سه پرچم محدود میگردد.
این مؤلفه تأخیر ۱۰ درصد سهم دارد. پاسخِ کمتر از ۲۰ ثانیه نمره کامل 0.10 میگیرد، پاسخِ کمتر از ۴۰ ثانیه نمره 0.05 میگیرد، و هر چیز کندتر صفر است. هدف ۲۰ ثانیه بازتابدهنده هدف سطح خدمتِ تولید برای سرویسِ primary-path است؛ سقف ۴۰ ثانیه بازتابدهنده بودجه پشتیبانِ فاز ۲ برای فراخوانیهای سنگینِ موتور است.
چه چیزی را پیشثبتنام جلوگیری میکند
بنچمارکهای دستاول بهطور بدنامی اعداد خودشان را با تنظیم پسینیِ روبریک باد میکنند. الگو تقریباً همیشه یکسان است: تیم موتور را اجرا میکند، میبیند کجاها کمعملکرد دارد، سپس بهطور بیصدا روبریک را طوری تنظیم میکند که نواحیِ کمعملکرد کمتر حساب شوند. با متعهد کردن روبریک به کد منبع پیش از اولین فراخوانی موتور و انتشار مهارگر تحت مجوز MIT، این تنظیم در کنترل نسخه قابل مشاهده میشود. هر کسی میتواند مخزن را کلون کند، تاریخهای نویسنده روبریک را بررسی کند، و تأیید کند که نتایج موتور برای شکلدهی به امتیازدهی استفاده نشده است.
موارد دامِ بیشتشخیص — چرا «زیاد اعلام کردن» حالت شکست واقعی است
بیشتشخیصِ تهاجمیِ پاتولوژی در غربالگریهای طبیعی، یک حالت شکستِ مستند در دستیارهای پزشکیِ مصرفکننده است. هزینههای پیامدی آن شامل بررسیهای غیرضروری، اضطراب بیمار و کارِ تشخیصیِ ناشی از مداخله (iatrogenic) است. دو مورد دام در این بنچمارک طراحی شدهاند تا این حالت شکست را قابل مشاهده و قابل امتیازدهی کنند.
🟡 دام ۱ — BT-014-GILBERT
تظاهر. یک مرد ۲۴ ساله با بیلیروبین تام 2.4 mg/dL. کسر مستقیم طبیعی است، ترانسآمینازها و آلکالین فسفاتاز در محدودههای مرجع خود قرار دارند، رتیکولوسیتها قابل توجه نیستند، و هاپتوگلوبین و LDH همولیز را رد میکنند.
تفسیر صحیح. سندرم گیلبرت — یک پلیمورفیسم خوشخیمِ UGT1A1. تفسیر نباید هپاتیت، سیروز، کمخونی همولیتیک یا انسداد صفراوی را فراخوانی کند.
نتیجه V11. مرکب 1.000. هیچیک از شش پرچمِ بیشتشخیصِ پایششده بهعنوان تشخیصِ فعال ظاهر نشدند.
🟡 دام ۲ — BT-015-HEALTHY
تظاهر. یک زن ۳۵ ساله با پنل روتین غربالگریِ پانزدهپارامتری. هر آنالیت با آسودگی کامل داخل محدوده مرجع خود قرار دارد.
تفسیر صحیح. اطمینانبخشی و حفظ سبک زندگی. تفسیر نباید برای اینکه از نظر بالینی مفید به نظر برسد، بیماریهای مرزی را بهطور مصنوعی تولید کند.
نتیجه V11. ترکیب 1.000. هیچیک از هفت پرچمِ بیشتشخیصِ پایششده—دیابت، کمخونی، کمکاری تیروئید، دیسلیپیدمی، هپاتیت، بیماری کلیه، کمبود—بهعنوان تشخیص فعال ظاهر نشدند.
در هر دو تله، سیزده پرچمِ بیشتشخیصِ پایششده بررسی شد. هیچکدام فعال نشدند. این نتیجه مهمترین چیزی است که برای هر پزشکِ در نظر گرفتن استفاده از یک موتور هوش مصنوعی بهعنوان ابزار تریاژ یا پیش از ویزیت اهمیت دارد: سیستم جایی که بیماری وجود نداشت، بیماری اختراع نکرد.
شاخص منتزر: تفکیک کمبود آهن از ویژگی تالاسمی
یافته ارزشمند دوم مربوط به جفت شدنِ مورد BT-001 (کمخونی فقر آهن) با مورد BT-007 (بتا-تالاسمی مینور) است. هر دو با میکروسیتوز همراهاند و یک مانع شناختهشده برای طبقهبندهای سادهلوحانه محسوب میشوند. شاخص منتزر که بهصورت MCV تقسیم بر تعداد RBC محاسبه میشود، در فقر آهن بیش از 13 است و در صفت تالاسمی کمتر از 13 میافتد.
در BT-001، بیمار یک زن 34 ساله با هموگلوبین 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فریتین 6 ng/mL و TIBC بالا بود. شاخص منتزرِ حدود 17.7 از کمبود مطلق آهن حمایت میکند. در BT-007، بیمار یک مرد 28 ساله با میکروسیتوز (MCV 65.8 fL) اما تعداد RBC بالا 6.2، RDW طبیعی، فریتین طبیعی و HbA2 برابر 5.6 درصد بود. شاخص منتزرِ حدود 10.6 به صفت تالاسمی اشاره دارد و HbA2 بالا، بتا-تالاسمی مینور را تأیید میکند.
هر دو مورد امتیاز 1.000 گرفتند. موتور در هر دو تفسیر، شاخص منتزر را بهطور صریح فراخوانی کرد و در هر مورد تشخیص درست را برگرداند. این تنها نتیجهای است که در کل بنچمارک از نظر بالینی بیشترین اطمینان را میدهد, ، زیرا اشتباه گرفتنِ صفت تالاسمی بهعنوان فقر آهن باعث تجویز نامناسب مکملهای آهن و از دست رفتن فرصتهای غربالگری خانوادگی میشود، و اشتباه گرفتنِ فقر آهن بهعنوان تالاسمی، درمان جایگزینی ساده را به تأخیر میاندازد. ما محدوده فریتین زمینه افتراق گستردهتر را توضیح میدهیم.
نتایج هر مورد از اجرای مرجع اولیه V11 (۲۳ آوریل ۲۰۲۶)
اجرای مرجع اصلی V11 روی کوهورت اثبات مفهوم ۱۵ موردی، بهعنوان پایه روششناختی Second Update عمل میکند: هر یک از جزئیاتِ هر مورد در ادامه نشان میدهد rubric چگونه یک پاسخ واقعیِ موتور را مدیریت میکند. دوازده مورد از پانزده مورد به سقف امتیاز ترکیبی 1.000 در مسیر اصلی رسیدند؛ سه مورد از طریق fallback فاز ۲ سرویس شدند و در نتیجه جایزه تأخیر 0.05 را از دست دادند، اما تمام محتوای بالینی و ساختاری حفظ شد. یک مورد یک زیربخش اجباری را نداشت؛ یکی دیگر مجموعِ توزیع احتمال را اندکی کاهشیافته برگرداند.
پرونده PCOS (BT-008) در ساختار پاسخ، یک زیربخش اجباری را از دست داد — پانزده از شانزده به جای شانزده از شانزده — که امتیاز ساختاری را از 1.000 به 0.963 کاهش داد. پرونده SLE (BT-011) مجموعِ احتمال-توزیعِ کاهشیافتهای را بهصورت جزئی برگرداند که امتیاز بالینی را به 0.965 رساند، در حالی که هر کلیدواژه تشخیصی و سیستم امتیازدهی حفظ شد. هیچیک از دو پروندهای که زیرِ حد کامل بودند، تشخیص درست را از دست ندادند.
تجمیع V11 Second Update — 100,000 مورد
در مقیاس جمعیتی، ردیفهای هر مورد برای انسان خوانا نیستند، بنابراین Second Update بهجای یک جدول 100,000 ردیفی، معیارهای تجمیعی گزارش میکند. تجمیعِ تیترشده در ادامه نشان داده شده است؛ تفکیکهای مربوط به هر تخصص و هر کشور در گزارش فنی و سپرده Figshare منتشر میشوند. یک نمونه تصادفی طبقهبندیشده از n = 201 پاسخهای خام موتور (seed قطعی 20260426) برای بررسی در دایرکتوری GitHub منتشر میشود. results/ دایرکتوری برای بررسی.
اینکه امتیاز تیتر چه چیزی به ما نمیگوید
یک امتیاز ترکیبی 99.80 درصد تحت این چارچوب از پیش ثبتشده خاص، در یک گروه ناشناس 100,000 موردی که 127 کشور را پوشش میدهد، عملکردی نزدیک به سقف را نشان میدهد — اما نیازمند چارچوببندی دقیق است. این نتیجه رفتار موتور را در برابر چارچوبی توصیف میکند که ما متعهد شدیم کد منبع در V11 را بر اساس آن ارائه کند؛ این یک ادعای فراگیر درباره درستی موتور در هر پنل آزمایش خون موجود در دنیای واقعی نیست.
امتیاز میگوید موتور الگوهای تشخیصی انتخابشده برای این ارزیابی را بهدرستی در یک گروه در مقیاس جمعیت مدیریت کرده است، با روشی که منتشر شده و قابل بازتولید است. این نمیگوید موتور در هر پنل آزمایش خون موجود در دنیای واقعی درست است. این نمیگوید موتور باید جایگزین قضاوت بالینی شود. و این نمیگوید موتور از سامانههای هوش مصنوعی جایگزین بهتر است — تحلیلهای تطبیقی در برابر موتورهای دیگر عمداً خارج از دامنه این گزارش بوده است.
چیزی که امتیاز واقعاً ثابت میکند یک خط پایه است. با عمومی بودن چارچوب و سامانه آزمایشی، نسخههای آینده موتور میتوانند در برابر همان چارچوب ارزیابی شوند — اعمالشده بر 15 مورد اولیه V11، گروه 100,000 موردی بهروزرسانی دوم، یا هر گسترش بعدی — و فاصله بین امتیاز منتشرشده و هر اجرای بعدی، خودِ قابل اندازهگیری است. ارزشِ ثبت از پیش همین است: ادعاهای عملکرد را به ادعاهای قابل آزمون تبدیل میکند.
چگونه این معیار را در 10 دقیقه بازتولید کنیم
برای بازتولید فقط یک جفت اعتبارنامه API Kantesti و یک محیط با Python 3.10 یا بالاتر لازم است که همراه با requests و reportlab کتابخانهها نصب شده باشند. کل سامانه اجرا یک ماژول پایتونِ واحد و خودبسنده است که تحت مجوز MIT منتشر شده.
چهار مرحله برای یک اجرای تازه
یک. مخزن را کلون کنید: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. دو. نصب وابستگیها با pip install -r requirements.txt (بهروزرسانی دوم اضافه میکند mysql-connector-python ≥ 8.0 برای بارگذار موردهای SQL). سه. تنظیم KANTESTI_USERNAME و KANTESTI_PASSWORD بهعنوان متغیرهای محیطی برای API موتور. برای بارگذار موردهای SQL در بهروزرسانی دوم، همچنین تنظیم کنید KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، و KANTESTI_DB_PASSWORD — لودر از طریق یک نقش فقطخواندنی متصل میشود (bench_reader) که هیچ امتیازی برای شناسایی جدولها ندارد. چهار. اجرا کنید python benchmark_bloodtest.py --limit 100000 برای اجرای کامل Second-Update، یا python benchmark_bloodtest.py --limit 1000 برای تکرار سریع. خروجیها در ./benchmark_results/: یک داشبورد امتیازی CSV با ستونهای مربوط به هر کشور و هر تخصص، یک تجمیع JSON، یک نمونه پاسخ خام طبقهبندیشده تصادفی، و یک گزارش Markdown.
اجراهای مرجع از 23 آوریل 2026 (V11 اولیه، 15 مورد) و 26 آوریل 2026 (V11 Second Update، 100,000 مورد) در results/ پوشهی مخزن نگهداری میشوند. یک اجرای تازه یک داشبورد امتیازی جدید با مهر زمانی تولید میکند، در حالی که اجراهای مرجع بدون تغییر باقی میمانند. اگر اجرای شما نتیجهای بهطور معنادار متفاوت تولید کرد، لطفاً یک Issue در GitHub با مهر زمانی اجرا و نسخهی موتور بازگرداندهشده در متادیتای پاسخ باز کنید.
محدودیتها و کارهای آینده
حتی با 100,000 مورد در 127 کشور، چهار محدودیت نیاز به اذعان صریح دارند: کمنمونهگیری دنبالهبلند کشورها، ارزیابی تکنوبتی، دامنهی تکموتوری، و منشأ تکمنبع داده. هر کدام در کارهای پیگیری فعال در حال رسیدگی است.
پوشش کشورهای دنبالهبلند. Second Update دربرگیرندهی 127 کشور است، اما توزیع نامتوازن است — 10 مشارکتکنندهی برتر حدود ≈66.4% از موارد را تشکیل میدهند، و دنبالهی بلند 97 کشور دیگر در مجموع ≈7.3% (تقریباً 7,300 مورد بههمراه، ~75 مورد بهطور متوسط برای هر کشور) سهم دارد. بنابراین، ترکیبهای کشوری در این دنبالهی بلند پرنویزتر از ارقام تیترشده هستند. اجراهای آینده بهطور ترجیحی از کشورهایی که کمنمونهگیری شدهاند جذب خواهند کرد تا برآوردهای مربوط به هر حوزه را دقیقتر کنند.
ارزیابی تکنوبتی. هر مورد در این گروه یکبار ارزیابی شد. مدلهای زبانی بزرگ حتی در دمای نمونهبرداری پایین نیز دارای نوسان خروجی غیرقابلچشمپوشی هستند، بنابراین یک پروتکل چند-اجرا با پنج ارزیابی برای هر مورد و گزارش واریانس، گام بعدی طبیعی است — بهویژه روی زیرمجموعهی «trap-case»، جایی که سازگاری تحت لرزش نمونهبرداری بخشی از ادعای ایمنی است.
دامنهٔ تکموتوری. این گزارش یک موتور را توصیف میکند. تحلیلهای مقایسهای در برابر سامانههای هوش مصنوعی جایگزین در اینجا خارج از دامنه است؛ ممکن است آنها را بهعنوان یک مطالعهی مستقل جداگانه با روششناسی مناسب، در برابر همان چارچوب دارای مجوز MIT دنبال کنیم.
منشأ تکمنبع داده. 100,000 مورد، سوابق واقعیِ ناشناسسازیشدهی بیماران هستند که از یک مخزن بالینی واحد استخراج شدهاند (انبار دادهی بالینی SQL-محور Kantesti). اینها نمایانگر یک جریان تولیدی گزینششده هستند و در سطح جهانی یک نمونهگیری تصادفی نمایندهی جمعیت محسوب نمیشوند. گسترش ارزیابی به دادههای چندمرکزی با منشأ بیرونی در برنامهی راهبردی قرار دارد.
فراتر از این چهار مورد، اثرگذارترین توسعهی برنامهریزیشده، برابری چندزبانه برای هر حوزه است. موتور Kantesti AI به کاربران در 75+ زبان خدمت میدهد، و اجرای زیرگروههای Second-Update با طبقهبندی زبانی (ترکی، آلمانی، اسپانیایی، فرانسوی، ایتالیایی، پرتغالی، عربی، ماندارین) کیفیت خروجی را در زبانهای پشتیبانیشدهی موتور کمیسازی خواهد کرد. هر تحلیلِ طبقهبندیشدهی زبانی با DOI و شاخهی چارچوب مخصوص به خود منتشر میشود.