چرا این معیار وجود دارد و چه چیزی را میسنجد
تفسیر آزمایش خون با کمک هوش مصنوعی بهطور فزایندهای در جریانهای کاری مصرفکننده و بالینی استفاده میشود، با این حال چارچوبهای ارزیابیِ قابلتکرارِ متناسب با پزشکی آزمایشگاهی همچنان رایج نیستند. مهمترین پرسشها در این زمینه، پرسشهایی نیستند که توسط معیارهای عمومیِ پاسخگویی به پرسشهای پزشکی پوشش داده میشوند: آیا یک موتور میتواند وقتی حجم متوسط گلبولها یکسان است، کمبود آهن را از ویژگی تالاسمی جدا کند، آیا سندرم گیلبرت را بهعنوان هپاتیت بیشتشخیص میدهد، و آیا در یک پنل غربالگری کاملاً طبیعی، پاتولوژی تولید میکند؟
یک پنل منفردِ آزمایش خون معمولاً به اندازهای سیگنال دارد که از چندین تفسیر رقیب پشتیبانی کند، و وظیفهٔ پزشکِ تفسیرکننده این است که آن تفسیرها را در برابر هم وزندهی کند، نه اینکه یک پاسخِ کتابدرسی را بازیابی کند. یک موتور که در مواردِ کتابدرسی عملکرد خوبی دارد ممکن است در مواردی که بیشترین اهمیت را دارند شکست بخورد: دامهای تشخیص افتراقی، واریانتهای خوشخیم که بهتنهایی نگرانکننده به نظر میرسند، و پنلهای کاملاً طبیعی که دستیارانِ بااعتماد را وسوسه میکنند تا «پاتولوژی» تولید کنند.
این بنچمارک دقیقاً برای همین حالتهای شکست ساخته شد. هر یک از پانزده کیس برای یک ویژگی تشخیصی مشخص انتخاب شد: میکروسیتوز ناشی از کمبود آهن که باید از صفت بتا-تالاسمی با حجم متوسط گلبول قرمز یکسان متمایز نگه داشته شود؛ یک تظاهرِ سندرم ژیلبرت که تنها ناهنجاری آن هایپربیلیروبینمیِ ایزولهٔ غیرمستقیم است؛ و یک پنل غربالگری پانزدهپارامتری که در آن هر آنالیت داخل محدودهٔ مرجع خود قرار دارد. این روبریک به موتورهایی پاداش میدهد که هر کیس را بر اساس شرایط خودش میخوانند و به موتورهایی که به سراغ یک تشخیصِ بااعتماد میروند وقتی چنین تشخیصی توجیه ندارد، امتیاز منفی میدهد.
بهعنوان دکتر توماس کلاین، من پنل کیس را انتخاب کردم چون این الگوهایی هستند که دستیارانِ پزشکیِ آزمایشگاهی بیشترین اشتباه را در آنها مرتکب میشوند. حالتِ شکستِ پرهزینه "از دست دادن یک بیماری نادر" نیست—بلکه ساختنِ پاتولوژیِ روتین در بیمارانی است که آن را ندارند. ما اعتبارسنجی پزشکی hub چارچوب گستردهتر را توصیف میکند؛ این صفحه نتیجهٔ کاربردی آن را روی موتور V11 شرح میدهد.
جدیدترین اجرای مرجع — V11 (آوریل 2026)
اجرای مرجعِ آوریل 2026 برای موتور Kantesti AI Engine V11 یک امتیاز ترکیبی تولید کرد: 99.12% در روبریکِ ازپیشثبتشدهٔ پانزدهکیسی. هر دو کیسِ دامِ هایپردیگنوزیس به سقف امتیاز رسیدند. شاخص منتزر بهدرستی در افتراق کمبود آهن در برابر تالاسمی اعمال شد.
فرمولِ ترکیبی سه مؤلفه را با هم ترکیب میکند: انطباق ساختاری با هفت بخش گزارشِ اجباری و شانزده زیربخشِ اجباری،, دقت بالینی که بهصورت «بازخوانیِ کلیدواژهها» بهعلاوهٔ «بازخوانیِ سیستم امتیازدهی» و نیز «بررسیِ اعتبارِ توزیع احتمال» اندازهگیری میشود، و تأخیر پاسخ در برابر هدفِ سطح خدمتِ اصلیِ 20 ثانیهای. تجزیهٔ دقیق در فرمول روبریکِ زیر نشان داده شده است.
0.88 درصد باقیمانده از فضای خالی (headroom) تقریباً بهطور کامل به «کاهش ناشی از تأخیر» (latency loss) تجزیه میشود — سه بار فراخوانیِ جایگزینِ فاز 2 با مقدار ترکیبیِ هرکدام 0.05-، حدود 0.60 از کسری 0.88- امتیازی را ایجاد کردند — نه محتوای بالینی. موتور در هیچیک از پانزده مورد، تشخیص صحیح را از دست نداد؛ در مواردی که کوتاهی کرد، این کوتاهی در اقلیت کوچکی از فراخوانیها بود که کمی بیش از هدف 20 ثانیهایِ مسیر اصلی (primary-path) زمان برد.
پانزده مورد در هفت تخصص پزشکی
پنلِ موارد، هفت تخصص را پوشش میدهد — هماتولوژی، غدد درونریز، پزشکی متابولیک، کبدشناسی، نفرولوژی، قلب و عروق، روماتولوژی — بهعلاوه دو مورد اختصاصیِ «دام تشخیصِ بیشازحد» (hyperdiagnosis trap). هر مورد، یک پرونده واقعیِ بیمارِ ناشناسسازیشده است که از مخزن دادههای بالینی Kantesti تحت رضایت آگاهانه کتبی استخراج شده است.
ناشناسسازی با رویکرد Safe Harbor انجام شد: همه شناسههای مستقیم حذف یا جایگزین شدند و هر پرونده یک کد مورد داخلیِ معیار در قالب BT-NNN-LABEL دریافت کرد. پردازش مطابق با ماده 9(2)(j) مقررات GDPR برای پژوهش علمی با تدابیر حفاظتی مناسب و نیز مقررات معادل UK GDPR انجام شد. هیچ اطلاعاتی که بهطور شخصی شناساییکننده باشد، در هیچکجای سامانه منتشرشده، گزارش فنی یا مجموعهدادههای منتشرشده وجود ندارد.
چرا این توزیعِ خاص
هماتولوژی به سه مورد میرسد، چون افتراقیهای میکروسیتیک و ماکروسیتیک، پرحجمترین دامها در عملکرد واقعیِ آزمایشگاه هستند. غدد درونریز به سه مورد میرسد، چون تظاهرهای بیماریِ هاشیموتو، PCOS و کمبود ویتامین D، شکلهای تشخیصی متفاوتی را به چالش میکشند (محرکِ خودآنتیبادی، محرکِ نسبتهای هورمونی، محرکِ تکنشانگر). تخصصهای تکموردی همچنان معنادار هستند، چون هر یک از CKD، ریسک ASCVD و SLE سیستم امتیازدهی مخصوص به خود را دارد که موتور باید آن را فراخوانی کند (بهترتیب مرحلهبندی KDIGO، ریسک ۱۰ساله ASCVD، و معیارهای 2019 EULAR/ACR برای SLE).
روبریک از پیش ثبتشده، توضیح دادهشده
پیشثبتنام مهمترین انتخاب روششناختی در این بنچمارک است. هر تشخیصِ مورد انتظار، هر سیستم امتیازدهی بالینی، و هر بخشِ گزارش، پیش از فراخوانی موتور به کد منبع متعهد شده بود قبل از اینکه موتور فراخوانی شود. بنابراین تنظیم پسینیِ روبریک برای خوشایند موتور ممکن نیست.
سه مؤلفه، نمره مرکب را تشکیل میدهند. مؤلفه ساختاری ۳۵ درصد سهم دارد و بررسی میکند آیا موتور هفت بخش اجباری گزارش را برگردانده است یا نه (سربرگ، خلاصه، یافتههای کلیدی، افتراق، سیستمهای امتیازدهی، توصیهها، پیگیری) و شانزده زیربخش اجباریِ داخل آنها. حضورِ بخشها ۴۰ درصد و حضورِ زیربخشها ۶۰ درصد را در محاسبه ساختاری تشکیل میدهد.
این مؤلفه بالینی ۵۵ درصد سهم دارد و سه چیز را ترکیب میکند: یادآوریِ کلیدواژههای تشخیص (۷۰ درصد از زیرنمره بالینی)، یادآوریِ سیستمهای امتیازدهی (۲۰ درصد — آیا موتور در صورت لزوم Mentzer، FIB-4، HOMA-IR، ریسک ASCVD، مرحلهبندی KDIGO، و معیارهای EULAR/ACR را محاسبه میکند یا نه)، و یک بررسیِ اعتبارِ جمعِ احتمالها (۱۰ درصد — احتمالهای افتراقی باید در بازه [90، 110] جمع شوند). برای موارد دام، یک جریمهِ صریحِ بیشتشخیصی تا 0.30 کم میشود که بهصورت 0.10 به ازای هر پرچمِ پاتولوژیِ ساختگی محاسبه میشود و حداکثر تا سه پرچم محدود میگردد.
این مؤلفه تأخیر ۱۰ درصد سهم دارد. پاسخِ کمتر از ۲۰ ثانیه نمره کامل 0.10 میگیرد، پاسخِ کمتر از ۴۰ ثانیه نمره 0.05 میگیرد، و هر چیز کندتر صفر است. هدف ۲۰ ثانیه بازتابدهنده هدف سطح خدمتِ تولید برای سرویسِ primary-path است؛ سقف ۴۰ ثانیه بازتابدهنده بودجه پشتیبانِ فاز ۲ برای فراخوانیهای سنگینِ موتور است.
چه چیزی را پیشثبتنام جلوگیری میکند
بنچمارکهای دستاول بهطور بدنامی اعداد خودشان را با تنظیم پسینیِ روبریک باد میکنند. الگو تقریباً همیشه یکسان است: تیم موتور را اجرا میکند، میبیند کجاها کمعملکرد دارد، سپس بهطور بیصدا روبریک را طوری تنظیم میکند که نواحیِ کمعملکرد کمتر حساب شوند. با متعهد کردن روبریک به کد منبع پیش از اولین فراخوانی موتور و انتشار مهارگر تحت مجوز MIT، این تنظیم در کنترل نسخه قابل مشاهده میشود. هر کسی میتواند مخزن را کلون کند، تاریخهای نویسنده روبریک را بررسی کند، و تأیید کند که نتایج موتور برای شکلدهی به امتیازدهی استفاده نشده است.
موارد دامِ بیشتشخیص — چرا «زیاد اعلام کردن» حالت شکست واقعی است
بیشتشخیصِ تهاجمیِ پاتولوژی در غربالگریهای طبیعی، یک حالت شکستِ مستند در دستیارهای پزشکیِ مصرفکننده است. هزینههای پیامدی آن شامل بررسیهای غیرضروری، اضطراب بیمار و کارِ تشخیصیِ ناشی از مداخله (iatrogenic) است. دو مورد دام در این بنچمارک طراحی شدهاند تا این حالت شکست را قابل مشاهده و قابل امتیازدهی کنند.
🟡 دام ۱ — BT-014-GILBERT
تظاهر. یک مرد ۲۴ ساله با بیلیروبین تام 2.4 mg/dL. کسر مستقیم طبیعی است، ترانسآمینازها و آلکالین فسفاتاز در محدودههای مرجع خود قرار دارند، رتیکولوسیتها قابل توجه نیستند، و هاپتوگلوبین و LDH همولیز را رد میکنند.
تفسیر صحیح. سندرم گیلبرت — یک پلیمورفیسم خوشخیمِ UGT1A1. تفسیر نباید هپاتیت، سیروز، کمخونی همولیتیک یا انسداد صفراوی را فراخوانی کند.
نتیجه V11. مرکب 1.000. هیچیک از شش پرچمِ بیشتشخیصِ پایششده بهعنوان تشخیصِ فعال ظاهر نشدند.
🟡 دام ۲ — BT-015-HEALTHY
تظاهر. یک زن ۳۵ ساله با پنل روتین غربالگریِ پانزدهپارامتری. هر آنالیت با آسودگی کامل داخل محدوده مرجع خود قرار دارد.
تفسیر صحیح. اطمینانبخشی و حفظ سبک زندگی. تفسیر نباید برای اینکه از نظر بالینی مفید به نظر برسد، بیماریهای مرزی را بهطور مصنوعی تولید کند.
نتیجه V11. ترکیب 1.000. هیچیک از هفت پرچمِ بیشتشخیصِ پایششده—دیابت، کمخونی، کمکاری تیروئید، دیسلیپیدمی، هپاتیت، بیماری کلیه، کمبود—بهعنوان تشخیص فعال ظاهر نشدند.
در هر دو تله، سیزده پرچمِ بیشتشخیصِ پایششده بررسی شد. هیچکدام فعال نشدند. این نتیجه مهمترین چیزی است که برای هر پزشکِ در نظر گرفتن استفاده از یک موتور هوش مصنوعی بهعنوان ابزار تریاژ یا پیش از ویزیت اهمیت دارد: سیستم جایی که بیماری وجود نداشت، بیماری اختراع نکرد.
شاخص منتزر: تفکیک کمبود آهن از ویژگی تالاسمی
یافته ارزشمند دوم مربوط به جفت شدنِ مورد BT-001 (کمخونی فقر آهن) با مورد BT-007 (بتا-تالاسمی مینور) است. هر دو با میکروسیتوز همراهاند و یک مانع شناختهشده برای طبقهبندهای سادهلوحانه محسوب میشوند. شاخص منتزر که بهصورت MCV تقسیم بر تعداد RBC محاسبه میشود، در فقر آهن بیش از 13 است و در صفت تالاسمی کمتر از 13 میافتد.
در BT-001، بیمار یک زن 34 ساله با هموگلوبین 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فریتین 6 ng/mL و TIBC بالا بود. شاخص منتزرِ حدود 17.7 از کمبود مطلق آهن حمایت میکند. در BT-007، بیمار یک مرد 28 ساله با میکروسیتوز (MCV 65.8 fL) اما تعداد RBC بالا 6.2، RDW طبیعی، فریتین طبیعی و HbA2 برابر 5.6 درصد بود. شاخص منتزرِ حدود 10.6 به صفت تالاسمی اشاره دارد و HbA2 بالا، بتا-تالاسمی مینور را تأیید میکند.
هر دو مورد امتیاز 1.000 گرفتند. موتور در هر دو تفسیر، شاخص منتزر را بهطور صریح فراخوانی کرد و در هر مورد تشخیص درست را برگرداند. این تنها نتیجهای است که در کل بنچمارک از نظر بالینی بیشترین اطمینان را میدهد, ، زیرا اشتباه گرفتنِ صفت تالاسمی بهعنوان فقر آهن باعث تجویز نامناسب مکملهای آهن و از دست رفتن فرصتهای غربالگری خانوادگی میشود، و اشتباه گرفتنِ فقر آهن بهعنوان تالاسمی، درمان جایگزینی ساده را به تأخیر میاندازد. ما محدوده فریتین زمینه افتراق گستردهتر را توضیح میدهیم.
نتایج موردبهمورد از اجرای آوریل 2026
دوازده مورد از پانزده مورد به امتیاز ترکیبی سقفِ 1.000 در مسیر اصلی دست یافتند. سه مورد از طریق بازگشتِ فاز 2 سرویس شدند و در نتیجه جایزه تأخیر 0.05 را از دست دادند، در حالی که تمام محتوای بالینی و ساختاری حفظ شد. یک مورد یک زیربخش اجباری را نداشت؛ یکی دیگر مجموعِ توزیع احتمال را بهطور جزئی کاهشیافته برگرداند.
پرونده PCOS (BT-008) در ساختار پاسخ، یک زیربخش اجباری را از دست داد — پانزده از شانزده به جای شانزده از شانزده — که امتیاز ساختاری را از 1.000 به 0.963 کاهش داد. پرونده SLE (BT-011) مجموعِ احتمال-توزیعِ کاهشیافتهای را بهصورت جزئی برگرداند که امتیاز بالینی را به 0.965 رساند، در حالی که هر کلیدواژه تشخیصی و سیستم امتیازدهی حفظ شد. هیچیک از دو پروندهای که زیرِ حد کامل بودند، تشخیص درست را از دست ندادند.
اینکه امتیاز تیتر چه چیزی به ما نمیگوید
یک امتیاز ترکیبی 99.12 درصد تحت این چارچوبِ از پیش ثبتشده، عملکردی نزدیک به سقف را نشان میدهد، اما نیازمند چارچوببندی دقیق است. نتیجه رفتار موتور را در برابر پانزده پرونده ناشناسِ با دقت انتخابشده توصیف میکند که هر کدام یکبار و در برابر یک چارچوب واحد ارزیابی شدهاند. ما صریحاً میگوییم این عدد چه چیزی را نشان میدهد و چه چیزی را ثابت نمیکند.
امتیاز میگوید موتور V11 الگوهای تشخیصیِ انتخابشده برای این ارزیابی را بهدرستی مدیریت کرده است، با روشی که منتشر شده و قابل بازتولید است. این به این معنا نیست که موتور در هر پنل آزمایش خونِ موجود در دنیای واقعی درست است. همچنین نمیگوید موتور باید جایگزین قضاوت بالینی شود. و نیز نمیگوید موتور از سامانههای جایگزینِ هوش مصنوعی بهتر است — تحلیلهای مقایسهای با موتورهای دیگر عمداً خارج از دامنه این گزارش بودهاند.
چیزی که امتیاز واقعاً ثابت میکند یک خط پایه است. با در دسترس بودن چارچوب و سامانه اجرا، نسخههای آینده موتور میتوانند در برابر همان پانزده پرونده ارزیابی شوند و فاصله بین امتیاز منتشرشده و هر اجرای بعدی، خودِ قابل اندازهگیری است. ارزشِ ثبتِ از پیش همین است: ادعاهای عملکرد را به ادعاهای قابل آزمون تبدیل میکند.
چگونه این معیار را در 10 دقیقه بازتولید کنیم
برای بازتولید فقط یک جفت اعتبارنامه API Kantesti و یک محیط با Python 3.10 یا بالاتر لازم است که همراه با requests و reportlab کتابخانهها نصب شده باشند. کل سامانه اجرا یک ماژول پایتونِ واحد و خودبسنده است که تحت مجوز MIT منتشر شده.
چهار مرحله برای یک اجرای تازه
یک. مخزن را کلون کنید: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. دو. نصب وابستگیها با pip install -r requirements.txt. سه. تنظیم KANTESTI_USERNAME و KANTESTI_PASSWORD بهعنوان متغیرهای محیطی — اعتبارنامهها در زمان اجرا خوانده میشوند و هیچچیز در اسکریپت بهصورت ثابت (hard-coded) قرار داده نشده است. چهار. اجرا کنید python benchmark_bloodtest.py و چهار خروجی (artefact) تولیدشده در دایرکتوری کاری را بررسی کنید: یک CSV scorecard، یک JSON scorecard، یک خروجی JSON کامل شامل پاسخهای خام موتور، و یک گزارش Markdown قابلخواندن برای انسان.
اجرای مرجع از 23 آوریل 2026 در results/ قرار دارد. یک اجرای تازه، یک scorecard جدید با زمانمهر جدید تولید میکند، در حالیکه اجرای مرجع بدون تغییر باقی میماند. اگر اجرای شما نتیجهای بهطور معنادار متفاوت تولید کرد، لطفاً یک issue در GitHub با زمانمهر اجرای شما و نسخه موتور بازگرداندهشده در متادیتای پاسخ باز کنید.
محدودیتها و کارهای آینده
چهار محدودیت شایستهٔ اذعان صریح هستند: حجم نمونه، ارزیابی تکنوبتی (single-shot)، دامنهٔ تکموتوری، و منشأ تکمنبع داده. هرکدام در کارهای پیگیریِ فعال در حال رسیدگی است.
حجم نمونه. پانزده مورد در هشت دستهٔ تخصصی برای اثبات مفهوم کافی است، اما برای تحلیل زیرگروهها درون یک تخصص کافی نیست. گسترش به پنجاه مورد برنامهریزی شده و شامل پنلهای انعقادی، غربالگری بدخیمیهای هماتولوژیک، پنلهای بارداری و ارائههای کودکان خواهد بود.
ارزیابی تکنوبتی. هر مورد یکبار ارزیابی شد. مدلهای زبانی بزرگ حتی در دمای نمونهبرداری پایین نیز نوسان خروجیِ غیرقابلچشمپوشی نشان میدهند، بنابراین یک پروتکل چند-اجرا با پنج ارزیابی برای هر مورد و گزارشِ واریانس، گام طبیعی بعدی است.
دامنهٔ تکموتوری. این گزارش یک موتور را توصیف میکند. تحلیلهای مقایسهای در برابر سامانههای هوش مصنوعی جایگزین در اینجا خارج از محدوده است؛ ممکن است آنها را بهعنوان یک مطالعهٔ مستقل جداگانه با روششناسی مناسب دنبال کنیم.
منشأ تکمنبع داده. پانزده مورد، سوابق واقعیِ ناشناسشدهٔ بیماران هستند که از یک مخزن بالینی واحد استخراج شدهاند. اینها یک نمونهٔ گزینششده را نشان میدهند و یک نمونهگیری تصادفی نمایندهٔ جمعیت نیستند. گسترش ارزیابی به دادههای چندمرکزی در نقشهٔ راه قرار دارد.
اثرگذارترین گسترش برنامهریزیشده، برابری چندزبانه است. موتور هوش مصنوعی Kantesti به کاربران در 75+ زبان خدمات میدهد، و اجرای همان چارچوبِ پانزدهموردی در ترکی، آلمانی، اسپانیایی، فرانسوی و عربی کیفیت خروجی را در زبانهای پشتیبانیشدهٔ موتور اندازهگیری خواهد کرد. ما هر اجرای مختص هر زبان را با DOI مخصوص به خود و شاخهٔ چارچوب (harness) منتشر خواهیم کرد.