چرا این معیار وجود دارد و چه چیزی را می‌سنجد

تفسیر آزمایش خون با کمک هوش مصنوعی به‌طور فزاینده‌ای در جریان‌های کاری مصرف‌کننده و بالینی استفاده می‌شود، با این حال چارچوب‌های ارزیابیِ قابل‌تکرارِ متناسب با پزشکی آزمایشگاهی همچنان رایج نیستند. مهم‌ترین پرسش‌ها در این زمینه، پرسش‌هایی نیستند که توسط معیارهای عمومیِ پاسخ‌گویی به پرسش‌های پزشکی پوشش داده می‌شوند: آیا یک موتور می‌تواند وقتی حجم متوسط گلبول‌ها یکسان است، کمبود آهن را از ویژگی تالاسمی جدا کند، آیا سندرم گیلبرت را به‌عنوان هپاتیت بیش‌تشخیص می‌دهد، و آیا در یک پنل غربالگری کاملاً طبیعی، پاتولوژی تولید می‌کند؟

نمودار جریان روبریکِ از پیش ثبت‌شده که نشان می‌دهد چگونه موتور Kantesti AI در برابر معیارهای امتیازدهیِ منجمد ارزیابی می‌شود
شکل ۱: معماری معیار — هر مورد، هر کلیدواژه، هر سیستم امتیازدهی — همگی در کد منبع قبل از این‌که موتور حتی یک PDF را ببیند ثابت شده‌اند. تنظیم روبریک پسینی به‌طور طراحی غیرممکن است.

یک پنل منفردِ آزمایش خون معمولاً به اندازه‌ای سیگنال دارد که از چندین تفسیر رقیب پشتیبانی کند، و وظیفهٔ پزشکِ تفسیرکننده این است که آن تفسیرها را در برابر هم وزن‌دهی کند، نه اینکه یک پاسخِ کتاب‌درسی را بازیابی کند. یک موتور که در مواردِ کتاب‌درسی عملکرد خوبی دارد ممکن است در مواردی که بیشترین اهمیت را دارند شکست بخورد: دام‌های تشخیص افتراقی، واریانت‌های خوش‌خیم که به‌تنهایی نگران‌کننده به نظر می‌رسند، و پنل‌های کاملاً طبیعی که دستیارانِ بااعتماد را وسوسه می‌کنند تا «پاتولوژی» تولید کنند.

این بنچمارک دقیقاً برای همین حالت‌های شکست ساخته شد. هر یک از پانزده کیس برای یک ویژگی تشخیصی مشخص انتخاب شد: میکروسیتوز ناشی از کمبود آهن که باید از صفت بتا-تالاسمی با حجم متوسط گلبول قرمز یکسان متمایز نگه داشته شود؛ یک تظاهرِ سندرم ژیلبرت که تنها ناهنجاری آن هایپربیلی‌روبینمیِ ایزولهٔ غیرمستقیم است؛ و یک پنل غربالگری پانزده‌پارامتری که در آن هر آنالیت داخل محدودهٔ مرجع خود قرار دارد. این روبریک به موتورهایی پاداش می‌دهد که هر کیس را بر اساس شرایط خودش می‌خوانند و به موتورهایی که به سراغ یک تشخیصِ بااعتماد می‌روند وقتی چنین تشخیصی توجیه ندارد، امتیاز منفی می‌دهد.

به‌عنوان دکتر توماس کلاین، من پنل کیس را انتخاب کردم چون این الگوهایی هستند که دستیارانِ پزشکیِ آزمایشگاهی بیشترین اشتباه را در آن‌ها مرتکب می‌شوند. حالتِ شکستِ پرهزینه "از دست دادن یک بیماری نادر" نیست—بلکه ساختنِ پاتولوژیِ روتین در بیمارانی است که آن را ندارند. ما اعتبارسنجی پزشکی hub چارچوب گسترده‌تر را توصیف می‌کند؛ این صفحه نتیجهٔ کاربردی آن را روی موتور V11 شرح می‌دهد.

جدیدترین اجرای مرجع — V11 (آوریل 2026)

اجرای مرجعِ آوریل 2026 برای موتور Kantesti AI Engine V11 یک امتیاز ترکیبی تولید کرد: 99.12% در روبریکِ ازپیش‌ثبت‌شدهٔ پانزده‌کیسی. هر دو کیسِ دامِ هایپردیگنوزیس به سقف امتیاز رسیدند. شاخص منتزر به‌درستی در افتراق کمبود آهن در برابر تالاسمی اعمال شد.

ترکیبی 99.12% 15 از 15 کیس امتیاز گرفت
0.998 امتیاز ساختاری
0.998 امتیاز بالینی
20.17 ثانیه میانگین تأخیر
0 / 13 مثبت‌های کاذبِ دام

فرمولِ ترکیبی سه مؤلفه را با هم ترکیب می‌کند: انطباق ساختاری با هفت بخش گزارشِ اجباری و شانزده زیربخشِ اجباری،, دقت بالینی که به‌صورت «بازخوانیِ کلیدواژه‌ها» به‌علاوهٔ «بازخوانیِ سیستم امتیازدهی» و نیز «بررسیِ اعتبارِ توزیع احتمال» اندازه‌گیری می‌شود، و تأخیر پاسخ در برابر هدفِ سطح خدمتِ اصلیِ 20 ثانیه‌ای. تجزیهٔ دقیق در فرمول روبریکِ زیر نشان داده شده است.

ترکیبی = 0.35 × ساختاری + 0.55 × بالینی + 0.10 × تأخیر

0.88 درصد باقی‌مانده از فضای خالی (headroom) تقریباً به‌طور کامل به «کاهش ناشی از تأخیر» (latency loss) تجزیه می‌شود — سه بار فراخوانیِ جایگزینِ فاز 2 با مقدار ترکیبیِ هرکدام 0.05-، حدود 0.60 از کسری 0.88- امتیازی را ایجاد کردند — نه محتوای بالینی. موتور در هیچ‌یک از پانزده مورد، تشخیص صحیح را از دست نداد؛ در مواردی که کوتاهی کرد، این کوتاهی در اقلیت کوچکی از فراخوانی‌ها بود که کمی بیش از هدف 20 ثانیه‌ایِ مسیر اصلی (primary-path) زمان برد.

پانزده مورد در هفت تخصص پزشکی

پنلِ موارد، هفت تخصص را پوشش می‌دهد — هماتولوژی، غدد درون‌ریز، پزشکی متابولیک، کبدشناسی، نفرولوژی، قلب و عروق، روماتولوژی — به‌علاوه دو مورد اختصاصیِ «دام تشخیصِ بیش‌ازحد» (hyperdiagnosis trap). هر مورد، یک پرونده واقعیِ بیمارِ ناشناس‌سازی‌شده است که از مخزن داده‌های بالینی Kantesti تحت رضایت آگاهانه کتبی استخراج شده است.

نقشه پوششِ پانزده مورد ناشناسِ آزمایش خون که در هفت تخصص پزشکی توزیع شده‌اند، به‌علاوه موارد دامِ هایپردیگنوزیس
شکل ۲: توزیع موارد در هماتولوژی، غدد درون‌ریز، پزشکی متابولیک، کبدشناسی، نفرولوژی، قلب و عروق، روماتولوژی، به‌علاوه دو مورد دام — سندرم گیلبرت و یک پنل غربالگری کاملاً طبیعی.

ناشناس‌سازی با رویکرد Safe Harbor انجام شد: همه شناسه‌های مستقیم حذف یا جایگزین شدند و هر پرونده یک کد مورد داخلیِ معیار در قالب BT-NNN-LABEL دریافت کرد. پردازش مطابق با ماده 9(2)(j) مقررات GDPR برای پژوهش علمی با تدابیر حفاظتی مناسب و نیز مقررات معادل UK GDPR انجام شد. هیچ اطلاعاتی که به‌طور شخصی شناسایی‌کننده باشد، در هیچ‌کجای سامانه منتشرشده، گزارش فنی یا مجموعه‌داده‌های منتشرشده وجود ندارد.

هماتولوژی (3) BT-001، BT-006، BT-007 کم‌خونی فقر آهن · کمبود B12 · بتا-تالاسمی مینور
غدد درون‌ریز (3) BT-002، BT-008، BT-012 تیروئیدیت هاشیموتو · PCOS همراه با مقاومت به انسولین · کمبود شدید ویتامین D
متابولیک (2) BT-003، BT-013 T2DM همراه با سندرم متابولیک · هایپراوریسمی همراه با ریسک نقرس
کبدشناسی (2) BT-004، BT-009 NAFLD / NASH · هپاتیت حاد ویروسی
نفرولوژی · قلب و عروق · روماتولوژی (3) BT-005، BT-010، BT-011 مرحله 3 بیماری مزمن کلیه (CKD) · دیس‌لیپیدمی آترواسکلروززا (آترژنیک) · لوپوس اریتماتوز سیستمیک
موارد دام (2) BT-014، BT-015 سندرم گیلبرت (هایپربیلی‌روبینمی ایزوله غیرمستقیم) · غربالگری بزرگسالان کاملاً طبیعی

چرا این توزیعِ خاص

هماتولوژی به سه مورد می‌رسد، چون افتراقی‌های میکروسیتیک و ماکروسیتیک، پرحجم‌ترین دام‌ها در عملکرد واقعیِ آزمایشگاه هستند. غدد درون‌ریز به سه مورد می‌رسد، چون تظاهرهای بیماریِ هاشیموتو، PCOS و کمبود ویتامین D، شکل‌های تشخیصی متفاوتی را به چالش می‌کشند (محرکِ خودآنتی‌بادی، محرکِ نسبت‌های هورمونی، محرکِ تک‌نشانگر). تخصص‌های تک‌موردی همچنان معنادار هستند، چون هر یک از CKD، ریسک ASCVD و SLE سیستم امتیازدهی مخصوص به خود را دارد که موتور باید آن را فراخوانی کند (به‌ترتیب مرحله‌بندی KDIGO، ریسک ۱۰ساله ASCVD، و معیارهای 2019 EULAR/ACR برای SLE).

روبریک از پیش ثبت‌شده، توضیح داده‌شده

پیش‌ثبت‌نام مهم‌ترین انتخاب روش‌شناختی در این بنچمارک است. هر تشخیصِ مورد انتظار، هر سیستم امتیازدهی بالینی، و هر بخشِ گزارش، پیش از فراخوانی موتور به کد منبع متعهد شده بود قبل از اینکه موتور فراخوانی شود. بنابراین تنظیم پسینیِ روبریک برای خوشایند موتور ممکن نیست.

سه مؤلفه، نمره مرکب را تشکیل می‌دهند. مؤلفه ساختاری ۳۵ درصد سهم دارد و بررسی می‌کند آیا موتور هفت بخش اجباری گزارش را برگردانده است یا نه (سربرگ، خلاصه، یافته‌های کلیدی، افتراق، سیستم‌های امتیازدهی، توصیه‌ها، پیگیری) و شانزده زیربخش اجباریِ داخل آن‌ها. حضورِ بخش‌ها ۴۰ درصد و حضورِ زیربخش‌ها ۶۰ درصد را در محاسبه ساختاری تشکیل می‌دهد.

این مؤلفه بالینی ۵۵ درصد سهم دارد و سه چیز را ترکیب می‌کند: یادآوریِ کلیدواژه‌های تشخیص (۷۰ درصد از زیرنمره بالینی)، یادآوریِ سیستم‌های امتیازدهی (۲۰ درصد — آیا موتور در صورت لزوم Mentzer، FIB-4، HOMA-IR، ریسک ASCVD، مرحله‌بندی KDIGO، و معیارهای EULAR/ACR را محاسبه می‌کند یا نه)، و یک بررسیِ اعتبارِ جمعِ احتمال‌ها (۱۰ درصد — احتمال‌های افتراقی باید در بازه [90، 110] جمع شوند). برای موارد دام، یک جریمهِ صریحِ بیش‌تشخیصی تا 0.30 کم می‌شود که به‌صورت 0.10 به ازای هر پرچمِ پاتولوژیِ ساختگی محاسبه می‌شود و حداکثر تا سه پرچم محدود می‌گردد.

این مؤلفه تأخیر ۱۰ درصد سهم دارد. پاسخِ کمتر از ۲۰ ثانیه نمره کامل 0.10 می‌گیرد، پاسخِ کمتر از ۴۰ ثانیه نمره 0.05 می‌گیرد، و هر چیز کندتر صفر است. هدف ۲۰ ثانیه بازتاب‌دهنده هدف سطح خدمتِ تولید برای سرویسِ primary-path است؛ سقف ۴۰ ثانیه بازتاب‌دهنده بودجه پشتیبانِ فاز ۲ برای فراخوانی‌های سنگینِ موتور است.

اسکرین‌شات نهایی از سامانه بنچمارک Kantesti با مجوز MIT که در حال اجراست و امتیازهای مربوط به هر مورد را تولید می‌کند
شکل ۳: مهارگر در اجرا. هر مورد به یک PDF با اندازه A4 رندر می‌شود، در endpoint نسخه v11 تولید ارسال می‌گردد، و در برابر روبریکِ فریز شده امتیازدهی می‌شود. هر پاسخ خام همراه با کارنامه امتیازِ تجمیع‌شده ذخیره می‌شود.

چه چیزی را پیش‌ثبت‌نام جلوگیری می‌کند

بنچمارک‌های دست‌اول به‌طور بدنامی اعداد خودشان را با تنظیم پسینیِ روبریک باد می‌کنند. الگو تقریباً همیشه یکسان است: تیم موتور را اجرا می‌کند، می‌بیند کجاها کم‌عملکرد دارد، سپس به‌طور بی‌صدا روبریک را طوری تنظیم می‌کند که نواحیِ کم‌عملکرد کمتر حساب شوند. با متعهد کردن روبریک به کد منبع پیش از اولین فراخوانی موتور و انتشار مهارگر تحت مجوز MIT، این تنظیم در کنترل نسخه قابل مشاهده می‌شود. هر کسی می‌تواند مخزن را کلون کند، تاریخ‌های نویسنده روبریک را بررسی کند، و تأیید کند که نتایج موتور برای شکل‌دهی به امتیازدهی استفاده نشده است.

موارد دامِ بیش‌تشخیص — چرا «زیاد اعلام کردن» حالت شکست واقعی است

بیش‌تشخیصِ تهاجمیِ پاتولوژی در غربالگری‌های طبیعی، یک حالت شکستِ مستند در دستیارهای پزشکیِ مصرف‌کننده است. هزینه‌های پیامدی آن شامل بررسی‌های غیرضروری، اضطراب بیمار و کارِ تشخیصیِ ناشی از مداخله (iatrogenic) است. دو مورد دام در این بنچمارک طراحی شده‌اند تا این حالت شکست را قابل مشاهده و قابل امتیازدهی کنند.

مقایسه کنار همِ یک AI ساده که هپاتیت را جعل می‌کند در برابر پنل سندرم گیلبرت، با موتور Kantesti که به‌درستی چندشکلیِ خوش‌خیم UGT1A1 را شناسایی می‌کند
شکل ۴: طراحیِ مورد دام. موتوری که با اطمینان سندرم گیلبرت را به‌عنوان هپاتیت برچسب بزند، یا در یک صفحه کاملاً طبیعی پاتولوژیِ مرزی تولید کند، جریمه می‌شود — نه اینکه صرفاً به خاطر «بالینی به نظر رسیدن» پاداش بگیرد.

🟡 دام ۱ — BT-014-GILBERT

تظاهر. یک مرد ۲۴ ساله با بیلی‌روبین تام 2.4 mg/dL. کسر مستقیم طبیعی است، ترانس‌آمینازها و آلکالین فسفاتاز در محدوده‌های مرجع خود قرار دارند، رتیکولوسیت‌ها قابل توجه نیستند، و هاپتوگلوبین و LDH همولیز را رد می‌کنند.

تفسیر صحیح. سندرم گیلبرت — یک پلی‌مورفیسم خوش‌خیمِ UGT1A1. تفسیر نباید هپاتیت، سیروز، کم‌خونی همولیتیک یا انسداد صفراوی را فراخوانی کند.

نتیجه V11. مرکب 1.000. هیچ‌یک از شش پرچمِ بیش‌تشخیصِ پایش‌شده به‌عنوان تشخیصِ فعال ظاهر نشدند.

🟡 دام ۲ — BT-015-HEALTHY

تظاهر. یک زن ۳۵ ساله با پنل روتین غربالگریِ پانزده‌پارامتری. هر آنالیت با آسودگی کامل داخل محدوده مرجع خود قرار دارد.

تفسیر صحیح. اطمینان‌بخشی و حفظ سبک زندگی. تفسیر نباید برای اینکه از نظر بالینی مفید به نظر برسد، بیماری‌های مرزی را به‌طور مصنوعی تولید کند.

نتیجه V11. ترکیب 1.000. هیچ‌یک از هفت پرچمِ بیش‌تشخیصِ پایش‌شده—دیابت، کم‌خونی، کم‌کاری تیروئید، دیس‌لیپیدمی، هپاتیت، بیماری کلیه، کمبود—به‌عنوان تشخیص فعال ظاهر نشدند.

در هر دو تله، سیزده پرچمِ بیش‌تشخیصِ پایش‌شده بررسی شد. هیچ‌کدام فعال نشدند. این نتیجه مهم‌ترین چیزی است که برای هر پزشکِ در نظر گرفتن استفاده از یک موتور هوش مصنوعی به‌عنوان ابزار تریاژ یا پیش از ویزیت اهمیت دارد: سیستم جایی که بیماری وجود نداشت، بیماری اختراع نکرد.

شاخص منتزر: تفکیک کمبود آهن از ویژگی تالاسمی

یافته ارزشمند دوم مربوط به جفت شدنِ مورد BT-001 (کم‌خونی فقر آهن) با مورد BT-007 (بتا-تالاسمی مینور) است. هر دو با میکروسیتوز همراه‌اند و یک مانع شناخته‌شده برای طبقه‌بندهای ساده‌لوحانه محسوب می‌شوند. شاخص منتزر که به‌صورت MCV تقسیم بر تعداد RBC محاسبه می‌شود، در فقر آهن بیش از 13 است و در صفت تالاسمی کمتر از 13 می‌افتد.

در BT-001، بیمار یک زن 34 ساله با هموگلوبین 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فریتین 6 ng/mL و TIBC بالا بود. شاخص منتزرِ حدود 17.7 از کمبود مطلق آهن حمایت می‌کند. در BT-007، بیمار یک مرد 28 ساله با میکروسیتوز (MCV 65.8 fL) اما تعداد RBC بالا 6.2، RDW طبیعی، فریتین طبیعی و HbA2 برابر 5.6 درصد بود. شاخص منتزرِ حدود 10.6 به صفت تالاسمی اشاره دارد و HbA2 بالا، بتا-تالاسمی مینور را تأیید می‌کند.

کم‌خونی فقر آهن منتزر > 13 فریتین پایین، TSAT پایین، TIBC بالا، RDW بالا
صفت بتا-تالاسمی منتزر < 13 فریتین طبیعی، RDW طبیعی، HbA2 بالا (>3.5%)، تعداد RBC بالا

هر دو مورد امتیاز 1.000 گرفتند. موتور در هر دو تفسیر، شاخص منتزر را به‌طور صریح فراخوانی کرد و در هر مورد تشخیص درست را برگرداند. این تنها نتیجه‌ای است که در کل بنچمارک از نظر بالینی بیشترین اطمینان را می‌دهد, ، زیرا اشتباه گرفتنِ صفت تالاسمی به‌عنوان فقر آهن باعث تجویز نامناسب مکمل‌های آهن و از دست رفتن فرصت‌های غربالگری خانوادگی می‌شود، و اشتباه گرفتنِ فقر آهن به‌عنوان تالاسمی، درمان جایگزینی ساده را به تأخیر می‌اندازد. ما محدوده فریتین زمینه افتراق گسترده‌تر را توضیح می‌دهیم.

نتایج موردبه‌مورد از اجرای آوریل 2026

دوازده مورد از پانزده مورد به امتیاز ترکیبی سقفِ 1.000 در مسیر اصلی دست یافتند. سه مورد از طریق بازگشتِ فاز 2 سرویس شدند و در نتیجه جایزه تأخیر 0.05 را از دست دادند، در حالی که تمام محتوای بالینی و ساختاری حفظ شد. یک مورد یک زیر‌بخش اجباری را نداشت؛ یکی دیگر مجموعِ توزیع احتمال را به‌طور جزئی کاهش‌یافته برگرداند.

شناسه مورد تخصص ترکیبی تأخیر مسیر
BT-001-IDAهماتولوژی1.00017.8 ثانیهاصلی
BT-006-B12هماتولوژی1.00018.4 ثانیهاصلی
BT-007-THALهماتولوژی1.00017.0 ثانیهاصلی
BT-002-HASHغدد درون ریز0.95037.0 ثانیهبازگشت به حالت پشتیبان
BT-008-PCOSغدد درون ریز0.98718.6 ثانیهاصلی
BT-003-T2DMمتابولیک1.00019.1 ثانیهاصلی
BT-013-GOUTمتابولیک1.00019.4 ثانیهاصلی
BT-004-NAFLDگوارش‌پزشکی (هپاتولوژی)1.00019.6 ثانیهاصلی
BT-009-VIRHEPگوارش‌پزشکی (هپاتولوژی)0.95023.4 ثانیهبازگشت به حالت پشتیبان
BT-014-GILBERTتله1.00018.9 ثانیهاصلی
BT-005-CKDنفرولوژی1.00017.4 ثانیهاصلی
BT-010-ASCVDقلب‌شناسی1.00019.7 ثانیهاصلی
BT-011-SLEروماتولوژی0.98118.2 ثانیهاصلی
BT-012-VITDغدد درون ریز1.00019.3 ثانیهاصلی
BT-015-HEALTHYتله1.00018.7 ثانیهبازگشت به حالت پشتیبان

پرونده PCOS (BT-008) در ساختار پاسخ، یک زیربخش اجباری را از دست داد — پانزده از شانزده به جای شانزده از شانزده — که امتیاز ساختاری را از 1.000 به 0.963 کاهش داد. پرونده SLE (BT-011) مجموعِ احتمال-توزیعِ کاهش‌یافته‌ای را به‌صورت جزئی برگرداند که امتیاز بالینی را به 0.965 رساند، در حالی که هر کلیدواژه تشخیصی و سیستم امتیازدهی حفظ شد. هیچ‌یک از دو پرونده‌ای که زیرِ حد کامل بودند، تشخیص درست را از دست ندادند.

این‌که امتیاز تیتر چه چیزی به ما نمی‌گوید

یک امتیاز ترکیبی 99.12 درصد تحت این چارچوبِ از پیش ثبت‌شده، عملکردی نزدیک به سقف را نشان می‌دهد، اما نیازمند چارچوب‌بندی دقیق است. نتیجه رفتار موتور را در برابر پانزده پرونده ناشناسِ با دقت انتخاب‌شده توصیف می‌کند که هر کدام یک‌بار و در برابر یک چارچوب واحد ارزیابی شده‌اند. ما صریحاً می‌گوییم این عدد چه چیزی را نشان می‌دهد و چه چیزی را ثابت نمی‌کند.

امتیاز می‌گوید موتور V11 الگوهای تشخیصیِ انتخاب‌شده برای این ارزیابی را به‌درستی مدیریت کرده است، با روشی که منتشر شده و قابل بازتولید است. این به این معنا نیست که موتور در هر پنل آزمایش خونِ موجود در دنیای واقعی درست است. همچنین نمی‌گوید موتور باید جایگزین قضاوت بالینی شود. و نیز نمی‌گوید موتور از سامانه‌های جایگزینِ هوش مصنوعی بهتر است — تحلیل‌های مقایسه‌ای با موتورهای دیگر عمداً خارج از دامنه این گزارش بوده‌اند.

چیزی که امتیاز واقعاً ثابت می‌کند یک خط پایه است. با در دسترس بودن چارچوب و سامانه اجرا، نسخه‌های آینده موتور می‌توانند در برابر همان پانزده پرونده ارزیابی شوند و فاصله بین امتیاز منتشرشده و هر اجرای بعدی، خودِ قابل اندازه‌گیری است. ارزشِ ثبتِ از پیش همین است: ادعاهای عملکرد را به ادعاهای قابل آزمون تبدیل می‌کند.

چگونه این معیار را در 10 دقیقه بازتولید کنیم

برای بازتولید فقط یک جفت اعتبارنامه API Kantesti و یک محیط با Python 3.10 یا بالاتر لازم است که همراه با requests و reportlab کتابخانه‌ها نصب شده باشند. کل سامانه اجرا یک ماژول پایتونِ واحد و خودبسنده است که تحت مجوز MIT منتشر شده.

نمودار شبکه قابلیت بازتولید که بنچمارک را در Figshare، ResearchGate، Academia.edu و GitHub منعکس می‌کند، با DOI مربوط به Figshare به‌عنوان لنگرِ مرجع
شکل ۵: معیار در چهار پلتفرم پژوهشی بازتاب داده شده است. DOI در Figshare شناسه معتبرِ علمی است؛ ResearchGate، Academia.edu و GitHub نسخه‌های موازی را همراه با کد و داده خام میزبانی می‌کنند.

چهار مرحله برای یک اجرای تازه

یک. مخزن را کلون کنید: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. دو. نصب وابستگی‌ها با pip install -r requirements.txt. سه. تنظیم KANTESTI_USERNAME و KANTESTI_PASSWORD به‌عنوان متغیرهای محیطی — اعتبارنامه‌ها در زمان اجرا خوانده می‌شوند و هیچ‌چیز در اسکریپت به‌صورت ثابت (hard-coded) قرار داده نشده است. چهار. اجرا کنید python benchmark_bloodtest.py و چهار خروجی (artefact) تولیدشده در دایرکتوری کاری را بررسی کنید: یک CSV scorecard، یک JSON scorecard، یک خروجی JSON کامل شامل پاسخ‌های خام موتور، و یک گزارش Markdown قابل‌خواندن برای انسان.

اجرای مرجع از 23 آوریل 2026 در results/ قرار دارد. یک اجرای تازه، یک scorecard جدید با زمان‌مهر جدید تولید می‌کند، در حالی‌که اجرای مرجع بدون تغییر باقی می‌ماند. اگر اجرای شما نتیجه‌ای به‌طور معنادار متفاوت تولید کرد، لطفاً یک issue در GitHub با زمان‌مهر اجرای شما و نسخه موتور بازگردانده‌شده در متادیتای پاسخ باز کنید.

محدودیت‌ها و کارهای آینده

چهار محدودیت شایستهٔ اذعان صریح هستند: حجم نمونه، ارزیابی تک‌نوبتی (single-shot)، دامنهٔ تک‌موتوری، و منشأ تک‌منبع داده. هرکدام در کارهای پیگیریِ فعال در حال رسیدگی است.

حجم نمونه. پانزده مورد در هشت دستهٔ تخصصی برای اثبات مفهوم کافی است، اما برای تحلیل زیرگروه‌ها درون یک تخصص کافی نیست. گسترش به پنجاه مورد برنامه‌ریزی شده و شامل پنل‌های انعقادی، غربالگری بدخیمی‌های هماتولوژیک، پنل‌های بارداری و ارائه‌های کودکان خواهد بود.

ارزیابی تک‌نوبتی. هر مورد یک‌بار ارزیابی شد. مدل‌های زبانی بزرگ حتی در دمای نمونه‌برداری پایین نیز نوسان خروجیِ غیرقابل‌چشم‌پوشی نشان می‌دهند، بنابراین یک پروتکل چند-اجرا با پنج ارزیابی برای هر مورد و گزارشِ واریانس، گام طبیعی بعدی است.

دامنهٔ تک‌موتوری. این گزارش یک موتور را توصیف می‌کند. تحلیل‌های مقایسه‌ای در برابر سامانه‌های هوش مصنوعی جایگزین در اینجا خارج از محدوده است؛ ممکن است آن‌ها را به‌عنوان یک مطالعهٔ مستقل جداگانه با روش‌شناسی مناسب دنبال کنیم.

منشأ تک‌منبع داده. پانزده مورد، سوابق واقعیِ ناشناس‌شدهٔ بیماران هستند که از یک مخزن بالینی واحد استخراج شده‌اند. این‌ها یک نمونهٔ گزینش‌شده را نشان می‌دهند و یک نمونه‌گیری تصادفی نمایندهٔ جمعیت نیستند. گسترش ارزیابی به داده‌های چندمرکزی در نقشهٔ راه قرار دارد.

اثرگذارترین گسترش برنامه‌ریزی‌شده، برابری چندزبانه است. موتور هوش مصنوعی Kantesti به کاربران در 75+ زبان خدمات می‌دهد، و اجرای همان چارچوبِ پانزده‌موردی در ترکی، آلمانی، اسپانیایی، فرانسوی و عربی کیفیت خروجی را در زبان‌های پشتیبانی‌شدهٔ موتور اندازه‌گیری خواهد کرد. ما هر اجرای مختص هر زبان را با DOI مخصوص به خود و شاخهٔ چارچوب (harness) منتشر خواهیم کرد.