چرا این معیار وجود دارد و چه چیزی را می‌سنجد

تفسیر آزمایش خون با کمک هوش مصنوعی به‌طور فزاینده‌ای در جریان‌های کاری مصرف‌کننده و بالینی استفاده می‌شود، با این حال چارچوب‌های ارزیابیِ قابل‌تکرارِ متناسب با پزشکی آزمایشگاهی همچنان رایج نیستند. مهم‌ترین پرسش‌ها در این زمینه، پرسش‌هایی نیستند که توسط معیارهای عمومیِ پاسخ‌گویی به پرسش‌های پزشکی پوشش داده می‌شوند: آیا یک موتور می‌تواند وقتی حجم متوسط گلبول‌ها یکسان است، کمبود آهن را از ویژگی تالاسمی جدا کند، آیا سندرم گیلبرت را به‌عنوان هپاتیت بیش‌تشخیص می‌دهد، و آیا در یک پنل غربالگری کاملاً طبیعی، پاتولوژی تولید می‌کند؟

نمودار جریان معیارسنجی از پیش ثبت‌شده که نشان می‌دهد چگونه موتور Kantesti AI — امتیاز «به‌روزرسانی دوم V11»، 99.80% ترکیبی روی 100,000 مورد — در برابر معیارهای امتیازدهیِ منجمد ارزیابی می‌شود
شکل ۱: معماری معیار پشت این امتیاز ترکیبی 99.80% در به‌روزرسانی دوم V11 با کوهورت 100,000 موردی — هر مورد، هر کلیدواژه، هر سیستم امتیازدهی در کد منبع قبل از اینکه موتور حتی یک PDF را ببیند ثابت شده است، و روبریک دقیقاً با انتشار اولیه V11 یکسانِ بایت‌به‌بایت است. تنظیم روبریک پسینی به‌طور طراحی غیرممکن است.

یک پنل منفردِ آزمایش خون معمولاً به اندازه‌ای سیگنال دارد که از چندین تفسیر رقیب پشتیبانی کند، و وظیفهٔ پزشکِ تفسیرکننده این است که آن تفسیرها را در برابر هم وزن‌دهی کند، نه اینکه یک پاسخِ کتاب‌درسی را بازیابی کند. یک موتور که در مواردِ کتاب‌درسی عملکرد خوبی دارد ممکن است در مواردی که بیشترین اهمیت را دارند شکست بخورد: دام‌های تشخیص افتراقی، واریانت‌های خوش‌خیم که به‌تنهایی نگران‌کننده به نظر می‌رسند، و پنل‌های کاملاً طبیعی که دستیارانِ بااعتماد را وسوسه می‌کنند تا «پاتولوژی» تولید کنند.

این بنچمارک دقیقاً برای همین حالت‌های شکست ساخته شد. هر یک از پانزده کیس برای یک ویژگی تشخیصی مشخص انتخاب شد: میکروسیتوز ناشی از کمبود آهن که باید از صفت بتا-تالاسمی با حجم متوسط گلبول قرمز یکسان متمایز نگه داشته شود؛ یک تظاهرِ سندرم ژیلبرت که تنها ناهنجاری آن هایپربیلی‌روبینمیِ ایزولهٔ غیرمستقیم است؛ و یک پنل غربالگری پانزده‌پارامتری که در آن هر آنالیت داخل محدودهٔ مرجع خود قرار دارد. این روبریک به موتورهایی پاداش می‌دهد که هر کیس را بر اساس شرایط خودش می‌خوانند و به موتورهایی که به سراغ یک تشخیصِ بااعتماد می‌روند وقتی چنین تشخیصی توجیه ندارد، امتیاز منفی می‌دهد.

به‌عنوان دکتر توماس کلاین، من پنل کیس را انتخاب کردم چون این الگوهایی هستند که دستیارانِ پزشکیِ آزمایشگاهی بیشترین اشتباه را در آن‌ها مرتکب می‌شوند. حالتِ شکستِ پرهزینه "از دست دادن یک بیماری نادر" نیست—بلکه ساختنِ پاتولوژیِ روتین در بیمارانی است که آن را ندارند. ما اعتبارسنجی پزشکی چارچوب گسترده‌تر را توصیف می‌کند؛ این صفحه، اثبات مفهومی اولیه V11 و به‌روزرسانی دوم V11 را شرح می‌دهد که آن را تا 100,000 مورد ناشناس‌سازی‌شده مقیاس داد؛ مواردی که از یک مخزن بالینی پشتیبانی‌شده با SQL و شامل 127 کشور استخراج شده‌اند — با همان روبریک امتیازدهی، دقیقاً بایت‌به‌بایت، و بدون اجازه برای تنظیم پسینی.

جدیدترین اجرای مرجع — به‌روزرسانی دوم V11 (26 آوریل 2026)

اجرای مرجع به‌روزرسانی دوم V11 در تاریخ 26 آوریل 2026، امتیاز مرکبِ 99.80% بر اساس همان روبریک از پیش ثبت‌شده‌ای که در انتشار اولیه V11 استفاده شده بود، ارزیابی شد بر روی 100,000 مورد ناشناس‌سازی‌شده که از مخزن بالینی پشتیبانی‌شده با SQL Kantesti استخراج شده‌اند و دربرگیرنده 127 کشور و زبان‌های 75+ هستند. هر مورد در مسیر اصلیِ موتور کامل شد؛ فعال‌سازی‌های پرچم بیش‌تشخیصِ موارد تله در سطح 0 / 87,412. باقی ماند. اجرای اولیه V11 در 23 آوریل 2026، 15 موردِ دستیِ گزینش‌شده (امتیاز مرکب 99.12%) را پوشش داد و روبریک را اعتبارسنجی کرد؛ به‌روزرسانی دوم همان روبریک را دقیقاً بایت‌به‌بایت حفظ می‌کند و ارزیابی را به یک کوهورت در مقیاس جمعیتی گسترش می‌دهد.

ترکیبی 99.80% 100,000 از 100,000 مورد امتیاز گرفت
1.000 امتیاز ساختاری
0.996 امتیاز بالینی
13.26 s میانگین تأخیر
0 / 87,412 مثبت‌های کاذبِ دام

فرمولِ ترکیبی سه مؤلفه را با هم ترکیب می‌کند: انطباق ساختاری با هفت بخش گزارشِ اجباری و شانزده زیربخشِ اجباری،, دقت بالینی که به‌صورت «بازخوانیِ کلیدواژه‌ها» به‌علاوهٔ «بازخوانیِ سیستم امتیازدهی» و نیز «بررسیِ اعتبارِ توزیع احتمال» اندازه‌گیری می‌شود، و تأخیر پاسخ در برابر هدف سطح خدمتِ مسیر اصلی. تجزیه دقیق در فرمول روبریکِ زیر نشان داده شده است — هیچ‌یک از این وزن‌ها یا زیر-روبریک‌ها برای به‌روزرسانی دوم تغییر نکردند.

ترکیبی = 0.35 × ساختاری + 0.55 × بالینی + 0.10 × تأخیر

0.20 امتیاز درصدیِ باقی‌مانده از فضای اطمینان، تقریباً تقریباً به طور کامل به زیر-امتیاز بالینی تجزیه می‌شود — بخش کوچکی از موارد (عمدتاً در هپاتولوژی و روماتولوژی) یک کلیدواژهِ مورد انتظارِ سیستم امتیازدهی را که باید در تفسیر موتور وجود می‌داشت، نداشتند، با اینکه محتوای تشخیصی درست بود. هیچ موردی در کوهورت 100,000 تاییِ به‌روزرسانی دوم، خودِ تشخیص را از دست نداد. تأخیر از میانگین 20.17 ثانیه در انتشار اولیه V11 به 13.26 ثانیه در به‌روزرسانی دوم بهبود یافت؛ که نشان‌دهنده بهینه‌سازی‌های موتورِ تولیدی بین دو اجرا است؛ روبریک، کد امتیازدهی و نقطه پایانی API بدون تغییر مانده‌اند.

امتیازهای مرکب برحسب کشور از 0.9971 (هند) تا 0.9985 (سوئیس) در میان 30 کشورِ پرتکرارتر متغیر بود. دنباله بلندِ 97 کشورِ دیگر (≈7,300 مورد به‌صورت ترکیبی) هیچ افتِ سیستماتیکی نشان نداد. مشارکت‌کنندگان برتر بر اساس تعداد موارد عبارت بودند از: ایالات متحده (10,500)، برزیل (9,500)، اسپانیا (9,000)، ایتالیا (8,000)، آلمان (7,800)، فرانسه (7,400)، پرتغال (5,800)، Türkiye (3,400)، بریتانیا (2,900) و مکزیک (2,500).

از 15 مورد تا 100,000: تکامل کوهورت در 127 کشور

پنل موردیِ اصلی V11 هفت تخصص را پوشش می‌داد — هماتولوژی، غدد درون‌ریز، پزشکی متابولیک، هپاتولوژی، نفرولوژی، قلب‌وعروق، روماتولوژی — به‌علاوه دو مورد تله اختصاصیِ بیش‌تشخیص؛ و هر مورد یک پرونده واقعیِ بیمارِ ناشناس‌سازی‌شده بود که از مخزن داده بالینی Kantesti تحت رضایت آگاهانه کتبی استخراج شده بود. به‌روزرسانی دوم V11 ارزیابی را به 100,000 مورد ناشناس‌سازی‌شده در 127 کشور, گسترش می‌دهد که در هشت تخصص توزیع شده‌اند (هفت تخصص اصلی به‌علاوه یک سطل اختصاصیِ پزشکی داخلی که زیرمجموعه تله را جذب می‌کند). همان روبریک امتیازدهی در هر دو اجرا دقیقاً بایت‌به‌بایت اعمال می‌شود.

طراحی پنلِ موردِ V11 اولیه — پانزده مورد آزمایش خون ناشناس‌سازی‌شده در هفت تخصص پزشکی به‌علاوه دو مورد دامِ بیش‌تشخیص؛ همان معیارسنجی در «به‌روزرسانی دوم V11» به امتیاز 99.80% ترکیبی روی 100,000 مورد رسید
شکل ۲: طراحی پنل موردی اولیه V11 در هماتولوژی، غدد درون‌ریز، پزشکی متابولیک، هپاتولوژی، نفرولوژی، قلب‌وعروق، روماتولوژی، به‌علاوه دو مورد تله — سندرم گیلبرت و یک پنل غربالگری کاملاً نرمال. به‌روزرسانی دوم همین روبریک را دقیقاً بایت‌به‌بایت حفظ می‌کند و کوهورت را به 100,000 موردِ استخراج‌شده از مخزن SQL Kantesti گسترش می‌دهد.

ناشناس‌سازی تحت رویکرد Safe Harbor انجام شد: همه شناسه‌های مستقیم حذف یا جایگزین شدند، و هر رکورد به یک کد مورد داخلیِ معیار در قالب BT-NNN-LABEL (V11 اولیه) یا یک شناسه پایدارِ ناشناس‌سازی‌شده case_uid برای به‌روزرسانی دوم اختصاص داده شد. پردازش مطابق با ماده 9(2)(j) مقررات GDPR برای پژوهش علمی با تدابیر حفاظتی مناسب و نیز مقررات معادل UK GDPR انجام شد. هیچ اطلاعاتی که به‌طور شخصی شناسایی‌کننده باشد، در هیچ‌کجای سامانه منتشرشده، گزارش فنی یا مجموعه‌داده‌های منتشرشده وجود ندارد.

انتشار اولیه V11 — 15 موردِ دستیِ گزینش‌شده

پنل اصلی پرونده‌های V11 توسط دکتر توماس کلاین به‌صورت دستی گزینش شد تا الگوهای تشخیصی‌ای را تمرین دهد که دستیاران پزشکی آزمایشگاهی بیشترین اشتباه را در آن‌ها مرتکب می‌شوند. هر یک از پانزده پرونده برای یک ویژگی تشخیصی مشخص انتخاب شد که در ادامه آمده است.

هماتولوژی (3) BT-001، BT-006، BT-007 کم‌خونی فقر آهن · کمبود B12 · بتا-تالاسمی مینور
غدد درون‌ریز (3) BT-002، BT-008، BT-012 تیروئیدیت هاشیموتو · PCOS همراه با مقاومت به انسولین · کمبود شدید ویتامین D
متابولیک (2) BT-003، BT-013 T2DM همراه با سندرم متابولیک · هایپراوریسمی همراه با ریسک نقرس
کبدشناسی (2) BT-004، BT-009 NAFLD / NASH · هپاتیت حاد ویروسی
نفرولوژی · قلب و عروق · روماتولوژی (3) BT-005، BT-010، BT-011 مرحله 3 بیماری مزمن کلیه (CKD) · دیس‌لیپیدمی آترواسکلروززا (آترژنیک) · لوپوس اریتماتوز سیستمیک
موارد دام (2) BT-014، BT-015 سندرم گیلبرت (هایپربیلی‌روبینمی ایزوله غیرمستقیم) · غربالگری بزرگسالان کاملاً طبیعی

چرا این توزیعِ خاص

هماتولوژی به سه مورد می‌رسد، چون افتراقی‌های میکروسیتیک و ماکروسیتیک، پرحجم‌ترین دام‌ها در عملکرد واقعیِ آزمایشگاه هستند. غدد درون‌ریز به سه مورد می‌رسد، چون تظاهرهای بیماریِ هاشیموتو، PCOS و کمبود ویتامین D، شکل‌های تشخیصی متفاوتی را به چالش می‌کشند (محرکِ خودآنتی‌بادی، محرکِ نسبت‌های هورمونی، محرکِ تک‌نشانگر). تخصص‌های تک‌موردی همچنان معنادار هستند، چون هر یک از CKD، ریسک ASCVD و SLE سیستم امتیازدهی مخصوص به خود را دارد که موتور باید آن را فراخوانی کند (به‌ترتیب مرحله‌بندی KDIGO، ریسک ۱۰ساله ASCVD، و معیارهای 2019 EULAR/ACR برای SLE).

به‌روزرسانی دوم V11 — 100,000 پرونده ناشناس‌سازی‌شده در 127 کشور

به‌روزرسانی دوم، متن پایتونِ اصلیِ V11 با 15 پروندهِ ثابت را با یک پرس‌وجوی SQL پارامترده و فقط‌خواندنی علیه مخزن بالینی Kantesti جایگزین می‌کند (anonymised_blood_panels). این پرس‌وجو بر اساس consent_research = 1 AND released_for_benchmark = 1 فیلتر می‌کند و برای شفافیت، در بالای هر اجرای بنچمارک چاپ می‌شود. توزیع گروه نمونه برحسب تخصص در ادامه نشان داده شده است.

غدد درون ریز 23,900 پرونده (23.9%) تیروئید، PCOS، کمبود ویتامین D، محور گونادی، هیپوفیز
پزشکی متابولیک 21,900 پرونده (21.9%) T2DM، سندرم متابولیک، پنل‌های چربی، هایپراوریسمی
هماتولوژی 15,400 پرونده (15.4%) افتراقی میکروسیتیک و ماکروسیتیک، B12/فولات، مطالعات آهن
گوارش‌پزشکی (هپاتولوژی) 12,400 پرونده (12.4%) NAFLD/NASH، هپاتیت ویروسی، FIB-4، کلستاز
پزشکی داخلی (از جمله زیرمجموعه trap) 9,000 پرونده (9.0%) ارائه‌های ترکیبی و 8,723 پرونده اختصاصیِ trap برای هایپرتشخیص
قلب‌شناسی 7,500 پرونده (7.5%) ریسک ASCVD، دیس‌لیپیدمی آتروم‌زا، hs-CRP
روماتولوژی 6,000 پرونده (6.0%) SLE، RA، واسکولیت، پنل‌های خودآنتی‌بادی (معیارهای EULAR/ACR)
نفرولوژی 4,000 پرونده (4.0%) مرحله‌بندی CKD (KDIGO)، روندهای eGFR، اختلالات الکترولیتی

توزیع جغرافیایی — ۱۰ کشور برتر

این کوهورت در ۱۲۷ کشور (ISO 3166-1 alpha-2) گسترده است. اروپا 57.7%، قاره‌های آمریکا 25.4%، آسیا-اقیانوسیه 6.2%، ورودی‌های خاورمیانه/آفریقا 3.4% و یک دنباله بلند از ۹۷ کشور دیگر که مجموعاً حدود 7.3% را تشکیل می‌دهند. ده مشارکت‌کننده بزرگ عبارت‌اند از: ایالات متحده (10,500)، برزیل (9,500)، اسپانیا (9,000)، ایتالیا (8,000)، آلمان (7,800)، فرانسه (7,400)، پرتغال (5,800)، Türkiye (3,400)، بریتانیا (2,900) و مکزیک (2,500). امتیازهای ترکیبیِ هر کشور از 0.9971 (هند) تا 0.9985 (سوئیس) متغیر بود.

روبریک از پیش ثبت‌شده، توضیح داده‌شده

پیش‌ثبت‌نام مهم‌ترین انتخاب روش‌شناختی در این بنچمارک است. هر تشخیصِ مورد انتظار، هر سیستم امتیازدهی بالینی، و هر بخشِ گزارش، پیش از فراخوانی موتور به کد منبع متعهد شده بود قبل از اینکه موتور فراخوانی شود. بنابراین تنظیم پسینیِ روبریک برای خوشایند موتور ممکن نیست.

سه مؤلفه، نمره مرکب را تشکیل می‌دهند. مؤلفه ساختاری ۳۵ درصد سهم دارد و بررسی می‌کند آیا موتور هفت بخش اجباری گزارش را برگردانده است یا نه (سربرگ، خلاصه، یافته‌های کلیدی، افتراق، سیستم‌های امتیازدهی، توصیه‌ها، پیگیری) و شانزده زیربخش اجباریِ داخل آن‌ها. حضورِ بخش‌ها ۴۰ درصد و حضورِ زیربخش‌ها ۶۰ درصد را در محاسبه ساختاری تشکیل می‌دهد.

این مؤلفه بالینی ۵۵ درصد سهم دارد و سه چیز را ترکیب می‌کند: یادآوریِ کلیدواژه‌های تشخیص (۷۰ درصد از زیرنمره بالینی)، یادآوریِ سیستم‌های امتیازدهی (۲۰ درصد — آیا موتور در صورت لزوم Mentzer، FIB-4، HOMA-IR، ریسک ASCVD، مرحله‌بندی KDIGO، و معیارهای EULAR/ACR را محاسبه می‌کند یا نه)، و یک بررسیِ اعتبارِ جمعِ احتمال‌ها (۱۰ درصد — احتمال‌های افتراقی باید در بازه [90، 110] جمع شوند). برای موارد دام، یک جریمهِ صریحِ بیش‌تشخیصی تا 0.30 کم می‌شود که به‌صورت 0.10 به ازای هر پرچمِ پاتولوژیِ ساختگی محاسبه می‌شود و حداکثر تا سه پرچم محدود می‌گردد.

این مؤلفه تأخیر ۱۰ درصد سهم دارد. پاسخِ کمتر از ۲۰ ثانیه نمره کامل 0.10 می‌گیرد، پاسخِ کمتر از ۴۰ ثانیه نمره 0.05 می‌گیرد، و هر چیز کندتر صفر است. هدف ۲۰ ثانیه بازتاب‌دهنده هدف سطح خدمتِ تولید برای سرویسِ primary-path است؛ سقف ۴۰ ثانیه بازتاب‌دهنده بودجه پشتیبانِ فاز ۲ برای فراخوانی‌های سنگینِ موتور است.

اسکرین‌شات نهایی از چارچوب معیارسنجی Kantesti دارای مجوز MIT که در حال اجرا است و امتیازهای هر مورد را تولید می‌کند — همان چارچوب که اکنون مبتنی بر SQL است، در اجرای 100,000 موردی «به‌روزرسانی دوم V11» امتیاز 99.80% ترکیبی را تولید کرد
شکل ۳: سامانه در حال اجرا — همان موتوری که تولید کرد 99.80% امتیاز ترکیبی در کوهورت 100,000 موردیِ V11 Second Update. هر مورد به یک PDF با اندازه A4 رندر می‌شود، در endpoint تولید v11 ارسال می‌گردد و در برابر rubricِ فریز شده امتیازدهی می‌شود. Second Update یک لودرِ SQL پارامتردهی‌شده اضافه کرد؛ یک نمونه تصادفی طبقه‌بندی‌شده از پاسخ‌های خام موتور (n = 201) همراه با scorecard تجمیعی ذخیره می‌شود.

چه چیزی را پیش‌ثبت‌نام جلوگیری می‌کند

بنچمارک‌های دست‌اول به‌طور بدنامی اعداد خودشان را با تنظیم پسینیِ روبریک باد می‌کنند. الگو تقریباً همیشه یکسان است: تیم موتور را اجرا می‌کند، می‌بیند کجاها کم‌عملکرد دارد، سپس به‌طور بی‌صدا روبریک را طوری تنظیم می‌کند که نواحیِ کم‌عملکرد کمتر حساب شوند. با متعهد کردن روبریک به کد منبع پیش از اولین فراخوانی موتور و انتشار مهارگر تحت مجوز MIT، این تنظیم در کنترل نسخه قابل مشاهده می‌شود. هر کسی می‌تواند مخزن را کلون کند، تاریخ‌های نویسنده روبریک را بررسی کند، و تأیید کند که نتایج موتور برای شکل‌دهی به امتیازدهی استفاده نشده است.

موارد دامِ بیش‌تشخیص — چرا «زیاد اعلام کردن» حالت شکست واقعی است

بیش‌تشخیصِ تهاجمیِ پاتولوژی در غربالگری‌های طبیعی، یک حالت شکستِ مستند در دستیارهای پزشکیِ مصرف‌کننده است. هزینه‌های پیامدی آن شامل بررسی‌های غیرضروری، اضطراب بیمار و کارِ تشخیصیِ ناشی از مداخله (iatrogenic) است. دو مورد دام در این بنچمارک طراحی شده‌اند تا این حالت شکست را قابل مشاهده و قابل امتیازدهی کنند.

مقایسه کنارهمِ یک AI ساده که هپاتیت را روی پنل سندرم گیلبرت جعل می‌کند در برابر موتور Kantesti که به‌درستی پلی‌مورفیسم خوش‌خیم UGT1A1 را شناسایی می‌کند — روشی که در معیارسنجی 99.80% «به‌روزرسانی دوم V11» در 87,412 فرصتِ پرچم‌گذاریِ دام، به صفر مثبت کاذب مقیاس یافت
شکل ۴: طراحی trap-case از انتشار اولیه V11 — موتوری که با اطمینان «سندرم ژیلبرت» را به‌عنوان هپاتیت برچسب می‌زند، یا که پاتولوژیِ مرزی را روی یک صفحه کاملاً طبیعی تولید می‌کند، به‌جای اینکه پاداش بگیرد، جریمه می‌شود چون «بالا صدا کردن» بالینی را به‌درستی انجام نمی‌دهد. این روش‌شناسی تا 0 / 87,412 false-positives در اجرای 100,000 موردیِ V11 Second Update گسترش یافت که امتیاز ترکیبی 99.80% را تولید کرد.

🟡 دام ۱ — BT-014-GILBERT

تظاهر. یک مرد ۲۴ ساله با بیلی‌روبین تام 2.4 mg/dL. کسر مستقیم طبیعی است، ترانس‌آمینازها و آلکالین فسفاتاز در محدوده‌های مرجع خود قرار دارند، رتیکولوسیت‌ها قابل توجه نیستند، و هاپتوگلوبین و LDH همولیز را رد می‌کنند.

تفسیر صحیح. سندرم گیلبرت — یک پلی‌مورفیسم خوش‌خیمِ UGT1A1. تفسیر نباید هپاتیت، سیروز، کم‌خونی همولیتیک یا انسداد صفراوی را فراخوانی کند.

نتیجه V11. مرکب 1.000. هیچ‌یک از شش پرچمِ بیش‌تشخیصِ پایش‌شده به‌عنوان تشخیصِ فعال ظاهر نشدند.

🟡 دام ۲ — BT-015-HEALTHY

تظاهر. یک زن ۳۵ ساله با پنل روتین غربالگریِ پانزده‌پارامتری. هر آنالیت با آسودگی کامل داخل محدوده مرجع خود قرار دارد.

تفسیر صحیح. اطمینان‌بخشی و حفظ سبک زندگی. تفسیر نباید برای اینکه از نظر بالینی مفید به نظر برسد، بیماری‌های مرزی را به‌طور مصنوعی تولید کند.

نتیجه V11. ترکیب 1.000. هیچ‌یک از هفت پرچمِ بیش‌تشخیصِ پایش‌شده—دیابت، کم‌خونی، کم‌کاری تیروئید، دیس‌لیپیدمی، هپاتیت، بیماری کلیه، کمبود—به‌عنوان تشخیص فعال ظاهر نشدند.

در هر دو تله، سیزده پرچمِ بیش‌تشخیصِ پایش‌شده بررسی شد. هیچ‌کدام فعال نشدند. این نتیجه مهم‌ترین چیزی است که برای هر پزشکِ در نظر گرفتن استفاده از یک موتور هوش مصنوعی به‌عنوان ابزار تریاژ یا پیش از ویزیت اهمیت دارد: سیستم جایی که بیماری وجود نداشت، بیماری اختراع نکرد.

شاخص منتزر: تفکیک کمبود آهن از ویژگی تالاسمی

یافته ارزشمند دوم مربوط به جفت شدنِ مورد BT-001 (کم‌خونی فقر آهن) با مورد BT-007 (بتا-تالاسمی مینور) است. هر دو با میکروسیتوز همراه‌اند و یک مانع شناخته‌شده برای طبقه‌بندهای ساده‌لوحانه محسوب می‌شوند. شاخص منتزر که به‌صورت MCV تقسیم بر تعداد RBC محاسبه می‌شود، در فقر آهن بیش از 13 است و در صفت تالاسمی کمتر از 13 می‌افتد.

در BT-001، بیمار یک زن 34 ساله با هموگلوبین 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فریتین 6 ng/mL و TIBC بالا بود. شاخص منتزرِ حدود 17.7 از کمبود مطلق آهن حمایت می‌کند. در BT-007، بیمار یک مرد 28 ساله با میکروسیتوز (MCV 65.8 fL) اما تعداد RBC بالا 6.2، RDW طبیعی، فریتین طبیعی و HbA2 برابر 5.6 درصد بود. شاخص منتزرِ حدود 10.6 به صفت تالاسمی اشاره دارد و HbA2 بالا، بتا-تالاسمی مینور را تأیید می‌کند.

کم‌خونی فقر آهن منتزر > 13 فریتین پایین، TSAT پایین، TIBC بالا، RDW بالا
صفت بتا-تالاسمی منتزر < 13 فریتین طبیعی، RDW طبیعی، HbA2 بالا (>3.5%)، تعداد RBC بالا

هر دو مورد امتیاز 1.000 گرفتند. موتور در هر دو تفسیر، شاخص منتزر را به‌طور صریح فراخوانی کرد و در هر مورد تشخیص درست را برگرداند. این تنها نتیجه‌ای است که در کل بنچمارک از نظر بالینی بیشترین اطمینان را می‌دهد, ، زیرا اشتباه گرفتنِ صفت تالاسمی به‌عنوان فقر آهن باعث تجویز نامناسب مکمل‌های آهن و از دست رفتن فرصت‌های غربالگری خانوادگی می‌شود، و اشتباه گرفتنِ فقر آهن به‌عنوان تالاسمی، درمان جایگزینی ساده را به تأخیر می‌اندازد. ما محدوده فریتین زمینه افتراق گسترده‌تر را توضیح می‌دهیم.

نتایج هر مورد از اجرای مرجع اولیه V11 (۲۳ آوریل ۲۰۲۶)

اجرای مرجع اصلی V11 روی کوهورت اثبات مفهوم ۱۵ موردی، به‌عنوان پایه روش‌شناختی Second Update عمل می‌کند: هر یک از جزئیاتِ هر مورد در ادامه نشان می‌دهد rubric چگونه یک پاسخ واقعیِ موتور را مدیریت می‌کند. دوازده مورد از پانزده مورد به سقف امتیاز ترکیبی 1.000 در مسیر اصلی رسیدند؛ سه مورد از طریق fallback فاز ۲ سرویس شدند و در نتیجه جایزه تأخیر 0.05 را از دست دادند، اما تمام محتوای بالینی و ساختاری حفظ شد. یک مورد یک زیر‌بخش اجباری را نداشت؛ یکی دیگر مجموعِ توزیع احتمال را اندکی کاهش‌یافته برگرداند.

شناسه مورد تخصص ترکیبی تأخیر مسیر
BT-001-IDAهماتولوژی1.00017.8 ثانیهاصلی
BT-006-B12هماتولوژی1.00018.4 ثانیهاصلی
BT-007-THALهماتولوژی1.00017.0 ثانیهاصلی
BT-002-HASHغدد درون ریز0.95037.0 ثانیهبازگشت به حالت پشتیبان
BT-008-PCOSغدد درون ریز0.98718.6 ثانیهاصلی
BT-003-T2DMمتابولیک1.00019.1 ثانیهاصلی
BT-013-GOUTمتابولیک1.00019.4 ثانیهاصلی
BT-004-NAFLDگوارش‌پزشکی (هپاتولوژی)1.00019.6 ثانیهاصلی
BT-009-VIRHEPگوارش‌پزشکی (هپاتولوژی)0.95023.4 ثانیهبازگشت به حالت پشتیبان
BT-014-GILBERTتله1.00018.9 ثانیهاصلی
BT-005-CKDنفرولوژی1.00017.4 ثانیهاصلی
BT-010-ASCVDقلب‌شناسی1.00019.7 ثانیهاصلی
BT-011-SLEروماتولوژی0.98118.2 ثانیهاصلی
BT-012-VITDغدد درون ریز1.00019.3 ثانیهاصلی
BT-015-HEALTHYتله1.00018.7 ثانیهبازگشت به حالت پشتیبان

پرونده PCOS (BT-008) در ساختار پاسخ، یک زیربخش اجباری را از دست داد — پانزده از شانزده به جای شانزده از شانزده — که امتیاز ساختاری را از 1.000 به 0.963 کاهش داد. پرونده SLE (BT-011) مجموعِ احتمال-توزیعِ کاهش‌یافته‌ای را به‌صورت جزئی برگرداند که امتیاز بالینی را به 0.965 رساند، در حالی که هر کلیدواژه تشخیصی و سیستم امتیازدهی حفظ شد. هیچ‌یک از دو پرونده‌ای که زیرِ حد کامل بودند، تشخیص درست را از دست ندادند.

تجمیع V11 Second Update — 100,000 مورد

در مقیاس جمعیتی، ردیف‌های هر مورد برای انسان خوانا نیستند، بنابراین Second Update به‌جای یک جدول 100,000 ردیفی، معیارهای تجمیعی گزارش می‌کند. تجمیعِ تیترشده در ادامه نشان داده شده است؛ تفکیک‌های مربوط به هر تخصص و هر کشور در گزارش فنی و سپرده Figshare منتشر می‌شوند. یک نمونه تصادفی طبقه‌بندی‌شده از n = 201 پاسخ‌های خام موتور (seed قطعی 20260426) برای بررسی در دایرکتوری GitHub منتشر می‌شود. results/ دایرکتوری برای بررسی.

امتیاز ترکیبی اولیه V11: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 در کوهورت 100,000 موردی
امتیاز ساختاری (میانگین) اولیه V11: 0.998 → Second Update: 1.000 انطباق کامل ساختاری در مقیاس جمعیتی
امتیاز بالینی (میانگین) اولیه V11: 0.998 → Second Update: 0.996 −0.002؛ هیچ موردی خودِ تشخیص را از دست نداد
تأخیر — میانگین (بازه) مقدار اولیه V11: 20.17 ثانیه (17.0–37.0 ثانیه) → به‌روزرسانی دوم: 13.26 ثانیه (9.0–16.94 ثانیه) بهینه‌سازی‌های موتور بین اجراها
مسیر موتور = اصلی مقدار اولیه V11: 12 / 15 → به‌روزرسانی دوم: 100,000 / 100,000 در هیچ نقطه‌ای در طول اجرا، به بازگشت مرحله 2 نیازی نبود
پرچم‌های بیش‌تشخیصِ زیرمجموعه تله مقدار اولیه V11: 0 / 13 → به‌روزرسانی دوم: 0 / 87,412 صفر خطای مثبت کاذب در مقیاس جمعیت (8,723 مورد تله پایش شد)

این‌که امتیاز تیتر چه چیزی به ما نمی‌گوید

یک امتیاز ترکیبی 99.80 درصد تحت این چارچوب از پیش ثبت‌شده خاص، در یک گروه ناشناس 100,000 موردی که 127 کشور را پوشش می‌دهد، عملکردی نزدیک به سقف را نشان می‌دهد — اما نیازمند چارچوب‌بندی دقیق است. این نتیجه رفتار موتور را در برابر چارچوبی توصیف می‌کند که ما متعهد شدیم کد منبع در V11 را بر اساس آن ارائه کند؛ این یک ادعای فراگیر درباره درستی موتور در هر پنل آزمایش خون موجود در دنیای واقعی نیست.

امتیاز می‌گوید موتور الگوهای تشخیصی انتخاب‌شده برای این ارزیابی را به‌درستی در یک گروه در مقیاس جمعیت مدیریت کرده است، با روشی که منتشر شده و قابل بازتولید است. این نمی‌گوید موتور در هر پنل آزمایش خون موجود در دنیای واقعی درست است. این نمی‌گوید موتور باید جایگزین قضاوت بالینی شود. و این نمی‌گوید موتور از سامانه‌های هوش مصنوعی جایگزین بهتر است — تحلیل‌های تطبیقی در برابر موتورهای دیگر عمداً خارج از دامنه این گزارش بوده است.

چیزی که امتیاز واقعاً ثابت می‌کند یک خط پایه است. با عمومی بودن چارچوب و سامانه آزمایشی، نسخه‌های آینده موتور می‌توانند در برابر همان چارچوب ارزیابی شوند — اعمال‌شده بر 15 مورد اولیه V11، گروه 100,000 موردی به‌روزرسانی دوم، یا هر گسترش بعدی — و فاصله بین امتیاز منتشرشده و هر اجرای بعدی، خودِ قابل اندازه‌گیری است. ارزشِ ثبت از پیش همین است: ادعاهای عملکرد را به ادعاهای قابل آزمون تبدیل می‌کند.

چگونه این معیار را در 10 دقیقه بازتولید کنیم

برای بازتولید فقط یک جفت اعتبارنامه API Kantesti و یک محیط با Python 3.10 یا بالاتر لازم است که همراه با requests و reportlab کتابخانه‌ها نصب شده باشند. کل سامانه اجرا یک ماژول پایتونِ واحد و خودبسنده است که تحت مجوز MIT منتشر شده.

نمودار شبکه قابلیت بازتولید که معیارسنجی «به‌روزرسانی دوم V11» (99.80% ترکیبی، 100,000 مورد، 127 کشور) را در Figshare، ResearchGate، Academia.edu و GitHub بازتاب می‌دهد، با DOI Figshare به‌عنوان لنگرِ مرجع
شکل ۵: معیار V11 به‌روزرسانی دوم — امتیاز ترکیبی 99.80% در 100,000 مورد در 127 کشور — در چهار پلتفرم پژوهشی بازتاب یافته است. شناسه علمی مرجع Figshare DOI است؛ ResearchGate (انتشار 404175463)، Academia.edu (مقاله 165956808)، و GitHub نسخه‌های موازی را با سامانه آزمایشی پشتیبانی‌شده با SQL، نمونه تصادفی طبقه‌بندی‌شده پاسخ‌های خام، و کارت‌های امتیاز جداگانه برای هر کشور/هر تخصص میزبانی می‌کنند.

چهار مرحله برای یک اجرای تازه

یک. مخزن را کلون کنید: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. دو. نصب وابستگی‌ها با pip install -r requirements.txt (به‌روزرسانی دوم اضافه می‌کند mysql-connector-python ≥ 8.0 برای بارگذار موردهای SQL). سه. تنظیم KANTESTI_USERNAME و KANTESTI_PASSWORD به‌عنوان متغیرهای محیطی برای API موتور. برای بارگذار موردهای SQL در به‌روزرسانی دوم، همچنین تنظیم کنید KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، و KANTESTI_DB_PASSWORD — لودر از طریق یک نقش فقط‌خواندنی متصل می‌شود (bench_reader) که هیچ امتیازی برای شناسایی جدول‌ها ندارد. چهار. اجرا کنید python benchmark_bloodtest.py --limit 100000 برای اجرای کامل Second-Update، یا python benchmark_bloodtest.py --limit 1000 برای تکرار سریع. خروجی‌ها در ./benchmark_results/: یک داشبورد امتیازی CSV با ستون‌های مربوط به هر کشور و هر تخصص، یک تجمیع JSON، یک نمونه پاسخ خام طبقه‌بندی‌شده تصادفی، و یک گزارش Markdown.

اجراهای مرجع از 23 آوریل 2026 (V11 اولیه، 15 مورد) و 26 آوریل 2026 (V11 Second Update، 100,000 مورد) در results/ پوشه‌ی مخزن نگهداری می‌شوند. یک اجرای تازه یک داشبورد امتیازی جدید با مهر زمانی تولید می‌کند، در حالی که اجراهای مرجع بدون تغییر باقی می‌مانند. اگر اجرای شما نتیجه‌ای به‌طور معنادار متفاوت تولید کرد، لطفاً یک Issue در GitHub با مهر زمانی اجرا و نسخه‌ی موتور بازگردانده‌شده در متادیتای پاسخ باز کنید.

محدودیت‌ها و کارهای آینده

حتی با 100,000 مورد در 127 کشور، چهار محدودیت نیاز به اذعان صریح دارند: کم‌نمونه‌گیری دنباله‌بلند کشورها، ارزیابی تک‌نوبتی، دامنه‌ی تک‌موتوری، و منشأ تک‌منبع داده. هر کدام در کارهای پیگیری فعال در حال رسیدگی است.

پوشش کشورهای دنباله‌بلند. Second Update دربرگیرنده‌ی 127 کشور است، اما توزیع نامتوازن است — 10 مشارکت‌کننده‌ی برتر حدود ≈66.4% از موارد را تشکیل می‌دهند، و دنباله‌ی بلند 97 کشور دیگر در مجموع ≈7.3% (تقریباً 7,300 مورد به‌همراه، ~75 مورد به‌طور متوسط برای هر کشور) سهم دارد. بنابراین، ترکیب‌های کشوری در این دنباله‌ی بلند پرنویزتر از ارقام تیترشده هستند. اجراهای آینده به‌طور ترجیحی از کشورهایی که کم‌نمونه‌گیری شده‌اند جذب خواهند کرد تا برآوردهای مربوط به هر حوزه را دقیق‌تر کنند.

ارزیابی تک‌نوبتی. هر مورد در این گروه یک‌بار ارزیابی شد. مدل‌های زبانی بزرگ حتی در دمای نمونه‌برداری پایین نیز دارای نوسان خروجی غیرقابل‌چشم‌پوشی هستند، بنابراین یک پروتکل چند-اجرا با پنج ارزیابی برای هر مورد و گزارش واریانس، گام بعدی طبیعی است — به‌ویژه روی زیرمجموعه‌ی «trap-case»، جایی که سازگاری تحت لرزش نمونه‌برداری بخشی از ادعای ایمنی است.

دامنهٔ تک‌موتوری. این گزارش یک موتور را توصیف می‌کند. تحلیل‌های مقایسه‌ای در برابر سامانه‌های هوش مصنوعی جایگزین در اینجا خارج از دامنه است؛ ممکن است آن‌ها را به‌عنوان یک مطالعه‌ی مستقل جداگانه با روش‌شناسی مناسب، در برابر همان چارچوب دارای مجوز MIT دنبال کنیم.

منشأ تک‌منبع داده. 100,000 مورد، سوابق واقعیِ ناشناس‌سازی‌شده‌ی بیماران هستند که از یک مخزن بالینی واحد استخراج شده‌اند (انبار داده‌ی بالینی SQL-محور Kantesti). این‌ها نمایانگر یک جریان تولیدی گزینش‌شده هستند و در سطح جهانی یک نمونه‌گیری تصادفی نماینده‌ی جمعیت محسوب نمی‌شوند. گسترش ارزیابی به داده‌های چندمرکزی با منشأ بیرونی در برنامه‌ی راهبردی قرار دارد.

فراتر از این چهار مورد، اثرگذارترین توسعه‌ی برنامه‌ریزی‌شده، برابری چندزبانه برای هر حوزه است. موتور Kantesti AI به کاربران در 75+ زبان خدمت می‌دهد، و اجرای زیرگروه‌های Second-Update با طبقه‌بندی زبانی (ترکی، آلمانی، اسپانیایی، فرانسوی، ایتالیایی، پرتغالی، عربی، ماندارین) کیفیت خروجی را در زبان‌های پشتیبانی‌شده‌ی موتور کمی‌سازی خواهد کرد. هر تحلیلِ طبقه‌بندی‌شده‌ی زبانی با DOI و شاخه‌ی چارچوب مخصوص به خود منتشر می‌شود.