معیارسنجی آزمایش خون با هوش مصنوعی Kantesti

معیارسنجی خودکار معیار از پیش ثبت‌شده به‌روزرسانی دوم V11 — آوریل 2026 دارای مجوز MIT بازتولیدپذیر · داده‌های باز 100K هم‌کوهورت مصنوعی · 127 برچسب کشور

99.80% امتیاز ترکیبی بر اساس یک شِمای از پیش ثبت‌شده — به‌روزرسانی دوم V11، هم‌کوهورت 100,000 موردی در 127 برچسب کشور

یک معیار فنی خودکارِ از پیش ثبت‌شده و مبتنی بر روبریک برای موتور Kantesti، روی 100,000 مورد تست خونِ تولیدشده به‌صورت مصنوعی که با 127 برچسب کشوری برچسب‌گذاری شده‌اند. این معیار، انطباق خروجی را می‌سنجد، نه دقت تشخیصی. روبریک پیش از انتشار اولیه V11 در کد منبع قفل شده بود و برای این به‌روزرسانی دوم دقیقاً یکسانِ بایت‌به‌بایت نگه داشته شد؛ چارچوب ارزیابی دارای مجوز MIT است؛ و یک نمونه تصادفی طبقه‌بندی‌شده از پاسخ‌های خام موتور برای بررسی منتشر شده است. همه موارد مصنوعی هستند؛ هیچ داده شخصی استفاده نمی‌شود.

📖 ~14 دقیقه 📅 منتشرشده در 23 آوریل 2026 · به‌روزرسانی‌شده در 26 آوریل 2026 (به‌روزرسانی دوم V11) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 منتشر شده: 23 آوریل 2026 🔄 به‌روزرسانی دوم V11: 26 آوریل 2026 🩺 بررسی پزشکی: 26 آوریل 2026 ✅ روبریک از پیش ثبت‌شده (بایت‌به‌بایت یکسان) 🔓 کد و داده‌های باز

این معیارسنجی خودکار توسط جولیان امیرخان بولوت, ، مهندس ارشد هوش مصنوعی و مدیرعامل Kantesti Ltd طراحی و اجرا شد. امتیازدهی به‌طور کامل در کد منبع خودکار است؛ معیار امتیازدهی و پنل موارد با ورودی بالینی از دکتر توماس کلاین، پزشک, ، مدیر ارشد پزشکی در Kantesti AI، توسعه داده شد و توسط هیئت مشاوره پزشکی هوش مصنوعی کانتستی. این یک بنچمارک داخلیِ خوداجرا است، نه یک بنچمارک فنی خودکار مستقل یا داوری‌شده توسط همتایان.

نویسنده اصلی & نظارت بالینی

دکتر توماس کلاین

مدیر ارشد پزشکی، شرکت هوش مصنوعی کانتستی

دکتر توماس کلاین یک متخصص هماتولوژی بالینیِ دارای بورد و پزشک داخلی است با بیش از 15 سال تجربه در پزشکی آزمایشگاهی. به‌عنوان مدیر پزشکی (Chief Medical Officer) در Kantesti AI، او پنل موارد را برای این بنچمارک انتخاب کرد، محتوای بالینی و پاسخ‌های مورد انتظارِ موارد مصنوعی را مرور نمود، و شِمای از پیش ثبت‌شده را پیش از اولین فراخوانی موتور تأیید کرد.

ORCID 0009-0009-1490-1321 ریسرچ‌گیت گوگل اسکالر

نویسنده همکار & پیاده‌سازی

جولیان امیرخان بولوت

مهندس ارشد هوش مصنوعی & مدیرعامل، Kantesti Ltd

جولین امیرهان بولوت بنیان‌گذار و مدیرعامل Kantesti Ltd است. او سامانه ارزیابی را طراحی و پیاده‌سازی کرد — از جمله بارگذارِ SQL برای موارد که برای به‌روزرسانی دوم V11 اضافه شد — ادغام API را انجام داد، هم اجرای مرجع اولیه V11 و هم اجرای 100,000 موردی به‌روزرسانی دوم V11 را انجام داد و تجمیع آماری را آماده کرد. بنیان‌گذار پلتفرم از سال 2019.

GitHub درباره کانتستی

⚡ خلاصه سریع به‌روزرسانی دوم V11 — 26 آوریل 2026

امتیاز ترکیبی 99.80% روی 100,000 مورد تست خونِ مصنوعی در هشت تخصص پزشکی و 127 برچسب کشوری (V11 به‌روزرسانی دوم).
صفر خطای مثبتِ بیش‌تشخیص در میان 87,412 فرصتِ پرچم‌گذاریِ trap-case پایش‌شده — همان روش trap-case مانند اجرای اولیه V11، مقیاس‌یافته به سطح جمعیت.
روبریکِ از پیش ثبت‌شده پیش از اجرای اولیه V11 در کد منبع فریز شده و حفظ شده است بایت‌به‌بایت یکسان برای این به‌روزرسانی دوم — هیچ تنظیم پسینی ممکن نبود.
شاخص منتزر به‌درستی اعمال شد برای تفکیک کم‌خونی فقر آهن از بتا-تالاسمی مینور در انتشار اولیه V11؛ رفتار افتراقی در مقیاس جمعیت حفظ شد.
فقط نقطه پایانیِ تولید — بدون مسیریابیِ ممتاز؛ دقیقاً همان‌طور ارزیابی شد که یک مشتریِ پرداخت‌کننده به آن دسترسی دارد.
میانگین تأخیر 13.26 ثانیه انتها-به-انتها (بازه 9.0–16.94 ثانیه)، با اینکه هر 100,000 مورد در مسیر اصلی موتور تکمیل شدند.
هم‌کوهورت مصنوعی. 100,000 مورد آزمون تولیدشده به‌صورت مصنوعی که در زمان اجرا بارگذاری می‌شوند. هیچ داده مصنوعی و هیچ داده شخصی استفاده نمی‌شود.
سامانه آزمایشی با مجوز MIT در GitHub با یک نمونه‌گیری تصادفی طبقه‌بندی‌شده (n = 201) از پاسخ‌های خام کامل موتور برای بررسی منتشر شد.
DOI در Figshare: 10.6084/m9.figshare.32095435 · در ResearchGate، Academia.edu و GitHub نیز بازتاب داده شده است.

چرا این معیار وجود دارد و چه چیزی را می‌سنجد

تفسیر آزمایش خون با کمک هوش مصنوعی به‌طور فزاینده‌ای در جریان‌های کاری مصرف‌کننده و بالینی استفاده می‌شود، با این حال چارچوب‌های ارزیابیِ قابل‌تکرارِ متناسب با پزشکی آزمایشگاهی همچنان رایج نیستند. مهم‌ترین پرسش‌ها در این زمینه، پرسش‌هایی نیستند که توسط معیارهای عمومیِ پاسخ‌گویی به پرسش‌های پزشکی پوشش داده می‌شوند: آیا یک موتور می‌تواند وقتی حجم متوسط گلبول‌ها یکسان است، کمبود آهن را از ویژگی تالاسمی جدا کند، آیا سندرم گیلبرت را به‌عنوان هپاتیت بیش‌تشخیص می‌دهد، و آیا در یک پنل غربالگری کاملاً طبیعی، پاتولوژی تولید می‌کند؟

یک پنل منفردِ آزمایش خون معمولاً به اندازه‌ای سیگنال دارد که از چندین تفسیر رقیب پشتیبانی کند، و وظیفهٔ پزشکِ تفسیرکننده این است که آن تفسیرها را در برابر هم وزن‌دهی کند، نه اینکه یک پاسخِ کتاب‌درسی را بازیابی کند. یک موتور که در مواردِ کتاب‌درسی عملکرد خوبی دارد ممکن است در مواردی که بیشترین اهمیت را دارند شکست بخورد: دام‌های تشخیص افتراقی، واریانت‌های خوش‌خیم که به‌تنهایی نگران‌کننده به نظر می‌رسند، و پنل‌های کاملاً طبیعی که دستیارانِ بااعتماد را وسوسه می‌کنند تا «پاتولوژی» تولید کنند.

این بنچمارک دقیقاً برای همین حالت‌های شکست ساخته شد. هر یک از پانزده کیس برای یک ویژگی تشخیصی مشخص انتخاب شد: میکروسیتوز ناشی از کمبود آهن که باید از صفت بتا-تالاسمی با حجم متوسط گلبول قرمز یکسان متمایز نگه داشته شود؛ یک تظاهرِ سندرم ژیلبرت که تنها ناهنجاری آن هایپربیلی‌روبینمیِ ایزولهٔ غیرمستقیم است؛ و یک پنل غربالگری پانزده‌پارامتری که در آن هر آنالیت داخل محدودهٔ مرجع خود قرار دارد. این روبریک به موتورهایی پاداش می‌دهد که هر کیس را بر اساس شرایط خودش می‌خوانند و به موتورهایی که به سراغ یک تشخیصِ بااعتماد می‌روند وقتی چنین تشخیصی توجیه ندارد، امتیاز منفی می‌دهد.

به‌عنوان دکتر توماس کلاین، من پنل کیس را انتخاب کردم چون این الگوهایی هستند که دستیارانِ پزشکیِ آزمایشگاهی بیشترین اشتباه را در آن‌ها مرتکب می‌شوند. حالتِ شکستِ پرهزینه "از دست دادن یک بیماری نادر" نیست—بلکه ساختنِ پاتولوژیِ روتین در بیمارانی است که آن را ندارند. ما اعتبارسنجی پزشکی hub چارچوب گسترده‌تر را توصیف می‌کند؛ این صفحه، اثبات اولیه V11 و به‌روزرسانی دوم V11 را که آن را تا 100,000 مورد مصنوعی مقیاس داده است شرح می‌دهد—با استفاده از همان شِمای امتیازدهی، بایت‌-یکسان، و بدون اجازه برای تنظیم پسینی (post-hoc).

جدیدترین اجرای مرجع — به‌روزرسانی دوم V11 (26 آوریل 2026)

اجرای مرجع به‌روزرسانی دوم V11 در تاریخ 26 آوریل 2026، امتیاز مرکبِ 99.80% بر اساس همان روبریک از پیش ثبت‌شده‌ای که در انتشار اولیه V11 استفاده شده بود، ارزیابی شد بر روی 100,000 مورد مصنوعی برگرفته از مجموعه موارد مصنوعی Kantesti و شامل 127 برچسب کشوری و زبان‌های 75+ هستند. هر مورد در مسیر اصلیِ موتور کامل شد؛ فعال‌سازی‌های پرچم بیش‌تشخیصِ موارد تله در سطح 0 / 87,412. باقی ماند. اجرای اولیه V11 در 23 آوریل 2026، 15 موردِ دستیِ گزینش‌شده (امتیاز مرکب 99.12%) را پوشش داد و روبریک را اعتبارسنجی کرد؛ به‌روزرسانی دوم همان روبریک را دقیقاً بایت‌به‌بایت حفظ می‌کند و ارزیابی را به یک کوهورت در مقیاس جمعیتی گسترش می‌دهد.

ترکیبی 99.80% 100,000 از 100,000 مورد امتیاز گرفت

1.000 امتیاز ساختاری

0.996 امتیاز بالینی

13.26 s میانگین تأخیر

0 / 87,412 مثبت‌های کاذبِ دام

فرمولِ ترکیبی سه مؤلفه را با هم ترکیب می‌کند: انطباق ساختاری با هفت بخش گزارشِ اجباری و شانزده زیربخشِ اجباری،, دقت محتوای که به‌صورت «بازخوانیِ کلیدواژه‌ها» به‌علاوهٔ «بازخوانیِ سیستم امتیازدهی» و نیز «بررسیِ اعتبارِ توزیع احتمال» اندازه‌گیری می‌شود، و تأخیر پاسخ در برابر هدف سطح خدمتِ مسیر اصلی. تجزیه دقیق در فرمول روبریکِ زیر نشان داده شده است — هیچ‌یک از این وزن‌ها یا زیر-روبریک‌ها برای به‌روزرسانی دوم تغییر نکردند.

ترکیبی = 0.35 × ساختاری + 0.55 × بالینی + 0.10 × تأخیر

0.20 امتیاز درصدیِ باقی‌مانده از فضای اطمینان، تقریباً تقریباً به طور کامل به زیر-امتیاز بالینی تجزیه می‌شود — بخش کوچکی از موارد (عمدتاً در هپاتولوژی و روماتولوژی) یک کلیدواژهِ مورد انتظارِ سیستم امتیازدهی را که باید در تفسیر موتور وجود می‌داشت، نداشتند، با اینکه محتوای تشخیصی درست بود. هیچ موردی در کوهورت 100,000 تاییِ به‌روزرسانی دوم، خودِ تشخیص را از دست نداد. تأخیر از میانگین 20.17 ثانیه در انتشار اولیه V11 به 13.26 ثانیه در به‌روزرسانی دوم بهبود یافت؛ که نشان‌دهنده بهینه‌سازی‌های موتورِ تولیدی بین دو اجرا است؛ روبریک، کد امتیازدهی و نقطه پایانی API بدون تغییر مانده‌اند.

نمره‌های ترکیبیِ هر برچسب از 0.9971 تا 0.9985 در 30 برچسبِ پرتکرارِ نمایان بودند. دنباله بلندِ 97 برچسبِ اضافی (در مجموع ≈7,300 مورد) هیچ افتِ سیستماتیک نشان نداد. پرتکرارترین برچسب‌ها بر اساس تعداد موارد عبارت بودند از: ایالات متحده (10,500)، برزیل (9,500)، اسپانیا (9,000)، ایتالیا (8,000)، آلمان (7,800)، فرانسه (7,400)، پرتغال (5,800)، Türkiye (3,400)، بریتانیا (2,900) و مکزیک (2,500).

از 15 مورد تا 100,000: تکامل هم‌کوهورت در 127 برچسب کشور

پنل اصلی موارد در V11 هفت تخصص را پوشش می‌داد — هماتولوژی، غدد درون‌ریز، پزشکی متابولیک، هپاتولوژی، نفرولوژی، قلب‌وعروق، روماتولوژی — به‌علاوه دو مورد اختصاصیِ دامِ تشخیصِ بیش‌ازحد (hyperdiagnosis trap)، و هر مورد یک پنل آزمون خون تولیدشده به‌صورت مصنوعی بود. به‌روزرسانی دوم V11 ارزیابی را تا 100,000 مورد مصنوعی در 127 برچسب کشور گسترش می‌دهد, گسترش می‌دهد که در هشت تخصص توزیع شده‌اند (هفت تخصص اصلی به‌علاوه یک سطل اختصاصیِ پزشکی داخلی که زیرمجموعه تله را جذب می‌کند). همان روبریک امتیازدهی در هر دو اجرا دقیقاً بایت‌به‌بایت اعمال می‌شود.

از آنجا که همه موارد به‌صورت مصنوعی تولید شده‌اند، هیچ شناسه واقعی برای حذف وجود ندارد و هیچ داده شخصی‌ای در کار نیست. هر مورد مصنوعی یک کد موردِ داخلیِ بنچمارک دارد (BT-NNN-LABEL در مجموعه اولیه V11، یک case_uid در به‌روزرسانی دوم). هیچ داده شخصی‌ای در هیچ‌کجای سامانه منتشرشده، گزارش فنی، یا مجموعه‌داده‌های منتشرشده دیده نمی‌شود.

انتشار اولیه V11 — 15 موردِ دستیِ گزینش‌شده

پنل اصلی پرونده‌های V11 توسط دکتر توماس کلاین به‌صورت دستی گزینش شد تا الگوهای تشخیصی‌ای را تمرین دهد که دستیاران پزشکی آزمایشگاهی بیشترین اشتباه را در آن‌ها مرتکب می‌شوند. هر یک از پانزده پرونده برای یک ویژگی تشخیصی مشخص انتخاب شد که در ادامه آمده است.

هماتولوژی (3) BT-001، BT-006، BT-007 کم‌خونی فقر آهن · کمبود B12 · بتا-تالاسمی مینور

غدد درون‌ریز (3) BT-002، BT-008، BT-012 تیروئیدیت هاشیموتو · PCOS همراه با مقاومت به انسولین · کمبود شدید ویتامین D

متابولیک (2) BT-003، BT-013 T2DM همراه با سندرم متابولیک · هایپراوریسمی همراه با ریسک نقرس

کبدشناسی (2) BT-004، BT-009 NAFLD / NASH · هپاتیت حاد ویروسی

نفرولوژی · قلب و عروق · روماتولوژی (3) BT-005، BT-010، BT-011 مرحله 3 بیماری مزمن کلیه (CKD) · دیس‌لیپیدمی آترواسکلروززا (آترژنیک) · لوپوس اریتماتوز سیستمیک

موارد دام (2) BT-014، BT-015 سندرم گیلبرت (هایپربیلی‌روبینمی ایزوله غیرمستقیم) · غربالگری بزرگسالان کاملاً طبیعی

چرا این توزیعِ خاص

هماتولوژی به سه مورد می‌رسد، چون افتراقی‌های میکروسیتیک و ماکروسیتیک، پرحجم‌ترین دام‌ها در عملکرد واقعیِ آزمایشگاه هستند. غدد درون‌ریز به سه مورد می‌رسد، چون تظاهرهای بیماریِ هاشیموتو، PCOS و کمبود ویتامین D، شکل‌های تشخیصی متفاوتی را به چالش می‌کشند (محرکِ خودآنتی‌بادی، محرکِ نسبت‌های هورمونی، محرکِ تک‌نشانگر). تخصص‌های تک‌موردی همچنان معنادار هستند، چون هر یک از CKD، ریسک ASCVD و SLE سیستم امتیازدهی مخصوص به خود را دارد که موتور باید آن را فراخوانی کند (به‌ترتیب مرحله‌بندی KDIGO، ریسک ۱۰ساله ASCVD، و معیارهای 2019 EULAR/ACR برای SLE).

به‌روزرسانی دوم V11 — 100,000 مورد مصنوعی در 127 برچسب کشور

به‌روزرسانی دوم، متنِ پایتونِ اولیهِ 15 موردیِ سخت‌کدشده در V11 را با یک مجموعه بزرگ‌تر از موارد مصنوعی تولیدشده به‌صورت برنامه‌ای جایگزین می‌کند. این مجموعه موارد در ابتدای هر اجرا بارگذاری می‌شود و پیکربندی برای شفافیت ثبت (log) می‌گردد. توزیع هم‌کوهورت بر اساس حوزه محتوا در ادامه نشان داده شده است.

غدد درون ریز 23,900 پرونده (23.9%) تیروئید، PCOS، کمبود ویتامین D، محور گونادی، هیپوفیز

پزشکی متابولیک 21,900 پرونده (21.9%) T2DM، سندرم متابولیک، پنل‌های چربی، هایپراوریسمی

هماتولوژی 15,400 پرونده (15.4%) افتراقی میکروسیتیک و ماکروسیتیک، B12/فولات، مطالعات آهن

گوارش‌پزشکی (هپاتولوژی) 12,400 پرونده (12.4%) NAFLD/NASH، هپاتیت ویروسی، FIB-4، کلستاز

پزشکی داخلی (از جمله زیرمجموعه trap) 9,000 پرونده (9.0%) ارائه‌های ترکیبی و 8,723 پرونده اختصاصیِ trap برای هایپرتشخیص

قلب‌شناسی 7,500 پرونده (7.5%) ریسک ASCVD، دیس‌لیپیدمی آتروم‌زا، hs-CRP

روماتولوژی 6,000 پرونده (6.0%) SLE، RA، واسکولیت، پنل‌های خودآنتی‌بادی (معیارهای EULAR/ACR)

نفرولوژی 4,000 پرونده (4.0%) مرحله‌بندی CKD (KDIGO)، روندهای eGFR، اختلالات الکترولیتی

توزیع برچسب کشوریِ مصنوعی — 10 برچسب برتر

100,000 موردِ مصنوعی دارای 127 برچسب کشوری (ISO 3166-1 alpha-2) هستند تا مدیریت محلی‌سازی را به چالش بکشند. انتساب برچسب: اروپا 57.7%، قاره‌های آمریکا 25.4%، آسیا-اقیانوسیه 6.2%، برچسب‌های خاورمیانه/آفریقای نام‌گذاری‌شده 3.4%، و یک دنباله بلند از 97 برچسب اضافی که در مجموع حدود 7.3% را تشکیل می‌دهند. ده برچسبِ پرتکرار بر اساس تعداد موارد عبارت بودند از: ایالات متحده (10,500)، برزیل (9,500)، اسپانیا (9,000)، ایتالیا (8,000)، آلمان (7,800)، فرانسه (7,400)، پرتغال (5,800)، Türkiye (3,400)، بریتانیا (2,900) و مکزیک (2,500). نمره‌های ترکیبیِ هر برچسب از 0.9971 تا 0.9985 متغیر بودند. این شمار برچسب‌ها ویژگیِ موارد تولیدشده است که برای به چالش کشیدن مدیریت محلی‌سازی استفاده می‌شود—آن‌ها کاربران واقعی و پوشش جغرافیاییِ واقعی نیستند.

روبریک از پیش ثبت‌شده، توضیح داده‌شده

پیش‌ثبت‌نام مهم‌ترین انتخاب روش‌شناختی در این بنچمارک است. هر تشخیصِ مورد انتظار، هر سیستم امتیازدهی بالینی، و هر بخشِ گزارش، پیش از فراخوانی موتور به کد منبع متعهد شده بود قبل از اینکه موتور فراخوانی شود. بنابراین تنظیم پسینیِ روبریک برای خوشایند موتور ممکن نیست.

سه مؤلفه، نمره مرکب را تشکیل می‌دهند. مؤلفه ساختاری ۳۵ درصد سهم دارد و بررسی می‌کند آیا موتور هفت بخش اجباری گزارش را برگردانده است یا نه (سربرگ، خلاصه، یافته‌های کلیدی، افتراق، سیستم‌های امتیازدهی، توصیه‌ها، پیگیری) و شانزده زیربخش اجباریِ داخل آن‌ها. حضورِ بخش‌ها ۴۰ درصد و حضورِ زیربخش‌ها ۶۰ درصد را در محاسبه ساختاری تشکیل می‌دهد.

این مؤلفه بالینی ۵۵ درصد سهم دارد و سه چیز را ترکیب می‌کند: یادآوریِ کلیدواژه‌های تشخیص (۷۰ درصد از زیرنمره بالینی)، یادآوریِ سیستم‌های امتیازدهی (۲۰ درصد — آیا موتور در صورت لزوم Mentzer، FIB-4، HOMA-IR، ریسک ASCVD، مرحله‌بندی KDIGO، و معیارهای EULAR/ACR را محاسبه می‌کند یا نه)، و یک بررسیِ اعتبارِ جمعِ احتمال‌ها (۱۰ درصد — احتمال‌های افتراقی باید در بازه [90، 110] جمع شوند). برای موارد دام، یک جریمهِ صریحِ بیش‌تشخیصی تا 0.30 کم می‌شود که به‌صورت 0.10 به ازای هر پرچمِ پاتولوژیِ ساختگی محاسبه می‌شود و حداکثر تا سه پرچم محدود می‌گردد.

این مؤلفه تأخیر ۱۰ درصد سهم دارد. پاسخِ کمتر از ۲۰ ثانیه نمره کامل 0.10 می‌گیرد، پاسخِ کمتر از ۴۰ ثانیه نمره 0.05 می‌گیرد، و هر چیز کندتر صفر است. هدف ۲۰ ثانیه بازتاب‌دهنده هدف سطح خدمتِ تولید برای سرویسِ primary-path است؛ سقف ۴۰ ثانیه بازتاب‌دهنده بودجه پشتیبانِ فاز ۲ برای فراخوانی‌های سنگینِ موتور است.

چه چیزی را پیش‌ثبت‌نام جلوگیری می‌کند

بنچمارک‌های دست‌اول به‌طور بدنامی اعداد خودشان را با تنظیم پسینیِ روبریک باد می‌کنند. الگو تقریباً همیشه یکسان است: تیم موتور را اجرا می‌کند، می‌بیند کجاها کم‌عملکرد دارد، سپس به‌طور بی‌صدا روبریک را طوری تنظیم می‌کند که نواحیِ کم‌عملکرد کمتر حساب شوند. با متعهد کردن روبریک به کد منبع پیش از اولین فراخوانی موتور و انتشار مهارگر تحت مجوز MIT، این تنظیم در کنترل نسخه قابل مشاهده می‌شود. هر کسی می‌تواند مخزن را کلون کند، تاریخ‌های نویسنده روبریک را بررسی کند، و تأیید کند که نتایج موتور برای شکل‌دهی به امتیازدهی استفاده نشده است.

موارد دامِ بیش‌تشخیص — چرا «زیاد اعلام کردن» حالت شکست واقعی است

بیش‌تشخیصِ تهاجمیِ پاتولوژی در غربالگری‌های طبیعی، یک حالت شکستِ مستند در دستیارهای پزشکیِ مصرف‌کننده است. هزینه‌های پیامدی آن شامل بررسی‌های غیرضروری، اضطراب بیمار و کارِ تشخیصیِ ناشی از مداخله (iatrogenic) است. دو مورد دام در این بنچمارک طراحی شده‌اند تا این حالت شکست را قابل مشاهده و قابل امتیازدهی کنند.

🟡 دام ۱ — BT-014-GILBERT

تظاهر. یک مرد ۲۴ ساله با بیلی‌روبین تام 2.4 mg/dL. کسر مستقیم طبیعی است، ترانس‌آمینازها و آلکالین فسفاتاز در محدوده‌های مرجع خود قرار دارند، رتیکولوسیت‌ها قابل توجه نیستند، و هاپتوگلوبین و LDH همولیز را رد می‌کنند.

تفسیر صحیح. سندرم گیلبرت — یک پلی‌مورفیسم خوش‌خیمِ UGT1A1. تفسیر نباید هپاتیت، سیروز، کم‌خونی همولیتیک یا انسداد صفراوی را فراخوانی کند.

نتیجه V11. مرکب 1.000. هیچ‌یک از شش پرچمِ بیش‌تشخیصِ پایش‌شده به‌عنوان تشخیصِ فعال ظاهر نشدند.

🟡 دام ۲ — BT-015-HEALTHY

تظاهر. یک زن ۳۵ ساله با پنل روتین غربالگریِ پانزده‌پارامتری. هر آنالیت با آسودگی کامل داخل محدوده مرجع خود قرار دارد.

تفسیر صحیح. اطمینان‌بخشی و حفظ سبک زندگی. تفسیر نباید برای اینکه از نظر بالینی مفید به نظر برسد، بیماری‌های مرزی را به‌طور مصنوعی تولید کند.

نتیجه V11. ترکیب 1.000. هیچ‌یک از هفت پرچمِ بیش‌تشخیصِ پایش‌شده—دیابت، کم‌خونی، کم‌کاری تیروئید، دیس‌لیپیدمی، هپاتیت، بیماری کلیه، کمبود—به‌عنوان تشخیص فعال ظاهر نشدند.

در هر دو تله، سیزده پرچمِ بیش‌تشخیصِ پایش‌شده بررسی شد. هیچ‌کدام فعال نشدند. این نتیجه مهم‌ترین چیزی است که برای هر پزشکِ در نظر گرفتن استفاده از یک موتور هوش مصنوعی به‌عنوان ابزار تریاژ یا پیش از ویزیت اهمیت دارد: سیستم جایی که بیماری وجود نداشت، بیماری اختراع نکرد.

شاخص منتزر: تفکیک کمبود آهن از ویژگی تالاسمی

یافته ارزشمند دوم مربوط به جفت شدنِ مورد BT-001 (کم‌خونی فقر آهن) با مورد BT-007 (بتا-تالاسمی مینور) است. هر دو با میکروسیتوز همراه‌اند و یک مانع شناخته‌شده برای طبقه‌بندهای ساده‌لوحانه محسوب می‌شوند. شاخص منتزر که به‌صورت MCV تقسیم بر تعداد RBC محاسبه می‌شود، در فقر آهن بیش از 13 است و در صفت تالاسمی کمتر از 13 می‌افتد.

در BT-001، بیمار یک زن 34 ساله با هموگلوبین 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فریتین 6 ng/mL و TIBC بالا بود. شاخص منتزرِ حدود 17.7 از کمبود مطلق آهن حمایت می‌کند. در BT-007، بیمار یک مرد 28 ساله با میکروسیتوز (MCV 65.8 fL) اما تعداد RBC بالا 6.2، RDW طبیعی، فریتین طبیعی و HbA2 برابر 5.6 درصد بود. شاخص منتزرِ حدود 10.6 به صفت تالاسمی اشاره دارد و HbA2 بالا، بتا-تالاسمی مینور را تأیید می‌کند.

کم‌خونی فقر آهن منتزر > 13 فریتین پایین، TSAT پایین، TIBC بالا، RDW بالا

صفت بتا-تالاسمی منتزر < 13 فریتین طبیعی، RDW طبیعی، HbA2 بالا (>3.5%)، تعداد RBC بالا

هر دو مورد امتیاز 1.000 گرفتند. موتور در هر دو تفسیر، شاخص منتزر را به‌طور صریح فراخوانی کرد و در هر مورد تشخیص درست را برگرداند. این تنها نتیجه‌ای است که در کل بنچمارک از نظر بالینی بیشترین اطمینان را می‌دهد, ، زیرا اشتباه گرفتنِ صفت تالاسمی به‌عنوان فقر آهن باعث تجویز نامناسب مکمل‌های آهن و از دست رفتن فرصت‌های غربالگری خانوادگی می‌شود، و اشتباه گرفتنِ فقر آهن به‌عنوان تالاسمی، درمان جایگزینی ساده را به تأخیر می‌اندازد. ما محدوده فریتین زمینه افتراق گسترده‌تر را توضیح می‌دهیم.

نتایج هر مورد از اجرای مرجع اولیه V11 (۲۳ آوریل ۲۰۲۶)

اجرای مرجع اصلی V11 روی کوهورت اثبات مفهوم ۱۵ موردی، به‌عنوان پایه روش‌شناختی Second Update عمل می‌کند: هر یک از جزئیاتِ هر مورد در ادامه نشان می‌دهد rubric چگونه یک پاسخ واقعیِ موتور را مدیریت می‌کند. دوازده مورد از پانزده مورد به سقف امتیاز ترکیبی 1.000 در مسیر اصلی رسیدند؛ سه مورد از طریق fallback فاز ۲ سرویس شدند و در نتیجه جایزه تأخیر 0.05 را از دست دادند، اما تمام محتوای بالینی و ساختاری حفظ شد. یک مورد یک زیر‌بخش اجباری را نداشت؛ یکی دیگر مجموعِ توزیع احتمال را اندکی کاهش‌یافته برگرداند.

شناسه مورد تخصص ترکیبی تأخیر مسیر

BT-001-IDAهماتولوژی1.00017.8 ثانیهاصلی

BT-006-B12هماتولوژی1.00018.4 ثانیهاصلی

BT-007-THALهماتولوژی1.00017.0 ثانیهاصلی

BT-002-HASHغدد درون ریز0.95037.0 ثانیهبازگشت به حالت پشتیبان

BT-008-PCOSغدد درون ریز0.98718.6 ثانیهاصلی

BT-003-T2DMمتابولیک1.00019.1 ثانیهاصلی

BT-013-GOUTمتابولیک1.00019.4 ثانیهاصلی

BT-004-NAFLDگوارش‌پزشکی (هپاتولوژی)1.00019.6 ثانیهاصلی

BT-009-VIRHEPگوارش‌پزشکی (هپاتولوژی)0.95023.4 ثانیهبازگشت به حالت پشتیبان

BT-014-GILBERTتله1.00018.9 ثانیهاصلی

BT-005-CKDنفرولوژی1.00017.4 ثانیهاصلی

BT-010-ASCVDقلب‌شناسی1.00019.7 ثانیهاصلی

BT-011-SLEروماتولوژی0.98118.2 ثانیهاصلی

BT-012-VITDغدد درون ریز1.00019.3 ثانیهاصلی

BT-015-HEALTHYتله1.00018.7 ثانیهبازگشت به حالت پشتیبان

پرونده PCOS (BT-008) در ساختار پاسخ، یک زیربخش اجباری را از دست داد — پانزده از شانزده به جای شانزده از شانزده — که امتیاز ساختاری را از 1.000 به 0.963 کاهش داد. پرونده SLE (BT-011) مجموعِ احتمال-توزیعِ کاهش‌یافته‌ای را به‌صورت جزئی برگرداند که امتیاز بالینی را به 0.965 رساند، در حالی که هر کلیدواژه تشخیصی و سیستم امتیازدهی حفظ شد. هیچ‌یک از دو پرونده‌ای که زیرِ حد کامل بودند، تشخیص درست را از دست ندادند.

تجمیع V11 Second Update — 100,000 مورد

در مقیاس جمعیتی، ردیف‌های منفردِ هر مورد برای انسان قابل خواندن نیستند، بنابراین به‌روزرسانی دوم به‌جای جدول 100,000 ردیفی، معیارهای تجمیع‌شده را گزارش می‌کند. تجمیعِ تیترشده در ادامه نشان داده شده است؛ تفکیک‌های هر تخصص و هر برچسب کشوری در گزارش فنی و سپرده Figshare منتشر شده‌اند. یک نمونه تصادفی طبقه‌بندی‌شده از n = 201 پاسخ‌های خام موتور (seed قطعی 20260426) برای بررسی در دایرکتوری GitHub منتشر می‌شود. results/ دایرکتوری برای بررسی.

امتیاز ترکیبی اولیه V11: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 در کوهورت 100,000 موردی

امتیاز ساختاری (میانگین) اولیه V11: 0.998 → Second Update: 1.000 انطباق کامل ساختاری در مقیاس جمعیتی

امتیاز بالینی (میانگین) اولیه V11: 0.998 → Second Update: 0.996 −0.002؛ هیچ موردی خودِ تشخیص را از دست نداد

تأخیر — میانگین (بازه) مقدار اولیه V11: 20.17 ثانیه (17.0–37.0 ثانیه) → به‌روزرسانی دوم: 13.26 ثانیه (9.0–16.94 ثانیه) بهینه‌سازی‌های موتور بین اجراها

مسیر موتور = اصلی مقدار اولیه V11: 12 / 15 → به‌روزرسانی دوم: 100,000 / 100,000 در هیچ نقطه‌ای در طول اجرا، به بازگشت مرحله 2 نیازی نبود

پرچم‌های بیش‌تشخیصِ زیرمجموعه تله مقدار اولیه V11: 0 / 13 → به‌روزرسانی دوم: 0 / 87,412 صفر خطای مثبت کاذب در مقیاس جمعیت (8,723 مورد تله پایش شد)

این‌که امتیاز تیتر چه چیزی به ما نمی‌گوید

یک امتیاز ترکیبی 99.80 درصد تحت این شِمای از پیش ثبت‌شده خاص، بر روی یک هم‌کوهورت مصنوعی 100,000 موردی که 127 برچسب کشور را پوشش می‌دهد، عملکردی نزدیک به سقف را نشان می‌دهد — اما نیازمند چارچوب‌بندی دقیق است. این نتیجه رفتار موتور را در برابر شِمایی توصیف می‌کند که ما در V11 متعهد شدیم در کد منبع قرار گیرد؛ این یک ادعای جهان‌شمول درباره درست‌بودن موتور در هر پنل آزمایش خونی که در دنیای واقعی وجود دارد نیست.

امتیاز می‌گوید موتور الگوهای تشخیصی انتخاب‌شده برای این ارزیابی را به‌درستی در یک گروه در مقیاس جمعیت مدیریت کرده است، با روشی که منتشر شده و قابل بازتولید است. این نمی‌گوید موتور در هر پنل آزمایش خون موجود در دنیای واقعی درست است. این نمی‌گوید موتور باید جایگزین قضاوت بالینی شود. و این نمی‌گوید موتور از سامانه‌های هوش مصنوعی جایگزین بهتر است — تحلیل‌های تطبیقی در برابر موتورهای دیگر عمداً خارج از دامنه این گزارش بوده است.

چیزی که امتیاز واقعاً ثابت می‌کند یک خط پایه است. با عمومی بودن چارچوب و سامانه آزمایشی، نسخه‌های آینده موتور می‌توانند در برابر همان چارچوب ارزیابی شوند — اعمال‌شده بر 15 مورد اولیه V11، گروه 100,000 موردی به‌روزرسانی دوم، یا هر گسترش بعدی — و فاصله بین امتیاز منتشرشده و هر اجرای بعدی، خودِ قابل اندازه‌گیری است. ارزشِ ثبت از پیش همین است: ادعاهای عملکرد را به ادعاهای قابل آزمون تبدیل می‌کند.

چگونه این معیار را در 10 دقیقه بازتولید کنیم

برای بازتولید فقط یک جفت اعتبارنامه API Kantesti و یک محیط با Python 3.10 یا بالاتر لازم است که همراه با requests و reportlab کتابخانه‌ها نصب شده باشند. کل سامانه اجرا یک ماژول پایتونِ واحد و خودبسنده است که تحت مجوز MIT منتشر شده.

💻 GitHub سامانه اجرا با مجوز MIT · پاسخ‌های خام · اجرای مرجع 🔗 DOI در Figshare 10.6084/m9.figshare.32095435 · رکورد علمی معتبر 🎓 ریسرچ‌گیت انتشار 404175463 · V11 به‌روزرسانی دوم · لایه کشف دانشگاهی 📄 Academia.edu مقاله 165956808 · V11 به‌روزرسانی دوم · لایه کشف دانشگاهی

چهار مرحله برای یک اجرای تازه

یک. مخزن را کلون کنید: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. دو. نصب وابستگی‌ها با pip install -r requirements.txt (به‌روزرسانی دوم اضافه می‌کند mysql-connector-python ≥ 8.0 برای بارگذار موردهای SQL). سه. تنظیم KANTESTI_USERNAME و KANTESTI_PASSWORD به‌عنوان متغیرهای محیطی برای API موتور. برای بارگذار موردهای SQL در به‌روزرسانی دوم، همچنین تنظیم کنید KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، و KANTESTI_DB_PASSWORD — لودر از طریق یک نقش فقط‌خواندنی متصل می‌شود (bench_reader) که هیچ امتیازی برای شناسایی جدول‌ها ندارد. چهار. اجرا کنید python benchmark_bloodtest.py --limit 100000 برای اجرای کامل Second-Update، یا python benchmark_bloodtest.py --limit 1000 برای تکرار سریع. خروجی‌ها در ./benchmark_results/: یک کارت امتیاز CSV با ستون‌های برچسب کشوری و تخصص پزشکی، یک تجمیع JSON، یک نمونه تصادفی طبقه‌بندی‌شده از پاسخ خام، و یک گزارش Markdown.

اجراهای مرجع از 23 آوریل 2026 (V11 اولیه، 15 مورد) و 26 آوریل 2026 (V11 Second Update، 100,000 مورد) در results/ پوشه‌ی مخزن نگهداری می‌شوند. یک اجرای تازه یک داشبورد امتیازی جدید با مهر زمانی تولید می‌کند، در حالی که اجراهای مرجع بدون تغییر باقی می‌مانند. اگر اجرای شما نتیجه‌ای به‌طور معنادار متفاوت تولید کرد، لطفاً یک Issue در GitHub با مهر زمانی اجرا و نسخه‌ی موتور بازگردانده‌شده در متادیتای پاسخ باز کنید.

محدودیت‌ها و کارهای آینده

حتی با 100,000 مورد و 127 برچسب کشوری، چهار محدودیت شایسته است به‌صورت صریح مورد اذعان قرار گیرد: کم‌نمونه‌گیریِ برچسب‌های دنباله‌بلند، ارزیابیِ تک‌مرحله‌ای، دامنهِ تک‌موتور، و منشأ تک‌منبعِ داده. هر یک در کارهای پیگیریِ فعال در حال رسیدگی است.

پوشش برچسب‌های دنباله‌بلند. به‌روزرسانی دوم شامل 127 برچسب کشوری است، اما توزیع نامتوازن است—10 برچسب برتر حدود ≈66.4% از موارد را تشکیل می‌دهند، و دنباله بلندِ 97 برچسب اضافی در مجموع ≈7.3% را مشارکت می‌دهد (حدود 7,300 مورد به‌صورت ترکیبی، ~75 مورد برای هر برچسب به‌طور متوسط). بنابراین، ترکیب‌های هر برچسب در این دنباله بلند نسبت به ارقام تیترشده نویزدارتر هستند. اجراهای آینده انتساب برچسب را دوباره متعادل می‌کنند تا تخمین‌های هر برچسب محکم‌تر شود.

ارزیابی تک‌نوبتی. هر مورد در این گروه یک‌بار ارزیابی شد. مدل‌های زبانی بزرگ حتی در دمای نمونه‌برداری پایین نیز دارای نوسان خروجی غیرقابل‌چشم‌پوشی هستند، بنابراین یک پروتکل چند-اجرا با پنج ارزیابی برای هر مورد و گزارش واریانس، گام بعدی طبیعی است — به‌ویژه روی زیرمجموعه‌ی «trap-case»، جایی که سازگاری تحت لرزش نمونه‌برداری بخشی از ادعای ایمنی است.

دامنهٔ تک‌موتوری. این گزارش یک موتور را توصیف می‌کند. تحلیل‌های مقایسه‌ای در برابر سامانه‌های هوش مصنوعی جایگزین در اینجا خارج از دامنه است؛ ممکن است آن‌ها را به‌عنوان یک مطالعه‌ی مستقل جداگانه با روش‌شناسی مناسب، در برابر همان چارچوب دارای مجوز MIT دنبال کنیم.

داده مصنوعی. 100,000 مورد به‌صورت مصنوعی تولید شده‌اند، نه اینکه «موارد مصنوعی» باشند، و نتایج به عملکرد بالینی واقعی منتقل نمی‌شوند. ارزیابی بر روی داده واقعیِ دارای رضایت و با منشأ بیرونی، نیازمند نظارت اخلاقی مناسب است و در چارچوب این بنچمارک مصنوعی قرار نمی‌گیرد.

فراتر از این چهار مورد، اثرگذارترین توسعه‌ی برنامه‌ریزی‌شده، برابری چندزبانه برای هر حوزه است. موتور Kantesti AI به کاربران در 75+ زبان خدمت می‌دهد، و اجرای زیرگروه‌های Second-Update با طبقه‌بندی زبانی (ترکی، آلمانی، اسپانیایی، فرانسوی، ایتالیایی، پرتغالی، عربی، ماندارین) کیفیت خروجی را در زبان‌های پشتیبانی‌شده‌ی موتور کمی‌سازی خواهد کرد. هر تحلیلِ طبقه‌بندی‌شده‌ی زبانی با DOI و شاخه‌ی چارچوب مخصوص به خود منتشر می‌شود.

همان موتور را امتحان کنید که در 100,000 مورد به امتیاز ترکیبی 99.80% دست یافت

پنل آزمایش خون خود را در همان نقطه پایانی تولیدی که در این بنچمارک ارزیابی شده بارگذاری کنید. بیش از ۲ میلیون کاربر در سراسر جهان از موتور هوش مصنوعی Kantesti برای تفسیر بیش از ۱۵٬۰۰۰ نشانگر زیستی در 75+ زبان استفاده می‌کنند.

🔬 نسخه آزمایشی رایگان را امتحان کنید

افزونه کروم فروشگاه اپلیکیشن گوگل پلی

📚 نحوه استناد به این بنچمارک

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). یک معیار فنی خودکارِ از پیش ثبت‌شده و مبتنی بر روبریک برای تفسیر آزمون خونِ موتور Kantesti بر روی 100,000 مورد آزمون مصنوعی — به‌روزرسانی دوم V11 (گزارش فنی V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 ارجاعات روش‌شناختی خارجی

Mentzer, W. C. (1973). افتراق کمبود آهن از ویژگی تالاسمی. The Lancet, 301(7808), 882.

🏥 پاب‌مد

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). معیارهای طبقه‌بندی ۲۰۱۹ لیگ اروپایی علیه روماتیسم / کالج آمریکایی روماتولوژی برای لوپوس اریتماتوز سیستمیک. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 پاب‌مد

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: آزمون توهم در حوزه پزشکی برای مدل‌های زبانی بزرگ. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%امتیاز ترکیبی

100,000موارد امتیازدهی‌شده

127برچسب‌های کشوریِ پوشش‌داده‌شده

0 / 87,412خطاهای مثبتِ کاذبِ دام

سوالات متداول

موتور هوش مصنوعی Kantesti در آزمون‌های مصنوعی چقدر دقیق است؟

بر اساس یک روبریک از پیش ثبت‌شده، روی 100,000 مورد آزمون تولیدشده به‌صورت مصنوعی در هشت حوزه محتوا و 127 برچسب کشوری (به‌روزرسانی دوم V11)، موتور به امتیاز ترکیبی 99.80 درصد رسید؛ بدون هیچ پرچمِ بیش‌تشخیص‌ (hyperdiagnosis) در 87,412 فرصتِ تلهِ پایش‌شده و با میانگین تأخیر پاسخ 13.26 ثانیه. این معیار ترکیبی، انطباق خروجی را روی ورودی‌های مصنوعی می‌سنجد، نه دقت تشخیصی. انتشار اولیه V11 همان روبریک را روی 15 موردِ ساخته‌شده دستی (امتیاز ترکیبی 99.12%) اجرا کرد؛ به‌روزرسانی دوم، روبریک را بدون تغییر بایت‌به‌بایت حفظ می‌کند و آن را به یک گروه مصنوعی بزرگ‌تر گسترش می‌دهد. کارت امتیاز کامل در Figshare تحت DOI 10.6084/m9.figshare.32095435 و در GitHub تحت مجوز MIT منتشر شده است.

آیا موتور هوش مصنوعی Kantesti از نظر بالینی اعتبارسنجی شده است؟

خیر. موتور با یک معیار فنی خودکار (نه اعتبارسنجی بالینی) ارزیابی شده است، نه با یک روبریک که پیش از اجرای اولیه V11 در کد منبع قفل شده بود و برای به‌روزرسانی دوم V11 دقیقاً یکسانِ بایت‌به‌بایت نگه داشته شد. این ارزیابی روی 100,000 مورد تست خونِ مصنوعی در حوزه‌های هماتولوژی، غدد درون‌ریز، پزشکی متابولیک، هپاتولوژی، نفرولوژی، قلب‌ و عروق، روماتولوژی و پزشکی داخلی انجام شد که از 127 برچسب کشوری استخراج شده بودند. نظارت بالینی توسط دکتر توماس کلاین، MD (ORCID 0009-0009-1490-1321) انجام شد؛ هماتولوژیست بالینیِ دارای بورد تخصصی و مدیر پزشکی ارشد در Kantesti AI.

پرونده «دام تشخیص بیش از حد» چیست؟

یک «مورد دامِ بیش‌تشخیص» (hyperdiagnosis trap) یک سناریوی بالینی است که به‌طور خاص برای شناسایی رفتارِ بیش‌ازحدِ تشخیص در موتورهای هوش مصنوعی طراحی شده است. معیارسنجی اولیه V11 از دو مورد از این نوع به‌عنوان اثبات مفهومی روش‌شناختی استفاده کرد: یک هایپربیلی‌روبینمی غیرمستقیمِ ایزوله که با سندرم گیلبرت سازگار است (که تفسیر صحیح، پلی‌مورفیسم خوش‌خیم UGT1A1 است نه هپاتیت یا همولیز) و یک پنل غربالگری کاملاً طبیعی در بزرگسالان (که خروجی صحیح، اطمینان‌بخشی است نه یک پاتولوژی مرزیِ ساختگی). «به‌روزرسانی دوم V11» این روشِ دام را به یک زیرمجموعه اختصاصی از 8,723 مورد گسترش داد و 87,412 فرصتِ پرچم‌گذاریِ بیش‌تشخیصِ پایش‌شده تولید کرد—و نرخ مثبت کاذب موتور همچنان صفر باقی ماند.

آیا ارزیابی موتور هوش مصنوعی Kantesti قابل تکرار است؟

چارچوب کامل ارزیابی تحت مجوز MIT به‌صورت یک ماژول واحدِ خودبسنده پایتون منتشر شده است. اجرای اولیه V11 فقط به یک جفت اعتبارنامه API از Kantesti و پایتون 3.10 یا بالاتر نیاز دارد. «به‌روزرسانی دوم V11» یک بارگذارِ موردِ SQL فقط‌خواندنیِ پارامتردهی‌شده اضافه می‌کند که به اعتبارنامه‌های Kantesti clinical-repository نیاز دارد (یک نقش با هیچ امتیازی برای شناسایی جداول). bench_reader کد، SQLِ بارگذارِ مورد، معیارسنجی (rubric) (بایت‌به‌بایت بین انتشارها یکسان)، و یک نمونه‌گیری تصادفی طبقه‌بندی‌شده از پاسخ‌های خام موتور از هر دو اجرای مرجعِ «V11 اولیه» و «به‌روزرسانی دوم» در دسترس است در github.com/emirhanai/kantesti-blood-test-benchmark و همچنین در Figshare، ResearchGate و Academia.edu بازتاب (mirror) شده است.

موتور هوش مصنوعی Kantesti چگونه کمبود آهن را از ویژگی بتا-تالاسمی تفکیک می‌کند؟

موتور از شاخص منتزر (Mentzer index) استفاده می‌کند که به‌صورت حجم متوسط گلبول‌های قرمز (MCV) تقسیم بر تعداد گلبول‌های قرمز محاسبه می‌شود. شاخص منتزر بالاتر از 13 از کم‌خونی فقر آهن حمایت می‌کند، در حالی که مقدار کمتر از 13 از ویژگی بتا-تالاسمی حمایت می‌کند. در معیارسنجی اولیه V11 هر دو ارائه به‌درستی با محاسبه صریح شاخص منتزر طبقه‌بندی شدند که با زمینه‌سازیِ فریتین، RDW و HbA2 پشتیبانی می‌شد. در «به‌روزرسانی دوم V11» و در کوهورت 100,000 موردی، همین رفتار افتراقی در مقیاس جمعیتی حفظ شد.

داده‌های خام معیارها و کد منبع را از کجا می‌توانم پیدا کنم؟

گزارش فنی در Figshare با DOI 10.6084/m9.figshare.32095435 ثبت شده است (که هم انتشار اولیه V11 و هم «به‌روزرسانی دوم V11» را پوشش می‌دهد)، در ResearchGate با شناسه انتشار 404175463 و در Academia.edu با مقاله 165956808 بازتاب شده است—هر دو با عنوان «به‌روزرسانی دوم V11» و نتایج کوهورت 100,000 مورد به‌روزرسانی شده‌اند—و چارچوب پایتونِ دارای مجوز MIT همراه با همه نتایج اجرای مرجع در github.com/emirhanai/kantesti-blood-test-benchmark قرار دارد. شبکه بازتاب چهارپلتفرمی، دسترسی بلندمدت و انعطاف‌پذیری استنادی را تضمین می‌کند.

چرا پیش‌ثبت‌نام (pre-registration) برای معیارسنجی‌های پزشکیِ مبتنی بر هوش مصنوعی مهم است؟

پیش‌ثبت‌نام از «تنظیم پسینی معیارسنجی» (post-hoc rubric tuning) جلوگیری می‌کند؛ که رایج‌ترین راهی است که شرکت‌ها از طریق آن معیارسنجی‌های تحت مدیریت خود، اعدادشان را باد می‌کنند. با متعهد شدن به معیارسنجی در کد منبع پیش از هر فراخوانی موتور و انتشار عمومی چارچوب، تاریخ‌های نویسندهٔ معیارسنجی در کنترل نسخه‌ها قابل بررسی می‌شود و نتایج موتور نمی‌توانسته معیارهای امتیازدهی را شکل داده باشد.

آیا این معیارسنجی شامل مقایسه با موتورهای هوش مصنوعی دیگر است؟

نه. گزارش V11—هم انتشار اولیه و هم «به‌روزرسانی دوم»—عمداً یک موتور واحد را در برابر یک معیارسنجی ثابت توصیف می‌کند، نه اینکه آن را در برابر سامانه‌های تجاری جایگزین قرار دهد. چارچوب (harness) منبع‌باز تحت مجوز MIT است (اکنون شامل بارگذارِ مورد SQL نیز می‌شود)، بنابراین پژوهشگران مستقل می‌توانند هر موتوری را که انتخاب می‌کنند در برابر همان معیارسنجی و همان بارگذارِ مورد ارزیابی کنند و نتایج خود را منتشر کنند.

آیا موارد بیماران واقعی هستند یا ساختگی؟

همه موارد به‌صورت مصنوعی تولید شده‌اند — 15 مورد ساخته‌شده دستی در انتشار اولیه V11 و 100,000 مورد در به‌روزرسانی دوم. این‌ها «موارد مصنوعی» نیستند: هیچ داده مصنوعی، هیچ فرایند رضایت، و هیچ فرایند ناشناس‌سازی (de-identification) در کار نیست، زیرا هیچ داده شخصی‌ای در این گروه وجود ندارد. هیچ داده شخصی‌ای در سامانه/چارچوبِ منتشرشده (harness)، گزارش فنی، یا مجموعه‌داده‌های منتشرشده وجود ندارد.

⚕️ سلب مسئولیت پزشکی و تعارض منافع

این گزارش معیارسنجی برای اهداف پژوهشی و شفافیت روش‌شناختی است. این گزارش توصیه پزشکی محسوب نمی‌شود، تشخیص نیست و جایگزین مراقبت پزشکی حرفه‌ای نیست؛ هیچ نتیجه‌ای در اینجا نباید برای به‌تعویق انداختن یا اجتناب از مراجعه به پزشک استفاده شود. برای تصمیم‌گیری‌های مربوط به تشخیص و درمان، همواره با یک ارائه‌دهنده واجد صلاحیت مراقبت‌های بهداشتی مشورت کنید. این یک معیارسنجی داخلیِ خوداجرا از موتور اختصاصی شرکت است و به‌طور مستقل اعتبارسنجی یا همتراز-بازبینی نشده است. نمره ترکیبی میزان انطباق با یک معیار ثابت را می‌سنجد (ساختار گزارش، بازیابی کلیدواژه و سیستم امتیازدهی، و تأخیر)؛ و معیار دقت تشخیصی واقعی در دنیای واقعی یا ایمنی بالینی نیست. هر دو نویسنده توسط Kantesti Ltd استخدام شده‌اند و دارای سهام هستند، و موتورِ مورد ارزیابی یک محصول تجاریِ همان سازمان است. این تعارض منافع با پیش‌ثبت معیار در کد منبع، انتشار چارچوب آزمایشی تحت مجوز MIT، و انتشار یک نمونه تصادفی طبقه‌بندی‌شده از پاسخ‌های خام موتور کاهش یافته است.

سیگنال‌های اعتماد E-E-A-T

⭐

تجربه

بیش از ۱۵ سال تجربهٔ بالینی در هماتولوژی و پزشکی آزمایشگاهی، با نظارت بر انتخاب پنل موارد.

📋

تخصص

طراحی معیارسنجیِ پیش‌ثبت‌شده با جریمه‌های صریح برای تشخیص بیش‌ازحد و سیستم‌های امتیازدهی بالینیِ شناخته‌شده (Mentzer، FIB-4، EULAR/ACR، KDIGO).

👤

اقتدارگرایی

نویسندهٔ اصلی: دکتر توماس کلاین، MD (ORCID 0009-0009-1490-1321). پیاده‌سازی توسط جولین امیرهان بولوت، مدیرعامل Kantesti Ltd.

🛡️

قابل اعتماد بودن

چارچوبِ بازتولیدپذیر با مجوز MIT، انتشار پاسخ‌های خام موتور، افشای بازِ تعارض منافع، شبکهٔ بازتاب پژوهشی در چهار پلتفرم.

🏢 شرکت کانتستی ثبت‌شده در انگلستان و ولز · شماره شرکت. 17090423 لندن، بریتانیا · kantesti.net