معیارسنجی آزمایش خون با هوش مصنوعی Kantesti

اعتبارسنجی بالینی معیار از پیش ثبت‌شده نسخه V11 — آوریل 2026 دارای مجوز MIT قابل راستی‌آزمایی توسط همتایان

امتیاز ترکیبی 99.12% در یک چارچوب از پیش ثبت‌شده با صفر خطای مثبتِ بیش‌تشخیص

یک ارزیابی بالینی مستقل و از پیش ثبت‌شده از موتور هوش مصنوعی Kantesti بر روی پرونده‌های ناشناسِ آزمایش خون. معیار ارزیابی (روبریک) پیش از اولین فراخوان موتور در کد منبع ثابت شد، چارچوب ارزیابی دارای مجوز MIT است و هر پاسخ خام منتشر می‌شود.

📖 ~14 دقیقه 📅 23 آوریل 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 منتشر شده: 23 آوریل 2026 🩺 بررسی پزشکی: 23 آوریل 2026 ✅ روبریک از پیش ثبت‌شده 🔓 کد و داده‌های باز

این مطالعه اعتبارسنجی بالینی توسط دکتر توماس کلاین، پزشک, ، مدیر ارشد پزشکی در Kantesti AI، با همکاری جولیان امیرخان بولوت, ، مهندس ارشد هوش مصنوعی و مدیرعامل Kantesti Ltd هدایت شد. روش‌شناسی و روبریک توسط هیئت مشاوره پزشکی هوش مصنوعی کانتستی.

نویسنده اصلی & نظارت بالینی

دکتر توماس کلاین

مدیر ارشد پزشکی، شرکت هوش مصنوعی کانتستی

دکتر توماس کلاین یک متخصص هماتولوژی بالینی دارای بورد و پزشک داخلی است که بیش از 15 سال تجربه در پزشکی آزمایشگاهی دارد. به‌عنوان مدیر ارشد پزشکی در Kantesti AI، او پنل موارد را برای این معیار انتخاب کرد، همه «حقایق تشخیصی» را بررسی کرد و روبریک از پیش ثبت‌شده را پیش از فراخوان اول موتور تأیید نمود.

ORCID 0009-0009-1490-1321 ریسرچ‌گیت گوگل اسکالر

نویسنده همکار & پیاده‌سازی

جولیان امیرخان بولوت

مهندس ارشد هوش مصنوعی & مدیرعامل، Kantesti Ltd

جولین امیرهان بولوت بنیان‌گذار و مدیرعامل Kantesti Ltd است. او چارچوب ارزیابی را طراحی و پیاده‌سازی کرد، یکپارچه‌سازی API را انجام داد، اجرای معیار آوریل 2026 را انجام داد و تجمیع آماری را آماده کرد. بنیان‌گذار پلتفرم از سال 2019.

GitHub درباره کانتستی

⚡ خلاصه سریع نسخه 11 — 23 آوریل 2026

امتیاز ترکیبی 99.12% در 15 مورد واقعیِ ناشناسِ آزمایش خونِ بیمار، در هفت تخصص پزشکی.
صفر خطای مثبتِ بیش‌تشخیص در هر دو حالت تله (سندرم گیلبرت و یک غربالگری کاملاً طبیعی برای بزرگسال).
روبریکِ از پیش ثبت‌شده در کد منبع قبل از اولین فراخوان موتور «فریز» شده است — هیچ تنظیم پسینی ممکن نبود.
شاخص منتزر به‌درستی اعمال شد برای افتراق کم‌خونی فقر آهن از بتا-تالاسمی مینور.
فقط نقطه پایانیِ تولید — بدون مسیریابیِ ممتاز؛ دقیقاً همان‌طور ارزیابی شد که یک مشتریِ پرداخت‌کننده به آن دسترسی دارد.
میانگین تأخیر 20.17 ثانیه در کل مسیر، با 12 مورد از 15 مورد زیر هدف اصلیِ 20 ثانیه.
سامانه آزمایشی با مجوز MIT همراه با هر پاسخ خامِ موتور در GitHub منتشر شد — بازتولید مستقل پشتیبانی می‌شود.
DOI در Figshare: 10.6084/m9.figshare.32095435 · در ResearchGate، Academia.edu و GitHub نیز بازتاب داده شده است.

چرا این معیار وجود دارد و چه چیزی را می‌سنجد

تفسیر آزمایش خون با کمک هوش مصنوعی به‌طور فزاینده‌ای در جریان‌های کاری مصرف‌کننده و بالینی استفاده می‌شود، با این حال چارچوب‌های ارزیابیِ قابل‌تکرارِ متناسب با پزشکی آزمایشگاهی همچنان رایج نیستند. مهم‌ترین پرسش‌ها در این زمینه، پرسش‌هایی نیستند که توسط معیارهای عمومیِ پاسخ‌گویی به پرسش‌های پزشکی پوشش داده می‌شوند: آیا یک موتور می‌تواند وقتی حجم متوسط گلبول‌ها یکسان است، کمبود آهن را از ویژگی تالاسمی جدا کند، آیا سندرم گیلبرت را به‌عنوان هپاتیت بیش‌تشخیص می‌دهد، و آیا در یک پنل غربالگری کاملاً طبیعی، پاتولوژی تولید می‌کند؟

یک پنل منفردِ آزمایش خون معمولاً به اندازه‌ای سیگنال دارد که از چندین تفسیر رقیب پشتیبانی کند، و وظیفهٔ پزشکِ تفسیرکننده این است که آن تفسیرها را در برابر هم وزن‌دهی کند، نه اینکه یک پاسخِ کتاب‌درسی را بازیابی کند. یک موتور که در مواردِ کتاب‌درسی عملکرد خوبی دارد ممکن است در مواردی که بیشترین اهمیت را دارند شکست بخورد: دام‌های تشخیص افتراقی، واریانت‌های خوش‌خیم که به‌تنهایی نگران‌کننده به نظر می‌رسند، و پنل‌های کاملاً طبیعی که دستیارانِ بااعتماد را وسوسه می‌کنند تا «پاتولوژی» تولید کنند.

این بنچمارک دقیقاً برای همین حالت‌های شکست ساخته شد. هر یک از پانزده کیس برای یک ویژگی تشخیصی مشخص انتخاب شد: میکروسیتوز ناشی از کمبود آهن که باید از صفت بتا-تالاسمی با حجم متوسط گلبول قرمز یکسان متمایز نگه داشته شود؛ یک تظاهرِ سندرم ژیلبرت که تنها ناهنجاری آن هایپربیلی‌روبینمیِ ایزولهٔ غیرمستقیم است؛ و یک پنل غربالگری پانزده‌پارامتری که در آن هر آنالیت داخل محدودهٔ مرجع خود قرار دارد. این روبریک به موتورهایی پاداش می‌دهد که هر کیس را بر اساس شرایط خودش می‌خوانند و به موتورهایی که به سراغ یک تشخیصِ بااعتماد می‌روند وقتی چنین تشخیصی توجیه ندارد، امتیاز منفی می‌دهد.

به‌عنوان دکتر توماس کلاین، من پنل کیس را انتخاب کردم چون این الگوهایی هستند که دستیارانِ پزشکیِ آزمایشگاهی بیشترین اشتباه را در آن‌ها مرتکب می‌شوند. حالتِ شکستِ پرهزینه "از دست دادن یک بیماری نادر" نیست—بلکه ساختنِ پاتولوژیِ روتین در بیمارانی است که آن را ندارند. ما اعتبارسنجی پزشکی hub چارچوب گسترده‌تر را توصیف می‌کند؛ این صفحه نتیجهٔ کاربردی آن را روی موتور V11 شرح می‌دهد.

جدیدترین اجرای مرجع — V11 (آوریل 2026)

اجرای مرجعِ آوریل 2026 برای موتور Kantesti AI Engine V11 یک امتیاز ترکیبی تولید کرد: 99.12% در روبریکِ ازپیش‌ثبت‌شدهٔ پانزده‌کیسی. هر دو کیسِ دامِ هایپردیگنوزیس به سقف امتیاز رسیدند. شاخص منتزر به‌درستی در افتراق کمبود آهن در برابر تالاسمی اعمال شد.

ترکیبی 99.12% 15 از 15 کیس امتیاز گرفت

0.998 امتیاز ساختاری

0.998 امتیاز بالینی

20.17 ثانیه میانگین تأخیر

0 / 13 مثبت‌های کاذبِ دام

فرمولِ ترکیبی سه مؤلفه را با هم ترکیب می‌کند: انطباق ساختاری با هفت بخش گزارشِ اجباری و شانزده زیربخشِ اجباری،, دقت بالینی که به‌صورت «بازخوانیِ کلیدواژه‌ها» به‌علاوهٔ «بازخوانیِ سیستم امتیازدهی» و نیز «بررسیِ اعتبارِ توزیع احتمال» اندازه‌گیری می‌شود، و تأخیر پاسخ در برابر هدفِ سطح خدمتِ اصلیِ 20 ثانیه‌ای. تجزیهٔ دقیق در فرمول روبریکِ زیر نشان داده شده است.

ترکیبی = 0.35 × ساختاری + 0.55 × بالینی + 0.10 × تأخیر

0.88 درصد باقی‌مانده از فضای خالی (headroom) تقریباً به‌طور کامل به «کاهش ناشی از تأخیر» (latency loss) تجزیه می‌شود — سه بار فراخوانیِ جایگزینِ فاز 2 با مقدار ترکیبیِ هرکدام 0.05-، حدود 0.60 از کسری 0.88- امتیازی را ایجاد کردند — نه محتوای بالینی. موتور در هیچ‌یک از پانزده مورد، تشخیص صحیح را از دست نداد؛ در مواردی که کوتاهی کرد، این کوتاهی در اقلیت کوچکی از فراخوانی‌ها بود که کمی بیش از هدف 20 ثانیه‌ایِ مسیر اصلی (primary-path) زمان برد.

پانزده مورد در هفت تخصص پزشکی

پنلِ موارد، هفت تخصص را پوشش می‌دهد — هماتولوژی، غدد درون‌ریز، پزشکی متابولیک، کبدشناسی، نفرولوژی، قلب و عروق، روماتولوژی — به‌علاوه دو مورد اختصاصیِ «دام تشخیصِ بیش‌ازحد» (hyperdiagnosis trap). هر مورد، یک پرونده واقعیِ بیمارِ ناشناس‌سازی‌شده است که از مخزن داده‌های بالینی Kantesti تحت رضایت آگاهانه کتبی استخراج شده است.

ناشناس‌سازی با رویکرد Safe Harbor انجام شد: همه شناسه‌های مستقیم حذف یا جایگزین شدند و هر پرونده یک کد مورد داخلیِ معیار در قالب BT-NNN-LABEL دریافت کرد. پردازش مطابق با ماده 9(2)(j) مقررات GDPR برای پژوهش علمی با تدابیر حفاظتی مناسب و نیز مقررات معادل UK GDPR انجام شد. هیچ اطلاعاتی که به‌طور شخصی شناسایی‌کننده باشد، در هیچ‌کجای سامانه منتشرشده، گزارش فنی یا مجموعه‌داده‌های منتشرشده وجود ندارد.

هماتولوژی (3) BT-001، BT-006، BT-007 کم‌خونی فقر آهن · کمبود B12 · بتا-تالاسمی مینور

غدد درون‌ریز (3) BT-002، BT-008، BT-012 تیروئیدیت هاشیموتو · PCOS همراه با مقاومت به انسولین · کمبود شدید ویتامین D

متابولیک (2) BT-003، BT-013 T2DM همراه با سندرم متابولیک · هایپراوریسمی همراه با ریسک نقرس

کبدشناسی (2) BT-004، BT-009 NAFLD / NASH · هپاتیت حاد ویروسی

نفرولوژی · قلب و عروق · روماتولوژی (3) BT-005، BT-010، BT-011 مرحله 3 بیماری مزمن کلیه (CKD) · دیس‌لیپیدمی آترواسکلروززا (آترژنیک) · لوپوس اریتماتوز سیستمیک

موارد دام (2) BT-014، BT-015 سندرم گیلبرت (هایپربیلی‌روبینمی ایزوله غیرمستقیم) · غربالگری بزرگسالان کاملاً طبیعی

چرا این توزیعِ خاص

هماتولوژی به سه مورد می‌رسد، چون افتراقی‌های میکروسیتیک و ماکروسیتیک، پرحجم‌ترین دام‌ها در عملکرد واقعیِ آزمایشگاه هستند. غدد درون‌ریز به سه مورد می‌رسد، چون تظاهرهای بیماریِ هاشیموتو، PCOS و کمبود ویتامین D، شکل‌های تشخیصی متفاوتی را به چالش می‌کشند (محرکِ خودآنتی‌بادی، محرکِ نسبت‌های هورمونی، محرکِ تک‌نشانگر). تخصص‌های تک‌موردی همچنان معنادار هستند، چون هر یک از CKD، ریسک ASCVD و SLE سیستم امتیازدهی مخصوص به خود را دارد که موتور باید آن را فراخوانی کند (به‌ترتیب مرحله‌بندی KDIGO، ریسک ۱۰ساله ASCVD، و معیارهای 2019 EULAR/ACR برای SLE).

روبریک از پیش ثبت‌شده، توضیح داده‌شده

پیش‌ثبت‌نام مهم‌ترین انتخاب روش‌شناختی در این بنچمارک است. هر تشخیصِ مورد انتظار، هر سیستم امتیازدهی بالینی، و هر بخشِ گزارش، پیش از فراخوانی موتور به کد منبع متعهد شده بود قبل از اینکه موتور فراخوانی شود. بنابراین تنظیم پسینیِ روبریک برای خوشایند موتور ممکن نیست.

سه مؤلفه، نمره مرکب را تشکیل می‌دهند. مؤلفه ساختاری ۳۵ درصد سهم دارد و بررسی می‌کند آیا موتور هفت بخش اجباری گزارش را برگردانده است یا نه (سربرگ، خلاصه، یافته‌های کلیدی، افتراق، سیستم‌های امتیازدهی، توصیه‌ها، پیگیری) و شانزده زیربخش اجباریِ داخل آن‌ها. حضورِ بخش‌ها ۴۰ درصد و حضورِ زیربخش‌ها ۶۰ درصد را در محاسبه ساختاری تشکیل می‌دهد.

این مؤلفه بالینی ۵۵ درصد سهم دارد و سه چیز را ترکیب می‌کند: یادآوریِ کلیدواژه‌های تشخیص (۷۰ درصد از زیرنمره بالینی)، یادآوریِ سیستم‌های امتیازدهی (۲۰ درصد — آیا موتور در صورت لزوم Mentzer، FIB-4، HOMA-IR، ریسک ASCVD، مرحله‌بندی KDIGO، و معیارهای EULAR/ACR را محاسبه می‌کند یا نه)، و یک بررسیِ اعتبارِ جمعِ احتمال‌ها (۱۰ درصد — احتمال‌های افتراقی باید در بازه [90، 110] جمع شوند). برای موارد دام، یک جریمهِ صریحِ بیش‌تشخیصی تا 0.30 کم می‌شود که به‌صورت 0.10 به ازای هر پرچمِ پاتولوژیِ ساختگی محاسبه می‌شود و حداکثر تا سه پرچم محدود می‌گردد.

این مؤلفه تأخیر ۱۰ درصد سهم دارد. پاسخِ کمتر از ۲۰ ثانیه نمره کامل 0.10 می‌گیرد، پاسخِ کمتر از ۴۰ ثانیه نمره 0.05 می‌گیرد، و هر چیز کندتر صفر است. هدف ۲۰ ثانیه بازتاب‌دهنده هدف سطح خدمتِ تولید برای سرویسِ primary-path است؛ سقف ۴۰ ثانیه بازتاب‌دهنده بودجه پشتیبانِ فاز ۲ برای فراخوانی‌های سنگینِ موتور است.

چه چیزی را پیش‌ثبت‌نام جلوگیری می‌کند

بنچمارک‌های دست‌اول به‌طور بدنامی اعداد خودشان را با تنظیم پسینیِ روبریک باد می‌کنند. الگو تقریباً همیشه یکسان است: تیم موتور را اجرا می‌کند، می‌بیند کجاها کم‌عملکرد دارد، سپس به‌طور بی‌صدا روبریک را طوری تنظیم می‌کند که نواحیِ کم‌عملکرد کمتر حساب شوند. با متعهد کردن روبریک به کد منبع پیش از اولین فراخوانی موتور و انتشار مهارگر تحت مجوز MIT، این تنظیم در کنترل نسخه قابل مشاهده می‌شود. هر کسی می‌تواند مخزن را کلون کند، تاریخ‌های نویسنده روبریک را بررسی کند، و تأیید کند که نتایج موتور برای شکل‌دهی به امتیازدهی استفاده نشده است.

موارد دامِ بیش‌تشخیص — چرا «زیاد اعلام کردن» حالت شکست واقعی است

بیش‌تشخیصِ تهاجمیِ پاتولوژی در غربالگری‌های طبیعی، یک حالت شکستِ مستند در دستیارهای پزشکیِ مصرف‌کننده است. هزینه‌های پیامدی آن شامل بررسی‌های غیرضروری، اضطراب بیمار و کارِ تشخیصیِ ناشی از مداخله (iatrogenic) است. دو مورد دام در این بنچمارک طراحی شده‌اند تا این حالت شکست را قابل مشاهده و قابل امتیازدهی کنند.

🟡 دام ۱ — BT-014-GILBERT

تظاهر. یک مرد ۲۴ ساله با بیلی‌روبین تام 2.4 mg/dL. کسر مستقیم طبیعی است، ترانس‌آمینازها و آلکالین فسفاتاز در محدوده‌های مرجع خود قرار دارند، رتیکولوسیت‌ها قابل توجه نیستند، و هاپتوگلوبین و LDH همولیز را رد می‌کنند.

تفسیر صحیح. سندرم گیلبرت — یک پلی‌مورفیسم خوش‌خیمِ UGT1A1. تفسیر نباید هپاتیت، سیروز، کم‌خونی همولیتیک یا انسداد صفراوی را فراخوانی کند.

نتیجه V11. مرکب 1.000. هیچ‌یک از شش پرچمِ بیش‌تشخیصِ پایش‌شده به‌عنوان تشخیصِ فعال ظاهر نشدند.

🟡 دام ۲ — BT-015-HEALTHY

تظاهر. یک زن ۳۵ ساله با پنل روتین غربالگریِ پانزده‌پارامتری. هر آنالیت با آسودگی کامل داخل محدوده مرجع خود قرار دارد.

تفسیر صحیح. اطمینان‌بخشی و حفظ سبک زندگی. تفسیر نباید برای اینکه از نظر بالینی مفید به نظر برسد، بیماری‌های مرزی را به‌طور مصنوعی تولید کند.

نتیجه V11. ترکیب 1.000. هیچ‌یک از هفت پرچمِ بیش‌تشخیصِ پایش‌شده—دیابت، کم‌خونی، کم‌کاری تیروئید، دیس‌لیپیدمی، هپاتیت، بیماری کلیه، کمبود—به‌عنوان تشخیص فعال ظاهر نشدند.

در هر دو تله، سیزده پرچمِ بیش‌تشخیصِ پایش‌شده بررسی شد. هیچ‌کدام فعال نشدند. این نتیجه مهم‌ترین چیزی است که برای هر پزشکِ در نظر گرفتن استفاده از یک موتور هوش مصنوعی به‌عنوان ابزار تریاژ یا پیش از ویزیت اهمیت دارد: سیستم جایی که بیماری وجود نداشت، بیماری اختراع نکرد.

شاخص منتزر: تفکیک کمبود آهن از ویژگی تالاسمی

یافته ارزشمند دوم مربوط به جفت شدنِ مورد BT-001 (کم‌خونی فقر آهن) با مورد BT-007 (بتا-تالاسمی مینور) است. هر دو با میکروسیتوز همراه‌اند و یک مانع شناخته‌شده برای طبقه‌بندهای ساده‌لوحانه محسوب می‌شوند. شاخص منتزر که به‌صورت MCV تقسیم بر تعداد RBC محاسبه می‌شود، در فقر آهن بیش از 13 است و در صفت تالاسمی کمتر از 13 می‌افتد.

در BT-001، بیمار یک زن 34 ساله با هموگلوبین 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فریتین 6 ng/mL و TIBC بالا بود. شاخص منتزرِ حدود 17.7 از کمبود مطلق آهن حمایت می‌کند. در BT-007، بیمار یک مرد 28 ساله با میکروسیتوز (MCV 65.8 fL) اما تعداد RBC بالا 6.2، RDW طبیعی، فریتین طبیعی و HbA2 برابر 5.6 درصد بود. شاخص منتزرِ حدود 10.6 به صفت تالاسمی اشاره دارد و HbA2 بالا، بتا-تالاسمی مینور را تأیید می‌کند.

کم‌خونی فقر آهن منتزر > 13 فریتین پایین، TSAT پایین، TIBC بالا، RDW بالا

صفت بتا-تالاسمی منتزر < 13 فریتین طبیعی، RDW طبیعی، HbA2 بالا (>3.5%)، تعداد RBC بالا

هر دو مورد امتیاز 1.000 گرفتند. موتور در هر دو تفسیر، شاخص منتزر را به‌طور صریح فراخوانی کرد و در هر مورد تشخیص درست را برگرداند. این تنها نتیجه‌ای است که در کل بنچمارک از نظر بالینی بیشترین اطمینان را می‌دهد, ، زیرا اشتباه گرفتنِ صفت تالاسمی به‌عنوان فقر آهن باعث تجویز نامناسب مکمل‌های آهن و از دست رفتن فرصت‌های غربالگری خانوادگی می‌شود، و اشتباه گرفتنِ فقر آهن به‌عنوان تالاسمی، درمان جایگزینی ساده را به تأخیر می‌اندازد. ما محدوده فریتین زمینه افتراق گسترده‌تر را توضیح می‌دهیم.

نتایج موردبه‌مورد از اجرای آوریل 2026

دوازده مورد از پانزده مورد به امتیاز ترکیبی سقفِ 1.000 در مسیر اصلی دست یافتند. سه مورد از طریق بازگشتِ فاز 2 سرویس شدند و در نتیجه جایزه تأخیر 0.05 را از دست دادند، در حالی که تمام محتوای بالینی و ساختاری حفظ شد. یک مورد یک زیر‌بخش اجباری را نداشت؛ یکی دیگر مجموعِ توزیع احتمال را به‌طور جزئی کاهش‌یافته برگرداند.

شناسه مورد تخصص ترکیبی تأخیر مسیر

BT-001-IDAهماتولوژی1.00017.8 ثانیهاصلی

BT-006-B12هماتولوژی1.00018.4 ثانیهاصلی

BT-007-THALهماتولوژی1.00017.0 ثانیهاصلی

BT-002-HASHغدد درون ریز0.95037.0 ثانیهبازگشت به حالت پشتیبان

BT-008-PCOSغدد درون ریز0.98718.6 ثانیهاصلی

BT-003-T2DMمتابولیک1.00019.1 ثانیهاصلی

BT-013-GOUTمتابولیک1.00019.4 ثانیهاصلی

BT-004-NAFLDگوارش‌پزشکی (هپاتولوژی)1.00019.6 ثانیهاصلی

BT-009-VIRHEPگوارش‌پزشکی (هپاتولوژی)0.95023.4 ثانیهبازگشت به حالت پشتیبان

BT-014-GILBERTتله1.00018.9 ثانیهاصلی

BT-005-CKDنفرولوژی1.00017.4 ثانیهاصلی

BT-010-ASCVDقلب‌شناسی1.00019.7 ثانیهاصلی

BT-011-SLEروماتولوژی0.98118.2 ثانیهاصلی

BT-012-VITDغدد درون ریز1.00019.3 ثانیهاصلی

BT-015-HEALTHYتله1.00018.7 ثانیهبازگشت به حالت پشتیبان

پرونده PCOS (BT-008) در ساختار پاسخ، یک زیربخش اجباری را از دست داد — پانزده از شانزده به جای شانزده از شانزده — که امتیاز ساختاری را از 1.000 به 0.963 کاهش داد. پرونده SLE (BT-011) مجموعِ احتمال-توزیعِ کاهش‌یافته‌ای را به‌صورت جزئی برگرداند که امتیاز بالینی را به 0.965 رساند، در حالی که هر کلیدواژه تشخیصی و سیستم امتیازدهی حفظ شد. هیچ‌یک از دو پرونده‌ای که زیرِ حد کامل بودند، تشخیص درست را از دست ندادند.

این‌که امتیاز تیتر چه چیزی به ما نمی‌گوید

یک امتیاز ترکیبی 99.12 درصد تحت این چارچوبِ از پیش ثبت‌شده، عملکردی نزدیک به سقف را نشان می‌دهد، اما نیازمند چارچوب‌بندی دقیق است. نتیجه رفتار موتور را در برابر پانزده پرونده ناشناسِ با دقت انتخاب‌شده توصیف می‌کند که هر کدام یک‌بار و در برابر یک چارچوب واحد ارزیابی شده‌اند. ما صریحاً می‌گوییم این عدد چه چیزی را نشان می‌دهد و چه چیزی را ثابت نمی‌کند.

امتیاز می‌گوید موتور V11 الگوهای تشخیصیِ انتخاب‌شده برای این ارزیابی را به‌درستی مدیریت کرده است، با روشی که منتشر شده و قابل بازتولید است. این به این معنا نیست که موتور در هر پنل آزمایش خونِ موجود در دنیای واقعی درست است. همچنین نمی‌گوید موتور باید جایگزین قضاوت بالینی شود. و نیز نمی‌گوید موتور از سامانه‌های جایگزینِ هوش مصنوعی بهتر است — تحلیل‌های مقایسه‌ای با موتورهای دیگر عمداً خارج از دامنه این گزارش بوده‌اند.

چیزی که امتیاز واقعاً ثابت می‌کند یک خط پایه است. با در دسترس بودن چارچوب و سامانه اجرا، نسخه‌های آینده موتور می‌توانند در برابر همان پانزده پرونده ارزیابی شوند و فاصله بین امتیاز منتشرشده و هر اجرای بعدی، خودِ قابل اندازه‌گیری است. ارزشِ ثبتِ از پیش همین است: ادعاهای عملکرد را به ادعاهای قابل آزمون تبدیل می‌کند.

چگونه این معیار را در 10 دقیقه بازتولید کنیم

برای بازتولید فقط یک جفت اعتبارنامه API Kantesti و یک محیط با Python 3.10 یا بالاتر لازم است که همراه با requests و reportlab کتابخانه‌ها نصب شده باشند. کل سامانه اجرا یک ماژول پایتونِ واحد و خودبسنده است که تحت مجوز MIT منتشر شده.

💻 GitHub سامانه اجرا با مجوز MIT · پاسخ‌های خام · اجرای مرجع 🔗 DOI در Figshare 10.6084/m9.figshare.32095435 · رکورد علمی معتبر 🎓 ریسرچ‌گیت انتشار 404175463 · لایه کشف علمی 📄 Academia.edu مقاله 165956808 · لایه کشف علمی

چهار مرحله برای یک اجرای تازه

یک. مخزن را کلون کنید: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. دو. نصب وابستگی‌ها با pip install -r requirements.txt. سه. تنظیم KANTESTI_USERNAME و KANTESTI_PASSWORD به‌عنوان متغیرهای محیطی — اعتبارنامه‌ها در زمان اجرا خوانده می‌شوند و هیچ‌چیز در اسکریپت به‌صورت ثابت (hard-coded) قرار داده نشده است. چهار. اجرا کنید python benchmark_bloodtest.py و چهار خروجی (artefact) تولیدشده در دایرکتوری کاری را بررسی کنید: یک CSV scorecard، یک JSON scorecard، یک خروجی JSON کامل شامل پاسخ‌های خام موتور، و یک گزارش Markdown قابل‌خواندن برای انسان.

اجرای مرجع از 23 آوریل 2026 در results/ قرار دارد. یک اجرای تازه، یک scorecard جدید با زمان‌مهر جدید تولید می‌کند، در حالی‌که اجرای مرجع بدون تغییر باقی می‌ماند. اگر اجرای شما نتیجه‌ای به‌طور معنادار متفاوت تولید کرد، لطفاً یک issue در GitHub با زمان‌مهر اجرای شما و نسخه موتور بازگردانده‌شده در متادیتای پاسخ باز کنید.

محدودیت‌ها و کارهای آینده

چهار محدودیت شایستهٔ اذعان صریح هستند: حجم نمونه، ارزیابی تک‌نوبتی (single-shot)، دامنهٔ تک‌موتوری، و منشأ تک‌منبع داده. هرکدام در کارهای پیگیریِ فعال در حال رسیدگی است.

حجم نمونه. پانزده مورد در هشت دستهٔ تخصصی برای اثبات مفهوم کافی است، اما برای تحلیل زیرگروه‌ها درون یک تخصص کافی نیست. گسترش به پنجاه مورد برنامه‌ریزی شده و شامل پنل‌های انعقادی، غربالگری بدخیمی‌های هماتولوژیک، پنل‌های بارداری و ارائه‌های کودکان خواهد بود.

ارزیابی تک‌نوبتی. هر مورد یک‌بار ارزیابی شد. مدل‌های زبانی بزرگ حتی در دمای نمونه‌برداری پایین نیز نوسان خروجیِ غیرقابل‌چشم‌پوشی نشان می‌دهند، بنابراین یک پروتکل چند-اجرا با پنج ارزیابی برای هر مورد و گزارشِ واریانس، گام طبیعی بعدی است.

دامنهٔ تک‌موتوری. این گزارش یک موتور را توصیف می‌کند. تحلیل‌های مقایسه‌ای در برابر سامانه‌های هوش مصنوعی جایگزین در اینجا خارج از محدوده است؛ ممکن است آن‌ها را به‌عنوان یک مطالعهٔ مستقل جداگانه با روش‌شناسی مناسب دنبال کنیم.

منشأ تک‌منبع داده. پانزده مورد، سوابق واقعیِ ناشناس‌شدهٔ بیماران هستند که از یک مخزن بالینی واحد استخراج شده‌اند. این‌ها یک نمونهٔ گزینش‌شده را نشان می‌دهند و یک نمونه‌گیری تصادفی نمایندهٔ جمعیت نیستند. گسترش ارزیابی به داده‌های چندمرکزی در نقشهٔ راه قرار دارد.

اثرگذارترین گسترش برنامه‌ریزی‌شده، برابری چندزبانه است. موتور هوش مصنوعی Kantesti به کاربران در 75+ زبان خدمات می‌دهد، و اجرای همان چارچوبِ پانزده‌موردی در ترکی، آلمانی، اسپانیایی، فرانسوی و عربی کیفیت خروجی را در زبان‌های پشتیبانی‌شدهٔ موتور اندازه‌گیری خواهد کرد. ما هر اجرای مختص هر زبان را با DOI مخصوص به خود و شاخهٔ چارچوب (harness) منتشر خواهیم کرد.

همان موتوری را امتحان کنید که به امتیاز ترکیبی 99.12% دست یافت

پنل آزمایش خون خود را در همان نقطه پایانی تولیدی که در این بنچمارک ارزیابی شده بارگذاری کنید. بیش از ۲ میلیون کاربر در سراسر جهان از موتور هوش مصنوعی Kantesti برای تفسیر بیش از ۱۵٬۰۰۰ نشانگر زیستی در 75+ زبان استفاده می‌کنند.

🔬 نسخه آزمایشی رایگان را امتحان کنید

افزونه کروم فروشگاه اپلیکیشن گوگل پلی

📚 نحوه استناد به این بنچمارک

BibTeX

@techreport{klein2026kantesti,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {اعتبارسنجی بالینی موتور هوش مصنوعی Kantesti (2.78T)  
                 بر روی ۱۵ پرونده ناشناس‌سازی‌شده آزمایش خون: یک بنچمارک مبتنی بر روبریکِ از پیش ثبت‌شده  
                 شامل موارد «دامِ هایپردیگنوز»  
                 در هفت تخصص پزشکی},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {گزارش فنی},  
  number      = {V11},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). اعتبارسنجی بالینی موتور هوش مصنوعی Kantesti (2.78T) بر روی ۱۵ پرونده ناشناس‌سازی‌شده آزمایش خون: یک بنچمارک مبتنی بر روبریکِ از پیش ثبت‌شده شامل موارد «دامِ هایپردیگنوز» در هفت تخصص پزشکی (گزارش فنی V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 کارهای مرتبط اعتبارسنجی Kantesti

Klein, T. (2025). چارچوب اعتبارسنجی بالینی برای تفسیر آزمایش خون مبتنی بر هوش مصنوعی: روش‌شناسی اعتبارسنجی سه‌گانه کور، معیارهای عملکرد و پروتکل‌های تضمین کیفیت. Kantesti پژوهش پزشکی با هوش مصنوعی.

🎓 ریسرچ‌گیت

📖 ارجاعات روش‌شناختی خارجی

Mentzer, W. C. (1973). افتراق کمبود آهن از ویژگی تالاسمی. The Lancet, 301(7808), 882.

🏥 پاب‌مد

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). معیارهای طبقه‌بندی ۲۰۱۹ لیگ اروپایی علیه روماتیسم / کالج آمریکایی روماتولوژی برای لوپوس اریتماتوز سیستمیک. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 پاب‌مد

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: آزمون توهم در حوزه پزشکی برای مدل‌های زبانی بزرگ. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%امتیاز ترکیبی

15موارد امتیازدهی‌شده

7تخصص‌ها

0خطاهای مثبتِ کاذبِ دام

سوالات متداول

موتور هوش مصنوعی Kantesti در پرونده‌های واقعی آزمایش خون چقدر دقیق است؟

بر اساس یک روبریک از پیش ثبت‌شده برای ۱۵ مورد واقعیِ ناشناس‌سازی‌شده آزمایش خون در هفت تخصص پزشکی، موتور هوش مصنوعی Kantesti نسخه V11 به امتیاز ترکیبی 99.12 درصد دست یافت؛ با صفر مورد «هایپردیگنوز» مثبتِ کاذب در هر دو نوع کیسِ دام و همچنین با میانگین زمان پاسخ 20.17 ثانیه. کارت امتیاز کاملِ هر مورد در Figshare تحت DOI 10.6084/m9.figshare.32095435 و همچنین در GitHub تحت مجوز MIT منتشر شده است.

آیا موتور هوش مصنوعی Kantesti از نظر بالینی اعتبارسنجی شده است؟

بله. این موتور از نظر بالینی در برابر یک معیارسنجی (rubric) که پیش از فراخوانی موتور در کد منبع «فریز» شده بود، اعتبارسنجی بالینی شده است؛ این ارزیابی روی ۱۵ مورد ناشناس‌سازی‌شده از آزمایش خون در حوزه‌های هماتولوژی، غدد درون‌ریز، پزشکی متابولیک، هپاتولوژی، نفرولوژی، قلب و عروق، و روماتولوژی انجام شده است. نظارت بالینی توسط دکتر توماس کلاین، MD (ORCID 0009-0009-1490-1321)، هماتولوژیست بالینی دارای بورد تخصصی و مدیر پزشکی ارشد در Kantesti AI ارائه شد.

پرونده «دام تشخیص بیش از حد» چیست؟

یک «دامِ تشخیص بیش‌ازحد» (hyperdiagnosis trap) یک سناریوی بالینی است که به‌طور خاص برای شناسایی رفتارِ بیش‌ازحدِ تشخیص در موتورهای هوش مصنوعی طراحی شده است. معیارسنجی Kantesti V11 از دو مورد از این نوع استفاده می‌کند. مورد اول یک هایپربیلی‌روبینمی غیرمستقیمِ ایزوله است که با سندرم گیلبرت سازگار است؛ تفسیر صحیح، پلی‌مورفیسم خوش‌خیم UGT1A1 است نه هپاتیت یا همولیز. مورد دوم یک پنل غربالگری کاملاً طبیعی برای بزرگسالان است؛ خروجی صحیح باید اطمینان‌بخشی و حفظ سبک زندگی باشد، نه یک پاتولوژی مرزیِ ساختگی.

آیا ارزیابی موتور هوش مصنوعی Kantesti قابل تکرار است؟

چارچوب ارزیابی کامل تحت مجوز MIT به‌صورت یک ماژول واحدِ خودبسندهٔ پایتون منتشر شده است. برای بازتولید فقط یک جفت اعتبارنامهٔ API از Kantesti و پایتون 3.10 یا بالاتر لازم است. کد، تعاریف موارد (case definitions)، و هر پاسخ خام موتور از اجرای مرجعِ آوریل 2026 در github.com/emirhanai/kantesti-blood-test-benchmark موجود است و در Figshare، ResearchGate و Academia.edu نیز بازتاب (mirrored) شده است.

موتور هوش مصنوعی Kantesti چگونه کمبود آهن را از ویژگی بتا-تالاسمی تفکیک می‌کند؟

موتور از شاخص منتزر (Mentzer index) استفاده می‌کند که به‌صورت حجم متوسط گلبول‌های قرمز (mean corpuscular volume) تقسیم بر تعداد گلبول‌های قرمز محاسبه می‌شود. شاخص منتزر بالاتر از ۱۳ از کم‌خونی فقر آهن حمایت می‌کند، در حالی که مقداری پایین‌تر از ۱۳ از ویژگی بتا-تالاسمی حمایت می‌کند. در معیارسنجی V11 هر دو ارائه به‌درستی با محاسبهٔ صریح شاخص منتزر طبقه‌بندی شدند؛ و این موضوع با زمینهٔ فریتین، RDW و HbA2 پشتیبانی شده است.

داده‌های خام معیارها و کد منبع را از کجا می‌توانم پیدا کنم؟

گزارش فنی در Figshare با DOI 10.6084/m9.figshare.32095435 بارگذاری شده است و در انتشار ResearchGate با شماره 404175463 و مقاله Academia.edu با شماره 165956808 نیز بازتاب شده است؛ همچنین چارچوب پایتونِ دارای مجوز MIT با همهٔ نتایج اجرای مرجع در github.com/emirhanai/kantesti-blood-test-benchmark قرار دارد. شبکهٔ بازتاب چهارپلتفرمی، دسترسی بلندمدت و انعطاف‌پذیری در استناد را تضمین می‌کند.

چرا پیش‌ثبت‌نام (pre-registration) برای معیارسنجی‌های پزشکیِ مبتنی بر هوش مصنوعی مهم است؟

پیش‌ثبت‌نام از «تنظیم پسینی معیارسنجی» (post-hoc rubric tuning) جلوگیری می‌کند؛ که رایج‌ترین راهی است که شرکت‌ها از طریق آن معیارسنجی‌های تحت مدیریت خود، اعدادشان را باد می‌کنند. با متعهد شدن به معیارسنجی در کد منبع پیش از هر فراخوانی موتور و انتشار عمومی چارچوب، تاریخ‌های نویسندهٔ معیارسنجی در کنترل نسخه‌ها قابل بررسی می‌شود و نتایج موتور نمی‌توانسته معیارهای امتیازدهی را شکل داده باشد.

آیا این معیارسنجی شامل مقایسه با موتورهای هوش مصنوعی دیگر است؟

خیر. گزارش V11 عمداً یک موتور واحد را در برابر یک معیارسنجی ثابت توصیف می‌کند، نه اینکه آن را در برابر سامانه‌های تجاری جایگزین قرار دهد. چارچوب (harness) تحت مجوز MIT متن‌باز است؛ بنابراین پژوهشگران مستقل می‌توانند هر موتوری را که انتخاب می‌کنند در برابر همان پانزده مورد و همان معیارسنجی ارزیابی کنند و نتایج خود را منتشر کنند.

آیا موارد بیماران واقعی هستند یا ساختگی؟

پانزده مورد، سوابق واقعی بیماران ناشناس‌سازی‌شده هستند که از مخزن داده‌های بالینی Kantesti تحت رضایت آگاهانهٔ کتبی استخراج شده‌اند. ناشناس‌سازی با رویکرد Safe Harbor انجام شد و همهٔ شناسه‌های مستقیم حذف یا جایگزین شدند. پردازش مطابق با ماده 9(2)(j) مقررات GDPR و مقررات معادل UK GDPR انجام شد. هیچ اطلاعاتی که به‌طور شخصی شناسایی‌کننده باشد در چارچوب منتشرشده، گزارش فنی، یا مجموعه‌داده‌های منتشرشده وجود ندارد.

⚕️ سلب مسئولیت پزشکی و تعارض منافع

این گزارش معیارسنجی صرفاً برای اهداف پژوهشی و شفافیت روش‌شناختی است. این گزارش توصیه پزشکی محسوب نمی‌شود. برای تصمیمات مربوط به تشخیص و درمان، همیشه با یک ارائه‌دهندهٔ واجد شرایط مراقبت‌های بهداشتی مشورت کنید. هر دو نویسنده در Kantesti Ltd استخدام شده‌اند و سهام/منافع مالکیتی دارند، و موتورِ تحت ارزیابی یک محصول تجاریِ متعلق به همان سازمان است. این تعارض منافع با پیش‌ثبت‌نام معیارسنجی در کد منبع، انتشار چارچوب تحت مجوز MIT، و انتشار هر پاسخ خام موتور کاهش یافته است.

سیگنال‌های اعتماد E-E-A-T

⭐

تجربه

بیش از ۱۵ سال تجربهٔ بالینی در هماتولوژی و پزشکی آزمایشگاهی، با نظارت بر انتخاب پنل موارد.

📋

تخصص

طراحی معیارسنجیِ پیش‌ثبت‌شده با جریمه‌های صریح برای تشخیص بیش‌ازحد و سیستم‌های امتیازدهی بالینیِ شناخته‌شده (Mentzer، FIB-4، EULAR/ACR، KDIGO).

👤

اقتدارگرایی

نویسندهٔ اصلی: دکتر توماس کلاین، MD (ORCID 0009-0009-1490-1321). پیاده‌سازی توسط جولین امیرهان بولوت، مدیرعامل Kantesti Ltd.

🛡️

قابل اعتماد بودن

چارچوبِ بازتولیدپذیر با مجوز MIT، انتشار پاسخ‌های خام موتور، افشای بازِ تعارض منافع، شبکهٔ بازتاب پژوهشی در چهار پلتفرم.

🏢 شرکت کانتستی ثبت‌شده در انگلستان و ولز · شماره شرکت. 17090423 لندن، بریتانیا · kantesti.net