معیارسنجی آزمایش خون با هوش مصنوعی Kantesti

اعتبارسنجی بالینی معیار از پیش ثبت‌شده به‌روزرسانی دوم V11 — آوریل 2026 دارای مجوز MIT قابل راستی‌آزمایی توسط همتایان کوهورت 100K · 127 کشور

امتیاز ترکیبی 99.80% بر اساس یک روبریک از پیش ثبت‌شده — به‌روزرسانی دوم V11، کوهورت 100,000 موردی در 127 کشور

یک ارزیابی بالینی مبتنی بر روبریک که از پیش ثبت شده است برای موتور هوش مصنوعی Kantesti بر روی 100,000 مورد واقعیِ ناشناسِ آزمایش خونِ بیماران که از یک مخزن بالینی پشتیبانی‌شده با SQL استخراج شده و دربرگیرنده 127 کشور است. روبریک پیش از انتشار اولیه V11 در کد منبع «فریز» شده و برای این به‌روزرسانی دوم دقیقاً بایت‌به‌بایت حفظ شده است؛ سامانه ارزیابی با مجوز MIT منتشر شده است؛ و یک نمونه‌گیری تصادفی طبقه‌بندی‌شده از پاسخ‌های خام موتور برای بررسی منتشر شده است.

📖 ~14 دقیقه 📅 منتشرشده در 23 آوریل 2026 · به‌روزرسانی‌شده در 26 آوریل 2026 (به‌روزرسانی دوم V11) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 منتشر شده: 23 آوریل 2026 🔄 به‌روزرسانی دوم V11: 26 آوریل 2026 🩺 بررسی پزشکی: 26 آوریل 2026 ✅ روبریک از پیش ثبت‌شده (بایت‌به‌بایت یکسان) 🔓 کد و داده‌های باز

این مطالعه اعتبارسنجی بالینی توسط دکتر توماس کلاین، پزشک, ، مدیر ارشد پزشکی در Kantesti AI، با همکاری جولیان امیرخان بولوت, ، مهندس ارشد هوش مصنوعی و مدیرعامل Kantesti Ltd هدایت شد. روش‌شناسی و روبریک توسط هیئت مشاوره پزشکی هوش مصنوعی کانتستی.

نویسنده اصلی & نظارت بالینی

دکتر توماس کلاین

مدیر ارشد پزشکی، شرکت هوش مصنوعی کانتستی

دکتر توماس کلاین یک متخصص هماتولوژی بالینی دارای بورد و پزشک داخلی است که بیش از 15 سال تجربه در پزشکی آزمایشگاهی دارد. به‌عنوان مدیر ارشد پزشکی در Kantesti AI، او پنل موارد را برای این معیار انتخاب کرد، همه «حقایق تشخیصی» را بررسی کرد و روبریک از پیش ثبت‌شده را پیش از فراخوان اول موتور تأیید نمود.

ORCID 0009-0009-1490-1321 ریسرچ‌گیت گوگل اسکالر

نویسنده همکار & پیاده‌سازی

جولیان امیرخان بولوت

مهندس ارشد هوش مصنوعی & مدیرعامل، Kantesti Ltd

جولین امیرهان بولوت بنیان‌گذار و مدیرعامل Kantesti Ltd است. او سامانه ارزیابی را طراحی و پیاده‌سازی کرد — از جمله بارگذارِ SQL برای موارد که برای به‌روزرسانی دوم V11 اضافه شد — ادغام API را انجام داد، هم اجرای مرجع اولیه V11 و هم اجرای 100,000 موردی به‌روزرسانی دوم V11 را انجام داد و تجمیع آماری را آماده کرد. بنیان‌گذار پلتفرم از سال 2019.

GitHub درباره کانتستی

⚡ خلاصه سریع به‌روزرسانی دوم V11 — 26 آوریل 2026

امتیاز ترکیبی 99.80% بر روی 100,000 مورد واقعیِ ناشناسِ آزمایش خونِ بیماران در هشت تخصص پزشکی و 127 کشور (به‌روزرسانی دوم V11).
صفر خطای مثبتِ بیش‌تشخیص در میان 87,412 فرصتِ پرچم‌گذاریِ trap-case پایش‌شده — همان روش trap-case مانند اجرای اولیه V11، مقیاس‌یافته به سطح جمعیت.
روبریکِ از پیش ثبت‌شده پیش از اجرای اولیه V11 در کد منبع فریز شده و حفظ شده است بایت‌به‌بایت یکسان برای این به‌روزرسانی دوم — هیچ تنظیم پسینی ممکن نبود.
شاخص منتزر به‌درستی اعمال شد برای تفکیک کم‌خونی فقر آهن از بتا-تالاسمی مینور در انتشار اولیه V11؛ رفتار افتراقی در مقیاس جمعیت حفظ شد.
فقط نقطه پایانیِ تولید — بدون مسیریابیِ ممتاز؛ دقیقاً همان‌طور ارزیابی شد که یک مشتریِ پرداخت‌کننده به آن دسترسی دارد.
میانگین تأخیر 13.26 ثانیه انتها-به-انتها (بازه 9.0–16.94 ثانیه)، با اینکه هر 100,000 مورد در مسیر اصلی موتور تکمیل شدند.
کوهورت پشتیبانی‌شده با SQL. موارد در زمان اجرا از طریق یک پرس‌وجوی پارامترگذاری‌شده و فقط‌خواندنی علیه مخزن بالینی Kantesti بارگذاری شدند — ناشناس‌سازی‌شده تحت Safe Harbor، ماده 9(2)(j) در GDPR.
سامانه آزمایشی با مجوز MIT در GitHub با یک نمونه‌گیری تصادفی طبقه‌بندی‌شده (n = 201) از پاسخ‌های خام کامل موتور برای بررسی منتشر شد.
DOI در Figshare: 10.6084/m9.figshare.32095435 · در ResearchGate، Academia.edu و GitHub نیز بازتاب داده شده است.

چرا این معیار وجود دارد و چه چیزی را می‌سنجد

تفسیر آزمایش خون با کمک هوش مصنوعی به‌طور فزاینده‌ای در جریان‌های کاری مصرف‌کننده و بالینی استفاده می‌شود، با این حال چارچوب‌های ارزیابیِ قابل‌تکرارِ متناسب با پزشکی آزمایشگاهی همچنان رایج نیستند. مهم‌ترین پرسش‌ها در این زمینه، پرسش‌هایی نیستند که توسط معیارهای عمومیِ پاسخ‌گویی به پرسش‌های پزشکی پوشش داده می‌شوند: آیا یک موتور می‌تواند وقتی حجم متوسط گلبول‌ها یکسان است، کمبود آهن را از ویژگی تالاسمی جدا کند، آیا سندرم گیلبرت را به‌عنوان هپاتیت بیش‌تشخیص می‌دهد، و آیا در یک پنل غربالگری کاملاً طبیعی، پاتولوژی تولید می‌کند؟

یک پنل منفردِ آزمایش خون معمولاً به اندازه‌ای سیگنال دارد که از چندین تفسیر رقیب پشتیبانی کند، و وظیفهٔ پزشکِ تفسیرکننده این است که آن تفسیرها را در برابر هم وزن‌دهی کند، نه اینکه یک پاسخِ کتاب‌درسی را بازیابی کند. یک موتور که در مواردِ کتاب‌درسی عملکرد خوبی دارد ممکن است در مواردی که بیشترین اهمیت را دارند شکست بخورد: دام‌های تشخیص افتراقی، واریانت‌های خوش‌خیم که به‌تنهایی نگران‌کننده به نظر می‌رسند، و پنل‌های کاملاً طبیعی که دستیارانِ بااعتماد را وسوسه می‌کنند تا «پاتولوژی» تولید کنند.

این بنچمارک دقیقاً برای همین حالت‌های شکست ساخته شد. هر یک از پانزده کیس برای یک ویژگی تشخیصی مشخص انتخاب شد: میکروسیتوز ناشی از کمبود آهن که باید از صفت بتا-تالاسمی با حجم متوسط گلبول قرمز یکسان متمایز نگه داشته شود؛ یک تظاهرِ سندرم ژیلبرت که تنها ناهنجاری آن هایپربیلی‌روبینمیِ ایزولهٔ غیرمستقیم است؛ و یک پنل غربالگری پانزده‌پارامتری که در آن هر آنالیت داخل محدودهٔ مرجع خود قرار دارد. این روبریک به موتورهایی پاداش می‌دهد که هر کیس را بر اساس شرایط خودش می‌خوانند و به موتورهایی که به سراغ یک تشخیصِ بااعتماد می‌روند وقتی چنین تشخیصی توجیه ندارد، امتیاز منفی می‌دهد.

به‌عنوان دکتر توماس کلاین، من پنل کیس را انتخاب کردم چون این الگوهایی هستند که دستیارانِ پزشکیِ آزمایشگاهی بیشترین اشتباه را در آن‌ها مرتکب می‌شوند. حالتِ شکستِ پرهزینه "از دست دادن یک بیماری نادر" نیست—بلکه ساختنِ پاتولوژیِ روتین در بیمارانی است که آن را ندارند. ما اعتبارسنجی پزشکی چارچوب گسترده‌تر را توصیف می‌کند؛ این صفحه، اثبات مفهومی اولیه V11 و به‌روزرسانی دوم V11 را شرح می‌دهد که آن را تا 100,000 مورد ناشناس‌سازی‌شده مقیاس داد؛ مواردی که از یک مخزن بالینی پشتیبانی‌شده با SQL و شامل 127 کشور استخراج شده‌اند — با همان روبریک امتیازدهی، دقیقاً بایت‌به‌بایت، و بدون اجازه برای تنظیم پسینی.

جدیدترین اجرای مرجع — به‌روزرسانی دوم V11 (26 آوریل 2026)

اجرای مرجع به‌روزرسانی دوم V11 در تاریخ 26 آوریل 2026، امتیاز مرکبِ 99.80% بر اساس همان روبریک از پیش ثبت‌شده‌ای که در انتشار اولیه V11 استفاده شده بود، ارزیابی شد بر روی 100,000 مورد ناشناس‌سازی‌شده که از مخزن بالینی پشتیبانی‌شده با SQL Kantesti استخراج شده‌اند و دربرگیرنده 127 کشور و زبان‌های 75+ هستند. هر مورد در مسیر اصلیِ موتور کامل شد؛ فعال‌سازی‌های پرچم بیش‌تشخیصِ موارد تله در سطح 0 / 87,412. باقی ماند. اجرای اولیه V11 در 23 آوریل 2026، 15 موردِ دستیِ گزینش‌شده (امتیاز مرکب 99.12%) را پوشش داد و روبریک را اعتبارسنجی کرد؛ به‌روزرسانی دوم همان روبریک را دقیقاً بایت‌به‌بایت حفظ می‌کند و ارزیابی را به یک کوهورت در مقیاس جمعیتی گسترش می‌دهد.

ترکیبی 99.80% 100,000 از 100,000 مورد امتیاز گرفت

1.000 امتیاز ساختاری

0.996 امتیاز بالینی

13.26 s میانگین تأخیر

0 / 87,412 مثبت‌های کاذبِ دام

فرمولِ ترکیبی سه مؤلفه را با هم ترکیب می‌کند: انطباق ساختاری با هفت بخش گزارشِ اجباری و شانزده زیربخشِ اجباری،, دقت بالینی که به‌صورت «بازخوانیِ کلیدواژه‌ها» به‌علاوهٔ «بازخوانیِ سیستم امتیازدهی» و نیز «بررسیِ اعتبارِ توزیع احتمال» اندازه‌گیری می‌شود، و تأخیر پاسخ در برابر هدف سطح خدمتِ مسیر اصلی. تجزیه دقیق در فرمول روبریکِ زیر نشان داده شده است — هیچ‌یک از این وزن‌ها یا زیر-روبریک‌ها برای به‌روزرسانی دوم تغییر نکردند.

ترکیبی = 0.35 × ساختاری + 0.55 × بالینی + 0.10 × تأخیر

0.20 امتیاز درصدیِ باقی‌مانده از فضای اطمینان، تقریباً تقریباً به طور کامل به زیر-امتیاز بالینی تجزیه می‌شود — بخش کوچکی از موارد (عمدتاً در هپاتولوژی و روماتولوژی) یک کلیدواژهِ مورد انتظارِ سیستم امتیازدهی را که باید در تفسیر موتور وجود می‌داشت، نداشتند، با اینکه محتوای تشخیصی درست بود. هیچ موردی در کوهورت 100,000 تاییِ به‌روزرسانی دوم، خودِ تشخیص را از دست نداد. تأخیر از میانگین 20.17 ثانیه در انتشار اولیه V11 به 13.26 ثانیه در به‌روزرسانی دوم بهبود یافت؛ که نشان‌دهنده بهینه‌سازی‌های موتورِ تولیدی بین دو اجرا است؛ روبریک، کد امتیازدهی و نقطه پایانی API بدون تغییر مانده‌اند.

امتیازهای مرکب برحسب کشور از 0.9971 (هند) تا 0.9985 (سوئیس) در میان 30 کشورِ پرتکرارتر متغیر بود. دنباله بلندِ 97 کشورِ دیگر (≈7,300 مورد به‌صورت ترکیبی) هیچ افتِ سیستماتیکی نشان نداد. مشارکت‌کنندگان برتر بر اساس تعداد موارد عبارت بودند از: ایالات متحده (10,500)، برزیل (9,500)، اسپانیا (9,000)، ایتالیا (8,000)، آلمان (7,800)، فرانسه (7,400)، پرتغال (5,800)، Türkiye (3,400)، بریتانیا (2,900) و مکزیک (2,500).

از 15 مورد تا 100,000: تکامل کوهورت در 127 کشور

پنل موردیِ اصلی V11 هفت تخصص را پوشش می‌داد — هماتولوژی، غدد درون‌ریز، پزشکی متابولیک، هپاتولوژی، نفرولوژی، قلب‌وعروق، روماتولوژی — به‌علاوه دو مورد تله اختصاصیِ بیش‌تشخیص؛ و هر مورد یک پرونده واقعیِ بیمارِ ناشناس‌سازی‌شده بود که از مخزن داده بالینی Kantesti تحت رضایت آگاهانه کتبی استخراج شده بود. به‌روزرسانی دوم V11 ارزیابی را به 100,000 مورد ناشناس‌سازی‌شده در 127 کشور, گسترش می‌دهد که در هشت تخصص توزیع شده‌اند (هفت تخصص اصلی به‌علاوه یک سطل اختصاصیِ پزشکی داخلی که زیرمجموعه تله را جذب می‌کند). همان روبریک امتیازدهی در هر دو اجرا دقیقاً بایت‌به‌بایت اعمال می‌شود.

ناشناس‌سازی تحت رویکرد Safe Harbor انجام شد: همه شناسه‌های مستقیم حذف یا جایگزین شدند، و هر رکورد به یک کد مورد داخلیِ معیار در قالب BT-NNN-LABEL (V11 اولیه) یا یک شناسه پایدارِ ناشناس‌سازی‌شده case_uid برای به‌روزرسانی دوم اختصاص داده شد. پردازش مطابق با ماده 9(2)(j) مقررات GDPR برای پژوهش علمی با تدابیر حفاظتی مناسب و نیز مقررات معادل UK GDPR انجام شد. هیچ اطلاعاتی که به‌طور شخصی شناسایی‌کننده باشد، در هیچ‌کجای سامانه منتشرشده، گزارش فنی یا مجموعه‌داده‌های منتشرشده وجود ندارد.

انتشار اولیه V11 — 15 موردِ دستیِ گزینش‌شده

پنل اصلی پرونده‌های V11 توسط دکتر توماس کلاین به‌صورت دستی گزینش شد تا الگوهای تشخیصی‌ای را تمرین دهد که دستیاران پزشکی آزمایشگاهی بیشترین اشتباه را در آن‌ها مرتکب می‌شوند. هر یک از پانزده پرونده برای یک ویژگی تشخیصی مشخص انتخاب شد که در ادامه آمده است.

هماتولوژی (3) BT-001، BT-006، BT-007 کم‌خونی فقر آهن · کمبود B12 · بتا-تالاسمی مینور

غدد درون‌ریز (3) BT-002، BT-008، BT-012 تیروئیدیت هاشیموتو · PCOS همراه با مقاومت به انسولین · کمبود شدید ویتامین D

متابولیک (2) BT-003، BT-013 T2DM همراه با سندرم متابولیک · هایپراوریسمی همراه با ریسک نقرس

کبدشناسی (2) BT-004، BT-009 NAFLD / NASH · هپاتیت حاد ویروسی

نفرولوژی · قلب و عروق · روماتولوژی (3) BT-005، BT-010، BT-011 مرحله 3 بیماری مزمن کلیه (CKD) · دیس‌لیپیدمی آترواسکلروززا (آترژنیک) · لوپوس اریتماتوز سیستمیک

موارد دام (2) BT-014، BT-015 سندرم گیلبرت (هایپربیلی‌روبینمی ایزوله غیرمستقیم) · غربالگری بزرگسالان کاملاً طبیعی

چرا این توزیعِ خاص

هماتولوژی به سه مورد می‌رسد، چون افتراقی‌های میکروسیتیک و ماکروسیتیک، پرحجم‌ترین دام‌ها در عملکرد واقعیِ آزمایشگاه هستند. غدد درون‌ریز به سه مورد می‌رسد، چون تظاهرهای بیماریِ هاشیموتو، PCOS و کمبود ویتامین D، شکل‌های تشخیصی متفاوتی را به چالش می‌کشند (محرکِ خودآنتی‌بادی، محرکِ نسبت‌های هورمونی، محرکِ تک‌نشانگر). تخصص‌های تک‌موردی همچنان معنادار هستند، چون هر یک از CKD، ریسک ASCVD و SLE سیستم امتیازدهی مخصوص به خود را دارد که موتور باید آن را فراخوانی کند (به‌ترتیب مرحله‌بندی KDIGO، ریسک ۱۰ساله ASCVD، و معیارهای 2019 EULAR/ACR برای SLE).

به‌روزرسانی دوم V11 — 100,000 پرونده ناشناس‌سازی‌شده در 127 کشور

به‌روزرسانی دوم، متن پایتونِ اصلیِ V11 با 15 پروندهِ ثابت را با یک پرس‌وجوی SQL پارامترده و فقط‌خواندنی علیه مخزن بالینی Kantesti جایگزین می‌کند (anonymised_blood_panels). این پرس‌وجو بر اساس consent_research = 1 AND released_for_benchmark = 1 فیلتر می‌کند و برای شفافیت، در بالای هر اجرای بنچمارک چاپ می‌شود. توزیع گروه نمونه برحسب تخصص در ادامه نشان داده شده است.

غدد درون ریز 23,900 پرونده (23.9%) تیروئید، PCOS، کمبود ویتامین D، محور گونادی، هیپوفیز

پزشکی متابولیک 21,900 پرونده (21.9%) T2DM، سندرم متابولیک، پنل‌های چربی، هایپراوریسمی

هماتولوژی 15,400 پرونده (15.4%) افتراقی میکروسیتیک و ماکروسیتیک، B12/فولات، مطالعات آهن

گوارش‌پزشکی (هپاتولوژی) 12,400 پرونده (12.4%) NAFLD/NASH، هپاتیت ویروسی، FIB-4، کلستاز

پزشکی داخلی (از جمله زیرمجموعه trap) 9,000 پرونده (9.0%) ارائه‌های ترکیبی و 8,723 پرونده اختصاصیِ trap برای هایپرتشخیص

قلب‌شناسی 7,500 پرونده (7.5%) ریسک ASCVD، دیس‌لیپیدمی آتروم‌زا، hs-CRP

روماتولوژی 6,000 پرونده (6.0%) SLE، RA، واسکولیت، پنل‌های خودآنتی‌بادی (معیارهای EULAR/ACR)

نفرولوژی 4,000 پرونده (4.0%) مرحله‌بندی CKD (KDIGO)، روندهای eGFR، اختلالات الکترولیتی

توزیع جغرافیایی — ۱۰ کشور برتر

این کوهورت در ۱۲۷ کشور (ISO 3166-1 alpha-2) گسترده است. اروپا 57.7%، قاره‌های آمریکا 25.4%، آسیا-اقیانوسیه 6.2%، ورودی‌های خاورمیانه/آفریقا 3.4% و یک دنباله بلند از ۹۷ کشور دیگر که مجموعاً حدود 7.3% را تشکیل می‌دهند. ده مشارکت‌کننده بزرگ عبارت‌اند از: ایالات متحده (10,500)، برزیل (9,500)، اسپانیا (9,000)، ایتالیا (8,000)، آلمان (7,800)، فرانسه (7,400)، پرتغال (5,800)، Türkiye (3,400)، بریتانیا (2,900) و مکزیک (2,500). امتیازهای ترکیبیِ هر کشور از 0.9971 (هند) تا 0.9985 (سوئیس) متغیر بود.

روبریک از پیش ثبت‌شده، توضیح داده‌شده

پیش‌ثبت‌نام مهم‌ترین انتخاب روش‌شناختی در این بنچمارک است. هر تشخیصِ مورد انتظار، هر سیستم امتیازدهی بالینی، و هر بخشِ گزارش، پیش از فراخوانی موتور به کد منبع متعهد شده بود قبل از اینکه موتور فراخوانی شود. بنابراین تنظیم پسینیِ روبریک برای خوشایند موتور ممکن نیست.

سه مؤلفه، نمره مرکب را تشکیل می‌دهند. مؤلفه ساختاری ۳۵ درصد سهم دارد و بررسی می‌کند آیا موتور هفت بخش اجباری گزارش را برگردانده است یا نه (سربرگ، خلاصه، یافته‌های کلیدی، افتراق، سیستم‌های امتیازدهی، توصیه‌ها، پیگیری) و شانزده زیربخش اجباریِ داخل آن‌ها. حضورِ بخش‌ها ۴۰ درصد و حضورِ زیربخش‌ها ۶۰ درصد را در محاسبه ساختاری تشکیل می‌دهد.

این مؤلفه بالینی ۵۵ درصد سهم دارد و سه چیز را ترکیب می‌کند: یادآوریِ کلیدواژه‌های تشخیص (۷۰ درصد از زیرنمره بالینی)، یادآوریِ سیستم‌های امتیازدهی (۲۰ درصد — آیا موتور در صورت لزوم Mentzer، FIB-4، HOMA-IR، ریسک ASCVD، مرحله‌بندی KDIGO، و معیارهای EULAR/ACR را محاسبه می‌کند یا نه)، و یک بررسیِ اعتبارِ جمعِ احتمال‌ها (۱۰ درصد — احتمال‌های افتراقی باید در بازه [90، 110] جمع شوند). برای موارد دام، یک جریمهِ صریحِ بیش‌تشخیصی تا 0.30 کم می‌شود که به‌صورت 0.10 به ازای هر پرچمِ پاتولوژیِ ساختگی محاسبه می‌شود و حداکثر تا سه پرچم محدود می‌گردد.

این مؤلفه تأخیر ۱۰ درصد سهم دارد. پاسخِ کمتر از ۲۰ ثانیه نمره کامل 0.10 می‌گیرد، پاسخِ کمتر از ۴۰ ثانیه نمره 0.05 می‌گیرد، و هر چیز کندتر صفر است. هدف ۲۰ ثانیه بازتاب‌دهنده هدف سطح خدمتِ تولید برای سرویسِ primary-path است؛ سقف ۴۰ ثانیه بازتاب‌دهنده بودجه پشتیبانِ فاز ۲ برای فراخوانی‌های سنگینِ موتور است.

چه چیزی را پیش‌ثبت‌نام جلوگیری می‌کند

بنچمارک‌های دست‌اول به‌طور بدنامی اعداد خودشان را با تنظیم پسینیِ روبریک باد می‌کنند. الگو تقریباً همیشه یکسان است: تیم موتور را اجرا می‌کند، می‌بیند کجاها کم‌عملکرد دارد، سپس به‌طور بی‌صدا روبریک را طوری تنظیم می‌کند که نواحیِ کم‌عملکرد کمتر حساب شوند. با متعهد کردن روبریک به کد منبع پیش از اولین فراخوانی موتور و انتشار مهارگر تحت مجوز MIT، این تنظیم در کنترل نسخه قابل مشاهده می‌شود. هر کسی می‌تواند مخزن را کلون کند، تاریخ‌های نویسنده روبریک را بررسی کند، و تأیید کند که نتایج موتور برای شکل‌دهی به امتیازدهی استفاده نشده است.

موارد دامِ بیش‌تشخیص — چرا «زیاد اعلام کردن» حالت شکست واقعی است

بیش‌تشخیصِ تهاجمیِ پاتولوژی در غربالگری‌های طبیعی، یک حالت شکستِ مستند در دستیارهای پزشکیِ مصرف‌کننده است. هزینه‌های پیامدی آن شامل بررسی‌های غیرضروری، اضطراب بیمار و کارِ تشخیصیِ ناشی از مداخله (iatrogenic) است. دو مورد دام در این بنچمارک طراحی شده‌اند تا این حالت شکست را قابل مشاهده و قابل امتیازدهی کنند.

🟡 دام ۱ — BT-014-GILBERT

تظاهر. یک مرد ۲۴ ساله با بیلی‌روبین تام 2.4 mg/dL. کسر مستقیم طبیعی است، ترانس‌آمینازها و آلکالین فسفاتاز در محدوده‌های مرجع خود قرار دارند، رتیکولوسیت‌ها قابل توجه نیستند، و هاپتوگلوبین و LDH همولیز را رد می‌کنند.

تفسیر صحیح. سندرم گیلبرت — یک پلی‌مورفیسم خوش‌خیمِ UGT1A1. تفسیر نباید هپاتیت، سیروز، کم‌خونی همولیتیک یا انسداد صفراوی را فراخوانی کند.

نتیجه V11. مرکب 1.000. هیچ‌یک از شش پرچمِ بیش‌تشخیصِ پایش‌شده به‌عنوان تشخیصِ فعال ظاهر نشدند.

🟡 دام ۲ — BT-015-HEALTHY

تظاهر. یک زن ۳۵ ساله با پنل روتین غربالگریِ پانزده‌پارامتری. هر آنالیت با آسودگی کامل داخل محدوده مرجع خود قرار دارد.

تفسیر صحیح. اطمینان‌بخشی و حفظ سبک زندگی. تفسیر نباید برای اینکه از نظر بالینی مفید به نظر برسد، بیماری‌های مرزی را به‌طور مصنوعی تولید کند.

نتیجه V11. ترکیب 1.000. هیچ‌یک از هفت پرچمِ بیش‌تشخیصِ پایش‌شده—دیابت، کم‌خونی، کم‌کاری تیروئید، دیس‌لیپیدمی، هپاتیت، بیماری کلیه، کمبود—به‌عنوان تشخیص فعال ظاهر نشدند.

در هر دو تله، سیزده پرچمِ بیش‌تشخیصِ پایش‌شده بررسی شد. هیچ‌کدام فعال نشدند. این نتیجه مهم‌ترین چیزی است که برای هر پزشکِ در نظر گرفتن استفاده از یک موتور هوش مصنوعی به‌عنوان ابزار تریاژ یا پیش از ویزیت اهمیت دارد: سیستم جایی که بیماری وجود نداشت، بیماری اختراع نکرد.

شاخص منتزر: تفکیک کمبود آهن از ویژگی تالاسمی

یافته ارزشمند دوم مربوط به جفت شدنِ مورد BT-001 (کم‌خونی فقر آهن) با مورد BT-007 (بتا-تالاسمی مینور) است. هر دو با میکروسیتوز همراه‌اند و یک مانع شناخته‌شده برای طبقه‌بندهای ساده‌لوحانه محسوب می‌شوند. شاخص منتزر که به‌صورت MCV تقسیم بر تعداد RBC محاسبه می‌شود، در فقر آهن بیش از 13 است و در صفت تالاسمی کمتر از 13 می‌افتد.

در BT-001، بیمار یک زن 34 ساله با هموگلوبین 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فریتین 6 ng/mL و TIBC بالا بود. شاخص منتزرِ حدود 17.7 از کمبود مطلق آهن حمایت می‌کند. در BT-007، بیمار یک مرد 28 ساله با میکروسیتوز (MCV 65.8 fL) اما تعداد RBC بالا 6.2، RDW طبیعی، فریتین طبیعی و HbA2 برابر 5.6 درصد بود. شاخص منتزرِ حدود 10.6 به صفت تالاسمی اشاره دارد و HbA2 بالا، بتا-تالاسمی مینور را تأیید می‌کند.

کم‌خونی فقر آهن منتزر > 13 فریتین پایین، TSAT پایین، TIBC بالا، RDW بالا

صفت بتا-تالاسمی منتزر < 13 فریتین طبیعی، RDW طبیعی، HbA2 بالا (>3.5%)، تعداد RBC بالا

هر دو مورد امتیاز 1.000 گرفتند. موتور در هر دو تفسیر، شاخص منتزر را به‌طور صریح فراخوانی کرد و در هر مورد تشخیص درست را برگرداند. این تنها نتیجه‌ای است که در کل بنچمارک از نظر بالینی بیشترین اطمینان را می‌دهد, ، زیرا اشتباه گرفتنِ صفت تالاسمی به‌عنوان فقر آهن باعث تجویز نامناسب مکمل‌های آهن و از دست رفتن فرصت‌های غربالگری خانوادگی می‌شود، و اشتباه گرفتنِ فقر آهن به‌عنوان تالاسمی، درمان جایگزینی ساده را به تأخیر می‌اندازد. ما محدوده فریتین زمینه افتراق گسترده‌تر را توضیح می‌دهیم.

نتایج هر مورد از اجرای مرجع اولیه V11 (۲۳ آوریل ۲۰۲۶)

اجرای مرجع اصلی V11 روی کوهورت اثبات مفهوم ۱۵ موردی، به‌عنوان پایه روش‌شناختی Second Update عمل می‌کند: هر یک از جزئیاتِ هر مورد در ادامه نشان می‌دهد rubric چگونه یک پاسخ واقعیِ موتور را مدیریت می‌کند. دوازده مورد از پانزده مورد به سقف امتیاز ترکیبی 1.000 در مسیر اصلی رسیدند؛ سه مورد از طریق fallback فاز ۲ سرویس شدند و در نتیجه جایزه تأخیر 0.05 را از دست دادند، اما تمام محتوای بالینی و ساختاری حفظ شد. یک مورد یک زیر‌بخش اجباری را نداشت؛ یکی دیگر مجموعِ توزیع احتمال را اندکی کاهش‌یافته برگرداند.

شناسه مورد تخصص ترکیبی تأخیر مسیر

BT-001-IDAهماتولوژی1.00017.8 ثانیهاصلی

BT-006-B12هماتولوژی1.00018.4 ثانیهاصلی

BT-007-THALهماتولوژی1.00017.0 ثانیهاصلی

BT-002-HASHغدد درون ریز0.95037.0 ثانیهبازگشت به حالت پشتیبان

BT-008-PCOSغدد درون ریز0.98718.6 ثانیهاصلی

BT-003-T2DMمتابولیک1.00019.1 ثانیهاصلی

BT-013-GOUTمتابولیک1.00019.4 ثانیهاصلی

BT-004-NAFLDگوارش‌پزشکی (هپاتولوژی)1.00019.6 ثانیهاصلی

BT-009-VIRHEPگوارش‌پزشکی (هپاتولوژی)0.95023.4 ثانیهبازگشت به حالت پشتیبان

BT-014-GILBERTتله1.00018.9 ثانیهاصلی

BT-005-CKDنفرولوژی1.00017.4 ثانیهاصلی

BT-010-ASCVDقلب‌شناسی1.00019.7 ثانیهاصلی

BT-011-SLEروماتولوژی0.98118.2 ثانیهاصلی

BT-012-VITDغدد درون ریز1.00019.3 ثانیهاصلی

BT-015-HEALTHYتله1.00018.7 ثانیهبازگشت به حالت پشتیبان

پرونده PCOS (BT-008) در ساختار پاسخ، یک زیربخش اجباری را از دست داد — پانزده از شانزده به جای شانزده از شانزده — که امتیاز ساختاری را از 1.000 به 0.963 کاهش داد. پرونده SLE (BT-011) مجموعِ احتمال-توزیعِ کاهش‌یافته‌ای را به‌صورت جزئی برگرداند که امتیاز بالینی را به 0.965 رساند، در حالی که هر کلیدواژه تشخیصی و سیستم امتیازدهی حفظ شد. هیچ‌یک از دو پرونده‌ای که زیرِ حد کامل بودند، تشخیص درست را از دست ندادند.

تجمیع V11 Second Update — 100,000 مورد

در مقیاس جمعیتی، ردیف‌های هر مورد برای انسان خوانا نیستند، بنابراین Second Update به‌جای یک جدول 100,000 ردیفی، معیارهای تجمیعی گزارش می‌کند. تجمیعِ تیترشده در ادامه نشان داده شده است؛ تفکیک‌های مربوط به هر تخصص و هر کشور در گزارش فنی و سپرده Figshare منتشر می‌شوند. یک نمونه تصادفی طبقه‌بندی‌شده از n = 201 پاسخ‌های خام موتور (seed قطعی 20260426) برای بررسی در دایرکتوری GitHub منتشر می‌شود. results/ دایرکتوری برای بررسی.

امتیاز ترکیبی اولیه V11: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 در کوهورت 100,000 موردی

امتیاز ساختاری (میانگین) اولیه V11: 0.998 → Second Update: 1.000 انطباق کامل ساختاری در مقیاس جمعیتی

امتیاز بالینی (میانگین) اولیه V11: 0.998 → Second Update: 0.996 −0.002؛ هیچ موردی خودِ تشخیص را از دست نداد

تأخیر — میانگین (بازه) مقدار اولیه V11: 20.17 ثانیه (17.0–37.0 ثانیه) → به‌روزرسانی دوم: 13.26 ثانیه (9.0–16.94 ثانیه) بهینه‌سازی‌های موتور بین اجراها

مسیر موتور = اصلی مقدار اولیه V11: 12 / 15 → به‌روزرسانی دوم: 100,000 / 100,000 در هیچ نقطه‌ای در طول اجرا، به بازگشت مرحله 2 نیازی نبود

پرچم‌های بیش‌تشخیصِ زیرمجموعه تله مقدار اولیه V11: 0 / 13 → به‌روزرسانی دوم: 0 / 87,412 صفر خطای مثبت کاذب در مقیاس جمعیت (8,723 مورد تله پایش شد)

این‌که امتیاز تیتر چه چیزی به ما نمی‌گوید

یک امتیاز ترکیبی 99.80 درصد تحت این چارچوب از پیش ثبت‌شده خاص، در یک گروه ناشناس 100,000 موردی که 127 کشور را پوشش می‌دهد، عملکردی نزدیک به سقف را نشان می‌دهد — اما نیازمند چارچوب‌بندی دقیق است. این نتیجه رفتار موتور را در برابر چارچوبی توصیف می‌کند که ما متعهد شدیم کد منبع در V11 را بر اساس آن ارائه کند؛ این یک ادعای فراگیر درباره درستی موتور در هر پنل آزمایش خون موجود در دنیای واقعی نیست.

امتیاز می‌گوید موتور الگوهای تشخیصی انتخاب‌شده برای این ارزیابی را به‌درستی در یک گروه در مقیاس جمعیت مدیریت کرده است، با روشی که منتشر شده و قابل بازتولید است. این نمی‌گوید موتور در هر پنل آزمایش خون موجود در دنیای واقعی درست است. این نمی‌گوید موتور باید جایگزین قضاوت بالینی شود. و این نمی‌گوید موتور از سامانه‌های هوش مصنوعی جایگزین بهتر است — تحلیل‌های تطبیقی در برابر موتورهای دیگر عمداً خارج از دامنه این گزارش بوده است.

چیزی که امتیاز واقعاً ثابت می‌کند یک خط پایه است. با عمومی بودن چارچوب و سامانه آزمایشی، نسخه‌های آینده موتور می‌توانند در برابر همان چارچوب ارزیابی شوند — اعمال‌شده بر 15 مورد اولیه V11، گروه 100,000 موردی به‌روزرسانی دوم، یا هر گسترش بعدی — و فاصله بین امتیاز منتشرشده و هر اجرای بعدی، خودِ قابل اندازه‌گیری است. ارزشِ ثبت از پیش همین است: ادعاهای عملکرد را به ادعاهای قابل آزمون تبدیل می‌کند.

چگونه این معیار را در 10 دقیقه بازتولید کنیم

برای بازتولید فقط یک جفت اعتبارنامه API Kantesti و یک محیط با Python 3.10 یا بالاتر لازم است که همراه با requests و reportlab کتابخانه‌ها نصب شده باشند. کل سامانه اجرا یک ماژول پایتونِ واحد و خودبسنده است که تحت مجوز MIT منتشر شده.

💻 GitHub سامانه اجرا با مجوز MIT · پاسخ‌های خام · اجرای مرجع 🔗 DOI در Figshare 10.6084/m9.figshare.32095435 · رکورد علمی معتبر 🎓 ریسرچ‌گیت انتشار 404175463 · V11 به‌روزرسانی دوم · لایه کشف دانشگاهی 📄 Academia.edu مقاله 165956808 · V11 به‌روزرسانی دوم · لایه کشف دانشگاهی

چهار مرحله برای یک اجرای تازه

یک. مخزن را کلون کنید: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. دو. نصب وابستگی‌ها با pip install -r requirements.txt (به‌روزرسانی دوم اضافه می‌کند mysql-connector-python ≥ 8.0 برای بارگذار موردهای SQL). سه. تنظیم KANTESTI_USERNAME و KANTESTI_PASSWORD به‌عنوان متغیرهای محیطی برای API موتور. برای بارگذار موردهای SQL در به‌روزرسانی دوم، همچنین تنظیم کنید KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، و KANTESTI_DB_PASSWORD — لودر از طریق یک نقش فقط‌خواندنی متصل می‌شود (bench_reader) که هیچ امتیازی برای شناسایی جدول‌ها ندارد. چهار. اجرا کنید python benchmark_bloodtest.py --limit 100000 برای اجرای کامل Second-Update، یا python benchmark_bloodtest.py --limit 1000 برای تکرار سریع. خروجی‌ها در ./benchmark_results/: یک داشبورد امتیازی CSV با ستون‌های مربوط به هر کشور و هر تخصص، یک تجمیع JSON، یک نمونه پاسخ خام طبقه‌بندی‌شده تصادفی، و یک گزارش Markdown.

اجراهای مرجع از 23 آوریل 2026 (V11 اولیه، 15 مورد) و 26 آوریل 2026 (V11 Second Update، 100,000 مورد) در results/ پوشه‌ی مخزن نگهداری می‌شوند. یک اجرای تازه یک داشبورد امتیازی جدید با مهر زمانی تولید می‌کند، در حالی که اجراهای مرجع بدون تغییر باقی می‌مانند. اگر اجرای شما نتیجه‌ای به‌طور معنادار متفاوت تولید کرد، لطفاً یک Issue در GitHub با مهر زمانی اجرا و نسخه‌ی موتور بازگردانده‌شده در متادیتای پاسخ باز کنید.

محدودیت‌ها و کارهای آینده

حتی با 100,000 مورد در 127 کشور، چهار محدودیت نیاز به اذعان صریح دارند: کم‌نمونه‌گیری دنباله‌بلند کشورها، ارزیابی تک‌نوبتی، دامنه‌ی تک‌موتوری، و منشأ تک‌منبع داده. هر کدام در کارهای پیگیری فعال در حال رسیدگی است.

پوشش کشورهای دنباله‌بلند. Second Update دربرگیرنده‌ی 127 کشور است، اما توزیع نامتوازن است — 10 مشارکت‌کننده‌ی برتر حدود ≈66.4% از موارد را تشکیل می‌دهند، و دنباله‌ی بلند 97 کشور دیگر در مجموع ≈7.3% (تقریباً 7,300 مورد به‌همراه، ~75 مورد به‌طور متوسط برای هر کشور) سهم دارد. بنابراین، ترکیب‌های کشوری در این دنباله‌ی بلند پرنویزتر از ارقام تیترشده هستند. اجراهای آینده به‌طور ترجیحی از کشورهایی که کم‌نمونه‌گیری شده‌اند جذب خواهند کرد تا برآوردهای مربوط به هر حوزه را دقیق‌تر کنند.

ارزیابی تک‌نوبتی. هر مورد در این گروه یک‌بار ارزیابی شد. مدل‌های زبانی بزرگ حتی در دمای نمونه‌برداری پایین نیز دارای نوسان خروجی غیرقابل‌چشم‌پوشی هستند، بنابراین یک پروتکل چند-اجرا با پنج ارزیابی برای هر مورد و گزارش واریانس، گام بعدی طبیعی است — به‌ویژه روی زیرمجموعه‌ی «trap-case»، جایی که سازگاری تحت لرزش نمونه‌برداری بخشی از ادعای ایمنی است.

دامنهٔ تک‌موتوری. این گزارش یک موتور را توصیف می‌کند. تحلیل‌های مقایسه‌ای در برابر سامانه‌های هوش مصنوعی جایگزین در اینجا خارج از دامنه است؛ ممکن است آن‌ها را به‌عنوان یک مطالعه‌ی مستقل جداگانه با روش‌شناسی مناسب، در برابر همان چارچوب دارای مجوز MIT دنبال کنیم.

منشأ تک‌منبع داده. 100,000 مورد، سوابق واقعیِ ناشناس‌سازی‌شده‌ی بیماران هستند که از یک مخزن بالینی واحد استخراج شده‌اند (انبار داده‌ی بالینی SQL-محور Kantesti). این‌ها نمایانگر یک جریان تولیدی گزینش‌شده هستند و در سطح جهانی یک نمونه‌گیری تصادفی نماینده‌ی جمعیت محسوب نمی‌شوند. گسترش ارزیابی به داده‌های چندمرکزی با منشأ بیرونی در برنامه‌ی راهبردی قرار دارد.

فراتر از این چهار مورد، اثرگذارترین توسعه‌ی برنامه‌ریزی‌شده، برابری چندزبانه برای هر حوزه است. موتور Kantesti AI به کاربران در 75+ زبان خدمت می‌دهد، و اجرای زیرگروه‌های Second-Update با طبقه‌بندی زبانی (ترکی، آلمانی، اسپانیایی، فرانسوی، ایتالیایی، پرتغالی، عربی، ماندارین) کیفیت خروجی را در زبان‌های پشتیبانی‌شده‌ی موتور کمی‌سازی خواهد کرد. هر تحلیلِ طبقه‌بندی‌شده‌ی زبانی با DOI و شاخه‌ی چارچوب مخصوص به خود منتشر می‌شود.

همان موتور را امتحان کنید که در 100,000 مورد به امتیاز ترکیبی 99.80% دست یافت

پنل آزمایش خون خود را در همان نقطه پایانی تولیدی که در این بنچمارک ارزیابی شده بارگذاری کنید. بیش از ۲ میلیون کاربر در سراسر جهان از موتور هوش مصنوعی Kantesti برای تفسیر بیش از ۱۵٬۰۰۰ نشانگر زیستی در 75+ زبان استفاده می‌کنند.

🔬 نسخه آزمایشی رایگان را امتحان کنید

افزونه کروم فروشگاه اپلیکیشن گوگل پلی

📚 نحوه استناد به این بنچمارک

BibTeX

@techreport{klein2026kantesti_v11_second_update,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {Clinical Validation of the Kantesti AI Engine (2.78T)  
                 on 100,000 Anonymised Blood Test Cases Across 127  
                 Countries: A Pre-Registered, Rubric-Based,  
                 Population-Scale Benchmark Including Hyperdiagnosis  
                 Trap Cases --- V11 Second Update},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11 (Second Update)},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). Clinical Validation of the Kantesti AI Engine (2.78T) on 100,000 Anonymised Blood Test Cases Across 127 Countries: A Pre-Registered, Rubric-Based, Population-Scale Benchmark Including Hyperdiagnosis Trap Cases — V11 Second Update (گزارش فنی V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 کارهای مرتبط اعتبارسنجی Kantesti

Klein, T. (2025). چارچوب اعتبارسنجی بالینی برای تفسیر آزمایش خون مبتنی بر هوش مصنوعی: روش‌شناسی اعتبارسنجی سه‌گانه کور، معیارهای عملکرد و پروتکل‌های تضمین کیفیت. Kantesti پژوهش پزشکی با هوش مصنوعی.

🎓 ریسرچ‌گیت

📖 ارجاعات روش‌شناختی خارجی

Mentzer, W. C. (1973). افتراق کمبود آهن از ویژگی تالاسمی. The Lancet, 301(7808), 882.

🏥 پاب‌مد

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). معیارهای طبقه‌بندی ۲۰۱۹ لیگ اروپایی علیه روماتیسم / کالج آمریکایی روماتولوژی برای لوپوس اریتماتوز سیستمیک. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 پاب‌مد

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: آزمون توهم در حوزه پزشکی برای مدل‌های زبانی بزرگ. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%امتیاز ترکیبی

100,000موارد امتیازدهی‌شده

127کشورهای تحت پوشش

0 / 87,412خطاهای مثبتِ کاذبِ دام

سوالات متداول

موتور هوش مصنوعی Kantesti در پرونده‌های واقعی آزمایش خون چقدر دقیق است؟

در یک روبریک از پیش ثبت‌شده برای 100,000 مورد آزمایش خون واقعیِ ناشناس‌سازی‌شده در هشت تخصص پزشکی و 127 کشور (V11 Second Update)، موتور Kantesti AI به امتیاز ترکیبی 99.80 درصد دست یافت؛ با صفر مورد مثبت کاذبِ بیش‌تشخیص (hyperdiagnosis) در 87,412 فرصتِ پرچم‌گذاریِ trap-case که پایش شدند و با میانگین تأخیر پاسخ 13.26 ثانیه. انتشار اولیه‌ی V11 همان روبریک را روی 15 موردِ دستیِ گزینش‌شده اعتبارسنجی کرد (امتیاز ترکیبی 99.12%)؛ Second Update روبریک را دقیقاً بایت‌به‌بایت حفظ می‌کند و ارزیابی را به یک گروه در مقیاس جمعیت گسترش می‌دهد. داشبورد کاملِ امتیاز برای هر تخصص و هر کشور در Figshare تحت DOI 10.6084/m9.figshare.32095435 و در GitHub تحت مجوز MIT منتشر شده است.

آیا موتور هوش مصنوعی Kantesti از نظر بالینی اعتبارسنجی شده است؟

بله. این موتور از نظر بالینی در برابر یک معیارسنجی (rubric) که پیش از اجرای اولیه V11 در کد منبع منجمد شده بود و برای «به‌روزرسانی دوم V11» به‌صورت بایت‌به‌بایت یکسان نگه داشته شد، اعتبارسنجی بالینی شده است. این ارزیابی روی 100,000 مورد ناشناس‌سازی‌شده آزمایش خون در حوزه‌های هماتولوژی، غدد درون‌ریز، پزشکی متابولیک، هپاتولوژی، نفرولوژی، قلب‌وعروق، روماتولوژی و پزشکی داخلی انجام شد که از 127 کشور استخراج شده بودند. نظارت بالینی توسط دکتر توماس کلاین، MD (ORCID 0009-0009-1490-1321)، هماتولوژیست بالینی دارای بورد تخصصی و مدیر پزشکی ارشد در Kantesti AI ارائه شد.

پرونده «دام تشخیص بیش از حد» چیست؟

یک «مورد دامِ بیش‌تشخیص» (hyperdiagnosis trap) یک سناریوی بالینی است که به‌طور خاص برای شناسایی رفتارِ بیش‌ازحدِ تشخیص در موتورهای هوش مصنوعی طراحی شده است. معیارسنجی اولیه V11 از دو مورد از این نوع به‌عنوان اثبات مفهومی روش‌شناختی استفاده کرد: یک هایپربیلی‌روبینمی غیرمستقیمِ ایزوله که با سندرم گیلبرت سازگار است (که تفسیر صحیح، پلی‌مورفیسم خوش‌خیم UGT1A1 است نه هپاتیت یا همولیز) و یک پنل غربالگری کاملاً طبیعی در بزرگسالان (که خروجی صحیح، اطمینان‌بخشی است نه یک پاتولوژی مرزیِ ساختگی). «به‌روزرسانی دوم V11» این روشِ دام را به یک زیرمجموعه اختصاصی از 8,723 مورد گسترش داد و 87,412 فرصتِ پرچم‌گذاریِ بیش‌تشخیصِ پایش‌شده تولید کرد—و نرخ مثبت کاذب موتور همچنان صفر باقی ماند.

آیا ارزیابی موتور هوش مصنوعی Kantesti قابل تکرار است؟

چارچوب کامل ارزیابی تحت مجوز MIT به‌صورت یک ماژول واحدِ خودبسنده پایتون منتشر شده است. اجرای اولیه V11 فقط به یک جفت اعتبارنامه API از Kantesti و پایتون 3.10 یا بالاتر نیاز دارد. «به‌روزرسانی دوم V11» یک بارگذارِ موردِ SQL فقط‌خواندنیِ پارامتردهی‌شده اضافه می‌کند که به اعتبارنامه‌های Kantesti clinical-repository نیاز دارد (یک نقش با هیچ امتیازی برای شناسایی جداول). bench_reader کد، SQLِ بارگذارِ مورد، معیارسنجی (rubric) (بایت‌به‌بایت بین انتشارها یکسان)، و یک نمونه‌گیری تصادفی طبقه‌بندی‌شده از پاسخ‌های خام موتور از هر دو اجرای مرجعِ «V11 اولیه» و «به‌روزرسانی دوم» در دسترس است در github.com/emirhanai/kantesti-blood-test-benchmark و همچنین در Figshare، ResearchGate و Academia.edu بازتاب (mirror) شده است.

موتور هوش مصنوعی Kantesti چگونه کمبود آهن را از ویژگی بتا-تالاسمی تفکیک می‌کند؟

موتور از شاخص منتزر (Mentzer index) استفاده می‌کند که به‌صورت حجم متوسط گلبول‌های قرمز (MCV) تقسیم بر تعداد گلبول‌های قرمز محاسبه می‌شود. شاخص منتزر بالاتر از 13 از کم‌خونی فقر آهن حمایت می‌کند، در حالی که مقدار کمتر از 13 از ویژگی بتا-تالاسمی حمایت می‌کند. در معیارسنجی اولیه V11 هر دو ارائه به‌درستی با محاسبه صریح شاخص منتزر طبقه‌بندی شدند که با زمینه‌سازیِ فریتین، RDW و HbA2 پشتیبانی می‌شد. در «به‌روزرسانی دوم V11» و در کوهورت 100,000 موردی، همین رفتار افتراقی در مقیاس جمعیتی حفظ شد.

داده‌های خام معیارها و کد منبع را از کجا می‌توانم پیدا کنم؟

گزارش فنی در Figshare با DOI 10.6084/m9.figshare.32095435 ثبت شده است (که هم انتشار اولیه V11 و هم «به‌روزرسانی دوم V11» را پوشش می‌دهد)، در ResearchGate با شناسه انتشار 404175463 و در Academia.edu با مقاله 165956808 بازتاب شده است—هر دو با عنوان «به‌روزرسانی دوم V11» و نتایج کوهورت 100,000 مورد به‌روزرسانی شده‌اند—و چارچوب پایتونِ دارای مجوز MIT همراه با همه نتایج اجرای مرجع در github.com/emirhanai/kantesti-blood-test-benchmark قرار دارد. شبکه بازتاب چهارپلتفرمی، دسترسی بلندمدت و انعطاف‌پذیری استنادی را تضمین می‌کند.

چرا پیش‌ثبت‌نام (pre-registration) برای معیارسنجی‌های پزشکیِ مبتنی بر هوش مصنوعی مهم است؟

پیش‌ثبت‌نام از «تنظیم پسینی معیارسنجی» (post-hoc rubric tuning) جلوگیری می‌کند؛ که رایج‌ترین راهی است که شرکت‌ها از طریق آن معیارسنجی‌های تحت مدیریت خود، اعدادشان را باد می‌کنند. با متعهد شدن به معیارسنجی در کد منبع پیش از هر فراخوانی موتور و انتشار عمومی چارچوب، تاریخ‌های نویسندهٔ معیارسنجی در کنترل نسخه‌ها قابل بررسی می‌شود و نتایج موتور نمی‌توانسته معیارهای امتیازدهی را شکل داده باشد.

آیا این معیارسنجی شامل مقایسه با موتورهای هوش مصنوعی دیگر است؟

نه. گزارش V11—هم انتشار اولیه و هم «به‌روزرسانی دوم»—عمداً یک موتور واحد را در برابر یک معیارسنجی ثابت توصیف می‌کند، نه اینکه آن را در برابر سامانه‌های تجاری جایگزین قرار دهد. چارچوب (harness) منبع‌باز تحت مجوز MIT است (اکنون شامل بارگذارِ مورد SQL نیز می‌شود)، بنابراین پژوهشگران مستقل می‌توانند هر موتوری را که انتخاب می‌کنند در برابر همان معیارسنجی و همان بارگذارِ مورد ارزیابی کنند و نتایج خود را منتشر کنند.

آیا موارد بیماران واقعی هستند یا ساختگی؟

همه موارد ناشناس‌سازی‌شده و سوابق واقعی بیماران هستند که از مخزن داده‌های بالینی Kantesti تحت رضایت آگاهانه کتبی استخراج شده‌اند—15 مورد که به‌صورت دستی و گزینشی در انتشار اولیه V11 انتخاب شده‌اند و 100,000 مورد در «به‌روزرسانی دوم V11»، همگی از همان مخزن ناشناس‌سازی‌شده پشتیبانی‌شده با SQL تهیه شده‌اند. ناشناس‌سازی (de-identification) با رویکرد Safe Harbor انجام شد، به‌طوری که همه شناسه‌های مستقیم حذف یا در زمان نوشتن جایگزین شدند. بارگذارِ معیارسنجی در «به‌روزرسانی دوم» از طریق یک نقش فقط‌خواندنی (bench_reader) که هیچ امتیازی برای شناسایی جداول ندارد—در سطح پایگاه داده اعمال می‌شود—اتصال برقرار می‌کند. پردازش مطابق با ماده 9(2)(j) از GDPR و مقررات معادل UK GDPR انجام شد. هیچ اطلاعاتی که به‌طور شخصی شناسایی‌کننده باشد در چارچوب منتشرشده، گزارش فنی یا مجموعه‌داده‌های منتشرشده وجود ندارد.

⚕️ سلب مسئولیت پزشکی و تعارض منافع

این گزارش معیارسنجی صرفاً برای اهداف پژوهشی و شفافیت روش‌شناختی است. این گزارش توصیه پزشکی محسوب نمی‌شود. برای تصمیمات مربوط به تشخیص و درمان، همیشه با یک ارائه‌دهندهٔ واجد شرایط مراقبت‌های بهداشتی مشورت کنید. هر دو نویسنده در Kantesti Ltd استخدام شده‌اند و سهام/منافع مالکیتی دارند، و موتورِ تحت ارزیابی یک محصول تجاریِ متعلق به همان سازمان است. این تعارض منافع با پیش‌ثبت‌نام معیارسنجی در کد منبع، انتشار چارچوب تحت مجوز MIT، و انتشار هر پاسخ خام موتور کاهش یافته است.

سیگنال‌های اعتماد E-E-A-T

⭐

تجربه

بیش از ۱۵ سال تجربهٔ بالینی در هماتولوژی و پزشکی آزمایشگاهی، با نظارت بر انتخاب پنل موارد.

📋

تخصص

طراحی معیارسنجیِ پیش‌ثبت‌شده با جریمه‌های صریح برای تشخیص بیش‌ازحد و سیستم‌های امتیازدهی بالینیِ شناخته‌شده (Mentzer، FIB-4، EULAR/ACR، KDIGO).

👤

اقتدارگرایی

نویسندهٔ اصلی: دکتر توماس کلاین، MD (ORCID 0009-0009-1490-1321). پیاده‌سازی توسط جولین امیرهان بولوت، مدیرعامل Kantesti Ltd.

🛡️

قابل اعتماد بودن

چارچوبِ بازتولیدپذیر با مجوز MIT، انتشار پاسخ‌های خام موتور، افشای بازِ تعارض منافع، شبکهٔ بازتاب پژوهشی در چهار پلتفرم.

🏢 شرکت کانتستی ثبت‌شده در انگلستان و ولز · شماره شرکت. 17090423 لندن، بریتانیا · kantesti.net