د AI په مرسته د وینې تحلیل بنچمارک

کلینیکي اعتبار مخکې ثبت شوی بنچمارک V11 — اپریل 2026 د MIT جواز لرونکی د همکارانو له خوا د تایید وړ

د صفر هایپرډایګنوسس غلط مثبتو سره په مخکې ثبت شوې روبرک کې د 99.12% جامع نمره

د Kantesti AI انجن پر ۱TP6T AI انجن د بې‌نومه وینې د ازموینې د قضیو په اړه خپلواک، مخکې ثبت شوې کلینیکي ارزونه. معیار (روبرک) د لومړي انجن کال څخه مخکې په سرچینې کوډ کې کنګل شوی و، د ارزونې چاپېریال (هارنس) د MIT جواز لري، او هره خامه ځواب خپرېږي.

📖 ~14 دقیقې 📅 اپریل 23, 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 خپور شوی: اپریل 23, 2026 🩺 په طبي ډول بیاکتل شوی: اپریل 23, 2026 ✅ مخکې ثبت شوی روبرک 🔓 خلاص کوډ او ډاټا

دا کلینیکي تاییدي څېړنه د ډاکټر توماس کلاین، ایم ډي, ، د Kantesti AI مشر طبي افسر (Chief Medical Officer) لخوا، په همکارۍ سره د جولیان امیرخان بولوت, ، د Kantesti Ltd لوړ پوړي AI انجنیر او CEO. میتودولوژي او روبرک د د کانټیسټي AI طبي مشورتي بورډ.

مخکښ لیکوال او کلینیکي څار

توماس کلاین، ایم ډي

د کانټیستی AI مشر طبي افسر

ډاکټر توماس کلاین یو د بورډ له خوا تصدیق شوی کلینیکي هیماتولوجیست او انټرنیسټ دی چې د لابراتوار طب په برخه کې له ۱۵ کلونو څخه زیات تجربه لري. د Kantesti AI د مشر طبي افسر په توګه، هغه د دې بنچمارک لپاره د قضیو پینل وټاکه، ټول تشخیصي بنسټیز حقایق (ground truths) یې وڅېړل، او د لومړي انجن له فعالولو مخکې یې مخکې ثبت شوی روبرک تصویب کړ.

ORCID 0009-0009-1490-1321 د څېړنې دروازه ګوګل سکالر

همکار لیکوال & پلي کول

جولیان امیرخان بولوت

لوړ پوړی AI انجنیر & CEO، Kantesti Ltd

جولیان امیرهان بولوت د Kantesti Ltd بنسټ اېښودونکی او CEO دی. هغه د ارزونې هارنس ډیزاین او پلي کړ، د API ادغام یې ترسره کړ، د اپریل 2026 بنچمارک چلونه یې ترسره کړه، او د احصایوي ټولیز (statistical aggregation) چمتو یې کړ. د پلیټفارم بنسټ اېښودونکی له 2019 راهیسې.

GitHub د کانټیسټي په اړه

⚡ لنډ لنډیز V11 — اپریل 23, 2026

د 99.12% ګډه نمره په اوو طبي تخصصونو کې د ۱۵ بې‌نومه ریښتینو ناروغانو د وینې د ازموینې په قضیو کې.
صفر د هایپرډایګنوسس غلط مثبتونه په دواړو ټراپ قضیو کې (د ګیلبرټ سنډروم او یو بشپړ نورمال د بالغ سکرین).
مخکې ثبت شوی روبریک (rubric) مخکې له لومړي انجن کال څخه په سرچینې کوډ کې کنګل شوی — وروسته‌له‌حقیقت (post-hoc) تنظیم ممکن نه و.
د منتزر شاخص (Mentzer index) په سمه توګه پلي شوی د اوسپنې د کموالي له انیمیا څخه د بیټا-تالاسیمیا د لږ ډول (minor) د توپیر لپاره.
یوازې د تولید (Production) پای ټکی — نه امتیاز لرونکې لاره (privileged routing)، دقیقاً لکه څنګه چې یو تادیه کوونکی پیرودونکی ورته لاسرسی لري ارزول شوی.
د اوسط ځنډ ۲۰.۱۷ ثانیې له پای تر پای، او په ۱۵ کې ۱۲ قضیې د ۲۰ ثانیو لومړنۍ-لار (primary-path) هدف لاندې وې.
د MIT جواز لرونکی هارنس (harness) په GitHub کې خپور شوی، د هرې خامې انجن ځواب سره — خپلواک بیا تولید ملاتړ کېږي.
Figshare DOI: 10.6084/m9.figshare.32095435 · په ResearchGate، Academia.edu، GitHub کې هم منعکس شوی.

ولې دا بنچمارک شتون لري او څه ازمېيي

د AI په مرسته د وینې ازموینې تشریح په زیاتېدونکي ډول د مصرفوونکو او کلینیکي کاري بهیرونو کې کارول کېږي، خو د لابراتوار طب لپاره ځانګړي، د بیا تولید وړ ارزونې چوکاټونه لا هم کم دي. په دې چاپېریال کې تر ټولو مهمې پوښتنې هغه نه دي چې د عمومي طبي پوښتنه-ځواب (question-answering) معیارونو کې پوښل کېږي: ایا انجن کولی شي د اوسپنې کموالی له تالاسیمیا ځانګړنې (trait) څخه بېل کړي کله چې د منځني کروی حجرو حجم (MCV) یو شان وي، ایا د ګیلبرټ سنډروم د هیپاتیت په توګه ډېر تشخیص کوي، او ایا په بشپړ نورمال سکرینینګ پینل کې رنځپوهنه جوړوي؟

د وینې یو واحد ازموینې پینل عموماً دومره معلومات لري چې د څو بېلابېلو تفسیرونو ملاتړ وکړي، او د تفسیر کوونکي ډاکټر دنده دا ده چې دا تفسیرونه یو له بل سره وزن کړي، نه دا چې د کتاب په شان یو واحد ځواب راوباسي. هغه انجن چې په کتابي قضیو کې ښه کار کوي، بیا هم په هغو قضیو کې ناکامېدای شي چې تر ټولو مهمې دي: د افتراقی تشخیص (differential-diagnosis) جالونه، هغه بې ضرره بدلونونه چې په یوازې توګه خطرناک ښکاري، او بشپړ نورمال پینلونه چې باوري مرستندویان اړ باسي چې رنځپوهنه (pathology) جوړه کړي.

دا بنچمارک دقیقاً د همدغو ناکامیو حالتونو پر بنسټ جوړ شوی و. په پنځلسو قضیو کې هره قضیه د یوې ځانګړې تشخیصي ځانګړتیا لپاره ټاکل شوې وه: د اوسپنې کموالي له امله مایکرو سایټوسس (microcytosis) چې باید د ورته mean corpuscular volume لرونکي beta-thalassaemia trait څخه بېل وساتل شي؛ د ګیلبرټ سنډروم (Gilbert's syndrome) داسې بڼه چې یوازینی غیرعادي حالت یې د یوازې indirect hyperbilirubinaemia درلودل وي؛ او یو پنځلس-پارامیټره سکرینینګ پینل چې په کې هر تحلیلګر (analyte) د خپل مرجع حد (reference range) دننه وي. روبرک (rubric) هغه انجنونه انعاموي چې هره قضیه په خپلو شرایطو کې لولي، او هغه انجنونه مجازاتوي چې داسې باوري تشخیص ته ورسېږي چې د همدغې تشخیص لپاره هېڅ توجیه نه وي.

د ډاکټر توماس کلاین (Thomas Klein, MD) په توګه، ما د قضیو دا پینل غوره کړ ځکه دا هغه بڼې دي چې د لابراتوار-طب (laboratory-medicine) مرستندویان تر ټولو ډېرې وختونه غلطوي. ګران ناکامي دا نه ده چې "یو نادره ناروغي له لاسه ورکړي" — بلکې دا ده چې په هغو ناروغانو کې عادي رنځپوهنه (routine pathology) جوړ کړي چې دا ناروغي نه لري. زموږ طبي اعتبار hub پراخ چوکاټ تشریح کوي؛ دا پاڼه یې په V11 انجن کې د پلي شوې پایلې په اړه بیانوي.

وروستۍ حواله شوې چلونه — V11 (اپریل 2026)

د Kantesti AI Engine V11 د اپریل 2026 د مرجع (reference) ازموینې منډې (run) یو ګډ (composite) نمره تولید کړه: 99.12% د مخکې ثبت شوې پنځلس-قضیه روبرک (pre-registered fifteen-case rubric) پر بنسټ. دواړو hyperdiagnosis جالونو (trap cases) نمره تر اعظمي حد پورې واخیسته. د Mentzer index د اوسپنې-کموالي او thalassaemia تر منځ د افتراقی تشخیص (differential) لپاره په سمه توګه پلي شو.

ګډ (Composite) 99.12% له 15 څخه 15 قضیې نمره واخیسته

0.998 جوړښتي نمره (Structural score)

0.998 کلینیکي نمره (Clinical score)

20.17 ث منځنۍ ځنډ (Mean latency)

0 / 13 د جال غلط مثبتونه (Trap false-positives)

ګډ فورمول درې برخې سره یوځای کوي: جوړښتي سمون (structural conformance) د اوو اجباري راپور برخو او شپاړسو اجباري فرعي برخو سره،, کلینیکي دقت (clinical accuracy) د keyword recall تر څنګ د scoring-system recall او د احتمال-وېش د اعتبار (probability-distribution validity) د چک په اندازه، او د ځواب ځنډ (response latency) د ۲۰ ثانیو د لومړني-خدمت کچې (primary service-level) هدف پر وړاندې. د تجزیې دقیق تفصیل د لاندې روبرک په فورمول کې ښودل شوی.

ګډ (Composite) = 0.35 × جوړښتي (Structural) + 0.55 × کلینیکي (Clinical) + 0.10 × ځنډ (Latency)

د سر د خونې پاتې 0.88 سلنه نږدې په بشپړه توګه د ځنډ (latency) د زیان له امله تجزیه کېږي — د فاز 2 درې بدیل (fallback) بلنې، چې هر یو یې د منفي 0.05 ګډ (composite) ارزښت درلود، د 0.88 سلنې تشې شاوخوا 0.60 برخه یې ورکړه — نه دا چې کلینیکي منځپانګه پکې ورکه شوې وي. انجن په پنځلسو ټولو قضیو کې سم تشخیص له لاسه ورنکړ؛ چیرې چې نیمګړتیا وه، هلته یې په لږ شمېر بلنو کې د 20 ثانیو لومړني-لار (primary-path) هدف څخه لږ څه اوږد وخت واخیست.

پنځلس قضیې په اوو طبي تخصصونو کې

د قضیې پینل اووه تخصصونه پوښي — هیماتولوژي، اندوکراینولوژي، میتابولیک طب، هیپاتولوژي، نیفرولوژي، کارډیولوژي، روماتولوژي — او همدارنګه دوه ځانګړي هایپردایګنوسس (hyperdiagnosis) جال (trap) قضیې. هره قضیه د Kantesti کلینیکي معلوماتو له زېرمه (repository) څخه د لیکلي باخبره رضایت (written informed consent) په اساس اخیستل شوې بې‌نومه (anonymised) د حقیقي ناروغ ریکارډ دی.

بې‌نومول (De-identification) د Safe Harbor تګلارې له مخې ترسره شو: ټول مستقیم پېژندونکي (direct identifiers) لرې یا بدل شول، او هر ریکارډ ته د BT-NNN-LABEL په بڼه یو بنچمارک-داخلي قضیه کوډ (benchmark-internal case code) ورکړل شو. پروسس د GDPR ماده 9(2)(j) د ساینسي څېړنې لپاره د مناسب خوندیتوبونو (safeguards) سره، او د انګلستان د GDPR اړوند برابر احکامو مطابق ترسره شو. په خپاره شوي هارنس (harness)، تخنیکي راپور (technical report)، یا خپاره شویو ډیټاسیټونو کې هېڅ شخصي پېژندونکې معلومات نه ښکاري.

هیماتولوژي (3) BT-001، BT-006، BT-007 د اوسپنې کموالي انیمیا · د B12 کمښت · د بیټا-تالاسیمیا لږ ډول (minor)

اندوکراینولوژي (3) BT-002، BT-008، BT-012 د هاشیموتو تایرایډایټس · د انسولین مقاومت سره PCOS · سخت د وټامین ډي کمښت

میتابولیک (2) BT-003، BT-013 T2DM د میتابولیک سنډروم سره · د ګوت خطر سره هایپریوریسیمیا

هیپاتولوژي (2) BT-004، BT-009 NAFLD / NASH · حاد ویروسي هیپاتیت

نیفرولوژي · کارډیولوژي · روماتولوژي (3) BT-005، BT-010، BT-011 د CKD مرحله 3 · اتیروجینک ډیسلیپیډیمیا · سیسټمیک لوپس اریتیماټوسس

Trap قضیې (2) BT-014، BT-015 د ګیلبرټ سنډروم (یوازېنی غیر مستقیم هایپربیلیروبینیمیا) · د لویانو لپاره په بشپړه توګه نورمال سکرین

ولې همدا ځانګړی وېش

هیماتولوژي درې قضیې ترلاسه کوي، ځکه چې مایکرو سایټیک افتراقیات او ماکرو سایټیک افتراقیات په واقعي نړۍ کې د لابراتوار په عمل کې تر ټولو د لوړ حجم «جالونه» دي. اندوکرینولوژي درې قضیې ترلاسه کوي، ځکه د هاشیموتو، PCOS، او د وټامین ډي کمښت وړاندې کېدنې بېلابېل تشخیصي شکلونه تمرینوي (د خودانتي‌بدن له لارې رهبري کېدونکی، د هورمون-تناسب له لارې رهبري کېدونکی، او د واحد-نښه له لارې رهبري کېدونکی). د یوې قضیې ځانګړې څانګې لا هم معنا لري، ځکه هر د CKD، د ASCVD خطر، او SLE خپل د نمرې ورکولو سیستم لري چې انجن باید وکاروي (په ترتیب سره د KDIGO سټیجینګ، د ASCVD 10 کلن خطر، او د 2019 EULAR/ACR SLE معیارونه).

مخکې ثبت شوی روبرک، تشریح شوی

مخکې له ثبت (Pre-registration) د دې بنچمارک تر ټولو مهمه میتودولوژیکه پرېکړه ده. هر متوقع تشخیص، هر کلینیکي نمره‌ورکوونکی سیستم، او هر راپور برخه د سرچینې کوډ ته ژمنه شوې وه مخکې له دې چې انجن وبلل شي. نو له ثبت وروسته د روبریک (rubric) داسې تنظیمول چې انجن ته «خوښ» راشي، له همدې امله ناممکن دي.

درې برخې د ګډ (composite) نمرې جوړوي. جوړښتي برخه (structural component) ۳۵ سلنه مرسته کوي او اندازه کوي چې ایا انجن اووه اجباري راپور برخې (سرلیک، لنډیز، مهمې موندنې، افتراقیات، د نمرې ورکولو سیستمونه، سپارښتنې، تعقیب) او په هغو کې شپاړس اجباري فرعي برخې بېرته راستانه کړې که نه. د برخې شتون ۴۰ سلنه وزن لري او د فرعي برخې شتون ۶۰ سلنه وزن لري، د جوړښتي محاسبې دننه.

د کلینیکي برخه (clinical component) ۵۵ سلنه مرسته کوي او درې شیان سره یوځای کوي: د تشخیص-کلیدي کلمې یادول (د کلینیکي فرعي نمرې ۷۰ سلنه)، د نمره‌ورکوونکي سیستم یادول (۲۰ سلنه — ایا انجن Mentzer، FIB-4، HOMA-IR، د ASCVD خطر، د KDIGO سټیجینګ، او د EULAR/ACR معیارونه محاسبه کوي چېرته چې اړوند وي)، او د احتمال-جمع اعتبار چک (۱۰ سلنه — د افتراقیاتو احتمالات باید د [90, 110] په منځ کې سره جمع شي). د جال (trap) قضیو لپاره، تر 0.30 پورې یو صریح «هایپر-تشخیص» جریمه کمه کېږي، چې د هر جوړ شوي رنځپوهنې بیرغ لپاره 0.10 حسابېږي او تر درې بیرغونو پورې محدود وي.

د د ځنډ برخه (latency component) ۱۰ سلنه مرسته کوي. د ۲۰ ثانیو نه کم ځواب بشپړ 0.10 اخلي، د ۴۰ ثانیو نه کم ځواب 0.05 اخلي، او هر څه وروتر صفر دی. د ۲۰ ثانیو هدف د تولید د لومړني primary-path خدمت-کچې موخې (service-level objective) منعکسوي؛ د ۴۰ ثانیو چت د درنې-انجن بلنې لپاره د دویم پړاو (Phase 2) بیک اپ بودیجې منعکسوي.

څه چې مخکې له ثبت (pre-registration) مخه نیسي

د لومړي-اړي (first-party) بنچمارکونه د post-hoc روبریک تنظیم له لارې د خپلو شمېرنو د پړسولو لپاره بدنام دي. الگو نږدې تل هماغه وي: ټیم انجن چلوي، ویني چېرته کمزوري فعالیت کوي، بیا په خاموشۍ سره روبریک داسې تنظیموي چې کم‌فعالې سیمې لږ حساب شي. د روبریک د سرچینې کوډ ته د لومړي انجن له بلنې مخکې ژمن کول او د MIT جواز لاندې د هارنس خپرول، دا تنظیم په د نسخې کنټرول (version control) کې ښکاره کوي. هر څوک کولی شي ذخیره (repository) کلون کړي، د روبریک د لیکوال نیټې وګوري، او تایید کړي چې د انجن پایلې د نمره‌اخستنې د شکل ورکولو لپاره نه دي کارول شوې.

د هایپرډایګنوسس (ډېر تشخیص) جال قضیې — ولې د ډېر زنګ وهلو (over-calling) اصلي ناکامي حالت دی

په عادي سکرینونو کې د رنځپوهنې په زور سره (aggressive) ډېر تشخیص کول د مصرف‌کوونکو پر مخ طبي مرستندویانو لپاره یو مستند ناکامي حالت دی. د هغې لاندیني لګښتونه پکې غیر ضروري څېړنه، د ناروغ اندېښنه، او iatrogenic (د درملنې له امله رامنځته شوې) ارزونه شامله ده. په دې بنچمارک کې دوه جال-قضیې داسې ډیزاین شوې چې دا ناکامي حالت ښکاره او د نمرې وړ وګرځوي.

🟡 جال 1 — BT-014-GILBERT

وړاندې کېدنه (Presentation). یو ۲۴ کلن نارینه د ټول بلیروبین ۲.۴ mg/dL سره. مستقیمه برخه نورماله ده، ترانسامینازونه او الکالاین فاسفېټاز د خپلو حوالوي حدودو (reference ranges) دننه دي، رتیکولوسایټونه بې‌اهمیته دي، او هپټوګلوبین او LDH هیمولایزس ردوي.

سمه تشریح (Correct interpretation). د ګیلبرټ سنډروم — یو بې‌خطر UGT1A1 پولیمورفیزم. تشریح باید هیپاتایټس، سیرروسس، هیمولایټیک انیمیا، یا د صفرايي خنډ (biliary obstruction) ته استناد ونه کړي.

د V11 پایله. ګډه نمره 1.000. د شپږو څارل شوو (monitored) له‌ډېر-تشخیص (over-diagnosis) هیڅ یو بیرغ د فعال تشخیص په توګه نه ښکاره شو.

🟡 جال 2 — BT-015-HEALTHY

وړاندې کېدنه (Presentation). یوه ۳۵ کلنه ښځه د پنځلس-پارامیټر معمول routine سکرینینګ پینل سره. هر انالایټ په آرامۍ سره د خپل حوالوي حد (reference range) دننه دی.

سمه تشریح (Correct interpretation). د ډاډ ورکولو او د ژوند طرز ساتنه. تشریح باید داسې سرحدي رنځپوهنه جوړه نه کړي چې د کلینیکي ګټې لپاره بې ځایه “ګټور” ښکاره شي.

د V11 پایله. جامع 1.000. د اوو څارل شوو له‌ډېرو تشخیص-زیاتولو (over-diagnosis) نښو څخه—شکره، انیمیا، هایپوتایرایډیزم، ډیس‌لایپیډیمیا، هیپاتیت، د پښتورګو ناروغي، کمښت—هیڅ یو د فعال تشخیص په توګه نه و څرګند شوی.

په دواړو “ټراپ”ونو کې، دیارلس څارل شوې هایپرډایګنوسس (hyperdiagnosis) نښې وکتل شوې. هېڅ یوه فعاله نه شوه. دا هغه پایله ده چې د هر کلینیشن لپاره تر ټولو مهمه ده چې د AI انجن د ټرایج یا د مشورې نه مخکې د وسیلې په توګه کارولو ته پام کوي: سیستم داسې ناروغي نه ده ایجاد کړې چې شتون نه درلود.

د منتزر شاخص: د اوسپنې کموالي له thalassaemia trait څخه جلا کول

دویمه د لوړ ارزښت موندنه د قضیې BT-001 (د اوسپنې کمښت انیمیا) او قضیې BT-007 (د بیټا تالاسیمیا لږ ډول) د یوځای کېدو په اړه ده. دواړه د مایکروسایټوسس (microcytosis) سره وړاندې کېږي او دا د ناپوه طبقه‌بندونکو لپاره یوه ښه پېژندل شوې ستونزه ده. د Mentzer شاخص، چې د MCV په تقسیم د RBC شمېرې سره محاسبه کېږي، په د اوسپنې کمښت کې له 13 څخه لوړ او په تالاسیمیا ټرېټ کې له 13 څخه ټیټ وي.

په BT-001 کې، ناروغ ۳۴ کلنه ښځه وه چې HGB 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فیرټین 6 ng/mL، او لوړ TIBC درلود. د شاوخوا 17.7 Mentzer شاخص د مطلق اوسپنې کمښت ملاتړ کوي. په BT-007 کې، ناروغ ۲۸ کلن نارینه و چې مایکروسایټوسس (MCV 65.8 fL) درلود، خو د RBC شمېر یې 6.2 لوړه وه، RDW نورمال و، فیرټین نورمال و، او HbA2 یې 5.6 سلنه و. د شاوخوا 10.6 Mentzer شاخص د تالاسیمیا ټرېټ ته اشاره کوي، او لوړ HbA2 د بیټا-تالاسیمیا لږ ډول تاییدوي.

د اوسپنې کمښت انیمیا Mentzer > 13 ټیټ فیرټین، ټیټ TSAT، لوړ TIBC، لوړ RDW

د بیټا تالاسیمیا ټرېټ Mentzer < 13 نورمال فیرټین، نورمال RDW، لوړ HbA2 (>3.5%)، د RBC شمېر لوړ

دواړو قضیو 1.000 نمره واخیسته. انجن په دواړو تشریحاتو کې په ښکاره ډول د Mentzer شاخص وکاراوه او په هر حالت کې یې سم تشخیص راوویست. دا د ټول بنچمارک تر ټولو یو واحد کلینیکي ډاډمنوونکې پایله ده, ، ځکه چې د تالاسیمیا ټرېټ د اوسپنې کمښت په توګه غلط طبقه‌بندي کول د اوسپنې نامناسبه تکمیلي درملنه لامل کېږي او د کورنۍ-سکرینینګ فرصتونه له لاسه ورکوي، او د اوسپنې کمښت د تالاسیمیا په توګه غلط طبقه‌بندي کول د مستقیم بدیل درملنې ځنډ رامنځته کوي. زموږ د فیرټین رینج لارښود د پراخ افتراقی (differential) شرایطو تشریح کوي.

د ۲۰۲۶ کال د اپرېل د چلولو پر مهال د هرې قضیې پایلې

له پنځلسو قضیو څخه دولس د لومړني path پر سر د 1.000 جامع حد (ceiling) نمره ترلاسه کړه. درې قضیې د Phase 2 بیک‌اپ (fallback) له لارې خدمت شوې، چې د 0.05 د لاتنس بونس یې له لاسه ورکړ، خو ټول کلینیکي او جوړښتي منځپانګه یې وساتله. یوه قضیه یو واحد اجباري فرعي برخه نه درلوده؛ یوه یې د احتمالونو مجموعه په لږ ډول کمه راستانه کړه.

د قضیې پېژند (Case ID) تخصص (Specialty) ګډ (Composite) لاتنس (Latency) Path

BT-001-IDAهیماتولوژي1.00017.8 sprimary

BT-006-B12هیماتولوژي1.00018.4 ثانیېprimary

BT-007-THALهیماتولوژي1.00017.0 ثانیېprimary

BT-002-HASHانډوکراینولوژي0.95037.0 ثانیېبېرته تګ (fallback)

BT-008-PCOSانډوکراینولوژي0.98718.6 ثانیېprimary

BT-003-T2DMمیټابولیک1.00019.1 ثانیېprimary

BT-013-GOUTمیټابولیک1.00019.4 ثانیېprimary

BT-004-NAFLDهیپاتولوژي1.00019.6 ثانیېprimary

BT-009-VIRHEPهیپاتولوژي0.95023.4 ثانیېبېرته تګ (fallback)

BT-014-GILBERTجال (Trap)1.00018.9 ثانیېprimary

BT-005-CKDنیفولوژي1.00017.4 ثانیېprimary

BT-010-ASCVDکارډیولوژي1.00019.7 ثانیېprimary

BT-011-SLEروماتولوژي0.98118.2 ثانیېprimary

BT-012-VITDانډوکراینولوژي1.00019.3 ثانیېprimary

BT-015-HEALTHYجال (Trap)1.00018.7 ثانیېبېرته تګ (fallback)

د PCOS قضیه (BT-008) په ځواب جوړښت کې یو اجباري فرعي برخه له لاسه ورکړه — له شپاړس څخه پنځلس — چې د جوړښتي نمرې له 1.000 څخه 0.963 ته راکمه کړه. د SLE قضیه (BT-011) د احتمال-وېش د مجموعې په کچه لږ کموالی راوګرځاوه چې کلینیکي نمره یې 0.965 ته راټیټه کړه، خو هر تشخیصي کلیدي ټکی او د نمرې ورکولو سیستم یې وساته. هېڅ یوه نیمګړې قضیه سمه تشخیص له لاسه ورنکړ.

د سرلیک نمره موږ ته څه نه وايي

د دې ځانګړې مخکې ثبت شوې معیارنامې (روبرک) لاندې د 99.12 سلنې ګډه نمره نږدې-چت (near-ceiling) فعالیت ښيي، خو دقیق چوکاټ ته اړتیا لري. پایله د انجن چلند د پنځلسو په دقت ټاکل شوو بې‌نومو قضیو پر وړاندې تشریح کوي، چې هره یوه یې یو ځل ارزول شوې، د یوې واحدې معیارنامې په مقابل کې. موږ په ښکاره وایو چې دا شمېرنه څه ثابتوي او څه نه ثابتوي.

نمره وايي چې د V11 انجن د دې ارزونې لپاره ټاکل شوي تشخیصي بڼې په سمه توګه اداره کړې، په داسې میتودولوژۍ سره چې خپره شوې او د بیا تولید وړ ده. دا نه وايي چې انجن په ځنګل کې موجود هرې وینې ازموینې پینل کې سم دی. دا نه وايي چې انجن باید د ډاکټر/کلینیسین قضاوت ځای ونیسي. او دا هم نه وايي چې انجن د بدیلو AI سیستمونو څخه غوره دی — د نورو انجنونو پر وړاندې پرتله‌یزې شننې په قصدي ډول د دې راپور له دائره بهر وې.

هغه څه چې نمره یې ثابتوي، یو بنسټیز معیار (baseline) دی. ځکه چې معیارنامه او هارنس عامه دي، د انجن راتلونکې نسخې د هماغو پنځلسو قضیو پر وړاندې ارزول کېدای شي، او د خپرې شوې نمرې او د هرې ورپسې منډې ترمنځ تشه پخپله د اندازه کولو وړ ده. دا د مخکې ثبت (pre-registration) ارزښت دی: دا د فعالیت ادعاوې د ازمېښت وړ ادعاوو په بڼه بدلوي.

څنګه په ۱۰ دقیقو کې دا معیار بیا تولید کړو

بیا تولید یوازې د Kantesti API د اعتبار (credential) د جوړه او د Python 3.10 یا وروسته چاپېریال ته اړتیا لري، چې requests او reportlab کتابتونونه نصب وي. بشپړ هارنس یو واحد، ځان بسیا (self-contained) Python ماډول دی چې د MIT جواز (licence) لاندې خپور شوی.

💻 GitHub د MIT جواز لرونکی هارنس · خام ځوابونه · د حوالې منډه 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · بنسټیز علمي ریکارډ 🎓 د څېړنې دروازه خپرونه 404175463 · د علمي کشف (academic discovery) طبقه 📄 اکاډیمیا.ایډو مقاله 165956808 · د علمي کشف (academic discovery) طبقه

د نوې منډې لپاره څلور ګامونه

یو. د ذخیرې کلون کول (Clone the repository): git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. دوه. د انحصارونو نصبولو لپاره pip install -r requirements.txt. درې. وټاکئ KANTESTI_USERNAME او KANTESTI_PASSWORD د چاپېریال د متغیرونو په توګه — اعتبارونه د اجرا پر مهال لوستل کېږي او په سکریپټ کې هېڅ شی په سخت‌کوډ (hard-coded) نه دی. څلور. چل کړئ python benchmark_bloodtest.py او د کاري لارښود (working directory) ته د صادر شوو څلورو آثارو (artefacts) کتنه وکړئ: د CSV نمره‌پاڼه، د JSON نمره‌پاڼه، یو بشپړ JSON ډمپ چې پکې د خام انجن ځوابونه شامل وي، او یو د انسان‌لوست وړ Markdown راپور.

د ۲۳ اپرېل ۲۰۲۶ حواله چلونه (reference run) په results/ د ذخیره‌ځای (repository) په لارښود کې ساتل شوې ده. نوې چلونه به یو نوی ټایم‌سټمپ‌دار نمره‌پاڼه تولید کړي، خو د حواله چلونه به بې‌بدله پرېږدي. که ستاسو چلونه په مانا‌لرونکي ډول بېل نتیجه تولید کړي، مهرباني وکړئ د GitHub issue پرانیزئ چې پکې د چلونې ټایم‌سټمپ او د ځواب په میټاډاټا کې د انجن نسخه (engine version) شامل وي.

محدودیتونه او راتلونکې څېړنې

څلور محدودیتونه د واضح اعتراف وړ دي: د نمونې اندازه، واحد-وار ارزونه (single-shot evaluation)، د واحد انجن محدودیت (single-engine scope)، او د واحد سرچینې د معلوماتو اصل (single-source data origin). هر یو یې په روان تعقیبي کار کې حل کېږي.

د نمونې اندازه. د اتو تخصصي کټګوریو (specialty buckets) ترمنځ پنځلس قضیې د ثبوت-د-مفهوم لپاره کافي دي، خو د تخصص دننه د فرعي ګروپ تحلیل لپاره نه دي. د پنځوس قضیو پراختیا پلان شوې او پکې د coagulation پینلونه، د هیماتولوژیکي بدخیمۍ (haematological malignancy) سکرینینګ، د امیندوارۍ پینلونه، او د ماشومانو (paediatric) وړاندې کېدنې شاملې دي.

واحد-وار ارزونه. هره قضیه یوازې یو ځل ارزول شوې. د لوی ژبې ماډلونه حتی په ټیټه sampling temperature کې هم د محصول (output) د پام وړ بدلون (variance) ښيي، نو د هرې قضیې لپاره د پنځو ارزونو سره د څو-چلېدنې (multi-run) پروتوکول او د راپور شوې variance راتلونکی طبیعي ګام دی.

د واحد انجن محدودیت. دا راپور د یو انجن ځانګړتیاوې بیانوي. د بدیلو AI سیستمونو پر وړاندې مقایسوي تحلیلونه دلته د بحث له حوصلې (out of scope) بهر دي؛ ښايي موږ یې د مناسبې میتودولوژۍ سره د جلا خپلواکې مطالعې په توګه تعقیب کړو.

د واحد سرچینې د معلوماتو اصل. پنځلس قضیې د یو واحد کلینیکي ذخیره‌ځای (clinical repository) څخه اخیستل شوي ریښتیني ناروغ ریکارډونه دي چې بې‌نومه (anonymised) شوي. دا یو ټاکل شوی (curated) نمونه ده او د نفوس-استازیتوب (population-representative) تصادفي انتخاب نه استازیتوب کوي. د ارزونې تر څو-مرکزي (multi-centre) معلوماتو غځول په سړک‌لار (roadmap) کې دي.

تر ټولو اغېزمن پلان شوی غځول څو-ژبنۍ برابري (multi-language parity) ده. د Kantesti AI Engine کاروونکو ته په 75+ ژبو خدمت کوي، او د همدې پنځلس-قضیې harness په ترکیه‌یي، جرمني، هسپانوي، فرانسوي او عربي کې چلول به د انجن د ملاتړ شوو ژبو ترمنځ د محصول کیفیت اندازه کړي. موږ به هره ژبه-ځانګړې چلونه د خپل DOI او د harness څانګې (harness branch) سره خپروو.

هماغه انجن هڅه کړئ چې 99.12% جامع نمره یې ترلاسه کړه

خپل د وینې د ازموینې پینل اپلوډ کړئ هماغه تولیدي (production) پای‌ته (endpoint) ته چې په دې بنچمارک کې ارزول شوی و. له 2M+ څخه زیات کاروونکي په ټوله نړۍ کې د Kantesti AI Engine کاروي تر څو له 15,000+ بایومارکرونو څخه د 75+ ژبو په اوږدو کې تفسیر وکړي.

🔬 وړیا ډیمو هڅه وکړئ

د کروم توسیع د اپلیکیشن پلورنځی ګوګل پلی

📚 د دې بنچمارک د حوالې (Citation) څرنګوالی

BibTeX

@techreport{klein2026kantesti,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {د Kantesti AI Engine کلینیکي تایید (2.78T)  
                 په ۱۵ بې‌نومه شوو د وینې د ازموینو قضیو کې: د مخکې ثبت شوې  
                 روبریک پر بنسټ بنچمارک، چې د هایپرډایګنوسس (Hyperdiagnosis)  
                 جال (Trap) قضیې هم پکې شاملې دي او د اوو طبي تخصصونو په اوږدو کې دي},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). د Kantesti AI Engine کلینیکي تایید (2.78T) په ۱۵ بې‌نومه شوو د وینې د ازموینو قضیو کې: د مخکې ثبت شوې روبریک پر بنسټ بنچمارک، چې د هایپرډایګنوسس جال قضیې هم پکې شاملې دي او د اوو طبي تخصصونو په اوږدو کې دي (Technical Report V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 اړوند د Kantesti د تایید (Validation) کار

Klein, T. (2025). د مصنوعي ذهانت په مرسته د وینې معاینې لپاره د کلینیکي اعتبار چوکاټ تشریح: د درې ګوني ړندو اعتبار میتودولوژي، د فعالیت معیارونه، او د کیفیت تضمین پروتوکولونه. د Kantesti AI طبي څېړنه.

🎓 د څېړنې دروازه

📖 بهرني میتودولوژیکي حوالې

Mentzer, W. C. (1973). د اوسپنې د کموالي (Iron Deficiency) توپیر له Thalassaemia Trait څخه. The Lancet, 301(7808), 882.

🏥 پب میډ

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). د 2019 کال د روماتیزم پر ضد اروپایي لیګ / د امریکایي کالج د روماتولوژي طبقه‌بندۍ معیارونه د Systemic Lupus Erythematosus لپاره. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 د دفاع وزارت 🏥 پب میډ

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: د لوی ژبني ماډلونو لپاره د طبي ډومېن هالوسینیشن ازموینه. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%ګډ (Composite) نمره

15نمره ورکړل شوې قضیې

7تخصصونه

0د جال غلط مثبتونه (Trap False-Positives)

پوښتل شوې پوښتنې

د Kantesti د AI انجن د وینې په واقعي ازموینو کې څومره دقیق دی؟

په ۱۵ بې‌نومه، واقعي ناروغ د وینې د ازموینو قضیو کې چې د اوو طبي تخصصونو په اوږدو کې وې، د Kantesti AI Engine V11 د 99.12 percent ګډه نمره ترلاسه کړه، او په دواړو جال قضیو کې یې صفر هایپرډایګنوسس غلط مثبتونه درلودل، او د ځواب اوسط ځنډ (latency) یې 20.17 ثانیې و. بشپړ د هرې قضیې نمره‌پاڼه (scorecard) په Figshare کې د DOI 10.6084/m9.figshare.32095435 تر عنوان لاندې خپره شوې او په GitHub کې د MIT جواز (licence) لاندې شتون لري.

ایا د Kantesti د AI انجن په کلینیکي توګه تایید شوی؟

هو. دغه انجن په کلینیکي ډول د هغه روبرک پر بنسټ تایید شوی چې مخکې له دې چې انجن وبلل شي، په سرچینې کوډ کې کنګل شوی و؛ په ۱۵ بې‌نومه د وینې ازموینو قضیو کې ارزول شوی و: د هیماتولوژۍ، اندوکرینولوژۍ، میتابولیک درملو، هیپاتولوژۍ، نیفرولوژۍ، کارډیولوژۍ او روماتولوژۍ په برخو کې. کلینیکي څارنه د ډاکټر توماس کلاین، MD (ORCID 0009-0009-1490-1321) له‌خوا شوې، چې د بورډ تصدیق شوی کلینیکي هیماتولوژیسټ او د Kantesti AI لوی طبي افسر (Chief Medical Officer) دی.

د هایپر تشخیص (Hyperdiagnosis) جال/تله قضیه څه ده؟

د هایپرډایګنوسس (Hyperdiagnosis) جال یوه ځانګړې کلینیکي سناریو ده چې په ځانګړي ډول د AI انجنونو کې د ډېر تشخیص (over-diagnosis) چلند د کشف لپاره ډیزاین شوې. د Kantesti V11 بنچمارک له دغو دوو جالونو څخه کار اخلي. لومړی یې د ګیلبرټ سنډروم سره سمون لرونکې یوازې غیر مستقیم هایپربیلیروبینیمیا ده، چې سم تفسیر یې د هیپاتیت یا هیمولایسز پر ځای د UGT1A1 پولیمورفیزم بې‌ضرره بڼه ده. دویمه یې بشپړ عادي بالغ د سکرینینګ پینل دی، چې سم محصول یې ډاډ ورکول او د ژوند طرز ساتل دي، نه جوړ شوی (manufactured) سرحدي رنځپوهنه.

ایا د Kantesti د AI انجن ارزونه د بیا تولید وړ ده؟

بشپړ ارزونې (evaluation) هارنس د MIT جواز (licence) لاندې د یو واحد، ځان‌بسیا Python ماډول په توګه خپور شوی. د بیا تولید لپاره یوازې د Kantesti API د اعتبار (credential) جوړه او Python 3.10 یا وروسته ته اړتیا ده. کوډ، د قضیو تعریفونه، او د اپریل ۲۰۲۶ د حوالې (reference) چلولو هر خام انجن ځواب په github.com/emirhanai/kantesti-blood-test-benchmark کې موجود دي او په Figshare، ResearchGate، او Academia.edu کې هم منعکس (mirrored) شوي دي.

د Kantesti د AI انجن څنګه د اوسپنې د کموالي او د بیټا-تالاسیمیا د ځانګړتیا ترمنځ توپیر کوي؟

انجن د Mentzer شاخص پلي کوي، چې د mean corpuscular volume (MCV) د سره د وینې حجرو شمېر (RBC) په تقسیم سره محاسبه کېږي. د Mentzer شاخص له ۱۳ پورته ارزښت د اوسپنې کموالي انیمیا ملاتړ کوي، او له ۱۳ ښکته ارزښت د beta-thalassaemia trait ملاتړ کوي. په V11 بنچمارک کې دواړه وړاندې کېدنې په سمه توګه طبقه‌بندي شوې، د Mentzer شاخص د څرګند محاسبې په مرسته، چې د ferritin، RDW، او HbA2 د شرایطو (context) لخوا ملاتړ شوې.

زه خام بنچمارک ډاټا او د سرچینې کوډ چیرته موندلی شم؟

تخنیکي راپور په Figshare کې د DOI 10.6084/m9.figshare.32095435 لاندې ثبت شوی، په ResearchGate کې د خپرونې 404175463 او په Academia.edu کې د مقالې 165956808 په توګه منعکس شوی، او د MIT جواز لرونکی Python هارنس چې ټول د حوالې چلولو پایلې پکې دي په github.com/emirhanai/kantesti-blood-test-benchmark کې دی. د څلورو پلیټفارمونو د منعکس شبکې (mirror network) له امله د اوږدمهاله شتون او د حوالې (citation) انعطاف تضمین کېږي.

ولې د AI طبي بنچمارکونو لپاره مخکې ثبت (pre-registration) مهم دی؟

مخکې ثبت د post-hoc روبرک تنظیم (rubric tuning) مخه نیسي، چې د شرکت‌-چلول شوو بنچمارکونو له‌خوا د خپلو شمېرنو د لوړولو تر ټولو عامه لاره ده. د روبرک د سرچینې کوډ ته د انجن له هرې غوښتنې (call) مخکې ژمن کول او د هارنس په عامه توګه خپرول، د روبرک لیکوال د نیټې (author dates) د ورژن کنټرول (version control) له لارې د کتنې وړ ګرځوي، او د انجن پایلې نشي کولی د نمره‌ ورکولو معیارونه (scoring criteria) بدل کړي.

ایا دا بنچمارک له نورو AI انجنونو سره پرتله هم لري؟

نه. د V11 راپور په قصدي ډول یو واحد انجن د ثابت روبرک پر وړاندې تشریح کوي، نه دا چې د بدیلو سوداګریزو سیستمونو پر وړاندې یې ځای پر ځای کړي. هارنس د MIT جواز لاندې خلاص سرچینه (open source) ده، نو خپلواک څېړونکي کولی شي هر هغه انجن چې وغواړي د هماغو پنځلسو قضیو او روبرک پر وړاندې وارزوي او خپلې پایلې خپرې کړي.

ایا د ناروغ قضیې رښتینې دي که مصنوعي؟

پنځلس قضیې بې‌نومه شوې رښتینې د ناروغانو ثبتونه دي چې د Kantesti کلینیکي معلوماتو له زېرمه (data repository) څخه د لیکلي باخبر رضایت (written informed consent) په اساس اخیستل شوي. د هویت پټول (de-identification) د Safe Harbor تګلارې له مخې ترسره شوي، چې ټول مستقیم پېژندونکي (direct identifiers) لرې یا بدل شوي دي. پروسس د GDPR د ۹(۲)(j) مادې او د انګلستان د معادل GDPR احکامو سره سم ترسره شوی. په خپاره شوي هارنس، تخنیکي راپور، او خپاره شویو ډیټاسیټونو کې هېڅ شخصي پېژندونکې معلومات نه ښکاري.

⚕️ طبي خبرتیا (Medical Disclaimer) او د ګټې ټکر (Conflict of Interest)

دا بنچمارک راپور د څېړنې او میتودولوژیکي روڼتیا (transparency) د موخو لپاره دی. دا طبي مشوره نه ده. تل د تشخیص او درملنې د پرېکړو لپاره له یو وړ روغتیايي خدمت‌چمتوونکي (qualified healthcare provider) سره مشوره وکړئ. دواړه لیکوالان په Kantesti Ltd کې ګمارل شوي او په دې شرکت کې ونډه (equity) لري، او د ارزونې لاندې انجن د هماغه سازمان یو سوداګریز محصول دی. دا د ګټې ټکر د روبرک په سرچینې کوډ کې د مخکې ثبت کولو، د هارنس د MIT جواز لاندې د خپرولو، او د هر خام انجن ځواب د خپرولو له لارې کم شوی دی.

د E-E-A-T باور نښې

⭐

تجربه

د قضیې پینل د انتخاب په څارنه کې د ۱۵+ کلونو کلینیکي هیماتولوژي او لابراتواري طب تمرین.

📋

تخصص

د مخکې ثبت شوي روبرک ډیزاین د څرګندو هایپرډایګنوسس جریمو (hyperdiagnosis penalties) او پېژندل شویو کلینیکي نمره‌ ورکولو سیستمونو سره (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

واک ورکول

مخکښ لیکوال ډاکټر توماس کلاین، MD (ORCID 0009-0009-1490-1321). پلي کول (Implementation) د جولین امیرهان بلوت (Julian Emirhan Bulut)، د Kantesti Ltd CEO.

🛡️

اعتبار

د MIT جواز لرونکی د بیا تولید وړ هارنس (reproducible harness)، خام انجن ځوابونه خپاره شوي، د ګټې ټکر خلاص افشا (open conflict-of-interest disclosure)، او د څلورو پلیټفارمونو د څېړنې منعکس شبکې (mirror network).

🏢 کانټیستی لمیټډ په انګلستان او ویلز کې ثبت · د شرکت شمېره. 17090423 لندن، انګلستان · kantesti.net