ولې دا بنچمارک شتون لري او څه ازمېيي

د AI په مرسته د وینې ازموینې تشریح په زیاتېدونکي ډول د مصرفوونکو او کلینیکي کاري بهیرونو کې کارول کېږي، خو د لابراتوار طب لپاره ځانګړي، د بیا تولید وړ ارزونې چوکاټونه لا هم کم دي. په دې چاپېریال کې تر ټولو مهمې پوښتنې هغه نه دي چې د عمومي طبي پوښتنه-ځواب (question-answering) معیارونو کې پوښل کېږي: ایا انجن کولی شي د اوسپنې کموالی له تالاسیمیا ځانګړنې (trait) څخه بېل کړي کله چې د منځني کروی حجرو حجم (MCV) یو شان وي، ایا د ګیلبرټ سنډروم د هیپاتیت په توګه ډېر تشخیص کوي، او ایا په بشپړ نورمال سکرینینګ پینل کې رنځپوهنه جوړوي؟

د مخکې ثبت شوې روبریک د جریان ډیاګرام ښودل چې څنګه د Kantesti AI انجن د کنګل شوو نمره‌ ورکولو معیارونو پر بنسټ ارزول کېږي
شکل ۱: د معیار جوړښت — هره قضیه، هر کلیدي ټکی (keyword)، هر د نمرې ورکولو سیستم په سرچینې کوډ کې مخکې له دې چې انجن حتی یو PDF وویني ټاکل شوی دی. د روبریک وروسته‌له‌حقیقت (post-hoc) تنظیم په ډیزاین سره ناممکن دی.

د وینې یو واحد ازموینې پینل عموماً دومره معلومات لري چې د څو بېلابېلو تفسیرونو ملاتړ وکړي، او د تفسیر کوونکي ډاکټر دنده دا ده چې دا تفسیرونه یو له بل سره وزن کړي، نه دا چې د کتاب په شان یو واحد ځواب راوباسي. هغه انجن چې په کتابي قضیو کې ښه کار کوي، بیا هم په هغو قضیو کې ناکامېدای شي چې تر ټولو مهمې دي: د افتراقی تشخیص (differential-diagnosis) جالونه، هغه بې ضرره بدلونونه چې په یوازې توګه خطرناک ښکاري، او بشپړ نورمال پینلونه چې باوري مرستندویان اړ باسي چې رنځپوهنه (pathology) جوړه کړي.

دا بنچمارک دقیقاً د همدغو ناکامیو حالتونو پر بنسټ جوړ شوی و. په پنځلسو قضیو کې هره قضیه د یوې ځانګړې تشخیصي ځانګړتیا لپاره ټاکل شوې وه: د اوسپنې کموالي له امله مایکرو سایټوسس (microcytosis) چې باید د ورته mean corpuscular volume لرونکي beta-thalassaemia trait څخه بېل وساتل شي؛ د ګیلبرټ سنډروم (Gilbert's syndrome) داسې بڼه چې یوازینی غیرعادي حالت یې د یوازې indirect hyperbilirubinaemia درلودل وي؛ او یو پنځلس-پارامیټره سکرینینګ پینل چې په کې هر تحلیلګر (analyte) د خپل مرجع حد (reference range) دننه وي. روبرک (rubric) هغه انجنونه انعاموي چې هره قضیه په خپلو شرایطو کې لولي، او هغه انجنونه مجازاتوي چې داسې باوري تشخیص ته ورسېږي چې د همدغې تشخیص لپاره هېڅ توجیه نه وي.

د ډاکټر توماس کلاین (Thomas Klein, MD) په توګه، ما د قضیو دا پینل غوره کړ ځکه دا هغه بڼې دي چې د لابراتوار-طب (laboratory-medicine) مرستندویان تر ټولو ډېرې وختونه غلطوي. ګران ناکامي دا نه ده چې "یو نادره ناروغي له لاسه ورکړي" — بلکې دا ده چې په هغو ناروغانو کې عادي رنځپوهنه (routine pathology) جوړ کړي چې دا ناروغي نه لري. زموږ طبي اعتبار hub پراخ چوکاټ تشریح کوي؛ دا پاڼه یې په V11 انجن کې د پلي شوې پایلې په اړه بیانوي.

وروستۍ حواله شوې چلونه — V11 (اپریل 2026)

د Kantesti AI Engine V11 د اپریل 2026 د مرجع (reference) ازموینې منډې (run) یو ګډ (composite) نمره تولید کړه: 99.12% د مخکې ثبت شوې پنځلس-قضیه روبرک (pre-registered fifteen-case rubric) پر بنسټ. دواړو hyperdiagnosis جالونو (trap cases) نمره تر اعظمي حد پورې واخیسته. د Mentzer index د اوسپنې-کموالي او thalassaemia تر منځ د افتراقی تشخیص (differential) لپاره په سمه توګه پلي شو.

ګډ (Composite) 99.12% له 15 څخه 15 قضیې نمره واخیسته
0.998 جوړښتي نمره (Structural score)
0.998 کلینیکي نمره (Clinical score)
20.17 ث منځنۍ ځنډ (Mean latency)
0 / 13 د جال غلط مثبتونه (Trap false-positives)

ګډ فورمول درې برخې سره یوځای کوي: جوړښتي سمون (structural conformance) د اوو اجباري راپور برخو او شپاړسو اجباري فرعي برخو سره،, کلینیکي دقت (clinical accuracy) د keyword recall تر څنګ د scoring-system recall او د احتمال-وېش د اعتبار (probability-distribution validity) د چک په اندازه، او د ځواب ځنډ (response latency) د ۲۰ ثانیو د لومړني-خدمت کچې (primary service-level) هدف پر وړاندې. د تجزیې دقیق تفصیل د لاندې روبرک په فورمول کې ښودل شوی.

ګډ (Composite) = 0.35 × جوړښتي (Structural) + 0.55 × کلینیکي (Clinical) + 0.10 × ځنډ (Latency)

د سر د خونې پاتې 0.88 سلنه نږدې په بشپړه توګه د ځنډ (latency) د زیان له امله تجزیه کېږي — د فاز 2 درې بدیل (fallback) بلنې، چې هر یو یې د منفي 0.05 ګډ (composite) ارزښت درلود، د 0.88 سلنې تشې شاوخوا 0.60 برخه یې ورکړه — نه دا چې کلینیکي منځپانګه پکې ورکه شوې وي. انجن په پنځلسو ټولو قضیو کې سم تشخیص له لاسه ورنکړ؛ چیرې چې نیمګړتیا وه، هلته یې په لږ شمېر بلنو کې د 20 ثانیو لومړني-لار (primary-path) هدف څخه لږ څه اوږد وخت واخیست.

پنځلس قضیې په اوو طبي تخصصونو کې

د قضیې پینل اووه تخصصونه پوښي — هیماتولوژي، اندوکراینولوژي، میتابولیک طب، هیپاتولوژي، نیفرولوژي، کارډیولوژي، روماتولوژي — او همدارنګه دوه ځانګړي هایپردایګنوسس (hyperdiagnosis) جال (trap) قضیې. هره قضیه د Kantesti کلینیکي معلوماتو له زېرمه (repository) څخه د لیکلي باخبره رضایت (written informed consent) په اساس اخیستل شوې بې‌نومه (anonymised) د حقیقي ناروغ ریکارډ دی.

د پنځلسو بې‌نومه شوو د وینې ازموینو قضیو د پوښښ نقشه، چې د اوو طبي تخصصونو ترمنځ وېشل شوې، او همدارنګه د هایپرډایګنوسس (ډېر تشخیص) جال قضیې هم پکې شاملې دي
شکل ۲: د قضیو وېش په هیماتولوژي، اندوکراینولوژي، میتابولیک طب، هیپاتولوژي، نیفرولوژي، کارډیولوژي، روماتولوژي کې — او همدارنګه دوه trap قضیې: د ګیلبرټ سنډروم (Gilbert's syndrome) او په بشپړه توګه نورمال سکرینینګ پینل.

بې‌نومول (De-identification) د Safe Harbor تګلارې له مخې ترسره شو: ټول مستقیم پېژندونکي (direct identifiers) لرې یا بدل شول، او هر ریکارډ ته د BT-NNN-LABEL په بڼه یو بنچمارک-داخلي قضیه کوډ (benchmark-internal case code) ورکړل شو. پروسس د GDPR ماده 9(2)(j) د ساینسي څېړنې لپاره د مناسب خوندیتوبونو (safeguards) سره، او د انګلستان د GDPR اړوند برابر احکامو مطابق ترسره شو. په خپاره شوي هارنس (harness)، تخنیکي راپور (technical report)، یا خپاره شویو ډیټاسیټونو کې هېڅ شخصي پېژندونکې معلومات نه ښکاري.

هیماتولوژي (3) BT-001، BT-006، BT-007 د اوسپنې کموالي انیمیا · د B12 کمښت · د بیټا-تالاسیمیا لږ ډول (minor)
اندوکراینولوژي (3) BT-002، BT-008، BT-012 د هاشیموتو تایرایډایټس · د انسولین مقاومت سره PCOS · سخت د وټامین ډي کمښت
میتابولیک (2) BT-003، BT-013 T2DM د میتابولیک سنډروم سره · د ګوت خطر سره هایپریوریسیمیا
هیپاتولوژي (2) BT-004، BT-009 NAFLD / NASH · حاد ویروسي هیپاتیت
نیفرولوژي · کارډیولوژي · روماتولوژي (3) BT-005، BT-010، BT-011 د CKD مرحله 3 · اتیروجینک ډیسلیپیډیمیا · سیسټمیک لوپس اریتیماټوسس
Trap قضیې (2) BT-014، BT-015 د ګیلبرټ سنډروم (یوازېنی غیر مستقیم هایپربیلیروبینیمیا) · د لویانو لپاره په بشپړه توګه نورمال سکرین

ولې همدا ځانګړی وېش

هیماتولوژي درې قضیې ترلاسه کوي، ځکه چې مایکرو سایټیک افتراقیات او ماکرو سایټیک افتراقیات په واقعي نړۍ کې د لابراتوار په عمل کې تر ټولو د لوړ حجم «جالونه» دي. اندوکرینولوژي درې قضیې ترلاسه کوي، ځکه د هاشیموتو، PCOS، او د وټامین ډي کمښت وړاندې کېدنې بېلابېل تشخیصي شکلونه تمرینوي (د خودانتي‌بدن له لارې رهبري کېدونکی، د هورمون-تناسب له لارې رهبري کېدونکی، او د واحد-نښه له لارې رهبري کېدونکی). د یوې قضیې ځانګړې څانګې لا هم معنا لري، ځکه هر د CKD، د ASCVD خطر، او SLE خپل د نمرې ورکولو سیستم لري چې انجن باید وکاروي (په ترتیب سره د KDIGO سټیجینګ، د ASCVD 10 کلن خطر، او د 2019 EULAR/ACR SLE معیارونه).

مخکې ثبت شوی روبرک، تشریح شوی

مخکې له ثبت (Pre-registration) د دې بنچمارک تر ټولو مهمه میتودولوژیکه پرېکړه ده. هر متوقع تشخیص، هر کلینیکي نمره‌ورکوونکی سیستم، او هر راپور برخه د سرچینې کوډ ته ژمنه شوې وه مخکې له دې چې انجن وبلل شي. نو له ثبت وروسته د روبریک (rubric) داسې تنظیمول چې انجن ته «خوښ» راشي، له همدې امله ناممکن دي.

درې برخې د ګډ (composite) نمرې جوړوي. جوړښتي برخه (structural component) ۳۵ سلنه مرسته کوي او اندازه کوي چې ایا انجن اووه اجباري راپور برخې (سرلیک، لنډیز، مهمې موندنې، افتراقیات، د نمرې ورکولو سیستمونه، سپارښتنې، تعقیب) او په هغو کې شپاړس اجباري فرعي برخې بېرته راستانه کړې که نه. د برخې شتون ۴۰ سلنه وزن لري او د فرعي برخې شتون ۶۰ سلنه وزن لري، د جوړښتي محاسبې دننه.

د کلینیکي برخه (clinical component) ۵۵ سلنه مرسته کوي او درې شیان سره یوځای کوي: د تشخیص-کلیدي کلمې یادول (د کلینیکي فرعي نمرې ۷۰ سلنه)، د نمره‌ورکوونکي سیستم یادول (۲۰ سلنه — ایا انجن Mentzer، FIB-4، HOMA-IR، د ASCVD خطر، د KDIGO سټیجینګ، او د EULAR/ACR معیارونه محاسبه کوي چېرته چې اړوند وي)، او د احتمال-جمع اعتبار چک (۱۰ سلنه — د افتراقیاتو احتمالات باید د [90, 110] په منځ کې سره جمع شي). د جال (trap) قضیو لپاره، تر 0.30 پورې یو صریح «هایپر-تشخیص» جریمه کمه کېږي، چې د هر جوړ شوي رنځپوهنې بیرغ لپاره 0.10 حسابېږي او تر درې بیرغونو پورې محدود وي.

د د ځنډ برخه (latency component) ۱۰ سلنه مرسته کوي. د ۲۰ ثانیو نه کم ځواب بشپړ 0.10 اخلي، د ۴۰ ثانیو نه کم ځواب 0.05 اخلي، او هر څه وروتر صفر دی. د ۲۰ ثانیو هدف د تولید د لومړني primary-path خدمت-کچې موخې (service-level objective) منعکسوي؛ د ۴۰ ثانیو چت د درنې-انجن بلنې لپاره د دویم پړاو (Phase 2) بیک اپ بودیجې منعکسوي.

د MIT جواز لرونکي Kantesti بنچمارک هارنس وروستۍ سکرین‌شاټ چې چلېږي او د هرې قضیې نمرې تولیدوي
انځور ۳: په اجرا کې «هارنس» (harness). هره قضیه د A4 PDF په بڼه رینډر کېږي، د تولید v11 پای‌ته (endpoint) ته پورته کېږي، او د کنګل شوې روبریک پر بنسټ نمره اخلي. هر خام ځواب د مجموعي نمره‌پاڼې (scorecard) تر څنګ ساتل کېږي.

څه چې مخکې له ثبت (pre-registration) مخه نیسي

د لومړي-اړي (first-party) بنچمارکونه د post-hoc روبریک تنظیم له لارې د خپلو شمېرنو د پړسولو لپاره بدنام دي. الگو نږدې تل هماغه وي: ټیم انجن چلوي، ویني چېرته کمزوري فعالیت کوي، بیا په خاموشۍ سره روبریک داسې تنظیموي چې کم‌فعالې سیمې لږ حساب شي. د روبریک د سرچینې کوډ ته د لومړي انجن له بلنې مخکې ژمن کول او د MIT جواز لاندې د هارنس خپرول، دا تنظیم په د نسخې کنټرول (version control) کې ښکاره کوي. هر څوک کولی شي ذخیره (repository) کلون کړي، د روبریک د لیکوال نیټې وګوري، او تایید کړي چې د انجن پایلې د نمره‌اخستنې د شکل ورکولو لپاره نه دي کارول شوې.

د هایپرډایګنوسس (ډېر تشخیص) جال قضیې — ولې د ډېر زنګ وهلو (over-calling) اصلي ناکامي حالت دی

په عادي سکرینونو کې د رنځپوهنې په زور سره (aggressive) ډېر تشخیص کول د مصرف‌کوونکو پر مخ طبي مرستندویانو لپاره یو مستند ناکامي حالت دی. د هغې لاندیني لګښتونه پکې غیر ضروري څېړنه، د ناروغ اندېښنه، او iatrogenic (د درملنې له امله رامنځته شوې) ارزونه شامله ده. په دې بنچمارک کې دوه جال-قضیې داسې ډیزاین شوې چې دا ناکامي حالت ښکاره او د نمرې وړ وګرځوي.

د بې‌تجربې AI او Kantesti انجن تر څنګ پرتله: بې‌تجربه AI په ګیلبرټ سنډروم پینل کې هیپاتایټس جوړوي، خو Kantesti انجن په سمه توګه د UGT1A1 بې‌ضرره پولیمورفیزم پېژني
شکل ۴: د جال-قضیې ډیزاین. یو انجن چې په ډاډ سره د ګیلبرټ سنډروم د هیپاتایټس په توګه لیبل کړي، یا په بشپړ عادي سکرین کې سرحدي (borderline) رنځپوهنه جوړه کړي، جریمه کېږي — نه دا چې د کلینیکي غږولو لپاره انعام واخلي.

🟡 جال 1 — BT-014-GILBERT

وړاندې کېدنه (Presentation). یو ۲۴ کلن نارینه د ټول بلیروبین ۲.۴ mg/dL سره. مستقیمه برخه نورماله ده، ترانسامینازونه او الکالاین فاسفېټاز د خپلو حوالوي حدودو (reference ranges) دننه دي، رتیکولوسایټونه بې‌اهمیته دي، او هپټوګلوبین او LDH هیمولایزس ردوي.

سمه تشریح (Correct interpretation). د ګیلبرټ سنډروم — یو بې‌خطر UGT1A1 پولیمورفیزم. تشریح باید هیپاتایټس، سیرروسس، هیمولایټیک انیمیا، یا د صفرايي خنډ (biliary obstruction) ته استناد ونه کړي.

د V11 پایله. ګډه نمره 1.000. د شپږو څارل شوو (monitored) له‌ډېر-تشخیص (over-diagnosis) هیڅ یو بیرغ د فعال تشخیص په توګه نه ښکاره شو.

🟡 جال 2 — BT-015-HEALTHY

وړاندې کېدنه (Presentation). یوه ۳۵ کلنه ښځه د پنځلس-پارامیټر معمول routine سکرینینګ پینل سره. هر انالایټ په آرامۍ سره د خپل حوالوي حد (reference range) دننه دی.

سمه تشریح (Correct interpretation). د ډاډ ورکولو او د ژوند طرز ساتنه. تشریح باید داسې سرحدي رنځپوهنه جوړه نه کړي چې د کلینیکي ګټې لپاره بې ځایه “ګټور” ښکاره شي.

د V11 پایله. جامع 1.000. د اوو څارل شوو له‌ډېرو تشخیص-زیاتولو (over-diagnosis) نښو څخه—شکره، انیمیا، هایپوتایرایډیزم، ډیس‌لایپیډیمیا، هیپاتیت، د پښتورګو ناروغي، کمښت—هیڅ یو د فعال تشخیص په توګه نه و څرګند شوی.

په دواړو “ټراپ”ونو کې، دیارلس څارل شوې هایپرډایګنوسس (hyperdiagnosis) نښې وکتل شوې. هېڅ یوه فعاله نه شوه. دا هغه پایله ده چې د هر کلینیشن لپاره تر ټولو مهمه ده چې د AI انجن د ټرایج یا د مشورې نه مخکې د وسیلې په توګه کارولو ته پام کوي: سیستم داسې ناروغي نه ده ایجاد کړې چې شتون نه درلود.

د منتزر شاخص: د اوسپنې کموالي له thalassaemia trait څخه جلا کول

دویمه د لوړ ارزښت موندنه د قضیې BT-001 (د اوسپنې کمښت انیمیا) او قضیې BT-007 (د بیټا تالاسیمیا لږ ډول) د یوځای کېدو په اړه ده. دواړه د مایکروسایټوسس (microcytosis) سره وړاندې کېږي او دا د ناپوه طبقه‌بندونکو لپاره یوه ښه پېژندل شوې ستونزه ده. د Mentzer شاخص، چې د MCV په تقسیم د RBC شمېرې سره محاسبه کېږي، په د اوسپنې کمښت کې له 13 څخه لوړ او په تالاسیمیا ټرېټ کې له 13 څخه ټیټ وي.

په BT-001 کې، ناروغ ۳۴ کلنه ښځه وه چې HGB 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فیرټین 6 ng/mL، او لوړ TIBC درلود. د شاوخوا 17.7 Mentzer شاخص د مطلق اوسپنې کمښت ملاتړ کوي. په BT-007 کې، ناروغ ۲۸ کلن نارینه و چې مایکروسایټوسس (MCV 65.8 fL) درلود، خو د RBC شمېر یې 6.2 لوړه وه، RDW نورمال و، فیرټین نورمال و، او HbA2 یې 5.6 سلنه و. د شاوخوا 10.6 Mentzer شاخص د تالاسیمیا ټرېټ ته اشاره کوي، او لوړ HbA2 د بیټا-تالاسیمیا لږ ډول تاییدوي.

د اوسپنې کمښت انیمیا Mentzer > 13 ټیټ فیرټین، ټیټ TSAT، لوړ TIBC، لوړ RDW
د بیټا تالاسیمیا ټرېټ Mentzer < 13 نورمال فیرټین، نورمال RDW، لوړ HbA2 (>3.5%)، د RBC شمېر لوړ

دواړو قضیو 1.000 نمره واخیسته. انجن په دواړو تشریحاتو کې په ښکاره ډول د Mentzer شاخص وکاراوه او په هر حالت کې یې سم تشخیص راوویست. دا د ټول بنچمارک تر ټولو یو واحد کلینیکي ډاډمنوونکې پایله ده, ، ځکه چې د تالاسیمیا ټرېټ د اوسپنې کمښت په توګه غلط طبقه‌بندي کول د اوسپنې نامناسبه تکمیلي درملنه لامل کېږي او د کورنۍ-سکرینینګ فرصتونه له لاسه ورکوي، او د اوسپنې کمښت د تالاسیمیا په توګه غلط طبقه‌بندي کول د مستقیم بدیل درملنې ځنډ رامنځته کوي. زموږ د فیرټین رینج لارښود د پراخ افتراقی (differential) شرایطو تشریح کوي.

د ۲۰۲۶ کال د اپرېل د چلولو پر مهال د هرې قضیې پایلې

له پنځلسو قضیو څخه دولس د لومړني path پر سر د 1.000 جامع حد (ceiling) نمره ترلاسه کړه. درې قضیې د Phase 2 بیک‌اپ (fallback) له لارې خدمت شوې، چې د 0.05 د لاتنس بونس یې له لاسه ورکړ، خو ټول کلینیکي او جوړښتي منځپانګه یې وساتله. یوه قضیه یو واحد اجباري فرعي برخه نه درلوده؛ یوه یې د احتمالونو مجموعه په لږ ډول کمه راستانه کړه.

د قضیې پېژند (Case ID) تخصص (Specialty) ګډ (Composite) لاتنس (Latency) Path
BT-001-IDAهیماتولوژي1.00017.8 sprimary
BT-006-B12هیماتولوژي1.00018.4 ثانیېprimary
BT-007-THALهیماتولوژي1.00017.0 ثانیېprimary
BT-002-HASHانډوکراینولوژي0.95037.0 ثانیېبېرته تګ (fallback)
BT-008-PCOSانډوکراینولوژي0.98718.6 ثانیېprimary
BT-003-T2DMمیټابولیک1.00019.1 ثانیېprimary
BT-013-GOUTمیټابولیک1.00019.4 ثانیېprimary
BT-004-NAFLDهیپاتولوژي1.00019.6 ثانیېprimary
BT-009-VIRHEPهیپاتولوژي0.95023.4 ثانیېبېرته تګ (fallback)
BT-014-GILBERTجال (Trap)1.00018.9 ثانیېprimary
BT-005-CKDنیفولوژي1.00017.4 ثانیېprimary
BT-010-ASCVDکارډیولوژي1.00019.7 ثانیېprimary
BT-011-SLEروماتولوژي0.98118.2 ثانیېprimary
BT-012-VITDانډوکراینولوژي1.00019.3 ثانیېprimary
BT-015-HEALTHYجال (Trap)1.00018.7 ثانیېبېرته تګ (fallback)

د PCOS قضیه (BT-008) په ځواب جوړښت کې یو اجباري فرعي برخه له لاسه ورکړه — له شپاړس څخه پنځلس — چې د جوړښتي نمرې له 1.000 څخه 0.963 ته راکمه کړه. د SLE قضیه (BT-011) د احتمال-وېش د مجموعې په کچه لږ کموالی راوګرځاوه چې کلینیکي نمره یې 0.965 ته راټیټه کړه، خو هر تشخیصي کلیدي ټکی او د نمرې ورکولو سیستم یې وساته. هېڅ یوه نیمګړې قضیه سمه تشخیص له لاسه ورنکړ.

د سرلیک نمره موږ ته څه نه وايي

د دې ځانګړې مخکې ثبت شوې معیارنامې (روبرک) لاندې د 99.12 سلنې ګډه نمره نږدې-چت (near-ceiling) فعالیت ښيي، خو دقیق چوکاټ ته اړتیا لري. پایله د انجن چلند د پنځلسو په دقت ټاکل شوو بې‌نومو قضیو پر وړاندې تشریح کوي، چې هره یوه یې یو ځل ارزول شوې، د یوې واحدې معیارنامې په مقابل کې. موږ په ښکاره وایو چې دا شمېرنه څه ثابتوي او څه نه ثابتوي.

نمره وايي چې د V11 انجن د دې ارزونې لپاره ټاکل شوي تشخیصي بڼې په سمه توګه اداره کړې، په داسې میتودولوژۍ سره چې خپره شوې او د بیا تولید وړ ده. دا نه وايي چې انجن په ځنګل کې موجود هرې وینې ازموینې پینل کې سم دی. دا نه وايي چې انجن باید د ډاکټر/کلینیسین قضاوت ځای ونیسي. او دا هم نه وايي چې انجن د بدیلو AI سیستمونو څخه غوره دی — د نورو انجنونو پر وړاندې پرتله‌یزې شننې په قصدي ډول د دې راپور له دائره بهر وې.

هغه څه چې نمره یې ثابتوي، یو بنسټیز معیار (baseline) دی. ځکه چې معیارنامه او هارنس عامه دي، د انجن راتلونکې نسخې د هماغو پنځلسو قضیو پر وړاندې ارزول کېدای شي، او د خپرې شوې نمرې او د هرې ورپسې منډې ترمنځ تشه پخپله د اندازه کولو وړ ده. دا د مخکې ثبت (pre-registration) ارزښت دی: دا د فعالیت ادعاوې د ازمېښت وړ ادعاوو په بڼه بدلوي.

څنګه په ۱۰ دقیقو کې دا معیار بیا تولید کړو

بیا تولید یوازې د Kantesti API د اعتبار (credential) د جوړه او د Python 3.10 یا وروسته چاپېریال ته اړتیا لري، چې requests او reportlab کتابتونونه نصب وي. بشپړ هارنس یو واحد، ځان بسیا (self-contained) Python ماډول دی چې د MIT جواز (licence) لاندې خپور شوی.

د بیا تولید وړتیا شبکې ډیاګرام چې بنچمارک په Figshare، ResearchGate، Academia.edu او GitHub کې منعکس شوی، او د Figshare DOI د بنسټیزې نښې (canonical anchor) په توګه ښودل شوی
شکل ۵: بنچمارک په څلورو څېړنیزو پلیټ‌فارمونو کې منعکس شوی. د Figshare DOI بنسټیز علمي پېژندونکی (canonical scholarly identifier) دی؛ ResearchGate، Academia.edu، او GitHub موازي کاپۍ د کوډ او خامو معلوماتو سره کوربه کوي.

د نوې منډې لپاره څلور ګامونه

یو. د ذخیرې کلون کول (Clone the repository): git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. دوه. د انحصارونو نصبولو لپاره pip install -r requirements.txt. درې. وټاکئ KANTESTI_USERNAME او KANTESTI_PASSWORD د چاپېریال د متغیرونو په توګه — اعتبارونه د اجرا پر مهال لوستل کېږي او په سکریپټ کې هېڅ شی په سخت‌کوډ (hard-coded) نه دی. څلور. چل کړئ python benchmark_bloodtest.py او د کاري لارښود (working directory) ته د صادر شوو څلورو آثارو (artefacts) کتنه وکړئ: د CSV نمره‌پاڼه، د JSON نمره‌پاڼه، یو بشپړ JSON ډمپ چې پکې د خام انجن ځوابونه شامل وي، او یو د انسان‌لوست وړ Markdown راپور.

د ۲۳ اپرېل ۲۰۲۶ حواله چلونه (reference run) په results/ د ذخیره‌ځای (repository) په لارښود کې ساتل شوې ده. نوې چلونه به یو نوی ټایم‌سټمپ‌دار نمره‌پاڼه تولید کړي، خو د حواله چلونه به بې‌بدله پرېږدي. که ستاسو چلونه په مانا‌لرونکي ډول بېل نتیجه تولید کړي، مهرباني وکړئ د GitHub issue پرانیزئ چې پکې د چلونې ټایم‌سټمپ او د ځواب په میټاډاټا کې د انجن نسخه (engine version) شامل وي.

محدودیتونه او راتلونکې څېړنې

څلور محدودیتونه د واضح اعتراف وړ دي: د نمونې اندازه، واحد-وار ارزونه (single-shot evaluation)، د واحد انجن محدودیت (single-engine scope)، او د واحد سرچینې د معلوماتو اصل (single-source data origin). هر یو یې په روان تعقیبي کار کې حل کېږي.

د نمونې اندازه. د اتو تخصصي کټګوریو (specialty buckets) ترمنځ پنځلس قضیې د ثبوت-د-مفهوم لپاره کافي دي، خو د تخصص دننه د فرعي ګروپ تحلیل لپاره نه دي. د پنځوس قضیو پراختیا پلان شوې او پکې د coagulation پینلونه، د هیماتولوژیکي بدخیمۍ (haematological malignancy) سکرینینګ، د امیندوارۍ پینلونه، او د ماشومانو (paediatric) وړاندې کېدنې شاملې دي.

واحد-وار ارزونه. هره قضیه یوازې یو ځل ارزول شوې. د لوی ژبې ماډلونه حتی په ټیټه sampling temperature کې هم د محصول (output) د پام وړ بدلون (variance) ښيي، نو د هرې قضیې لپاره د پنځو ارزونو سره د څو-چلېدنې (multi-run) پروتوکول او د راپور شوې variance راتلونکی طبیعي ګام دی.

د واحد انجن محدودیت. دا راپور د یو انجن ځانګړتیاوې بیانوي. د بدیلو AI سیستمونو پر وړاندې مقایسوي تحلیلونه دلته د بحث له حوصلې (out of scope) بهر دي؛ ښايي موږ یې د مناسبې میتودولوژۍ سره د جلا خپلواکې مطالعې په توګه تعقیب کړو.

د واحد سرچینې د معلوماتو اصل. پنځلس قضیې د یو واحد کلینیکي ذخیره‌ځای (clinical repository) څخه اخیستل شوي ریښتیني ناروغ ریکارډونه دي چې بې‌نومه (anonymised) شوي. دا یو ټاکل شوی (curated) نمونه ده او د نفوس-استازیتوب (population-representative) تصادفي انتخاب نه استازیتوب کوي. د ارزونې تر څو-مرکزي (multi-centre) معلوماتو غځول په سړک‌لار (roadmap) کې دي.

تر ټولو اغېزمن پلان شوی غځول څو-ژبنۍ برابري (multi-language parity) ده. د Kantesti AI Engine کاروونکو ته په 75+ ژبو خدمت کوي، او د همدې پنځلس-قضیې harness په ترکیه‌یي، جرمني، هسپانوي، فرانسوي او عربي کې چلول به د انجن د ملاتړ شوو ژبو ترمنځ د محصول کیفیت اندازه کړي. موږ به هره ژبه-ځانګړې چلونه د خپل DOI او د harness څانګې (harness branch) سره خپروو.