ولې دا بنچمارک شتون لري او څه ازمېيي
د AI په مرسته د وینې ازموینې تشریح په زیاتېدونکي ډول د مصرفوونکو او کلینیکي کاري بهیرونو کې کارول کېږي، خو د لابراتوار طب لپاره ځانګړي، د بیا تولید وړ ارزونې چوکاټونه لا هم کم دي. په دې چاپېریال کې تر ټولو مهمې پوښتنې هغه نه دي چې د عمومي طبي پوښتنه-ځواب (question-answering) معیارونو کې پوښل کېږي: ایا انجن کولی شي د اوسپنې کموالی له تالاسیمیا ځانګړنې (trait) څخه بېل کړي کله چې د منځني کروی حجرو حجم (MCV) یو شان وي، ایا د ګیلبرټ سنډروم د هیپاتیت په توګه ډېر تشخیص کوي، او ایا په بشپړ نورمال سکرینینګ پینل کې رنځپوهنه جوړوي؟
د وینې یو واحد ازموینې پینل عموماً دومره معلومات لري چې د څو بېلابېلو تفسیرونو ملاتړ وکړي، او د تفسیر کوونکي ډاکټر دنده دا ده چې دا تفسیرونه یو له بل سره وزن کړي، نه دا چې د کتاب په شان یو واحد ځواب راوباسي. هغه انجن چې په کتابي قضیو کې ښه کار کوي، بیا هم په هغو قضیو کې ناکامېدای شي چې تر ټولو مهمې دي: د افتراقی تشخیص (differential-diagnosis) جالونه، هغه بې ضرره بدلونونه چې په یوازې توګه خطرناک ښکاري، او بشپړ نورمال پینلونه چې باوري مرستندویان اړ باسي چې رنځپوهنه (pathology) جوړه کړي.
دا بنچمارک دقیقاً د همدغو ناکامیو حالتونو پر بنسټ جوړ شوی و. په پنځلسو قضیو کې هره قضیه د یوې ځانګړې تشخیصي ځانګړتیا لپاره ټاکل شوې وه: د اوسپنې کموالي له امله مایکرو سایټوسس (microcytosis) چې باید د ورته mean corpuscular volume لرونکي beta-thalassaemia trait څخه بېل وساتل شي؛ د ګیلبرټ سنډروم (Gilbert's syndrome) داسې بڼه چې یوازینی غیرعادي حالت یې د یوازې indirect hyperbilirubinaemia درلودل وي؛ او یو پنځلس-پارامیټره سکرینینګ پینل چې په کې هر تحلیلګر (analyte) د خپل مرجع حد (reference range) دننه وي. روبرک (rubric) هغه انجنونه انعاموي چې هره قضیه په خپلو شرایطو کې لولي، او هغه انجنونه مجازاتوي چې داسې باوري تشخیص ته ورسېږي چې د همدغې تشخیص لپاره هېڅ توجیه نه وي.
د ډاکټر توماس کلاین (Thomas Klein, MD) په توګه، ما د قضیو دا پینل غوره کړ ځکه دا هغه بڼې دي چې د لابراتوار-طب (laboratory-medicine) مرستندویان تر ټولو ډېرې وختونه غلطوي. ګران ناکامي دا نه ده چې "یو نادره ناروغي له لاسه ورکړي" — بلکې دا ده چې په هغو ناروغانو کې عادي رنځپوهنه (routine pathology) جوړ کړي چې دا ناروغي نه لري. زموږ طبي اعتبار hub د پراخ چوکاټ تشریح کوي؛ دا پاڼه د V11 لومړنۍ ثبوت-د-مفهوم او د V11 دویمې تازهکارۍ تشریح کوي چې دا یې تر 100,000 مصنوعي قضیو پورې پراخ کړ—د 127 د هېواد لیبلونو په اوږدو کې د یوې مصنوعي قضیې سیټ څخه اخیستل شوې—د هماغه نمره-ورکوونکې روبریک په کارولو سره، بایټ-په-بایټ، او د وروسته-له-حقیقت تنظیم (post-hoc tuning) اجازه نه شته.
وروستۍ حواله شوې (reference) اجرا — V11 دوهم اپډېټ (اپرېل 26، 2026)
د V11 دوهم اپډېټ حواله شوې اجرا د 26 اپرېل 2026 پر 26 نېټه د 99.80% پر هماغه مخکې ثبت شوې روبریک باندې، چې د V11 لومړني خپرونې لپاره کارول شوې وه، ارزول شوې 100,000 مصنوعي قضیې د Kantesti مصنوعي قضیې سیټ څخه اخیستل شوې او په اوږدو کې یې 127 د هېواد لیبلونه او 75+ ژبو پورې غځېدلې. هره قضیه د انجن د لومړني مسیر (primary path) له لارې بشپړه شوه؛ د trap-case هایپرډایګنوسس (hyperdiagnosis) د بیرغ فعالېدل په 0 / 87,412. کې پاتې شول. د V11 اصلي اجرا پر 23 اپرېل 2026 کې 15 په لاس ټاکل شوې (hand-curated) قضیې شاملې وې (ترکیبي 99.12%) او روبریک یې تایید کړ؛ دوهم اپډېټ هماغه روبریک بایټ-یوشان ساتي او ارزونه یې د نفوس-کچې کوهورټ ته غځوي.
ګډ فورمول درې برخې سره یوځای کوي: جوړښتي سمون (structural conformance) د اوو اجباري راپور برخو او شپاړسو اجباري فرعي برخو سره،, د منځپانګې دقت د keyword recall تر څنګ د scoring-system recall او د احتمال-وېش د اعتبار (probability-distribution validity) د چک په اندازه، او د ځواب ځنډ (response latency) د لومړني-مسیر د خدمت-کچې (service-level) هدف پر وړاندې. د دقیق تجزیه (decomposition) بڼه لاندې د روبریک په فورمول کې ښودل شوې—د دوهم اپډېټ لپاره له دې وزنونو یا فرعي-روبریکونو څخه هېڅ هم نه دي بدل شوي.
د سر-حد (headroom) پاتې 0.20 سلنه ټکي نږدې ټول د کلینیکي فرعي-سکور (clinical sub-score) له لارې تجزیه کېږي—د قضیو لږه برخه (په ځانګړي ډول په Hepatology او Rheumatology کې) داسې یو تمه شوی سکورنګ-سیستم کلیدي کلمه نه درلوده چې د انجن په تفسیر کې ورکه شوې وه، سره له دې چې د تشخیص منځپانګه سمه وه. د 100,000-قضیو دوهم-اپډېټ کوهورټ کې هېڅ یوه قضیه پخپله تشخیص له لاسه نه دی ورکړی. ځنډ (Latency) د V11 لومړني خپرونې کې د اوسط 20.17 s څخه په دوهم اپډېټ کې 13.26 s ته ښه شوی؛ دا د دوو اجراوو ترمنځ د تولیدي انجن (production engine) د اصلاحاتو ښکارندویي کوي؛ روبریک، د سکورنګ کوډ، او د API پای ټکی (endpoint) نه دي بدل شوي.
د هر لیبل ترکیبي نمرې د 30 تر ټولو ډېر استازیتوب لرونکو د هېواد لیبلونو په اوږدو کې له 0.9971 څخه تر 0.9985 پورې وې. د 97 نورو لیبلونو اوږده لکۍ (شاوخوا 7,300 قضیې په ګډه) کومه سیستماتیک خرابوالی نه ښود. د قضیو د شمېر له مخې تر ټولو پرلهپسې لیبلونه د امریکا متحده ایالات (10,500)، برازیل (9,500)، هسپانیه (9,000)، ایټالیا (8,000)، جرمني (7,800)، فرانسه (7,400)، پرتګال (5,800)، Türkiye (3,400)، انګلستان (2,900)، او مکسیکو (2,500) وو.
له 15 قضیو څخه تر 100,000 پورې: د 127 د هېواد لیبلونو په اوږدو کې د کوهورټ تکامل
اصلي V11 د قضیو پینل اووه تخصصونه پوښلي وو — هیماتولوجي، اندوکرینولوجي، میتابولیک طب، هیپاتولوجي، نیفروجولوجي، کارډیولوجي، روماتولوجي — او همدارنګه دوه ځانګړي هایپرډایګنوسس ټراپ قضیې، چې هره قضیه د وینې-ټیسټ یو مصنوعي جوړ شوی پینل و. V11 دویم تازهکاري ارزونه تر 100,000 مصنوعي قضیو پورې غځوي په 127 د هېواد لیبلونو کې, او په اتو تخصصونو کې وېشل شوې (اصلي اووه + یو ځانګړی داخلي-طب (internal-medicine) بکس چې د trap فرعي-سیټ جذبوي). هماغه سکورنګ روبریک په دواړو اجراوو کې بایټ-یوشان پلي کېږي.
ځکه ټولې قضیې په مصنوعي ډول جوړې شوې دي، د لرې کولو لپاره حقیقي پېژندونکي نشته او هېڅ شخصي معلومات پکې شامل نه دي. هر مصنوعي قضیه د بنچمارک-داخلي قضیې کوډ لري (BT-NNN-LABEL په V11 لومړني سیټ کې، یو باثباته case_uid په دویمه تازهکارۍ کې). هېڅ شخصي معلومات د خپاره شوي هارنس، تخنیکي راپور، یا خپرو شویو ډیټاسیټونو کې نه ښکاري.
V11 لومړني خپرونې سره سم ترسره شو — 15 په لاس ټاکل شوې قضیې
د V11 اصلي قضیې پینل د ډاکټر توماس کلاین له خوا په لاسي ډول غوره شوی و، تر څو هغه تشخیصي بڼې تمرین کړي چې د لابراتوار-طب معاونین تر ټولو زیاتې غلطې کوي. هره له پنځلسو قضیو څخه د لاندې لست شوې یوې ځانګړې تشخیصي ځانګړنې لپاره غوره شوې وه.
ولې همدا ځانګړی وېش
هیماتولوژي درې قضیې ترلاسه کوي، ځکه چې مایکرو سایټیک افتراقیات او ماکرو سایټیک افتراقیات په واقعي نړۍ کې د لابراتوار په عمل کې تر ټولو د لوړ حجم «جالونه» دي. اندوکرینولوژي درې قضیې ترلاسه کوي، ځکه د هاشیموتو، PCOS، او د وټامین ډي کمښت وړاندې کېدنې بېلابېل تشخیصي شکلونه تمرینوي (د خودانتيبدن له لارې رهبري کېدونکی، د هورمون-تناسب له لارې رهبري کېدونکی، او د واحد-نښه له لارې رهبري کېدونکی). د یوې قضیې ځانګړې څانګې لا هم معنا لري، ځکه هر د CKD، د ASCVD خطر، او SLE خپل د نمرې ورکولو سیستم لري چې انجن باید وکاروي (په ترتیب سره د KDIGO سټیجینګ، د ASCVD 10 کلن خطر، او د 2019 EULAR/ACR SLE معیارونه).
V11 دویم تازهکاري — 100,000 مصنوعي قضیې په 127 د هېواد لیبلونو کې
دویمه تازهکاري اصلي V11 سخت-کوډ شوی 15-قضیه Python لفظ د یوې لویې، په پروګراماتیک ډول جوړې شوې مصنوعي قضیې سیټ سره بدلوي. د قضیې سیټ د هر چلولو په پیل کې پورته کېږي او د شفافیت لپاره تشکیلات ثبت کېږي. د کوهورټ وېش د منځپانګې له ساحې سره لاندې ښودل شوی.
مصنوعي د هېواد-لیبل وېش — د غوره 10 لیبلونو
د 100,000 مصنوعي قضیو سره 127 د هېواد لیبلونه (ISO 3166-1 alpha-2) وړل کېږي ترڅو د ځایي (locale) سمبالښت ازمېښت وشي. د لیبل ټاکنه: اروپا 57.7%، امریکاګان 25.4%، اسیا-پاسیفیک 6.2%، د منځني-ختیځ/افریقا نومول شوي لیبلونه 3.4%، او د 97 نورو لیبلونو اوږده لکۍ په ګډه نږدې 7.3% جوړوي. د قضیو د شمېر له مخې لس تر ټولو پرلهپسې لیبلونه د امریکا متحده ایالات (10,500)، برازیل (9,500)، هسپانیه (9,000)، ایټالیا (8,000)، جرمني (7,800)، فرانسه (7,400)، پرتګال (5,800)، Türkiye (3,400)، انګلستان (2,900)، او مکسیکو (2,500) دي. د هر لیبل ترکیبي نمرې له 0.9971 څخه تر 0.9985 پورې وې. دا د لیبل شمېرې د تولید شویو قضیو ځانګړتیاوې دي چې د ځایي سمبالښت لپاره کارول کېږي — دا ریښتیني کاروونکي نه دي او نه هم د نړۍ-په-کچه جغرافیایي پوښښ.
مخکې ثبت شوی روبرک، تشریح شوی
مخکې له ثبت (Pre-registration) د دې بنچمارک تر ټولو مهمه میتودولوژیکه پرېکړه ده. هر متوقع تشخیص، هر کلینیکي نمرهورکوونکی سیستم، او هر راپور برخه د سرچینې کوډ ته ژمنه شوې وه مخکې له دې چې انجن وبلل شي. نو له ثبت وروسته د روبریک (rubric) داسې تنظیمول چې انجن ته «خوښ» راشي، له همدې امله ناممکن دي.
درې برخې د ګډ (composite) نمرې جوړوي. جوړښتي برخه (structural component) ۳۵ سلنه مرسته کوي او اندازه کوي چې ایا انجن اووه اجباري راپور برخې (سرلیک، لنډیز، مهمې موندنې، افتراقیات، د نمرې ورکولو سیستمونه، سپارښتنې، تعقیب) او په هغو کې شپاړس اجباري فرعي برخې بېرته راستانه کړې که نه. د برخې شتون ۴۰ سلنه وزن لري او د فرعي برخې شتون ۶۰ سلنه وزن لري، د جوړښتي محاسبې دننه.
د کلینیکي برخه (clinical component) ۵۵ سلنه مرسته کوي او درې شیان سره یوځای کوي: د تشخیص-کلیدي کلمې یادول (د کلینیکي فرعي نمرې ۷۰ سلنه)، د نمرهورکوونکي سیستم یادول (۲۰ سلنه — ایا انجن Mentzer، FIB-4، HOMA-IR، د ASCVD خطر، د KDIGO سټیجینګ، او د EULAR/ACR معیارونه محاسبه کوي چېرته چې اړوند وي)، او د احتمال-جمع اعتبار چک (۱۰ سلنه — د افتراقیاتو احتمالات باید د [90, 110] په منځ کې سره جمع شي). د جال (trap) قضیو لپاره، تر 0.30 پورې یو صریح «هایپر-تشخیص» جریمه کمه کېږي، چې د هر جوړ شوي رنځپوهنې بیرغ لپاره 0.10 حسابېږي او تر درې بیرغونو پورې محدود وي.
د د ځنډ برخه (latency component) ۱۰ سلنه مرسته کوي. د ۲۰ ثانیو نه کم ځواب بشپړ 0.10 اخلي، د ۴۰ ثانیو نه کم ځواب 0.05 اخلي، او هر څه وروتر صفر دی. د ۲۰ ثانیو هدف د تولید د لومړني primary-path خدمت-کچې موخې (service-level objective) منعکسوي؛ د ۴۰ ثانیو چت د درنې-انجن بلنې لپاره د دویم پړاو (Phase 2) بیک اپ بودیجې منعکسوي.
څه چې مخکې له ثبت (pre-registration) مخه نیسي
د لومړي-اړي (first-party) بنچمارکونه د post-hoc روبریک تنظیم له لارې د خپلو شمېرنو د پړسولو لپاره بدنام دي. الگو نږدې تل هماغه وي: ټیم انجن چلوي، ویني چېرته کمزوري فعالیت کوي، بیا په خاموشۍ سره روبریک داسې تنظیموي چې کمفعالې سیمې لږ حساب شي. د روبریک د سرچینې کوډ ته د لومړي انجن له بلنې مخکې ژمن کول او د MIT جواز لاندې د هارنس خپرول، دا تنظیم په د نسخې کنټرول (version control) کې ښکاره کوي. هر څوک کولی شي ذخیره (repository) کلون کړي، د روبریک د لیکوال نیټې وګوري، او تایید کړي چې د انجن پایلې د نمرهاخستنې د شکل ورکولو لپاره نه دي کارول شوې.
د هایپرډایګنوسس (ډېر تشخیص) جال قضیې — ولې د ډېر زنګ وهلو (over-calling) اصلي ناکامي حالت دی
په عادي سکرینونو کې د رنځپوهنې په زور سره (aggressive) ډېر تشخیص کول د مصرفکوونکو پر مخ طبي مرستندویانو لپاره یو مستند ناکامي حالت دی. د هغې لاندیني لګښتونه پکې غیر ضروري څېړنه، د ناروغ اندېښنه، او iatrogenic (د درملنې له امله رامنځته شوې) ارزونه شامله ده. په دې بنچمارک کې دوه جال-قضیې داسې ډیزاین شوې چې دا ناکامي حالت ښکاره او د نمرې وړ وګرځوي.
🟡 جال 1 — BT-014-GILBERT
وړاندې کېدنه (Presentation). یو ۲۴ کلن نارینه د ټول بلیروبین ۲.۴ mg/dL سره. مستقیمه برخه نورماله ده، ترانسامینازونه او الکالاین فاسفېټاز د خپلو حوالوي حدودو (reference ranges) دننه دي، رتیکولوسایټونه بېاهمیته دي، او هپټوګلوبین او LDH هیمولایزس ردوي.
سمه تشریح (Correct interpretation). د ګیلبرټ سنډروم — یو بېخطر UGT1A1 پولیمورفیزم. تشریح باید هیپاتایټس، سیرروسس، هیمولایټیک انیمیا، یا د صفرايي خنډ (biliary obstruction) ته استناد ونه کړي.
د V11 پایله. ګډه نمره 1.000. د شپږو څارل شوو (monitored) لهډېر-تشخیص (over-diagnosis) هیڅ یو بیرغ د فعال تشخیص په توګه نه ښکاره شو.
🟡 جال 2 — BT-015-HEALTHY
وړاندې کېدنه (Presentation). یوه ۳۵ کلنه ښځه د پنځلس-پارامیټر معمول routine سکرینینګ پینل سره. هر انالایټ په آرامۍ سره د خپل حوالوي حد (reference range) دننه دی.
سمه تشریح (Correct interpretation). د ډاډ ورکولو او د ژوند طرز ساتنه. تشریح باید داسې سرحدي رنځپوهنه جوړه نه کړي چې د کلینیکي ګټې لپاره بې ځایه “ګټور” ښکاره شي.
د V11 پایله. جامع 1.000. د اوو څارل شوو لهډېرو تشخیص-زیاتولو (over-diagnosis) نښو څخه—شکره، انیمیا، هایپوتایرایډیزم، ډیسلایپیډیمیا، هیپاتیت، د پښتورګو ناروغي، کمښت—هیڅ یو د فعال تشخیص په توګه نه و څرګند شوی.
په دواړو “ټراپ”ونو کې، دیارلس څارل شوې هایپرډایګنوسس (hyperdiagnosis) نښې وکتل شوې. هېڅ یوه فعاله نه شوه. دا هغه پایله ده چې د هر کلینیشن لپاره تر ټولو مهمه ده چې د AI انجن د ټرایج یا د مشورې نه مخکې د وسیلې په توګه کارولو ته پام کوي: سیستم داسې ناروغي نه ده ایجاد کړې چې شتون نه درلود.
د منتزر شاخص: د اوسپنې کموالي له thalassaemia trait څخه جلا کول
دویمه د لوړ ارزښت موندنه د قضیې BT-001 (د اوسپنې کمښت انیمیا) او قضیې BT-007 (د بیټا تالاسیمیا لږ ډول) د یوځای کېدو په اړه ده. دواړه د مایکروسایټوسس (microcytosis) سره وړاندې کېږي او دا د ناپوه طبقهبندونکو لپاره یوه ښه پېژندل شوې ستونزه ده. د Mentzer شاخص، چې د MCV په تقسیم د RBC شمېرې سره محاسبه کېږي، په د اوسپنې کمښت کې له 13 څخه لوړ او په تالاسیمیا ټرېټ کې له 13 څخه ټیټ وي.
په BT-001 کې، ناروغ ۳۴ کلنه ښځه وه چې HGB 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فیرټین 6 ng/mL، او لوړ TIBC درلود. د شاوخوا 17.7 Mentzer شاخص د مطلق اوسپنې کمښت ملاتړ کوي. په BT-007 کې، ناروغ ۲۸ کلن نارینه و چې مایکروسایټوسس (MCV 65.8 fL) درلود، خو د RBC شمېر یې 6.2 لوړه وه، RDW نورمال و، فیرټین نورمال و، او HbA2 یې 5.6 سلنه و. د شاوخوا 10.6 Mentzer شاخص د تالاسیمیا ټرېټ ته اشاره کوي، او لوړ HbA2 د بیټا-تالاسیمیا لږ ډول تاییدوي.
دواړو قضیو 1.000 نمره واخیسته. انجن په دواړو تشریحاتو کې په ښکاره ډول د Mentzer شاخص وکاراوه او په هر حالت کې یې سم تشخیص راوویست. دا د ټول بنچمارک تر ټولو یو واحد کلینیکي ډاډمنوونکې پایله ده, ، ځکه چې د تالاسیمیا ټرېټ د اوسپنې کمښت په توګه غلط طبقهبندي کول د اوسپنې نامناسبه تکمیلي درملنه لامل کېږي او د کورنۍ-سکرینینګ فرصتونه له لاسه ورکوي، او د اوسپنې کمښت د تالاسیمیا په توګه غلط طبقهبندي کول د مستقیم بدیل درملنې ځنډ رامنځته کوي. زموږ د فیرټین رینج لارښود د پراخ افتراقی (differential) شرایطو تشریح کوي.
د V11 لومړني حوالوي چل (April 23, 2026) څخه د قضیې-په-قضیه پایلې
د ۱۵-قضیه د ثبوت-په-مفهوم (proof-of-concept) کوهورټ پر بنسټ اصلي V11 حوالوي چل د میتودولوژیکي بنسټ دی د دویم اپډېټ لپاره: لاندې هره قضیه-په-قضیه جزیات ښيي چې روبریک څنګه د یوې واقعي انجن ځواب سره چلند کوي. له پنځلسو څخه دولس قضیې د لومړني مسیر (primary path) پر سر د 1.000 چت (ceiling) ګډ نمرې ته ورسېدې؛ درې قضیې د Phase 2 بیک اپ (fallback) له لارې خدمت شوې، د 0.05 latency بونس یې له لاسه ورکړ خو ټول کلینیکي او جوړښتي (structural) منځپانګه یې وساتله. یوه قضیه یو واحد اجباري فرعي برخه (subsection) نه درلوده؛ یوه یې د احتمال وېش (probability distribution) مجموعه په لږه کچه کمه راستانه کړه.
د PCOS قضیه (BT-008) په ځواب جوړښت کې یو اجباري فرعي برخه له لاسه ورکړه — له شپاړس څخه پنځلس — چې د جوړښتي نمرې له 1.000 څخه 0.963 ته راکمه کړه. د SLE قضیه (BT-011) د احتمال-وېش د مجموعې په کچه لږ کموالی راوګرځاوه چې کلینیکي نمره یې 0.965 ته راټیټه کړه، خو هر تشخیصي کلیدي ټکی او د نمرې ورکولو سیستم یې وساته. هېڅ یوه نیمګړې قضیه سمه تشخیص له لاسه ورنکړ.
V11 دویم اپډېټ مجموعي — 100,000 قضیې
په د نفوس په کچه کې، د هرې قضیې انفرادي قطارونه د انسان لپاره د لوستلو وړ نه دي، نو دویمه تازهکاري د 100,000-قطار جدول پر ځای مجموعي شاخصونه راپوروي. اصلي سرلیک-مجموعه لاندې ښودل شوې؛ د هر تخصص او د هر هېواد-لیبل تفکیکونه په تخنیکي راپور او د Figshare په زیرمه کې خپاره شوي. د طبقهبندي شوي تصادفي نمونه د n = 201 خام انجن ځوابونه (قطعي seed 20260426) د کتنې لپاره په GitHub results/ ډایرکټرۍ کې خپاره شوي.
د سرلیک نمره موږ ته څه نه وايي
د دې ځانګړې مخکې ثبت شوې روبریک لاندې د 99.80 سلنې ترکیبي نمرې، په 100,000-قضیه مصنوعي کوهورټ کې چې 127 د هېواد لیبلونه پوښي، د نږدې-چت (near-ceiling) فعالیت استازیتوب کوي — خو دا باید په احتیاط سره چوکاټبندي شي. پایله د انجن چلند د هغه روبریک پر وړاندې تشریح کوي چې موږ په V11 کې یې سرچینې کوډ ته ژمنه کړې؛ دا د انجن د هر هغه وینې-ټیسټ پینل په اړه نړیواله ادعا نه ده چې په واقعیت کې شتون لري.
نمره وايي چې انجن د دې ارزونې لپاره ټاکل شوي تشخیصي الګوګانې په نفوس کچه کې په سمه توګه اداره کړې، په داسې میتودولوژۍ سره چې خپره شوې او د بیا تولید وړ (reproducible) ده. دا نه وايي چې انجن د نړۍ په هر موجود د وینې ازموینې پینل کې سم دی. دا نه وايي چې انجن باید د ډاکټر/کلینیسین قضاوت ځای ونیسي. او دا هم نه وايي چې انجن د بدیلو AI سیستمونو څخه غوره دی — د نورو انجنونو پر وړاندې پرتلهیزې شننې په قصدي ډول د دې راپور له دائره بهر وې.
هغه څه چې نمره یې ثابتوي یو بنسټیز معیار (baseline) دی. د معیارنامې او هارنس (harness) له عامېدو سره، د انجن راتلونکې نسخې د هماغه معیارنامې پر وړاندې ارزول کېدای شي — د V11 لومړنیو 15 قضیو، د دویم تازهکول 100,000 قضیو ډلې، یا هرې ورپسې پراختیا سره — او د خپرې شوې نمرې او د هرې ورپسې منډې ترمنځ تشه پخپله د اندازه کېدو وړ ده. دا د مخکې ثبت (pre-registration) ارزښت دی: دا د فعالیت ادعاوې د ازمېښت وړ ادعاوو په بڼه بدلوي.
څنګه په ۱۰ دقیقو کې دا معیار بیا تولید کړو
بیا تولید یوازې د Kantesti API د اعتبار (credential) د جوړه او د Python 3.10 یا وروسته چاپېریال ته اړتیا لري، چې requests او reportlab کتابتونونه نصب وي. بشپړ هارنس یو واحد، ځان بسیا (self-contained) Python ماډول دی چې د MIT جواز (licence) لاندې خپور شوی.
د نوې منډې لپاره څلور ګامونه
یو. د ذخیرې کلون کول (Clone the repository): git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. دوه. د انحصارونو نصبولو لپاره pip install -r requirements.txt (دویم تازهکول زیاتوي mysql-connector-python ≥ 8.0 د SQL قضیې لوډر لپاره). درې. وټاکئ KANTESTI_USERNAME او KANTESTI_PASSWORD د انجن API لپاره د چاپېریال متغیرونو (environment variables) په توګه. د دویم تازهکول د SQL قضیې لوډر لپاره هم دا تنظیم کړئ: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، او KANTESTI_DB_PASSWORD — لوډر د یوازې-لوست (read-only) رول له لارې نښلوي (bench_reader) چې د جدولونو د پېژندنې پر حقونو (privileges) نه لري. څلور. چل کړئ python benchmark_bloodtest.py --limit 100000 د بشپړ Second-Update چلولو لپاره، یا python benchmark_bloodtest.py --limit 1000 د چټک تکرار (iteration) لپاره. پایلې په ./benchmark_results/: د CSV scorecard چې په کې د هر هېواد-لیبل او هر تخصص لپاره کالمونه وي، یو JSON مجموعي (aggregate)، د stratified-random خام-ځواب نمونه، او یو Markdown راپور.
د ۲۳ اپرېل ۲۰۲۶ (V11 لومړنی، ۱۵ قضیې) او د ۲۶ اپرېل ۲۰۲۶ (V11 Second Update، ۱۰۰،۰۰۰ قضیې) حواله چلونې (reference runs) په results/ د ذخیرهځای (repository) په لارښود کې ساتل شوې دي. نوې چلونه به نوې ټایمسټیمپ شوې نمرهپاڼه تولید کړي، خو حواله چلونې به بېله بدلون څخه پرېږدي. که ستاسو چلونه په مانالرونکي ډول بېل نتیجه تولید کړي، نو مهرباني وکړئ د GitHub issue پرانیزئ چې د چلونې ټایمسټیمپ او د ځواب په metadata کې د راستنې شوې انجن نسخه (engine version) پکې وي.
محدودیتونه او راتلونکې څېړنې
حتی د 127 هېواد-لیبلونو ترمنځ په 100,000 قضیو کې، څلور محدودیتونه د واضح اعتراف وړ دي: د long-tail لیبلونو کم-نمونه اخیستل، د واحد-ځلي ارزونه، د واحد-انجن ساحه، او د واحد-سرچینې د معلوماتو اصل. دا هر یو په فعاله تعقیبي (follow-up) څېړنه کې حل کېږي.
د long-tail لیبل پوښښ. دویم تازهوالی (Second Update) د 127 هېواد-لیبلونو په اوږدو کې دی، خو وېش یې نابرابر دی — لومړني 10 لیبلونه د ≈66.4% قضیو برخه جوړوي، او د 97 نورو لیبلونو long tail په ګډه ≈7.3% (شاوخوا 7,300 قضیې، او په اوسط ډول ~75 قضیې په هر لیبل) مرسته کوي. نو ځکه په دې long tail کې د هر-لیبل composite پایلې د سرلیکي ارقامو په پرتله ډېرې شورجنې (noisier) دي. راتلونکې منډې به د لیبل ټاکنې بیا توازن کړي تر څو د هر-لیبل اټکلونه کلک (firm up) شي.
واحد-وار ارزونه. د همغږۍ (cohort) هره قضیه یو ځل ارزول شوې. لوی ژبني ماډلونه حتی په ټیټه sampling temperature کې هم د محصول (output) د پام وړ بدلون (variance) ښيي، نو د هرې قضیې لپاره پنځه ارزونې او د راپور شوې variance سره څو-چلېدونکی پروتوکول (multi-run protocol) طبیعي راتلونکی ګام دی — په ځانګړي ډول د trap-case فرعي ټولګې (subset) کې، چې د sampling jitter پر مهال ثبات د خوندیتوب (safety) ادعا برخه ده.
د واحد انجن محدودیت. دا راپور د یو انجن ځانګړتیاوې بیانوي. د بدیلو AI سیستمونو پر وړاندې مقایسوي تحلیلونه دلته د بحث له حوصلې (scope) بهر دي؛ ښايي موږ یې د ورته MIT-جواز لرونکي (MIT-licensed) harness په کارولو سره د مناسبې مېتودولوژۍ په درلودلو د یوې جلا خپلواکې مطالعې په توګه تعقیب کړو.
مصنوعي معلومات (Synthetic data). 100,000 قضیې په مصنوعي ډول تولید شوې دي، نه دا چې مصنوعي قضیې وي، او پایلې یې د واقعي نړۍ کلینیکي فعالیت ته نه انتقالېږي. په واقعي، رضایتورکوونکو (consented)، له بهر څخه سرچینه اخیستو (externally-sourced) معلوماتو ارزونه به مناسب اخلاقي څارنې ته اړتیا ولري او د دې مصنوعي بنچمارک له ساحې (scope) بهر ده.
له دې څلورو هاخوا، تر ټولو اغېزمن پلان شوی غځول د هرې قضایي حوزې لپاره څو-ژبي برابري (multi-language parity) ده. د Kantesti AI Engine کاروونکو ته په 75+ ژبو خدمت کوي، او د ژبې-طبقهبندي شویو Second-Update فرعي همغږیو (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) چلول به د انجن د ملاتړ شویو ژبو ترمنځ د محصول کیفیت (output quality) اندازه کړي. هره ژبې-طبقهبندي شوې تحلیل به د خپل DOI او د harness څانګې (branch) سره خپور شي.