د AI په مرسته د وینې تحلیل بنچمارک

کلینیکي اعتبار مخکې ثبت شوی بنچمارک V11 دویم تازه‌والی — اپرېل ۲۰۲۶ د MIT جواز لرونکی د همکارانو له خوا د تایید وړ 100K کوهورټ · 127 هېوادونه

99.80% ګډ امتیاز په یوه مخکې ثبت شوې روبریکه — V11 دویم تازه‌والی، د 100,000 قضیو کوهورټ په 127 هېوادونو کې

د Kantesti د AI انجن لپاره یوه مخکې ثبت شوې، روبریکه‌پر بنسټ کلینیکي ارزونه د 100,000 بې‌نومه اصلي ناروغانو د وینې د ازموینې قضیو پر بنسټ، چې د SQL پر بنسټ کلینیکي زېرمتون څخه اخیستل شوې دي او په 127 هېوادونو کې خپره ده. روبریکه مخکې له دې چې V11 لومړنی خپرېدل وشي په سرچینې کوډ کې کنګل شوې وه او د دې دویم تازه‌والي لپاره بایټ-په-بایټ ورته ساتل شوې؛ د ارزونې چوکاټ MIT جواز لري؛ د انجن د خامو ځوابونو یو طبقه‌بندي شوی تصادفي نمونه د کتنې لپاره خپره شوې ده.

📖 ~14 دقیقې 📅 خپور شوی: ۲۳ اپرېل ۲۰۲۶ · تازه شوی: ۲۶ اپرېل ۲۰۲۶ (V11 دویم تازه‌والی) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 خپور شوی: اپریل 23, 2026 🔄 V11 دویم تازه‌والی: اپریل 26, 2026 🩺 په طبي ډول بیاکتل شوی: اپریل 26, 2026 ✅ مخکې ثبت شوې روبریکه (بایټ-په-بایټ) 🔓 خلاص کوډ او ډاټا

دا کلینیکي تاییدي څېړنه د ډاکټر توماس کلاین، ایم ډي, ، د Kantesti AI مشر طبي افسر (Chief Medical Officer) لخوا، په همکارۍ سره د جولیان امیرخان بولوت, ، د Kantesti Ltd لوړ پوړي AI انجنیر او CEO. میتودولوژي او روبرک د د کانټیسټي AI طبي مشورتي بورډ.

مخکښ لیکوال او کلینیکي څار

توماس کلاین، ایم ډي

د کانټیستی AI مشر طبي افسر

ډاکټر توماس کلاین یو د بورډ له خوا تصدیق شوی کلینیکي هیماتولوجیست او انټرنیسټ دی چې د لابراتوار طب په برخه کې له ۱۵ کلونو څخه زیات تجربه لري. د Kantesti AI د مشر طبي افسر په توګه، هغه د دې بنچمارک لپاره د قضیو پینل وټاکه، ټول تشخیصي بنسټیز حقایق (ground truths) یې وڅېړل، او د لومړي انجن له فعالولو مخکې یې مخکې ثبت شوی روبرک تصویب کړ.

ORCID 0009-0009-1490-1321 د څېړنې دروازه ګوګل سکالر

همکار لیکوال & پلي کول

جولیان امیرخان بولوت

لوړ پوړی AI انجنیر & CEO، Kantesti Ltd

جولیان امیرهان بولوټ د Kantesti Ltd بنسټ اېښودونکی او اجرایوي رییس (CEO) دی. هغه د ارزونې چوکاټ ډیزاین او پلي کړ — په کې د SQL قضیه‌لوډر هم شامل و چې د V11 دویم تازه‌والي لپاره ورزیات شوی — د API ادغام یې ترسره کړ، هم د V11 لومړنی بنچمارک/مرجع چلونه او هم د V11 دویم تازه‌والي د 100,000 قضیو چلونه ترسره کړه، او د احصایوي تجمیع/جمع‌بندي یې چمتو کړه. د پلیټفارم بنسټګر له ۲۰۱۹ راهیسې.

GitHub د کانټیسټي په اړه

⚡ لنډ لنډیز V11 دویم تازه‌والی — اپریل 26, 2026

99.80% ګډ امتیاز په 100,000 بې‌نومه اصلي ناروغ د وینې د ازموینې قضیو کې، د اتو طبي تخصصونو او 127 هېوادونو په کچه (V11 دویم تازه‌والی).
صفر د هایپرډایګنوسس غلط مثبتونه د 87,412 څارل شوو «ټراپ-قضیه» د فرصتونو په اوږدو کې — هماغه د ټراپ-قضیه طریقه لکه د V11 لومړني، خو د نفوس کچې ته غځول شوې.
مخکې ثبت شوی روبریک (rubric) مخکې له دې چې د V11 لومړنی چلونه وشي په سرچینې کوډ کې کنګل شوې وه او ساتل شوې بایټ-په-بایټ د دې دویم تازه‌والي لپاره — وروسته‌له‌حقیقت (post-hoc) تنظیم/ټیوننګ ممکن نه و.
د منتزر شاخص (Mentzer index) په سمه توګه پلي شوی د V11 لومړني خپرونې کې د اوسپنې د کموالي له انیمیا څخه د beta-thalassaemia minor توپیر لپاره؛ د توپیر چلند په نفوس کچه کې هم خوندي پاتې شو.
یوازې د تولید (Production) پای ټکی — نه امتیاز لرونکې لاره (privileged routing)، دقیقاً لکه څنګه چې یو تادیه کوونکی پیرودونکی ورته لاسرسی لري ارزول شوی.
13.26 ثانیې منځنۍ ځنډ (mean latency) له پای څخه تر پای (حدود 9.0–16.94 ث)، او ټولې 100,000 قضیې د انجن په اصلي/لومړني مسیر کې بشپړې شوې.
د SQL پر بنسټ کوهورټ. قضیې د چلونې پر مهال د Kantesti کلینیکي زېرمتون پر وړاندې د پارامیټرایز شوې، یوازې-د-لوستلو (read-only) پوښتنې له لارې پورته/لوډ شوې — د Safe Harbor لاندې بې‌نومه شوې، د GDPR ماده 9(2)(j).
د MIT جواز لرونکی هارنس (harness) په GitHub کې خپرې شوې د طبقه‌بندي شوي تصادفي نمونې (n = 201) په بڼه د انجن د بشپړو خامو ځوابونو لپاره د کتنې وړ.
Figshare DOI: 10.6084/m9.figshare.32095435 · په ResearchGate، Academia.edu، GitHub کې هم منعکس شوی.

ولې دا بنچمارک شتون لري او څه ازمېيي

د AI په مرسته د وینې ازموینې تشریح په زیاتېدونکي ډول د مصرفوونکو او کلینیکي کاري بهیرونو کې کارول کېږي، خو د لابراتوار طب لپاره ځانګړي، د بیا تولید وړ ارزونې چوکاټونه لا هم کم دي. په دې چاپېریال کې تر ټولو مهمې پوښتنې هغه نه دي چې د عمومي طبي پوښتنه-ځواب (question-answering) معیارونو کې پوښل کېږي: ایا انجن کولی شي د اوسپنې کموالی له تالاسیمیا ځانګړنې (trait) څخه بېل کړي کله چې د منځني کروی حجرو حجم (MCV) یو شان وي، ایا د ګیلبرټ سنډروم د هیپاتیت په توګه ډېر تشخیص کوي، او ایا په بشپړ نورمال سکرینینګ پینل کې رنځپوهنه جوړوي؟

د وینې یو واحد ازموینې پینل عموماً دومره معلومات لري چې د څو بېلابېلو تفسیرونو ملاتړ وکړي، او د تفسیر کوونکي ډاکټر دنده دا ده چې دا تفسیرونه یو له بل سره وزن کړي، نه دا چې د کتاب په شان یو واحد ځواب راوباسي. هغه انجن چې په کتابي قضیو کې ښه کار کوي، بیا هم په هغو قضیو کې ناکامېدای شي چې تر ټولو مهمې دي: د افتراقی تشخیص (differential-diagnosis) جالونه، هغه بې ضرره بدلونونه چې په یوازې توګه خطرناک ښکاري، او بشپړ نورمال پینلونه چې باوري مرستندویان اړ باسي چې رنځپوهنه (pathology) جوړه کړي.

دا بنچمارک دقیقاً د همدغو ناکامیو حالتونو پر بنسټ جوړ شوی و. په پنځلسو قضیو کې هره قضیه د یوې ځانګړې تشخیصي ځانګړتیا لپاره ټاکل شوې وه: د اوسپنې کموالي له امله مایکرو سایټوسس (microcytosis) چې باید د ورته mean corpuscular volume لرونکي beta-thalassaemia trait څخه بېل وساتل شي؛ د ګیلبرټ سنډروم (Gilbert's syndrome) داسې بڼه چې یوازینی غیرعادي حالت یې د یوازې indirect hyperbilirubinaemia درلودل وي؛ او یو پنځلس-پارامیټره سکرینینګ پینل چې په کې هر تحلیلګر (analyte) د خپل مرجع حد (reference range) دننه وي. روبرک (rubric) هغه انجنونه انعاموي چې هره قضیه په خپلو شرایطو کې لولي، او هغه انجنونه مجازاتوي چې داسې باوري تشخیص ته ورسېږي چې د همدغې تشخیص لپاره هېڅ توجیه نه وي.

د ډاکټر توماس کلاین (Thomas Klein, MD) په توګه، ما د قضیو دا پینل غوره کړ ځکه دا هغه بڼې دي چې د لابراتوار-طب (laboratory-medicine) مرستندویان تر ټولو ډېرې وختونه غلطوي. ګران ناکامي دا نه ده چې "یو نادره ناروغي له لاسه ورکړي" — بلکې دا ده چې په هغو ناروغانو کې عادي رنځپوهنه (routine pathology) جوړ کړي چې دا ناروغي نه لري. زموږ طبي اعتبار هب د پراخ چوکاټ تشریح کوي؛ دا پاڼه د V11 لومړني ثبوت-د-مفهوم (proof-of-concept) او د V11 دوهم اپډېټ تشریح کوي چې دا یې تر 100,000 بې‌نومه قضیو پورې پراخ کړ—چې د SQL-مخکې کلینیکي ذخیرې څخه اخیستل شوې وې او 127 هېوادونه یې پوښلي—د هماغه سکورنګ روبریک په کارولو سره، بایټ-یوشان، او د وروسته-له-وړاندې تنظیم اجازه نه ورکول کېږي.

وروستۍ حواله شوې (reference) اجرا — V11 دوهم اپډېټ (اپرېل 26، 2026)

د V11 دوهم اپډېټ حواله شوې اجرا د 26 اپرېل 2026 پر 26 نېټه د 99.80% پر هماغه مخکې ثبت شوې روبریک باندې، چې د V11 لومړني خپرونې لپاره کارول شوې وه، ارزول شوې 100,000 بې‌نومه قضیې د Kantesti SQL-مخکې کلینیکي ذخیرې څخه اخیستل شوې او تر 127 هېوادونو او 75+ ژبو پورې غځېدلې. هره قضیه د انجن د لومړني مسیر (primary path) له لارې بشپړه شوه؛ د trap-case هایپرډایګنوسس (hyperdiagnosis) د بیرغ فعالېدل په 0 / 87,412. کې پاتې شول. د V11 اصلي اجرا پر 23 اپرېل 2026 کې 15 په لاس ټاکل شوې (hand-curated) قضیې شاملې وې (ترکیبي 99.12%) او روبریک یې تایید کړ؛ دوهم اپډېټ هماغه روبریک بایټ-یوشان ساتي او ارزونه یې د نفوس-کچې کوهورټ ته غځوي.

ګډ (Composite) 99.80% له 100,000 څخه 100,000 قضیو کې سکور

1.000 جوړښتي نمره (Structural score)

0.996 کلینیکي نمره (Clinical score)

13.26 s منځنۍ ځنډ (Mean latency)

0 / 87,412 د جال غلط مثبتونه (Trap false-positives)

ګډ فورمول درې برخې سره یوځای کوي: جوړښتي سمون (structural conformance) د اوو اجباري راپور برخو او شپاړسو اجباري فرعي برخو سره،, کلینیکي دقت (clinical accuracy) د keyword recall تر څنګ د scoring-system recall او د احتمال-وېش د اعتبار (probability-distribution validity) د چک په اندازه، او د ځواب ځنډ (response latency) د لومړني-مسیر د خدمت-کچې (service-level) هدف پر وړاندې. د دقیق تجزیه (decomposition) بڼه لاندې د روبریک په فورمول کې ښودل شوې—د دوهم اپډېټ لپاره له دې وزنونو یا فرعي-روبریکونو څخه هېڅ هم نه دي بدل شوي.

ګډ (Composite) = 0.35 × جوړښتي (Structural) + 0.55 × کلینیکي (Clinical) + 0.10 × ځنډ (Latency)

د سر-حد (headroom) پاتې 0.20 سلنه ټکي نږدې ټول د کلینیکي فرعي-سکور (clinical sub-score) له لارې تجزیه کېږي—د قضیو لږه برخه (په ځانګړي ډول په Hepatology او Rheumatology کې) داسې یو تمه شوی سکورنګ-سیستم کلیدي کلمه نه درلوده چې د انجن په تفسیر کې ورکه شوې وه، سره له دې چې د تشخیص منځپانګه سمه وه. د 100,000-قضیو دوهم-اپډېټ کوهورټ کې هېڅ یوه قضیه پخپله تشخیص له لاسه نه دی ورکړی. ځنډ (Latency) د V11 لومړني خپرونې کې د اوسط 20.17 s څخه په دوهم اپډېټ کې 13.26 s ته ښه شوی؛ دا د دوو اجراوو ترمنځ د تولیدي انجن (production engine) د اصلاحاتو ښکارندویي کوي؛ روبریک، د سکورنګ کوډ، او د API پای ټکی (endpoint) نه دي بدل شوي.

د هېوادونو له مخې ترکیبي سکورونه د 0.9971 (هند) څخه تر 0.9985 (سویس) پورې وو، د 30 تر ټولو ډېر استازیتوب لرونکو هېوادونو په اوږدو کې. د 97 نورو هېوادونو اوږده لکۍ (≈7,300 قضیې په ګډه) کومه سیستماتیک خرابوالی نه ښود. د قضیو له شمېرې له مخې غوره مرسته کوونکي هېوادونه د متحده ایالات (10,500)، برازیل (9,500)، هسپانیه (9,000)، ایټالیا (8,000)، جرمني (7,800)، فرانسه (7,400)، پرتګال (5,800)، Türkiye (3,400)، انګلستان (2,900)، او مکسیکو (2,500) وو.

له ۱۵ قضیو څخه تر 100,000 پورې: په 127 هېوادونو کې د کوهورټ تکامل

د V11 اصلي قضیه-پینل اووه تخصصونه پوښلي—hematology، endocrinology، metabolic medicine، hepatology، nephrology، cardiology، rheumatology—او همدارنګه دوه ځانګړي هایپرډایګنوسس trap قضیې؛ هره قضیه د Kantesti کلینیکي ډیټا ذخیرې څخه د لیکلي باخبره رضایت (written informed consent) په اساس یو بې‌نومه حقیقي ناروغ ریکارډ و. د V11 دوهم اپډېټ ارزونه تر 100,000 بې‌نومه قضیو پورې غځوي چې 127 هېوادونه پوښي, او په اتو تخصصونو کې وېشل شوې (اصلي اووه + یو ځانګړی داخلي-طب (internal-medicine) بکس چې د trap فرعي-سیټ جذبوي). هماغه سکورنګ روبریک په دواړو اجراوو کې بایټ-یوشان پلي کېږي.

بې‌نومول (De-identification) د Safe Harbor تګلارې لاندې ترسره شو: ټول مستقیم پېژندونکي (direct identifiers) لرې یا بدل شول، او هر ریکارډ ته د بنچمارک-داخلي قضیې کوډ (benchmark-internal case code) په بڼه BT-NNN-LABEL (V11 لومړنی) یا د دوهم اپډېټ لپاره یو باثباته بې‌نومه case_uid ورکړل شو. پروسس د GDPR ماده 9(2)(j) د ساینسي څېړنې لپاره د مناسب خوندیتوبونو (safeguards) سره، او د انګلستان د GDPR اړوند برابر احکامو مطابق ترسره شو. په خپاره شوي هارنس (harness)، تخنیکي راپور (technical report)، یا خپاره شویو ډیټاسیټونو کې هېڅ شخصي پېژندونکې معلومات نه ښکاري.

V11 لومړني خپرونې سره سم ترسره شو — 15 په لاس ټاکل شوې قضیې

د V11 اصلي قضیې پینل د ډاکټر توماس کلاین له خوا په لاسي ډول غوره شوی و، تر څو هغه تشخیصي بڼې تمرین کړي چې د لابراتوار-طب معاونین تر ټولو زیاتې غلطې کوي. هره له پنځلسو قضیو څخه د لاندې لست شوې یوې ځانګړې تشخیصي ځانګړنې لپاره غوره شوې وه.

هیماتولوژي (3) BT-001، BT-006، BT-007 د اوسپنې کموالي انیمیا · د B12 کمښت · د بیټا-تالاسیمیا لږ ډول (minor)

اندوکراینولوژي (3) BT-002، BT-008، BT-012 د هاشیموتو تایرایډایټس · د انسولین مقاومت سره PCOS · سخت د وټامین ډي کمښت

میتابولیک (2) BT-003، BT-013 T2DM د میتابولیک سنډروم سره · د ګوت خطر سره هایپریوریسیمیا

هیپاتولوژي (2) BT-004، BT-009 NAFLD / NASH · حاد ویروسي هیپاتیت

نیفرولوژي · کارډیولوژي · روماتولوژي (3) BT-005، BT-010، BT-011 د CKD مرحله 3 · اتیروجینک ډیسلیپیډیمیا · سیسټمیک لوپس اریتیماټوسس

Trap قضیې (2) BT-014، BT-015 د ګیلبرټ سنډروم (یوازېنی غیر مستقیم هایپربیلیروبینیمیا) · د لویانو لپاره په بشپړه توګه نورمال سکرین

ولې همدا ځانګړی وېش

هیماتولوژي درې قضیې ترلاسه کوي، ځکه چې مایکرو سایټیک افتراقیات او ماکرو سایټیک افتراقیات په واقعي نړۍ کې د لابراتوار په عمل کې تر ټولو د لوړ حجم «جالونه» دي. اندوکرینولوژي درې قضیې ترلاسه کوي، ځکه د هاشیموتو، PCOS، او د وټامین ډي کمښت وړاندې کېدنې بېلابېل تشخیصي شکلونه تمرینوي (د خودانتي‌بدن له لارې رهبري کېدونکی، د هورمون-تناسب له لارې رهبري کېدونکی، او د واحد-نښه له لارې رهبري کېدونکی). د یوې قضیې ځانګړې څانګې لا هم معنا لري، ځکه هر د CKD، د ASCVD خطر، او SLE خپل د نمرې ورکولو سیستم لري چې انجن باید وکاروي (په ترتیب سره د KDIGO سټیجینګ، د ASCVD 10 کلن خطر، او د 2019 EULAR/ACR SLE معیارونه).

V11 دویم تازه‌کاري — په 127 هېوادونو کې 100,000 بې‌نومه قضیې

دویم تازه‌کاري اصلي V11 سخت‌کوډ شوی 15-قضیه Python لفظ د Kantesti کلینیکي زېرمه (repository) پر وړاندې د پارامیټرایز شوې، یوازې-د-لوستلو SQL پوښتنې سره بدلوي (anonymised_blood_panels). پوښتنه فلټر کوي په consent_research = 1 AND released_for_benchmark = 1 او د شفافیت لپاره د هر بنچمارک چلولو په سر کې چاپېږي. د تخصص له مخې د کوهورټ وېش لاندې ښودل شوی.

انډوکراینولوژي 23,900 قضیې (23.9%) تایرایډ، PCOS، د وټامین ډي، جنډالي محور، پیټیوټري

میتابولیک طب 21,900 قضیې (21.9%) T2DM، میتابولیک سنډروم، د شحمو پینلونه، هایپراوریسمیا

هیماتولوژي 15,400 قضیې (15.4%) مایکروسایټیک او میکروسایټیک توپیرونه، B12/فولیټ، د اوسپنې څېړنې

هیپاتولوژي 12,400 قضیې (12.4%) NAFLD/NASH، ویروسي هیپاتیت، FIB-4، کولیسټاسس

داخلي طب (د trap فرعي سیټ په ګډون) 9,000 قضیې (9.0%) ګډې وړاندې‌کونې او 8,723 ځانګړې هایپرډایګنوسس trap قضیې

کارډیولوژي 7,500 قضیې (7.5%) د ASCVD خطر، اتیروجینیک ډیسلیپیډیمیا، hs-CRP

روماتولوژي 6,000 قضیې (6.0%) SLE، RA، واسکولایټس، د خودکار انټي باډي پینلونه (EULAR/ACR معیارونه)

نیفولوژي 4,000 قضیې (4.0%) د CKD پړاوونه (KDIGO)، د eGFR تمایلات، د الکترولایټ ګډوډي

جغرافیایي وېش — غوره ۱۰ هېوادونه

دا کوهورټ ۱۲۷ هېوادونه پوښي (ISO 3166-1 alpha-2). اروپا 57.7% برابروي، امریکاګانې 25.4%، اسیا-پاسیفیک 6.2%، د منځني ختیځ/افریقا نومول شوې داخلې 3.4%، او د ۹۷ نورو هېوادونو اوږده لکۍ په ګډه نږدې 7.3% جوړوي. لس تر ټولو لوی مرسته کوونکي هېوادونه متحده ایالات (10,500)، برازیل (9,500)، هسپانیه (9,000)، ایټالیا (8,000)، جرمني (7,800)، فرانسه (7,400)، پرتګال (5,800)، Türkiye (3,400)، انګلستان (2,900)، او مکسیکو (2,500) دي. د هېواد-په-کچه ګډ (composite) نمرې له 0.9971 (هند) څخه تر 0.9985 (سویس) پورې وې.

مخکې ثبت شوی روبرک، تشریح شوی

مخکې له ثبت (Pre-registration) د دې بنچمارک تر ټولو مهمه میتودولوژیکه پرېکړه ده. هر متوقع تشخیص، هر کلینیکي نمره‌ورکوونکی سیستم، او هر راپور برخه د سرچینې کوډ ته ژمنه شوې وه مخکې له دې چې انجن وبلل شي. نو له ثبت وروسته د روبریک (rubric) داسې تنظیمول چې انجن ته «خوښ» راشي، له همدې امله ناممکن دي.

درې برخې د ګډ (composite) نمرې جوړوي. جوړښتي برخه (structural component) ۳۵ سلنه مرسته کوي او اندازه کوي چې ایا انجن اووه اجباري راپور برخې (سرلیک، لنډیز، مهمې موندنې، افتراقیات، د نمرې ورکولو سیستمونه، سپارښتنې، تعقیب) او په هغو کې شپاړس اجباري فرعي برخې بېرته راستانه کړې که نه. د برخې شتون ۴۰ سلنه وزن لري او د فرعي برخې شتون ۶۰ سلنه وزن لري، د جوړښتي محاسبې دننه.

د کلینیکي برخه (clinical component) ۵۵ سلنه مرسته کوي او درې شیان سره یوځای کوي: د تشخیص-کلیدي کلمې یادول (د کلینیکي فرعي نمرې ۷۰ سلنه)، د نمره‌ورکوونکي سیستم یادول (۲۰ سلنه — ایا انجن Mentzer، FIB-4، HOMA-IR، د ASCVD خطر، د KDIGO سټیجینګ، او د EULAR/ACR معیارونه محاسبه کوي چېرته چې اړوند وي)، او د احتمال-جمع اعتبار چک (۱۰ سلنه — د افتراقیاتو احتمالات باید د [90, 110] په منځ کې سره جمع شي). د جال (trap) قضیو لپاره، تر 0.30 پورې یو صریح «هایپر-تشخیص» جریمه کمه کېږي، چې د هر جوړ شوي رنځپوهنې بیرغ لپاره 0.10 حسابېږي او تر درې بیرغونو پورې محدود وي.

د د ځنډ برخه (latency component) ۱۰ سلنه مرسته کوي. د ۲۰ ثانیو نه کم ځواب بشپړ 0.10 اخلي، د ۴۰ ثانیو نه کم ځواب 0.05 اخلي، او هر څه وروتر صفر دی. د ۲۰ ثانیو هدف د تولید د لومړني primary-path خدمت-کچې موخې (service-level objective) منعکسوي؛ د ۴۰ ثانیو چت د درنې-انجن بلنې لپاره د دویم پړاو (Phase 2) بیک اپ بودیجې منعکسوي.

څه چې مخکې له ثبت (pre-registration) مخه نیسي

د لومړي-اړي (first-party) بنچمارکونه د post-hoc روبریک تنظیم له لارې د خپلو شمېرنو د پړسولو لپاره بدنام دي. الگو نږدې تل هماغه وي: ټیم انجن چلوي، ویني چېرته کمزوري فعالیت کوي، بیا په خاموشۍ سره روبریک داسې تنظیموي چې کم‌فعالې سیمې لږ حساب شي. د روبریک د سرچینې کوډ ته د لومړي انجن له بلنې مخکې ژمن کول او د MIT جواز لاندې د هارنس خپرول، دا تنظیم په د نسخې کنټرول (version control) کې ښکاره کوي. هر څوک کولی شي ذخیره (repository) کلون کړي، د روبریک د لیکوال نیټې وګوري، او تایید کړي چې د انجن پایلې د نمره‌اخستنې د شکل ورکولو لپاره نه دي کارول شوې.

د هایپرډایګنوسس (ډېر تشخیص) جال قضیې — ولې د ډېر زنګ وهلو (over-calling) اصلي ناکامي حالت دی

په عادي سکرینونو کې د رنځپوهنې په زور سره (aggressive) ډېر تشخیص کول د مصرف‌کوونکو پر مخ طبي مرستندویانو لپاره یو مستند ناکامي حالت دی. د هغې لاندیني لګښتونه پکې غیر ضروري څېړنه، د ناروغ اندېښنه، او iatrogenic (د درملنې له امله رامنځته شوې) ارزونه شامله ده. په دې بنچمارک کې دوه جال-قضیې داسې ډیزاین شوې چې دا ناکامي حالت ښکاره او د نمرې وړ وګرځوي.

🟡 جال 1 — BT-014-GILBERT

وړاندې کېدنه (Presentation). یو ۲۴ کلن نارینه د ټول بلیروبین ۲.۴ mg/dL سره. مستقیمه برخه نورماله ده، ترانسامینازونه او الکالاین فاسفېټاز د خپلو حوالوي حدودو (reference ranges) دننه دي، رتیکولوسایټونه بې‌اهمیته دي، او هپټوګلوبین او LDH هیمولایزس ردوي.

سمه تشریح (Correct interpretation). د ګیلبرټ سنډروم — یو بې‌خطر UGT1A1 پولیمورفیزم. تشریح باید هیپاتایټس، سیرروسس، هیمولایټیک انیمیا، یا د صفرايي خنډ (biliary obstruction) ته استناد ونه کړي.

د V11 پایله. ګډه نمره 1.000. د شپږو څارل شوو (monitored) له‌ډېر-تشخیص (over-diagnosis) هیڅ یو بیرغ د فعال تشخیص په توګه نه ښکاره شو.

🟡 جال 2 — BT-015-HEALTHY

وړاندې کېدنه (Presentation). یوه ۳۵ کلنه ښځه د پنځلس-پارامیټر معمول routine سکرینینګ پینل سره. هر انالایټ په آرامۍ سره د خپل حوالوي حد (reference range) دننه دی.

سمه تشریح (Correct interpretation). د ډاډ ورکولو او د ژوند طرز ساتنه. تشریح باید داسې سرحدي رنځپوهنه جوړه نه کړي چې د کلینیکي ګټې لپاره بې ځایه “ګټور” ښکاره شي.

د V11 پایله. جامع 1.000. د اوو څارل شوو له‌ډېرو تشخیص-زیاتولو (over-diagnosis) نښو څخه—شکره، انیمیا، هایپوتایرایډیزم، ډیس‌لایپیډیمیا، هیپاتیت، د پښتورګو ناروغي، کمښت—هیڅ یو د فعال تشخیص په توګه نه و څرګند شوی.

په دواړو “ټراپ”ونو کې، دیارلس څارل شوې هایپرډایګنوسس (hyperdiagnosis) نښې وکتل شوې. هېڅ یوه فعاله نه شوه. دا هغه پایله ده چې د هر کلینیشن لپاره تر ټولو مهمه ده چې د AI انجن د ټرایج یا د مشورې نه مخکې د وسیلې په توګه کارولو ته پام کوي: سیستم داسې ناروغي نه ده ایجاد کړې چې شتون نه درلود.

د منتزر شاخص: د اوسپنې کموالي له thalassaemia trait څخه جلا کول

دویمه د لوړ ارزښت موندنه د قضیې BT-001 (د اوسپنې کمښت انیمیا) او قضیې BT-007 (د بیټا تالاسیمیا لږ ډول) د یوځای کېدو په اړه ده. دواړه د مایکروسایټوسس (microcytosis) سره وړاندې کېږي او دا د ناپوه طبقه‌بندونکو لپاره یوه ښه پېژندل شوې ستونزه ده. د Mentzer شاخص، چې د MCV په تقسیم د RBC شمېرې سره محاسبه کېږي، په د اوسپنې کمښت کې له 13 څخه لوړ او په تالاسیمیا ټرېټ کې له 13 څخه ټیټ وي.

په BT-001 کې، ناروغ ۳۴ کلنه ښځه وه چې HGB 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فیرټین 6 ng/mL، او لوړ TIBC درلود. د شاوخوا 17.7 Mentzer شاخص د مطلق اوسپنې کمښت ملاتړ کوي. په BT-007 کې، ناروغ ۲۸ کلن نارینه و چې مایکروسایټوسس (MCV 65.8 fL) درلود، خو د RBC شمېر یې 6.2 لوړه وه، RDW نورمال و، فیرټین نورمال و، او HbA2 یې 5.6 سلنه و. د شاوخوا 10.6 Mentzer شاخص د تالاسیمیا ټرېټ ته اشاره کوي، او لوړ HbA2 د بیټا-تالاسیمیا لږ ډول تاییدوي.

د اوسپنې کمښت انیمیا Mentzer > 13 ټیټ فیرټین، ټیټ TSAT، لوړ TIBC، لوړ RDW

د بیټا تالاسیمیا ټرېټ Mentzer < 13 نورمال فیرټین، نورمال RDW، لوړ HbA2 (>3.5%)، د RBC شمېر لوړ

دواړو قضیو 1.000 نمره واخیسته. انجن په دواړو تشریحاتو کې په ښکاره ډول د Mentzer شاخص وکاراوه او په هر حالت کې یې سم تشخیص راوویست. دا د ټول بنچمارک تر ټولو یو واحد کلینیکي ډاډمنوونکې پایله ده, ، ځکه چې د تالاسیمیا ټرېټ د اوسپنې کمښت په توګه غلط طبقه‌بندي کول د اوسپنې نامناسبه تکمیلي درملنه لامل کېږي او د کورنۍ-سکرینینګ فرصتونه له لاسه ورکوي، او د اوسپنې کمښت د تالاسیمیا په توګه غلط طبقه‌بندي کول د مستقیم بدیل درملنې ځنډ رامنځته کوي. زموږ د فیرټین رینج لارښود د پراخ افتراقی (differential) شرایطو تشریح کوي.

د V11 لومړني حوالوي چل (April 23, 2026) څخه د قضیې-په-قضیه پایلې

د ۱۵-قضیه د ثبوت-په-مفهوم (proof-of-concept) کوهورټ پر بنسټ اصلي V11 حوالوي چل د میتودولوژیکي بنسټ دی د دویم اپډېټ لپاره: لاندې هره قضیه-په-قضیه جزیات ښيي چې روبریک څنګه د یوې واقعي انجن ځواب سره چلند کوي. له پنځلسو څخه دولس قضیې د لومړني مسیر (primary path) پر سر د 1.000 چت (ceiling) ګډ نمرې ته ورسېدې؛ درې قضیې د Phase 2 بیک اپ (fallback) له لارې خدمت شوې، د 0.05 latency بونس یې له لاسه ورکړ خو ټول کلینیکي او جوړښتي (structural) منځپانګه یې وساتله. یوه قضیه یو واحد اجباري فرعي برخه (subsection) نه درلوده؛ یوه یې د احتمال وېش (probability distribution) مجموعه په لږه کچه کمه راستانه کړه.

د قضیې پېژند (Case ID) تخصص (Specialty) ګډ (Composite) لاتنس (Latency) Path

BT-001-IDAهیماتولوژي1.00017.8 sprimary

BT-006-B12هیماتولوژي1.00018.4 ثانیېprimary

BT-007-THALهیماتولوژي1.00017.0 ثانیېprimary

BT-002-HASHانډوکراینولوژي0.95037.0 ثانیېبېرته تګ (fallback)

BT-008-PCOSانډوکراینولوژي0.98718.6 ثانیېprimary

BT-003-T2DMمیټابولیک1.00019.1 ثانیېprimary

BT-013-GOUTمیټابولیک1.00019.4 ثانیېprimary

BT-004-NAFLDهیپاتولوژي1.00019.6 ثانیېprimary

BT-009-VIRHEPهیپاتولوژي0.95023.4 ثانیېبېرته تګ (fallback)

BT-014-GILBERTجال (Trap)1.00018.9 ثانیېprimary

BT-005-CKDنیفولوژي1.00017.4 ثانیېprimary

BT-010-ASCVDکارډیولوژي1.00019.7 ثانیېprimary

BT-011-SLEروماتولوژي0.98118.2 ثانیېprimary

BT-012-VITDانډوکراینولوژي1.00019.3 ثانیېprimary

BT-015-HEALTHYجال (Trap)1.00018.7 ثانیېبېرته تګ (fallback)

د PCOS قضیه (BT-008) په ځواب جوړښت کې یو اجباري فرعي برخه له لاسه ورکړه — له شپاړس څخه پنځلس — چې د جوړښتي نمرې له 1.000 څخه 0.963 ته راکمه کړه. د SLE قضیه (BT-011) د احتمال-وېش د مجموعې په کچه لږ کموالی راوګرځاوه چې کلینیکي نمره یې 0.965 ته راټیټه کړه، خو هر تشخیصي کلیدي ټکی او د نمرې ورکولو سیستم یې وساته. هېڅ یوه نیمګړې قضیه سمه تشخیص له لاسه ورنکړ.

V11 دویم اپډېټ مجموعي — 100,000 قضیې

په د خلکو په کچه (population scale) کې، د هرې قضیې انفرادي قطارونه د انسان لپاره د لوستلو وړ نه دي، نو دویم اپډېټ د 100,000-قطار جدول پر ځای مجموعي شاخصونه (aggregated metrics) راپوروي. اصلي (headline) مجموعي لاندې ښودل شوی؛ د تخصص (specialty) او د هېواد له مخې تفکیکونه په تخنیکي راپور او Figshare زیرمه کې خپاره شوي. د n = 201 خام انجن ځوابونه (قطعي seed 20260426) د کتنې لپاره په GitHub results/ ډایرکټرۍ کې خپاره شوي.

ګډ نمره (Composite score) V11 لومړنی: 0.9912 (99.12%) → دویم اپډېټ: 0.9980 (99.80%) Δ = +0.0068 د 100,000-قضیه کوهورټ په اوږدو کې

جوړښتي نمره (اوسط) V11 لومړنی: 0.998 → دویم اپډېټ: 1.000 په د خلکو په کچه کې بشپړ جوړښتي مطابقت

کلینیکي نمره (اوسط) V11 لومړنی: 0.998 → دویم اپډېټ: 0.996 −0.002؛ هېڅ قضیه پخپله تشخیص له لاسه ورنکړ

ځنډ — اوسط (حد) V11 لومړنی: 20.17 ثانیې (17.0–37.0 ثانیې) → دویم تازه‌کول: 13.26 ثانیې (9.0–16.94 ثانیې) د چلولو ترمنځ د تولید انجن اصلاحات

د انجن لاره = اصلي V11 لومړنی: 12 / 15 → دویم تازه‌کول: 100,000 / 100,000 په هېڅ وخت کې د دویم پړاو (Phase 2) بېرته‌ستنېدل اړین نه و

د Trap-subset هایپر تشخیص (hyperdiagnosis) نښې V11 لومړنی: 0 / 13 → دویم تازه‌کول: 0 / 87,412 په نفوس کچه کې صفر غلط مثبتونه (8,723 د ټراپ قضیې څارل شوې)

د سرلیک نمره موږ ته څه نه وايي

د دې ځانګړې مخکې ثبت شوې (pre-registered) معیارنامې له مخې 99.80 سلنه ګډه نمره، په 127 هېوادونو کې د 100,000 قضیو په بې‌نوم (anonymised) ډله کې، نږدې د حد (near-ceiling) فعالیت ښيي — خو دقیق چوکاټ ته اړتیا لري. پایله د انجن چلند د هغه معیارنامې پر وړاندې تشریح کوي چې موږ په V11 کې د سرچینې کوډ (source code) ته ژمنه کړې وه؛ دا د انجن د سمون په اړه په نړۍ کې د هرې موجودې د وینې ازموینې پینل لپاره نړیواله ادعا نه ده.

نمره وايي چې انجن د دې ارزونې لپاره ټاکل شوي تشخیصي الګوګانې په نفوس کچه کې په سمه توګه اداره کړې، په داسې میتودولوژۍ سره چې خپره شوې او د بیا تولید وړ (reproducible) ده. دا نه وايي چې انجن د نړۍ په هر موجود د وینې ازموینې پینل کې سم دی. دا نه وايي چې انجن باید د ډاکټر/کلینیسین قضاوت ځای ونیسي. او دا هم نه وايي چې انجن د بدیلو AI سیستمونو څخه غوره دی — د نورو انجنونو پر وړاندې پرتله‌یزې شننې په قصدي ډول د دې راپور له دائره بهر وې.

هغه څه چې نمره یې ثابتوي یو بنسټیز معیار (baseline) دی. د معیارنامې او هارنس (harness) له عامېدو سره، د انجن راتلونکې نسخې د هماغه معیارنامې پر وړاندې ارزول کېدای شي — د V11 لومړنیو 15 قضیو، د دویم تازه‌کول 100,000 قضیو ډلې، یا هرې ورپسې پراختیا سره — او د خپرې شوې نمرې او د هرې ورپسې منډې ترمنځ تشه پخپله د اندازه کېدو وړ ده. دا د مخکې ثبت (pre-registration) ارزښت دی: دا د فعالیت ادعاوې د ازمېښت وړ ادعاوو په بڼه بدلوي.

څنګه په ۱۰ دقیقو کې دا معیار بیا تولید کړو

بیا تولید یوازې د Kantesti API د اعتبار (credential) د جوړه او د Python 3.10 یا وروسته چاپېریال ته اړتیا لري، چې requests او reportlab کتابتونونه نصب وي. بشپړ هارنس یو واحد، ځان بسیا (self-contained) Python ماډول دی چې د MIT جواز (licence) لاندې خپور شوی.

💻 GitHub د MIT جواز لرونکی هارنس · خام ځوابونه · د حوالې منډه 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · بنسټیز علمي ریکارډ 🎓 د څېړنې دروازه خپرونه 404175463 · V11 دویم تازه‌کول · د علمي کشف لایه 📄 اکاډیمیا.ایډو مقاله 165956808 · V11 دویم تازه‌کول · د علمي کشف لایه

د نوې منډې لپاره څلور ګامونه

یو. د ذخیرې کلون کول (Clone the repository): git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. دوه. د انحصارونو نصبولو لپاره pip install -r requirements.txt (دویم تازه‌کول زیاتوي mysql-connector-python ≥ 8.0 د SQL قضیې لوډر لپاره). درې. وټاکئ KANTESTI_USERNAME او KANTESTI_PASSWORD د انجن API لپاره د چاپېریال متغیرونو (environment variables) په توګه. د دویم تازه‌کول د SQL قضیې لوډر لپاره هم دا تنظیم کړئ: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، او KANTESTI_DB_PASSWORD — لوډر د یوازې-لوست (read-only) رول له لارې نښلوي (bench_reader) چې د جدولونو د پېژندنې پر حقونو (privileges) نه لري. څلور. چل کړئ python benchmark_bloodtest.py --limit 100000 د بشپړ Second-Update چلولو لپاره، یا python benchmark_bloodtest.py --limit 1000 د چټک تکرار (iteration) لپاره. پایلې په ./benchmark_results/: د CSV نمره‌پاڼه (scorecard) د هر هېواد او هر تخصص لپاره کالمونه، یو JSON مجموعه (aggregate)، د طبقه‌بندي-تصادفي خام-ځواب نمونه (stratified-random raw-response sample)، او یو Markdown راپور.

د ۲۳ اپرېل ۲۰۲۶ (V11 لومړنی، ۱۵ قضیې) او د ۲۶ اپرېل ۲۰۲۶ (V11 Second Update، ۱۰۰،۰۰۰ قضیې) حواله چلونې (reference runs) په results/ د ذخیره‌ځای (repository) په لارښود کې ساتل شوې دي. نوې چلونه به نوې ټایم‌سټیمپ‌ شوې نمره‌پاڼه تولید کړي، خو حواله چلونې به بې‌له بدلون څخه پرېږدي. که ستاسو چلونه په مانا‌لرونکي ډول بېل نتیجه تولید کړي، نو مهرباني وکړئ د GitHub issue پرانیزئ چې د چلونې ټایم‌سټیمپ او د ځواب په metadata کې د راستنې شوې انجن نسخه (engine version) پکې وي.

محدودیتونه او راتلونکې څېړنې

حتی د ۱۲۷ هېوادونو ترمنځ د ۱۰۰،۰۰۰ قضیو په کچه، څلور محدودیتونه شته چې باید په ښکاره ډول ورته پام وشي: د اوږده-لړۍ هېوادونو کم نمونې (long-tail country undersampling)، د یو ځل ارزونه (single-shot evaluation)، د یوازې-یو انجن ساحه (single-engine scope)، او د معلوماتو د یوازې-یو سرچینې اصل (single-source data origin). هر یو یې په روان تعقیبي کار کې حل کېږي.

د اوږده-لړۍ هېوادونو پوښښ. Second Update ۱۲۷ هېوادونه رانغاړي، خو وېش یې متوازن نه دی — غوره ۱۰ مرسته‌کوونکي د قضیو شاوخوا ≈66.4% جوړوي، او د نورو ۹۷ هېوادونو اوږده لکۍ (long tail) په ګډه شاوخوا ≈7.3% مرسته کوي (نږدې ۷،۳۰۰ قضیې، او په اوسط ډول ~۷۵ قضیې په هر هېواد کې). له همدې امله د دې اوږدې لکۍ (long tail) د هېواد-په-هېواد ترکیبي پایلې (composites) د سرلیک ارقامو (headline figures) په پرتله شور (noise) زیات لري. راتلونکې چلونې به په لومړیتوب کې له کم‌نمونې شویو هېوادونو څخه ګډون کوونکي راجلب کړي تر څو د هرې قضایي حوزې (jurisdiction) اټکلونه پیاوړي شي.

واحد-وار ارزونه. د همغږۍ (cohort) هره قضیه یو ځل ارزول شوې. لوی ژبني ماډلونه حتی په ټیټه sampling temperature کې هم د محصول (output) د پام وړ بدلون (variance) ښيي، نو د هرې قضیې لپاره پنځه ارزونې او د راپور شوې variance سره څو-چلېدونکی پروتوکول (multi-run protocol) طبیعي راتلونکی ګام دی — په ځانګړي ډول د trap-case فرعي ټولګې (subset) کې، چې د sampling jitter پر مهال ثبات د خوندیتوب (safety) ادعا برخه ده.

د واحد انجن محدودیت. دا راپور د یو انجن ځانګړتیاوې بیانوي. د بدیلو AI سیستمونو پر وړاندې مقایسوي تحلیلونه دلته د بحث له حوصلې (scope) بهر دي؛ ښايي موږ یې د ورته MIT-جواز لرونکي (MIT-licensed) harness په کارولو سره د مناسبې مېتودولوژۍ په درلودلو د یوې جلا خپلواکې مطالعې په توګه تعقیب کړو.

د واحد سرچینې د معلوماتو اصل. ۱۰۰،۰۰۰ قضیې بې‌نومه (anonymised) حقیقي د ناروغانو ریکارډونه دي چې د یوې کلینیکي زېرمتون (clinical repository) څخه اخیستل شوي (د Kantesti SQL-مخکې ملاتړ شوی کلینیکي ډیټا ویئرهاوس). دا د تولید (production) یو منظم جریان (curated production stream) استازیتوب کوي او په نړیواله کچه د نفوس-نماینده تصادفي نمونه (population-representative random draw) نه دي. د ارزونې غځول تر څو بهرنی-سرچینه څو-مرکزي (multi-centre) معلومات هم پکې شامل شي په پلان کې دي.

له دې څلورو هاخوا، تر ټولو اغېزمن پلان شوی غځول د هرې قضایي حوزې لپاره څو-ژبي برابري (multi-language parity) ده. د Kantesti AI Engine کاروونکو ته په 75+ ژبو خدمت کوي، او د ژبې-طبقه‌بندي شویو Second-Update فرعي همغږیو (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) چلول به د انجن د ملاتړ شویو ژبو ترمنځ د محصول کیفیت (output quality) اندازه کړي. هره ژبې-طبقه‌بندي شوې تحلیل به د خپل DOI او د harness څانګې (branch) سره خپور شي.

هماغه انجن وازمویئ چې په ۱۰۰،۰۰۰ قضیو کې یې د 99.80% ګډ نمره (Composite Score) ترلاسه کړه

خپل د وینې د ازموینې پینل اپلوډ کړئ هماغه تولیدي (production) پای‌ته (endpoint) ته چې په دې بنچمارک کې ارزول شوی و. له 2M+ څخه زیات کاروونکي په ټوله نړۍ کې د Kantesti AI Engine کاروي تر څو له 15,000+ بایومارکرونو څخه د 75+ ژبو په اوږدو کې تفسیر وکړي.

🔬 وړیا ډیمو هڅه وکړئ

د کروم توسیع د اپلیکیشن پلورنځی ګوګل پلی

📚 د دې بنچمارک د حوالې (Citation) څرنګوالی

BibTeX

@techreport{klein2026kantesti_v11_second_update,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {Clinical Validation of the Kantesti AI Engine (2.78T) (2.78T)  
                 on 100,000 Anonymised Blood Test Cases Across 127  
                 Countries: A Pre-Registered, Rubric-Based,  
                 Population-Scale Benchmark Including Hyperdiagnosis  
                 Trap Cases --- V11 Second Update},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11 (Second Update)},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}

APA

Klein, T., & Bulut, J. E. (2026). د Kantesti AI انجن کلینیکي تایید (2.78T) په ۱۰۰،۰۰۰ بې‌نومه د وینې د ازموینې قضیو کې چې ۱۲۷ هېوادونه رانغاړي: د مخکې ثبت شوې (Pre-Registered)، د روبریک پر بنسټ (Rubric-Based)، د نفوس-کچې بنچمارک چې پکې د هایپرډایګنوسس (Hyperdiagnosis) trap قضیې هم شاملې دي — V11 Second Update (تخنیکي راپور V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 اړوند د Kantesti د تایید (Validation) کار

Klein, T. (2025). د مصنوعي ذهانت په مرسته د وینې معاینې لپاره د کلینیکي اعتبار چوکاټ تشریح: د درې ګوني ړندو اعتبار میتودولوژي، د فعالیت معیارونه، او د کیفیت تضمین پروتوکولونه. د Kantesti AI طبي څېړنه.

🎓 د څېړنې دروازه

📖 بهرني میتودولوژیکي حوالې

Mentzer, W. C. (1973). د اوسپنې د کموالي (Iron Deficiency) توپیر له Thalassaemia Trait څخه. The Lancet, 301(7808), 882.

🏥 پب میډ

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). د 2019 کال د روماتیزم پر ضد اروپایي لیګ / د امریکایي کالج د روماتولوژي طبقه‌بندۍ معیارونه د Systemic Lupus Erythematosus لپاره. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 د دفاع وزارت 🏥 پب میډ

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: د لوی ژبني ماډلونو لپاره د طبي ډومېن هالوسینیشن ازموینه. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%ګډ (Composite) نمره

100,000نمره ورکړل شوې قضیې

127تر پوښښ لاندې هیوادونه

0 / 87,412د جال غلط مثبتونه (Trap False-Positives)

پوښتل شوې پوښتنې

د Kantesti د AI انجن د وینې په واقعي ازموینو کې څومره دقیق دی؟

د ۱۰۰،۰۰۰ بې‌نومه حقیقي ناروغ د وینې د ازموینې قضیو پر یوه مخکې ثبت شوې روبریک (pre-registered rubric) چې اته طبي تخصصونه او ۱۲۷ هېوادونه پکې شامل دي (V11 Second Update)، د Kantesti AI Engine د 99.80 سلنې ګډ نمره (composite score) ترلاسه کړه، او د 87,412 څارل شویو trap-case flag فرصتونو کې یې صفر هایپرډایګنوسس false-positives درلودل، او د اوسط ځواب ځنډ (mean response latency) 13.26 ثانیې و. د V11 اصلي خپرونې هماغه روبریک په ۱۵ په لاس ټاکل شویو قضیو (hand-curated cases) کې تایید کړ (ګډه نمره 99.12%)؛ Second Update روبریک بایټ-په-بایټ (byte-identical) ساتي او ارزونه یې د نفوس-کچې (population-scale) همغږۍ ته غځوي. بشپړ د هر تخصص او هر هېواد نمره‌پاڼه په Figshare کې د DOI 10.6084/m9.figshare.32095435 او په GitHub کې د MIT جواز (MIT licence) لاندې خپره شوې.

ایا د Kantesti د AI انجن په کلینیکي توګه تایید شوی؟

هو. انجن په کلینیکي ډول د یوه روبرک پر بنسټ تایید شوی چې د V11 لومړني چلولو مخکې په سرچینې کوډ کې کنګل شوی و او د V11 دویم اپډېټ لپاره یې بایټ-په-بایټ ورته والی ساتلی و. دا ارزونه د 127 هېوادونو څخه اخیستل شویو 100,000 بې‌نومه د وینې ازموینې قضیو باندې ترسره شوې، چې په هیماتولوژي، اندوکرینولوژي، میتابولیک طب، هیپاتولوژي، نیفرولوژي، کارډیولوژي، روماتولوژي او داخلي طب کې وې. کلینیکي څارنه د ډاکټر توماس کلاین، MD (ORCID 0009-0009-1490-1321) له لوري شوې، چې د Kantesti AI په Kantesti کې د بورډ-تصدیق شوي کلینیکي هیماتولوجیسټ او د مشر طبي افسر په توګه کار کوي.

د هایپر تشخیص (Hyperdiagnosis) جال/تله قضیه څه ده؟

د هایپرډایګنوسس (Hyperdiagnosis) جال قضیه داسې کلینیکي سناریو ده چې په ځانګړي ډول د AI انجنونو کې د زیات تشخیص (over-diagnosis) چلند د کشف لپاره ډیزاین شوې وي. د V11 لومړني بنچمارک دغه ډول دوه قضیې د میتودولوژیکي ثبوت-په-مفهوم (proof-of-concept) په توګه کارولې: یوه جلا شوې غیر مستقیم هایپربیلیروبینیمیا چې د ګیلبرټ سنډروم سره برابره وي (چیرې چې سمه تفسیر د هیپاتیت یا هیمولایسس پر ځای د UGT1A1 پولیمورفیزم نرم/بې‌خطره بڼه ده) او یو بشپړ عادي بالغ سکرینینګ پینل (چیرې چې سمه پایله ډاډ ورکول وي، نه د جوړ شوي سرحدي رنځپوهنې تولید). د V11 دویم اپډېټ دا جال-قضیه میتودولوژي د 8,723 قضیو ځانګړي فرعي سیټ ته پراخه کړه او 87,412 څارل شوي هایپرډایګنوسس فلیګ فرصتونه یې تولید کړل—او د انجن غلط مثبت (false-positive) کچه صفر پاتې شوه.

ایا د Kantesti د AI انجن ارزونه د بیا تولید وړ ده؟

بشپړ ارزونې هارنس د MIT جواز (licence) لاندې د یوې واحدې ځان-بسیا Python ماډول په توګه خپور شوی. د V11 لومړنی چلول یوازې د Kantesti API د اعتبارونو جوړه او Python 3.10 یا وروسته ته اړتیا لري. د V11 دویم اپډېټ یو پارامیټر-شوی، یوازې-د-لوستلو SQL قضیه لوډر (case loader) زیاتوي چې د Kantesti کلینیکي-ریپوزیټري د اعتبارونو ته اړتیا لري (یو رول چې د جدولونو د پېژندلو هېڅ امتیاز نه لري). bench_reader کوډ، د قضیه لوډر SQL، روبرک (د خپرونو ترمنځ بایټ-په-بایټ ورته والی)، او د V11 لومړني او دویم اپډېټ د حوالوي چلولو (reference runs) څخه د خام انجن ځوابونو یو طبقه‌بندي شوی تصادفي نمونه په github.com/emirhanai/kantesti-blood-test-benchmark کې موجوده ده او په Figshare، ResearchGate، او Academia.edu کې هم منعکس شوې (mirrored) ده.

د Kantesti د AI انجن څنګه د اوسپنې د کموالي او د بیټا-تالاسیمیا د ځانګړتیا ترمنځ توپیر کوي؟

انجن د Mentzer index کاروي، چې د mean corpuscular volume په تقسیم سره د red blood cell count پر اساس محاسبه کېږي. د Mentzer index له 13 پورته ارزښت د اوسپنې کموالي انیمیا ملاتړ کوي، او له 13 ښکته ارزښت د beta-thalassaemia trait ملاتړ کوي. په د V11 لومړني بنچمارک کې دواړه وړاندې کېدونکي حالتونه په سمه توګه طبقه‌بندي شول، د Mentzer index د څرګند محاسبې په مرسته، چې د ferritin، RDW، او HbA2 د شرایطو (context) لخوا ملاتړ شوې وه. د V11 دویم اپډېټ په 100,000-قضیه کوهورټ کې، هماغه توپیر لرونکی چلند د نفوس په کچه کې هم خوندي پاتې شو.

زه خام بنچمارک ډاټا او د سرچینې کوډ چیرته موندلی شم؟

تخنیکي راپور په Figshare کې د DOI 10.6084/m9.figshare.32095435 لاندې ثبت شوی (دواړه د V11 لومړنی خپرونه او د V11 دویم اپډېټ پوښي)، په ResearchGate کې د خپرونې 404175463 او په Academia.edu کې د مقالې 165956808 سره منعکس شوی—دواړه د V11 دویم اپډېټ سرلیک او د 100,000-قضیه پایلو سره تازه شوي—او د MIT-جواز لرونکی Python هارنس چې د ټولو حوالوي چلولو پایلې پکې شاملې دي په github.com/emirhanai/kantesti-blood-test-benchmark کې دی. د څلور-پلاتفورم (four-platform) منعکس شبکې (mirror network) د اوږدمهاله شتون او د حوالې (citation) انعطاف تضمینوي.

ولې د AI طبي بنچمارکونو لپاره مخکې ثبت (pre-registration) مهم دی؟

مخکې ثبت د post-hoc روبرک تنظیم (rubric tuning) مخه نیسي، چې د شرکت‌-چلول شوو بنچمارکونو له‌خوا د خپلو شمېرنو د لوړولو تر ټولو عامه لاره ده. د روبرک د سرچینې کوډ ته د انجن له هرې غوښتنې (call) مخکې ژمن کول او د هارنس په عامه توګه خپرول، د روبرک لیکوال د نیټې (author dates) د ورژن کنټرول (version control) له لارې د کتنې وړ ګرځوي، او د انجن پایلې نشي کولی د نمره‌ ورکولو معیارونه (scoring criteria) بدل کړي.

ایا دا بنچمارک له نورو AI انجنونو سره پرتله هم لري؟

نه. د V11 راپور—دواړه لومړنی خپرونه او دویم اپډېټ—په قصدي ډول یو واحد انجن د یوې ثابتې روبرک پر وړاندې تشریح کوي، نه دا چې یې د بدیلو سوداګریزو سیستمونو پر وړاندې ځای پر ځای کړي. هارنس د MIT جواز لاندې خلاص سرچینه (open source) ده (اوس د SQL قضیه لوډر هم پکې شامل دی)، نو خپلواکو څېړونکو ته اجازه ورکوي چې هر انجن چې وغواړي د هماغې روبرک او قضیه لوډر پر وړاندې ارزونه وکړي او خپلې پایلې خپرې کړي.

ایا د ناروغ قضیې رښتینې دي که مصنوعي؟

ټولې قضیې بې‌نومه شوي حقیقي د ناروغانو ریکارډونه دي چې د Kantesti کلینیکي ډیټا ریپوزیټري څخه د لیکلي باخبره رضایت (written informed consent) له مخې اخیستل شوي—په V11 لومړنۍ خپرونه کې 15 په لاس غوره شوي (hand-curated) قضیې او په V11 دویم اپډېټ کې 100,000 قضیې، چې ټولې د هماغه بې‌نومه SQL-مخکې ملاتړ شوي ریپوزیټري څخه سرچینه اخلي. بې‌پېژندګلوي (de-identification) د Safe Harbor تګلارې له مخې ترسره شوې، چې ټول مستقیم پېژندونکي (direct identifiers) د لیکلو پر مهال لرې یا بدل شوي دي. د دویم اپډېټ بنچمارک لوډر د یوازې-د-لوستلو رول له لارې نښلېږي (bench_reader) چې د جدولونو د پېژندلو هېڅ امتیاز نه لري—دا په ډیټابېس کچه کې پلي کېږي. پروسس د GDPR د 9(2)(j) مادې او د انګلستان د معادل GDPR احکامو سره سم ترسره شوی. په خپاره شوي هارنس، تخنیکي راپور، یا خپاره شویو ډیټاسیټونو کې هېڅ شخصي پېژندونکې معلومات نه ښکاري.

⚕️ طبي خبرتیا (Medical Disclaimer) او د ګټې ټکر (Conflict of Interest)

دا بنچمارک راپور د څېړنې او میتودولوژیکي روڼتیا (transparency) د موخو لپاره دی. دا طبي مشوره نه ده. تل د تشخیص او درملنې د پرېکړو لپاره له یو وړ روغتیايي خدمت‌چمتوونکي (qualified healthcare provider) سره مشوره وکړئ. دواړه لیکوالان په Kantesti Ltd کې ګمارل شوي او په دې شرکت کې ونډه (equity) لري، او د ارزونې لاندې انجن د هماغه سازمان یو سوداګریز محصول دی. دا د ګټې ټکر د روبرک په سرچینې کوډ کې د مخکې ثبت کولو، د هارنس د MIT جواز لاندې د خپرولو، او د هر خام انجن ځواب د خپرولو له لارې کم شوی دی.

د E-E-A-T باور نښې

⭐

تجربه

د قضیې پینل د انتخاب په څارنه کې د ۱۵+ کلونو کلینیکي هیماتولوژي او لابراتواري طب تمرین.

📋

تخصص

د مخکې ثبت شوي روبرک ډیزاین د څرګندو هایپرډایګنوسس جریمو (hyperdiagnosis penalties) او پېژندل شویو کلینیکي نمره‌ ورکولو سیستمونو سره (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

واک ورکول

مخکښ لیکوال ډاکټر توماس کلاین، MD (ORCID 0009-0009-1490-1321). پلي کول (Implementation) د جولین امیرهان بلوت (Julian Emirhan Bulut)، د Kantesti Ltd CEO.

🛡️

اعتبار

د MIT جواز لرونکی د بیا تولید وړ هارنس (reproducible harness)، خام انجن ځوابونه خپاره شوي، د ګټې ټکر خلاص افشا (open conflict-of-interest disclosure)، او د څلورو پلیټفارمونو د څېړنې منعکس شبکې (mirror network).

🏢 کانټیستی لمیټډ په انګلستان او ویلز کې ثبت · د شرکت شمېره. 17090423 لندن، انګلستان · kantesti.net