هي بينچمارڪ ڇو موجود آهي ۽ اهو ڇا پرکي ٿو

AI جي مدد سان خون جي جاچ جو نتيجو صارفين ۽ ڪلينڪل ورڪ فلو ۾ وڌندڙ استعمال ٿي رهيو آهي، پر ليبارٽري ميڊيسن لاءِ ٺهيل ورجائي سگهندڙ جائزي جا فريم ورڪ اڃا به گهٽ ملن ٿا. هن ماحول ۾ سڀ کان اهم سوال اهي نه آهن جيڪي عام طبي سوال-جواب بئنچمارڪن ۾ ڍڪيل هجن: ڇا انجڻ لوهه جي کوٽ کي ٿيلاسيميا ٽريٽ کان ڌار ڪري سگهي ٿي جڏهن mean corpuscular volume هڪجهڙو هجي، ڇا اهو Gilbert's syndrome کي هيپاٽائيٽس طور اوور-ڊائگنوس ڪري ٿو، ۽ ڇا اهو مڪمل طور تي عام اسڪريننگ پينل ۾ بيماري ٺاهي ٿو؟

اڳ-رجسٽرڊ روبرڪ فلو ڊاگرام ڏيکاريندي ته Kantesti AI Engine — V11 سيڪنڊ اپڊيٽ، 100,000 ڪيسن تي 99.80% composite اسڪور — کي منجمد (frozen) اسڪورنگ معيارن جي خلاف ڪيئن جائزو ورتو وڃي ٿو
شڪل 1: ان بينچمارڪ آرڪيٽيڪچر جيڪو ان جي پويان آهي 99.80% جامع اسڪور V11 سيڪنڊ اپڊيٽ تي — 100,000 ڪيسن جي ڪوهاٽ ۾؛ هر ڪيس، هر لفظ (keyword)، هر اسڪورنگ سسٽم انجڻ هڪ به PDF ڏسڻ کان اڳ ئي سورس ڪوڊ ۾ مقرر ٿيل آهي، ۽ روبِرڪ V11 جي شروعاتي رليز سان بائيٽ-بائيٽ هڪجهڙو آهي. ڊيزائن موجب پوسٽ-هاڪ روبِرڪ ٽيوننگ ممڪن ناهي.

هڪ واحد رت جي جاچ جو پينل عام طور تي ايترو سگنل رکي ٿو جو ڪيترن ئي مقابلي واري تشريحن کي سهارو ڏئي سگهي، ۽ تشريح ڪندڙ ڪلينشين جو ڪم اهو آهي ته انهن تشريحن کي هڪ ٻئي جي مقابلي ۾ وزن ڏئي، نه ته ڪنهن درسي ڪتاب واري “سڌي جواب” کي ڳولهي. هڪ اهڙو انجڻ جيڪو درسي ڪتاب وارن ڪيسن تي سٺو ڪم ڪري سگهي ٿو، اهو به انهن ڪيسن تي ناڪام ٿي سگهي ٿو جيڪي سڀ کان وڌيڪ اهم آهن: فرقيوار تشخيص (differential-diagnosis) جون ڦاسون، اهي بي ضرر تبديليون جيڪي اڪيلو ڏسڻ تي خطرناڪ لڳن ٿيون، ۽ مڪمل طور تي عام پينل جيڪي اعتماد ڪندڙ اسسٽنٽن کي بيماري ٺاهڻ تي اُتساهين ٿا.

هي بئنچمارڪ بلڪل انهن ناڪامي جي طريقن جي بنياد تي ٺاهيو ويو. پندرهن مان هر هڪ ڪيس کي هڪ مخصوص تشخيصي خاصيت لاءِ چونڊيو ويو: لوهه جي گهٽتائي سبب مائڪرو سائيٽوسس (microcytosis) جنهن کي ساڳي mean corpuscular volume سان beta-thalassaemia trait کان ڌار رکڻو آهي، گِلبرٽ جي سنڊروم (Gilbert's syndrome) جي پيشڪش جتي صرف هڪ ئي غيرمعمولي ڳالهه الڳ ٿيل indirect hyperbilirubinaemia آهي، ۽ هڪ پندرهن-پيرا ميٽر اسڪريننگ پينل جنهن ۾ هر اينالائيٽ پنهنجي ريفرنس رينج اندر ئي موجود آهي. روبرڪ انهن انجڻن کي انعام ڏئي ٿو جيڪي هر ڪيس کي پنهنجي شرطن مطابق پڙهن ٿا، ۽ انهن انجڻن کي سزا ڏئي ٿو جيڪي اهڙي پڪ واري تشخيص تائين پهچن ٿا جتي اهڙي تشخيص جي ضرورت ئي نه هجي.

ڊاڪٽر ٿامس ڪلين (Thomas Klein, MD) جي حيثيت ۾، مون ڪيس پينل چونڊيو ڇو ته اهي ئي نمونا آهن جيڪي ليبارٽري-ميڊيسن اسسٽنٽس سڀ کان وڌيڪ اڪثر غلط ڪندا آهن. مهانگي ناڪامي جو طريقو "ڪو ناياب بيماري وڃائڻ" ناهي—اهو انهن مريضن ۾ معمولي بيماريءَ جهڙي (routine) پيتھالاجي ٺاهڻ آهي جن کي اها اصل ۾ نه هجي. اسان جو طبي تصديق hub وسيع فريم ورڪ بيان ڪري ٿو؛ هي صفحو V11 جي شروعاتي proof-of-concept ۽ V11 ٻئي اپڊيٽ بيان ڪري ٿو جنهن ان کي 100,000 مصنوعي ڪيسن تائين وڌايو—127 ملڪ ليبلن تي پکڙيل هڪ مصنوعي ڪيس سيٽ مان ورتل—ساڳئي اسڪورنگ روبِرڪ سان، بائيٽ-برابر، ۽ پوسٽ-هاڪ ٽيوننگ جي اجازت کان سواءِ.

جديد ريفرنس رن — V11 سيڪنڊ اپڊيٽ (26 اپريل 2026)

26 اپريل 2026 جي V11 سيڪنڊ اپڊيٽ ريفرنس رن هڪ گڏيل (composite) اسڪور پيدا ڪيو 99.80% ساڳي اڳ-رجسٽرڊ روبِرڪ تي جيڪو V11 جي شروعاتي رليز ۾ استعمال ٿيو هو، جائزو ورتو ويو 100,000 مصنوعي ڪيس Kantesti مصنوعي ڪيس سيٽ مان ورتل ۽ 127 ملڪ ليبلن تي پکڙيل ۽ 75+ ٻولين ۾ پکڙيل. هر ڪيس انجڻ جي بنيادي (primary) رستي تي مڪمل ٿيو؛ ٽرَپ-ڪيس هائپرڊائگنوسس فليگ ايڪٽيويشنز رهيا 0 / 87,412. 23 اپريل 2026 تي ٿيل اصل V11 رن ۾ 15 هٿ سان چونڊيل ڪيس شامل هئا (composite 99.12%) ۽ روبِرڪ کي صحيح ثابت ڪيو؛ سيڪنڊ اپڊيٽ اهو ئي روبِرڪ بائيٽ-بائيٽ برقرار رکي ٿو ۽ جائزي کي آبادي-سطحي ڪوهاٽ تائين وڌائي ٿو.

گڏيل (Composite) 99.80% 100,000 مان 100,000 ڪيسن جو اسڪور
1.000 ساختي اسڪور (Structural score)
0.996 ڪلينڪل اسڪور (Clinical score)
13.26 s اوسط دير (Mean latency)
0 / 87,412 ڦاس وارا غلط مثبت (Trap false-positives)

گڏيل فارمولا ٽن حصن کي گڏ ڪري ٿو: ساختي مطابقت (structural conformance) ستن لازمي رپورٽ سيڪشنن ۽ سورهن لازمي سب سيڪشنن سان،, مواد جي درستگي ماپي وئي: keyword recall + scoring-system recall + امڪاني-تقسيم (probability-distribution) جي درستگي جي چيڪ سان، ۽ جواب جي دير (response latency) بنيادي-رستي سروس-ليول ٽارگيٽ جي خلاف. صحيح تفصيل هيٺ ڏنل روبِرڪ فارمولا ۾ ڏيکاريل آهي — انهن مان ڪا به وزن يا سب-روبِرڪ سيڪنڊ اپڊيٽ لاءِ تبديل نه ڪئي وئي.

گڏيل (Composite) = 0.35 × ساختي (Structural) + 0.55 × ڪلينڪل (Clinical) + 0.10 × دير (Latency)

هيڊ روم جا باقي 0.20 سيڪڙو پوائنٽ تقريبن مڪمل طور تي ڪلينڪل سب-اسڪور ۾ ورهائجن ٿا — ڪيسن جو ٿورو حصو (خاص طور تي Hepatology ۽ Rheumatology ۾) انجڻ جي تشريح ۾ هڪ متوقع اسڪورنگ-سسٽم keyword غائب هو، جيتوڻيڪ تشخيصي مواد صحيح هو. 100,000-ڪيس سيڪنڊ-اپڊيٽ ڪوهاٽ ۾ ڪو به ڪيس پاڻ تشخيص (diagnosis) کان محروم نه رهيو. ليٽنسي V11 جي شروعاتي رليز ۾ اوسط 20.17 s کان سيڪنڊ اپڊيٽ ۾ 13.26 s تائين بهتر ٿي؛ ٻن رنن جي وچ ۾ پروڊڪشن انجڻ جي آپٽمائيزيشنز کي ظاهر ڪندي. روبِرڪ، اسڪورنگ ڪوڊ، ۽ API اينڊ پوائنٽ ۾ ڪا تبديلي ناهي.

في-ليبل جامع اسڪور 30 سڀ کان وڌيڪ نمائندہ ملڪ ليبلن ۾ 0.9971 کان 0.9985 تائين هئا. باقي 97 اضافي ليبلن جي ڊگهي دم (≈7,300 ڪيس گڏيل) ۾ ڪا به منظم (systematic) گهٽتائي نظر نه آئي. ڪيس ڳڻپ موجب سڀ کان وڌيڪ عام ليبل هئا: آمريڪا (10,500)، برازيل (9,500)، اسپين (9,000)، اٽلي (8,000)، جرمني (7,800)، فرانس (7,400)، پرتگال (5,800)، Türkiye (3,400)، برطانيه (2,900)، ۽ ميڪسيڪو (2,500).

15 ڪيسن کان 100,000 تائين: 127 ملڪ ليبلن ۾ ڪوهاٽ جي ارتقا

اصل V11 ڪيس پينل ست خاصيتن تي مشتمل هو — هيماتولوجي، اينڊوڪرائينولوجي، ميٽابولڪ ميڊيسن، هيپاٽولوجي، نيڦرولوجي، ڪارڊيالوجي، ريميٽولوجي — ۽ گڏوگڏ ٻه وقف ڪيل هائپرڊائگنوسس ٽريپ ڪيس، هر ڪيس هڪ مصنوعي طور تي تيار ڪيل بلڊ-ٽيسٽ پينل سان. V11 ٻيو اپڊيٽ تشخيص کي 127 ملڪ ليبلن ۾ پکڙيل 100,000 مصنوعي ڪيسن تائين وڌائي ٿو, ، اٺ خاصيتن ۾ ورهايل (اصل ستن کان علاوه هڪ وقف ٿيل internal-medicine بڪيٽ جيڪو ٽرَپ سب سيٽ کي جذب ڪري ٿو). ساڳي اسڪورنگ روبِرڪ ٻنهي رنن ۾ بائيٽ-بائيٽ لاڳو ڪئي وئي.

V11 ابتدائي case-panel ڊيزائن — ستن طبي خصوصيتن ۾ پندرهن synthetic blood-test ڪيس، گڏوگڏ ٻه hyperdiagnosis trap ڪيس؛ ساڳي rubric V11 Second Update ۾ 100,000 ڪيسن تي 99.80% composite اسڪور تائين پهتي
شڪل 2: V11 شروعاتي ڪيس-پينل ڊيزائن hematology، endocrinology، metabolic medicine، hepatology، nephrology، cardiology، rheumatology ۾ — ۽ گڏوگڏ ٻن ٽرَپ ڪيسن سان: Gilbert's syndrome ۽ مڪمل طور تي عام (fully normal) اسڪريننگ پينل. سيڪنڊ اپڊيٽ اهو ئي روبِرڪ بائيٽ-بائيٽ برقرار رکي ٿو جڏهن ته ڪوهاٽ کي 100,000 ڪيسن تائين وڌائي ٿو، جيڪي Kantesti SQL رپوزٽري مان ورتل آهن.

ڇاڪاڻ ته سڀئي ڪيس مصنوعي طور تي تيار ڪيل آهن، تنهنڪري هٽائڻ لاءِ ڪابه حقيقي سڃاڻپ (identifier) موجود ناهي ۽ نه ئي ڪا ذاتي ڊيٽا شامل آهي. هر مصنوعي ڪيس ۾ هڪ بينچمارڪ-اندروني ڪيس ڪوڊ هوندو آهي (V11 جي شروعاتي سيٽ ۾ BT-NNN-LABEL، هڪ مستحڪم case_uid ٻئي اپڊيٽ ۾). شايع ٿيل هارنس، ٽيڪنيڪل رپورٽ، يا جاري ڪيل ڊيٽا سيٽن ۾ ڪٿي به ڪا ذاتي ڊيٽا نظر نٿي اچي.

V11 شروعاتي رليز — 15 هٿ سان چونڊيل ڪيس

اصل V11 ڪيس پينل ڊاڪٽر ٿامس ڪلين هٿ سان چونڊيو هو ته جيئن اهي تشخيصي نمونا مشق ۾ آڻجن جن کي ليبارٽري-ميڊيسن اسسٽنٽس سڀ کان گهڻو غلط سمجهن ٿا. پندرهن مان هر هڪ ڪيس کي هيٺ ڏنل ڪنهن مخصوص تشخيصي خاصيت لاءِ چونڊيو ويو.

Hematology (3) BT-001، BT-006، BT-007 آئرن جي کوٽ سبب انيميا · B12 جي کوٽ · Beta-thalassaemia minor
Endocrinology (3) BT-002، BT-008، BT-012 Hashimoto's thyroiditis · انسولين ريزسٽنس سان PCOS · سخت وٽامن ڊي جي کمي
Metabolic (2) BT-003، BT-013 ميٽابولڪ سنڊروم سان T2DM · گائوٽ جي خطري سان Hyperuricaemia
Hepatology (2) BT-004، BT-009 NAFLD / NASH · شديد وائرل هيپاٽائيٽس
Nephrology · Cardiology · Rheumatology (3) BT-005، BT-010، BT-011 CKD اسٽيج 3 · Atherogenic dyslipidaemia · Systemic lupus erythematosus
Trap cases (2) BT-014، BT-015 Gilbert's syndrome (اڪيلائيءَ ۾ indirect hyperbilirubinaemia) · مڪمل طور تي عام بالغ اسڪرين

هي خاص ورڇ ڇو

هيماتولوجي کي ٽي ڪيس ملن ٿا، ڇاڪاڻ⁠تہ مائڪرو سائيٽڪ ڊفرينشلز ۽ ميڪرو سائيٽڪ ڊفرينشلز حقيقي دنيا جي ليبارٽري عمل ۾ سڀ کان وڌيڪ مقدار وارا “ٽريپس” آهن. اينڊو ڪرائينولوجي کي ٽي ڪيس ملن ٿا، ڇاڪاڻ⁠تہ Hashimoto's، PCOS، ۽ وٽامن ڊي جي کمي جون پيشڪشون مختلف تشخيصي شڪليون اختيار ڪن ٿيون (آٽو اينٽي باڊي-هلائيندڙ، هارمون-تناسب-هلائيندڙ، واحد-مارڪر-هلائيندڙ). واحد ڪيس واريون خاصيتون اڃا به معنيٰ رکن ٿيون، ڇاڪاڻ⁠تہ هر CKD، ASCVD خطري، ۽ SLE جو پنهنجو اسڪوئرنگ سسٽم آهي، جنهن کي انجڻ کي سڏڻ گهرجي (KDIGO اسٽيجنگ، ASCVD 10-سال خطرو، ۽ 2019 EULAR/ACR SLE معيار ترتيبوار).

V11 ٻيو اپڊيٽ — 127 ملڪ ليبلن ۾ پکڙيل 100,000 مصنوعي ڪيس

ٻيو اپڊيٽ اصل V11 جي 15-ڪيس هارڊ-ڪوڊڊ Python literal کي هڪ وڏي، پروگراماتي طور تي تيار ڪيل مصنوعي ڪيس سيٽ سان بدلائي ٿو. ڪيس سيٽ هر رن جي شروعات ۾ لوڊ ڪيو ويندو آهي ۽ شفافيت لاءِ ترتيب (configuration) لاگ ڪئي ويندي آهي. مواد واري علائقي موجب ڪوهاٽ جي ورڇ هيٺ ڏيکاري وئي آهي.

اينڊوڪرينولوجي 23,900 ڪيس (23.9%) ٿائيرائيڊ، PCOS، وٽامن ڊي، گونادل محور، پيٽيوٽري
ميٽابولڪ ميڊيسن 21,900 ڪيس (21.9%) T2DM، ميٽابولڪ سنڊروم، لپڊ پينلز، هائپر يوريسيميا
رت جي بيماري 15,400 ڪيس (15.4%) مائڪرو سائيٽڪ ۽ ميڪرو سائيٽڪ فرق (differentials)، B12/فوليٽ، آئرن اسٽڊيز
هيپاٽولوجي 12,400 ڪيس (12.4%) NAFLD/NASH، وائرل هيپاٽائيٽس، FIB-4، ڪوليسٽاسس
اندروني دوائون (incl. trap subset) 9,000 ڪيس (9.0%) گڏيل پيشڪشون ۽ 8,723 وقف ٿيل هائپرڊائگنوسس ٽريپ ڪيس
قلبی امراض 7,500 ڪيس (7.5%) ASCVD خطرو، ايٿروجينڪ ڊسليپيڊيميا، hs-CRP
ريميٽولوجي 6,000 ڪيس (6.0%) SLE، RA، ويسڪولائٽس، آٽو اينٽي باڊي پينلز (EULAR/ACR معيار)
گردن جي بيماري 4,000 ڪيس (4.0%) CKD اسٽيجنگ (KDIGO)، eGFR رجحان، اليڪٽرولائيٽ بي ترتيبي

مصنوعي ملڪ-ليبل ورڇ — مٿيان 10 ليبل

100,000 مصنوعي ڪيسن ۾ 127 ملڪ ليبل (ISO 3166-1 alpha-2) شامل آهن ته جيئن locale handling کي پرکيو وڃي. ليبل تفويض: يورپ 57.7%، آمريڪا 25.4%، ايشيا-پئسفڪ 6.2%، نالي سان وچ-اوڀر/افريقا ليبل 3.4%، ۽ باقي 97 اضافي ليبلن جي ڊگهي دم مجموعي طور تقريباً 7.3% آهي. ڪيس ڳڻپ موجب ڏهه سڀ کان وڌيڪ عام ليبل هئا: آمريڪا (10,500)، برازيل (9,500)، اسپين (9,000)، اٽلي (8,000)، جرمني (7,800)، فرانس (7,400)، پرتگال (5,800)، Türkiye (3,400)، برطانيه (2,900)، ۽ ميڪسيڪو (2,500). في-ليبل جامع اسڪور 0.9971 کان 0.9985 تائين هئا. اهي ليبل ڳڻپون generated cases جون ملڪيتون آهن جيڪي locale handling کي پرکڻ لاءِ استعمال ٿين ٿيون — اهي حقيقي استعمال ڪندڙ نه آهن ۽ نه ئي حقيقي دنيا جي جاگرافيائي ڪوريج.

اڳ-رجسٽرڊ روبرڪ جي وضاحت

اڳ-رجسٽريشن هن بينچمارڪ ۾ سڀ کان اهم طريقيڪار وارو فيصلو آهي. هر متوقع تشخيص، هر ڪلينڪل اسڪوئرنگ سسٽم، ۽ هر رپورٽ سيڪشن کي سورس ڪوڊ ۾ لاڪ ڪيو ويو انجڻ کي سڏڻ کان اڳ. تنهنڪري انجڻ کي خوش ڪرڻ لاءِ روبريڪ جي پوسٽ-هاڪ ٽيوننگ ممڪن ناهي.

جامع اسڪوئر ٽي حصن تي مشتمل آهي. ساختي حصو 35 سيڪڙو جو حصو ڏئي ٿو ۽ ماپي ٿو ته انجڻ ڇا ست لازمي رپورٽ سيڪشن واپس ڪيا (هيڊر، خلاصو، اهم نتيجا، ڊفرينشل، اسڪوئرنگ سسٽم، سفارشون، فالو اپ) ۽ انهن اندر موجود سولهن لازمي سب سيڪشن. سيڪشن موجودگي ساختي حساب ۾ 40 سيڪڙو وزن رکي ٿي ۽ سب سيڪشن موجودگي 60 سيڪڙو وزن رکي ٿي.

جي ڪلينڪل حصو 55 سيڪڙو جو حصو ڏئي ٿو ۽ ٽن شين کي گڏ ڪري ٿو: تشخيص-ڪي ورڊ يادگيري (ڪلينڪل سب-اسڪوئر جو 70 سيڪڙو)، اسڪوئرنگ سسٽم يادگيري (20 سيڪڙو — ڇا انجڻ Mentzer، FIB-4، HOMA-IR، ASCVD خطرو، KDIGO اسٽيجنگ، EULAR/ACR معيار جتي لاڳو هجن، حساب ڪري ٿو)، ۽ امڪان-مجموعو درستگي چيڪ (10 سيڪڙو — ڊفرينشل امڪانن جو مجموعو [90, 110] وقفي اندر هئڻ گهرجي). ٽريپ ڪيسن لاءِ، وڌ ۾ وڌ 0.30 جي واضح هائپر ڊائگنوسس پينلٽي ڪٽجي ٿي، جيڪا في ٺاهيل پيتھالاجي فليگ 0.10 جي حساب سان لڳائي وڃي ٿي، ۽ وڌ ۾ وڌ ٽي فليگ تائين محدود آهي.

جي ليٽنسي حصو 10 سيڪڙو جو حصو ڏئي ٿو. 20 سيڪنڊن کان گهٽ جواب مڪمل 0.10 حاصل ڪري ٿو، 40 سيڪنڊن کان گهٽ جواب 0.05 حاصل ڪري ٿو، ۽ ان کان وڌيڪ دير وارو ڪجهه به صفر. 20 سيڪنڊن جو ٽارگيٽ پروڊڪشن پرائمري-پٿ سروس-ليول مقصد کي ظاهر ڪري ٿو؛ 40 سيڪنڊن جي حد Phase 2 لاءِ ڳري-انجڻ انوڪيشنز جي فال بيڪ بجيٽ کي ظاهر ڪري ٿي.

MIT-لائسنس ٿيل Kantesti بينچمارڪ هارنس هلندي ۽ في-ڪيس اسڪور خارج ڪندي آخري اسڪرين شاٽ — ساڳيو هارنس، هاڻي SQL-هلائيندڙ، V11 سيڪنڊ اپڊيٽ جي 100,000 ڪيسن واري رن ۾ 99.80% composite اسڪور پيدا ڪيو
شڪل 3: عمل ۾ آيل هارنس — اهو ئي انجڻ جيڪو پيدا ڪيو 99.80% جامع V11 Second Update 100,000-case ڪوهاٽ تي. هر ڪيس کي A4 PDF طور رينڊر ڪيو وڃي ٿو، پروڊڪشن v11 اينڊ پوائنٽ تي پوسٽ ڪيو وڃي ٿو، ۽ منجمد روبريڪ جي خلاف اسڪور ڪيو وڃي ٿو. Second Update هڪ پيرا ميٽرائيزڊ SQL case loader شامل ڪيو؛ خام انجڻ جي جوابن جو stratified random sample (n = 201) گڏ ڪيل scorecard سان گڏ محفوظ ڪيو وڃي ٿو.

اڳ-رجسٽريشن ڇا روڪي ٿي

فرسٽ پارٽي بينچمارڪ پوسٽ-هاڪ روبريڪ ٽيوننگ ذريعي پنهنجا انگ وڌائڻ لاءِ بدنام آهن. نمونو تقريباً هميشه ساڳيو هوندو آهي: ٽيم انجڻ هلائي ٿي، ڏسي ٿي ته ڪٿي گهٽ ڪارڪردگي ٿي رهي آهي، پوءِ خاموشي سان روبريڪ کي ترتيب ڏئي ٿي ته گهٽ ڪارڪردگي وارا علائقا گهٽ ڳڻجن. پهرين انجڻ ڪال کان اڳ روبريڪ کي سورس ڪوڊ ۾ لاڪ ڪرڻ ۽ هارنس کي MIT لائسنس تحت پبلش ڪرڻ سان، اها ترتيب ورزن ڪنٽرول ۾ نظر اچي ٿي. ڪو به ماڻهو رپوزٽري ڪلون ڪري سگهي ٿو، روبريڪ ليکڪ جي تاريخون چيڪ ڪري سگهي ٿو، ۽ تصديق ڪري سگهي ٿو ته انجڻ جا نتيجا اسڪورنگ کي ٺاهڻ لاءِ استعمال نه ڪيا ويا.

هائپرڊائگنوسس ٽريپ ڪيس — ڇو گهڻو سڏڻ اصل ناڪامي جو طريقو آهي

نارمل اسڪرينز تي پيتھالاجي کي زور سان وڌيڪ سڏڻ (over-calling) صارف-سامهون طبي اسسٽنٽن لاءِ دستاويزي ناڪامي وارو طريقو آهي. ان جا هيٺيان خرچ غير ضروري جاچ، مريض جي پريشاني، ۽ iatrogenic workup شامل ڪن ٿا. هن بينچمارڪ جا ٻه ٽريپ ڪيس ٺهيل آهن ته اها ناڪامي وارو طريقو نظر اچي ۽ اسڪور ٿي سگهي.

هڪ طرفي (side-by-side) مقابلو: بيوقوف AI گِلبرٽ جي سنڊروم پينل تي هيپاٽائٽس ٺاهيندي بمقابلہ Kantesti انجڻ صحيح نموني سان بي نائين UGT1A1 پوليمورفزم سڃاڻيندي — اهو طريقه ڪار جيڪو V11 سيڪنڊ اپڊيٽ 99.80% بينچمارڪ ۾ 87,412 ٽريپ-فليگ موقعن تي صفر false-positives تائين وڌايو ويو
شڪل 4: V11 جي شروعاتي رليز مان trap-case ڊيزائن — هڪ انجڻ جيڪو اعتماد سان Gilbert's syndrome کي هيپاٽائيٽس طور ليبل ڪري، يا جيڪو مڪمل طور عام اسڪرين تي سرحدي (borderline) بيماريءَ واري نوعيت ٺاهي، ته ان کي “ڪلينڪل آواز ڏيڻ” تي انعام ڏيڻ بدران سزا ڏني وڃي ٿي. هي طريقو وڌايو ويو 0 / 87,412 false-positives تائين V11 Second Update 100,000-case رن ۾، جنهن 99.80% جامع اسڪور پيدا ڪيو.

🟡 ٽريپ 1 — BT-014-GILBERT

پيشڪش. هڪ 24 سالن جو مرد جنهن جو ڪل بلي روبن 2.4 mg/dL آهي. ڊائريڪٽ حصو نارمل آهي، ٽرانسامينيز ۽ الڪالائن فاسفٽيز پنهنجن ريفرنس رينجز اندر آهن، ريٽيڪولوسائٽس غير معمولي نه آهن، ۽ هپٽوگلوبن ۽ LDH haemolysis کي رد ڪن ٿا.

صحيح تشريح. Gilbert's syndrome — هڪ بي نياز UGT1A1 پوليمورفزم. تشريح کي هيپاٽائيٽس، سرروسس، هيمولائيٽڪ انيميا، يا بائليري اوبسٽرڪشن کي سڏڻ نه گهرجي.

V11 نتيجو. جامع 1.000. ڇهن نگراني ڪيل اوور-ڊائگنوسس فليگز مان ڪو به فعال تشخيص طور ظاهر نه ٿيو.

🟡 ٽريپ 2 — BT-015-HEALTHY

پيشڪش. هڪ 35 سالن جي عورت لاءِ پندرهن-پيرا ميٽرن واري معمولي اسڪريننگ پينل. هر اينالائيٽ پنهنجي ريفرنس رينج اندر آرام سان موجود آهي.

صحيح تشريح. تسلي ۽ طرزِ زندگي جي سار سنڀال. تشريح کي اهڙي حدبندي واري بيماري جوڙڻ نه گهرجي جيڪا ڪلينڪي طور مفيد لڳي، پر اصل ۾ موجود نه هجي.

V11 نتيجو. مجموعي 1.000. نگراني ڪيل ستن مان ڪابه به وڌيڪ تشخيص واري خبرداري — ذيابيطس، انيميا، هائيپوتائيرائيڊزم، ڊس لپيڊيميا، هيپاٽائيٽس، گردن جي بيماري، ڪمي — فعال تشخيص طور ظاهر نه ٿي.

ٻنهي ٽريپس ۾، نگراني ڪيل تيرهن وڌيڪ تشخيص واري خبردارين کي چيڪ ڪيو ويو. ڪابه به ٽرگر نه ٿي. هي اهو نتيجو آهي جيڪو ڪنهن به ڪلينشين لاءِ سڀ کان وڌيڪ اهميت رکي ٿو جيڪو AI انجڻ کي ٽرييج يا اڳ-مشاورت واري اوزار طور استعمال ڪرڻ تي غور ڪري ٿو: سسٽم جتي بيماري موجود نه هئي، اتي بيماري ايجاد نه ڪئي.

مينتزير انڊيڪس: لوهه جي کوٽ کي ٿيلاسيميا ٽريٽ کان الڳ ڪرڻ

هڪ ٻي اعليٰ قدر واري ڳولا ڪيس BT-001 (لوهه جي ڪمي سبب انيميا) ۽ ڪيس BT-007 (بيٽا ٿالاسيميا مائنر) جي جوڙي سان لاڳاپيل آهي. ٻئي مائڪروسائٽوسس سان پيش ٿين ٿا ۽ ناتجربيڪار ڪلاسيفائرز لاءِ هڪ مشهور رڪاوٽ آهن. مينٽزر انڊيڪس، جيڪو MCV کي RBC ڳڻپ سان ورهائي حساب ڪيو ويندو آهي، لوهه جي ڪمي ۾ 13 کان مٿي ۽ ٿالاسيميا ٽريٽ ۾ 13 کان هيٺ اچي ٿو.

BT-001 ۾، مريض 34 سالن جي عورت هئي جنهن جو هيموگلوبن 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فيريٽين 6 ng/mL، ۽ TIBC وڌيل هو. تقريباً 17.7 جو مينٽزر انڊيڪس واضح/مطلق لوهه جي ڪمي جي حمايت ڪري ٿو. BT-007 ۾، مريض 28 سالن جو مرد هو جنهن ۾ مائڪروسائٽوسس (MCV 65.8 fL) هو، پر RBC ڳڻپ 6.2 وڌيڪ، RDW عام، فيريٽين عام، ۽ HbA2 5.6 سيڪڙو هو. تقريباً 10.6 جو مينٽزر انڊيڪس ٿالاسيميا ٽريٽ ڏانهن اشارو ڪري ٿو، ۽ HbA2 جو وڌيل هجڻ بيٽا ٿالاسيميا مائنر جي تصديق ڪري ٿو.

لوهه جي ڪمي سبب انيميا مينٽزر > 13 فيريٽين گهٽ، TSAT گهٽ، TIBC وڌيل، RDW وڌيل
بيٽا ٿالاسيميا ٽريٽ مينٽزر < 13 فيريٽين عام، RDW عام، HbA2 وڌيل (>3.5%)، RBC ڳڻپ وڌيڪ

ٻنهي ڪيسن جو اسڪور 1.000 هو. انجڻ ٻنهي تشريحن ۾ مينٽزر انڊيڪس کي واضح طور استعمال ڪيو ۽ هر ڀيري صحيح تشخيص موٽائي. هي سڄي بينچمارڪ ۾ واحد سڀ کان وڌيڪ ڪلينڪي طور تسلي بخش نتيجو آهي, ، ڇاڪاڻ ته ٿالاسيميا ٽريٽ کي لوهه جي ڪمي طور غلط درجي بندي ڪرڻ سان غير مناسب لوهه جي سپليمينٽيشن ٿي وڃي ٿي ۽ خاندان جي اسڪريننگ جا موقعا رهجي وڃن ٿا، ۽ لوهه جي ڪمي کي ٿالاسيميا طور غلط درجي بندي ڪرڻ سان سڌي سادي متبادل علاج ۾ دير ٿي وڃي ٿي. اسان فيريٽين رينج گائيڊ وسيع فرق واري (differential) حوالي جي وضاحت ڪريون ٿا.

V11 ابتدائي ريفرنس رن مان في ڪيس نتيجا (23 اپريل 2026)

15-case proof-of-concept ڪوهاٽ تي اصل V11 ريفرنس رن ان جي طريقياتي بنياد طور ڪم ڪري ٿو Second Update جو: هيٺ ڏنل هر في ڪيس تفصيل ڏيکاري ٿو ته روبريڪ حقيقي انجڻ جي جواب کي ڪيئن سنڀاليندو آهي. پندرهن مان ٻارهن ڪيسن پرائمري رستي تي ceiling جامع اسڪور 1.000 حاصل ڪيو؛ ٽي ڪيس Phase 2 fallback ذريعي سروس ڪيا ويا، جنهن 0.05 latency بونس وڃائي ڇڏيو جڏهن ته سمورو ڪلينڪل ۽ ساختياتي مواد محفوظ رهيو. هڪ ڪيس ۾ هڪ واحد لازمي سب سيڪشن غائب هو؛ هڪ ڪيس ۾ probability distribution جو مجموعو ٿورو گهٽ موٽيو.

ڪيس ID خاصيت (Specialty) گڏيل (Composite) Latency Path
BT-001-IDAرت جي بيماري1.00017.8 sprimary
BT-006-B12رت جي بيماري1.00018.4 سيڪنڊprimary
BT-007-ٿالاسيميارت جي بيماري1.00017.0 سيڪنڊprimary
BT-002-هئشاينڊوڪرينولوجي0.95037.0 سيڪنڊبيڪ اپ
BT-008-PCOSاينڊوڪرينولوجي0.98718.6 سيڪنڊprimary
BT-003-T2DMميٽابولڪ1.00019.1 سيڪنڊprimary
BT-013-گائوٽميٽابولڪ1.00019.4 سيڪنڊprimary
BT-004-NAFLDهيپاٽولوجي1.00019.6 سيڪنڊprimary
BT-009-وائرل هيپاٽائيٽسهيپاٽولوجي0.95023.4 سيڪنڊبيڪ اپ
BT-014-گِلبَرٽٽريپ1.00018.9 سيڪنڊprimary
BT-005-CKDگردن جي بيماري1.00017.4 سيڪنڊprimary
BT-010-ASCVDقلبی امراض1.00019.7 سيڪنڊprimary
BT-011-SLEريميٽولوجي0.98118.2 سيڪنڊprimary
BT-012-VITDاينڊوڪرينولوجي1.00019.3 سيڪنڊprimary
BT-015-HEALTHYٽريپ1.00018.7 سيڪنڊبيڪ اپ

PCOS جو ڪيس (BT-008) جواب جي جوڙجڪ ۾ هڪ لازمي ذيلي حصو وڃائي ڇڏيو — سولهن مان پندرهن بدران سولهن مان سولهن — جنهن ساختي نمبر کي 1.000 کان 0.963 تائين گهٽائي ڇڏيو. SLE جو ڪيس (BT-011) هڪ ٿورو گهٽجي ويل امڪاني-وڏي ورهاست (probability-distribution) جو مجموعو واپس ڪيو، جنهن ڪلينڪل نمبر کي 0.965 تائين آڻي ڇڏيو، جڏهن ته هر تشخيصي لفظ ۽ نمبرنگ سسٽم محفوظ رهيو. ٻنهي گهٽ-ترين ڪيسن ۾ به صحيح تشخيص ڇٽي نه وئي.

V11 Second Update aggregate — 100,000 ڪيس

آبادي جي پيماني تي، انفرادي ڪيسن جون قطارون (rows) انسان لاءِ پڙهڻ لائق نه هونديون آهن، تنهنڪري ٻيو اپڊيٽ 100,000-قطار واري ٽيبل بدران گڏيل (aggregated) ميٽرڪس رپورٽ ڪري ٿو. مکيه گڏيل نتيجو هيٺ ڏيکاريل آهي؛ في-خاصيت ۽ في-ملڪ-ليبل تفصيل ٽيڪنيڪل رپورٽ ۽ Figshare ڊپازٽ ۾ شايع ڪيا ويندا آهن. هڪ stratified random sample جو n = 201 خام انجڻ جوابن (deterministic seed 20260426) کي معائني لاءِ GitHub results/ ڊائريڪٽري ۾ شايع ڪيو ويو آهي.

جامع اسڪور V11 ابتدائي: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 100,000-case ڪوهاٽ ۾
ساختياتي اسڪور (اوسط) V11 ابتدائي: 0.998 → Second Update: 1.000 آبادي جي سطح تي مڪمل ساختياتي مطابقت
ڪلينڪل اسڪور (اوسط) V11 ابتدائي: 0.998 → Second Update: 0.996 −0.002؛ ڪنهن به ڪيس ۾ تشخيص پاڻ مس نه ٿي
ديرِي — اوسط (حد) V11 شروعاتي: 20.17 سيڪنڊ (17.0–37.0 سيڪنڊ) → ٻي اپڊيٽ: 13.26 سيڪنڊ (9.0–16.94 سيڪنڊ) رَنز جي وچ ۾ پروڊڪشن انجڻ جي اصلاحون
انجڻ جو رستو = پرائمري V11 شروعاتي: 12 / 15 → ٻي اپڊيٽ: 100,000 / 100,000 رَن دوران ڪنهن به موقعي تي فيز 2 جي بيڪ اپ جي ضرورت نه پئي
ٽريپ-سب سيٽ هائپرڊائگنوسس جا جھنڊا V11 شروعاتي: 0 / 13 → ٻي اپڊيٽ: 0 / 87,412 آبادي جي سطح تي ڪوبه غلط-مثبت نه (8,723 ٽريپ ڪيسز مانيٽر ڪيا ويا)

هيڊ لائن اسڪور اسان کي ڇا نٿو ٻڌائي

هن خاص اڳ-رجسٽرڊ روبِرڪ تحت 99.80 سيڪڙو جو هڪ جامع اسڪور، 127 ملڪ ليبلن تي پکڙيل 100,000-ڪيس مصنوعي ڪوهاٽ ۾، near-ceiling ڪارڪردگي ڏيکاري ٿو — پر ان کي احتياط سان فريم ڪرڻ گهرجي. نتيجو انجڻ جي رويي کي ان روبِرڪ جي خلاف بيان ڪري ٿو جنهن لاءِ اسان V11 ۾ سورس ڪوڊ ۾ وابستگي ڪئي هئي؛ اهو انجڻ جي هر ان بلڊ ٽيسٽ پينل تي درست هجڻ بابت ڪا عالمگير (universal) دعويٰ ناهي جيڪو دنيا ۾ موجود هجي.

اسڪور چوي ٿو ته انجڻ هن جائزي لاءِ چونڊيل تشخيصي نمونن کي آبادي-سطح جي ڪوهاٽ ۾ صحيح نموني سنڀاليو، اهڙي طريقيڪار سان جيڪو شايع ٿيل ۽ ورجائي سگهجي ٿو. اهو نٿو چوي ته انجڻ جنگل ۾ موجود هر رت جي جاچ پينل تي صحيح آهي. اهو نٿو چوي ته انجڻ کي ڪلينشين جي فيصلي جو متبادل بڻجڻ گهرجي. ۽ اهو نٿو چوي ته انجڻ متبادل AI سسٽمن کان بهتر آهي — ٻين انجڻن جي مقابلي واري تجزين کي هن رپورٽ جي دائري کان ٻاهر رکيو ويو.

جيڪو اسڪور قائم ڪري ٿو، اهو هڪ بنياد (baseline) آهي. جڏهن روبرڪ ۽ هارنس عوام لاءِ موجود آهن، انجڻ جا مستقبل وارا ورزن ساڳئي روبرڪ جي خلاف جائزو وٺي سگهجن ٿا — V11 شروعاتي 15 ڪيسن تي، ٻي اپڊيٽ 100,000 ڪيسن جي ڪوهاٽ تي، يا ڪنهن به بعد واري واڌ تي — ۽ شايع ٿيل اسڪور ۽ ڪنهن به بعد واري رَن جي وچ ۾ فرق پاڻ به ماپجي سگهجي ٿو. اڳواٽ رجسٽريشن جي اها ئي اهميت آهي: اها ڪارڪردگيءَ بابت دعوائن کي پرکي سگهڻ وارين دعوائن ۾ تبديل ڪري ٿي.

10 منٽن ۾ هن بئنچمارڪ کي ڪيئن ورجائجي

ٻيهر پيدا ڪرڻ لاءِ صرف هڪ Kantesti API credential جوڙو ۽ Python 3.10 يا ان کان پوءِ وارو ماحول گهربل آهي، جنهن ۾ requests ۽ reportlab لائبريريون انسٽال ٿيل هجن. مڪمل هارنس هڪ ئي، پاڻ ۾ مڪمل (self-contained) Python ماڊيول آهي، جيڪو MIT لائسنس تحت جاري ڪيو ويو آهي.

Reproducibility network diagram جيڪو V11 Second Update benchmark (99.80% composite, 100,000 cases, 127 country labels) ڏيکاري ٿو، Figshare، ResearchGate، Academia.edu ۽ GitHub ۾ آئيني طور تي، ۽ Figshare DOI کي canonical anchor طور استعمال ڪندي
شڪل 5: V11 ٻي اپڊيٽ بينچمارڪ — 127 ملڪ ليبلن ۾ پکڙيل 100,000 ڪيسن تي 99.80% جامع اسڪور — چار ريسرچ پليٽ فارمز ۾ آئيني طور تي نقل ٿيل آهي. Figshare DOI بنيادي/ڪينانڪل علمي سڃاڻپ ڪندڙ آهي؛ ResearchGate (publication 404175463)، Academia.edu (paper 165956808)، ۽ GitHub ساڳيون ڪاپيون ميزبان ڪن ٿا جن ۾ benchmark harness، خام جوابن جو stratified random sample، ۽ ملڪ-ليبل/خصوصيت-وار per-country-label/per-specialty scorecards شامل آهن.

نئين رن لاءِ چار قدم

هڪ. رپوزٽري ڪلون ڪريو: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ٻه. انحصار (dependencies) انسٽال ڪريو pip install -r requirements.txt (Second Update شامل ڪري ٿو mysql-connector-python ≥ 8.0 SQL case loader لاءِ). ٽي. مقرر ڪريو KANTESTI_USERNAME ۽ KANTESTI_PASSWORD انجڻ جي API لاءِ ماحولياتي متغيرن (environment variables) طور. ٻي اپڊيٽ SQL case loader لاءِ پڻ سيٽ ڪريو KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، ۽ KANTESTI_DB_PASSWORD — لوڊر هڪ صرف-پڙهڻ واري رول ذريعي ڳنڍجي ٿو (bench_reader) جنهن کي سڃاڻپ ڪندڙ ٽيبلن تي ڪا به مراعت ناهي. چار. هلائڻ لاءِ python benchmark_bloodtest.py --limit 100000 مڪمل Second-Update هلائڻ لاءِ، يا python benchmark_bloodtest.py --limit 1000 تيز ورجاءَ لاءِ. آئوٽ پُٽ هتي محفوظ ٿين ٿا ./benchmark_results/: هڪ CSV scorecard جنهن ۾ per-country-label ۽ per-specialty ڪالمن، هڪ JSON aggregate، هڪ stratified-random خام-response sample، ۽ هڪ Markdown رپورٽ.

حوالاتي رَن 23 اپريل 2026 (V11 شروعاتي، 15 ڪيس) ۽ 26 اپريل 2026 (V11 Second Update، 100,000 ڪيس) رپوزٽري جي results/ ڊائريڪٽري ۾ محفوظ ڪيا ويا آهن. نئون رَن هڪ نئون ٽائيم اسٽيمپ ٿيل اسڪوَر ڪارڊ ٺاهيندو، جڏهن ته حوالاتي رَن اڻ ڇهيا رهندا. جيڪڏهن توهان جو رَن معنيٰ خيز طور تي مختلف نتيجو ڏئي، مهرباني ڪري GitHub تي هڪ issue کوليو جنهن ۾ رَن جو ٽائيم اسٽيمپ ۽ response metadata ۾ موٽايل engine version شامل هجي.

حدون ۽ مستقبل جو ڪم

127 ملڪ-ليبلز ۾ 100,000 ڪيسن تائين به، چار حدون واضح طور تي تسليم ٿيڻ گهرجن: long-tail ليبل undersampling، single-shot evaluation، single-engine scope، ۽ single-source data origin. انهن مان هر هڪ کي فعال follow-up ڪم ۾ حل ڪيو پيو وڃي.

Long-tail label coverage. Second Update ۾ 127 ملڪ-ليبلز شامل آهن، پر ورڇ غير متوازن آهي — مٿيان 10 ليبلز ڪيسن جو ≈66.4% حصو ڏين ٿا، ۽ باقي 97 اضافي ليبلز جو long tail گڏجي ≈7.3% (تقريباً 7,300 ڪيس گڏيل، في ليبل اوسط ~75 ڪيس) ۾ حصو ڏئي ٿو. تنهنڪري هن long tail ۾ per-label composites انهن headline انگن کان وڌيڪ شور وارا آهن جيڪي ظاهر ڪن ٿا. مستقبل جون رنسون ليبل اسائنمينٽ کي ٻيهر بيلنس ڪنديون ته جيئن per-label اندازا مضبوط ٿين.

سنگل شاٽ ايويوليئيشن. ڪوهرٽ ۾ هر ڪيس کي هڪ ڀيرو تشخيص ڪيو ويو. وڏا ٻولي ماڊل گهٽ sampling temperature تي به غير معمولي آئوٽ پُٽ ڦيرڦار ڏيکارين ٿا، تنهنڪري هر ڪيس لاءِ پنج تشخيصن سان multi-run پروٽوڪول ۽ رپورٽ ڪيل variance هڪ قدرتي ايندڙ قدم آهي — خاص طور تي trap-case سب سيٽ تي، جتي sampling jitter هيٺ تسلسل (consistency) حفاظت واري دعويٰ جو حصو آهي.

سنگل انجڻ جو دائرو. هي رپورٽ هڪ انجڻ (engine) کي بيان ڪري ٿي. متبادل AI سسٽمن جي خلاف تقابلي تجزيا هتي دائري کان ٻاهر آهن؛ اسان شايد انهن کي ساڳئي MIT-لائسنس ٿيل harness جي خلاف مناسب طريقيڪار سان هڪ الڳ آزاد مطالعي طور اڳتي وڌايون.

Synthetic data. 100,000 ڪيس synthetically generated آهن، نه ته synthetic cases؛ ۽ نتيجا حقيقي دنيا جي ڪلينڪل ڪارڪردگي ڏانهن منتقل نٿا ٿين. حقيقي، رضامنديءَ سان گڏ، ٻاهرين ذريعن مان آيل ڊيٽا تي تشخيص لاءِ مناسب اخلاقي نگراني گهربل هوندي ۽ هي هن synthetic benchmark جي دائري کان ٻاهر آهي.

انهن چئن کان ٻاهر، سڀ کان وڌيڪ اثرائتي رٿيل واڌ multi-language parity في جُراسڊڪشن آهي. Kantesti AI Engine 75+ ٻولين ۾ استعمال ڪندڙن کي سهولت ڏئي ٿو، ۽ ٻولي-وار stratified Second-Update سب-ڪوهرٽس (ترڪي، جرمن، اسپينش، فرينچ، اطالوي، پرتگالي، عربي، منڊارين) هلائڻ انجڻ جي سهڪار ڪيل ٻولين ۾ آئوٽ پُٽ معيار کي ماپيندو. هر ٻولي-وار تجزيو پنهنجي DOI ۽ harness برانچ سان شايع ڪيو ويندو.