هي بينچمارڪ ڇو موجود آهي ۽ اهو ڇا پرکي ٿو

AI جي مدد سان خون جي جاچ جو نتيجو صارفين ۽ ڪلينڪل ورڪ فلو ۾ وڌندڙ استعمال ٿي رهيو آهي، پر ليبارٽري ميڊيسن لاءِ ٺهيل ورجائي سگهندڙ جائزي جا فريم ورڪ اڃا به گهٽ ملن ٿا. هن ماحول ۾ سڀ کان اهم سوال اهي نه آهن جيڪي عام طبي سوال-جواب بئنچمارڪن ۾ ڍڪيل هجن: ڇا انجڻ لوهه جي کوٽ کي ٿيلاسيميا ٽريٽ کان ڌار ڪري سگهي ٿي جڏهن mean corpuscular volume هڪجهڙو هجي، ڇا اهو Gilbert's syndrome کي هيپاٽائيٽس طور اوور-ڊائگنوس ڪري ٿو، ۽ ڇا اهو مڪمل طور تي عام اسڪريننگ پينل ۾ بيماري ٺاهي ٿو؟

اڳ-رجسٽرڊ روبرڪ فلو ڊاگرام ڏيکاريندي ته Kantesti AI Engine — V11 سيڪنڊ اپڊيٽ، 100,000 ڪيسن تي 99.80% composite اسڪور — کي منجمد (frozen) اسڪورنگ معيارن جي خلاف ڪيئن جائزو ورتو وڃي ٿو
شڪل 1: ان بينچمارڪ آرڪيٽيڪچر جيڪو ان جي پويان آهي 99.80% جامع اسڪور V11 سيڪنڊ اپڊيٽ تي — 100,000 ڪيسن جي ڪوهاٽ ۾؛ هر ڪيس، هر لفظ (keyword)، هر اسڪورنگ سسٽم انجڻ هڪ به PDF ڏسڻ کان اڳ ئي سورس ڪوڊ ۾ مقرر ٿيل آهي، ۽ روبِرڪ V11 جي شروعاتي رليز سان بائيٽ-بائيٽ هڪجهڙو آهي. ڊيزائن موجب پوسٽ-هاڪ روبِرڪ ٽيوننگ ممڪن ناهي.

هڪ واحد رت جي جاچ جو پينل عام طور تي ايترو سگنل رکي ٿو جو ڪيترن ئي مقابلي واري تشريحن کي سهارو ڏئي سگهي، ۽ تشريح ڪندڙ ڪلينشين جو ڪم اهو آهي ته انهن تشريحن کي هڪ ٻئي جي مقابلي ۾ وزن ڏئي، نه ته ڪنهن درسي ڪتاب واري “سڌي جواب” کي ڳولهي. هڪ اهڙو انجڻ جيڪو درسي ڪتاب وارن ڪيسن تي سٺو ڪم ڪري سگهي ٿو، اهو به انهن ڪيسن تي ناڪام ٿي سگهي ٿو جيڪي سڀ کان وڌيڪ اهم آهن: فرقيوار تشخيص (differential-diagnosis) جون ڦاسون، اهي بي ضرر تبديليون جيڪي اڪيلو ڏسڻ تي خطرناڪ لڳن ٿيون، ۽ مڪمل طور تي عام پينل جيڪي اعتماد ڪندڙ اسسٽنٽن کي بيماري ٺاهڻ تي اُتساهين ٿا.

هي بئنچمارڪ بلڪل انهن ناڪامي جي طريقن جي بنياد تي ٺاهيو ويو. پندرهن مان هر هڪ ڪيس کي هڪ مخصوص تشخيصي خاصيت لاءِ چونڊيو ويو: لوهه جي گهٽتائي سبب مائڪرو سائيٽوسس (microcytosis) جنهن کي ساڳي mean corpuscular volume سان beta-thalassaemia trait کان ڌار رکڻو آهي، گِلبرٽ جي سنڊروم (Gilbert's syndrome) جي پيشڪش جتي صرف هڪ ئي غيرمعمولي ڳالهه الڳ ٿيل indirect hyperbilirubinaemia آهي، ۽ هڪ پندرهن-پيرا ميٽر اسڪريننگ پينل جنهن ۾ هر اينالائيٽ پنهنجي ريفرنس رينج اندر ئي موجود آهي. روبرڪ انهن انجڻن کي انعام ڏئي ٿو جيڪي هر ڪيس کي پنهنجي شرطن مطابق پڙهن ٿا، ۽ انهن انجڻن کي سزا ڏئي ٿو جيڪي اهڙي پڪ واري تشخيص تائين پهچن ٿا جتي اهڙي تشخيص جي ضرورت ئي نه هجي.

ڊاڪٽر ٿامس ڪلين (Thomas Klein, MD) جي حيثيت ۾، مون ڪيس پينل چونڊيو ڇو ته اهي ئي نمونا آهن جيڪي ليبارٽري-ميڊيسن اسسٽنٽس سڀ کان وڌيڪ اڪثر غلط ڪندا آهن. مهانگي ناڪامي جو طريقو "ڪو ناياب بيماري وڃائڻ" ناهي—اهو انهن مريضن ۾ معمولي بيماريءَ جهڙي (routine) پيتھالاجي ٺاهڻ آهي جن کي اها اصل ۾ نه هجي. اسان جو طبي تصديق هَب وسيع فريم ورڪ بيان ڪري ٿو؛ هي صفحو V11 شروعاتي پروف-آف-ڪنسيپٽ ۽ V11 سيڪنڊ اپڊيٽ بيان ڪري ٿو جنهن ان کي 100,000 گمنام ڪيسن تائين وڌايو، جيڪي 127 ملڪن تي پکڙيل SQL-بئڪڊ ڪلينڪل رپوزٽري مان ورتل آهن — ساڳي اسڪورنگ روبِرڪ استعمال ڪندي، بائيٽ-بائيٽ هڪجهڙي، ۽ پوسٽ-هاڪ ٽيوننگ جي اجازت ناهي.

جديد ريفرنس رن — V11 سيڪنڊ اپڊيٽ (26 اپريل 2026)

26 اپريل 2026 جي V11 سيڪنڊ اپڊيٽ ريفرنس رن هڪ گڏيل (composite) اسڪور پيدا ڪيو 99.80% ساڳي اڳ-رجسٽرڊ روبِرڪ تي جيڪو V11 جي شروعاتي رليز ۾ استعمال ٿيو هو، جائزو ورتو ويو 100,000 گمنام ڪيسن تي Kantesti SQL-بئڪڊ ڪلينڪل رپوزٽري مان ورتل ۽ 127 ملڪن ۽ 75+ ٻولين ۾ پکڙيل. هر ڪيس انجڻ جي بنيادي (primary) رستي تي مڪمل ٿيو؛ ٽرَپ-ڪيس هائپرڊائگنوسس فليگ ايڪٽيويشنز رهيا 0 / 87,412. 23 اپريل 2026 تي ٿيل اصل V11 رن ۾ 15 هٿ سان چونڊيل ڪيس شامل هئا (composite 99.12%) ۽ روبِرڪ کي صحيح ثابت ڪيو؛ سيڪنڊ اپڊيٽ اهو ئي روبِرڪ بائيٽ-بائيٽ برقرار رکي ٿو ۽ جائزي کي آبادي-سطحي ڪوهاٽ تائين وڌائي ٿو.

گڏيل (Composite) 99.80% 100,000 مان 100,000 ڪيسن جو اسڪور
1.000 ساختي اسڪور (Structural score)
0.996 ڪلينڪل اسڪور (Clinical score)
13.26 s اوسط دير (Mean latency)
0 / 87,412 ڦاس وارا غلط مثبت (Trap false-positives)

گڏيل فارمولا ٽن حصن کي گڏ ڪري ٿو: ساختي مطابقت (structural conformance) ستن لازمي رپورٽ سيڪشنن ۽ سورهن لازمي سب سيڪشنن سان،, ڪلينڪل درستگي (clinical accuracy) ماپي وئي: keyword recall + scoring-system recall + امڪاني-تقسيم (probability-distribution) جي درستگي جي چيڪ سان، ۽ جواب جي دير (response latency) بنيادي-رستي سروس-ليول ٽارگيٽ جي خلاف. صحيح تفصيل هيٺ ڏنل روبِرڪ فارمولا ۾ ڏيکاريل آهي — انهن مان ڪا به وزن يا سب-روبِرڪ سيڪنڊ اپڊيٽ لاءِ تبديل نه ڪئي وئي.

گڏيل (Composite) = 0.35 × ساختي (Structural) + 0.55 × ڪلينڪل (Clinical) + 0.10 × دير (Latency)

هيڊ روم جا باقي 0.20 سيڪڙو پوائنٽ تقريبن مڪمل طور تي ڪلينڪل سب-اسڪور ۾ ورهائجن ٿا — ڪيسن جو ٿورو حصو (خاص طور تي Hepatology ۽ Rheumatology ۾) انجڻ جي تشريح ۾ هڪ متوقع اسڪورنگ-سسٽم keyword غائب هو، جيتوڻيڪ تشخيصي مواد صحيح هو. 100,000-ڪيس سيڪنڊ-اپڊيٽ ڪوهاٽ ۾ ڪو به ڪيس پاڻ تشخيص (diagnosis) کان محروم نه رهيو. ليٽنسي V11 جي شروعاتي رليز ۾ اوسط 20.17 s کان سيڪنڊ اپڊيٽ ۾ 13.26 s تائين بهتر ٿي؛ ٻن رنن جي وچ ۾ پروڊڪشن انجڻ جي آپٽمائيزيشنز کي ظاهر ڪندي. روبِرڪ، اسڪورنگ ڪوڊ، ۽ API اينڊ پوائنٽ ۾ ڪا تبديلي ناهي.

ملڪ-وار گڏيل (composite) اسڪور 0.9971 (ڀارت) کان 0.9985 (سويٽزرلينڊ) تائين هئا، 30 سڀ کان وڌيڪ نمائندگي ڪندڙ ملڪن ۾. باقي 97 ملڪن جي ڊگهي دم (≈7,300 ڪيس گڏيل طور) ۾ ڪا به منظم (systematic) گهٽتائي نظر نه آئي. ڪيسن جي تعداد موجب مٿيان مددگار هئا: آمريڪا (10,500)، برازيل (9,500)، اسپين (9,000)، اٽلي (8,000)، جرمني (7,800)، فرانس (7,400)، پرتگال (5,800)، Türkiye (3,400)، برطانيه (2,900)، ۽ ميڪسيڪو (2,500).

15 ڪيسن کان 100,000 تائين: 127 ملڪن ۾ ڪوھورٽ جي ارتقا

اصل V11 ڪيس پينل ست خاصيتن تي مشتمل هو — hematology، endocrinology، metabolic medicine، hepatology، nephrology، cardiology، rheumatology — ۽ گڏوگڏ ٻه وقف ٿيل هائپرڊائگنوسس ٽرَپ ڪيس؛ هر ڪيس هڪ حقيقي مريض جي گمنام رڪارڊ تي ٻڌل هو، جيڪو Kantesti ڪلينڪل ڊيٽا رپوزٽري مان لکيل informed consent تحت ورتل هو. V11 سيڪنڊ اپڊيٽ جائزي کي 100,000 گمنام ڪيسن تائين وڌائي ٿو، 127 ملڪن ۾, ، اٺ خاصيتن ۾ ورهايل (اصل ستن کان علاوه هڪ وقف ٿيل internal-medicine بڪيٽ جيڪو ٽرَپ سب سيٽ کي جذب ڪري ٿو). ساڳي اسڪورنگ روبِرڪ ٻنهي رنن ۾ بائيٽ-بائيٽ لاڳو ڪئي وئي.

V11 شروعاتي ڪيس-پينل ڊيزائن — ستن طبي خاصيتن ۾ پندرهن بي نالن خون جي جاچ جا ڪيس، گڏوگڏ ٻه هائپرڊائگنوسس ٽريپ ڪيس؛ ساڳئي روبرڪ V11 سيڪنڊ اپڊيٽ ۾ 100,000 ڪيسن تي 99.80% composite اسڪور تائين پهتو
شڪل 2: V11 شروعاتي ڪيس-پينل ڊيزائن hematology، endocrinology، metabolic medicine، hepatology، nephrology، cardiology، rheumatology ۾ — ۽ گڏوگڏ ٻن ٽرَپ ڪيسن سان: Gilbert's syndrome ۽ مڪمل طور تي عام (fully normal) اسڪريننگ پينل. سيڪنڊ اپڊيٽ اهو ئي روبِرڪ بائيٽ-بائيٽ برقرار رکي ٿو جڏهن ته ڪوهاٽ کي 100,000 ڪيسن تائين وڌائي ٿو، جيڪي Kantesti SQL رپوزٽري مان ورتل آهن.

ڊي-آئيڊنٽيفڪيشن Safe Harbor طريقي تحت ڪئي وئي: سڀ سڌا سڃاڻپ ڪندڙ (direct identifiers) هٽايا ويا يا مٽايا ويا، ۽ هر رڪارڊ کي هڪ بينچمارڪ-اندروني ڪيس ڪوڊ ڏنو ويو، فارميٽ BT-NNN-LABEL (V11 شروعاتي) يا هڪ مستحڪم گمنام case_uid سيڪنڊ اپڊيٽ لاءِ. پروسيسنگ مطابق ڪئي وئي GDPR آرٽيڪل 9(2)(j) مناسب حفاظتي قدمن سان سائنسي تحقيق لاءِ، ۽ برطانيا جي UK GDPR جي برابر شقن مطابق. شايع ٿيل harness، ٽيڪنيڪل رپورٽ، يا جاري ڪيل ڊيٽا سيٽن ۾ ڪٿي به ڪا به ذاتي سڃاڻپ واري معلومات موجود ناهي.

V11 شروعاتي رليز — 15 هٿ سان چونڊيل ڪيس

اصل V11 ڪيس پينل ڊاڪٽر ٿامس ڪلين هٿ سان چونڊيو هو ته جيئن اهي تشخيصي نمونا مشق ۾ آڻجن جن کي ليبارٽري-ميڊيسن اسسٽنٽس سڀ کان گهڻو غلط سمجهن ٿا. پندرهن مان هر هڪ ڪيس کي هيٺ ڏنل ڪنهن مخصوص تشخيصي خاصيت لاءِ چونڊيو ويو.

Hematology (3) BT-001، BT-006، BT-007 آئرن جي کوٽ سبب انيميا · B12 جي کوٽ · Beta-thalassaemia minor
Endocrinology (3) BT-002، BT-008، BT-012 Hashimoto's thyroiditis · انسولين ريزسٽنس سان PCOS · سخت وٽامن ڊي جي کمي
Metabolic (2) BT-003، BT-013 ميٽابولڪ سنڊروم سان T2DM · گائوٽ جي خطري سان Hyperuricaemia
Hepatology (2) BT-004، BT-009 NAFLD / NASH · شديد وائرل هيپاٽائيٽس
Nephrology · Cardiology · Rheumatology (3) BT-005، BT-010، BT-011 CKD اسٽيج 3 · Atherogenic dyslipidaemia · Systemic lupus erythematosus
Trap cases (2) BT-014، BT-015 Gilbert's syndrome (اڪيلائيءَ ۾ indirect hyperbilirubinaemia) · مڪمل طور تي عام بالغ اسڪرين

هي خاص ورڇ ڇو

هيماتولوجي کي ٽي ڪيس ملن ٿا، ڇاڪاڻ⁠تہ مائڪرو سائيٽڪ ڊفرينشلز ۽ ميڪرو سائيٽڪ ڊفرينشلز حقيقي دنيا جي ليبارٽري عمل ۾ سڀ کان وڌيڪ مقدار وارا “ٽريپس” آهن. اينڊو ڪرائينولوجي کي ٽي ڪيس ملن ٿا، ڇاڪاڻ⁠تہ Hashimoto's، PCOS، ۽ وٽامن ڊي جي کمي جون پيشڪشون مختلف تشخيصي شڪليون اختيار ڪن ٿيون (آٽو اينٽي باڊي-هلائيندڙ، هارمون-تناسب-هلائيندڙ، واحد-مارڪر-هلائيندڙ). واحد ڪيس واريون خاصيتون اڃا به معنيٰ رکن ٿيون، ڇاڪاڻ⁠تہ هر CKD، ASCVD خطري، ۽ SLE جو پنهنجو اسڪوئرنگ سسٽم آهي، جنهن کي انجڻ کي سڏڻ گهرجي (KDIGO اسٽيجنگ، ASCVD 10-سال خطرو، ۽ 2019 EULAR/ACR SLE معيار ترتيبوار).

V11 سيڪنڊ اپڊيٽ — 100,000 گمنام ڪيس 127 ملڪن ۾

سيڪنڊ اپڊيٽ اصل V11 جي هارڊ-ڪوڊ ٿيل 15-ڪيس Python literal کي هڪ پيرا ميٽرائيزڊ، صرف-پڙهڻ واري SQL سوال سان بدلائي ٿي، جيڪو Kantesti ڪلينڪل ريپوزٽري جي خلاف هلندو آهي (anonymised_blood_panels). سوال فلٽر ڪري ٿو consent_research = 1 AND released_for_benchmark = 1 ۽ شفافيت لاءِ هر بينچمارڪ رن جي مٿان ڇپجي ٿو. خاصيت (specialty) موجب ڪوهاٽ جي ورڇ هيٺ ڏيکاري وئي آهي.

اينڊوڪرينولوجي 23,900 ڪيس (23.9%) ٿائيرائيڊ، PCOS، وٽامن ڊي، گونادل محور، پيٽيوٽري
ميٽابولڪ ميڊيسن 21,900 ڪيس (21.9%) T2DM، ميٽابولڪ سنڊروم، لپڊ پينلز، هائپر يوريسيميا
رت جي بيماري 15,400 ڪيس (15.4%) مائڪرو سائيٽڪ ۽ ميڪرو سائيٽڪ فرق (differentials)، B12/فوليٽ، آئرن اسٽڊيز
هيپاٽولوجي 12,400 ڪيس (12.4%) NAFLD/NASH، وائرل هيپاٽائيٽس، FIB-4، ڪوليسٽاسس
اندروني دوائون (incl. trap subset) 9,000 ڪيس (9.0%) گڏيل پيشڪشون ۽ 8,723 وقف ٿيل هائپرڊائگنوسس ٽريپ ڪيس
قلبی امراض 7,500 ڪيس (7.5%) ASCVD خطرو، ايٿروجينڪ ڊسليپيڊيميا، hs-CRP
ريميٽولوجي 6,000 ڪيس (6.0%) SLE، RA، ويسڪولائٽس، آٽو اينٽي باڊي پينلز (EULAR/ACR معيار)
گردن جي بيماري 4,000 ڪيس (4.0%) CKD اسٽيجنگ (KDIGO)، eGFR رجحان، اليڪٽرولائيٽ بي ترتيبي

جغرافيائي ورڇ — مٿيان 10 ملڪ

هي ڪوهاٽ 127 ملڪن تي پکڙيل آهي (ISO 3166-1 alpha-2). يورپ جو حصو 57.7%، آمريڪا 25.4%، ايشيا-پئسفڪ 6.2%، وچ اوڀر/افريقا جا نالايل داخلا 3.4%، ۽ 97 اضافي ملڪن جي ڊگهي دم گڏجي لڳ ڀڳ 7.3%. ڏهن وڏن حصيدارن ۾ آمريڪا (10,500)، برازيل (9,500)، اسپين (9,000)، اٽلي (8,000)، جرمني (7,800)، فرانس (7,400)، پرتگال (5,800)، Türkiye (3,400)، برطانيه (2,900)، ۽ ميڪسيڪو (2,500) شامل آهن. في ملڪ جامع اسڪور 0.9971 (ڀارت) کان 0.9985 (سويٽزرلينڊ) تائين هئا.

اڳ-رجسٽرڊ روبرڪ جي وضاحت

اڳ-رجسٽريشن هن بينچمارڪ ۾ سڀ کان اهم طريقيڪار وارو فيصلو آهي. هر متوقع تشخيص، هر ڪلينڪل اسڪوئرنگ سسٽم، ۽ هر رپورٽ سيڪشن کي سورس ڪوڊ ۾ لاڪ ڪيو ويو انجڻ کي سڏڻ کان اڳ. تنهنڪري انجڻ کي خوش ڪرڻ لاءِ روبريڪ جي پوسٽ-هاڪ ٽيوننگ ممڪن ناهي.

جامع اسڪوئر ٽي حصن تي مشتمل آهي. ساختي حصو 35 سيڪڙو جو حصو ڏئي ٿو ۽ ماپي ٿو ته انجڻ ڇا ست لازمي رپورٽ سيڪشن واپس ڪيا (هيڊر، خلاصو، اهم نتيجا، ڊفرينشل، اسڪوئرنگ سسٽم، سفارشون، فالو اپ) ۽ انهن اندر موجود سولهن لازمي سب سيڪشن. سيڪشن موجودگي ساختي حساب ۾ 40 سيڪڙو وزن رکي ٿي ۽ سب سيڪشن موجودگي 60 سيڪڙو وزن رکي ٿي.

جي ڪلينڪل حصو 55 سيڪڙو جو حصو ڏئي ٿو ۽ ٽن شين کي گڏ ڪري ٿو: تشخيص-ڪي ورڊ يادگيري (ڪلينڪل سب-اسڪوئر جو 70 سيڪڙو)، اسڪوئرنگ سسٽم يادگيري (20 سيڪڙو — ڇا انجڻ Mentzer، FIB-4، HOMA-IR، ASCVD خطرو، KDIGO اسٽيجنگ، EULAR/ACR معيار جتي لاڳو هجن، حساب ڪري ٿو)، ۽ امڪان-مجموعو درستگي چيڪ (10 سيڪڙو — ڊفرينشل امڪانن جو مجموعو [90, 110] وقفي اندر هئڻ گهرجي). ٽريپ ڪيسن لاءِ، وڌ ۾ وڌ 0.30 جي واضح هائپر ڊائگنوسس پينلٽي ڪٽجي ٿي، جيڪا في ٺاهيل پيتھالاجي فليگ 0.10 جي حساب سان لڳائي وڃي ٿي، ۽ وڌ ۾ وڌ ٽي فليگ تائين محدود آهي.

جي ليٽنسي حصو 10 سيڪڙو جو حصو ڏئي ٿو. 20 سيڪنڊن کان گهٽ جواب مڪمل 0.10 حاصل ڪري ٿو، 40 سيڪنڊن کان گهٽ جواب 0.05 حاصل ڪري ٿو، ۽ ان کان وڌيڪ دير وارو ڪجهه به صفر. 20 سيڪنڊن جو ٽارگيٽ پروڊڪشن پرائمري-پٿ سروس-ليول مقصد کي ظاهر ڪري ٿو؛ 40 سيڪنڊن جي حد Phase 2 لاءِ ڳري-انجڻ انوڪيشنز جي فال بيڪ بجيٽ کي ظاهر ڪري ٿي.

MIT-لائسنس ٿيل Kantesti بينچمارڪ هارنس هلندي ۽ في-ڪيس اسڪور خارج ڪندي آخري اسڪرين شاٽ — ساڳيو هارنس، هاڻي SQL-هلائيندڙ، V11 سيڪنڊ اپڊيٽ جي 100,000 ڪيسن واري رن ۾ 99.80% composite اسڪور پيدا ڪيو
شڪل 3: عمل ۾ آيل هارنس — اهو ئي انجڻ جيڪو پيدا ڪيو 99.80% جامع V11 Second Update 100,000-case ڪوهاٽ تي. هر ڪيس کي A4 PDF طور رينڊر ڪيو وڃي ٿو، پروڊڪشن v11 اينڊ پوائنٽ تي پوسٽ ڪيو وڃي ٿو، ۽ منجمد روبريڪ جي خلاف اسڪور ڪيو وڃي ٿو. Second Update هڪ پيرا ميٽرائيزڊ SQL case loader شامل ڪيو؛ خام انجڻ جي جوابن جو stratified random sample (n = 201) گڏ ڪيل scorecard سان گڏ محفوظ ڪيو وڃي ٿو.

اڳ-رجسٽريشن ڇا روڪي ٿي

فرسٽ پارٽي بينچمارڪ پوسٽ-هاڪ روبريڪ ٽيوننگ ذريعي پنهنجا انگ وڌائڻ لاءِ بدنام آهن. نمونو تقريباً هميشه ساڳيو هوندو آهي: ٽيم انجڻ هلائي ٿي، ڏسي ٿي ته ڪٿي گهٽ ڪارڪردگي ٿي رهي آهي، پوءِ خاموشي سان روبريڪ کي ترتيب ڏئي ٿي ته گهٽ ڪارڪردگي وارا علائقا گهٽ ڳڻجن. پهرين انجڻ ڪال کان اڳ روبريڪ کي سورس ڪوڊ ۾ لاڪ ڪرڻ ۽ هارنس کي MIT لائسنس تحت پبلش ڪرڻ سان، اها ترتيب ورزن ڪنٽرول ۾ نظر اچي ٿي. ڪو به ماڻهو رپوزٽري ڪلون ڪري سگهي ٿو، روبريڪ ليکڪ جي تاريخون چيڪ ڪري سگهي ٿو، ۽ تصديق ڪري سگهي ٿو ته انجڻ جا نتيجا اسڪورنگ کي ٺاهڻ لاءِ استعمال نه ڪيا ويا.

هائپرڊائگنوسس ٽريپ ڪيس — ڇو گهڻو سڏڻ اصل ناڪامي جو طريقو آهي

نارمل اسڪرينز تي پيتھالاجي کي زور سان وڌيڪ سڏڻ (over-calling) صارف-سامهون طبي اسسٽنٽن لاءِ دستاويزي ناڪامي وارو طريقو آهي. ان جا هيٺيان خرچ غير ضروري جاچ، مريض جي پريشاني، ۽ iatrogenic workup شامل ڪن ٿا. هن بينچمارڪ جا ٻه ٽريپ ڪيس ٺهيل آهن ته اها ناڪامي وارو طريقو نظر اچي ۽ اسڪور ٿي سگهي.

هڪ طرفي (side-by-side) مقابلو: بيوقوف AI گِلبرٽ جي سنڊروم پينل تي هيپاٽائٽس ٺاهيندي بمقابلہ Kantesti انجڻ صحيح نموني سان بي نائين UGT1A1 پوليمورفزم سڃاڻيندي — اهو طريقه ڪار جيڪو V11 سيڪنڊ اپڊيٽ 99.80% بينچمارڪ ۾ 87,412 ٽريپ-فليگ موقعن تي صفر false-positives تائين وڌايو ويو
شڪل 4: V11 جي شروعاتي رليز مان trap-case ڊيزائن — هڪ انجڻ جيڪو اعتماد سان Gilbert's syndrome کي هيپاٽائيٽس طور ليبل ڪري، يا جيڪو مڪمل طور عام اسڪرين تي سرحدي (borderline) بيماريءَ واري نوعيت ٺاهي، ته ان کي “ڪلينڪل آواز ڏيڻ” تي انعام ڏيڻ بدران سزا ڏني وڃي ٿي. هي طريقو وڌايو ويو 0 / 87,412 false-positives تائين V11 Second Update 100,000-case رن ۾، جنهن 99.80% جامع اسڪور پيدا ڪيو.

🟡 ٽريپ 1 — BT-014-GILBERT

پيشڪش. هڪ 24 سالن جو مرد جنهن جو ڪل بلي روبن 2.4 mg/dL آهي. ڊائريڪٽ حصو نارمل آهي، ٽرانسامينيز ۽ الڪالائن فاسفٽيز پنهنجن ريفرنس رينجز اندر آهن، ريٽيڪولوسائٽس غير معمولي نه آهن، ۽ هپٽوگلوبن ۽ LDH haemolysis کي رد ڪن ٿا.

صحيح تشريح. Gilbert's syndrome — هڪ بي نياز UGT1A1 پوليمورفزم. تشريح کي هيپاٽائيٽس، سرروسس، هيمولائيٽڪ انيميا، يا بائليري اوبسٽرڪشن کي سڏڻ نه گهرجي.

V11 نتيجو. جامع 1.000. ڇهن نگراني ڪيل اوور-ڊائگنوسس فليگز مان ڪو به فعال تشخيص طور ظاهر نه ٿيو.

🟡 ٽريپ 2 — BT-015-HEALTHY

پيشڪش. هڪ 35 سالن جي عورت لاءِ پندرهن-پيرا ميٽرن واري معمولي اسڪريننگ پينل. هر اينالائيٽ پنهنجي ريفرنس رينج اندر آرام سان موجود آهي.

صحيح تشريح. تسلي ۽ طرزِ زندگي جي سار سنڀال. تشريح کي اهڙي حدبندي واري بيماري جوڙڻ نه گهرجي جيڪا ڪلينڪي طور مفيد لڳي، پر اصل ۾ موجود نه هجي.

V11 نتيجو. مجموعي 1.000. نگراني ڪيل ستن مان ڪابه به وڌيڪ تشخيص واري خبرداري — ذيابيطس، انيميا، هائيپوتائيرائيڊزم، ڊس لپيڊيميا، هيپاٽائيٽس، گردن جي بيماري، ڪمي — فعال تشخيص طور ظاهر نه ٿي.

ٻنهي ٽريپس ۾، نگراني ڪيل تيرهن وڌيڪ تشخيص واري خبردارين کي چيڪ ڪيو ويو. ڪابه به ٽرگر نه ٿي. هي اهو نتيجو آهي جيڪو ڪنهن به ڪلينشين لاءِ سڀ کان وڌيڪ اهميت رکي ٿو جيڪو AI انجڻ کي ٽرييج يا اڳ-مشاورت واري اوزار طور استعمال ڪرڻ تي غور ڪري ٿو: سسٽم جتي بيماري موجود نه هئي، اتي بيماري ايجاد نه ڪئي.

مينتزير انڊيڪس: لوهه جي کوٽ کي ٿيلاسيميا ٽريٽ کان الڳ ڪرڻ

هڪ ٻي اعليٰ قدر واري ڳولا ڪيس BT-001 (لوهه جي ڪمي سبب انيميا) ۽ ڪيس BT-007 (بيٽا ٿالاسيميا مائنر) جي جوڙي سان لاڳاپيل آهي. ٻئي مائڪروسائٽوسس سان پيش ٿين ٿا ۽ ناتجربيڪار ڪلاسيفائرز لاءِ هڪ مشهور رڪاوٽ آهن. مينٽزر انڊيڪس، جيڪو MCV کي RBC ڳڻپ سان ورهائي حساب ڪيو ويندو آهي، لوهه جي ڪمي ۾ 13 کان مٿي ۽ ٿالاسيميا ٽريٽ ۾ 13 کان هيٺ اچي ٿو.

BT-001 ۾، مريض 34 سالن جي عورت هئي جنهن جو هيموگلوبن 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فيريٽين 6 ng/mL، ۽ TIBC وڌيل هو. تقريباً 17.7 جو مينٽزر انڊيڪس واضح/مطلق لوهه جي ڪمي جي حمايت ڪري ٿو. BT-007 ۾، مريض 28 سالن جو مرد هو جنهن ۾ مائڪروسائٽوسس (MCV 65.8 fL) هو، پر RBC ڳڻپ 6.2 وڌيڪ، RDW عام، فيريٽين عام، ۽ HbA2 5.6 سيڪڙو هو. تقريباً 10.6 جو مينٽزر انڊيڪس ٿالاسيميا ٽريٽ ڏانهن اشارو ڪري ٿو، ۽ HbA2 جو وڌيل هجڻ بيٽا ٿالاسيميا مائنر جي تصديق ڪري ٿو.

لوهه جي ڪمي سبب انيميا مينٽزر > 13 فيريٽين گهٽ، TSAT گهٽ، TIBC وڌيل، RDW وڌيل
بيٽا ٿالاسيميا ٽريٽ مينٽزر < 13 فيريٽين عام، RDW عام، HbA2 وڌيل (>3.5%)، RBC ڳڻپ وڌيڪ

ٻنهي ڪيسن جو اسڪور 1.000 هو. انجڻ ٻنهي تشريحن ۾ مينٽزر انڊيڪس کي واضح طور استعمال ڪيو ۽ هر ڀيري صحيح تشخيص موٽائي. هي سڄي بينچمارڪ ۾ واحد سڀ کان وڌيڪ ڪلينڪي طور تسلي بخش نتيجو آهي, ، ڇاڪاڻ ته ٿالاسيميا ٽريٽ کي لوهه جي ڪمي طور غلط درجي بندي ڪرڻ سان غير مناسب لوهه جي سپليمينٽيشن ٿي وڃي ٿي ۽ خاندان جي اسڪريننگ جا موقعا رهجي وڃن ٿا، ۽ لوهه جي ڪمي کي ٿالاسيميا طور غلط درجي بندي ڪرڻ سان سڌي سادي متبادل علاج ۾ دير ٿي وڃي ٿي. اسان فيريٽين رينج گائيڊ وسيع فرق واري (differential) حوالي جي وضاحت ڪريون ٿا.

V11 ابتدائي ريفرنس رن مان في ڪيس نتيجا (23 اپريل 2026)

15-case proof-of-concept ڪوهاٽ تي اصل V11 ريفرنس رن ان جي طريقياتي بنياد طور ڪم ڪري ٿو Second Update جو: هيٺ ڏنل هر في ڪيس تفصيل ڏيکاري ٿو ته روبريڪ حقيقي انجڻ جي جواب کي ڪيئن سنڀاليندو آهي. پندرهن مان ٻارهن ڪيسن پرائمري رستي تي ceiling جامع اسڪور 1.000 حاصل ڪيو؛ ٽي ڪيس Phase 2 fallback ذريعي سروس ڪيا ويا، جنهن 0.05 latency بونس وڃائي ڇڏيو جڏهن ته سمورو ڪلينڪل ۽ ساختياتي مواد محفوظ رهيو. هڪ ڪيس ۾ هڪ واحد لازمي سب سيڪشن غائب هو؛ هڪ ڪيس ۾ probability distribution جو مجموعو ٿورو گهٽ موٽيو.

ڪيس ID خاصيت (Specialty) گڏيل (Composite) Latency Path
BT-001-IDAرت جي بيماري1.00017.8 sprimary
BT-006-B12رت جي بيماري1.00018.4 سيڪنڊprimary
BT-007-ٿالاسيميارت جي بيماري1.00017.0 سيڪنڊprimary
BT-002-هئشاينڊوڪرينولوجي0.95037.0 سيڪنڊبيڪ اپ
BT-008-PCOSاينڊوڪرينولوجي0.98718.6 سيڪنڊprimary
BT-003-T2DMميٽابولڪ1.00019.1 سيڪنڊprimary
BT-013-گائوٽميٽابولڪ1.00019.4 سيڪنڊprimary
BT-004-NAFLDهيپاٽولوجي1.00019.6 سيڪنڊprimary
BT-009-وائرل هيپاٽائيٽسهيپاٽولوجي0.95023.4 سيڪنڊبيڪ اپ
BT-014-گِلبَرٽٽريپ1.00018.9 سيڪنڊprimary
BT-005-CKDگردن جي بيماري1.00017.4 سيڪنڊprimary
BT-010-ASCVDقلبی امراض1.00019.7 سيڪنڊprimary
BT-011-SLEريميٽولوجي0.98118.2 سيڪنڊprimary
BT-012-VITDاينڊوڪرينولوجي1.00019.3 سيڪنڊprimary
BT-015-HEALTHYٽريپ1.00018.7 سيڪنڊبيڪ اپ

PCOS جو ڪيس (BT-008) جواب جي جوڙجڪ ۾ هڪ لازمي ذيلي حصو وڃائي ڇڏيو — سولهن مان پندرهن بدران سولهن مان سولهن — جنهن ساختي نمبر کي 1.000 کان 0.963 تائين گهٽائي ڇڏيو. SLE جو ڪيس (BT-011) هڪ ٿورو گهٽجي ويل امڪاني-وڏي ورهاست (probability-distribution) جو مجموعو واپس ڪيو، جنهن ڪلينڪل نمبر کي 0.965 تائين آڻي ڇڏيو، جڏهن ته هر تشخيصي لفظ ۽ نمبرنگ سسٽم محفوظ رهيو. ٻنهي گهٽ-ترين ڪيسن ۾ به صحيح تشخيص ڇٽي نه وئي.

V11 Second Update aggregate — 100,000 ڪيس

آبادي جي سطح تي، انفرادي ڪيس جون قطارون انساني پڙهڻ لائق نه هونديون آهن، تنهنڪري Second Update 100,000-قطار واري ٽيبل بدران گڏ ڪيل (aggregated) ميٽرڪس رپورٽ ڪري ٿو. مکيه aggregate هيٺ ڏيکاريل آهي؛ في-اسپيشلٽي ۽ في-ملڪ تفصيل ٽيڪنيڪل رپورٽ ۽ Figshare ڊپازٽ ۾ شايع ڪيا ويندا آهن. stratified random sample جو n = 201 خام انجڻ جوابن (deterministic seed 20260426) کي معائني لاءِ GitHub results/ ڊائريڪٽري ۾ شايع ڪيو ويو آهي.

جامع اسڪور V11 ابتدائي: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 100,000-case ڪوهاٽ ۾
ساختياتي اسڪور (اوسط) V11 ابتدائي: 0.998 → Second Update: 1.000 آبادي جي سطح تي مڪمل ساختياتي مطابقت
ڪلينڪل اسڪور (اوسط) V11 ابتدائي: 0.998 → Second Update: 0.996 −0.002؛ ڪنهن به ڪيس ۾ تشخيص پاڻ مس نه ٿي
ديرِي — اوسط (حد) V11 شروعاتي: 20.17 سيڪنڊ (17.0–37.0 سيڪنڊ) → ٻي اپڊيٽ: 13.26 سيڪنڊ (9.0–16.94 سيڪنڊ) رَنز جي وچ ۾ پروڊڪشن انجڻ جي اصلاحون
انجڻ جو رستو = پرائمري V11 شروعاتي: 12 / 15 → ٻي اپڊيٽ: 100,000 / 100,000 رَن دوران ڪنهن به موقعي تي فيز 2 جي بيڪ اپ جي ضرورت نه پئي
ٽريپ-سب سيٽ هائپرڊائگنوسس جا جھنڊا V11 شروعاتي: 0 / 13 → ٻي اپڊيٽ: 0 / 87,412 آبادي جي سطح تي ڪوبه غلط-مثبت نه (8,723 ٽريپ ڪيسز مانيٽر ڪيا ويا)

هيڊ لائن اسڪور اسان کي ڇا نٿو ٻڌائي

هن خاص اڳواٽ رجسٽرڊ روبرڪ تحت 99.80 سيڪڙو جو هڪ گڏيل اسڪور، 127 ملڪن تي پکڙيل 100,000 ڪيسن جي گمنام ڪوهاٽ ۾، لڳ ڀڳ حد-تائين ڪارڪردگي ڏيکاري ٿو — پر ان کي احتياط سان بيان ڪرڻ گهرجي. نتيجو انجڻ جي رويي کي V11 ۾ اسان جنهن روبرڪ لاءِ سورس ڪوڊ ۾ وابسته هئاسين، ان جي خلاف بيان ڪري ٿو؛ اهو جنگل ۾ موجود هر رت جي جاچ پينل بابت انجڻ جي درستگيءَ جو عالمگير دعويٰ ناهي.

اسڪور چوي ٿو ته انجڻ هن جائزي لاءِ چونڊيل تشخيصي نمونن کي آبادي-سطح جي ڪوهاٽ ۾ صحيح نموني سنڀاليو، اهڙي طريقيڪار سان جيڪو شايع ٿيل ۽ ورجائي سگهجي ٿو. اهو نٿو چوي ته انجڻ جنگل ۾ موجود هر رت جي جاچ پينل تي صحيح آهي. اهو نٿو چوي ته انجڻ کي ڪلينشين جي فيصلي جو متبادل بڻجڻ گهرجي. ۽ اهو نٿو چوي ته انجڻ متبادل AI سسٽمن کان بهتر آهي — ٻين انجڻن جي مقابلي واري تجزين کي هن رپورٽ جي دائري کان ٻاهر رکيو ويو.

جيڪو اسڪور قائم ڪري ٿو، اهو هڪ بنياد (baseline) آهي. جڏهن روبرڪ ۽ هارنس عوام لاءِ موجود آهن، انجڻ جا مستقبل وارا ورزن ساڳئي روبرڪ جي خلاف جائزو وٺي سگهجن ٿا — V11 شروعاتي 15 ڪيسن تي، ٻي اپڊيٽ 100,000 ڪيسن جي ڪوهاٽ تي، يا ڪنهن به بعد واري واڌ تي — ۽ شايع ٿيل اسڪور ۽ ڪنهن به بعد واري رَن جي وچ ۾ فرق پاڻ به ماپجي سگهجي ٿو. اڳواٽ رجسٽريشن جي اها ئي اهميت آهي: اها ڪارڪردگيءَ بابت دعوائن کي پرکي سگهڻ وارين دعوائن ۾ تبديل ڪري ٿي.

10 منٽن ۾ هن بئنچمارڪ کي ڪيئن ورجائجي

ٻيهر پيدا ڪرڻ لاءِ صرف هڪ Kantesti API credential جوڙو ۽ Python 3.10 يا ان کان پوءِ وارو ماحول گهربل آهي، جنهن ۾ requests ۽ reportlab لائبريريون انسٽال ٿيل هجن. مڪمل هارنس هڪ ئي، پاڻ ۾ مڪمل (self-contained) Python ماڊيول آهي، جيڪو MIT لائسنس تحت جاري ڪيو ويو آهي.

ٻيهر پيدا ڪرڻ واري نيٽ ورڪ ڊاگرام ڏيکاريندي ته V11 سيڪنڊ اپڊيٽ بينچمارڪ (99.80% composite، 100,000 ڪيس، 127 ملڪ) Figshare، ResearchGate، Academia.edu ۽ GitHub تي آئيني طور موجود آهي، ۽ Figshare DOI کي canonical anchor طور استعمال ڪيو ويو آهي
شڪل 5: V11 ٻي اپڊيٽ بينچمارڪ — 127 ملڪن ۾ 100,000 ڪيسن تي 99.80% گڏيل اسڪور — چار تحقيقي پليٽ فارمن ۾ هڪجهڙو نمونو ڏيکاري ٿو. Figshare DOI بنيادي (canonical) علمي سڃاڻپ ڪندڙ آهي؛ ResearchGate (publication 404175463)، Academia.edu (paper 165956808)، ۽ GitHub SQL-backed هارنس سان متوازي ڪاپيون ميزبان ڪن ٿا، خام جوابن جو stratified random sample، ۽ ملڪ-وار/خاصيت-وار اسڪور ڪارڊز.

نئين رن لاءِ چار قدم

هڪ. رپوزٽري ڪلون ڪريو: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ٻه. انحصار (dependencies) انسٽال ڪريو pip install -r requirements.txt (Second Update شامل ڪري ٿو mysql-connector-python ≥ 8.0 SQL case loader لاءِ). ٽي. مقرر ڪريو KANTESTI_USERNAME ۽ KANTESTI_PASSWORD انجڻ جي API لاءِ ماحولياتي متغيرن (environment variables) طور. ٻي اپڊيٽ SQL case loader لاءِ پڻ سيٽ ڪريو KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، ۽ KANTESTI_DB_PASSWORD — لوڊر هڪ صرف-پڙهڻ واري رول ذريعي ڳنڍجي ٿو (bench_reader) جنهن کي سڃاڻپ ڪندڙ ٽيبلن تي ڪا به مراعت ناهي. چار. هلائڻ لاءِ python benchmark_bloodtest.py --limit 100000 مڪمل Second-Update هلائڻ لاءِ، يا python benchmark_bloodtest.py --limit 1000 تيز ورجاءَ لاءِ. آئوٽ پُٽ هتي محفوظ ٿين ٿا ./benchmark_results/: هڪ CSV اسڪوَر ڪارڊ جنهن ۾ ملڪ-وار ۽ خاصيت-وار ڪالمن، هڪ JSON مجموعو، هڪ stratified-random خام-جواب نمونو، ۽ هڪ Markdown رپورٽ شامل آهي.

حوالاتي رَن 23 اپريل 2026 (V11 شروعاتي، 15 ڪيس) ۽ 26 اپريل 2026 (V11 Second Update، 100,000 ڪيس) رپوزٽري جي results/ ڊائريڪٽري ۾ محفوظ ڪيا ويا آهن. نئون رَن هڪ نئون ٽائيم اسٽيمپ ٿيل اسڪوَر ڪارڊ ٺاهيندو، جڏهن ته حوالاتي رَن اڻ ڇهيا رهندا. جيڪڏهن توهان جو رَن معنيٰ خيز طور تي مختلف نتيجو ڏئي، مهرباني ڪري GitHub تي هڪ issue کوليو جنهن ۾ رَن جو ٽائيم اسٽيمپ ۽ response metadata ۾ موٽايل engine version شامل هجي.

حدون ۽ مستقبل جو ڪم

127 ملڪن ۾ 100,000 ڪيسن تائين به، چار حدون واضح طور تي تسليم ڪرڻ لائق آهن: ڊگهي دم واري ملڪن جي گهٽ نموني (undersampling)، هڪ ڀيري جي تشخيص (single-shot evaluation)، صرف هڪ انجڻ جو دائرو (single-engine scope)، ۽ صرف هڪ ذريعي ڊيٽا جي اصل (single-source data origin). انهن مان هر هڪ کي فعال فالو اپ ڪم ۾ حل ڪيو پيو وڃي.

ڊگهي دم واري ملڪن جي ڪوريج. Second Update 127 ملڪن تي پکڙيل آهي، پر ورڇ غير متوازن آهي — مٿيان 10 حصيداري ڪندڙ ڪيسن جو ≈66.4% حصو ڏين ٿا، ۽ باقي 97 اضافي ملڪن جي ڊگهي دم گڏجي ≈7.3% (تقريباً 7,300 ڪيس گڏ، هر ملڪ سراسري طور ~75 ڪيس) ۾ حصو ڏئي ٿي. تنهنڪري هن ڊگهي دم ۾ ملڪ-وار مجموعا (composites) انهن سرخ انگن (headline figures) کان وڌيڪ شور وارا آهن. مستقبل جا رَن ترجيحي طور تي گهٽ نموني وارن ملڪن مان ڀرتي ڪندا ته جيئن هر جُراسڊڪشن جا اندازا مضبوط ٿين.

سنگل شاٽ ايويوليئيشن. ڪوهرٽ ۾ هر ڪيس کي هڪ ڀيرو تشخيص ڪيو ويو. وڏا ٻولي ماڊل گهٽ sampling temperature تي به غير معمولي آئوٽ پُٽ ڦيرڦار ڏيکارين ٿا، تنهنڪري هر ڪيس لاءِ پنج تشخيصن سان multi-run پروٽوڪول ۽ رپورٽ ڪيل variance هڪ قدرتي ايندڙ قدم آهي — خاص طور تي trap-case سب سيٽ تي، جتي sampling jitter هيٺ تسلسل (consistency) حفاظت واري دعويٰ جو حصو آهي.

سنگل انجڻ جو دائرو. هي رپورٽ هڪ انجڻ (engine) کي بيان ڪري ٿي. متبادل AI سسٽمن جي خلاف تقابلي تجزيا هتي دائري کان ٻاهر آهن؛ اسان شايد انهن کي ساڳئي MIT-لائسنس ٿيل harness جي خلاف مناسب طريقيڪار سان هڪ الڳ آزاد مطالعي طور اڳتي وڌايون.

سنگل سورس ڊيٽا جي اصليت. 100,000 ڪيس هڪ ئي ڪلينڪل رپوزٽري مان ورتل حقيقي مريضن جا گمنام رڪارڊ آهن (Kantesti SQL-backed clinical data warehouse). اهي هڪ ترتيب ڏنل (curated) پروڊڪشن اسٽريم جي نمائندگي ڪن ٿا ۽ عالمي سطح تي آبادي-نمائنده بي ترتيب چونڊ (random draw) نه آهن. تشخيص کي ٻاهرين ذريعن مان آيل multi-centre ڊيٽا تائين وڌائڻ روڊ ميپ تي آهي.

انهن چئن کان ٻاهر، سڀ کان وڌيڪ اثرائتي رٿيل واڌ multi-language parity في جُراسڊڪشن آهي. Kantesti AI Engine 75+ ٻولين ۾ استعمال ڪندڙن کي سهولت ڏئي ٿو، ۽ ٻولي-وار stratified Second-Update سب-ڪوهرٽس (ترڪي، جرمن، اسپينش، فرينچ، اطالوي، پرتگالي، عربي، منڊارين) هلائڻ انجڻ جي سهڪار ڪيل ٻولين ۾ آئوٽ پُٽ معيار کي ماپيندو. هر ٻولي-وار تجزيو پنهنجي DOI ۽ harness برانچ سان شايع ڪيو ويندو.