هي بينچمارڪ ڇو موجود آهي ۽ اهو ڇا پرکي ٿو
AI جي مدد سان خون جي جاچ جو نتيجو صارفين ۽ ڪلينڪل ورڪ فلو ۾ وڌندڙ استعمال ٿي رهيو آهي، پر ليبارٽري ميڊيسن لاءِ ٺهيل ورجائي سگهندڙ جائزي جا فريم ورڪ اڃا به گهٽ ملن ٿا. هن ماحول ۾ سڀ کان اهم سوال اهي نه آهن جيڪي عام طبي سوال-جواب بئنچمارڪن ۾ ڍڪيل هجن: ڇا انجڻ لوهه جي کوٽ کي ٿيلاسيميا ٽريٽ کان ڌار ڪري سگهي ٿي جڏهن mean corpuscular volume هڪجهڙو هجي، ڇا اهو Gilbert's syndrome کي هيپاٽائيٽس طور اوور-ڊائگنوس ڪري ٿو، ۽ ڇا اهو مڪمل طور تي عام اسڪريننگ پينل ۾ بيماري ٺاهي ٿو؟
هڪ واحد رت جي جاچ جو پينل عام طور تي ايترو سگنل رکي ٿو جو ڪيترن ئي مقابلي واري تشريحن کي سهارو ڏئي سگهي، ۽ تشريح ڪندڙ ڪلينشين جو ڪم اهو آهي ته انهن تشريحن کي هڪ ٻئي جي مقابلي ۾ وزن ڏئي، نه ته ڪنهن درسي ڪتاب واري “سڌي جواب” کي ڳولهي. هڪ اهڙو انجڻ جيڪو درسي ڪتاب وارن ڪيسن تي سٺو ڪم ڪري سگهي ٿو، اهو به انهن ڪيسن تي ناڪام ٿي سگهي ٿو جيڪي سڀ کان وڌيڪ اهم آهن: فرقيوار تشخيص (differential-diagnosis) جون ڦاسون، اهي بي ضرر تبديليون جيڪي اڪيلو ڏسڻ تي خطرناڪ لڳن ٿيون، ۽ مڪمل طور تي عام پينل جيڪي اعتماد ڪندڙ اسسٽنٽن کي بيماري ٺاهڻ تي اُتساهين ٿا.
هي بئنچمارڪ بلڪل انهن ناڪامي جي طريقن جي بنياد تي ٺاهيو ويو. پندرهن مان هر هڪ ڪيس کي هڪ مخصوص تشخيصي خاصيت لاءِ چونڊيو ويو: لوهه جي گهٽتائي سبب مائڪرو سائيٽوسس (microcytosis) جنهن کي ساڳي mean corpuscular volume سان beta-thalassaemia trait کان ڌار رکڻو آهي، گِلبرٽ جي سنڊروم (Gilbert's syndrome) جي پيشڪش جتي صرف هڪ ئي غيرمعمولي ڳالهه الڳ ٿيل indirect hyperbilirubinaemia آهي، ۽ هڪ پندرهن-پيرا ميٽر اسڪريننگ پينل جنهن ۾ هر اينالائيٽ پنهنجي ريفرنس رينج اندر ئي موجود آهي. روبرڪ انهن انجڻن کي انعام ڏئي ٿو جيڪي هر ڪيس کي پنهنجي شرطن مطابق پڙهن ٿا، ۽ انهن انجڻن کي سزا ڏئي ٿو جيڪي اهڙي پڪ واري تشخيص تائين پهچن ٿا جتي اهڙي تشخيص جي ضرورت ئي نه هجي.
ڊاڪٽر ٿامس ڪلين (Thomas Klein, MD) جي حيثيت ۾، مون ڪيس پينل چونڊيو ڇو ته اهي ئي نمونا آهن جيڪي ليبارٽري-ميڊيسن اسسٽنٽس سڀ کان وڌيڪ اڪثر غلط ڪندا آهن. مهانگي ناڪامي جو طريقو "ڪو ناياب بيماري وڃائڻ" ناهي—اهو انهن مريضن ۾ معمولي بيماريءَ جهڙي (routine) پيتھالاجي ٺاهڻ آهي جن کي اها اصل ۾ نه هجي. اسان جو طبي تصديق hub وسيع فريم ورڪ بيان ڪري ٿو؛ هي صفحو V11 جي شروعاتي proof-of-concept ۽ V11 ٻئي اپڊيٽ بيان ڪري ٿو جنهن ان کي 100,000 مصنوعي ڪيسن تائين وڌايو—127 ملڪ ليبلن تي پکڙيل هڪ مصنوعي ڪيس سيٽ مان ورتل—ساڳئي اسڪورنگ روبِرڪ سان، بائيٽ-برابر، ۽ پوسٽ-هاڪ ٽيوننگ جي اجازت کان سواءِ.
جديد ريفرنس رن — V11 سيڪنڊ اپڊيٽ (26 اپريل 2026)
26 اپريل 2026 جي V11 سيڪنڊ اپڊيٽ ريفرنس رن هڪ گڏيل (composite) اسڪور پيدا ڪيو 99.80% ساڳي اڳ-رجسٽرڊ روبِرڪ تي جيڪو V11 جي شروعاتي رليز ۾ استعمال ٿيو هو، جائزو ورتو ويو 100,000 مصنوعي ڪيس Kantesti مصنوعي ڪيس سيٽ مان ورتل ۽ 127 ملڪ ليبلن تي پکڙيل ۽ 75+ ٻولين ۾ پکڙيل. هر ڪيس انجڻ جي بنيادي (primary) رستي تي مڪمل ٿيو؛ ٽرَپ-ڪيس هائپرڊائگنوسس فليگ ايڪٽيويشنز رهيا 0 / 87,412. 23 اپريل 2026 تي ٿيل اصل V11 رن ۾ 15 هٿ سان چونڊيل ڪيس شامل هئا (composite 99.12%) ۽ روبِرڪ کي صحيح ثابت ڪيو؛ سيڪنڊ اپڊيٽ اهو ئي روبِرڪ بائيٽ-بائيٽ برقرار رکي ٿو ۽ جائزي کي آبادي-سطحي ڪوهاٽ تائين وڌائي ٿو.
گڏيل فارمولا ٽن حصن کي گڏ ڪري ٿو: ساختي مطابقت (structural conformance) ستن لازمي رپورٽ سيڪشنن ۽ سورهن لازمي سب سيڪشنن سان،, مواد جي درستگي ماپي وئي: keyword recall + scoring-system recall + امڪاني-تقسيم (probability-distribution) جي درستگي جي چيڪ سان، ۽ جواب جي دير (response latency) بنيادي-رستي سروس-ليول ٽارگيٽ جي خلاف. صحيح تفصيل هيٺ ڏنل روبِرڪ فارمولا ۾ ڏيکاريل آهي — انهن مان ڪا به وزن يا سب-روبِرڪ سيڪنڊ اپڊيٽ لاءِ تبديل نه ڪئي وئي.
هيڊ روم جا باقي 0.20 سيڪڙو پوائنٽ تقريبن مڪمل طور تي ڪلينڪل سب-اسڪور ۾ ورهائجن ٿا — ڪيسن جو ٿورو حصو (خاص طور تي Hepatology ۽ Rheumatology ۾) انجڻ جي تشريح ۾ هڪ متوقع اسڪورنگ-سسٽم keyword غائب هو، جيتوڻيڪ تشخيصي مواد صحيح هو. 100,000-ڪيس سيڪنڊ-اپڊيٽ ڪوهاٽ ۾ ڪو به ڪيس پاڻ تشخيص (diagnosis) کان محروم نه رهيو. ليٽنسي V11 جي شروعاتي رليز ۾ اوسط 20.17 s کان سيڪنڊ اپڊيٽ ۾ 13.26 s تائين بهتر ٿي؛ ٻن رنن جي وچ ۾ پروڊڪشن انجڻ جي آپٽمائيزيشنز کي ظاهر ڪندي. روبِرڪ، اسڪورنگ ڪوڊ، ۽ API اينڊ پوائنٽ ۾ ڪا تبديلي ناهي.
في-ليبل جامع اسڪور 30 سڀ کان وڌيڪ نمائندہ ملڪ ليبلن ۾ 0.9971 کان 0.9985 تائين هئا. باقي 97 اضافي ليبلن جي ڊگهي دم (≈7,300 ڪيس گڏيل) ۾ ڪا به منظم (systematic) گهٽتائي نظر نه آئي. ڪيس ڳڻپ موجب سڀ کان وڌيڪ عام ليبل هئا: آمريڪا (10,500)، برازيل (9,500)، اسپين (9,000)، اٽلي (8,000)، جرمني (7,800)، فرانس (7,400)، پرتگال (5,800)، Türkiye (3,400)، برطانيه (2,900)، ۽ ميڪسيڪو (2,500).
15 ڪيسن کان 100,000 تائين: 127 ملڪ ليبلن ۾ ڪوهاٽ جي ارتقا
اصل V11 ڪيس پينل ست خاصيتن تي مشتمل هو — هيماتولوجي، اينڊوڪرائينولوجي، ميٽابولڪ ميڊيسن، هيپاٽولوجي، نيڦرولوجي، ڪارڊيالوجي، ريميٽولوجي — ۽ گڏوگڏ ٻه وقف ڪيل هائپرڊائگنوسس ٽريپ ڪيس، هر ڪيس هڪ مصنوعي طور تي تيار ڪيل بلڊ-ٽيسٽ پينل سان. V11 ٻيو اپڊيٽ تشخيص کي 127 ملڪ ليبلن ۾ پکڙيل 100,000 مصنوعي ڪيسن تائين وڌائي ٿو, ، اٺ خاصيتن ۾ ورهايل (اصل ستن کان علاوه هڪ وقف ٿيل internal-medicine بڪيٽ جيڪو ٽرَپ سب سيٽ کي جذب ڪري ٿو). ساڳي اسڪورنگ روبِرڪ ٻنهي رنن ۾ بائيٽ-بائيٽ لاڳو ڪئي وئي.
ڇاڪاڻ ته سڀئي ڪيس مصنوعي طور تي تيار ڪيل آهن، تنهنڪري هٽائڻ لاءِ ڪابه حقيقي سڃاڻپ (identifier) موجود ناهي ۽ نه ئي ڪا ذاتي ڊيٽا شامل آهي. هر مصنوعي ڪيس ۾ هڪ بينچمارڪ-اندروني ڪيس ڪوڊ هوندو آهي (V11 جي شروعاتي سيٽ ۾ BT-NNN-LABEL، هڪ مستحڪم case_uid ٻئي اپڊيٽ ۾). شايع ٿيل هارنس، ٽيڪنيڪل رپورٽ، يا جاري ڪيل ڊيٽا سيٽن ۾ ڪٿي به ڪا ذاتي ڊيٽا نظر نٿي اچي.
V11 شروعاتي رليز — 15 هٿ سان چونڊيل ڪيس
اصل V11 ڪيس پينل ڊاڪٽر ٿامس ڪلين هٿ سان چونڊيو هو ته جيئن اهي تشخيصي نمونا مشق ۾ آڻجن جن کي ليبارٽري-ميڊيسن اسسٽنٽس سڀ کان گهڻو غلط سمجهن ٿا. پندرهن مان هر هڪ ڪيس کي هيٺ ڏنل ڪنهن مخصوص تشخيصي خاصيت لاءِ چونڊيو ويو.
هي خاص ورڇ ڇو
هيماتولوجي کي ٽي ڪيس ملن ٿا، ڇاڪاڻتہ مائڪرو سائيٽڪ ڊفرينشلز ۽ ميڪرو سائيٽڪ ڊفرينشلز حقيقي دنيا جي ليبارٽري عمل ۾ سڀ کان وڌيڪ مقدار وارا “ٽريپس” آهن. اينڊو ڪرائينولوجي کي ٽي ڪيس ملن ٿا، ڇاڪاڻتہ Hashimoto's، PCOS، ۽ وٽامن ڊي جي کمي جون پيشڪشون مختلف تشخيصي شڪليون اختيار ڪن ٿيون (آٽو اينٽي باڊي-هلائيندڙ، هارمون-تناسب-هلائيندڙ، واحد-مارڪر-هلائيندڙ). واحد ڪيس واريون خاصيتون اڃا به معنيٰ رکن ٿيون، ڇاڪاڻتہ هر CKD، ASCVD خطري، ۽ SLE جو پنهنجو اسڪوئرنگ سسٽم آهي، جنهن کي انجڻ کي سڏڻ گهرجي (KDIGO اسٽيجنگ، ASCVD 10-سال خطرو، ۽ 2019 EULAR/ACR SLE معيار ترتيبوار).
V11 ٻيو اپڊيٽ — 127 ملڪ ليبلن ۾ پکڙيل 100,000 مصنوعي ڪيس
ٻيو اپڊيٽ اصل V11 جي 15-ڪيس هارڊ-ڪوڊڊ Python literal کي هڪ وڏي، پروگراماتي طور تي تيار ڪيل مصنوعي ڪيس سيٽ سان بدلائي ٿو. ڪيس سيٽ هر رن جي شروعات ۾ لوڊ ڪيو ويندو آهي ۽ شفافيت لاءِ ترتيب (configuration) لاگ ڪئي ويندي آهي. مواد واري علائقي موجب ڪوهاٽ جي ورڇ هيٺ ڏيکاري وئي آهي.
مصنوعي ملڪ-ليبل ورڇ — مٿيان 10 ليبل
100,000 مصنوعي ڪيسن ۾ 127 ملڪ ليبل (ISO 3166-1 alpha-2) شامل آهن ته جيئن locale handling کي پرکيو وڃي. ليبل تفويض: يورپ 57.7%، آمريڪا 25.4%، ايشيا-پئسفڪ 6.2%، نالي سان وچ-اوڀر/افريقا ليبل 3.4%، ۽ باقي 97 اضافي ليبلن جي ڊگهي دم مجموعي طور تقريباً 7.3% آهي. ڪيس ڳڻپ موجب ڏهه سڀ کان وڌيڪ عام ليبل هئا: آمريڪا (10,500)، برازيل (9,500)، اسپين (9,000)، اٽلي (8,000)، جرمني (7,800)، فرانس (7,400)، پرتگال (5,800)، Türkiye (3,400)، برطانيه (2,900)، ۽ ميڪسيڪو (2,500). في-ليبل جامع اسڪور 0.9971 کان 0.9985 تائين هئا. اهي ليبل ڳڻپون generated cases جون ملڪيتون آهن جيڪي locale handling کي پرکڻ لاءِ استعمال ٿين ٿيون — اهي حقيقي استعمال ڪندڙ نه آهن ۽ نه ئي حقيقي دنيا جي جاگرافيائي ڪوريج.
اڳ-رجسٽرڊ روبرڪ جي وضاحت
اڳ-رجسٽريشن هن بينچمارڪ ۾ سڀ کان اهم طريقيڪار وارو فيصلو آهي. هر متوقع تشخيص، هر ڪلينڪل اسڪوئرنگ سسٽم، ۽ هر رپورٽ سيڪشن کي سورس ڪوڊ ۾ لاڪ ڪيو ويو انجڻ کي سڏڻ کان اڳ. تنهنڪري انجڻ کي خوش ڪرڻ لاءِ روبريڪ جي پوسٽ-هاڪ ٽيوننگ ممڪن ناهي.
جامع اسڪوئر ٽي حصن تي مشتمل آهي. ساختي حصو 35 سيڪڙو جو حصو ڏئي ٿو ۽ ماپي ٿو ته انجڻ ڇا ست لازمي رپورٽ سيڪشن واپس ڪيا (هيڊر، خلاصو، اهم نتيجا، ڊفرينشل، اسڪوئرنگ سسٽم، سفارشون، فالو اپ) ۽ انهن اندر موجود سولهن لازمي سب سيڪشن. سيڪشن موجودگي ساختي حساب ۾ 40 سيڪڙو وزن رکي ٿي ۽ سب سيڪشن موجودگي 60 سيڪڙو وزن رکي ٿي.
جي ڪلينڪل حصو 55 سيڪڙو جو حصو ڏئي ٿو ۽ ٽن شين کي گڏ ڪري ٿو: تشخيص-ڪي ورڊ يادگيري (ڪلينڪل سب-اسڪوئر جو 70 سيڪڙو)، اسڪوئرنگ سسٽم يادگيري (20 سيڪڙو — ڇا انجڻ Mentzer، FIB-4، HOMA-IR، ASCVD خطرو، KDIGO اسٽيجنگ، EULAR/ACR معيار جتي لاڳو هجن، حساب ڪري ٿو)، ۽ امڪان-مجموعو درستگي چيڪ (10 سيڪڙو — ڊفرينشل امڪانن جو مجموعو [90, 110] وقفي اندر هئڻ گهرجي). ٽريپ ڪيسن لاءِ، وڌ ۾ وڌ 0.30 جي واضح هائپر ڊائگنوسس پينلٽي ڪٽجي ٿي، جيڪا في ٺاهيل پيتھالاجي فليگ 0.10 جي حساب سان لڳائي وڃي ٿي، ۽ وڌ ۾ وڌ ٽي فليگ تائين محدود آهي.
جي ليٽنسي حصو 10 سيڪڙو جو حصو ڏئي ٿو. 20 سيڪنڊن کان گهٽ جواب مڪمل 0.10 حاصل ڪري ٿو، 40 سيڪنڊن کان گهٽ جواب 0.05 حاصل ڪري ٿو، ۽ ان کان وڌيڪ دير وارو ڪجهه به صفر. 20 سيڪنڊن جو ٽارگيٽ پروڊڪشن پرائمري-پٿ سروس-ليول مقصد کي ظاهر ڪري ٿو؛ 40 سيڪنڊن جي حد Phase 2 لاءِ ڳري-انجڻ انوڪيشنز جي فال بيڪ بجيٽ کي ظاهر ڪري ٿي.
اڳ-رجسٽريشن ڇا روڪي ٿي
فرسٽ پارٽي بينچمارڪ پوسٽ-هاڪ روبريڪ ٽيوننگ ذريعي پنهنجا انگ وڌائڻ لاءِ بدنام آهن. نمونو تقريباً هميشه ساڳيو هوندو آهي: ٽيم انجڻ هلائي ٿي، ڏسي ٿي ته ڪٿي گهٽ ڪارڪردگي ٿي رهي آهي، پوءِ خاموشي سان روبريڪ کي ترتيب ڏئي ٿي ته گهٽ ڪارڪردگي وارا علائقا گهٽ ڳڻجن. پهرين انجڻ ڪال کان اڳ روبريڪ کي سورس ڪوڊ ۾ لاڪ ڪرڻ ۽ هارنس کي MIT لائسنس تحت پبلش ڪرڻ سان، اها ترتيب ورزن ڪنٽرول ۾ نظر اچي ٿي. ڪو به ماڻهو رپوزٽري ڪلون ڪري سگهي ٿو، روبريڪ ليکڪ جي تاريخون چيڪ ڪري سگهي ٿو، ۽ تصديق ڪري سگهي ٿو ته انجڻ جا نتيجا اسڪورنگ کي ٺاهڻ لاءِ استعمال نه ڪيا ويا.
هائپرڊائگنوسس ٽريپ ڪيس — ڇو گهڻو سڏڻ اصل ناڪامي جو طريقو آهي
نارمل اسڪرينز تي پيتھالاجي کي زور سان وڌيڪ سڏڻ (over-calling) صارف-سامهون طبي اسسٽنٽن لاءِ دستاويزي ناڪامي وارو طريقو آهي. ان جا هيٺيان خرچ غير ضروري جاچ، مريض جي پريشاني، ۽ iatrogenic workup شامل ڪن ٿا. هن بينچمارڪ جا ٻه ٽريپ ڪيس ٺهيل آهن ته اها ناڪامي وارو طريقو نظر اچي ۽ اسڪور ٿي سگهي.
🟡 ٽريپ 1 — BT-014-GILBERT
پيشڪش. هڪ 24 سالن جو مرد جنهن جو ڪل بلي روبن 2.4 mg/dL آهي. ڊائريڪٽ حصو نارمل آهي، ٽرانسامينيز ۽ الڪالائن فاسفٽيز پنهنجن ريفرنس رينجز اندر آهن، ريٽيڪولوسائٽس غير معمولي نه آهن، ۽ هپٽوگلوبن ۽ LDH haemolysis کي رد ڪن ٿا.
صحيح تشريح. Gilbert's syndrome — هڪ بي نياز UGT1A1 پوليمورفزم. تشريح کي هيپاٽائيٽس، سرروسس، هيمولائيٽڪ انيميا، يا بائليري اوبسٽرڪشن کي سڏڻ نه گهرجي.
V11 نتيجو. جامع 1.000. ڇهن نگراني ڪيل اوور-ڊائگنوسس فليگز مان ڪو به فعال تشخيص طور ظاهر نه ٿيو.
🟡 ٽريپ 2 — BT-015-HEALTHY
پيشڪش. هڪ 35 سالن جي عورت لاءِ پندرهن-پيرا ميٽرن واري معمولي اسڪريننگ پينل. هر اينالائيٽ پنهنجي ريفرنس رينج اندر آرام سان موجود آهي.
صحيح تشريح. تسلي ۽ طرزِ زندگي جي سار سنڀال. تشريح کي اهڙي حدبندي واري بيماري جوڙڻ نه گهرجي جيڪا ڪلينڪي طور مفيد لڳي، پر اصل ۾ موجود نه هجي.
V11 نتيجو. مجموعي 1.000. نگراني ڪيل ستن مان ڪابه به وڌيڪ تشخيص واري خبرداري — ذيابيطس، انيميا، هائيپوتائيرائيڊزم، ڊس لپيڊيميا، هيپاٽائيٽس، گردن جي بيماري، ڪمي — فعال تشخيص طور ظاهر نه ٿي.
ٻنهي ٽريپس ۾، نگراني ڪيل تيرهن وڌيڪ تشخيص واري خبردارين کي چيڪ ڪيو ويو. ڪابه به ٽرگر نه ٿي. هي اهو نتيجو آهي جيڪو ڪنهن به ڪلينشين لاءِ سڀ کان وڌيڪ اهميت رکي ٿو جيڪو AI انجڻ کي ٽرييج يا اڳ-مشاورت واري اوزار طور استعمال ڪرڻ تي غور ڪري ٿو: سسٽم جتي بيماري موجود نه هئي، اتي بيماري ايجاد نه ڪئي.
مينتزير انڊيڪس: لوهه جي کوٽ کي ٿيلاسيميا ٽريٽ کان الڳ ڪرڻ
هڪ ٻي اعليٰ قدر واري ڳولا ڪيس BT-001 (لوهه جي ڪمي سبب انيميا) ۽ ڪيس BT-007 (بيٽا ٿالاسيميا مائنر) جي جوڙي سان لاڳاپيل آهي. ٻئي مائڪروسائٽوسس سان پيش ٿين ٿا ۽ ناتجربيڪار ڪلاسيفائرز لاءِ هڪ مشهور رڪاوٽ آهن. مينٽزر انڊيڪس، جيڪو MCV کي RBC ڳڻپ سان ورهائي حساب ڪيو ويندو آهي، لوهه جي ڪمي ۾ 13 کان مٿي ۽ ٿالاسيميا ٽريٽ ۾ 13 کان هيٺ اچي ٿو.
BT-001 ۾، مريض 34 سالن جي عورت هئي جنهن جو هيموگلوبن 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فيريٽين 6 ng/mL، ۽ TIBC وڌيل هو. تقريباً 17.7 جو مينٽزر انڊيڪس واضح/مطلق لوهه جي ڪمي جي حمايت ڪري ٿو. BT-007 ۾، مريض 28 سالن جو مرد هو جنهن ۾ مائڪروسائٽوسس (MCV 65.8 fL) هو، پر RBC ڳڻپ 6.2 وڌيڪ، RDW عام، فيريٽين عام، ۽ HbA2 5.6 سيڪڙو هو. تقريباً 10.6 جو مينٽزر انڊيڪس ٿالاسيميا ٽريٽ ڏانهن اشارو ڪري ٿو، ۽ HbA2 جو وڌيل هجڻ بيٽا ٿالاسيميا مائنر جي تصديق ڪري ٿو.
ٻنهي ڪيسن جو اسڪور 1.000 هو. انجڻ ٻنهي تشريحن ۾ مينٽزر انڊيڪس کي واضح طور استعمال ڪيو ۽ هر ڀيري صحيح تشخيص موٽائي. هي سڄي بينچمارڪ ۾ واحد سڀ کان وڌيڪ ڪلينڪي طور تسلي بخش نتيجو آهي, ، ڇاڪاڻ ته ٿالاسيميا ٽريٽ کي لوهه جي ڪمي طور غلط درجي بندي ڪرڻ سان غير مناسب لوهه جي سپليمينٽيشن ٿي وڃي ٿي ۽ خاندان جي اسڪريننگ جا موقعا رهجي وڃن ٿا، ۽ لوهه جي ڪمي کي ٿالاسيميا طور غلط درجي بندي ڪرڻ سان سڌي سادي متبادل علاج ۾ دير ٿي وڃي ٿي. اسان فيريٽين رينج گائيڊ وسيع فرق واري (differential) حوالي جي وضاحت ڪريون ٿا.
V11 ابتدائي ريفرنس رن مان في ڪيس نتيجا (23 اپريل 2026)
15-case proof-of-concept ڪوهاٽ تي اصل V11 ريفرنس رن ان جي طريقياتي بنياد طور ڪم ڪري ٿو Second Update جو: هيٺ ڏنل هر في ڪيس تفصيل ڏيکاري ٿو ته روبريڪ حقيقي انجڻ جي جواب کي ڪيئن سنڀاليندو آهي. پندرهن مان ٻارهن ڪيسن پرائمري رستي تي ceiling جامع اسڪور 1.000 حاصل ڪيو؛ ٽي ڪيس Phase 2 fallback ذريعي سروس ڪيا ويا، جنهن 0.05 latency بونس وڃائي ڇڏيو جڏهن ته سمورو ڪلينڪل ۽ ساختياتي مواد محفوظ رهيو. هڪ ڪيس ۾ هڪ واحد لازمي سب سيڪشن غائب هو؛ هڪ ڪيس ۾ probability distribution جو مجموعو ٿورو گهٽ موٽيو.
PCOS جو ڪيس (BT-008) جواب جي جوڙجڪ ۾ هڪ لازمي ذيلي حصو وڃائي ڇڏيو — سولهن مان پندرهن بدران سولهن مان سولهن — جنهن ساختي نمبر کي 1.000 کان 0.963 تائين گهٽائي ڇڏيو. SLE جو ڪيس (BT-011) هڪ ٿورو گهٽجي ويل امڪاني-وڏي ورهاست (probability-distribution) جو مجموعو واپس ڪيو، جنهن ڪلينڪل نمبر کي 0.965 تائين آڻي ڇڏيو، جڏهن ته هر تشخيصي لفظ ۽ نمبرنگ سسٽم محفوظ رهيو. ٻنهي گهٽ-ترين ڪيسن ۾ به صحيح تشخيص ڇٽي نه وئي.
V11 Second Update aggregate — 100,000 ڪيس
آبادي جي پيماني تي، انفرادي ڪيسن جون قطارون (rows) انسان لاءِ پڙهڻ لائق نه هونديون آهن، تنهنڪري ٻيو اپڊيٽ 100,000-قطار واري ٽيبل بدران گڏيل (aggregated) ميٽرڪس رپورٽ ڪري ٿو. مکيه گڏيل نتيجو هيٺ ڏيکاريل آهي؛ في-خاصيت ۽ في-ملڪ-ليبل تفصيل ٽيڪنيڪل رپورٽ ۽ Figshare ڊپازٽ ۾ شايع ڪيا ويندا آهن. هڪ stratified random sample جو n = 201 خام انجڻ جوابن (deterministic seed 20260426) کي معائني لاءِ GitHub results/ ڊائريڪٽري ۾ شايع ڪيو ويو آهي.
هيڊ لائن اسڪور اسان کي ڇا نٿو ٻڌائي
هن خاص اڳ-رجسٽرڊ روبِرڪ تحت 99.80 سيڪڙو جو هڪ جامع اسڪور، 127 ملڪ ليبلن تي پکڙيل 100,000-ڪيس مصنوعي ڪوهاٽ ۾، near-ceiling ڪارڪردگي ڏيکاري ٿو — پر ان کي احتياط سان فريم ڪرڻ گهرجي. نتيجو انجڻ جي رويي کي ان روبِرڪ جي خلاف بيان ڪري ٿو جنهن لاءِ اسان V11 ۾ سورس ڪوڊ ۾ وابستگي ڪئي هئي؛ اهو انجڻ جي هر ان بلڊ ٽيسٽ پينل تي درست هجڻ بابت ڪا عالمگير (universal) دعويٰ ناهي جيڪو دنيا ۾ موجود هجي.
اسڪور چوي ٿو ته انجڻ هن جائزي لاءِ چونڊيل تشخيصي نمونن کي آبادي-سطح جي ڪوهاٽ ۾ صحيح نموني سنڀاليو، اهڙي طريقيڪار سان جيڪو شايع ٿيل ۽ ورجائي سگهجي ٿو. اهو نٿو چوي ته انجڻ جنگل ۾ موجود هر رت جي جاچ پينل تي صحيح آهي. اهو نٿو چوي ته انجڻ کي ڪلينشين جي فيصلي جو متبادل بڻجڻ گهرجي. ۽ اهو نٿو چوي ته انجڻ متبادل AI سسٽمن کان بهتر آهي — ٻين انجڻن جي مقابلي واري تجزين کي هن رپورٽ جي دائري کان ٻاهر رکيو ويو.
جيڪو اسڪور قائم ڪري ٿو، اهو هڪ بنياد (baseline) آهي. جڏهن روبرڪ ۽ هارنس عوام لاءِ موجود آهن، انجڻ جا مستقبل وارا ورزن ساڳئي روبرڪ جي خلاف جائزو وٺي سگهجن ٿا — V11 شروعاتي 15 ڪيسن تي، ٻي اپڊيٽ 100,000 ڪيسن جي ڪوهاٽ تي، يا ڪنهن به بعد واري واڌ تي — ۽ شايع ٿيل اسڪور ۽ ڪنهن به بعد واري رَن جي وچ ۾ فرق پاڻ به ماپجي سگهجي ٿو. اڳواٽ رجسٽريشن جي اها ئي اهميت آهي: اها ڪارڪردگيءَ بابت دعوائن کي پرکي سگهڻ وارين دعوائن ۾ تبديل ڪري ٿي.
10 منٽن ۾ هن بئنچمارڪ کي ڪيئن ورجائجي
ٻيهر پيدا ڪرڻ لاءِ صرف هڪ Kantesti API credential جوڙو ۽ Python 3.10 يا ان کان پوءِ وارو ماحول گهربل آهي، جنهن ۾ requests ۽ reportlab لائبريريون انسٽال ٿيل هجن. مڪمل هارنس هڪ ئي، پاڻ ۾ مڪمل (self-contained) Python ماڊيول آهي، جيڪو MIT لائسنس تحت جاري ڪيو ويو آهي.
نئين رن لاءِ چار قدم
هڪ. رپوزٽري ڪلون ڪريو: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ٻه. انحصار (dependencies) انسٽال ڪريو pip install -r requirements.txt (Second Update شامل ڪري ٿو mysql-connector-python ≥ 8.0 SQL case loader لاءِ). ٽي. مقرر ڪريو KANTESTI_USERNAME ۽ KANTESTI_PASSWORD انجڻ جي API لاءِ ماحولياتي متغيرن (environment variables) طور. ٻي اپڊيٽ SQL case loader لاءِ پڻ سيٽ ڪريو KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، ۽ KANTESTI_DB_PASSWORD — لوڊر هڪ صرف-پڙهڻ واري رول ذريعي ڳنڍجي ٿو (bench_reader) جنهن کي سڃاڻپ ڪندڙ ٽيبلن تي ڪا به مراعت ناهي. چار. هلائڻ لاءِ python benchmark_bloodtest.py --limit 100000 مڪمل Second-Update هلائڻ لاءِ، يا python benchmark_bloodtest.py --limit 1000 تيز ورجاءَ لاءِ. آئوٽ پُٽ هتي محفوظ ٿين ٿا ./benchmark_results/: هڪ CSV scorecard جنهن ۾ per-country-label ۽ per-specialty ڪالمن، هڪ JSON aggregate، هڪ stratified-random خام-response sample، ۽ هڪ Markdown رپورٽ.
حوالاتي رَن 23 اپريل 2026 (V11 شروعاتي، 15 ڪيس) ۽ 26 اپريل 2026 (V11 Second Update، 100,000 ڪيس) رپوزٽري جي results/ ڊائريڪٽري ۾ محفوظ ڪيا ويا آهن. نئون رَن هڪ نئون ٽائيم اسٽيمپ ٿيل اسڪوَر ڪارڊ ٺاهيندو، جڏهن ته حوالاتي رَن اڻ ڇهيا رهندا. جيڪڏهن توهان جو رَن معنيٰ خيز طور تي مختلف نتيجو ڏئي، مهرباني ڪري GitHub تي هڪ issue کوليو جنهن ۾ رَن جو ٽائيم اسٽيمپ ۽ response metadata ۾ موٽايل engine version شامل هجي.
حدون ۽ مستقبل جو ڪم
127 ملڪ-ليبلز ۾ 100,000 ڪيسن تائين به، چار حدون واضح طور تي تسليم ٿيڻ گهرجن: long-tail ليبل undersampling، single-shot evaluation، single-engine scope، ۽ single-source data origin. انهن مان هر هڪ کي فعال follow-up ڪم ۾ حل ڪيو پيو وڃي.
Long-tail label coverage. Second Update ۾ 127 ملڪ-ليبلز شامل آهن، پر ورڇ غير متوازن آهي — مٿيان 10 ليبلز ڪيسن جو ≈66.4% حصو ڏين ٿا، ۽ باقي 97 اضافي ليبلز جو long tail گڏجي ≈7.3% (تقريباً 7,300 ڪيس گڏيل، في ليبل اوسط ~75 ڪيس) ۾ حصو ڏئي ٿو. تنهنڪري هن long tail ۾ per-label composites انهن headline انگن کان وڌيڪ شور وارا آهن جيڪي ظاهر ڪن ٿا. مستقبل جون رنسون ليبل اسائنمينٽ کي ٻيهر بيلنس ڪنديون ته جيئن per-label اندازا مضبوط ٿين.
سنگل شاٽ ايويوليئيشن. ڪوهرٽ ۾ هر ڪيس کي هڪ ڀيرو تشخيص ڪيو ويو. وڏا ٻولي ماڊل گهٽ sampling temperature تي به غير معمولي آئوٽ پُٽ ڦيرڦار ڏيکارين ٿا، تنهنڪري هر ڪيس لاءِ پنج تشخيصن سان multi-run پروٽوڪول ۽ رپورٽ ڪيل variance هڪ قدرتي ايندڙ قدم آهي — خاص طور تي trap-case سب سيٽ تي، جتي sampling jitter هيٺ تسلسل (consistency) حفاظت واري دعويٰ جو حصو آهي.
سنگل انجڻ جو دائرو. هي رپورٽ هڪ انجڻ (engine) کي بيان ڪري ٿي. متبادل AI سسٽمن جي خلاف تقابلي تجزيا هتي دائري کان ٻاهر آهن؛ اسان شايد انهن کي ساڳئي MIT-لائسنس ٿيل harness جي خلاف مناسب طريقيڪار سان هڪ الڳ آزاد مطالعي طور اڳتي وڌايون.
Synthetic data. 100,000 ڪيس synthetically generated آهن، نه ته synthetic cases؛ ۽ نتيجا حقيقي دنيا جي ڪلينڪل ڪارڪردگي ڏانهن منتقل نٿا ٿين. حقيقي، رضامنديءَ سان گڏ، ٻاهرين ذريعن مان آيل ڊيٽا تي تشخيص لاءِ مناسب اخلاقي نگراني گهربل هوندي ۽ هي هن synthetic benchmark جي دائري کان ٻاهر آهي.
انهن چئن کان ٻاهر، سڀ کان وڌيڪ اثرائتي رٿيل واڌ multi-language parity في جُراسڊڪشن آهي. Kantesti AI Engine 75+ ٻولين ۾ استعمال ڪندڙن کي سهولت ڏئي ٿو، ۽ ٻولي-وار stratified Second-Update سب-ڪوهرٽس (ترڪي، جرمن، اسپينش، فرينچ، اطالوي، پرتگالي، عربي، منڊارين) هلائڻ انجڻ جي سهڪار ڪيل ٻولين ۾ آئوٽ پُٽ معيار کي ماپيندو. هر ٻولي-وار تجزيو پنهنجي DOI ۽ harness برانچ سان شايع ڪيو ويندو.