هي بينچمارڪ ڇو موجود آهي ۽ اهو ڇا پرکي ٿو
AI جي مدد سان خون جي جاچ جو نتيجو صارفين ۽ ڪلينڪل ورڪ فلو ۾ وڌندڙ استعمال ٿي رهيو آهي، پر ليبارٽري ميڊيسن لاءِ ٺهيل ورجائي سگهندڙ جائزي جا فريم ورڪ اڃا به گهٽ ملن ٿا. هن ماحول ۾ سڀ کان اهم سوال اهي نه آهن جيڪي عام طبي سوال-جواب بئنچمارڪن ۾ ڍڪيل هجن: ڇا انجڻ لوهه جي کوٽ کي ٿيلاسيميا ٽريٽ کان ڌار ڪري سگهي ٿي جڏهن mean corpuscular volume هڪجهڙو هجي، ڇا اهو Gilbert's syndrome کي هيپاٽائيٽس طور اوور-ڊائگنوس ڪري ٿو، ۽ ڇا اهو مڪمل طور تي عام اسڪريننگ پينل ۾ بيماري ٺاهي ٿو؟
هڪ واحد رت جي جاچ جو پينل عام طور تي ايترو سگنل رکي ٿو جو ڪيترن ئي مقابلي واري تشريحن کي سهارو ڏئي سگهي، ۽ تشريح ڪندڙ ڪلينشين جو ڪم اهو آهي ته انهن تشريحن کي هڪ ٻئي جي مقابلي ۾ وزن ڏئي، نه ته ڪنهن درسي ڪتاب واري “سڌي جواب” کي ڳولهي. هڪ اهڙو انجڻ جيڪو درسي ڪتاب وارن ڪيسن تي سٺو ڪم ڪري سگهي ٿو، اهو به انهن ڪيسن تي ناڪام ٿي سگهي ٿو جيڪي سڀ کان وڌيڪ اهم آهن: فرقيوار تشخيص (differential-diagnosis) جون ڦاسون، اهي بي ضرر تبديليون جيڪي اڪيلو ڏسڻ تي خطرناڪ لڳن ٿيون، ۽ مڪمل طور تي عام پينل جيڪي اعتماد ڪندڙ اسسٽنٽن کي بيماري ٺاهڻ تي اُتساهين ٿا.
هي بئنچمارڪ بلڪل انهن ناڪامي جي طريقن جي بنياد تي ٺاهيو ويو. پندرهن مان هر هڪ ڪيس کي هڪ مخصوص تشخيصي خاصيت لاءِ چونڊيو ويو: لوهه جي گهٽتائي سبب مائڪرو سائيٽوسس (microcytosis) جنهن کي ساڳي mean corpuscular volume سان beta-thalassaemia trait کان ڌار رکڻو آهي، گِلبرٽ جي سنڊروم (Gilbert's syndrome) جي پيشڪش جتي صرف هڪ ئي غيرمعمولي ڳالهه الڳ ٿيل indirect hyperbilirubinaemia آهي، ۽ هڪ پندرهن-پيرا ميٽر اسڪريننگ پينل جنهن ۾ هر اينالائيٽ پنهنجي ريفرنس رينج اندر ئي موجود آهي. روبرڪ انهن انجڻن کي انعام ڏئي ٿو جيڪي هر ڪيس کي پنهنجي شرطن مطابق پڙهن ٿا، ۽ انهن انجڻن کي سزا ڏئي ٿو جيڪي اهڙي پڪ واري تشخيص تائين پهچن ٿا جتي اهڙي تشخيص جي ضرورت ئي نه هجي.
ڊاڪٽر ٿامس ڪلين (Thomas Klein, MD) جي حيثيت ۾، مون ڪيس پينل چونڊيو ڇو ته اهي ئي نمونا آهن جيڪي ليبارٽري-ميڊيسن اسسٽنٽس سڀ کان وڌيڪ اڪثر غلط ڪندا آهن. مهانگي ناڪامي جو طريقو "ڪو ناياب بيماري وڃائڻ" ناهي—اهو انهن مريضن ۾ معمولي بيماريءَ جهڙي (routine) پيتھالاجي ٺاهڻ آهي جن کي اها اصل ۾ نه هجي. اسان جو طبي تصديق هَب وسيع فريم ورڪ بيان ڪري ٿو؛ هي صفحو V11 شروعاتي پروف-آف-ڪنسيپٽ ۽ V11 سيڪنڊ اپڊيٽ بيان ڪري ٿو جنهن ان کي 100,000 گمنام ڪيسن تائين وڌايو، جيڪي 127 ملڪن تي پکڙيل SQL-بئڪڊ ڪلينڪل رپوزٽري مان ورتل آهن — ساڳي اسڪورنگ روبِرڪ استعمال ڪندي، بائيٽ-بائيٽ هڪجهڙي، ۽ پوسٽ-هاڪ ٽيوننگ جي اجازت ناهي.
جديد ريفرنس رن — V11 سيڪنڊ اپڊيٽ (26 اپريل 2026)
26 اپريل 2026 جي V11 سيڪنڊ اپڊيٽ ريفرنس رن هڪ گڏيل (composite) اسڪور پيدا ڪيو 99.80% ساڳي اڳ-رجسٽرڊ روبِرڪ تي جيڪو V11 جي شروعاتي رليز ۾ استعمال ٿيو هو، جائزو ورتو ويو 100,000 گمنام ڪيسن تي Kantesti SQL-بئڪڊ ڪلينڪل رپوزٽري مان ورتل ۽ 127 ملڪن ۽ 75+ ٻولين ۾ پکڙيل. هر ڪيس انجڻ جي بنيادي (primary) رستي تي مڪمل ٿيو؛ ٽرَپ-ڪيس هائپرڊائگنوسس فليگ ايڪٽيويشنز رهيا 0 / 87,412. 23 اپريل 2026 تي ٿيل اصل V11 رن ۾ 15 هٿ سان چونڊيل ڪيس شامل هئا (composite 99.12%) ۽ روبِرڪ کي صحيح ثابت ڪيو؛ سيڪنڊ اپڊيٽ اهو ئي روبِرڪ بائيٽ-بائيٽ برقرار رکي ٿو ۽ جائزي کي آبادي-سطحي ڪوهاٽ تائين وڌائي ٿو.
گڏيل فارمولا ٽن حصن کي گڏ ڪري ٿو: ساختي مطابقت (structural conformance) ستن لازمي رپورٽ سيڪشنن ۽ سورهن لازمي سب سيڪشنن سان،, ڪلينڪل درستگي (clinical accuracy) ماپي وئي: keyword recall + scoring-system recall + امڪاني-تقسيم (probability-distribution) جي درستگي جي چيڪ سان، ۽ جواب جي دير (response latency) بنيادي-رستي سروس-ليول ٽارگيٽ جي خلاف. صحيح تفصيل هيٺ ڏنل روبِرڪ فارمولا ۾ ڏيکاريل آهي — انهن مان ڪا به وزن يا سب-روبِرڪ سيڪنڊ اپڊيٽ لاءِ تبديل نه ڪئي وئي.
هيڊ روم جا باقي 0.20 سيڪڙو پوائنٽ تقريبن مڪمل طور تي ڪلينڪل سب-اسڪور ۾ ورهائجن ٿا — ڪيسن جو ٿورو حصو (خاص طور تي Hepatology ۽ Rheumatology ۾) انجڻ جي تشريح ۾ هڪ متوقع اسڪورنگ-سسٽم keyword غائب هو، جيتوڻيڪ تشخيصي مواد صحيح هو. 100,000-ڪيس سيڪنڊ-اپڊيٽ ڪوهاٽ ۾ ڪو به ڪيس پاڻ تشخيص (diagnosis) کان محروم نه رهيو. ليٽنسي V11 جي شروعاتي رليز ۾ اوسط 20.17 s کان سيڪنڊ اپڊيٽ ۾ 13.26 s تائين بهتر ٿي؛ ٻن رنن جي وچ ۾ پروڊڪشن انجڻ جي آپٽمائيزيشنز کي ظاهر ڪندي. روبِرڪ، اسڪورنگ ڪوڊ، ۽ API اينڊ پوائنٽ ۾ ڪا تبديلي ناهي.
ملڪ-وار گڏيل (composite) اسڪور 0.9971 (ڀارت) کان 0.9985 (سويٽزرلينڊ) تائين هئا، 30 سڀ کان وڌيڪ نمائندگي ڪندڙ ملڪن ۾. باقي 97 ملڪن جي ڊگهي دم (≈7,300 ڪيس گڏيل طور) ۾ ڪا به منظم (systematic) گهٽتائي نظر نه آئي. ڪيسن جي تعداد موجب مٿيان مددگار هئا: آمريڪا (10,500)، برازيل (9,500)، اسپين (9,000)، اٽلي (8,000)، جرمني (7,800)، فرانس (7,400)، پرتگال (5,800)، Türkiye (3,400)، برطانيه (2,900)، ۽ ميڪسيڪو (2,500).
15 ڪيسن کان 100,000 تائين: 127 ملڪن ۾ ڪوھورٽ جي ارتقا
اصل V11 ڪيس پينل ست خاصيتن تي مشتمل هو — hematology، endocrinology، metabolic medicine، hepatology، nephrology، cardiology، rheumatology — ۽ گڏوگڏ ٻه وقف ٿيل هائپرڊائگنوسس ٽرَپ ڪيس؛ هر ڪيس هڪ حقيقي مريض جي گمنام رڪارڊ تي ٻڌل هو، جيڪو Kantesti ڪلينڪل ڊيٽا رپوزٽري مان لکيل informed consent تحت ورتل هو. V11 سيڪنڊ اپڊيٽ جائزي کي 100,000 گمنام ڪيسن تائين وڌائي ٿو، 127 ملڪن ۾, ، اٺ خاصيتن ۾ ورهايل (اصل ستن کان علاوه هڪ وقف ٿيل internal-medicine بڪيٽ جيڪو ٽرَپ سب سيٽ کي جذب ڪري ٿو). ساڳي اسڪورنگ روبِرڪ ٻنهي رنن ۾ بائيٽ-بائيٽ لاڳو ڪئي وئي.
ڊي-آئيڊنٽيفڪيشن Safe Harbor طريقي تحت ڪئي وئي: سڀ سڌا سڃاڻپ ڪندڙ (direct identifiers) هٽايا ويا يا مٽايا ويا، ۽ هر رڪارڊ کي هڪ بينچمارڪ-اندروني ڪيس ڪوڊ ڏنو ويو، فارميٽ BT-NNN-LABEL (V11 شروعاتي) يا هڪ مستحڪم گمنام case_uid سيڪنڊ اپڊيٽ لاءِ. پروسيسنگ مطابق ڪئي وئي GDPR آرٽيڪل 9(2)(j) مناسب حفاظتي قدمن سان سائنسي تحقيق لاءِ، ۽ برطانيا جي UK GDPR جي برابر شقن مطابق. شايع ٿيل harness، ٽيڪنيڪل رپورٽ، يا جاري ڪيل ڊيٽا سيٽن ۾ ڪٿي به ڪا به ذاتي سڃاڻپ واري معلومات موجود ناهي.
V11 شروعاتي رليز — 15 هٿ سان چونڊيل ڪيس
اصل V11 ڪيس پينل ڊاڪٽر ٿامس ڪلين هٿ سان چونڊيو هو ته جيئن اهي تشخيصي نمونا مشق ۾ آڻجن جن کي ليبارٽري-ميڊيسن اسسٽنٽس سڀ کان گهڻو غلط سمجهن ٿا. پندرهن مان هر هڪ ڪيس کي هيٺ ڏنل ڪنهن مخصوص تشخيصي خاصيت لاءِ چونڊيو ويو.
هي خاص ورڇ ڇو
هيماتولوجي کي ٽي ڪيس ملن ٿا، ڇاڪاڻتہ مائڪرو سائيٽڪ ڊفرينشلز ۽ ميڪرو سائيٽڪ ڊفرينشلز حقيقي دنيا جي ليبارٽري عمل ۾ سڀ کان وڌيڪ مقدار وارا “ٽريپس” آهن. اينڊو ڪرائينولوجي کي ٽي ڪيس ملن ٿا، ڇاڪاڻتہ Hashimoto's، PCOS، ۽ وٽامن ڊي جي کمي جون پيشڪشون مختلف تشخيصي شڪليون اختيار ڪن ٿيون (آٽو اينٽي باڊي-هلائيندڙ، هارمون-تناسب-هلائيندڙ، واحد-مارڪر-هلائيندڙ). واحد ڪيس واريون خاصيتون اڃا به معنيٰ رکن ٿيون، ڇاڪاڻتہ هر CKD، ASCVD خطري، ۽ SLE جو پنهنجو اسڪوئرنگ سسٽم آهي، جنهن کي انجڻ کي سڏڻ گهرجي (KDIGO اسٽيجنگ، ASCVD 10-سال خطرو، ۽ 2019 EULAR/ACR SLE معيار ترتيبوار).
V11 سيڪنڊ اپڊيٽ — 100,000 گمنام ڪيس 127 ملڪن ۾
سيڪنڊ اپڊيٽ اصل V11 جي هارڊ-ڪوڊ ٿيل 15-ڪيس Python literal کي هڪ پيرا ميٽرائيزڊ، صرف-پڙهڻ واري SQL سوال سان بدلائي ٿي، جيڪو Kantesti ڪلينڪل ريپوزٽري جي خلاف هلندو آهي (anonymised_blood_panels). سوال فلٽر ڪري ٿو consent_research = 1 AND released_for_benchmark = 1 ۽ شفافيت لاءِ هر بينچمارڪ رن جي مٿان ڇپجي ٿو. خاصيت (specialty) موجب ڪوهاٽ جي ورڇ هيٺ ڏيکاري وئي آهي.
جغرافيائي ورڇ — مٿيان 10 ملڪ
هي ڪوهاٽ 127 ملڪن تي پکڙيل آهي (ISO 3166-1 alpha-2). يورپ جو حصو 57.7%، آمريڪا 25.4%، ايشيا-پئسفڪ 6.2%، وچ اوڀر/افريقا جا نالايل داخلا 3.4%، ۽ 97 اضافي ملڪن جي ڊگهي دم گڏجي لڳ ڀڳ 7.3%. ڏهن وڏن حصيدارن ۾ آمريڪا (10,500)، برازيل (9,500)، اسپين (9,000)، اٽلي (8,000)، جرمني (7,800)، فرانس (7,400)، پرتگال (5,800)، Türkiye (3,400)، برطانيه (2,900)، ۽ ميڪسيڪو (2,500) شامل آهن. في ملڪ جامع اسڪور 0.9971 (ڀارت) کان 0.9985 (سويٽزرلينڊ) تائين هئا.
اڳ-رجسٽرڊ روبرڪ جي وضاحت
اڳ-رجسٽريشن هن بينچمارڪ ۾ سڀ کان اهم طريقيڪار وارو فيصلو آهي. هر متوقع تشخيص، هر ڪلينڪل اسڪوئرنگ سسٽم، ۽ هر رپورٽ سيڪشن کي سورس ڪوڊ ۾ لاڪ ڪيو ويو انجڻ کي سڏڻ کان اڳ. تنهنڪري انجڻ کي خوش ڪرڻ لاءِ روبريڪ جي پوسٽ-هاڪ ٽيوننگ ممڪن ناهي.
جامع اسڪوئر ٽي حصن تي مشتمل آهي. ساختي حصو 35 سيڪڙو جو حصو ڏئي ٿو ۽ ماپي ٿو ته انجڻ ڇا ست لازمي رپورٽ سيڪشن واپس ڪيا (هيڊر، خلاصو، اهم نتيجا، ڊفرينشل، اسڪوئرنگ سسٽم، سفارشون، فالو اپ) ۽ انهن اندر موجود سولهن لازمي سب سيڪشن. سيڪشن موجودگي ساختي حساب ۾ 40 سيڪڙو وزن رکي ٿي ۽ سب سيڪشن موجودگي 60 سيڪڙو وزن رکي ٿي.
جي ڪلينڪل حصو 55 سيڪڙو جو حصو ڏئي ٿو ۽ ٽن شين کي گڏ ڪري ٿو: تشخيص-ڪي ورڊ يادگيري (ڪلينڪل سب-اسڪوئر جو 70 سيڪڙو)، اسڪوئرنگ سسٽم يادگيري (20 سيڪڙو — ڇا انجڻ Mentzer، FIB-4، HOMA-IR، ASCVD خطرو، KDIGO اسٽيجنگ، EULAR/ACR معيار جتي لاڳو هجن، حساب ڪري ٿو)، ۽ امڪان-مجموعو درستگي چيڪ (10 سيڪڙو — ڊفرينشل امڪانن جو مجموعو [90, 110] وقفي اندر هئڻ گهرجي). ٽريپ ڪيسن لاءِ، وڌ ۾ وڌ 0.30 جي واضح هائپر ڊائگنوسس پينلٽي ڪٽجي ٿي، جيڪا في ٺاهيل پيتھالاجي فليگ 0.10 جي حساب سان لڳائي وڃي ٿي، ۽ وڌ ۾ وڌ ٽي فليگ تائين محدود آهي.
جي ليٽنسي حصو 10 سيڪڙو جو حصو ڏئي ٿو. 20 سيڪنڊن کان گهٽ جواب مڪمل 0.10 حاصل ڪري ٿو، 40 سيڪنڊن کان گهٽ جواب 0.05 حاصل ڪري ٿو، ۽ ان کان وڌيڪ دير وارو ڪجهه به صفر. 20 سيڪنڊن جو ٽارگيٽ پروڊڪشن پرائمري-پٿ سروس-ليول مقصد کي ظاهر ڪري ٿو؛ 40 سيڪنڊن جي حد Phase 2 لاءِ ڳري-انجڻ انوڪيشنز جي فال بيڪ بجيٽ کي ظاهر ڪري ٿي.
اڳ-رجسٽريشن ڇا روڪي ٿي
فرسٽ پارٽي بينچمارڪ پوسٽ-هاڪ روبريڪ ٽيوننگ ذريعي پنهنجا انگ وڌائڻ لاءِ بدنام آهن. نمونو تقريباً هميشه ساڳيو هوندو آهي: ٽيم انجڻ هلائي ٿي، ڏسي ٿي ته ڪٿي گهٽ ڪارڪردگي ٿي رهي آهي، پوءِ خاموشي سان روبريڪ کي ترتيب ڏئي ٿي ته گهٽ ڪارڪردگي وارا علائقا گهٽ ڳڻجن. پهرين انجڻ ڪال کان اڳ روبريڪ کي سورس ڪوڊ ۾ لاڪ ڪرڻ ۽ هارنس کي MIT لائسنس تحت پبلش ڪرڻ سان، اها ترتيب ورزن ڪنٽرول ۾ نظر اچي ٿي. ڪو به ماڻهو رپوزٽري ڪلون ڪري سگهي ٿو، روبريڪ ليکڪ جي تاريخون چيڪ ڪري سگهي ٿو، ۽ تصديق ڪري سگهي ٿو ته انجڻ جا نتيجا اسڪورنگ کي ٺاهڻ لاءِ استعمال نه ڪيا ويا.
هائپرڊائگنوسس ٽريپ ڪيس — ڇو گهڻو سڏڻ اصل ناڪامي جو طريقو آهي
نارمل اسڪرينز تي پيتھالاجي کي زور سان وڌيڪ سڏڻ (over-calling) صارف-سامهون طبي اسسٽنٽن لاءِ دستاويزي ناڪامي وارو طريقو آهي. ان جا هيٺيان خرچ غير ضروري جاچ، مريض جي پريشاني، ۽ iatrogenic workup شامل ڪن ٿا. هن بينچمارڪ جا ٻه ٽريپ ڪيس ٺهيل آهن ته اها ناڪامي وارو طريقو نظر اچي ۽ اسڪور ٿي سگهي.
🟡 ٽريپ 1 — BT-014-GILBERT
پيشڪش. هڪ 24 سالن جو مرد جنهن جو ڪل بلي روبن 2.4 mg/dL آهي. ڊائريڪٽ حصو نارمل آهي، ٽرانسامينيز ۽ الڪالائن فاسفٽيز پنهنجن ريفرنس رينجز اندر آهن، ريٽيڪولوسائٽس غير معمولي نه آهن، ۽ هپٽوگلوبن ۽ LDH haemolysis کي رد ڪن ٿا.
صحيح تشريح. Gilbert's syndrome — هڪ بي نياز UGT1A1 پوليمورفزم. تشريح کي هيپاٽائيٽس، سرروسس، هيمولائيٽڪ انيميا، يا بائليري اوبسٽرڪشن کي سڏڻ نه گهرجي.
V11 نتيجو. جامع 1.000. ڇهن نگراني ڪيل اوور-ڊائگنوسس فليگز مان ڪو به فعال تشخيص طور ظاهر نه ٿيو.
🟡 ٽريپ 2 — BT-015-HEALTHY
پيشڪش. هڪ 35 سالن جي عورت لاءِ پندرهن-پيرا ميٽرن واري معمولي اسڪريننگ پينل. هر اينالائيٽ پنهنجي ريفرنس رينج اندر آرام سان موجود آهي.
صحيح تشريح. تسلي ۽ طرزِ زندگي جي سار سنڀال. تشريح کي اهڙي حدبندي واري بيماري جوڙڻ نه گهرجي جيڪا ڪلينڪي طور مفيد لڳي، پر اصل ۾ موجود نه هجي.
V11 نتيجو. مجموعي 1.000. نگراني ڪيل ستن مان ڪابه به وڌيڪ تشخيص واري خبرداري — ذيابيطس، انيميا، هائيپوتائيرائيڊزم، ڊس لپيڊيميا، هيپاٽائيٽس، گردن جي بيماري، ڪمي — فعال تشخيص طور ظاهر نه ٿي.
ٻنهي ٽريپس ۾، نگراني ڪيل تيرهن وڌيڪ تشخيص واري خبردارين کي چيڪ ڪيو ويو. ڪابه به ٽرگر نه ٿي. هي اهو نتيجو آهي جيڪو ڪنهن به ڪلينشين لاءِ سڀ کان وڌيڪ اهميت رکي ٿو جيڪو AI انجڻ کي ٽرييج يا اڳ-مشاورت واري اوزار طور استعمال ڪرڻ تي غور ڪري ٿو: سسٽم جتي بيماري موجود نه هئي، اتي بيماري ايجاد نه ڪئي.
مينتزير انڊيڪس: لوهه جي کوٽ کي ٿيلاسيميا ٽريٽ کان الڳ ڪرڻ
هڪ ٻي اعليٰ قدر واري ڳولا ڪيس BT-001 (لوهه جي ڪمي سبب انيميا) ۽ ڪيس BT-007 (بيٽا ٿالاسيميا مائنر) جي جوڙي سان لاڳاپيل آهي. ٻئي مائڪروسائٽوسس سان پيش ٿين ٿا ۽ ناتجربيڪار ڪلاسيفائرز لاءِ هڪ مشهور رڪاوٽ آهن. مينٽزر انڊيڪس، جيڪو MCV کي RBC ڳڻپ سان ورهائي حساب ڪيو ويندو آهي، لوهه جي ڪمي ۾ 13 کان مٿي ۽ ٿالاسيميا ٽريٽ ۾ 13 کان هيٺ اچي ٿو.
BT-001 ۾، مريض 34 سالن جي عورت هئي جنهن جو هيموگلوبن 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فيريٽين 6 ng/mL، ۽ TIBC وڌيل هو. تقريباً 17.7 جو مينٽزر انڊيڪس واضح/مطلق لوهه جي ڪمي جي حمايت ڪري ٿو. BT-007 ۾، مريض 28 سالن جو مرد هو جنهن ۾ مائڪروسائٽوسس (MCV 65.8 fL) هو، پر RBC ڳڻپ 6.2 وڌيڪ، RDW عام، فيريٽين عام، ۽ HbA2 5.6 سيڪڙو هو. تقريباً 10.6 جو مينٽزر انڊيڪس ٿالاسيميا ٽريٽ ڏانهن اشارو ڪري ٿو، ۽ HbA2 جو وڌيل هجڻ بيٽا ٿالاسيميا مائنر جي تصديق ڪري ٿو.
ٻنهي ڪيسن جو اسڪور 1.000 هو. انجڻ ٻنهي تشريحن ۾ مينٽزر انڊيڪس کي واضح طور استعمال ڪيو ۽ هر ڀيري صحيح تشخيص موٽائي. هي سڄي بينچمارڪ ۾ واحد سڀ کان وڌيڪ ڪلينڪي طور تسلي بخش نتيجو آهي, ، ڇاڪاڻ ته ٿالاسيميا ٽريٽ کي لوهه جي ڪمي طور غلط درجي بندي ڪرڻ سان غير مناسب لوهه جي سپليمينٽيشن ٿي وڃي ٿي ۽ خاندان جي اسڪريننگ جا موقعا رهجي وڃن ٿا، ۽ لوهه جي ڪمي کي ٿالاسيميا طور غلط درجي بندي ڪرڻ سان سڌي سادي متبادل علاج ۾ دير ٿي وڃي ٿي. اسان فيريٽين رينج گائيڊ وسيع فرق واري (differential) حوالي جي وضاحت ڪريون ٿا.
V11 ابتدائي ريفرنس رن مان في ڪيس نتيجا (23 اپريل 2026)
15-case proof-of-concept ڪوهاٽ تي اصل V11 ريفرنس رن ان جي طريقياتي بنياد طور ڪم ڪري ٿو Second Update جو: هيٺ ڏنل هر في ڪيس تفصيل ڏيکاري ٿو ته روبريڪ حقيقي انجڻ جي جواب کي ڪيئن سنڀاليندو آهي. پندرهن مان ٻارهن ڪيسن پرائمري رستي تي ceiling جامع اسڪور 1.000 حاصل ڪيو؛ ٽي ڪيس Phase 2 fallback ذريعي سروس ڪيا ويا، جنهن 0.05 latency بونس وڃائي ڇڏيو جڏهن ته سمورو ڪلينڪل ۽ ساختياتي مواد محفوظ رهيو. هڪ ڪيس ۾ هڪ واحد لازمي سب سيڪشن غائب هو؛ هڪ ڪيس ۾ probability distribution جو مجموعو ٿورو گهٽ موٽيو.
PCOS جو ڪيس (BT-008) جواب جي جوڙجڪ ۾ هڪ لازمي ذيلي حصو وڃائي ڇڏيو — سولهن مان پندرهن بدران سولهن مان سولهن — جنهن ساختي نمبر کي 1.000 کان 0.963 تائين گهٽائي ڇڏيو. SLE جو ڪيس (BT-011) هڪ ٿورو گهٽجي ويل امڪاني-وڏي ورهاست (probability-distribution) جو مجموعو واپس ڪيو، جنهن ڪلينڪل نمبر کي 0.965 تائين آڻي ڇڏيو، جڏهن ته هر تشخيصي لفظ ۽ نمبرنگ سسٽم محفوظ رهيو. ٻنهي گهٽ-ترين ڪيسن ۾ به صحيح تشخيص ڇٽي نه وئي.
V11 Second Update aggregate — 100,000 ڪيس
آبادي جي سطح تي، انفرادي ڪيس جون قطارون انساني پڙهڻ لائق نه هونديون آهن، تنهنڪري Second Update 100,000-قطار واري ٽيبل بدران گڏ ڪيل (aggregated) ميٽرڪس رپورٽ ڪري ٿو. مکيه aggregate هيٺ ڏيکاريل آهي؛ في-اسپيشلٽي ۽ في-ملڪ تفصيل ٽيڪنيڪل رپورٽ ۽ Figshare ڊپازٽ ۾ شايع ڪيا ويندا آهن. stratified random sample جو n = 201 خام انجڻ جوابن (deterministic seed 20260426) کي معائني لاءِ GitHub results/ ڊائريڪٽري ۾ شايع ڪيو ويو آهي.
هيڊ لائن اسڪور اسان کي ڇا نٿو ٻڌائي
هن خاص اڳواٽ رجسٽرڊ روبرڪ تحت 99.80 سيڪڙو جو هڪ گڏيل اسڪور، 127 ملڪن تي پکڙيل 100,000 ڪيسن جي گمنام ڪوهاٽ ۾، لڳ ڀڳ حد-تائين ڪارڪردگي ڏيکاري ٿو — پر ان کي احتياط سان بيان ڪرڻ گهرجي. نتيجو انجڻ جي رويي کي V11 ۾ اسان جنهن روبرڪ لاءِ سورس ڪوڊ ۾ وابسته هئاسين، ان جي خلاف بيان ڪري ٿو؛ اهو جنگل ۾ موجود هر رت جي جاچ پينل بابت انجڻ جي درستگيءَ جو عالمگير دعويٰ ناهي.
اسڪور چوي ٿو ته انجڻ هن جائزي لاءِ چونڊيل تشخيصي نمونن کي آبادي-سطح جي ڪوهاٽ ۾ صحيح نموني سنڀاليو، اهڙي طريقيڪار سان جيڪو شايع ٿيل ۽ ورجائي سگهجي ٿو. اهو نٿو چوي ته انجڻ جنگل ۾ موجود هر رت جي جاچ پينل تي صحيح آهي. اهو نٿو چوي ته انجڻ کي ڪلينشين جي فيصلي جو متبادل بڻجڻ گهرجي. ۽ اهو نٿو چوي ته انجڻ متبادل AI سسٽمن کان بهتر آهي — ٻين انجڻن جي مقابلي واري تجزين کي هن رپورٽ جي دائري کان ٻاهر رکيو ويو.
جيڪو اسڪور قائم ڪري ٿو، اهو هڪ بنياد (baseline) آهي. جڏهن روبرڪ ۽ هارنس عوام لاءِ موجود آهن، انجڻ جا مستقبل وارا ورزن ساڳئي روبرڪ جي خلاف جائزو وٺي سگهجن ٿا — V11 شروعاتي 15 ڪيسن تي، ٻي اپڊيٽ 100,000 ڪيسن جي ڪوهاٽ تي، يا ڪنهن به بعد واري واڌ تي — ۽ شايع ٿيل اسڪور ۽ ڪنهن به بعد واري رَن جي وچ ۾ فرق پاڻ به ماپجي سگهجي ٿو. اڳواٽ رجسٽريشن جي اها ئي اهميت آهي: اها ڪارڪردگيءَ بابت دعوائن کي پرکي سگهڻ وارين دعوائن ۾ تبديل ڪري ٿي.
10 منٽن ۾ هن بئنچمارڪ کي ڪيئن ورجائجي
ٻيهر پيدا ڪرڻ لاءِ صرف هڪ Kantesti API credential جوڙو ۽ Python 3.10 يا ان کان پوءِ وارو ماحول گهربل آهي، جنهن ۾ requests ۽ reportlab لائبريريون انسٽال ٿيل هجن. مڪمل هارنس هڪ ئي، پاڻ ۾ مڪمل (self-contained) Python ماڊيول آهي، جيڪو MIT لائسنس تحت جاري ڪيو ويو آهي.
نئين رن لاءِ چار قدم
هڪ. رپوزٽري ڪلون ڪريو: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ٻه. انحصار (dependencies) انسٽال ڪريو pip install -r requirements.txt (Second Update شامل ڪري ٿو mysql-connector-python ≥ 8.0 SQL case loader لاءِ). ٽي. مقرر ڪريو KANTESTI_USERNAME ۽ KANTESTI_PASSWORD انجڻ جي API لاءِ ماحولياتي متغيرن (environment variables) طور. ٻي اپڊيٽ SQL case loader لاءِ پڻ سيٽ ڪريو KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، ۽ KANTESTI_DB_PASSWORD — لوڊر هڪ صرف-پڙهڻ واري رول ذريعي ڳنڍجي ٿو (bench_reader) جنهن کي سڃاڻپ ڪندڙ ٽيبلن تي ڪا به مراعت ناهي. چار. هلائڻ لاءِ python benchmark_bloodtest.py --limit 100000 مڪمل Second-Update هلائڻ لاءِ، يا python benchmark_bloodtest.py --limit 1000 تيز ورجاءَ لاءِ. آئوٽ پُٽ هتي محفوظ ٿين ٿا ./benchmark_results/: هڪ CSV اسڪوَر ڪارڊ جنهن ۾ ملڪ-وار ۽ خاصيت-وار ڪالمن، هڪ JSON مجموعو، هڪ stratified-random خام-جواب نمونو، ۽ هڪ Markdown رپورٽ شامل آهي.
حوالاتي رَن 23 اپريل 2026 (V11 شروعاتي، 15 ڪيس) ۽ 26 اپريل 2026 (V11 Second Update، 100,000 ڪيس) رپوزٽري جي results/ ڊائريڪٽري ۾ محفوظ ڪيا ويا آهن. نئون رَن هڪ نئون ٽائيم اسٽيمپ ٿيل اسڪوَر ڪارڊ ٺاهيندو، جڏهن ته حوالاتي رَن اڻ ڇهيا رهندا. جيڪڏهن توهان جو رَن معنيٰ خيز طور تي مختلف نتيجو ڏئي، مهرباني ڪري GitHub تي هڪ issue کوليو جنهن ۾ رَن جو ٽائيم اسٽيمپ ۽ response metadata ۾ موٽايل engine version شامل هجي.
حدون ۽ مستقبل جو ڪم
127 ملڪن ۾ 100,000 ڪيسن تائين به، چار حدون واضح طور تي تسليم ڪرڻ لائق آهن: ڊگهي دم واري ملڪن جي گهٽ نموني (undersampling)، هڪ ڀيري جي تشخيص (single-shot evaluation)، صرف هڪ انجڻ جو دائرو (single-engine scope)، ۽ صرف هڪ ذريعي ڊيٽا جي اصل (single-source data origin). انهن مان هر هڪ کي فعال فالو اپ ڪم ۾ حل ڪيو پيو وڃي.
ڊگهي دم واري ملڪن جي ڪوريج. Second Update 127 ملڪن تي پکڙيل آهي، پر ورڇ غير متوازن آهي — مٿيان 10 حصيداري ڪندڙ ڪيسن جو ≈66.4% حصو ڏين ٿا، ۽ باقي 97 اضافي ملڪن جي ڊگهي دم گڏجي ≈7.3% (تقريباً 7,300 ڪيس گڏ، هر ملڪ سراسري طور ~75 ڪيس) ۾ حصو ڏئي ٿي. تنهنڪري هن ڊگهي دم ۾ ملڪ-وار مجموعا (composites) انهن سرخ انگن (headline figures) کان وڌيڪ شور وارا آهن. مستقبل جا رَن ترجيحي طور تي گهٽ نموني وارن ملڪن مان ڀرتي ڪندا ته جيئن هر جُراسڊڪشن جا اندازا مضبوط ٿين.
سنگل شاٽ ايويوليئيشن. ڪوهرٽ ۾ هر ڪيس کي هڪ ڀيرو تشخيص ڪيو ويو. وڏا ٻولي ماڊل گهٽ sampling temperature تي به غير معمولي آئوٽ پُٽ ڦيرڦار ڏيکارين ٿا، تنهنڪري هر ڪيس لاءِ پنج تشخيصن سان multi-run پروٽوڪول ۽ رپورٽ ڪيل variance هڪ قدرتي ايندڙ قدم آهي — خاص طور تي trap-case سب سيٽ تي، جتي sampling jitter هيٺ تسلسل (consistency) حفاظت واري دعويٰ جو حصو آهي.
سنگل انجڻ جو دائرو. هي رپورٽ هڪ انجڻ (engine) کي بيان ڪري ٿي. متبادل AI سسٽمن جي خلاف تقابلي تجزيا هتي دائري کان ٻاهر آهن؛ اسان شايد انهن کي ساڳئي MIT-لائسنس ٿيل harness جي خلاف مناسب طريقيڪار سان هڪ الڳ آزاد مطالعي طور اڳتي وڌايون.
سنگل سورس ڊيٽا جي اصليت. 100,000 ڪيس هڪ ئي ڪلينڪل رپوزٽري مان ورتل حقيقي مريضن جا گمنام رڪارڊ آهن (Kantesti SQL-backed clinical data warehouse). اهي هڪ ترتيب ڏنل (curated) پروڊڪشن اسٽريم جي نمائندگي ڪن ٿا ۽ عالمي سطح تي آبادي-نمائنده بي ترتيب چونڊ (random draw) نه آهن. تشخيص کي ٻاهرين ذريعن مان آيل multi-centre ڊيٽا تائين وڌائڻ روڊ ميپ تي آهي.
انهن چئن کان ٻاهر، سڀ کان وڌيڪ اثرائتي رٿيل واڌ multi-language parity في جُراسڊڪشن آهي. Kantesti AI Engine 75+ ٻولين ۾ استعمال ڪندڙن کي سهولت ڏئي ٿو، ۽ ٻولي-وار stratified Second-Update سب-ڪوهرٽس (ترڪي، جرمن، اسپينش، فرينچ، اطالوي، پرتگالي، عربي، منڊارين) هلائڻ انجڻ جي سهڪار ڪيل ٻولين ۾ آئوٽ پُٽ معيار کي ماپيندو. هر ٻولي-وار تجزيو پنهنجي DOI ۽ harness برانچ سان شايع ڪيو ويندو.