یہ بینچمارک کیوں موجود ہے اور یہ کیا جانچتا ہے

اے آئی کی مدد سے خون کے ٹیسٹ کی رپورٹ کی تشریح صارفین اور کلینیکل ورک فلو میں تیزی سے استعمال ہو رہی ہے، مگر لیبارٹری میڈیسن کے مطابق قابلِ تکرار (reproducible) تشخیصی فریم ورک اب بھی کم ہیں۔ اس سیاق میں سب سے اہم سوالات وہ نہیں جو عمومی میڈیکل سوال-جواب بینچ مارکس میں کور ہوتے ہیں: کیا جب mean corpuscular volume ایک جیسا ہو تو ایک انجن آئرن ڈیفیشنسی کو تھیلیسیمیا ٹریٹ سے الگ کر سکتا ہے، کیا وہ Gilbert's syndrome کو ہیپاٹائٹس کے طور پر اوور-ڈائیگنوز کرتا ہے، اور کیا وہ مکمل طور پر نارمل اسکریننگ پینل میں پیتھالوجی “بنا” دیتا ہے؟

pre-registered روبرک فلو ڈایاگرام جو دکھاتا ہے کہ Kantesti AI Engine — V11 Second Update، 100,000 کیسز پر 99.80% composite اسکور — کو فریزڈ اسکورنگ معیار کے خلاف کیسے جانچا جاتا ہے
تصویر 1: اس کے پیچھے موجود بینچ مارک آرکیٹیکچر 99.80% کمپوزٹ اسکور V11 Second Update میں 100,000 کیسز کے کوہورٹ پر — ہر کیس، ہر کی ورڈ، ہر اسکورنگ سسٹم انجن کے ایک بھی PDF دیکھنے سے پہلے سورس کوڈ میں فکس ہوتا ہے، اور روبریک V11 کی ابتدائی ریلیز کے ساتھ بائٹ بہ بائٹ یکساں ہے۔ ڈیزائن کے مطابق پوسٹ ہاک روبریک ٹیوننگ ممکن نہیں۔.

ایک واحد خون کے ٹیسٹ کا پینل عموماً اتنا سگنل رکھتا ہے کہ کئی متبادل تشریحات کی گنجائش بن جائے، اور تشریح کرنے والے معالج کا کام یہ ہوتا ہے کہ وہ ان تشریحات کو ایک دوسرے کے مقابلے میں تولے، نہ کہ کسی درسی کتاب کے جواب کو محض نکال کر پیش کرے۔ جو انجن درسی کتاب والے کیسز میں اچھا کارکردگی دکھاتا ہے وہ پھر بھی اُن کیسز میں ناکام ہو سکتا ہے جو سب سے زیادہ اہم ہیں: تفریقِ تشخیص کے وہ جال، وہ بے ضرر مختلف حالتیں جو اکیلے میں خطرناک لگتی ہیں، اور وہ مکمل نارمل پینلز جو پراعتماد اسسٹنٹس کو پیتھالوجی “گھڑنے” پر آمادہ کر دیتے ہیں۔.

یہ بینچمارک انہی ناکامی کے طریقوں کے گرد بنایا گیا تھا۔ پندرہ میں سے ہر کیس کو کسی مخصوص تشخیصی خصوصیت کے لیے منتخب کیا گیا: آئرن کی کمی سے ہونے والی مائیکروسائٹوسس کو بیٹا تھیلیسیمیا ٹریٹ سے الگ رکھنا ضروری تھا، جس میں ایک جیسا mean corpuscular volume ہوتا ہے؛ جِلبرٹ سنڈروم کی پیشکش جہاں واحد غیر معمولی بات ایک الگ تھلگ indirect hyperbilirubinaemia ہے؛ اور ایک پندرہ-پیرامیٹر اسکریننگ پینل جس میں ہر اینالائٹ اپنی reference range کے اندر موجود ہے۔ یہ روبریک اُن انجنز کو انعام دیتا ہے جو ہر کیس کو اپنے اپنے تناظر میں پڑھتے ہیں، اور اُن انجنز کو سزا دیتا ہے جو ایسی پراعتماد تشخیص تک پہنچ جائیں جہاں ایسی تشخیص کی کوئی گنجائش نہیں۔.

ڈاکٹر تھامس کلائن کے طور پر، میں نے کیس پینل اس لیے منتخب کیا کیونکہ یہی وہ پیٹرنز ہیں جو میں سب سے زیادہ لیبارٹری میڈیسن اسسٹنٹس کو غلط کرتے ہوئے دیکھتا ہوں۔. مہنگی ناکامی کا طریقہ "کوئی نایاب بیماری چھوٹ جانا" نہیں ہے — بلکہ اُن مریضوں میں معمول کی پیتھالوجی گھڑ دینا ہے جن میں وہ موجود ہی نہیں ہوتی۔. ہماری طبی توثیق وسیع فریم ورک بیان کرتا ہے؛ یہ صفحہ V11 کی ابتدائی پروف آف کانسیپٹ اور V11 Second Update بیان کرتا ہے جس نے اسے 100,000 اینونیمائزڈ کیسز تک اسکیل کیا، جو 127 ممالک پر محیط ایک SQL-backed کلینیکل ریپوزٹری سے لیے گئے — وہی اسکورنگ روبریک، بائٹ بہ بائٹ، اور کوئی پوسٹ ہاک ٹیوننگ کی اجازت نہیں۔.

تازہ ترین ریفرنس رن — V11 Second Update (26 اپریل 2026)

26 اپریل 2026 کے V11 Second Update ریفرنس رن نے ایک کمپوزٹ اسکور تیار کیا: 99.80% اسی پری رجسٹرڈ روبریک کے مطابق جو V11 کی ابتدائی ریلیز میں استعمال ہوا تھا، اس کا جائزہ لیا گیا: 100,000 اینونیمائزڈ کیسز پر جو Kantesti SQL-backed کلینیکل ریپوزٹری سے لیے گئے اور 127 ممالک اور 75+ زبانوں پر محیط تھے۔ ہر کیس انجن کے بنیادی راستے (primary path) پر مکمل ہوا؛ ٹریپ کیس ہائپرڈایگنوسس فلیگ کی ایکٹیویشنز برقرار رہیں: 0 / 87,412. ۔ V11 کا اصل رن 23 اپریل 2026 کو 15 ہاتھ سے منتخب (hand-curated) کیسز پر مشتمل تھا (کمپوزٹ 99.12%) اور روبریک کو ویلیڈیٹ کیا؛ Second Update اسی روبریک کو بائٹ بہ بائٹ برقرار رکھتی ہے اور تشخیص کو آبادی کے پیمانے (population-scale) کے کوہورٹ تک بڑھاتی ہے۔.

Composite 99.80% 100,000 میں سے 100,000 کیسز نے اسکور کیا
1.000 Structural score
0.996 Clinical score
13.26 s Mean latency
0 / 87,412 Trap false-positives

composite فارمولا تین اجزاء کو ملا کر بنتا ہے: structural conformance سات لازمی رپورٹ سیکشنز اور سولہ لازمی ذیلی سیکشنز کے ساتھ،, clinical accuracy جسے keyword recall کے ساتھ scoring-system recall اور probability-distribution validity check کے ذریعے ناپا گیا، اور response latency بنیادی راستے کی سروس لیول ٹارگٹ کے مقابلے میں۔ درست بریک ڈاؤن نیچے روبریک فارمولا میں دکھایا گیا ہے — Second Update کے لیے ان میں سے کوئی وزن یا سب روبریک تبدیل نہیں کیے گئے۔.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

ہیڈ روم کے باقی 0.20 فیصد پوائنٹس تقریباً مکمل طور پر کلینیکل سب اسکور میں تقسیم ہوتے ہیں — کیسز کا ایک چھوٹا حصہ (زیادہ تر Hepatology اور Rheumatology میں) میں ایک متوقع اسکورنگ سسٹم کی ورڈ انجن کی تشریح میں موجود نہیں تھا، حالانکہ تشخیصی مواد درست تھا۔. 100,000 کیسز کے Second-Update کوہورٹ میں کوئی بھی کیس خود تشخیص سے محروم نہیں رہا۔. لیٹنسی V11 کی ابتدائی ریلیز میں اوسط 20.17 s سے Second Update میں 13.26 s تک بہتر ہوئی، جو دونوں رنز کے درمیان پروڈکشن انجن آپٹیمائزیشنز کی عکاسی کرتی ہے؛ روبریک، اسکورنگ کوڈ، اور API اینڈ پوائنٹ میں کوئی تبدیلی نہیں۔.

فی ملک کمپوزٹ اسکور 0.9971 (بھارت) سے 0.9985 (سوئٹزرلینڈ) تک تھے، 30 سب سے زیادہ نمائندگی رکھنے والے ممالک میں۔ باقی 97 اضافی ممالک کی لمبی دم (≈7,300 کیسز مجموعی طور پر) میں کوئی منظم (systematic) بگاڑ نظر نہیں آیا۔ کیسز کی تعداد کے لحاظ سے نمایاں ترین شراکت کنندگان: ریاستہائے متحدہ (10,500)، برازیل (9,500)، اسپین (9,000)، اٹلی (8,000)، جرمنی (7,800)، فرانس (7,400)، پرتگال (5,800)، Türkiye (3,400)، برطانیہ (2,900)، اور میکسیکو (2,500) تھے۔.

15 کیسز سے 100,000 تک: 127 ممالک میں کوہورٹ کی ارتقائی تبدیلی

اصل V11 کیس پینل میں سات خصوصیات شامل تھیں — hematology، endocrinology، metabolic medicine، hepatology، nephrology، cardiology، rheumatology — نیز دو وقف شدہ ہائپرڈایگنوسس ٹریپ کیسز؛ ہر کیس ایک اینونیمائزڈ حقیقی مریض ریکارڈ تھا جو Kantesti کلینیکل ڈیٹا ریپوزٹری سے تحریری باخبر رضامندی (written informed consent) کے تحت لیا گیا۔ V11 Second Update تشخیص کو 127 ممالک میں 100,000 اینونیمائزڈ کیسز تک بڑھاتی ہے, ، جو آٹھ خصوصیات میں تقسیم ہیں (اصل سات کے علاوہ ایک وقف شدہ internal-medicine بکٹ جو ٹریپ سب سیٹ کو جذب کرتا ہے)۔ وہی اسکورنگ روبریک دونوں رنز میں بائٹ بہ بائٹ لاگو کیا گیا۔.

V11 ابتدائی کیس-پینل ڈیزائن — سات میڈیکل اسپیشلٹیز میں پندرہ گمنام خون کے ٹیسٹ کیسز، علاوہ ازیں دو ہائپرڈایگنوسس ٹریپ کیسز؛ اسی روبرک نے V11 Second Update میں 100,000 کیسز پر 99.80% composite اسکور حاصل کیا
تصویر 2: V11 ابتدائی کیس پینل ڈیزائن hematology، endocrinology، metabolic medicine، hepatology، nephrology، cardiology، rheumatology کے ساتھ ساتھ دو ٹریپ کیسز — Gilbert's syndrome اور مکمل طور پر نارمل اسکریننگ پینل — پر مشتمل تھا۔ Second Update اسی روبریک کو بائٹ بہ بائٹ برقرار رکھتی ہے جبکہ کوہورٹ کو 100,000 کیسز تک بڑھاتی ہے جو Kantesti SQL ریپوزٹری سے لیے گئے۔.

ڈی-آئیڈینٹیفیکیشن Safe Harbor طریقہ کے تحت کی گئی: تمام براہ راست شناخت کنندہ (direct identifiers) ہٹا دیے گئے یا تبدیل کیے گئے، اور ہر ریکارڈ کو ایک بینچ مارک-اندرونی کیس کوڈ دیا گیا جس کی شکل BT-NNN-LABEL (V11 ابتدائی) تھی یا Second Update کے لیے ایک مستحکم اینونیمائزڈ case_uid ۔ پروسیسنگ V11 ابتدائی ریلیز کے مطابق کی گئی — 15 ہاتھ سے منتخب کیسز GDPR آرٹیکل 9(2)(j) مناسب حفاظتی اقدامات کے ساتھ سائنسی تحقیق کے لیے، اور برطانیہ کے مساوی UK GDPR کے دفعات کے مطابق۔ شائع شدہ harness، تکنیکی رپورٹ، یا جاری کردہ ڈیٹاسیٹس میں کہیں بھی کوئی ذاتی طور پر شناخت کرنے والی معلومات موجود نہیں۔.

V11 initial release — 15 hand-curated cases

اصل V11 کیس پینل کو ڈاکٹر تھامس کلائن نے ہاتھ سے منتخب کر کے تیار کیا تھا تاکہ وہ تشخیصی پیٹرنز کی مشق کرائی جا سکے جنہیں لیبارٹری میڈیسن اسسٹنٹس سب سے زیادہ غلط سمجھتے ہیں۔ پندرہ میں سے ہر کیس کو کسی مخصوص تشخیصی خصوصیت کے لیے منتخب کیا گیا تھا، جو ذیل میں درج ہے۔.

Hematology (3) BT-001، BT-006، BT-007 آئرن کی کمی سے ہونے والی انیمیا · B12 کی کمی · بیٹا-تھیلیسیمیا مائنر
Endocrinology (3) BT-002، BT-008، BT-012 ہاشموٹو کی تھائرائیڈائٹس · انسولین ریزسٹنس کے ساتھ PCOS · شدید وٹامن ڈی کی کمی
Metabolic (2) BT-003، BT-013 میٹابولک سنڈروم کے ساتھ T2DM · گاؤٹ کے خطرے کے ساتھ ہائپر یوریکیمیا
Hepatology (2) BT-004، BT-009 NAFLD / NASH · شدید وائرل ہیپاٹائٹس
Nephrology · Cardiology · Rheumatology (3) BT-005، BT-010، BT-011 CKD اسٹیج 3 · ایتھروجینک ڈس لیپیڈیمیا · سسٹمک لیوپس اری تھیماٹوسس
Trap cases (2) BT-014، BT-015 Gilbert's syndrome (isolated indirect hyperbilirubinaemia) · مکمل طور پر نارمل بالغ اسکرین

یہ مخصوص تقسیم کیوں

ہیمٹولوجی کو تین کیسز ملتے ہیں کیونکہ مائیکروسائٹک ڈفرینشل اور میکروسائٹک ڈفرینشل حقیقی دنیا کی لیبارٹری پریکٹس میں سب سے زیادہ حجم والے “ٹرَپس” ہیں۔ اینڈوکرینولوجی کو تین کیسز ملتے ہیں کیونکہ ہاشموٹو، PCOS، اور وٹامن ڈی کی کمی کی پیشکشیں مختلف تشخیصی شکلیں اختیار کرتی ہیں (آٹو اینٹی باڈی سے چلنے والی، ہارمون ریشو سے چلنے والی، اور ایک ہی مارکر سے چلنے والی)۔ سنگل کیس والی خصوصیات اب بھی معنی رکھتی ہیں کیونکہ ہر CKD، ASCVD رسک، اور SLE کا اپنا اسکورنگ سسٹم ہے جسے انجن کو استعمال کرنا چاہیے (بالترتیب KDIGO اسٹیجنگ، ASCVD 10 سالہ رسک، اور 2019 EULAR/ACR SLE معیار)۔.

V11 دوسرا اپڈیٹ — 127 ممالک میں 100,000 گمنام کیسز

دوسرا اپڈیٹ اصل V11 کے ہارڈ کوڈڈ 15-کیس Python literal کو Kantesti کلینیکل ریپوزٹری کے خلاف ایک پیرامیٹرائزڈ، صرفِ پڑھنے والی SQL کوئری سے بدل دیتا ہے (anonymised_blood_panels)۔ کوئری پر یہ فلٹر لگتا ہے: consent_research = 1 AND released_for_benchmark = 1 اور شفافیت کے لیے ہر بینچمارک رن کے اوپر پرنٹ کی جاتی ہے۔ خصوصیت کے لحاظ سے کوہورٹ کی تقسیم نیچے دکھائی گئی ہے۔.

اینڈو کرائنولوجی 23,900 کیسز (23.9%) تھائرائیڈ، PCOS، وٹامن ڈی، گوناڈل ایکسس، پٹیوٹری
میٹابولک میڈیسن 21,900 کیسز (21.9%) T2DM، میٹابولک سنڈروم، لیپڈ پینلز، ہائپر یوریکیمیا
ہیماتولوجی 15,400 کیسز (15.4%) مائیکروسائٹک اور میکروسائٹک ڈیفرینشلز، B12/فولیٹ، آئرن اسٹڈیز
ہیپاٹولوجی 12,400 کیسز (12.4%) NAFLD/NASH، وائرل ہیپاٹائٹس، FIB-4، کولیسٹیسس
اندرونی طب (بشمول ٹریپ سب سیٹ) 9,000 کیسز (9.0%) مخلوط پیشکشیں اور 8,723 وقف شدہ ہائپرڈیگنوسس ٹریپ کیسز
امراضِ قلب (Cardiology) 7,500 کیسز (7.5%) ASCVD رسک، ایتھروجینک ڈس لپڈیمیا، hs-CRP
ریمیٹولوجی 6,000 کیسز (6.0%) SLE، RA، ویسکولائٹس، آٹو اینٹی باڈی پینلز (EULAR/ACR معیار)
Nephrology 4,000 کیسز (4.0%) CKD اسٹیجنگ (KDIGO)، eGFR کے رجحانات، الیکٹرولائٹ ڈسٹربنس

جغرافیائی تقسیم — سرفہرست 10 ممالک

یہ کوہورٹ 127 ممالک پر محیط ہے (ISO 3166-1 alpha-2)۔ یورپ کا حصہ 57.7%، امریکا 25.4%، ایشیا پیسیفک 6.2%، مشرقِ وسطیٰ/افریقہ کے نامزد اندراجات 3.4%، اور 97 اضافی ممالک کی ایک طویل دم مجموعی طور پر تقریباً 7.3% بنتی ہے۔ دس بڑے ترین شراکت کنندگان یہ ہیں: ریاستہائے متحدہ (10,500)، برازیل (9,500)، اسپین (9,000)، اٹلی (8,000)، جرمنی (7,800)، فرانس (7,400)، پرتگال (5,800)، Türkiye (3,400)، برطانیہ (2,900)، اور میکسیکو (2,500)۔ فی ملک جامع اسکور 0.9971 (بھارت) سے 0.9985 (سوئٹزرلینڈ) تک تھے۔.

پہلے سے رجسٹرڈ روبریک کی وضاحت

پری رجسٹریشن اس بینچمارک میں واحد سب سے اہم طریقہ کار (methodological) انتخاب ہے۔ ہر متوقع تشخیص، ہر کلینیکل اسکورنگ سسٹم، اور ہر رپورٹ سیکشن کو سورس کوڈ میں کمٹ کیا گیا اس سے پہلے کہ انجن کو invoke کیا جائے. ۔ اس لیے انجن کو خوش کرنے کے لیے روبریک کی پوسٹ ہاک ٹیوننگ ممکن نہیں۔.

جامع اسکور (composite score) تین اجزاء پر مشتمل ہے۔ ساختی (structural) جزو 35 فیصد حصہ ڈالتا ہے اور یہ ناپتا ہے کہ آیا انجن نے سات لازمی رپورٹ سیکشنز (ہیڈر، سمری، کلیدی نتائج، ڈفرینشل، اسکورنگ سسٹمز، سفارشات، فالو اپ) اور ان کے اندر موجود سولہ لازمی سب سیکشنز واپس کیے یا نہیں۔ سیکشن کی موجودگی ساختی حساب میں 40 فیصد وزن رکھتی ہے اور سب سیکشن کی موجودگی 60 فیصد وزن رکھتی ہے۔.

دی کلینیکل (clinical) جزو 55 فیصد حصہ ڈالتا ہے اور تین چیزوں کو ملا کر بنتا ہے: تشخیص-کلیدی لفظ یادداشت (کلینیکل سب اسکور کا 70 فیصد)، اسکورنگ سسٹم یادداشت (20 فیصد — کیا انجن متعلقہ صورتوں میں Mentzer، FIB-4، HOMA-IR، ASCVD رسک، KDIGO اسٹیجنگ، EULAR/ACR معیار کا حساب لگاتا ہے)، اور احتمال-جمع (probability-sum) کی درستگی جانچ (10 فیصد — ڈفرینشل احتمالات کا مجموعہ [90, 110] وقفے کے اندر ہونا چاہیے)۔ ٹریپ کیسز کے لیے، زیادہ تشخیص (hyperdiagnosis) کی واضح پینلٹی زیادہ سے زیادہ 0.30 تک منہا کی جاتی ہے، جو فی گھڑت پیتھالوجی فلیگ 0.10 کے حساب سے نکالی جاتی ہے، اور زیادہ سے زیادہ تین فلیگز تک محدود ہے۔.

دی لیٹنسی (latency) جزو 10 فیصد حصہ ڈالتا ہے۔ 20 سیکنڈ سے کم میں جواب دینے پر پورا 0.10 ملتا ہے، 40 سیکنڈ سے کم میں جواب پر 0.05 ملتا ہے، اور اس سے سست کسی بھی چیز پر صفر ملتا ہے۔ 20 سیکنڈ کا ہدف پروڈکشن پرائمری-پاتھ سروس لیول آبجیکٹو کو ظاہر کرتا ہے؛ 40 سیکنڈ کی حد فیز 2 کے لیے بھاری انجن invocations کی بیک اپ بجٹ کو ظاہر کرتی ہے۔.

MIT-licensed Kantesti بینچمارک ہارنس کے چلنے اور فی-کیس اسکورز خارج کرنے کا ٹرمینل اسکرین شاٹ — وہی ہارنس، اب SQL-driven، نے V11 Second Update کے 100,000-کیس رن میں 99.80% composite اسکور پیدا کیا
تصویر 3: عملدرآمد میں موجود ہارنس — وہی انجن جس نے تیار کیا 99.80% جامع اسکور V11 Second Update کے 100,000 کیسز والے کوہورٹ پر۔ ہر کیس کو ایک A4 PDF میں رینڈر کیا جاتا ہے، پروڈکشن v11 اینڈ پوائنٹ پر پوسٹ کیا جاتا ہے، اور منجمد روبریک کے مقابلے میں اسکور کیا جاتا ہے۔ Second Update نے ایک پیرامیٹرائزڈ SQL کیس لوڈر شامل کیا؛ خام انجن جوابات کا ایک اسٹریٹیفائیڈ رینڈم نمونہ (n = 201) مجموعی اسکور کارڈ کے ساتھ محفوظ کیا جاتا ہے۔.

پری رجسٹریشن کیا روکتی ہے

فرسٹ پارٹی بینچمارکس اپنے نمبرز کو پوسٹ ہاک روبریک ٹیوننگ کے ذریعے بڑھا چڑھا کر دکھانے کے لیے بدنام ہیں۔ پیٹرن تقریباً ہمیشہ ایک جیسا ہوتا ہے: ٹیم انجن چلاتی ہے، دیکھتی ہے کہ کہاں کم کارکردگی ہے، پھر خاموشی سے روبریک کو ایڈجسٹ کر دیتی ہے تاکہ کم کارکردگی والے حصے کم وزن کے ساتھ شمار ہوں۔ پہلی انجن کال سے پہلے روبریک کو سورس کوڈ میں کمٹ کر کے اور ہارنس کو MIT لائسنس کے تحت پبلش کر کے، یہ ایڈجسٹمنٹ ورژن کنٹرول میں نظر آ جاتی ہے۔ کوئی بھی ریپوزٹری کلون کر سکتا ہے، روبریک کے مصنفین کی تاریخیں چیک کر سکتا ہے، اور یہ تصدیق کر سکتا ہے کہ انجن کے نتائج کو اسکورنگ کو شکل دینے کے لیے استعمال نہیں کیا گیا۔.

ہائپرڈیگنوسس ٹریپ کیسز — کیوں زیادہ کال کرنا اصل ناکامی کا طریقہ ہے

نارمل اسکرینز پر پیتھالوجی کو بے حد زیادہ کال کرنا کنزیومر-فرنٹڈ میڈیکل اسسٹنٹس میں ایک دستاویزی ناکامی کا طریقہ (failure mode) ہے۔ اس کے بعد کے اخراجات میں غیر ضروری تحقیقات، مریض کی بے چینی، اور iatrogenic workup شامل ہیں۔ اس بینچمارک کے دو ٹریپ کیسز اس ناکامی کے طریقے کو واضح اور اسکور ایبل بنانے کے لیے ڈیزائن کیے گئے ہیں۔.

ایک naive AI کے گلبرٹ کے سنڈروم پینل پر ہیپاٹائٹس گھڑنے کے مقابلے میں Kantesti انجن کا درست طور پر بے ضرر UGT1A1 پولیمورفزم کی شناخت کرنا — وہی طریقہ کار جس نے V11 Second Update 99.80% بینچمارک میں 87,412 ٹریپ-فلیگ مواقع پر zero false-positives تک اسکیل کیا
تصویر 4: V11 ابتدائی ریلیز کی ٹریپ-کیس ڈیزائن — ایسا انجن جو گلبرٹ کے سنڈروم کو پراعتماد انداز میں ہیپاٹائٹس کہہ دے، یا جو مکمل نارمل اسکرین پر سرحدی نوعیت کی پیتھالوجی تیار کرے، اسے کلینیکل لگنے کے لیے انعام دینے کے بجائے سزا دی جاتی ہے۔ یہ طریقہ کار V11 Second Update کے 100,000 کیسز کے رن میں 0 / 87,412 false-positives تک اسکیل ہوا جس نے 99.80% جامع اسکور تیار کیا۔.

🟡 ٹریپ 1 — BT-014-GILBERT

پیشکش (Presentation)۔. ایک 24 سالہ مرد جس کا کل بلیروبن 2.4 mg/dL ہے۔ ڈائریکٹ حصہ نارمل ہے، ٹرانسامینیز اور الکلائن فاسفیٹیز اپنی ریفرنس رینجز کے اندر ہیں، ریٹیکولوسائٹس غیر نمایاں ہیں، اور ہاپٹوگلوبن اور LDH ہیمولائسز کو خارج کرتے ہیں۔.

درست تشریح (Correct interpretation)۔. گلبرٹ کا سنڈروم — ایک benign UGT1A1 پولیمورفزم۔ تشریح میں ہیپاٹائٹس، سروسس، ہیمولائٹک اینیمیا، یا بائلری آبسٹرکشن کو invoke نہیں کرنا چاہیے۔.

V11 نتیجہ۔. جامع 1.000۔ چھ میں سے کوئی بھی مانیٹر کیے گئے اوور-ڈائگنوسس فلیگ فعال تشخیص کے طور پر ظاہر نہیں ہوئے۔.

🟡 ٹریپ 2 — BT-015-HEALTHY

پیشکش (Presentation)۔. ایک 35 سالہ خاتون جس کا پندرہ پیرامیٹرز پر مشتمل معمول کا روٹین اسکریننگ پینل ہے۔ ہر اینالائٹ اپنی ریفرنس رینج کے اندر آرام سے موجود ہے۔.

درست تشریح (Correct interpretation)۔. اطمینان اور طرزِ زندگی کی دیکھ بھال۔ تشریح کو ایسا کوئی حدبندی (borderline) والا مرض گھڑنا نہیں چاہیے تاکہ اسے طبی طور پر مفید دکھایا جا سکے۔.

V11 نتیجہ۔. جامع اسکور 1.000۔ سات میں سے کوئی بھی مانیٹر کی گئی اوور-ڈائیگنوسس (over-diagnosis) کی وارننگ—ذیابیطس، خون کی کمی (anaemia)، ہائپوتھائرائیڈزم، ڈس لپیڈیمیا، ہیپاٹائٹس، گردے کی بیماری، کمی (deficiency)—فعال تشخیص کے طور پر سامنے نہیں آئی۔.

دونوں ٹریپس (traps) میں تیرہ مانیٹر کی گئی ہائپر-ڈائیگنوسس (hyperdiagnosis) وارننگز چیک کی گئیں۔ کوئی بھی ٹرگر نہیں ہوئی۔ یہ وہ نتیجہ ہے جو کسی بھی معالج کے لیے سب سے زیادہ اہمیت رکھتا ہے جو AI انجن کو ٹرائیج یا پری-کنسلٹیشن ٹول کے طور پر استعمال کرنے پر غور کر رہا ہو: نظام نے جہاں کوئی بیماری موجود نہیں تھی وہاں بیماری ایجاد نہیں کی.

مینٹزر انڈیکس: آئرن کی کمی کو تھیلیسیمیا ٹریٹ سے الگ کرنا

ایک اور اعلیٰ قدر والا نتیجہ کیس BT-001 (آئرن ڈیفیشنسی اینیمیا) اور کیس BT-007 (بیٹا تھیلیسیمیا مائنر) کی جوڑی سے متعلق ہے۔ دونوں میں مائیکروسائٹوسس (microcytosis) موجود ہوتا ہے اور یہ نادان (naive) کلاسیفائرز کے لیے ایک معروف رکاوٹ ہے۔ مینٹزر انڈیکس، جو MCV کو RBC کی تعداد سے تقسیم کر کے نکالا جاتا ہے، آئرن ڈیفیشنسی میں 13 سے زیادہ اور تھیلیسیمیا ٹریٹ میں 13 سے کم ہوتا ہے۔.

BT-001 میں مریضہ 34 سالہ خاتون تھیں جن کا ہیموگلوبن 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فیرِٹِن 6 ng/mL، اور TIBC بلند تھا۔ تقریباً 17.7 کا مینٹزر انڈیکس واضح (absolute) آئرن ڈیفیشنسی کی تائید کرتا ہے۔ BT-007 میں مریض 28 سالہ مرد تھے جن میں مائیکروسائٹوسس (MCV 65.8 fL) تو تھا مگر RBC کی تعداد 6.2 زیادہ تھی، RDW نارمل تھا، فیرِٹِن نارمل تھا، اور HbA2 5.6 فیصد تھا۔ تقریباً 10.6 کا مینٹزر انڈیکس تھیلیسیمیا ٹریٹ کی طرف اشارہ کرتا ہے، اور بلند HbA2 بیٹا تھیلیسیمیا مائنر کی تصدیق کرتا ہے۔.

آئرن ڈیفیشنسی اینیمیا مینٹزر > 13 فیرِٹِن کم، TSAT کم، TIBC زیادہ، RDW بلند
بیٹا تھیلیسیمیا ٹریٹ مینٹزر < 13 فیرِٹِن نارمل، RDW نارمل، HbA2 بلند (>3.5%)، RBC کی تعداد زیادہ

دونوں کیسز کا اسکور 1.000 تھا۔ انجن نے دونوں تشریحات میں مینٹزر انڈیکس کو واضح طور پر استعمال کیا اور ہر بار درست تشخیص واپس کی۔. یہ پورے بینچمارک میں واحد سب سے زیادہ طبی طور پر اطمینان بخش نتیجہ ہے, ، کیونکہ تھیلیسیمیا ٹریٹ کو آئرن ڈیفیشنسی کے طور پر غلط درجہ بندی کرنے سے آئرن کی غیر مناسب سپلیمنٹیشن ہو جاتی ہے اور فیملی اسکریننگ کے مواقع چھوٹ جاتے ہیں، جبکہ آئرن ڈیفیشنسی کو تھیلیسیمیا کے طور پر غلط درجہ بندی کرنے سے سادہ متبادل تھراپی میں تاخیر ہوتی ہے۔ ہماری فیریٹین رینج گائیڈ وسیع تر تفریقی (differential) سیاق کی وضاحت کرتی ہے۔.

V11 ابتدائی ریفرنس رن سے فی کیس نتائج (23 اپریل 2026)

15 کیسز کے پروف آف کانسیپٹ کوہورٹ پر اصل V11 ریفرنس رن بطور طریقہ کار کی بنیاد کام کرتا ہے Second Update کی: نیچے ہر فی کیس تفصیل دکھاتی ہے کہ روبریک حقیقی انجن جواب کو کیسے ہینڈل کرتا ہے۔ پندرہ میں سے بارہ کیسز نے بنیادی پاتھ پر 1.000 کی ceiling جامع اسکور حاصل کی؛ تین کیسز کو Phase 2 کے فال بیک کے ذریعے سروس کیا گیا، جس سے 0.05 latency بونس ضائع ہوا جبکہ تمام کلینیکل اور ساختی مواد محفوظ رہا۔ ایک کیس میں ایک واحد لازمی سب سیکشن غائب تھا؛ ایک کیس نے احتمال کی تقسیم کا مجموعہ معمولی طور پر کم واپس کیا۔.

کیس آئی ڈی اسپیشلٹی Composite لیٹنسی پاتھ
BT-001-IDAہیماتولوجی1.00017.8 sprimary
BT-006-B12ہیماتولوجی1.00018.4 سیکنڈprimary
BT-007-تھالاسیمیاہیماتولوجی1.00017.0 سیکنڈprimary
BT-002-ہیشاینڈو کرائنولوجی0.95037.0 سیکنڈفال بیک
BT-008-PCOSاینڈو کرائنولوجی0.98718.6 سیکنڈprimary
BT-003-T2DMمیٹابولک1.00019.1 سیکنڈprimary
BT-013-گاؤٹمیٹابولک1.00019.4 سیکنڈprimary
BT-004-NAFLDہیپاٹولوجی1.00019.6 سیکنڈprimary
BT-009-وائرل ہیپاٹائٹسہیپاٹولوجی0.95023.4 سیکنڈفال بیک
BT-014-گیلبرٹٹریپ1.00018.9 سیکنڈprimary
BT-005-CKDNephrology1.00017.4 سیکنڈprimary
BT-010-ASCVDامراضِ قلب (Cardiology)1.00019.7 سیکنڈprimary
BT-011-SLEریمیٹولوجی0.98118.2 سیکنڈprimary
BT-012-VITDاینڈو کرائنولوجی1.00019.3 سیکنڈprimary
BT-015-HEALTHYٹریپ1.00018.7 سیکنڈفال بیک

PCOS کا کیس (BT-008) نے جواب کی ساخت میں ایک لازمی ذیلی سیکشن کھو دیا — سولہ میں سے پندرہ — یعنی سولہ میں سے سولہ کے بجائے پندرہ میں سے سولہ — جس سے ساختی اسکور 1.000 سے کم ہو کر 0.963 رہ گیا۔ SLE کا کیس (BT-011) نے ایک معمولی طور پر کم شدہ probability-distribution sum واپس کیا جس سے کلینیکل اسکور 0.965 تک گر گیا، جبکہ ہر تشخیصی کلیدی لفظ اور اسکورنگ سسٹم محفوظ رہا۔ دونوں ذیلی-درست کیسز میں کوئی بھی درست تشخیص چھوٹ نہیں گئی۔.

V11 Second Update مجموعی — 100,000 کیسز

آبادی کے پیمانے پر انفرادی کیس کی قطاریں انسانی طور پر قابلِ پڑھائی نہیں ہوتیں، اس لیے Second Update 100,000 قطاروں والی ٹیبل کے بجائے مجموعی میٹرکس رپورٹ کرتا ہے۔ مرکزی مجموعی اسکور نیچے دکھایا گیا ہے؛ فی-خصوصیت اور فی-ملک بریک ڈاؤن تکنیکی رپورٹ اور Figshare ڈپازٹ میں شائع کیے گئے ہیں۔ ایک اسٹریٹیفائیڈ رینڈم نمونہ n = 201 خام انجن جوابات (deterministic seed 20260426) معائنہ کے لیے GitHub results/ ڈائریکٹری میں شائع کیے جاتے ہیں۔.

جامع اسکور V11 ابتدائی: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 100,000 کیسز والے کوہورٹ میں
ساختی اسکور (اوسط) V11 ابتدائی: 0.998 → Second Update: 1.000 آبادی کے پیمانے پر کامل ساختی مطابقت
کلینیکل اسکور (اوسط) V11 ابتدائی: 0.998 → Second Update: 0.996 −0.002؛ کوئی کیس خود تشخیص سے محروم نہیں ہوا
تاخیر — اوسط (حد) V11 ابتدائی: 20.17 سیکنڈ (17.0–37.0 سیکنڈ) → دوسرا اپڈیٹ: 13.26 سیکنڈ (9.0–16.94 سیکنڈ) رنز کے درمیان پروڈکشن انجن کی اصلاحات
انجن پاتھ = بنیادی V11 ابتدائی: 12 / 15 → دوسرا اپڈیٹ: 100,000 / 100,000 رن کے دوران کسی بھی مرحلے پر فیز 2 کی بیک اپ (fallback) کی ضرورت نہیں پڑی
ٹریپ-سب سیٹ ہائپرڈیگنوسس فلیگز V11 ابتدائی: 0 / 13 → دوسرا اپڈیٹ: 0 / 87,412 آبادیاتی پیمانے پر صفر غلط مثبت (8,723 ٹریپ کیسز کی نگرانی کی گئی)

ہیڈ لائن اسکور ہمیں کیا نہیں بتاتا

اس مخصوص پہلے سے رجسٹرڈ روبریک کے تحت 99.80 فیصد کا ایک جامع اسکور، 127 ممالک پر محیط 100,000 کیسز کے ایک گمنام کوہورٹ میں، تقریباً حدِ کارکردگی (near-ceiling) کی کارکردگی کو ظاہر کرتا ہے — مگر اس کی درست سیاق و سباق کے ساتھ احتیاط سے وضاحت ضروری ہے۔ یہ نتیجہ انجن کے رویّے کو اس روبریک کے مقابلے میں بیان کرتا ہے جس کے لیے ہم نے V11 کے سورس کوڈ میں عہد کیا تھا؛ یہ جنگل میں موجود ہر خون کے ٹیسٹ پینل پر انجن کی درستگی کے بارے میں ایک عالمگیر دعویٰ نہیں ہے۔.

اسکور یہ بتاتا ہے کہ انجن نے اس تشخیص کے لیے منتخب کردہ تشخیصی پیٹرنز کو آبادیاتی پیمانے کے کوہورٹ میں درست طریقے سے ہینڈل کیا، ایک ایسی میتھڈولوجی کے ساتھ جو شائع شدہ اور قابلِ تکرار ہے۔ یہ نہیں کہتا کہ انجن جنگل میں موجود ہر خون کے ٹیسٹ پینل پر درست ہے۔ یہ یہ بھی نہیں کہتا کہ انجن کو کلینیشن کے فیصلے کی جگہ لینا چاہیے۔ اور یہ یہ بھی نہیں کہتا کہ انجن متبادل اے آئی سسٹمز سے بہتر ہے — دیگر انجنوں کے مقابلے میں تقابلی تجزیے جان بوجھ کر اس رپورٹ کے دائرۂ کار سے باہر رکھے گئے تھے۔.

اسکور جو چیز قائم کرتا ہے وہ ایک بنیاد (baseline) ہے۔ چونکہ روبریک اور ہارنس عوامی ہیں، انجن کے مستقبل کے ورژنز کو اسی روبریک کے مقابلے میں جانچا جا سکتا ہے — V11 ابتدائی 15 کیسز پر، دوسرا اپڈیٹ 100,000 کیسز کے کوہورٹ پر، یا کسی بھی بعد کی توسیع پر — اور شائع شدہ اسکور اور کسی بھی بعد کے رن کے درمیان فرق خود قابلِ پیمائش ہے۔ پہلے سے رجسٹریشن کی یہی اہمیت ہے: یہ کارکردگی کے دعووں کو قابلِ جانچ دعووں میں بدل دیتا ہے.

10 منٹ میں اس بینچ مارک کو کیسے دوبارہ بنایا جائے

تکرار کے لیے صرف ایک Kantesti API credential pair اور Python 3.10 یا بعد کا ماحول درکار ہے جس میں requests اور reportlab لائبریریز انسٹال ہوں۔ مکمل harness ایک ہی self-contained Python ماڈیول ہے جو MIT لائسنس کے تحت جاری کیا گیا ہے۔.

reproducibility نیٹ ورک ڈایاگرام جو V11 Second Update بینچمارک (99.80% composite، 100,000 کیسز، 127 ممالک) کو Figshare، ResearchGate، Academia.edu اور GitHub پر Figshare DOI کو canonical anchor کے طور پر دکھاتے ہوئے mirrored کرتا ہے
تصویر 5: V11 دوسرا اپڈیٹ بینچ مارک — 127 ممالک میں 100,000 کیسز پر 99.80% جامع اسکور — چار تحقیقی پلیٹ فارمز میں یکساں طور پر منعکس ہے۔ Figshare DOI معیاری علمی شناخت کنندہ (canonical scholarly identifier) ہے؛ ResearchGate (publication 404175463)، Academia.edu (paper 165956808)، اور GitHub متوازی کاپیاں ہوسٹ کرتے ہیں جن میں SQL-backed ہارنس، خام جوابات کا stratified random sample، اور فی ملک/فی اسپیشلٹی اسکور کارڈز شامل ہیں۔.

تازہ رن کے لیے چار مراحل

پہلا۔. ریپوزٹری کلون کریں: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. دوسرا۔. requirements.txt کے ساتھ ڈپینڈنسیز انسٹال کریں pip install -r requirements.txt (Second Update اضافہ کرتا ہے mysql-connector-python ≥ 8.0 SQL کیس لوڈر کے لیے)۔. تین۔. سیٹ کریں KANTESTI_USERNAME اور KANTESTI_PASSWORD انجن API کے لیے environment variables کے طور پر۔ Second Update SQL کیس لوڈر کے لیے، مزید یہ بھی سیٹ کریں KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، اور KANTESTI_DB_PASSWORD — لوڈر ایک صرفِ پڑھنے (read-only) کردار کے ذریعے کنیکٹ ہوتا ہے (bench_reader) جسے شناختی (identifying) ٹیبلز پر کوئی مراعات حاصل نہیں۔. چار۔. چلائیں python benchmark_bloodtest.py --limit 100000 مکمل Second-Update رن کے لیے، یا python benchmark_bloodtest.py --limit 1000 تیز تکرار (quick iteration) کے لیے۔ آؤٹس پٹس میں جمع ہوتے ہیں ./benchmark_results/: ایک CSV اسکور کارڈ جس میں فی ملک اور فی اسپیشلٹی کالمز ہوں، ایک JSON مجموعہ (aggregate)، ایک stratified-random خام-response نمونہ، اور ایک Markdown رپورٹ۔.

23 اپریل 2026 (V11 ابتدائی، 15 کیسز) اور 26 اپریل 2026 (V11 Second Update، 100,000 کیسز) کے ریفرنس رنز کو محفوظ رکھا گیا ہے results/ ریپوزٹری کی ڈائریکٹری میں۔ نیا رن ایک نیا ٹائم اسٹیمپڈ اسکور کارڈ تیار کرے گا جبکہ ریفرنس رنز کو بغیر چھیڑے چھوڑ دے گا۔ اگر آپ کے رن سے معنی خیز طور پر مختلف نتیجہ نکلے تو براہِ کرم GitHub پر ایک issue کھولیں جس میں رن ٹائم اسٹیمپ اور response metadata میں واپس آنے والا engine ورژن شامل ہو۔.

حدود اور آئندہ کام

127 ممالک میں 100,000 کیسز کے باوجود، چار حدود کو واضح طور پر تسلیم کرنا ضروری ہے: لانگ ٹیل ملکوں کی کم نمونہ گیری (undersampling)، سنگل شاٹ تشخیص (single-shot evaluation)، سنگل انجن دائرہ (single-engine scope)، اور سنگل سورس ڈیٹا کی اصل (single-source data origin)۔ ان میں سے ہر ایک کو فعال فالو اَپ کام میں حل کیا جا رہا ہے۔.

لانگ ٹیل ملکوں کی کوریج۔. Second Update میں 127 ممالک شامل ہیں، مگر تقسیم غیر متوازن ہے — ٹاپ 10 کنٹری بیوٹرز کیسز کا تقریباً 66.4% رکھتے ہیں، اور باقی 97 اضافی ممالک کی لانگ ٹیل مل کر تقریباً 7.3% (تقریباً 7,300 کیسز مجموعی طور پر، اوسطاً فی ملک ~75 کیسز) میں حصہ ڈالتی ہے۔ لہٰذا اس لانگ ٹیل میں فی ملک کمپوزٹس (composites) ان ہیڈ لائن اعداد و شمار کے مقابلے میں زیادہ شور (noise) رکھتے ہیں۔ آئندہ رنز میں ترجیحاً کم نمونہ والے ممالک سے بھرتی کی جائے گی تاکہ فی دائرہ اختیار (jurisdiction) کے تخمینے مضبوط کیے جا سکیں۔.

سنگل شاٹ تشخیص۔. کوہورٹ (cohort) کے ہر کیس کو ایک بار جانچا گیا۔ بڑے لینگویج ماڈلز کم sampling temperature پر بھی آؤٹ پٹ میں غیر معمولی (non-trivial) تغیر (variance) دکھاتے ہیں، اس لیے فی کیس پانچ تشخیصات کے ساتھ multi-run پروٹوکول اور رپورٹ کی گئی variance اگلا فطری قدم ہے — خاص طور پر trap-case سب سیٹ پر، جہاں sampling jitter کے تحت تسلسل (consistency) حفاظتی دعوے (safety claim) کا حصہ ہے۔.

سنگل انجن دائرہ کار۔. یہ رپورٹ ایک ہی انجن کی خصوصیت بیان کرتی ہے۔ متبادل AI سسٹمز کے خلاف تقابلی تجزیے یہاں دائرۂ کار (out of scope) میں نہیں؛ ہم انہیں اسی MIT-لائسنسڈ harness کے مقابل اسی طرح کی مناسب methodology کے ساتھ ایک علیحدہ آزاد مطالعے کے طور پر کر سکتے ہیں۔.

سنگل سورس ڈیٹا اصل۔. 100,000 کیسز ایک ہی کلینیکل ریپوزٹری سے لیے گئے حقیقی مریضوں کے گمنام ریکارڈز ہیں (Kantesti SQL-backed کلینیکل ڈیٹا ویئر ہاؤس)۔ یہ ایک curated پروڈکشن اسٹریم کی نمائندگی کرتے ہیں اور عالمی سطح پر آبادی کی نمائندہ (population-representative) بے ترتیب (random) ڈرا نہیں ہیں۔ تشخیص کو بیرونی طور پر حاصل کردہ multi-centre ڈیٹا تک بڑھانا روڈ میپ میں شامل ہے۔.

ان چار کے علاوہ، سب سے زیادہ اثر انداز ہونے والی منصوبہ بند توسیع ہر دائرہ اختیار کے لیے multi-language parity ہے۔ Kantesti AI Engine 75+ زبانوں میں صارفین کو سہولت دیتا ہے، اور زبان کے لحاظ سے stratified Second-Update سب کوہورٹس (ترکی، جرمن، ہسپانوی، فرانسیسی، اطالوی، پرتگالی، عربی، مینڈارن) چلانے سے انجن کی معاونت یافتہ زبانوں میں آؤٹ پٹ کوالٹی کو مقدار میں ناپا جائے گا۔ ہر زبان کے لحاظ سے کی گئی تجزیہ رپورٹ کو اپنے اپنے DOI اور harness برانچ کے ساتھ شائع کیا جائے گا۔.