Kantesti اے آئی بلڈ ٹیسٹ بینچ مارک

کلینیکل توثیق پہلے سے رجسٹرڈ بینچمارک V11 — اپریل 2026 MIT لائسنس یافتہ ہم مرتبہ کے ذریعے قابلِ تصدیق

صفر ہائپرڈیگنوسس غلط مثبت کے ساتھ پہلے سے رجسٹرڈ روبریک پر 99.12% کمپوزٹ اسکور

Kantesti اے آئی انجن کی گمنام خون کے ٹیسٹ کیسز پر ایک آزاد، پہلے سے رجسٹرڈ کلینیکل تشخیص۔ روبریک کو پہلی انجن کال سے پہلے سورس کوڈ میں منجمد کر دیا گیا تھا، تشخیصی ہارنس MIT لائسنس یافتہ ہے، اور ہر خام جواب شائع کیا جاتا ہے۔.

📖 ~14 منٹ 📅 23 اپریل 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 شائع شدہ: 23 اپریل 2026 🩺 طبی طور پر نظرثانی شدہ: 23 اپریل 2026 ✅ پہلے سے رجسٹرڈ روبریک 🔓 اوپن کوڈ اور ڈیٹا

یہ کلینیکل ویلیڈیشن اسٹڈی کی قیادت نے کی ڈاکٹر تھامس کلین، ایم ڈی, ، Kantesti اے آئی کے چیف میڈیکل آفیسر کے طور پر، تعاون کے ساتھ جولین امیرحان بلوت, ، Kantesti Ltd کے سینئر اے آئی انجینئر اور سی ای او۔ طریقۂ کار اور روبریک کا جائزہ لیا گیا کنٹیسٹی اے آئی میڈیکل ایڈوائزری بورڈ.

لیڈ آتھر اور کلینیکل اوور سائٹ

تھامس کلین، ایم ڈی

چیف میڈیکل آفیسر، کنٹیسٹی اے آئی

ڈاکٹر تھامس کلائن ایک بورڈ سے تصدیق شدہ کلینیکل ہیماٹولوجسٹ اور انٹرنسٹ ہیں جنہیں لیبارٹری میڈیسن میں 15 سال سے زائد کا تجربہ ہے۔ Kantesti اے آئی کے چیف میڈیکل آفیسر کے طور پر، انہوں نے اس بینچمارک کے لیے کیس پینل منتخب کیا، تمام تشخیصی درست حقائق (ground truths) کا جائزہ لیا، اور پہلی انجن انووکیشن سے پہلے پہلے سے رجسٹرڈ روبریک کی منظوری دی۔.

ORCID 0009-0009-1490-1321 ریسرچ گیٹ گوگل اسکالر

شریک مصنف اور نفاذ

جولین امیرحان بلوت

سینئر اے آئی انجینئر اور سی ای او، Kantesti Ltd

جولین ایمیرہان بُلوت Kantesti Ltd کے بانی اور سی ای او ہیں۔ انہوں نے تشخیصی ہارنس ڈیزائن اور نافذ کیا، API انٹیگریشن انجام دی، اپریل 2026 کا بینچمارک رن کیا، اور شماریاتی مجموعہ (statistical aggregation) تیار کیا۔ 2019 سے پلیٹ فارم کے بانی۔.

GitHub کنٹیسٹی کے بارے میں

⚡ مختصر خلاصہ V11 — 23 اپریل 2026

99.12% جامع اسکور سات طبی تخصصات میں 15 گمنام حقیقی مریضوں کے خون کے ٹیسٹ کیسز پر۔.
صفر ہائپرڈیگنوسس (غلط مثبت) دونوں ٹریپ کیسز پر (Gilbert's syndrome اور مکمل طور پر نارمل بالغ اسکرین)۔.
پہلے سے رجسٹرڈ روبریک پہلی انجن کال سے پہلے سورس کوڈ میں منجمد — بعد از وقت (post-hoc) ٹیوننگ ممکن نہیں تھی۔.
Mentzer index درست طور پر لاگو کیا گیا آئرن ڈیفیشنسی انیمیا کو بیٹا-تھیلیسیمیا مائنر سے فرق کرنے کے لیے۔.
صرف پروڈکشن اینڈ پوائنٹ — کوئی مراعات یافتہ روٹنگ نہیں؛ اسے بالکل اسی طرح جانچا گیا جیسے کوئی ادائیگی کرنے والا صارف رسائی حاصل کرتا۔.
اوسط لیٹنسی 20.17 سیکنڈ اینڈ ٹو اینڈ، 15 میں سے 12 کیسز 20 سیکنڈ کے بنیادی-پاتھ ہدف کے اندر۔.
MIT لائسنسڈ ہارنس GitHub پر جاری کیا گیا ہر خام انجن رسپانس کے ساتھ — آزادانہ دوبارہ پیداوار (reproduction) کی حمایت موجود ہے۔.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate، Academia.edu، GitHub پر آئینہ (mirrored) کیا گیا۔.

یہ بینچمارک کیوں موجود ہے اور یہ کیا جانچتا ہے

اے آئی کی مدد سے خون کے ٹیسٹ کی رپورٹ کی تشریح صارفین اور کلینیکل ورک فلو میں تیزی سے استعمال ہو رہی ہے، مگر لیبارٹری میڈیسن کے مطابق قابلِ تکرار (reproducible) تشخیصی فریم ورک اب بھی کم ہیں۔ اس سیاق میں سب سے اہم سوالات وہ نہیں جو عمومی میڈیکل سوال-جواب بینچ مارکس میں کور ہوتے ہیں: کیا جب mean corpuscular volume ایک جیسا ہو تو ایک انجن آئرن ڈیفیشنسی کو تھیلیسیمیا ٹریٹ سے الگ کر سکتا ہے، کیا وہ Gilbert's syndrome کو ہیپاٹائٹس کے طور پر اوور-ڈائیگنوز کرتا ہے، اور کیا وہ مکمل طور پر نارمل اسکریننگ پینل میں پیتھالوجی “بنا” دیتا ہے؟

ایک واحد خون کے ٹیسٹ کا پینل عموماً اتنا سگنل رکھتا ہے کہ کئی متبادل تشریحات کی گنجائش بن جائے، اور تشریح کرنے والے معالج کا کام یہ ہوتا ہے کہ وہ ان تشریحات کو ایک دوسرے کے مقابلے میں تولے، نہ کہ کسی درسی کتاب کے جواب کو محض نکال کر پیش کرے۔ جو انجن درسی کتاب والے کیسز میں اچھا کارکردگی دکھاتا ہے وہ پھر بھی اُن کیسز میں ناکام ہو سکتا ہے جو سب سے زیادہ اہم ہیں: تفریقِ تشخیص کے وہ جال، وہ بے ضرر مختلف حالتیں جو اکیلے میں خطرناک لگتی ہیں، اور وہ مکمل نارمل پینلز جو پراعتماد اسسٹنٹس کو پیتھالوجی “گھڑنے” پر آمادہ کر دیتے ہیں۔.

یہ بینچمارک انہی ناکامی کے طریقوں کے گرد بنایا گیا تھا۔ پندرہ میں سے ہر کیس کو کسی مخصوص تشخیصی خصوصیت کے لیے منتخب کیا گیا: آئرن کی کمی سے ہونے والی مائیکروسائٹوسس کو بیٹا تھیلیسیمیا ٹریٹ سے الگ رکھنا ضروری تھا، جس میں ایک جیسا mean corpuscular volume ہوتا ہے؛ جِلبرٹ سنڈروم کی پیشکش جہاں واحد غیر معمولی بات ایک الگ تھلگ indirect hyperbilirubinaemia ہے؛ اور ایک پندرہ-پیرامیٹر اسکریننگ پینل جس میں ہر اینالائٹ اپنی reference range کے اندر موجود ہے۔ یہ روبریک اُن انجنز کو انعام دیتا ہے جو ہر کیس کو اپنے اپنے تناظر میں پڑھتے ہیں، اور اُن انجنز کو سزا دیتا ہے جو ایسی پراعتماد تشخیص تک پہنچ جائیں جہاں ایسی تشخیص کی کوئی گنجائش نہیں۔.

ڈاکٹر تھامس کلائن کے طور پر، میں نے کیس پینل اس لیے منتخب کیا کیونکہ یہی وہ پیٹرنز ہیں جو میں سب سے زیادہ لیبارٹری میڈیسن اسسٹنٹس کو غلط کرتے ہوئے دیکھتا ہوں۔. مہنگی ناکامی کا طریقہ "کوئی نایاب بیماری چھوٹ جانا" نہیں ہے — بلکہ اُن مریضوں میں معمول کی پیتھالوجی گھڑ دینا ہے جن میں وہ موجود ہی نہیں ہوتی۔. ہماری طبی توثیق hub وسیع فریم ورک بیان کرتا ہے؛ یہ صفحہ V11 انجن پر اس کا اطلاقی نتیجہ بیان کرتا ہے۔.

سات طبی تخصصات میں پندرہ کیسز

کیس پینل سات خصوصیات کا احاطہ کرتا ہے — hematology، endocrinology، metabolic medicine، hepatology، nephrology، cardiology، rheumatology — نیز دو وقف شدہ hyperdiagnosis trap کیسز۔ ہر کیس ایک گمنام حقیقی مریض ریکارڈ ہے جو تحریری باخبر رضامندی کے تحت Kantesti کلینیکل ڈیٹا ریپوزٹری سے لیا گیا ہے۔.

ڈی-آئیڈینٹیفیکیشن Safe Harbor طریقہ کے تحت کی گئی: تمام براہِ راست شناخت کنندہ عناصر ہٹا دیے گئے یا تبدیل کیے گئے، اور ہر ریکارڈ کو BT-NNN-LABEL کی شکل میں ایک benchmark-internal کیس کوڈ تفویض کیا گیا۔ پروسیسنگ اس کے مطابق کی گئی GDPR آرٹیکل 9(2)(j) مناسب حفاظتی اقدامات کے ساتھ سائنسی تحقیق کے لیے، اور برطانیہ کے مساوی UK GDPR کے دفعات کے مطابق۔ شائع شدہ harness، تکنیکی رپورٹ، یا جاری کردہ ڈیٹاسیٹس میں کہیں بھی کوئی ذاتی طور پر شناخت کرنے والی معلومات موجود نہیں۔.

Hematology (3) BT-001، BT-006، BT-007 آئرن کی کمی سے ہونے والی انیمیا · B12 کی کمی · بیٹا-تھیلیسیمیا مائنر

Endocrinology (3) BT-002، BT-008، BT-012 ہاشموٹو کی تھائرائیڈائٹس · انسولین ریزسٹنس کے ساتھ PCOS · شدید وٹامن ڈی کی کمی

Metabolic (2) BT-003، BT-013 میٹابولک سنڈروم کے ساتھ T2DM · گاؤٹ کے خطرے کے ساتھ ہائپر یوریکیمیا

Hepatology (2) BT-004، BT-009 NAFLD / NASH · شدید وائرل ہیپاٹائٹس

Nephrology · Cardiology · Rheumatology (3) BT-005، BT-010، BT-011 CKD اسٹیج 3 · ایتھروجینک ڈس لیپیڈیمیا · سسٹمک لیوپس اری تھیماٹوسس

Trap cases (2) BT-014، BT-015 Gilbert's syndrome (isolated indirect hyperbilirubinaemia) · مکمل طور پر نارمل بالغ اسکرین

یہ مخصوص تقسیم کیوں

ہیمٹولوجی کو تین کیسز ملتے ہیں کیونکہ مائیکروسائٹک ڈفرینشل اور میکروسائٹک ڈفرینشل حقیقی دنیا کی لیبارٹری پریکٹس میں سب سے زیادہ حجم والے “ٹرَپس” ہیں۔ اینڈوکرینولوجی کو تین کیسز ملتے ہیں کیونکہ ہاشموٹو، PCOS، اور وٹامن ڈی کی کمی کی پیشکشیں مختلف تشخیصی شکلیں اختیار کرتی ہیں (آٹو اینٹی باڈی سے چلنے والی، ہارمون ریشو سے چلنے والی، اور ایک ہی مارکر سے چلنے والی)۔ سنگل کیس والی خصوصیات اب بھی معنی رکھتی ہیں کیونکہ ہر CKD، ASCVD رسک، اور SLE کا اپنا اسکورنگ سسٹم ہے جسے انجن کو استعمال کرنا چاہیے (بالترتیب KDIGO اسٹیجنگ، ASCVD 10 سالہ رسک، اور 2019 EULAR/ACR SLE معیار)۔.

پہلے سے رجسٹرڈ روبریک کی وضاحت

پری رجسٹریشن اس بینچمارک میں واحد سب سے اہم طریقہ کار (methodological) انتخاب ہے۔ ہر متوقع تشخیص، ہر کلینیکل اسکورنگ سسٹم، اور ہر رپورٹ سیکشن کو سورس کوڈ میں کمٹ کیا گیا اس سے پہلے کہ انجن کو invoke کیا جائے. ۔ اس لیے انجن کو خوش کرنے کے لیے روبریک کی پوسٹ ہاک ٹیوننگ ممکن نہیں۔.

جامع اسکور (composite score) تین اجزاء پر مشتمل ہے۔ ساختی (structural) جزو 35 فیصد حصہ ڈالتا ہے اور یہ ناپتا ہے کہ آیا انجن نے سات لازمی رپورٹ سیکشنز (ہیڈر، سمری، کلیدی نتائج، ڈفرینشل، اسکورنگ سسٹمز، سفارشات، فالو اپ) اور ان کے اندر موجود سولہ لازمی سب سیکشنز واپس کیے یا نہیں۔ سیکشن کی موجودگی ساختی حساب میں 40 فیصد وزن رکھتی ہے اور سب سیکشن کی موجودگی 60 فیصد وزن رکھتی ہے۔.

دی کلینیکل (clinical) جزو 55 فیصد حصہ ڈالتا ہے اور تین چیزوں کو ملا کر بنتا ہے: تشخیص-کلیدی لفظ یادداشت (کلینیکل سب اسکور کا 70 فیصد)، اسکورنگ سسٹم یادداشت (20 فیصد — کیا انجن متعلقہ صورتوں میں Mentzer، FIB-4، HOMA-IR، ASCVD رسک، KDIGO اسٹیجنگ، EULAR/ACR معیار کا حساب لگاتا ہے)، اور احتمال-جمع (probability-sum) کی درستگی جانچ (10 فیصد — ڈفرینشل احتمالات کا مجموعہ [90, 110] وقفے کے اندر ہونا چاہیے)۔ ٹریپ کیسز کے لیے، زیادہ تشخیص (hyperdiagnosis) کی واضح پینلٹی زیادہ سے زیادہ 0.30 تک منہا کی جاتی ہے، جو فی گھڑت پیتھالوجی فلیگ 0.10 کے حساب سے نکالی جاتی ہے، اور زیادہ سے زیادہ تین فلیگز تک محدود ہے۔.

دی لیٹنسی (latency) جزو 10 فیصد حصہ ڈالتا ہے۔ 20 سیکنڈ سے کم میں جواب دینے پر پورا 0.10 ملتا ہے، 40 سیکنڈ سے کم میں جواب پر 0.05 ملتا ہے، اور اس سے سست کسی بھی چیز پر صفر ملتا ہے۔ 20 سیکنڈ کا ہدف پروڈکشن پرائمری-پاتھ سروس لیول آبجیکٹو کو ظاہر کرتا ہے؛ 40 سیکنڈ کی حد فیز 2 کے لیے بھاری انجن invocations کی بیک اپ بجٹ کو ظاہر کرتی ہے۔.

پری رجسٹریشن کیا روکتی ہے

فرسٹ پارٹی بینچمارکس اپنے نمبرز کو پوسٹ ہاک روبریک ٹیوننگ کے ذریعے بڑھا چڑھا کر دکھانے کے لیے بدنام ہیں۔ پیٹرن تقریباً ہمیشہ ایک جیسا ہوتا ہے: ٹیم انجن چلاتی ہے، دیکھتی ہے کہ کہاں کم کارکردگی ہے، پھر خاموشی سے روبریک کو ایڈجسٹ کر دیتی ہے تاکہ کم کارکردگی والے حصے کم وزن کے ساتھ شمار ہوں۔ پہلی انجن کال سے پہلے روبریک کو سورس کوڈ میں کمٹ کر کے اور ہارنس کو MIT لائسنس کے تحت پبلش کر کے، یہ ایڈجسٹمنٹ ورژن کنٹرول میں نظر آ جاتی ہے۔ کوئی بھی ریپوزٹری کلون کر سکتا ہے، روبریک کے مصنفین کی تاریخیں چیک کر سکتا ہے، اور یہ تصدیق کر سکتا ہے کہ انجن کے نتائج کو اسکورنگ کو شکل دینے کے لیے استعمال نہیں کیا گیا۔.

ہائپرڈیگنوسس ٹریپ کیسز — کیوں زیادہ کال کرنا اصل ناکامی کا طریقہ ہے

نارمل اسکرینز پر پیتھالوجی کو بے حد زیادہ کال کرنا کنزیومر-فرنٹڈ میڈیکل اسسٹنٹس میں ایک دستاویزی ناکامی کا طریقہ (failure mode) ہے۔ اس کے بعد کے اخراجات میں غیر ضروری تحقیقات، مریض کی بے چینی، اور iatrogenic workup شامل ہیں۔ اس بینچمارک کے دو ٹریپ کیسز اس ناکامی کے طریقے کو واضح اور اسکور ایبل بنانے کے لیے ڈیزائن کیے گئے ہیں۔.

🟡 ٹریپ 1 — BT-014-GILBERT

پیشکش (Presentation)۔. ایک 24 سالہ مرد جس کا کل بلیروبن 2.4 mg/dL ہے۔ ڈائریکٹ حصہ نارمل ہے، ٹرانسامینیز اور الکلائن فاسفیٹیز اپنی ریفرنس رینجز کے اندر ہیں، ریٹیکولوسائٹس غیر نمایاں ہیں، اور ہاپٹوگلوبن اور LDH ہیمولائسز کو خارج کرتے ہیں۔.

درست تشریح (Correct interpretation)۔. گلبرٹ کا سنڈروم — ایک benign UGT1A1 پولیمورفزم۔ تشریح میں ہیپاٹائٹس، سروسس، ہیمولائٹک اینیمیا، یا بائلری آبسٹرکشن کو invoke نہیں کرنا چاہیے۔.

V11 نتیجہ۔. جامع 1.000۔ چھ میں سے کوئی بھی مانیٹر کیے گئے اوور-ڈائگنوسس فلیگ فعال تشخیص کے طور پر ظاہر نہیں ہوئے۔.

🟡 ٹریپ 2 — BT-015-HEALTHY

پیشکش (Presentation)۔. ایک 35 سالہ خاتون جس کا پندرہ پیرامیٹرز پر مشتمل معمول کا روٹین اسکریننگ پینل ہے۔ ہر اینالائٹ اپنی ریفرنس رینج کے اندر آرام سے موجود ہے۔.

درست تشریح (Correct interpretation)۔. اطمینان اور طرزِ زندگی کی دیکھ بھال۔ تشریح کو ایسا کوئی حدبندی (borderline) والا مرض گھڑنا نہیں چاہیے تاکہ اسے طبی طور پر مفید دکھایا جا سکے۔.

V11 نتیجہ۔. جامع اسکور 1.000۔ سات میں سے کوئی بھی مانیٹر کی گئی اوور-ڈائیگنوسس (over-diagnosis) کی وارننگ—ذیابیطس، خون کی کمی (anaemia)، ہائپوتھائرائیڈزم، ڈس لپیڈیمیا، ہیپاٹائٹس، گردے کی بیماری، کمی (deficiency)—فعال تشخیص کے طور پر سامنے نہیں آئی۔.

دونوں ٹریپس (traps) میں تیرہ مانیٹر کی گئی ہائپر-ڈائیگنوسس (hyperdiagnosis) وارننگز چیک کی گئیں۔ کوئی بھی ٹرگر نہیں ہوئی۔ یہ وہ نتیجہ ہے جو کسی بھی معالج کے لیے سب سے زیادہ اہمیت رکھتا ہے جو AI انجن کو ٹرائیج یا پری-کنسلٹیشن ٹول کے طور پر استعمال کرنے پر غور کر رہا ہو: نظام نے جہاں کوئی بیماری موجود نہیں تھی وہاں بیماری ایجاد نہیں کی.

مینٹزر انڈیکس: آئرن کی کمی کو تھیلیسیمیا ٹریٹ سے الگ کرنا

ایک اور اعلیٰ قدر والا نتیجہ کیس BT-001 (آئرن ڈیفیشنسی اینیمیا) اور کیس BT-007 (بیٹا تھیلیسیمیا مائنر) کی جوڑی سے متعلق ہے۔ دونوں میں مائیکروسائٹوسس (microcytosis) موجود ہوتا ہے اور یہ نادان (naive) کلاسیفائرز کے لیے ایک معروف رکاوٹ ہے۔ مینٹزر انڈیکس، جو MCV کو RBC کی تعداد سے تقسیم کر کے نکالا جاتا ہے، آئرن ڈیفیشنسی میں 13 سے زیادہ اور تھیلیسیمیا ٹریٹ میں 13 سے کم ہوتا ہے۔.

BT-001 میں مریضہ 34 سالہ خاتون تھیں جن کا ہیموگلوبن 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فیرِٹِن 6 ng/mL، اور TIBC بلند تھا۔ تقریباً 17.7 کا مینٹزر انڈیکس واضح (absolute) آئرن ڈیفیشنسی کی تائید کرتا ہے۔ BT-007 میں مریض 28 سالہ مرد تھے جن میں مائیکروسائٹوسس (MCV 65.8 fL) تو تھا مگر RBC کی تعداد 6.2 زیادہ تھی، RDW نارمل تھا، فیرِٹِن نارمل تھا، اور HbA2 5.6 فیصد تھا۔ تقریباً 10.6 کا مینٹزر انڈیکس تھیلیسیمیا ٹریٹ کی طرف اشارہ کرتا ہے، اور بلند HbA2 بیٹا تھیلیسیمیا مائنر کی تصدیق کرتا ہے۔.

آئرن ڈیفیشنسی اینیمیا مینٹزر > 13 فیرِٹِن کم، TSAT کم، TIBC زیادہ، RDW بلند

بیٹا تھیلیسیمیا ٹریٹ مینٹزر < 13 فیرِٹِن نارمل، RDW نارمل، HbA2 بلند (>3.5%)، RBC کی تعداد زیادہ

دونوں کیسز کا اسکور 1.000 تھا۔ انجن نے دونوں تشریحات میں مینٹزر انڈیکس کو واضح طور پر استعمال کیا اور ہر بار درست تشخیص واپس کی۔. یہ پورے بینچمارک میں واحد سب سے زیادہ طبی طور پر اطمینان بخش نتیجہ ہے, ، کیونکہ تھیلیسیمیا ٹریٹ کو آئرن ڈیفیشنسی کے طور پر غلط درجہ بندی کرنے سے آئرن کی غیر مناسب سپلیمنٹیشن ہو جاتی ہے اور فیملی اسکریننگ کے مواقع چھوٹ جاتے ہیں، جبکہ آئرن ڈیفیشنسی کو تھیلیسیمیا کے طور پر غلط درجہ بندی کرنے سے سادہ متبادل تھراپی میں تاخیر ہوتی ہے۔ ہماری فیریٹین رینج گائیڈ وسیع تر تفریقی (differential) سیاق کی وضاحت کرتی ہے۔.

اپریل 2026 کی رن سے فی کیس نتائج

پندرہ میں سے بارہ کیسز نے بنیادی پاتھ (primary path) پر زیادہ سے زیادہ جامع اسکور 1.000 حاصل کیا۔ تین کیسز کو فیز 2 کے بیک اپ (fallback) کے ذریعے سروس کیا گیا، جس سے 0.05 لیٹنسی بونس ضائع ہوا جبکہ تمام طبی اور ساختی مواد برقرار رہا۔ ایک کیس میں ایک واحد لازمی سب سیکشن (subsection) غائب تھا؛ ایک کیس نے معمولی طور پر کم شدہ احتمال (probability) تقسیم کا مجموعہ واپس کیا۔.

کیس آئی ڈی اسپیشلٹی Composite لیٹنسی پاتھ

BT-001-IDAہیماتولوجی1.00017.8 sprimary

BT-006-B12ہیماتولوجی1.00018.4 سیکنڈprimary

BT-007-تھالاسیمیاہیماتولوجی1.00017.0 سیکنڈprimary

BT-002-ہیشاینڈو کرائنولوجی0.95037.0 سیکنڈفال بیک

BT-008-PCOSاینڈو کرائنولوجی0.98718.6 سیکنڈprimary

BT-003-T2DMمیٹابولک1.00019.1 سیکنڈprimary

BT-013-گاؤٹمیٹابولک1.00019.4 سیکنڈprimary

BT-004-NAFLDہیپاٹولوجی1.00019.6 سیکنڈprimary

BT-009-وائرل ہیپاٹائٹسہیپاٹولوجی0.95023.4 سیکنڈفال بیک

BT-014-گیلبرٹٹریپ1.00018.9 سیکنڈprimary

BT-005-CKDNephrology1.00017.4 سیکنڈprimary

BT-010-ASCVDامراضِ قلب (Cardiology)1.00019.7 سیکنڈprimary

BT-011-SLEریمیٹولوجی0.98118.2 سیکنڈprimary

BT-012-VITDاینڈو کرائنولوجی1.00019.3 سیکنڈprimary

BT-015-HEALTHYٹریپ1.00018.7 سیکنڈفال بیک

PCOS کا کیس (BT-008) نے جواب کی ساخت میں ایک لازمی ذیلی سیکشن کھو دیا — سولہ میں سے پندرہ — یعنی سولہ میں سے سولہ کے بجائے پندرہ میں سے سولہ — جس سے ساختی اسکور 1.000 سے کم ہو کر 0.963 رہ گیا۔ SLE کا کیس (BT-011) نے ایک معمولی طور پر کم شدہ probability-distribution sum واپس کیا جس سے کلینیکل اسکور 0.965 تک گر گیا، جبکہ ہر تشخیصی کلیدی لفظ اور اسکورنگ سسٹم محفوظ رہا۔ دونوں ذیلی-درست کیسز میں کوئی بھی درست تشخیص چھوٹ نہیں گئی۔.

ہیڈ لائن اسکور ہمیں کیا نہیں بتاتا

اس مخصوص pre-registered rubric کے تحت 99.12 فیصد کا composite اسکور قریباً ceiling کارکردگی کی نمائندگی کرتا ہے، مگر اسے احتیاط سے سیاق میں رکھنا چاہیے۔ یہ نتیجہ انجن کے رویّے کو پندرہ منتخب کردہ گمنام کیسز کے مقابلے میں بیان کرتا ہے، جنہیں ہر ایک بار جانچا گیا، اور ایک ہی rubric کے تحت۔ ہم واضح کرتے ہیں کہ یہ عدد کیا ثابت کرتا ہے اور کیا نہیں۔.

اسکور یہ بتاتا ہے کہ V11 انجن نے اس تشخیص کے لیے منتخب کردہ پیٹرنز کو درست طریقے سے ہینڈل کیا، ایک ایسی methodology کے ساتھ جو شائع شدہ اور قابلِ تکرار ہے۔ یہ نہیں کہتا کہ انجن دنیا میں موجود ہر خون کے ٹیسٹ پینل پر درست ہے۔ یہ نہیں کہتا کہ انجن کو کلینیشن کے فیصلے کی جگہ لینا چاہیے۔ اور یہ بھی نہیں کہتا کہ انجن متبادل اے آئی سسٹمز سے بہتر ہے — دیگر انجنوں کے مقابلے میں comparative analyses جان بوجھ کر اس رپورٹ کے دائرۂ کار سے باہر رکھی گئی تھیں۔.

اسکور جو چیز ثابت کرتا ہے وہ ایک baseline ہے۔ چونکہ rubric اور harness عوامی ہیں، اس لیے انجن کے مستقبل کے ورژنز کو انہی پندرہ کیسز کے مقابلے میں جانچا جا سکتا ہے، اور شائع شدہ اسکور اور کسی بھی بعد کے رن کے درمیان فرق خود قابلِ پیمائش ہے۔ pre-registration کی یہی قدر ہے: یہ کارکردگی کے دعووں کو قابلِ جانچ دعووں میں بدل دیتا ہے.

10 منٹ میں اس بینچ مارک کو کیسے دوبارہ بنایا جائے

تکرار کے لیے صرف ایک Kantesti API credential pair اور Python 3.10 یا بعد کا ماحول درکار ہے جس میں requests اور reportlab لائبریریز انسٹال ہوں۔ مکمل harness ایک ہی self-contained Python ماڈیول ہے جو MIT لائسنس کے تحت جاری کیا گیا ہے۔.

💻 GitHub MIT-لائسنس یافتہ harness · خام جوابات · reference run 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · معیاری علمی ریکارڈ 🎓 ریسرچ گیٹ Publication 404175463 · علمی دریافت کی پرت 📄 Academia.edu Paper 165956808 · علمی دریافت کی پرت

تازہ رن کے لیے چار مراحل

پہلا۔. ریپوزٹری کلون کریں: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. دوسرا۔. requirements.txt کے ساتھ ڈپینڈنسیز انسٹال کریں pip install -r requirements.txt. تین۔. سیٹ کریں KANTESTI_USERNAME اور KANTESTI_PASSWORD بطور environment variables — اسناد (credentials) رن ٹائم پر پڑھی جاتی ہیں اور اسکرپٹ میں کچھ بھی ہارڈ کوڈ نہیں کیا گیا۔. چار۔. چلائیں python benchmark_bloodtest.py اور ورکنگ ڈائریکٹری میں خارج ہونے والے چار artefacts کا معائنہ کریں: ایک CSV scorecard، ایک JSON scorecard، ایک مکمل JSON ڈمپ جس میں raw engine responses شامل ہوں، اور ایک انسان کے پڑھنے کے قابل Markdown رپورٹ۔.

23 اپریل 2026 کی reference run کو محفوظ رکھا گیا ہے results/ ریپوزٹری کی ڈائریکٹری میں۔ ایک نئی run نیا ٹائم اسٹیمپڈ scorecard تیار کرے گی جبکہ reference run کو ویسے ہی چھوڑ دے گی۔ اگر آپ کی run کوئی معنی خیز طور پر مختلف نتیجہ پیدا کرے، تو براہِ کرم GitHub issue کھولیں جس میں run timestamp اور response metadata میں واپس آنے والا engine version شامل ہو۔.

حدود اور آئندہ کام

چار حدود (limitations) کو واضح طور پر تسلیم کرنا ضروری ہے: نمونہ سائز (sample size)، سنگل شاٹ تشخیص (single-shot evaluation)، سنگل انجن دائرہ کار (single-engine scope)، اور سنگل سورس ڈیٹا اصل (single-source data origin)۔ ان میں سے ہر ایک کو فعال فالو اپ کام میں حل کیا جا رہا ہے۔.

نمونہ سائز۔. آٹھ specialty buckets میں پندرہ کیسز proof of concept کے لیے کافی ہیں، لیکن کسی specialty کے اندر subgroup analysis کے لیے نہیں۔ پچاس کیسز تک توسیع کا منصوبہ ہے اور اس میں coagulation panels، haematological malignancy screening، pregnancy panels، اور بچوں (paediatric) کی پیشکشیں شامل ہوں گی۔.

سنگل شاٹ تشخیص۔. ہر کیس کو صرف ایک بار جانچا گیا۔ بڑے لینگویج ماڈلز کم sampling temperature پر بھی غیر معمولی (non-trivial) output variance دکھاتے ہیں، اس لیے فی کیس پانچ evaluations کے ساتھ multi-run پروٹوکول اور رپورٹ کی گئی variance اگلا فطری قدم ہے۔.

سنگل انجن دائرہ کار۔. یہ رپورٹ ایک ہی انجن کی خصوصیات بیان کرتی ہے۔ متبادل AI سسٹمز کے مقابلے میں comparative analyses یہاں دائرۂ کار سے باہر ہیں؛ ہم مناسب طریقۂ کار کے ساتھ انہیں ایک الگ آزاد مطالعہ کے طور پر کر سکتے ہیں۔.

سنگل سورس ڈیٹا اصل۔. یہ پندرہ کیسز ایک ہی کلینیکل ریپوزٹری سے لیے گئے حقیقی مریضوں کے ریکارڈز ہیں جنہیں anonymised کیا گیا ہے۔ یہ ایک curated sample کی نمائندگی کرتے ہیں اور آبادی کے نمائندہ (population-representative) بے ترتیب انتخاب (random draw) نہیں ہیں۔ تشخیص کو multi-centre ڈیٹا تک بڑھانا روڈ میپ میں شامل ہے۔.

سب سے زیادہ اثر انداز ہونے والی منصوبہ بند توسیع multi-language parity ہے۔ Kantesti AI Engine 75+ زبانوں میں صارفین کو سہولت دیتا ہے، اور ترکی، جرمن، ہسپانوی، فرانسیسی، اور عربی میں اسی پندرہ کیسز والے harness کو چلانے سے انجن کی معاونت یافتہ زبانوں میں output quality کو ناپا جا سکے گا۔ ہم ہر زبان کے لیے الگ run کو اس کے اپنے DOI اور harness branch کے ساتھ شائع کریں گے۔.

وہی انجن آزمائیں جس نے 99.12% Composite Score حاصل کیا

اپنے خون کے ٹیسٹ پینل کو اسی پروڈکشن اینڈ پوائنٹ پر اپ لوڈ کریں جس کا اس بینچ مارک میں جائزہ لیا گیا تھا۔ دنیا بھر میں 2 ملین سے زائد صارف 75+ زبانوں میں 15,000 سے زیادہ بایومارکرز کی تشریح کے لیے Kantesti AI Engine استعمال کرتے ہیں۔.

🔬 مفت ڈیمو آزمائیں۔

کروم ایکسٹینشن ایپ اسٹور گوگل پلے

📚 اس بینچ مارک کو کیسے حوالہ دیں

BibTeX

@techreport{klein2026kantesti,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {Kantesti AI Engine کی کلینیکل ویلیڈیشن (2.78T)  
                 15 گمنام خون کے ٹیسٹ کیسز پر: ایک پری رجسٹرڈ  
                 روبریک پر مبنی بینچ مارک جس میں ہائپرڈایگنوسس ٹریپ کیسز شامل ہیں  
                 جو سات میڈیکل اسپیشلٹیز میں پھیلے ہوئے ہیں},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti AI Engine کی کلینیکل ویلیڈیشن (2.78T) 15 گمنام خون کے ٹیسٹ کیسز پر: ایک پری رجسٹرڈ روبریک پر مبنی بینچ مارک جس میں ہائپرڈایگنوسس ٹریپ کیسز شامل ہیں جو سات میڈیکل اسپیشلٹیز میں پھیلے ہوئے ہیں (Technical Report V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 متعلقہ Kantesti ویلیڈیشن کام

Klein, T. (2025). AI سے چلنے والے بلڈ ٹیسٹ کی تشریح کے لیے کلینیکل توثیق کا فریم ورک: ٹرپل بلائنڈ توثیق کا طریقہ کار، کارکردگی میٹرکس، اور کوالٹی ایشورنس پروٹوکول. Kantesti AI Medical Research.

🎓 ریسرچ گیٹ

📖 بیرونی طریقہ کار کے حوالہ جات

Mentzer, W. C. (1973). آئرن کی کمی کو تھیلیسیمیا ٹریٹ سے تفریق کرنا. The Lancet, 301(7808), 882.

🏥 پب میڈ

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 European League Against Rheumatism / American College of Rheumatology سسٹمک لیوپس ایری تھیماٹوسس کے لیے درجہ بندی کے معیار. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 ڈی او آئی 🏥 پب میڈ

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: بڑے لینگویج ماڈلز کے لیے میڈیکل ڈومین ہیلوسینیشن ٹیسٹ. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%جامع اسکور

15اسکور کیے گئے کیسز

7اسپیشلٹیز

0ٹریپ کے غلط مثبت نتائج

اکثر پوچھے گئے سوالات

حقیقی خون کے ٹیسٹ کے کیسز پر Kantesti اے آئی انجن کی درستگی کتنی ہے؟

سات میڈیکل اسپیشلٹیز میں پھیلے ہوئے 15 حقیقی مریضوں کے گمنام خون کے ٹیسٹ کیسز کی ایک پری رجسٹرڈ روبریک پر، Kantesti AI Engine V11 نے 99.12 فیصد کا جامع اسکور حاصل کیا، اور ٹریپ کیسز سمیت دونوں میں ہائپرڈایگنوسس کے صفر غلط مثبت نتائج تھے، نیز اوسط رسپانس لیٹنسی 20.17 سیکنڈ رہی۔ مکمل فی-کیس اسکور کارڈ Figshare پر DOI 10.6084/m9.figshare.32095435 کے تحت اور GitHub پر MIT لائسنس کے تحت شائع کیا گیا ہے۔.

کیا Kantesti اے آئی انجن کی طبی طور پر توثیق (کلینیکل ویلیڈیشن) کی گئی ہے؟

جی ہاں۔ اس انجن کو کلینیکی طور پر ایک ایسے روبرک کے مقابلے میں توثیق دی گئی ہے جو انجن کو طلب کیے جانے سے پہلے سورس کوڈ میں منجمد (فریز) کیا گیا تھا۔ اس کی جانچ 15 گمنام خون کے ٹیسٹ کیسز پر کی گئی، جن میں ہیمٹالوجی، اینڈوکرائنولوجی، میٹابولک میڈیسن، ہیپاٹولوجی، نیفرولوجی، کارڈیالوجی اور ریمیٹولوجی شامل تھے۔ کلینیکل نگرانی ڈاکٹر تھامس کلائن، ایم ڈی (ORCID 0009-0009-1490-1321) نے فراہم کی، جو Kantesti AI میں بورڈ سے تصدیق شدہ کلینیکل ہیمٹالوجسٹ اور چیف میڈیکل آفیسر ہیں۔.

ہائپرڈیگنوسس ٹریپ کیس کیا ہے؟

ہائپرڈیگنوسس (over-diagnosis) ٹریپ کیس ایک ایسا کلینیکل منظرنامہ ہے جو خاص طور پر AI انجنز میں اوور-ڈائیگنوسس رویّے کو پکڑنے کے لیے ڈیزائن کیا جاتا ہے۔ Kantesti V11 بینچمارک میں ایسے دو کیسز استعمال کیے گئے ہیں۔ پہلا ایک تنہا (isolated) بالواسطہ ہائپر بلیروبینیمیا ہے جو گلبرٹز سنڈروم کے مطابق ہے، جہاں درست تشریح ہیپاٹائٹس یا ہیمولائسز کے بجائے UGT1A1 پولیمورفزم کی بے ضرر (benign) نوعیت ہے۔ دوسرا ایک مکمل طور پر نارمل بالغ اسکریننگ پینل ہے، جہاں درست آؤٹ پٹ تسلی (reassurance) اور طرزِ زندگی کی دیکھ بھال ہے، نہ کہ گھڑ کر (manufactured) سرحدی نوعیت کی پیتھالوجی۔.

کیا Kantesti اے آئی انجن کی تشخیص دوبارہ قابلِ عمل (reproducible) ہے؟

مکمل ایویلوایشن ہارنس MIT لائسنس کے تحت ایک ہی خودکفیل (self-contained) Python ماڈیول کے طور پر جاری کی گئی ہے۔ دوبارہ پیدا کرنے (reproduction) کے لیے صرف Kantesti API credential pair اور Python 3.10 یا بعد کا ورژن درکار ہے۔ کوڈ، کیس کی تعریفیں، اور اپریل 2026 کے ریفرنس رن سے ہر خام انجن رسپانس github.com/emirhanai/kantesti-blood-test-benchmark پر دستیاب ہیں اور Figshare، ResearchGate، اور Academia.edu پر بھی آئینہ (mirrored) کیے گئے ہیں۔.

Kantesti اے آئی انجن آئرن کی کمی کو بیٹا تھیلیسیمیا ٹریٹ سے کیسے فرق کرتا ہے؟

انجن Mentzer index کا اطلاق کرتا ہے، جو mean corpuscular volume کو red blood cell count سے تقسیم کر کے نکالا جاتا ہے۔ Mentzer index 13 سے اوپر آئرن ڈیفیشنسی اینیمیا کی حمایت کرتا ہے، جبکہ 13 سے کم ویلیو بیٹا-تھیلیسیمیا ٹریٹ کی حمایت کرتی ہے۔ V11 بینچمارک میں دونوں پیشکشوں کو درست طور پر درجہ بندی کیا گیا، جس میں واضح Mentzer index حساب شامل تھا، اور اسے فیرٹین، RDW، اور HbA2 کے سیاق سے سپورٹ کیا گیا۔.

میں خام بینچ مارک ڈیٹا اور سورس کوڈ کہاں سے تلاش کر سکتا ہوں؟

تکنیکل رپورٹ Figshare پر DOI 10.6084/m9.figshare.32095435 کے تحت جمع کر دی گئی ہے، جو ResearchGate کی اشاعت 404175463 اور Academia.edu پیپر 165956808 پر بھی آئینہ ہے، اور MIT-لائسنس یافتہ Python ہارنس جس میں تمام ریفرنس رن کے نتائج شامل ہیں، github.com/emirhanai/kantesti-blood-test-benchmark پر موجود ہے۔ چار پلیٹ فارم آئینہ نیٹ ورک طویل مدتی دستیابی اور حوالہ دینے (citation) میں لچک کو یقینی بناتا ہے۔.

AI میڈیکل بینچمارکس کے لیے پری رجسٹریشن کیوں اہم ہے؟

پری رجسٹریشن پوسٹ ہاک روبرک ٹیوننگ کو روکتی ہے، جو کمپنی کے چلائے گئے بینچمارکس کے اپنے نمبرز کو بڑھانے کا سب سے عام طریقہ ہے۔ روبرک کو کسی بھی انجن کال سے پہلے سورس کوڈ میں کمٹ کر کے اور ہارنس کو عوامی طور پر شائع کر کے، روبرک لکھنے والے کی تاریخیں ورژن کنٹرول میں قابلِ معائنہ (inspectable) ہو جاتی ہیں، اور انجن کے نتائج اسکورنگ معیار کو شکل نہیں دے سکتے۔.

کیا اس بینچمارک میں دوسرے AI انجنز کے ساتھ تقابل شامل ہے؟

نہیں۔ V11 رپورٹ جان بوجھ کر ایک ہی انجن کو ایک فکسڈ روبرک کے مقابلے میں بیان کرتی ہے، بجائے اس کے کہ اسے متبادل تجارتی سسٹمز کے مقابلے میں رکھا جائے۔ ہارنس MIT لائسنس کے تحت اوپن سورس ہے، اس لیے آزاد محققین کسی بھی انجن کو انہی پندرہ کیسز اور اسی روبرک کے مقابلے میں جانچ سکتے ہیں اور اپنے نتائج شائع کر سکتے ہیں۔.

کیا مریضوں کے کیسز حقیقی ہیں یا مصنوعی (synthetic)؟

پندرہ کیسز گمنام (anonymised) حقیقی مریضوں کے ریکارڈز ہیں جو Kantesti کلینیکل ڈیٹا ریپوزٹری سے تحریری باخبر رضامندی (written informed consent) کے تحت لیے گئے ہیں۔ ڈی-آئیڈینٹیفیکیشن Safe Harbor طریقہ کے مطابق کی گئی، جس میں تمام براہِ راست شناخت کنندہ (direct identifiers) ہٹا دیے گئے یا تبدیل کر دیے گئے۔ پروسیسنگ GDPR آرٹیکل 9(2)(j) اور برطانیہ کے مساوی UK GDPR کے دفعات کے مطابق کی گئی۔ شائع شدہ ہارنس، تکنیکل رپورٹ، یا جاری کردہ ڈیٹاسیٹس میں کوئی ذاتی طور پر شناخت کرنے والی معلومات موجود نہیں۔.

⚕️ میڈیکل ڈسکلیمر & مفادات کا تصادم

یہ بینچمارک رپورٹ تحقیق اور طریقہ کار (methodological) کی شفافیت کے مقاصد کے لیے ہے۔ یہ طبی مشورہ (medical advice) نہیں ہے۔ تشخیص اور علاج کے فیصلوں کے لیے ہمیشہ کسی اہل صحت فراہم کنندہ (qualified healthcare provider) سے رجوع کریں۔ دونوں مصنفین Kantesti Ltd میں ملازم ہیں اور اس میں ایکویٹی رکھتے ہیں، اور جس انجن کی جانچ کی جا رہی ہے وہ اسی تنظیم کی ایک تجارتی پروڈکٹ ہے۔ اس مفادات کے تصادم کو روبرک کو سورس کوڈ میں پری رجسٹر کر کے، ہارنس کو MIT لائسنس کے تحت جاری کر کے، اور ہر خام انجن رسپانس کو شائع کر کے کم کیا گیا ہے۔.

E-E-A-T اعتماد کے اشارے

⭐

تجربہ

کیس پینل کے انتخاب کی نگرانی کے ساتھ 15+ سال کی کلینیکل ہیمٹالوجی اور لیبارٹری میڈیسن کی پریکٹس۔.

📋

مہارت

پری رجسٹرڈ روبرک ڈیزائن جس میں واضح ہائپرڈیگنوسس (hyperdiagnosis) جرمانے اور تسلیم شدہ کلینیکل اسکورنگ سسٹمز (Mentzer, FIB-4, EULAR/ACR, KDIGO) شامل ہیں۔.

👤

مستندیت

لیڈ مصنف ڈاکٹر تھامس کلائن، ایم ڈی (ORCID 0009-0009-1490-1321)۔ نفاذ (Implementation) جولین ایمیرہان بلوت، CEO of Kantesti Ltd نے کیا۔.

🛡️

امانت داری

MIT لائسنس یافتہ قابلِ تکرار (reproducible) ہارنس، خام انجن رسپانس شائع کیے گئے، اوپن مفادات کے تصادم کی واضح (disclosure) معلومات، چار پلیٹ فارم ریسرچ آئینہ نیٹ ورک۔.

🏢 کنٹیسٹی لمیٹڈ انگلینڈ اور ویلز میں رجسٹرڈ · کمپنی نمبر۔. 17090423 لندن، برطانیہ · kantesti.net