Kantesti اے آئی بلڈ ٹیسٹ بینچ مارک

خودکار بینچ مارک پہلے سے رجسٹرڈ بینچمارک V11 دوسرا اپڈیٹ — اپریل 2026 MIT لائسنس یافتہ قابلِ تکرار · اوپن ڈیٹا 100K مصنوعی کوہورٹ · 127 ملکوں کے لیبلز

99.80% جامع اسکور ایک پہلے سے رجسٹرڈ روبریک پر — V11 دوسرا اپڈیٹ، 100,000 کیسز کی کوہورٹ 127 ملکوں کے لیبلز میں

ایک پہلے سے رجسٹرڈ، روبریک پر مبنی خودکار تکنیکی بینچ مارک جو Kantesti انجن کو 100,000 مصنوعی طور پر تیار کردہ بلڈ ٹیسٹ کیسز پر جانچتا ہے جن پر 127 ملک لیبلز ٹیگ کیے گئے ہیں۔ یہ تشخیصی درستگی نہیں بلکہ آؤٹ پٹ کی مطابقت (conformance) ناپتا ہے۔ روبریک V11 کے ابتدائی ریلیز سے پہلے سورس کوڈ میں فریز کیا گیا تھا اور اس Second Update کے لیے بائٹ بہ بائٹ وہی رکھا گیا؛ ایویلیوایشن ہارنس MIT-لائسنسڈ ہے؛ خام انجن جوابات کا ایک اسٹریٹیفائیڈ رینڈم نمونہ معائنہ کے لیے شائع کیا گیا ہے۔ تمام کیسز مصنوعی ہیں؛ کوئی ذاتی ڈیٹا استعمال نہیں ہوتا۔.

📖 ~14 منٹ 📅 23 اپریل 2026 کو شائع ہوا · 26 اپریل 2026 کو اپڈیٹ ہوا (V11 دوسرا اپڈیٹ) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 شائع شدہ: 23 اپریل 2026 🔄 V11 دوسرا اپڈیٹ: 26 اپریل 2026 🩺 طبی طور پر نظرثانی شدہ: 26 اپریل 2026 ✅ پہلے سے رجسٹرڈ روبریک (بائٹ-بائیٹ یکساں) 🔓 اوپن کوڈ اور ڈیٹا

یہ خودکار بینچ مارک ڈیزائن کیا گیا اور چلایا گیا جولین امیرحان بلوت, ، سینئر AI انجینئر اور CEO of Kantesti Ltd۔ اسکورنگ مکمل طور پر سورس کوڈ میں خودکار ہے؛ اسکورنگ روبریک اور کیس پینل کو ڈاکٹر تھامس کلین، ایم ڈی, ، Chief Medical Officer at Kantesti AI کی کلینیکل ان پٹ کے ساتھ تیار کیا گیا، اور کنٹیسٹی اے آئی میڈیکل ایڈوائزری بورڈ. یہ ایک خود-چلایا گیا اندرونی بینچمارک ہے، نہ کہ کوئی آزاد یا ہم مرتبہ-جائزہ شدہ خودکار تکنیکی بینچمارک۔.

لیڈ آتھر اور کلینیکل اوور سائٹ

تھامس کلین، ایم ڈی

چیف میڈیکل آفیسر، کنٹیسٹی اے آئی

ڈاکٹر تھامس کلائن ایک بورڈ-سرٹیفائیڈ کلینیکل ہیماٹولوجسٹ اور انٹرنسٹ ہیں جنہیں لیبارٹری میڈیسن میں 15 سال سے زائد کا تجربہ ہے۔ Kantesti AI میں چیف میڈیکل آفیسر کے طور پر، انہوں نے اس بینچمارک کے لیے کیس پینل منتخب کیا، مصنوعی کیسز کے کلینیکل مواد اور متوقع جوابات کا جائزہ لیا، اور پہلی انجن کال سے پہلے پہلے سے رجسٹرڈ روبریک کی منظوری دی۔.

ORCID 0009-0009-1490-1321 ریسرچ گیٹ گوگل اسکالر

شریک مصنف اور نفاذ

جولین امیرحان بلوت

سینئر اے آئی انجینئر اور سی ای او، Kantesti Ltd

جولین ایمیرہان بولوٹ Kantesti Ltd کے بانی اور CEO ہیں۔ انہوں نے تشخیصی ہارنس ڈیزائن اور نافذ کیا — جس میں V11 دوسرے اپڈیٹ کے لیے شامل کیا گیا SQL کیس لوڈر بھی شامل ہے — API انٹیگریشن انجام دی، V11 ابتدائی ریفرنس رن اور V11 دوسرا اپڈیٹ 100,000-کیس رن دونوں کیے، اور شماریاتی مجموعہ تیار کیا۔ 2019 سے پلیٹ فارم کے بانی۔.

GitHub کنٹیسٹی کے بارے میں

⚡ مختصر خلاصہ V11 دوسرا اپڈیٹ — 26 اپریل 2026

99.80% کمپوزٹ اسکور 100,000 مصنوعی بلڈ ٹیسٹ کیسز پر، آٹھ طبی تخصصات اور 127 ملک لیبلز کے ساتھ (V11 Second Update)۔.
صفر ہائپرڈیگنوسس (غلط مثبت) 87,412 مانیٹرڈ ٹریپ-کیس فلیگ مواقع کے پار — وہی ٹریپ-کیس طریقہ کار جو V11 ابتدائی میں تھا، آبادی کی سطح تک اسکیل کیا گیا۔.
پہلے سے رجسٹرڈ روبریک V11 ابتدائی رن سے پہلے سورس کوڈ میں فریز کیا گیا اور بائٹ-بائیٹ یکساں رکھا گیا اس دوسرے اپڈیٹ کے لیے — کوئی پوسٹ-ہاک ٹیوننگ ممکن نہیں تھی۔.
Mentzer index درست طور پر لاگو کیا گیا V11 ابتدائی ریلیز میں آئرن ڈیفیشنسی اینیمیا کو بیٹا-تھیلیسیمیا مائنر سے فرق کرنے کے لیے؛ آبادی کی سطح پر یہ تفریق والا رویہ محفوظ رہا۔.
صرف پروڈکشن اینڈ پوائنٹ — کوئی مراعات یافتہ روٹنگ نہیں؛ اسے بالکل اسی طرح جانچا گیا جیسے کوئی ادائیگی کرنے والا صارف رسائی حاصل کرتا۔.
13.26 سیکنڈ اوسط لیٹنسی اینڈ ٹو اینڈ (رینج 9.0–16.94 s)، اور تمام 100,000 کیسز انجن کے بنیادی راستے پر مکمل ہوئے۔.
مصنوعی کوہورٹ۔. رن ٹائم پر لوڈ کیے گئے 100,000 مصنوعی طور پر تیار کردہ ٹیسٹ کیسز۔ کوئی مصنوعی ڈیٹا اور کوئی ذاتی ڈیٹا استعمال نہیں ہوتا۔.
MIT لائسنسڈ ہارنس GitHub پر معائنہ کے لیے مکمل انجن کے خام جوابات کے ایک اسٹریٹیفائیڈ رینڈم نمونے (n = 201) کے ساتھ ریلیز کیا گیا۔.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate، Academia.edu، GitHub پر آئینہ (mirrored) کیا گیا۔.

یہ بینچمارک کیوں موجود ہے اور یہ کیا جانچتا ہے

اے آئی کی مدد سے خون کے ٹیسٹ کی رپورٹ کی تشریح صارفین اور کلینیکل ورک فلو میں تیزی سے استعمال ہو رہی ہے، مگر لیبارٹری میڈیسن کے مطابق قابلِ تکرار (reproducible) تشخیصی فریم ورک اب بھی کم ہیں۔ اس سیاق میں سب سے اہم سوالات وہ نہیں جو عمومی میڈیکل سوال-جواب بینچ مارکس میں کور ہوتے ہیں: کیا جب mean corpuscular volume ایک جیسا ہو تو ایک انجن آئرن ڈیفیشنسی کو تھیلیسیمیا ٹریٹ سے الگ کر سکتا ہے، کیا وہ Gilbert's syndrome کو ہیپاٹائٹس کے طور پر اوور-ڈائیگنوز کرتا ہے، اور کیا وہ مکمل طور پر نارمل اسکریننگ پینل میں پیتھالوجی “بنا” دیتا ہے؟

ایک واحد خون کے ٹیسٹ کا پینل عموماً اتنا سگنل رکھتا ہے کہ کئی متبادل تشریحات کی گنجائش بن جائے، اور تشریح کرنے والے معالج کا کام یہ ہوتا ہے کہ وہ ان تشریحات کو ایک دوسرے کے مقابلے میں تولے، نہ کہ کسی درسی کتاب کے جواب کو محض نکال کر پیش کرے۔ جو انجن درسی کتاب والے کیسز میں اچھا کارکردگی دکھاتا ہے وہ پھر بھی اُن کیسز میں ناکام ہو سکتا ہے جو سب سے زیادہ اہم ہیں: تفریقِ تشخیص کے وہ جال، وہ بے ضرر مختلف حالتیں جو اکیلے میں خطرناک لگتی ہیں، اور وہ مکمل نارمل پینلز جو پراعتماد اسسٹنٹس کو پیتھالوجی “گھڑنے” پر آمادہ کر دیتے ہیں۔.

یہ بینچمارک انہی ناکامی کے طریقوں کے گرد بنایا گیا تھا۔ پندرہ میں سے ہر کیس کو کسی مخصوص تشخیصی خصوصیت کے لیے منتخب کیا گیا: آئرن کی کمی سے ہونے والی مائیکروسائٹوسس کو بیٹا تھیلیسیمیا ٹریٹ سے الگ رکھنا ضروری تھا، جس میں ایک جیسا mean corpuscular volume ہوتا ہے؛ جِلبرٹ سنڈروم کی پیشکش جہاں واحد غیر معمولی بات ایک الگ تھلگ indirect hyperbilirubinaemia ہے؛ اور ایک پندرہ-پیرامیٹر اسکریننگ پینل جس میں ہر اینالائٹ اپنی reference range کے اندر موجود ہے۔ یہ روبریک اُن انجنز کو انعام دیتا ہے جو ہر کیس کو اپنے اپنے تناظر میں پڑھتے ہیں، اور اُن انجنز کو سزا دیتا ہے جو ایسی پراعتماد تشخیص تک پہنچ جائیں جہاں ایسی تشخیص کی کوئی گنجائش نہیں۔.

ڈاکٹر تھامس کلائن کے طور پر، میں نے کیس پینل اس لیے منتخب کیا کیونکہ یہی وہ پیٹرنز ہیں جو میں سب سے زیادہ لیبارٹری میڈیسن اسسٹنٹس کو غلط کرتے ہوئے دیکھتا ہوں۔. مہنگی ناکامی کا طریقہ "کوئی نایاب بیماری چھوٹ جانا" نہیں ہے — بلکہ اُن مریضوں میں معمول کی پیتھالوجی گھڑ دینا ہے جن میں وہ موجود ہی نہیں ہوتی۔. ہماری طبی توثیق hub وسیع فریم ورک بیان کرتا ہے؛ یہ صفحہ V11 ابتدائی پروف-آف-کانسیپٹ اور V11 دوسرا اپڈیٹ بیان کرتا ہے جس نے اسے 100,000 مصنوعی کیسز تک اسکیل کیا جو 127 ملکوں کے لیبلز پر مشتمل ایک مصنوعی کیس سیٹ سے لیے گئے ہیں — وہی اسکورنگ روبریک استعمال کرتے ہوئے، بائٹ-بائیٹ یکساں، اور کسی بھی پوسٹ-ہاک ٹیوننگ کی اجازت نہیں۔.

15 کیسز سے 100,000 تک: 127 ملکوں کے لیبلز میں کوہورٹ کی ارتقائی تبدیلی

اصل V11 کیس پینل میں سات تخصصات شامل تھے — ہیماٹولوجی، اینڈوکرائنولوجی، میٹابولک میڈیسن، ہیپاٹولوجی، نیفرولوجی، کارڈیالوجی، ریمیٹولوجی — نیز دو وقف شدہ ہائپرڈیگنوسس ٹریپ کیسز، اور ہر کیس ایک مصنوعی طور پر تیار کردہ بلڈ-ٹیسٹ پینل تھا۔ V11 دوسرا اپڈیٹ تشخیص کو بڑھا کر 127 ملکوں کے لیبلز میں پھیلے 100,000 مصنوعی کیسز تک, ، جو آٹھ خصوصیات میں تقسیم ہیں (اصل سات کے علاوہ ایک وقف شدہ internal-medicine بکٹ جو ٹریپ سب سیٹ کو جذب کرتا ہے)۔ وہی اسکورنگ روبریک دونوں رنز میں بائٹ بہ بائٹ لاگو کیا گیا۔.

چونکہ تمام کیسز مصنوعی طور پر تیار کیے گئے ہیں، اس لیے ہٹانے کے لیے کوئی حقیقی شناخت کنندہ موجود نہیں اور نہ ہی کوئی ذاتی ڈیٹا شامل ہے۔ ہر مصنوعی کیس ایک بینچمارک-اندرونی کیس کوڈ رکھتا ہے (V11 ابتدائی سیٹ میں BT-NNN-LABEL، ایک مستحکم case_uid دوسرے اپڈیٹ میں)۔ شائع شدہ ہارنس، تکنیکی رپورٹ، یا جاری کردہ ڈیٹاسیٹس میں کہیں بھی کوئی ذاتی ڈیٹا نظر نہیں آتا۔.

V11 initial release — 15 hand-curated cases

اصل V11 کیس پینل کو ڈاکٹر تھامس کلائن نے ہاتھ سے منتخب کر کے تیار کیا تھا تاکہ وہ تشخیصی پیٹرنز کی مشق کرائی جا سکے جنہیں لیبارٹری میڈیسن اسسٹنٹس سب سے زیادہ غلط سمجھتے ہیں۔ پندرہ میں سے ہر کیس کو کسی مخصوص تشخیصی خصوصیت کے لیے منتخب کیا گیا تھا، جو ذیل میں درج ہے۔.

Hematology (3) BT-001، BT-006، BT-007 آئرن کی کمی سے ہونے والی انیمیا · B12 کی کمی · بیٹا-تھیلیسیمیا مائنر

Endocrinology (3) BT-002، BT-008، BT-012 ہاشموٹو کی تھائرائیڈائٹس · انسولین ریزسٹنس کے ساتھ PCOS · شدید وٹامن ڈی کی کمی

Metabolic (2) BT-003، BT-013 میٹابولک سنڈروم کے ساتھ T2DM · گاؤٹ کے خطرے کے ساتھ ہائپر یوریکیمیا

Hepatology (2) BT-004، BT-009 NAFLD / NASH · شدید وائرل ہیپاٹائٹس

Nephrology · Cardiology · Rheumatology (3) BT-005، BT-010، BT-011 CKD اسٹیج 3 · ایتھروجینک ڈس لیپیڈیمیا · سسٹمک لیوپس اری تھیماٹوسس

Trap cases (2) BT-014، BT-015 Gilbert's syndrome (isolated indirect hyperbilirubinaemia) · مکمل طور پر نارمل بالغ اسکرین

یہ مخصوص تقسیم کیوں

ہیمٹولوجی کو تین کیسز ملتے ہیں کیونکہ مائیکروسائٹک ڈفرینشل اور میکروسائٹک ڈفرینشل حقیقی دنیا کی لیبارٹری پریکٹس میں سب سے زیادہ حجم والے “ٹرَپس” ہیں۔ اینڈوکرینولوجی کو تین کیسز ملتے ہیں کیونکہ ہاشموٹو، PCOS، اور وٹامن ڈی کی کمی کی پیشکشیں مختلف تشخیصی شکلیں اختیار کرتی ہیں (آٹو اینٹی باڈی سے چلنے والی، ہارمون ریشو سے چلنے والی، اور ایک ہی مارکر سے چلنے والی)۔ سنگل کیس والی خصوصیات اب بھی معنی رکھتی ہیں کیونکہ ہر CKD، ASCVD رسک، اور SLE کا اپنا اسکورنگ سسٹم ہے جسے انجن کو استعمال کرنا چاہیے (بالترتیب KDIGO اسٹیجنگ، ASCVD 10 سالہ رسک، اور 2019 EULAR/ACR SLE معیار)۔.

V11 دوسرا اپڈیٹ — 127 ملکوں کے لیبلز میں پھیلے 100,000 مصنوعی کیسز

دوسرا اپڈیٹ اصل V11 کے ہارڈ-کوڈڈ 15-کیس Python literal کو ایک بڑے، پروگراماتی طور پر تیار کردہ مصنوعی کیس سیٹ سے بدل دیتا ہے۔ کیس سیٹ ہر رن کے آغاز میں لوڈ ہوتا ہے اور شفافیت کے لیے کنفیگریشن لاگ کی جاتی ہے۔ مواد کے لحاظ سے کوہورٹ کی تقسیم نیچے دکھائی گئی ہے۔.

اینڈو کرائنولوجی 23,900 کیسز (23.9%) تھائرائیڈ، PCOS، وٹامن ڈی، گوناڈل ایکسس، پٹیوٹری

میٹابولک میڈیسن 21,900 کیسز (21.9%) T2DM، میٹابولک سنڈروم، لیپڈ پینلز، ہائپر یوریکیمیا

ہیماتولوجی 15,400 کیسز (15.4%) مائیکروسائٹک اور میکروسائٹک ڈیفرینشلز، B12/فولیٹ، آئرن اسٹڈیز

ہیپاٹولوجی 12,400 کیسز (12.4%) NAFLD/NASH، وائرل ہیپاٹائٹس، FIB-4، کولیسٹیسس

اندرونی طب (بشمول ٹریپ سب سیٹ) 9,000 کیسز (9.0%) مخلوط پیشکشیں اور 8,723 وقف شدہ ہائپرڈیگنوسس ٹریپ کیسز

امراضِ قلب (Cardiology) 7,500 کیسز (7.5%) ASCVD رسک، ایتھروجینک ڈس لپڈیمیا، hs-CRP

ریمیٹولوجی 6,000 کیسز (6.0%) SLE، RA، ویسکولائٹس، آٹو اینٹی باڈی پینلز (EULAR/ACR معیار)

Nephrology 4,000 کیسز (4.0%) CKD اسٹیجنگ (KDIGO)، eGFR کے رجحانات، الیکٹرولائٹ ڈسٹربنس

مصنوعی ملک-لیبل تقسیم — ٹاپ 10 لیبلز

100,000 مصنوعی کیسز میں 127 ملک لیبلز (ISO 3166-1 alpha-2) شامل ہیں تاکہ لوکَیل ہینڈلنگ کو جانچا جا سکے۔ لیبل اسائنمنٹ: یورپ 57.7%، امریکا 25.4%، ایشیا پیسیفک 6.2%، نامزد مڈل ایسٹ/افریقہ لیبلز 3.4%، اور 97 اضافی لیبلز کی ایک طویل دم مجموعی طور پر تقریباً 7.3%۔ کیس کاؤنٹ کے لحاظ سے دس سب سے زیادہ بار آنے والے لیبلز یہ تھے: ریاستہائے متحدہ (10,500)، برازیل (9,500)، اسپین (9,000)، اٹلی (8,000)، جرمنی (7,800)، فرانس (7,400)، پرتگال (5,800)، Türkiye (3,400)، برطانیہ (2,900)، اور میکسیکو (2,500)۔ فی-لیبل کمپوزٹ اسکورز 0.9971 سے 0.9985 کے درمیان رہے۔ یہ لیبل کاؤنٹس لوکَیل ہینڈلنگ کو جانچنے کے لیے استعمال کیے گئے تیار کردہ کیسز کی خصوصیات ہیں — یہ حقیقی صارفین نہیں ہیں اور نہ ہی حقیقی دنیا میں جغرافیائی کوریج۔.

پہلے سے رجسٹرڈ روبریک کی وضاحت

پری رجسٹریشن اس بینچمارک میں واحد سب سے اہم طریقہ کار (methodological) انتخاب ہے۔ ہر متوقع تشخیص، ہر کلینیکل اسکورنگ سسٹم، اور ہر رپورٹ سیکشن کو سورس کوڈ میں کمٹ کیا گیا اس سے پہلے کہ انجن کو invoke کیا جائے. ۔ اس لیے انجن کو خوش کرنے کے لیے روبریک کی پوسٹ ہاک ٹیوننگ ممکن نہیں۔.

جامع اسکور (composite score) تین اجزاء پر مشتمل ہے۔ ساختی (structural) جزو 35 فیصد حصہ ڈالتا ہے اور یہ ناپتا ہے کہ آیا انجن نے سات لازمی رپورٹ سیکشنز (ہیڈر، سمری، کلیدی نتائج، ڈفرینشل، اسکورنگ سسٹمز، سفارشات، فالو اپ) اور ان کے اندر موجود سولہ لازمی سب سیکشنز واپس کیے یا نہیں۔ سیکشن کی موجودگی ساختی حساب میں 40 فیصد وزن رکھتی ہے اور سب سیکشن کی موجودگی 60 فیصد وزن رکھتی ہے۔.

دی کلینیکل (clinical) جزو 55 فیصد حصہ ڈالتا ہے اور تین چیزوں کو ملا کر بنتا ہے: تشخیص-کلیدی لفظ یادداشت (کلینیکل سب اسکور کا 70 فیصد)، اسکورنگ سسٹم یادداشت (20 فیصد — کیا انجن متعلقہ صورتوں میں Mentzer، FIB-4، HOMA-IR، ASCVD رسک، KDIGO اسٹیجنگ، EULAR/ACR معیار کا حساب لگاتا ہے)، اور احتمال-جمع (probability-sum) کی درستگی جانچ (10 فیصد — ڈفرینشل احتمالات کا مجموعہ [90, 110] وقفے کے اندر ہونا چاہیے)۔ ٹریپ کیسز کے لیے، زیادہ تشخیص (hyperdiagnosis) کی واضح پینلٹی زیادہ سے زیادہ 0.30 تک منہا کی جاتی ہے، جو فی گھڑت پیتھالوجی فلیگ 0.10 کے حساب سے نکالی جاتی ہے، اور زیادہ سے زیادہ تین فلیگز تک محدود ہے۔.

دی لیٹنسی (latency) جزو 10 فیصد حصہ ڈالتا ہے۔ 20 سیکنڈ سے کم میں جواب دینے پر پورا 0.10 ملتا ہے، 40 سیکنڈ سے کم میں جواب پر 0.05 ملتا ہے، اور اس سے سست کسی بھی چیز پر صفر ملتا ہے۔ 20 سیکنڈ کا ہدف پروڈکشن پرائمری-پاتھ سروس لیول آبجیکٹو کو ظاہر کرتا ہے؛ 40 سیکنڈ کی حد فیز 2 کے لیے بھاری انجن invocations کی بیک اپ بجٹ کو ظاہر کرتی ہے۔.

پری رجسٹریشن کیا روکتی ہے

فرسٹ پارٹی بینچمارکس اپنے نمبرز کو پوسٹ ہاک روبریک ٹیوننگ کے ذریعے بڑھا چڑھا کر دکھانے کے لیے بدنام ہیں۔ پیٹرن تقریباً ہمیشہ ایک جیسا ہوتا ہے: ٹیم انجن چلاتی ہے، دیکھتی ہے کہ کہاں کم کارکردگی ہے، پھر خاموشی سے روبریک کو ایڈجسٹ کر دیتی ہے تاکہ کم کارکردگی والے حصے کم وزن کے ساتھ شمار ہوں۔ پہلی انجن کال سے پہلے روبریک کو سورس کوڈ میں کمٹ کر کے اور ہارنس کو MIT لائسنس کے تحت پبلش کر کے، یہ ایڈجسٹمنٹ ورژن کنٹرول میں نظر آ جاتی ہے۔ کوئی بھی ریپوزٹری کلون کر سکتا ہے، روبریک کے مصنفین کی تاریخیں چیک کر سکتا ہے، اور یہ تصدیق کر سکتا ہے کہ انجن کے نتائج کو اسکورنگ کو شکل دینے کے لیے استعمال نہیں کیا گیا۔.

ہائپرڈیگنوسس ٹریپ کیسز — کیوں زیادہ کال کرنا اصل ناکامی کا طریقہ ہے

نارمل اسکرینز پر پیتھالوجی کو بے حد زیادہ کال کرنا کنزیومر-فرنٹڈ میڈیکل اسسٹنٹس میں ایک دستاویزی ناکامی کا طریقہ (failure mode) ہے۔ اس کے بعد کے اخراجات میں غیر ضروری تحقیقات، مریض کی بے چینی، اور iatrogenic workup شامل ہیں۔ اس بینچمارک کے دو ٹریپ کیسز اس ناکامی کے طریقے کو واضح اور اسکور ایبل بنانے کے لیے ڈیزائن کیے گئے ہیں۔.

🟡 ٹریپ 1 — BT-014-GILBERT

پیشکش (Presentation)۔. ایک 24 سالہ مرد جس کا کل بلیروبن 2.4 mg/dL ہے۔ ڈائریکٹ حصہ نارمل ہے، ٹرانسامینیز اور الکلائن فاسفیٹیز اپنی ریفرنس رینجز کے اندر ہیں، ریٹیکولوسائٹس غیر نمایاں ہیں، اور ہاپٹوگلوبن اور LDH ہیمولائسز کو خارج کرتے ہیں۔.

درست تشریح (Correct interpretation)۔. گلبرٹ کا سنڈروم — ایک benign UGT1A1 پولیمورفزم۔ تشریح میں ہیپاٹائٹس، سروسس، ہیمولائٹک اینیمیا، یا بائلری آبسٹرکشن کو invoke نہیں کرنا چاہیے۔.

V11 نتیجہ۔. جامع 1.000۔ چھ میں سے کوئی بھی مانیٹر کیے گئے اوور-ڈائگنوسس فلیگ فعال تشخیص کے طور پر ظاہر نہیں ہوئے۔.

🟡 ٹریپ 2 — BT-015-HEALTHY

پیشکش (Presentation)۔. ایک 35 سالہ خاتون جس کا پندرہ پیرامیٹرز پر مشتمل معمول کا روٹین اسکریننگ پینل ہے۔ ہر اینالائٹ اپنی ریفرنس رینج کے اندر آرام سے موجود ہے۔.

درست تشریح (Correct interpretation)۔. اطمینان اور طرزِ زندگی کی دیکھ بھال۔ تشریح کو ایسا کوئی حدبندی (borderline) والا مرض گھڑنا نہیں چاہیے تاکہ اسے طبی طور پر مفید دکھایا جا سکے۔.

V11 نتیجہ۔. جامع اسکور 1.000۔ سات میں سے کوئی بھی مانیٹر کی گئی اوور-ڈائیگنوسس (over-diagnosis) کی وارننگ—ذیابیطس، خون کی کمی (anaemia)، ہائپوتھائرائیڈزم، ڈس لپیڈیمیا، ہیپاٹائٹس، گردے کی بیماری، کمی (deficiency)—فعال تشخیص کے طور پر سامنے نہیں آئی۔.

دونوں ٹریپس (traps) میں تیرہ مانیٹر کی گئی ہائپر-ڈائیگنوسس (hyperdiagnosis) وارننگز چیک کی گئیں۔ کوئی بھی ٹرگر نہیں ہوئی۔ یہ وہ نتیجہ ہے جو کسی بھی معالج کے لیے سب سے زیادہ اہمیت رکھتا ہے جو AI انجن کو ٹرائیج یا پری-کنسلٹیشن ٹول کے طور پر استعمال کرنے پر غور کر رہا ہو: نظام نے جہاں کوئی بیماری موجود نہیں تھی وہاں بیماری ایجاد نہیں کی.

مینٹزر انڈیکس: آئرن کی کمی کو تھیلیسیمیا ٹریٹ سے الگ کرنا

ایک اور اعلیٰ قدر والا نتیجہ کیس BT-001 (آئرن ڈیفیشنسی اینیمیا) اور کیس BT-007 (بیٹا تھیلیسیمیا مائنر) کی جوڑی سے متعلق ہے۔ دونوں میں مائیکروسائٹوسس (microcytosis) موجود ہوتا ہے اور یہ نادان (naive) کلاسیفائرز کے لیے ایک معروف رکاوٹ ہے۔ مینٹزر انڈیکس، جو MCV کو RBC کی تعداد سے تقسیم کر کے نکالا جاتا ہے، آئرن ڈیفیشنسی میں 13 سے زیادہ اور تھیلیسیمیا ٹریٹ میں 13 سے کم ہوتا ہے۔.

BT-001 میں مریضہ 34 سالہ خاتون تھیں جن کا ہیموگلوبن 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فیرِٹِن 6 ng/mL، اور TIBC بلند تھا۔ تقریباً 17.7 کا مینٹزر انڈیکس واضح (absolute) آئرن ڈیفیشنسی کی تائید کرتا ہے۔ BT-007 میں مریض 28 سالہ مرد تھے جن میں مائیکروسائٹوسس (MCV 65.8 fL) تو تھا مگر RBC کی تعداد 6.2 زیادہ تھی، RDW نارمل تھا، فیرِٹِن نارمل تھا، اور HbA2 5.6 فیصد تھا۔ تقریباً 10.6 کا مینٹزر انڈیکس تھیلیسیمیا ٹریٹ کی طرف اشارہ کرتا ہے، اور بلند HbA2 بیٹا تھیلیسیمیا مائنر کی تصدیق کرتا ہے۔.

آئرن ڈیفیشنسی اینیمیا مینٹزر > 13 فیرِٹِن کم، TSAT کم، TIBC زیادہ، RDW بلند

بیٹا تھیلیسیمیا ٹریٹ مینٹزر < 13 فیرِٹِن نارمل، RDW نارمل، HbA2 بلند (>3.5%)، RBC کی تعداد زیادہ

دونوں کیسز کا اسکور 1.000 تھا۔ انجن نے دونوں تشریحات میں مینٹزر انڈیکس کو واضح طور پر استعمال کیا اور ہر بار درست تشخیص واپس کی۔. یہ پورے بینچمارک میں واحد سب سے زیادہ طبی طور پر اطمینان بخش نتیجہ ہے, ، کیونکہ تھیلیسیمیا ٹریٹ کو آئرن ڈیفیشنسی کے طور پر غلط درجہ بندی کرنے سے آئرن کی غیر مناسب سپلیمنٹیشن ہو جاتی ہے اور فیملی اسکریننگ کے مواقع چھوٹ جاتے ہیں، جبکہ آئرن ڈیفیشنسی کو تھیلیسیمیا کے طور پر غلط درجہ بندی کرنے سے سادہ متبادل تھراپی میں تاخیر ہوتی ہے۔ ہماری فیریٹین رینج گائیڈ وسیع تر تفریقی (differential) سیاق کی وضاحت کرتی ہے۔.

V11 ابتدائی ریفرنس رن سے فی کیس نتائج (23 اپریل 2026)

15 کیسز کے پروف آف کانسیپٹ کوہورٹ پر اصل V11 ریفرنس رن بطور طریقہ کار کی بنیاد کام کرتا ہے Second Update کی: نیچے ہر فی کیس تفصیل دکھاتی ہے کہ روبریک حقیقی انجن جواب کو کیسے ہینڈل کرتا ہے۔ پندرہ میں سے بارہ کیسز نے بنیادی پاتھ پر 1.000 کی ceiling جامع اسکور حاصل کی؛ تین کیسز کو Phase 2 کے فال بیک کے ذریعے سروس کیا گیا، جس سے 0.05 latency بونس ضائع ہوا جبکہ تمام کلینیکل اور ساختی مواد محفوظ رہا۔ ایک کیس میں ایک واحد لازمی سب سیکشن غائب تھا؛ ایک کیس نے احتمال کی تقسیم کا مجموعہ معمولی طور پر کم واپس کیا۔.

کیس آئی ڈی اسپیشلٹی Composite لیٹنسی پاتھ

BT-001-IDAہیماتولوجی1.00017.8 sprimary

BT-006-B12ہیماتولوجی1.00018.4 سیکنڈprimary

BT-007-تھالاسیمیاہیماتولوجی1.00017.0 سیکنڈprimary

BT-002-ہیشاینڈو کرائنولوجی0.95037.0 سیکنڈفال بیک

BT-008-PCOSاینڈو کرائنولوجی0.98718.6 سیکنڈprimary

BT-003-T2DMمیٹابولک1.00019.1 سیکنڈprimary

BT-013-گاؤٹمیٹابولک1.00019.4 سیکنڈprimary

BT-004-NAFLDہیپاٹولوجی1.00019.6 سیکنڈprimary

BT-009-وائرل ہیپاٹائٹسہیپاٹولوجی0.95023.4 سیکنڈفال بیک

BT-014-گیلبرٹٹریپ1.00018.9 سیکنڈprimary

BT-005-CKDNephrology1.00017.4 سیکنڈprimary

BT-010-ASCVDامراضِ قلب (Cardiology)1.00019.7 سیکنڈprimary

BT-011-SLEریمیٹولوجی0.98118.2 سیکنڈprimary

BT-012-VITDاینڈو کرائنولوجی1.00019.3 سیکنڈprimary

BT-015-HEALTHYٹریپ1.00018.7 سیکنڈفال بیک

PCOS کا کیس (BT-008) نے جواب کی ساخت میں ایک لازمی ذیلی سیکشن کھو دیا — سولہ میں سے پندرہ — یعنی سولہ میں سے سولہ کے بجائے پندرہ میں سے سولہ — جس سے ساختی اسکور 1.000 سے کم ہو کر 0.963 رہ گیا۔ SLE کا کیس (BT-011) نے ایک معمولی طور پر کم شدہ probability-distribution sum واپس کیا جس سے کلینیکل اسکور 0.965 تک گر گیا، جبکہ ہر تشخیصی کلیدی لفظ اور اسکورنگ سسٹم محفوظ رہا۔ دونوں ذیلی-درست کیسز میں کوئی بھی درست تشخیص چھوٹ نہیں گئی۔.

V11 Second Update مجموعی — 100,000 کیسز

آبادیاتی پیمانے پر انفرادی کیس کی قطاریں انسانی طور پر پڑھنے کے قابل نہیں ہوتیں، اس لیے Second Update 100,000 قطاروں کی جدول کے بجائے مجموعی (aggregated) میٹرکس رپورٹ کرتی ہے۔ مرکزی مجموعی نتیجہ ذیل میں دکھایا گیا ہے؛ فی-تخصص اور فی-ملک لیبل کی تفصیلات تکنیکی رپورٹ اور Figshare ڈپازٹ میں شائع کی گئی ہیں۔ ایک اسٹریٹیفائیڈ رینڈم نمونہ n = 201 خام انجن جوابات (deterministic seed 20260426) معائنہ کے لیے GitHub results/ ڈائریکٹری میں شائع کیے جاتے ہیں۔.

جامع اسکور V11 ابتدائی: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 100,000 کیسز والے کوہورٹ میں

ساختی اسکور (اوسط) V11 ابتدائی: 0.998 → Second Update: 1.000 آبادی کے پیمانے پر کامل ساختی مطابقت

کلینیکل اسکور (اوسط) V11 ابتدائی: 0.998 → Second Update: 0.996 −0.002؛ کوئی کیس خود تشخیص سے محروم نہیں ہوا

تاخیر — اوسط (حد) V11 ابتدائی: 20.17 سیکنڈ (17.0–37.0 سیکنڈ) → دوسرا اپڈیٹ: 13.26 سیکنڈ (9.0–16.94 سیکنڈ) رنز کے درمیان پروڈکشن انجن کی اصلاحات

انجن پاتھ = بنیادی V11 ابتدائی: 12 / 15 → دوسرا اپڈیٹ: 100,000 / 100,000 رن کے دوران کسی بھی مرحلے پر فیز 2 کی بیک اپ (fallback) کی ضرورت نہیں پڑی

ٹریپ-سب سیٹ ہائپرڈیگنوسس فلیگز V11 ابتدائی: 0 / 13 → دوسرا اپڈیٹ: 0 / 87,412 آبادیاتی پیمانے پر صفر غلط مثبت (8,723 ٹریپ کیسز کی نگرانی کی گئی)

ہیڈ لائن اسکور ہمیں کیا نہیں بتاتا

اس مخصوص پہلے سے رجسٹرڈ روبریک کے تحت 99.80 فیصد کا ایک جامع اسکور، 127 ملکوں کے لیبلز میں پھیلی 100,000-کیس مصنوعی کوہورٹ پر، تقریباً-سیلنگ کارکردگی کی نمائندگی کرتا ہے — مگر اسے احتیاط سے سیاق میں رکھنا چاہیے۔ یہ نتیجہ V11 میں ہم نے جس روبریک کے لیے سورس کوڈ میں کمٹ کیا تھا اس کے مقابلے میں انجن کے رویّے کو بیان کرتا ہے؛ یہ جنگل میں موجود ہر اس بلڈ ٹیسٹ پینل پر انجن کی درستگی کے بارے میں کوئی عالمگیر دعویٰ نہیں۔.

اسکور یہ بتاتا ہے کہ انجن نے اس تشخیص کے لیے منتخب کردہ تشخیصی پیٹرنز کو آبادیاتی پیمانے کے کوہورٹ میں درست طریقے سے ہینڈل کیا، ایک ایسی میتھڈولوجی کے ساتھ جو شائع شدہ اور قابلِ تکرار ہے۔ یہ نہیں کہتا کہ انجن جنگل میں موجود ہر خون کے ٹیسٹ پینل پر درست ہے۔ یہ یہ بھی نہیں کہتا کہ انجن کو کلینیشن کے فیصلے کی جگہ لینا چاہیے۔ اور یہ یہ بھی نہیں کہتا کہ انجن متبادل اے آئی سسٹمز سے بہتر ہے — دیگر انجنوں کے مقابلے میں تقابلی تجزیے جان بوجھ کر اس رپورٹ کے دائرۂ کار سے باہر رکھے گئے تھے۔.

اسکور جو چیز قائم کرتا ہے وہ ایک بنیاد (baseline) ہے۔ چونکہ روبریک اور ہارنس عوامی ہیں، انجن کے مستقبل کے ورژنز کو اسی روبریک کے مقابلے میں جانچا جا سکتا ہے — V11 ابتدائی 15 کیسز پر، دوسرا اپڈیٹ 100,000 کیسز کے کوہورٹ پر، یا کسی بھی بعد کی توسیع پر — اور شائع شدہ اسکور اور کسی بھی بعد کے رن کے درمیان فرق خود قابلِ پیمائش ہے۔ پہلے سے رجسٹریشن کی یہی اہمیت ہے: یہ کارکردگی کے دعووں کو قابلِ جانچ دعووں میں بدل دیتا ہے.

10 منٹ میں اس بینچ مارک کو کیسے دوبارہ بنایا جائے

تکرار کے لیے صرف ایک Kantesti API credential pair اور Python 3.10 یا بعد کا ماحول درکار ہے جس میں requests اور reportlab لائبریریز انسٹال ہوں۔ مکمل harness ایک ہی self-contained Python ماڈیول ہے جو MIT لائسنس کے تحت جاری کیا گیا ہے۔.

💻 GitHub MIT-لائسنس یافتہ harness · خام جوابات · reference run 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · معیاری علمی ریکارڈ 🎓 ریسرچ گیٹ Publication 404175463 · V11 Second Update · academic discovery layer 📄 Academia.edu Paper 165956808 · V11 Second Update · academic discovery layer

تازہ رن کے لیے چار مراحل

پہلا۔. ریپوزٹری کلون کریں: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. دوسرا۔. requirements.txt کے ساتھ ڈپینڈنسیز انسٹال کریں pip install -r requirements.txt (Second Update اضافہ کرتا ہے mysql-connector-python ≥ 8.0 SQL کیس لوڈر کے لیے)۔. تین۔. سیٹ کریں KANTESTI_USERNAME اور KANTESTI_PASSWORD انجن API کے لیے environment variables کے طور پر۔ Second Update SQL کیس لوڈر کے لیے، مزید یہ بھی سیٹ کریں KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، اور KANTESTI_DB_PASSWORD — لوڈر ایک صرفِ پڑھنے (read-only) کردار کے ذریعے کنیکٹ ہوتا ہے (bench_reader) جسے شناختی (identifying) ٹیبلز پر کوئی مراعات حاصل نہیں۔. چار۔. چلائیں python benchmark_bloodtest.py --limit 100000 مکمل Second-Update رن کے لیے، یا python benchmark_bloodtest.py --limit 1000 تیز تکرار (quick iteration) کے لیے۔ آؤٹس پٹس میں جمع ہوتے ہیں ./benchmark_results/: ایک CSV اسکور کارڈ جس میں فی-ملک لیبل اور فی-تخصص کالمز ہوں، ایک JSON مجموعہ (aggregate)، ایک اسٹریٹیفائیڈ-رینڈم خام-جواب نمونہ، اور ایک Markdown رپورٹ۔.

23 اپریل 2026 (V11 ابتدائی، 15 کیسز) اور 26 اپریل 2026 (V11 Second Update، 100,000 کیسز) کے ریفرنس رنز کو محفوظ رکھا گیا ہے results/ ریپوزٹری کی ڈائریکٹری میں۔ نیا رن ایک نیا ٹائم اسٹیمپڈ اسکور کارڈ تیار کرے گا جبکہ ریفرنس رنز کو بغیر چھیڑے چھوڑ دے گا۔ اگر آپ کے رن سے معنی خیز طور پر مختلف نتیجہ نکلے تو براہِ کرم GitHub پر ایک issue کھولیں جس میں رن ٹائم اسٹیمپ اور response metadata میں واپس آنے والا engine ورژن شامل ہو۔.

حدود اور آئندہ کام

127 ملک لیبلز کے ساتھ 100,000 کیسز تک بھی، چار حدود کو واضح طور پر تسلیم کرنا ضروری ہے: طویل دم (long-tail) لیبلز کی کم نمونہ گیری، سنگل شاٹ ایویلیوایشن، سنگل انجن اسکوپ، اور سنگل سورس ڈیٹا کی اصل۔ ان میں سے ہر ایک کو فعال فالو اپ کام میں حل کیا جا رہا ہے۔.

طویل دم لیبل کوریج۔. Second Update میں 127 ملک لیبلز شامل ہیں، مگر تقسیم غیر متوازن ہے — ٹاپ 10 لیبلز کیسز کے تقریباً 66.4% پر مشتمل ہیں، اور باقی 97 اضافی لیبلز مل کر تقریباً 7.3% (تقریباً 7,300 کیسز مجموعی طور پر، اوسطاً فی لیبل ~75 کیسز) کا حصہ ڈالتے ہیں۔ اس طویل دم میں فی-لیبل کمپوزٹس اس لیے مرکزی (headline) اعداد و شمار کے مقابلے میں زیادہ شور (noisier) رکھتے ہیں۔ مستقبل کی رنز لیبل اسائنمنٹ کو دوبارہ بیلنس کریں گی تاکہ فی-لیبل اندازے مضبوط (firm up) ہو سکیں۔.

سنگل شاٹ تشخیص۔. کوہورٹ (cohort) کے ہر کیس کو ایک بار جانچا گیا۔ بڑے لینگویج ماڈلز کم sampling temperature پر بھی آؤٹ پٹ میں غیر معمولی (non-trivial) تغیر (variance) دکھاتے ہیں، اس لیے فی کیس پانچ تشخیصات کے ساتھ multi-run پروٹوکول اور رپورٹ کی گئی variance اگلا فطری قدم ہے — خاص طور پر trap-case سب سیٹ پر، جہاں sampling jitter کے تحت تسلسل (consistency) حفاظتی دعوے (safety claim) کا حصہ ہے۔.

سنگل انجن دائرہ کار۔. یہ رپورٹ ایک ہی انجن کی خصوصیت بیان کرتی ہے۔ متبادل AI سسٹمز کے خلاف تقابلی تجزیے یہاں دائرۂ کار (out of scope) میں نہیں؛ ہم انہیں اسی MIT-لائسنسڈ harness کے مقابل اسی طرح کی مناسب methodology کے ساتھ ایک علیحدہ آزاد مطالعے کے طور پر کر سکتے ہیں۔.

مصنوعی ڈیٹا۔. 100,000 کیسز مصنوعی طور پر تیار کیے گئے ہیں، نہ کہ “synthetic cases”؛ اور نتائج حقیقی دنیا کی کلینیکل کارکردگی میں منتقل نہیں ہوتے۔ حقیقی، رضامند، بیرونی طور پر حاصل کردہ ڈیٹا پر ایویلوایشن کے لیے مناسب اخلاقی نگرانی درکار ہوگی اور یہ اس مصنوعی بینچمارک کے دائرۂ کار سے باہر ہے۔.

ان چار کے علاوہ، سب سے زیادہ اثر انداز ہونے والی منصوبہ بند توسیع ہر دائرہ اختیار کے لیے multi-language parity ہے۔ Kantesti AI Engine 75+ زبانوں میں صارفین کو سہولت دیتا ہے، اور زبان کے لحاظ سے stratified Second-Update سب کوہورٹس (ترکی، جرمن، ہسپانوی، فرانسیسی، اطالوی، پرتگالی، عربی، مینڈارن) چلانے سے انجن کی معاونت یافتہ زبانوں میں آؤٹ پٹ کوالٹی کو مقدار میں ناپا جائے گا۔ ہر زبان کے لحاظ سے کی گئی تجزیہ رپورٹ کو اپنے اپنے DOI اور harness برانچ کے ساتھ شائع کیا جائے گا۔.

وہی انجن آزمائیں جس نے 100,000 کیسز پر 99.80% کمپوزٹ اسکور حاصل کیا

اپنے خون کے ٹیسٹ پینل کو اسی پروڈکشن اینڈ پوائنٹ پر اپ لوڈ کریں جس کا اس بینچ مارک میں جائزہ لیا گیا تھا۔ دنیا بھر میں 2 ملین سے زائد صارف 75+ زبانوں میں 15,000 سے زیادہ بایومارکرز کی تشریح کے لیے Kantesti AI Engine استعمال کرتے ہیں۔.

🔬 مفت ڈیمو آزمائیں۔

کروم ایکسٹینشن ایپ اسٹور گوگل پلے

📚 اس بینچ مارک کو کیسے حوالہ دیں

BibTeX

@techreport{klein2026kantesti_v11_second_update,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {A Pre-Registered, Rubric-Based Automated Technical  
                 Benchmark of the Kantesti Blood-Test Interpretation  
                 Engine on 100,000 Synthetic Test Cases  
                 --- V11 Second Update},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11 (Second Update)},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti خون کے ٹیسٹ تشریح انجن کی — V11 دوسرا اپڈیٹ — 100,000 مصنوعی ٹیسٹ کیسز پر ایک پری-رجسٹرڈ، روبریک-بیسڈ خودکار تکنیکی بینچ مارک (Technical Report V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 بیرونی طریقہ کار کے حوالہ جات

Mentzer, W. C. (1973). آئرن کی کمی کو تھیلیسیمیا ٹریٹ سے تفریق کرنا. The Lancet, 301(7808), 882.

🏥 پب میڈ

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 European League Against Rheumatism / American College of Rheumatology سسٹمک لیوپس ایری تھیماٹوسس کے لیے درجہ بندی کے معیار. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 ڈی او آئی 🏥 پب میڈ

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: بڑے لینگویج ماڈلز کے لیے میڈیکل ڈومین ہیلوسینیشن ٹیسٹ. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%جامع اسکور

100,000اسکور کیے گئے کیسز

127احاطہ کیے گئے ملک لیبلز

0 / 87,412ٹریپ کے غلط مثبت نتائج

اکثر پوچھے گئے سوالات

مصنوعی ٹیسٹ کیسز پر Kantesti AI انجن کی درستگی کتنی ہے؟

ایک پری-رجسٹرڈ روبریک پر، آٹھ مواد کے شعبوں اور 127 ملک لیبلز میں 100,000 مصنوعی طور پر تیار کردہ ٹیسٹ کیسز پر چلانے کے بعد (V11 دوسرا اپڈیٹ)، انجن نے 99.80 فیصد کا ایک جامع اسکور حاصل کیا، 87,412 مانیٹرڈ ٹریپ-کیس مواقع میں صفر ہائپرڈیگنوسس فلیگز کے ساتھ اور اوسط رسپانس لیٹنسی 13.26 سیکنڈ رہی۔ یہ جامع پیمائش مصنوعی ان پٹس پر آؤٹ پٹ کی مطابقت (conformance) کو ناپتی ہے، نہ کہ تشخیصی درستگی کو۔ اصل V11 ریلیز نے اسی روبریک کو 15 ہاتھ سے تیار کردہ کیسز پر آزمایا تھا (جامع 99.12%)؛ دوسرا اپڈیٹ روبریک کو بائٹ-آئیڈینٹیکل رکھتا ہے اور اسے ایک بڑے مصنوعی کوہورٹ تک بڑھاتا ہے۔ مکمل اسکورکارڈ Figshare پر DOI 10.6084/m9.figshare.32095435 کے تحت اور GitHub پر MIT لائسنس کے تحت شائع کیا گیا ہے۔.

کیا Kantesti اے آئی انجن کی طبی طور پر توثیق (کلینیکل ویلیڈیشن) کی گئی ہے؟

نہیں۔ انجن کو ایک خودکار تکنیکی بینچ مارک (کلینیکل ویلیڈیشن نہیں) کے ذریعے جانچا گیا ہے، ایسے روبریک کے مقابلے میں جو V11 کے ابتدائی رن سے پہلے سورس کوڈ میں فریز کیا گیا تھا اور V11 Second Update کے لیے بائٹ بہ بائٹ وہی رکھا گیا؛ 100,000 مصنوعی بلڈ ٹیسٹ کیسز پر جانچ کی گئی جن میں ہیمٹولوجی، اینڈوکرائنولوجی، میٹابولک میڈیسن، ہیپاٹولوجی، نیفرولوجی، کارڈیالوجی، ریمیٹولوجی، اور اندرونی طب (internal medicine) شامل ہیں، جو 127 ملک لیبلز سے اخذ کیے گئے تھے۔ کلینیکل نگرانی ڈاکٹر تھامس کلین (Dr. Thomas Klein)، MD (ORCID 0009-0009-1490-1321) کی طرف سے فراہم کی گئی، جو بورڈ سے تصدیق شدہ کلینیکل ہیمٹولوجسٹ اور Kantesti AI میں چیف میڈیکل آفیسر ہیں۔.

ہائپرڈیگنوسس ٹریپ کیس کیا ہے؟

ہائپرڈایگنوسس ٹریپ کیس ایک ایسا کلینیکل منظرنامہ ہے جو خاص طور پر AI انجنوں میں اوور-ڈایگنوسس کے رویّے کو پکڑنے کے لیے ڈیزائن کیا جاتا ہے۔ V11 ابتدائی بینچمارک نے ایسے دو کیسز کو طریقہ کار کے ثبوت (proof-of-concept) کے طور پر استعمال کیا: ایک تنہا غیر مستقیم ہائپر بلیروبینیمیا جو گلبرٹ کے سنڈروم سے مطابقت رکھتا ہے (جہاں درست تشریح ہیپاٹائٹس یا ہیمولائسز کے بجائے UGT1A1 پولیمورفزم کی بے ضرر نوعیت ہے) اور ایک مکمل طور پر نارمل بالغ اسکریننگ پینل (جہاں درست آؤٹ پٹ تسلی (reassurance) ہے نہ کہ کسی گھڑ ی ہوئی بارڈر لائن پیتھالوجی کی تیاری)۔ V11 Second Update نے اس ٹریپ-کیس طریقہ کار کو 8,723 کیسز کے لیے مخصوص سب سیٹ تک بڑھایا جس سے 87,412 مانیٹرڈ ہائپرڈایگنوسس فلیگ کے مواقع پیدا ہوئے — اور انجن کی false-positive شرح صفر رہی۔.

کیا Kantesti اے آئی انجن کی تشخیص دوبارہ قابلِ عمل (reproducible) ہے؟

مکمل ایویلوایشن ہارنس MIT لائسنس کے تحت ایک ہی self-contained Python ماڈیول کے طور پر ریلیز کی گئی ہے۔ V11 ابتدائی رن کے لیے صرف Kantesti API credential pair اور Python 3.10 یا بعد کی ضرورت ہے۔ V11 Second Update ایک parameterised، read-only SQL case loader شامل کرتا ہے جس کے لیے Kantesti clinical-repository credentials درکار ہیں (a bench_reader ایسی رول جس کے پاس ٹیبلز کی شناخت کے لیے کوئی مراعات نہیں ہیں)۔ کوڈ، کیس لوڈر کی SQL، روبرک (ریلیزز کے درمیان بائٹ بہ بائٹ یکساں)، اور V11 ابتدائی اور Second Update ریفرنس رنز سے خام انجن جوابات کا ایک stratified random sample github.com/emirhanai/kantesti-blood-test-benchmark پر دستیاب ہے اور Figshare، ResearchGate، اور Academia.edu پر بھی mirrored ہے۔.

Kantesti اے آئی انجن آئرن کی کمی کو بیٹا تھیلیسیمیا ٹریٹ سے کیسے فرق کرتا ہے؟

انجن Mentzer index کا اطلاق کرتا ہے، جو mean corpuscular volume کو red blood cell count سے تقسیم کر کے نکالا جاتا ہے۔ Mentzer index 13 سے اوپر آئرن ڈیفیشنسی اینیمیا کی حمایت کرتا ہے، جبکہ 13 سے نیچے کی ویلیو بیٹا-تھیلیسیمیا ٹریٹ کی حمایت کرتی ہے۔ V11 ابتدائی بینچمارک میں دونوں پریزنٹیشنز کو درست طور پر درجہ بندی کیا گیا، واضح Mentzer index حساب کے ساتھ، جسے ferritin، RDW، اور HbA2 کے سیاق سے سپورٹ کیا گیا۔ V11 Second Update میں 100,000-کیس کوہورٹ کے دوران بھی آبادی سطح پر وہی differential رویّہ برقرار رہا۔.

میں خام بینچ مارک ڈیٹا اور سورس کوڈ کہاں سے تلاش کر سکتا ہوں؟

تکنیکی رپورٹ Figshare پر DOI 10.6084/m9.figshare.32095435 کے تحت جمع کی گئی ہے (جس میں V11 ابتدائی ریلیز اور V11 Second Update دونوں شامل ہیں)، ResearchGate publication 404175463 اور Academia.edu paper 165956808 پر mirrored ہے — دونوں کو V11 Second Update کے عنوان اور 100,000-کیس نتائج کے ساتھ اپڈیٹ کیا گیا ہے — اور MIT-licensed Python harness جس میں تمام ریفرنس رن نتائج شامل ہیں github.com/emirhanai/kantesti-blood-test-benchmark پر موجود ہے۔ چار پلیٹ فارم کی mirror نیٹ ورک طویل مدتی دستیابی اور citation کی لچک کو یقینی بناتی ہے۔.

AI میڈیکل بینچمارکس کے لیے پری رجسٹریشن کیوں اہم ہے؟

پری رجسٹریشن پوسٹ ہاک روبرک ٹیوننگ کو روکتی ہے، جو کمپنی کے چلائے گئے بینچمارکس کے اپنے نمبرز کو بڑھانے کا سب سے عام طریقہ ہے۔ روبرک کو کسی بھی انجن کال سے پہلے سورس کوڈ میں کمٹ کر کے اور ہارنس کو عوامی طور پر شائع کر کے، روبرک لکھنے والے کی تاریخیں ورژن کنٹرول میں قابلِ معائنہ (inspectable) ہو جاتی ہیں، اور انجن کے نتائج اسکورنگ معیار کو شکل نہیں دے سکتے۔.

کیا اس بینچمارک میں دوسرے AI انجنز کے ساتھ تقابل شامل ہے؟

نہیں۔ V11 رپورٹ — ابتدائی ریلیز اور Second Update دونوں — جان بوجھ کر ایک ہی انجن کو ایک فکسڈ روبرک کے مقابلے میں بیان کرتی ہے، بجائے اس کے کہ اسے متبادل تجارتی سسٹمز کے مقابلے میں رکھا جائے۔ ہارنس MIT لائسنس کے تحت اوپن سورس ہے (اب SQL case loader بھی شامل ہے)، لہٰذا آزاد محققین اپنی پسند کے کسی بھی انجن کو اسی روبرک اور اسی case loader کے مقابلے میں جانچ سکتے ہیں اور اپنے نتائج شائع کر سکتے ہیں۔.

کیا مریضوں کے کیسز حقیقی ہیں یا مصنوعی (synthetic)؟

تمام کیسز مصنوعی طور پر تیار کیے گئے ہیں — V11 ابتدائی ریلیز میں 15 ہاتھ سے تیار کردہ کیسز اور دوسرے اپڈیٹ میں 100,000۔ یہ مصنوعی کیسز نہیں ہیں: کوئی مصنوعی ڈیٹا نہیں، کوئی رضامندی (consent) کا عمل نہیں، اور کوئی ڈی-آئیڈینٹیفیکیشن شامل نہیں، کیونکہ کوہورٹ میں کوئی ذاتی ڈیٹا موجود ہی نہیں۔ شائع شدہ ہارنس، تکنیکی رپورٹ، یا جاری کردہ ڈیٹاسیٹس میں کوئی ذاتی ڈیٹا ظاہر نہیں ہوتا۔.

⚕️ میڈیکل ڈسکلیمر & مفادات کا تصادم

یہ بینچ مارک رپورٹ تحقیق اور طریقہ کار کی شفافیت کے مقاصد کے لیے ہے۔ یہ طبی مشورہ نہیں ہے، تشخیص نہیں ہے، اور پیشہ ورانہ طبی نگہداشت کا متبادل نہیں؛ یہاں کوئی بھی نتیجہ ڈاکٹر کو دکھانے میں تاخیر یا اس سے گریز کے لیے استعمال نہیں ہونا چاہیے۔ تشخیص اور علاج کے فیصلوں کے لیے ہمیشہ کسی اہل ہیلتھ کیئر فراہم کنندہ سے رجوع کریں۔ یہ کمپنی کے اپنے انجن کا ایک خود سے چلایا جانے والا اندرونی بینچ مارک ہے اور اسے آزادانہ طور پر ویلیڈیٹ یا peer-reviewed نہیں کیا گیا۔ جامع اسکور ایک مقررہ روبریک (رپورٹ ساخت، keyword اور scoring-system recall، اور latency) کے مطابق ہونے کی پیمائش کرتا ہے؛ یہ حقیقی دنیا کی تشخیصی درستگی یا کلینیکل سیفٹی کی پیمائش نہیں ہے۔ دونوں مصنفین اسی کمپنی میں ملازم ہیں اور Kantesti Ltd میں ایکویٹی رکھتے ہیں، اور جس انجن کا جائزہ لیا جا رہا ہے وہ اسی تنظیم کی ایک تجارتی پروڈکٹ ہے۔ مفادات کا یہ تصادم سورس کوڈ میں روبریک کو pre-register کرنے، harness کو MIT licence کے تحت جاری کرنے، اور raw انجن جوابات کے stratified random sample کو شائع کرنے سے کم کیا گیا ہے۔.

E-E-A-T اعتماد کے اشارے

⭐

تجربہ

کیس پینل کے انتخاب کی نگرانی کے ساتھ 15+ سال کی کلینیکل ہیمٹالوجی اور لیبارٹری میڈیسن کی پریکٹس۔.

📋

مہارت

پری رجسٹرڈ روبرک ڈیزائن جس میں واضح ہائپرڈیگنوسس (hyperdiagnosis) جرمانے اور تسلیم شدہ کلینیکل اسکورنگ سسٹمز (Mentzer, FIB-4, EULAR/ACR, KDIGO) شامل ہیں۔.

👤

مستندیت

لیڈ مصنف ڈاکٹر تھامس کلائن، ایم ڈی (ORCID 0009-0009-1490-1321)۔ نفاذ (Implementation) جولین ایمیرہان بلوت، CEO of Kantesti Ltd نے کیا۔.

🛡️

امانت داری

MIT لائسنس یافتہ قابلِ تکرار (reproducible) ہارنس، خام انجن رسپانس شائع کیے گئے، اوپن مفادات کے تصادم کی واضح (disclosure) معلومات، چار پلیٹ فارم ریسرچ آئینہ نیٹ ورک۔.

🏢 کنٹیسٹی لمیٹڈ انگلینڈ اور ویلز میں رجسٹرڈ · کمپنی نمبر۔. 17090423 لندن، برطانیہ · kantesti.net