هي بينچمارڪ ڇو موجود آهي ۽ اهو ڇا پرکي ٿو
AI جي مدد سان خون جي جاچ جو نتيجو صارفين ۽ ڪلينڪل ورڪ فلو ۾ وڌندڙ استعمال ٿي رهيو آهي، پر ليبارٽري ميڊيسن لاءِ ٺهيل ورجائي سگهندڙ جائزي جا فريم ورڪ اڃا به گهٽ ملن ٿا. هن ماحول ۾ سڀ کان اهم سوال اهي نه آهن جيڪي عام طبي سوال-جواب بئنچمارڪن ۾ ڍڪيل هجن: ڇا انجڻ لوهه جي کوٽ کي ٿيلاسيميا ٽريٽ کان ڌار ڪري سگهي ٿي جڏهن mean corpuscular volume هڪجهڙو هجي، ڇا اهو Gilbert's syndrome کي هيپاٽائيٽس طور اوور-ڊائگنوس ڪري ٿو، ۽ ڇا اهو مڪمل طور تي عام اسڪريننگ پينل ۾ بيماري ٺاهي ٿو؟
هڪ واحد رت جي جاچ جو پينل عام طور تي ايترو سگنل رکي ٿو جو ڪيترن ئي مقابلي واري تشريحن کي سهارو ڏئي سگهي، ۽ تشريح ڪندڙ ڪلينشين جو ڪم اهو آهي ته انهن تشريحن کي هڪ ٻئي جي مقابلي ۾ وزن ڏئي، نه ته ڪنهن درسي ڪتاب واري “سڌي جواب” کي ڳولهي. هڪ اهڙو انجڻ جيڪو درسي ڪتاب وارن ڪيسن تي سٺو ڪم ڪري سگهي ٿو، اهو به انهن ڪيسن تي ناڪام ٿي سگهي ٿو جيڪي سڀ کان وڌيڪ اهم آهن: فرقيوار تشخيص (differential-diagnosis) جون ڦاسون، اهي بي ضرر تبديليون جيڪي اڪيلو ڏسڻ تي خطرناڪ لڳن ٿيون، ۽ مڪمل طور تي عام پينل جيڪي اعتماد ڪندڙ اسسٽنٽن کي بيماري ٺاهڻ تي اُتساهين ٿا.
هي بئنچمارڪ بلڪل انهن ناڪامي جي طريقن جي بنياد تي ٺاهيو ويو. پندرهن مان هر هڪ ڪيس کي هڪ مخصوص تشخيصي خاصيت لاءِ چونڊيو ويو: لوهه جي گهٽتائي سبب مائڪرو سائيٽوسس (microcytosis) جنهن کي ساڳي mean corpuscular volume سان beta-thalassaemia trait کان ڌار رکڻو آهي، گِلبرٽ جي سنڊروم (Gilbert's syndrome) جي پيشڪش جتي صرف هڪ ئي غيرمعمولي ڳالهه الڳ ٿيل indirect hyperbilirubinaemia آهي، ۽ هڪ پندرهن-پيرا ميٽر اسڪريننگ پينل جنهن ۾ هر اينالائيٽ پنهنجي ريفرنس رينج اندر ئي موجود آهي. روبرڪ انهن انجڻن کي انعام ڏئي ٿو جيڪي هر ڪيس کي پنهنجي شرطن مطابق پڙهن ٿا، ۽ انهن انجڻن کي سزا ڏئي ٿو جيڪي اهڙي پڪ واري تشخيص تائين پهچن ٿا جتي اهڙي تشخيص جي ضرورت ئي نه هجي.
ڊاڪٽر ٿامس ڪلين (Thomas Klein, MD) جي حيثيت ۾، مون ڪيس پينل چونڊيو ڇو ته اهي ئي نمونا آهن جيڪي ليبارٽري-ميڊيسن اسسٽنٽس سڀ کان وڌيڪ اڪثر غلط ڪندا آهن. مهانگي ناڪامي جو طريقو "ڪو ناياب بيماري وڃائڻ" ناهي—اهو انهن مريضن ۾ معمولي بيماريءَ جهڙي (routine) پيتھالاجي ٺاهڻ آهي جن کي اها اصل ۾ نه هجي. اسان جو طبي تصديق hub وسيع فريم ورڪ بيان ڪري ٿو؛ هي صفحو V11 انجڻ تي ان جو لاڳو ٿيل نتيجو بيان ڪري ٿو.
جديد حوالاتي رن — V11 (اپريل 2026)
اپريل 2026 جي Kantesti AI Engine V11 لاءِ ريفرنس رن هڪ گڏيل (composite) اسڪور پيدا ڪيو 99.12% اڳ-رجسٽرڊ ٿيل پندرهن-ڪيس روبرڪ تي. ٻئي هائپرڊائگنوسس (hyperdiagnosis) واري ڦاس واري ڪيسن جا اسڪور وڌ ۾ وڌ حد (ceiling) تي هئا. Mentzer index کي لوهه جي گهٽتائي بمقابله ٿالاسيميا جي فرقيوار تشخيص (differential) تي صحيح طريقي سان لاڳو ڪيو ويو.
گڏيل فارمولا ٽن حصن کي گڏ ڪري ٿو: ساختي مطابقت (structural conformance) ستن لازمي رپورٽ سيڪشنن ۽ سورهن لازمي سب سيڪشنن سان،, ڪلينڪل درستگي (clinical accuracy) ماپي وئي: keyword recall + scoring-system recall + امڪاني-تقسيم (probability-distribution) جي درستگي جي چيڪ سان، ۽ جواب جي دير (response latency) 20 سيڪنڊن واري بنيادي (primary) سروس-ليول ٽارگيٽ جي خلاف. صحيح ورهاست هيٺ ڏنل روبرڪ فارمولا ۾ ڏيکاريل آهي.
سر جي خالي جاءِ (headroom) جا باقي 0.88 سيڪڙو پوائنٽ لڳ ڀڳ مڪمل طور تي latency loss ۾ ورهائجي وڃن ٿا — Phase 2 جي ٽي fallback invocations مان هر هڪ جو مجموعي طور تي لڳ ڀڳ 0.05 نقصان هو، جن 0.88-point جي کوٽ مان اٽڪل 0.60 حصو ڏنو — ڪلينڪل مواد ۾ نه. انجڻ پندرهن مان ڪنهن به صورت ۾ صحيح تشخيص وڃائي نه؛ جتي اها گهٽ پئي، اتي اها ٿوري تعداد ۾ ڪجهه invocations ۾ 20 سيڪنڊن جي بنيادي (primary-path) ٽارگيٽ کان ٿورو وڌيڪ وقت وٺڻ سبب گهٽ پئي.
ست طبي ماهرن ۾ پندرهن ڪيس
ڪيس پينل ست خاصيتن تي مشتمل آهي — hematology، endocrinology، metabolic medicine، hepatology، nephrology، cardiology، rheumatology — ۽ گڏوگڏ ٻه وقف ڪيل hyperdiagnosis trap ڪيس. هر ڪيس هڪ گمنام ڪيل حقيقي مريض رڪارڊ آهي، جيڪو Kantesti ڪلينڪل ڊيٽا ريپوزٽري مان لکيل informed consent تحت ورتو ويو آهي.
De-identification Safe Harbor طريقي تحت ڪئي وئي: سڀ سڌا سڃاڻپ ڪندڙ ختم ڪيا ويا يا تبديل ڪيا ويا، ۽ هر رڪارڊ کي BT-NNN-LABEL فارميٽ ۾ هڪ benchmark-internal case code ڏنو ويو. پروسيسنگ هيٺ ڪئي وئي GDPR آرٽيڪل 9(2)(j) مناسب حفاظتي قدمن سان سائنسي تحقيق لاءِ، ۽ برطانيا جي UK GDPR جي برابر شقن مطابق. شايع ٿيل harness، ٽيڪنيڪل رپورٽ، يا جاري ڪيل ڊيٽا سيٽن ۾ ڪٿي به ڪا به ذاتي سڃاڻپ واري معلومات موجود ناهي.
هي خاص ورڇ ڇو
هيماتولوجي کي ٽي ڪيس ملن ٿا، ڇاڪاڻتہ مائڪرو سائيٽڪ ڊفرينشلز ۽ ميڪرو سائيٽڪ ڊفرينشلز حقيقي دنيا جي ليبارٽري عمل ۾ سڀ کان وڌيڪ مقدار وارا “ٽريپس” آهن. اينڊو ڪرائينولوجي کي ٽي ڪيس ملن ٿا، ڇاڪاڻتہ Hashimoto's، PCOS، ۽ وٽامن ڊي جي کمي جون پيشڪشون مختلف تشخيصي شڪليون اختيار ڪن ٿيون (آٽو اينٽي باڊي-هلائيندڙ، هارمون-تناسب-هلائيندڙ، واحد-مارڪر-هلائيندڙ). واحد ڪيس واريون خاصيتون اڃا به معنيٰ رکن ٿيون، ڇاڪاڻتہ هر CKD، ASCVD خطري، ۽ SLE جو پنهنجو اسڪوئرنگ سسٽم آهي، جنهن کي انجڻ کي سڏڻ گهرجي (KDIGO اسٽيجنگ، ASCVD 10-سال خطرو، ۽ 2019 EULAR/ACR SLE معيار ترتيبوار).
اڳ-رجسٽرڊ روبرڪ جي وضاحت
اڳ-رجسٽريشن هن بينچمارڪ ۾ سڀ کان اهم طريقيڪار وارو فيصلو آهي. هر متوقع تشخيص، هر ڪلينڪل اسڪوئرنگ سسٽم، ۽ هر رپورٽ سيڪشن کي سورس ڪوڊ ۾ لاڪ ڪيو ويو انجڻ کي سڏڻ کان اڳ. تنهنڪري انجڻ کي خوش ڪرڻ لاءِ روبريڪ جي پوسٽ-هاڪ ٽيوننگ ممڪن ناهي.
جامع اسڪوئر ٽي حصن تي مشتمل آهي. ساختي حصو 35 سيڪڙو جو حصو ڏئي ٿو ۽ ماپي ٿو ته انجڻ ڇا ست لازمي رپورٽ سيڪشن واپس ڪيا (هيڊر، خلاصو، اهم نتيجا، ڊفرينشل، اسڪوئرنگ سسٽم، سفارشون، فالو اپ) ۽ انهن اندر موجود سولهن لازمي سب سيڪشن. سيڪشن موجودگي ساختي حساب ۾ 40 سيڪڙو وزن رکي ٿي ۽ سب سيڪشن موجودگي 60 سيڪڙو وزن رکي ٿي.
جي ڪلينڪل حصو 55 سيڪڙو جو حصو ڏئي ٿو ۽ ٽن شين کي گڏ ڪري ٿو: تشخيص-ڪي ورڊ يادگيري (ڪلينڪل سب-اسڪوئر جو 70 سيڪڙو)، اسڪوئرنگ سسٽم يادگيري (20 سيڪڙو — ڇا انجڻ Mentzer، FIB-4، HOMA-IR، ASCVD خطرو، KDIGO اسٽيجنگ، EULAR/ACR معيار جتي لاڳو هجن، حساب ڪري ٿو)، ۽ امڪان-مجموعو درستگي چيڪ (10 سيڪڙو — ڊفرينشل امڪانن جو مجموعو [90, 110] وقفي اندر هئڻ گهرجي). ٽريپ ڪيسن لاءِ، وڌ ۾ وڌ 0.30 جي واضح هائپر ڊائگنوسس پينلٽي ڪٽجي ٿي، جيڪا في ٺاهيل پيتھالاجي فليگ 0.10 جي حساب سان لڳائي وڃي ٿي، ۽ وڌ ۾ وڌ ٽي فليگ تائين محدود آهي.
جي ليٽنسي حصو 10 سيڪڙو جو حصو ڏئي ٿو. 20 سيڪنڊن کان گهٽ جواب مڪمل 0.10 حاصل ڪري ٿو، 40 سيڪنڊن کان گهٽ جواب 0.05 حاصل ڪري ٿو، ۽ ان کان وڌيڪ دير وارو ڪجهه به صفر. 20 سيڪنڊن جو ٽارگيٽ پروڊڪشن پرائمري-پٿ سروس-ليول مقصد کي ظاهر ڪري ٿو؛ 40 سيڪنڊن جي حد Phase 2 لاءِ ڳري-انجڻ انوڪيشنز جي فال بيڪ بجيٽ کي ظاهر ڪري ٿي.
اڳ-رجسٽريشن ڇا روڪي ٿي
فرسٽ پارٽي بينچمارڪ پوسٽ-هاڪ روبريڪ ٽيوننگ ذريعي پنهنجا انگ وڌائڻ لاءِ بدنام آهن. نمونو تقريباً هميشه ساڳيو هوندو آهي: ٽيم انجڻ هلائي ٿي، ڏسي ٿي ته ڪٿي گهٽ ڪارڪردگي ٿي رهي آهي، پوءِ خاموشي سان روبريڪ کي ترتيب ڏئي ٿي ته گهٽ ڪارڪردگي وارا علائقا گهٽ ڳڻجن. پهرين انجڻ ڪال کان اڳ روبريڪ کي سورس ڪوڊ ۾ لاڪ ڪرڻ ۽ هارنس کي MIT لائسنس تحت پبلش ڪرڻ سان، اها ترتيب ورزن ڪنٽرول ۾ نظر اچي ٿي. ڪو به ماڻهو رپوزٽري ڪلون ڪري سگهي ٿو، روبريڪ ليکڪ جي تاريخون چيڪ ڪري سگهي ٿو، ۽ تصديق ڪري سگهي ٿو ته انجڻ جا نتيجا اسڪورنگ کي ٺاهڻ لاءِ استعمال نه ڪيا ويا.
هائپرڊائگنوسس ٽريپ ڪيس — ڇو گهڻو سڏڻ اصل ناڪامي جو طريقو آهي
نارمل اسڪرينز تي پيتھالاجي کي زور سان وڌيڪ سڏڻ (over-calling) صارف-سامهون طبي اسسٽنٽن لاءِ دستاويزي ناڪامي وارو طريقو آهي. ان جا هيٺيان خرچ غير ضروري جاچ، مريض جي پريشاني، ۽ iatrogenic workup شامل ڪن ٿا. هن بينچمارڪ جا ٻه ٽريپ ڪيس ٺهيل آهن ته اها ناڪامي وارو طريقو نظر اچي ۽ اسڪور ٿي سگهي.
🟡 ٽريپ 1 — BT-014-GILBERT
پيشڪش. هڪ 24 سالن جو مرد جنهن جو ڪل بلي روبن 2.4 mg/dL آهي. ڊائريڪٽ حصو نارمل آهي، ٽرانسامينيز ۽ الڪالائن فاسفٽيز پنهنجن ريفرنس رينجز اندر آهن، ريٽيڪولوسائٽس غير معمولي نه آهن، ۽ هپٽوگلوبن ۽ LDH haemolysis کي رد ڪن ٿا.
صحيح تشريح. Gilbert's syndrome — هڪ بي نياز UGT1A1 پوليمورفزم. تشريح کي هيپاٽائيٽس، سرروسس، هيمولائيٽڪ انيميا، يا بائليري اوبسٽرڪشن کي سڏڻ نه گهرجي.
V11 نتيجو. جامع 1.000. ڇهن نگراني ڪيل اوور-ڊائگنوسس فليگز مان ڪو به فعال تشخيص طور ظاهر نه ٿيو.
🟡 ٽريپ 2 — BT-015-HEALTHY
پيشڪش. هڪ 35 سالن جي عورت لاءِ پندرهن-پيرا ميٽرن واري معمولي اسڪريننگ پينل. هر اينالائيٽ پنهنجي ريفرنس رينج اندر آرام سان موجود آهي.
صحيح تشريح. تسلي ۽ طرزِ زندگي جي سار سنڀال. تشريح کي اهڙي حدبندي واري بيماري جوڙڻ نه گهرجي جيڪا ڪلينڪي طور مفيد لڳي، پر اصل ۾ موجود نه هجي.
V11 نتيجو. مجموعي 1.000. نگراني ڪيل ستن مان ڪابه به وڌيڪ تشخيص واري خبرداري — ذيابيطس، انيميا، هائيپوتائيرائيڊزم، ڊس لپيڊيميا، هيپاٽائيٽس، گردن جي بيماري، ڪمي — فعال تشخيص طور ظاهر نه ٿي.
ٻنهي ٽريپس ۾، نگراني ڪيل تيرهن وڌيڪ تشخيص واري خبردارين کي چيڪ ڪيو ويو. ڪابه به ٽرگر نه ٿي. هي اهو نتيجو آهي جيڪو ڪنهن به ڪلينشين لاءِ سڀ کان وڌيڪ اهميت رکي ٿو جيڪو AI انجڻ کي ٽرييج يا اڳ-مشاورت واري اوزار طور استعمال ڪرڻ تي غور ڪري ٿو: سسٽم جتي بيماري موجود نه هئي، اتي بيماري ايجاد نه ڪئي.
مينتزير انڊيڪس: لوهه جي کوٽ کي ٿيلاسيميا ٽريٽ کان الڳ ڪرڻ
هڪ ٻي اعليٰ قدر واري ڳولا ڪيس BT-001 (لوهه جي ڪمي سبب انيميا) ۽ ڪيس BT-007 (بيٽا ٿالاسيميا مائنر) جي جوڙي سان لاڳاپيل آهي. ٻئي مائڪروسائٽوسس سان پيش ٿين ٿا ۽ ناتجربيڪار ڪلاسيفائرز لاءِ هڪ مشهور رڪاوٽ آهن. مينٽزر انڊيڪس، جيڪو MCV کي RBC ڳڻپ سان ورهائي حساب ڪيو ويندو آهي، لوهه جي ڪمي ۾ 13 کان مٿي ۽ ٿالاسيميا ٽريٽ ۾ 13 کان هيٺ اچي ٿو.
BT-001 ۾، مريض 34 سالن جي عورت هئي جنهن جو هيموگلوبن 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فيريٽين 6 ng/mL، ۽ TIBC وڌيل هو. تقريباً 17.7 جو مينٽزر انڊيڪس واضح/مطلق لوهه جي ڪمي جي حمايت ڪري ٿو. BT-007 ۾، مريض 28 سالن جو مرد هو جنهن ۾ مائڪروسائٽوسس (MCV 65.8 fL) هو، پر RBC ڳڻپ 6.2 وڌيڪ، RDW عام، فيريٽين عام، ۽ HbA2 5.6 سيڪڙو هو. تقريباً 10.6 جو مينٽزر انڊيڪس ٿالاسيميا ٽريٽ ڏانهن اشارو ڪري ٿو، ۽ HbA2 جو وڌيل هجڻ بيٽا ٿالاسيميا مائنر جي تصديق ڪري ٿو.
ٻنهي ڪيسن جو اسڪور 1.000 هو. انجڻ ٻنهي تشريحن ۾ مينٽزر انڊيڪس کي واضح طور استعمال ڪيو ۽ هر ڀيري صحيح تشخيص موٽائي. هي سڄي بينچمارڪ ۾ واحد سڀ کان وڌيڪ ڪلينڪي طور تسلي بخش نتيجو آهي, ، ڇاڪاڻ ته ٿالاسيميا ٽريٽ کي لوهه جي ڪمي طور غلط درجي بندي ڪرڻ سان غير مناسب لوهه جي سپليمينٽيشن ٿي وڃي ٿي ۽ خاندان جي اسڪريننگ جا موقعا رهجي وڃن ٿا، ۽ لوهه جي ڪمي کي ٿالاسيميا طور غلط درجي بندي ڪرڻ سان سڌي سادي متبادل علاج ۾ دير ٿي وڃي ٿي. اسان فيريٽين رينج گائيڊ وسيع فرق واري (differential) حوالي جي وضاحت ڪريون ٿا.
اپريل 2026 جي رن مان في-ڪيس نتيجا
پندرهن مان ٻارهن ڪيسن پرائمري پٿ تي 1.000 جي ڇت واري مجموعي اسڪور تائين پهتا. ٽي ڪيس Phase 2 جي بيڪ اپ ذريعي سروس ڪيا ويا، جنهن ۾ 0.05 latency بونس وڃائجي ويو جڏهن ته سمورو ڪلينڪي ۽ ساختي مواد محفوظ رهيو. هڪ ڪيس ۾ هڪ واحد لازمي سب سيڪشن غائب هو؛ هڪ ڪيس ۾ امڪانن جي مجموعي ورڇ جو مجموعو ٿورو گهٽجي ويو.
PCOS جو ڪيس (BT-008) جواب جي جوڙجڪ ۾ هڪ لازمي ذيلي حصو وڃائي ڇڏيو — سولهن مان پندرهن بدران سولهن مان سولهن — جنهن ساختي نمبر کي 1.000 کان 0.963 تائين گهٽائي ڇڏيو. SLE جو ڪيس (BT-011) هڪ ٿورو گهٽجي ويل امڪاني-وڏي ورهاست (probability-distribution) جو مجموعو واپس ڪيو، جنهن ڪلينڪل نمبر کي 0.965 تائين آڻي ڇڏيو، جڏهن ته هر تشخيصي لفظ ۽ نمبرنگ سسٽم محفوظ رهيو. ٻنهي گهٽ-ترين ڪيسن ۾ به صحيح تشخيص ڇٽي نه وئي.
هيڊ لائن اسڪور اسان کي ڇا نٿو ٻڌائي
هن خاص اڳ-رجسٽرڊ (pre-registered) روبرڪ تحت 99.12 سيڪڙو جو گڏيل نمبر ويجهو-مٿانهين (near-ceiling) ڪارڪردگي ڏيکاري ٿو، پر ان کي احتياط سان بيان ڪرڻ گهرجي. نتيجو انجڻ جي رويي کي پندرهن احتياط سان چونڊيل گمنام ڪيسن جي خلاف بيان ڪري ٿو، هر هڪ کي هڪ ڀيرو پرکي، هڪ ئي روبرڪ تحت. اسان واضح ڪريون ٿا ته اهو نمبر ڇا ثابت ڪري ٿو ۽ ڇا نٿو ثابت ڪري.
نمبر اهو چوي ٿو ته V11 انجڻ هن جائزي لاءِ چونڊيل تشخيصي نمونن کي صحيح نموني سنڀاليو، اهڙي طريقيڪار سان جيڪو شايع ٿيل ۽ ٻيهر پيدا ڪري سگهجي ٿو. اهو نٿو چوي ته انجڻ دنيا ۾ موجود هر خون جي جاچ جي پينل تي صحيح آهي. اهو نٿو چوي ته انجڻ کي ڪلينشين جي فيصلي جي جاءِ وٺڻ گهرجي. ۽ اهو نٿو چوي ته انجڻ ٻين AI سسٽمن کان بهتر آهي — ٻين انجڻن جي مقابلي واري تجزيي کي هن رپورٽ جي دائري کان ٻاهر رکيو ويو.
جيڪو نمبر ثابت ڪري ٿو، اهو هڪ بنياد (baseline) آهي. جڏهن روبرڪ ۽ هارنس عوام لاءِ موجود آهن، انجڻ جا مستقبل وارا نسخا ساڳين پندرهن ڪيسن جي خلاف جائزو وٺي سگهجن ٿا، ۽ شايع ٿيل نمبر ۽ ڪنهن به بعد واري رن جي وچ ۾ فرق پاڻ به ماپجي سگهجي ٿو. اڳ-رجسٽريشن جي اها ئي اهميت آهي: اها ڪارڪردگيءَ بابت دعوائن کي پرکي سگهڻ وارين دعوائن ۾ تبديل ڪري ٿي.
10 منٽن ۾ هن بئنچمارڪ کي ڪيئن ورجائجي
ٻيهر پيدا ڪرڻ لاءِ صرف هڪ Kantesti API credential جوڙو ۽ Python 3.10 يا ان کان پوءِ وارو ماحول گهربل آهي، جنهن ۾ requests ۽ reportlab لائبريريون انسٽال ٿيل هجن. مڪمل هارنس هڪ ئي، پاڻ ۾ مڪمل (self-contained) Python ماڊيول آهي، جيڪو MIT لائسنس تحت جاري ڪيو ويو آهي.
نئين رن لاءِ چار قدم
هڪ. رپوزٽري ڪلون ڪريو: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ٻه. انحصار (dependencies) انسٽال ڪريو pip install -r requirements.txt. ٽي. مقرر ڪريو KANTESTI_USERNAME ۽ KANTESTI_PASSWORD ماحولياتي متغيرن (environment variables) طور — سندون (credentials) هلائڻ وقت پڙهيون وينديون آهن ۽ اسڪرپٽ ۾ ڪا به شيءِ سخت ڪوڊ ٿيل (hard-coded) ناهي. چار. هلائڻ لاءِ python benchmark_bloodtest.py ۽ ڪم ڪندڙ ڊائريڪٽري (working directory) ۾ نڪرندڙ چئن artefacts جو جائزو وٺو: هڪ CSV scorecard، هڪ JSON scorecard، هڪ مڪمل JSON ڊمپ جنهن ۾ خام engine responses شامل هجن، ۽ هڪ انساني-پڙهڻ لائق Markdown رپورٽ.
23 اپريل 2026 واري ريفرنس رن (reference run) محفوظ ڪئي وئي آهي results/ مخزن (repository) جي ڊائريڪٽري ۾. نئون رن هڪ نئون ٽائيم اسٽيمپ ٿيل scorecard ٺاهيندو جڏهن ته ريفرنس رن اڻ ڇيڙيل رهندو. جيڪڏهن توهان جو رن معنيٰ خيز طور مختلف نتيجو ڏئي، مهرباني ڪري GitHub issue کوليو رن جي ٽائيم اسٽيمپ ۽ response metadata ۾ موٽايل engine version سان.
حدون ۽ مستقبل جو ڪم
چار حدون (limitations) واضح طور تسليم ڪرڻ لائق آهن: نموني جو سائز (sample size)، سنگل شاٽ ايويوليئيشن (single-shot evaluation)، سنگل انجڻ جو دائرو (single-engine scope)، ۽ سنگل سورس ڊيٽا جي اصليت (single-source data origin). انهن مان هر هڪ کي فعال فالو اپ ڪم ۾ حل ڪيو پيو وڃي.
نموني جو سائز. اٺ خاصيتن (specialty) جي بڪٽن ۾ پندرهن ڪيس هڪ پروف آف ڪنسيپٽ لاءِ ڪافي آهن، پر ڪنهن خاصيت اندر subgroup analysis لاءِ ڪافي نه آهن. پچاس ڪيسن تائين واڌ جو منصوبو آهي ۽ ان ۾ coagulation panels، haematological malignancy screening، pregnancy panels، ۽ ٻارن (paediatric) جون پيشڪشون شامل ٿينديون.
سنگل شاٽ ايويوليئيشن. هر ڪيس جو جائزو صرف هڪ ڀيرو ورتو ويو. وڏا ٻولي ماڊل (large language models) گهٽ sampling temperature تي به غير معمولي آئوٽ پُٽ variance ڏيکارين ٿا، تنهنڪري في ڪيس پنج ايويوليئيشنن سان multi-run پروٽوڪول ۽ رپورٽ ڪيل variance ايندڙ قدرتي قدم آهي.
سنگل انجڻ جو دائرو. هي رپورٽ هڪ انجڻ (engine) کي بيان ڪري ٿي. متبادل AI سسٽمز جي خلاف تقابلي تجزيا هتي دائري کان ٻاهر آهن؛ اسان شايد انهن کي مناسب طريقيڪار سان الڳ آزاد مطالعي طور اڳتي وڌايون.
سنگل سورس ڊيٽا جي اصليت. اهي پندرهن ڪيس هڪ ئي ڪلينڪل مخزن مان ورتل حقيقي مريضن جا رڪارڊ آهن جن کي anonymise ڪيو ويو آهي. اهي هڪ چونڊيل (curated) نمونو آهن ۽ آباديءَ جي نمائنده بي ترتيب چونڊ (population-representative random draw) نه آهن. ايويوليئيشن کي ڪيترن ئي سينٽرن (multi-centre) جي ڊيٽا تائين وڌائڻ جو روڊ ميپ ۾ آهي.
سڀ کان وڌيڪ اثرائتي رٿيل واڌ multi-language parity آهي. Kantesti AI Engine 75+ ٻولين ۾ استعمال ڪندڙن کي سهولت ڏئي ٿو، ۽ ترڪي، جرمن، اسپيني، فرينچ، ۽ عربي ۾ ساڳئي پندرهن ڪيسن واري harness هلائڻ سان انجڻ جي سپورٽ ڪيل ٻولين ۾ آئوٽ پُٽ معيار کي ماپيو ويندو. اسان هر ٻوليءَ لاءِ الڳ رن پنهنجي DOI ۽ harness branch سان شايع ڪنداسين.