Kantesti AI خون جي جاچ جو بينچمارڪ

خودڪار بينچمارڪ اڳ-رجسٽرڊ بينچمارڪ V11 سيڪنڊ اپڊيٽ — اپريل 2026 MIT لائسنس يافته ٻيهر پيدا ٿيڻ وارو · کليل ڊيٽا 100K مصنوعي ڪوهاٽ · 127 ملڪ ليبل

99.80% جامع اسڪور هڪ اڳ-رجسٽرڊ روبِرڪ تي — V11 ٻيو اپڊيٽ، 100,000-ڪيس ڪوهاٽ 127 ملڪ ليبلن ۾

Kantesti انجڻ جي هڪ اڳ-رجسٽرڊ، روبِرڪ-بنياد خودڪار ٽيڪنيڪل بينچمارڪ، 100,000 مصنوعي طور تي تيار ڪيل بلڊ-ٽيسٽ ڪيسن تي، جن کي 127 ملڪ ليبلن سان ٽيگ ڪيو ويو آهي. اهو آئوٽ پُٽ جي مطابقت ماپي ٿو، نه تشخيصي درستگي. روبِرڪ V11 جي پهرين رليز کان اڳ سورس ڪوڊ ۾ منجمد ڪيو ويو هو ۽ هن ٻئي اپڊيٽ لاءِ بائيٽ-برابر (byte-identical) رکيو ويو؛ ايوليوئيشن هارنس MIT-لائسنسڊ آهي؛ خام انجڻ جوابن جو هڪ stratified random sample معائني لاءِ شايع ڪيو ويو آهي. سڀئي ڪيس مصنوعي آهن؛ ڪابه ذاتي معلومات استعمال نه ڪئي وئي آهي.

📖 ~14 منٽ 📅 23 اپريل 2026 تي شايع ٿيل · 26 اپريل 2026 تي اپڊيٽ ٿيل (V11 سيڪنڊ اپڊيٽ) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 شايع ٿيل: اپريل 23, 2026 🔄 V11 سيڪنڊ اپڊيٽ: اپريل 26, 2026 🩺 طبي طور تي جائزو ورتل: اپريل 26, 2026 ✅ اڳ-رجسٽرڊ روبرڪ (بائيٽ-برابر) 🔓 کليل ڪوڊ ۽ ڊيٽا

هي خودڪار بينچمارڪ تيار ڪيو ويو ۽ هلائيو ويو جولين اميرخان بولٽ, ، سينئر AI انجنيئر ۽ Kantesti Ltd جو CEO. اسڪورنگ مڪمل طور تي سورس ڪوڊ ۾ خودڪار آهي؛ اسڪورنگ روبرڪ ۽ ڪيس پينل ڪلينڪل انپٽ سان تيار ڪيا ويا ڊاڪٽر ٿامس ڪلين، ايم ڊي, ، Kantesti AI ۾ چيف ميڊيڪل آفيسر، ۽ ان جو جائزو ورتو ويو ڪينٽيسٽي اي آءِ ميڊيڪل ايڊوائزري بورڊ. هي هڪ خود-هلندڙ اندروني بينچمارڪ آهي، نه ڪي آزاد يا پير-ريويو ٿيل خودڪار ٽيڪنيڪل بينچمارڪ.

ليڊ ليکڪ ۽ ڪلينڪل نگراني

ٿامس ڪلين، ايم ڊي

چيف ميڊيڪل آفيسر، ڪينٽيسٽي اي آءِ

ڊاڪٽر ٿامس ڪلين هڪ بورڊ-سرٽيفائيڊ ڪلينڪل هيماتولوجسٽ ۽ انٽرنسٽ آهي، جنهن کي ليبارٽري ميڊيسن ۾ 15 سالن کان وڌيڪ جو تجربو آهي. Kantesti AI ۾ چيف ميڊيڪل آفيسر جي حيثيت ۾، هن هن بينچمارڪ لاءِ ڪيس پينل چونڊيو، مصنوعي ڪيسن جي ڪلينڪل مواد ۽ متوقع جوابن جو جائزو ورتو، ۽ پهرين انجڻ انوڪيشن کان اڳ اڳ-رجسٽرڊ روبِرڪ کي منظور ڪيو.

ORCID 0009-0009-1490-1321 ريسرچ گيٽ گوگل اسڪالر

گڏيل ليکڪ ۽ نفاذ

جولين اميرخان بولٽ

سينئر AI انجنيئر ۽ CEO، Kantesti Ltd

جولين ايميرهان بولوٽ Kantesti Ltd جو باني ۽ CEO آهي. هن جائزو وارو هارنس ڊزائين ۽ لاڳو ڪيو — جنهن ۾ V11 سيڪنڊ اپڊيٽ لاءِ شامل ڪيل SQL ڪيس لوڊر به شامل آهي — API انٽيگريشن ڪئي، V11 جي شروعاتي ريفرنس رن ۽ V11 سيڪنڊ اپڊيٽ جي 100,000-ڪيس رن ٻنهي کي هلائي، ۽ شمارياتي مجموعو تيار ڪيو. 2019 کان پليٽ فارم جو باني.

GitHub ڪانٽيسٽي بابت

⚡ تڪڙو خلاصو V11 سيڪنڊ اپڊيٽ — اپريل 26, 2026

99.80% جامع اسڪور اٺ طبي خاصيتن ۽ 127 ملڪ ليبلن ۾ ورهايل 100,000 مصنوعي بلڊ-ٽيسٽ ڪيسن تي (V11 ٻيو اپڊيٽ).
صفر هائپرڊائگنوسس جا غلط-مثبت نتيجا 87,412 مانيٽر ڪيل ٽريپ-ڪيس فليگ موقعن تي — ساڳي ٽريپ-ڪيس طريقيڪار جيئن V11 شروعاتي، آبادي جي سطح تائين وڌايل.
اڳواٽ رجسٽرڊ روبرڪ V11 شروعاتي رن کان اڳ سورس ڪوڊ ۾ منجمد ڪيو ويو ۽ رکيو ويو بائيٽ-برابر هن سيڪنڊ اپڊيٽ لاءِ — ڪو به پوسٽ-هاڪ ٽيوننگ ممڪن نه هئي.
Mentzer index صحيح طريقي سان لاڳو ڪيو ويو V11 شروعاتي رليز ۾ آئرن جي کوٽ واري انيميا کي بيٽا-ٿيلسيميا مائنر کان ڌار ڪرڻ لاءِ؛ آبادي جي سطح تي به فرق ڪندڙ رويي محفوظ رهيو.
صرف پروڊڪشن اينڊ پوائنٽ — ڪو به خاص رُوٽنگ نه، بلڪل ائين جائزو ورتو ويو جيئن ادا ڪندڙ گراهڪ ان تائين رسائي ڪري.
13.26 سيڪنڊ اوسط latency end-to-end (حد 9.0–16.94 سيڪنڊ)، ۽ سڀ 100,000 ڪيس انجڻ جي پرائمري رستي تي مڪمل ٿيا.
مصنوعي ڪوهاٽ. رن-ٽائم تي لوڊ ڪيل 100,000 مصنوعي طور تي تيار ڪيل ٽيسٽ ڪيس. ڪابه مصنوعي ڊيٽا ۽ نه ئي ذاتي ڊيٽا استعمال ٿئي ٿي.
MIT-لائسنسڊ هارنس GitHub تي شايع ڪيو ويو stratified random sample (n = 201) جي مڪمل خام انجڻ جوابن سان معائني لاءِ.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate، Academia.edu، GitHub تي آئيني طور موجود.

هي بينچمارڪ ڇو موجود آهي ۽ اهو ڇا پرکي ٿو

AI جي مدد سان خون جي جاچ جو نتيجو صارفين ۽ ڪلينڪل ورڪ فلو ۾ وڌندڙ استعمال ٿي رهيو آهي، پر ليبارٽري ميڊيسن لاءِ ٺهيل ورجائي سگهندڙ جائزي جا فريم ورڪ اڃا به گهٽ ملن ٿا. هن ماحول ۾ سڀ کان اهم سوال اهي نه آهن جيڪي عام طبي سوال-جواب بئنچمارڪن ۾ ڍڪيل هجن: ڇا انجڻ لوهه جي کوٽ کي ٿيلاسيميا ٽريٽ کان ڌار ڪري سگهي ٿي جڏهن mean corpuscular volume هڪجهڙو هجي، ڇا اهو Gilbert's syndrome کي هيپاٽائيٽس طور اوور-ڊائگنوس ڪري ٿو، ۽ ڇا اهو مڪمل طور تي عام اسڪريننگ پينل ۾ بيماري ٺاهي ٿو؟

هڪ واحد رت جي جاچ جو پينل عام طور تي ايترو سگنل رکي ٿو جو ڪيترن ئي مقابلي واري تشريحن کي سهارو ڏئي سگهي، ۽ تشريح ڪندڙ ڪلينشين جو ڪم اهو آهي ته انهن تشريحن کي هڪ ٻئي جي مقابلي ۾ وزن ڏئي، نه ته ڪنهن درسي ڪتاب واري “سڌي جواب” کي ڳولهي. هڪ اهڙو انجڻ جيڪو درسي ڪتاب وارن ڪيسن تي سٺو ڪم ڪري سگهي ٿو، اهو به انهن ڪيسن تي ناڪام ٿي سگهي ٿو جيڪي سڀ کان وڌيڪ اهم آهن: فرقيوار تشخيص (differential-diagnosis) جون ڦاسون، اهي بي ضرر تبديليون جيڪي اڪيلو ڏسڻ تي خطرناڪ لڳن ٿيون، ۽ مڪمل طور تي عام پينل جيڪي اعتماد ڪندڙ اسسٽنٽن کي بيماري ٺاهڻ تي اُتساهين ٿا.

هي بئنچمارڪ بلڪل انهن ناڪامي جي طريقن جي بنياد تي ٺاهيو ويو. پندرهن مان هر هڪ ڪيس کي هڪ مخصوص تشخيصي خاصيت لاءِ چونڊيو ويو: لوهه جي گهٽتائي سبب مائڪرو سائيٽوسس (microcytosis) جنهن کي ساڳي mean corpuscular volume سان beta-thalassaemia trait کان ڌار رکڻو آهي، گِلبرٽ جي سنڊروم (Gilbert's syndrome) جي پيشڪش جتي صرف هڪ ئي غيرمعمولي ڳالهه الڳ ٿيل indirect hyperbilirubinaemia آهي، ۽ هڪ پندرهن-پيرا ميٽر اسڪريننگ پينل جنهن ۾ هر اينالائيٽ پنهنجي ريفرنس رينج اندر ئي موجود آهي. روبرڪ انهن انجڻن کي انعام ڏئي ٿو جيڪي هر ڪيس کي پنهنجي شرطن مطابق پڙهن ٿا، ۽ انهن انجڻن کي سزا ڏئي ٿو جيڪي اهڙي پڪ واري تشخيص تائين پهچن ٿا جتي اهڙي تشخيص جي ضرورت ئي نه هجي.

ڊاڪٽر ٿامس ڪلين (Thomas Klein, MD) جي حيثيت ۾، مون ڪيس پينل چونڊيو ڇو ته اهي ئي نمونا آهن جيڪي ليبارٽري-ميڊيسن اسسٽنٽس سڀ کان وڌيڪ اڪثر غلط ڪندا آهن. مهانگي ناڪامي جو طريقو "ڪو ناياب بيماري وڃائڻ" ناهي—اهو انهن مريضن ۾ معمولي بيماريءَ جهڙي (routine) پيتھالاجي ٺاهڻ آهي جن کي اها اصل ۾ نه هجي. اسان جو طبي تصديق hub وسيع فريم ورڪ بيان ڪري ٿو؛ هي صفحو V11 جي شروعاتي proof-of-concept ۽ V11 ٻئي اپڊيٽ بيان ڪري ٿو جنهن ان کي 100,000 مصنوعي ڪيسن تائين وڌايو—127 ملڪ ليبلن تي پکڙيل هڪ مصنوعي ڪيس سيٽ مان ورتل—ساڳئي اسڪورنگ روبِرڪ سان، بائيٽ-برابر، ۽ پوسٽ-هاڪ ٽيوننگ جي اجازت کان سواءِ.

جديد ريفرنس رن — V11 سيڪنڊ اپڊيٽ (26 اپريل 2026)

26 اپريل 2026 جي V11 سيڪنڊ اپڊيٽ ريفرنس رن هڪ گڏيل (composite) اسڪور پيدا ڪيو 99.80% ساڳي اڳ-رجسٽرڊ روبِرڪ تي جيڪو V11 جي شروعاتي رليز ۾ استعمال ٿيو هو، جائزو ورتو ويو 100,000 مصنوعي ڪيس Kantesti مصنوعي ڪيس سيٽ مان ورتل ۽ 127 ملڪ ليبلن تي پکڙيل ۽ 75+ ٻولين ۾ پکڙيل. هر ڪيس انجڻ جي بنيادي (primary) رستي تي مڪمل ٿيو؛ ٽرَپ-ڪيس هائپرڊائگنوسس فليگ ايڪٽيويشنز رهيا 0 / 87,412. 23 اپريل 2026 تي ٿيل اصل V11 رن ۾ 15 هٿ سان چونڊيل ڪيس شامل هئا (composite 99.12%) ۽ روبِرڪ کي صحيح ثابت ڪيو؛ سيڪنڊ اپڊيٽ اهو ئي روبِرڪ بائيٽ-بائيٽ برقرار رکي ٿو ۽ جائزي کي آبادي-سطحي ڪوهاٽ تائين وڌائي ٿو.

گڏيل (Composite) 99.80% 100,000 مان 100,000 ڪيسن جو اسڪور

1.000 ساختي اسڪور (Structural score)

0.996 ڪلينڪل اسڪور (Clinical score)

13.26 s اوسط دير (Mean latency)

0 / 87,412 ڦاس وارا غلط مثبت (Trap false-positives)

گڏيل فارمولا ٽن حصن کي گڏ ڪري ٿو: ساختي مطابقت (structural conformance) ستن لازمي رپورٽ سيڪشنن ۽ سورهن لازمي سب سيڪشنن سان،, مواد جي درستگي ماپي وئي: keyword recall + scoring-system recall + امڪاني-تقسيم (probability-distribution) جي درستگي جي چيڪ سان، ۽ جواب جي دير (response latency) بنيادي-رستي سروس-ليول ٽارگيٽ جي خلاف. صحيح تفصيل هيٺ ڏنل روبِرڪ فارمولا ۾ ڏيکاريل آهي — انهن مان ڪا به وزن يا سب-روبِرڪ سيڪنڊ اپڊيٽ لاءِ تبديل نه ڪئي وئي.

گڏيل (Composite) = 0.35 × ساختي (Structural) + 0.55 × ڪلينڪل (Clinical) + 0.10 × دير (Latency)

هيڊ روم جا باقي 0.20 سيڪڙو پوائنٽ تقريبن مڪمل طور تي ڪلينڪل سب-اسڪور ۾ ورهائجن ٿا — ڪيسن جو ٿورو حصو (خاص طور تي Hepatology ۽ Rheumatology ۾) انجڻ جي تشريح ۾ هڪ متوقع اسڪورنگ-سسٽم keyword غائب هو، جيتوڻيڪ تشخيصي مواد صحيح هو. 100,000-ڪيس سيڪنڊ-اپڊيٽ ڪوهاٽ ۾ ڪو به ڪيس پاڻ تشخيص (diagnosis) کان محروم نه رهيو. ليٽنسي V11 جي شروعاتي رليز ۾ اوسط 20.17 s کان سيڪنڊ اپڊيٽ ۾ 13.26 s تائين بهتر ٿي؛ ٻن رنن جي وچ ۾ پروڊڪشن انجڻ جي آپٽمائيزيشنز کي ظاهر ڪندي. روبِرڪ، اسڪورنگ ڪوڊ، ۽ API اينڊ پوائنٽ ۾ ڪا تبديلي ناهي.

في-ليبل جامع اسڪور 30 سڀ کان وڌيڪ نمائندہ ملڪ ليبلن ۾ 0.9971 کان 0.9985 تائين هئا. باقي 97 اضافي ليبلن جي ڊگهي دم (≈7,300 ڪيس گڏيل) ۾ ڪا به منظم (systematic) گهٽتائي نظر نه آئي. ڪيس ڳڻپ موجب سڀ کان وڌيڪ عام ليبل هئا: آمريڪا (10,500)، برازيل (9,500)، اسپين (9,000)، اٽلي (8,000)، جرمني (7,800)، فرانس (7,400)، پرتگال (5,800)، Türkiye (3,400)، برطانيه (2,900)، ۽ ميڪسيڪو (2,500).

15 ڪيسن کان 100,000 تائين: 127 ملڪ ليبلن ۾ ڪوهاٽ جي ارتقا

اصل V11 ڪيس پينل ست خاصيتن تي مشتمل هو — هيماتولوجي، اينڊوڪرائينولوجي، ميٽابولڪ ميڊيسن، هيپاٽولوجي، نيڦرولوجي، ڪارڊيالوجي، ريميٽولوجي — ۽ گڏوگڏ ٻه وقف ڪيل هائپرڊائگنوسس ٽريپ ڪيس، هر ڪيس هڪ مصنوعي طور تي تيار ڪيل بلڊ-ٽيسٽ پينل سان. V11 ٻيو اپڊيٽ تشخيص کي 127 ملڪ ليبلن ۾ پکڙيل 100,000 مصنوعي ڪيسن تائين وڌائي ٿو, ، اٺ خاصيتن ۾ ورهايل (اصل ستن کان علاوه هڪ وقف ٿيل internal-medicine بڪيٽ جيڪو ٽرَپ سب سيٽ کي جذب ڪري ٿو). ساڳي اسڪورنگ روبِرڪ ٻنهي رنن ۾ بائيٽ-بائيٽ لاڳو ڪئي وئي.

ڇاڪاڻ ته سڀئي ڪيس مصنوعي طور تي تيار ڪيل آهن، تنهنڪري هٽائڻ لاءِ ڪابه حقيقي سڃاڻپ (identifier) موجود ناهي ۽ نه ئي ڪا ذاتي ڊيٽا شامل آهي. هر مصنوعي ڪيس ۾ هڪ بينچمارڪ-اندروني ڪيس ڪوڊ هوندو آهي (V11 جي شروعاتي سيٽ ۾ BT-NNN-LABEL، هڪ مستحڪم case_uid ٻئي اپڊيٽ ۾). شايع ٿيل هارنس، ٽيڪنيڪل رپورٽ، يا جاري ڪيل ڊيٽا سيٽن ۾ ڪٿي به ڪا ذاتي ڊيٽا نظر نٿي اچي.

V11 شروعاتي رليز — 15 هٿ سان چونڊيل ڪيس

اصل V11 ڪيس پينل ڊاڪٽر ٿامس ڪلين هٿ سان چونڊيو هو ته جيئن اهي تشخيصي نمونا مشق ۾ آڻجن جن کي ليبارٽري-ميڊيسن اسسٽنٽس سڀ کان گهڻو غلط سمجهن ٿا. پندرهن مان هر هڪ ڪيس کي هيٺ ڏنل ڪنهن مخصوص تشخيصي خاصيت لاءِ چونڊيو ويو.

Hematology (3) BT-001، BT-006، BT-007 آئرن جي کوٽ سبب انيميا · B12 جي کوٽ · Beta-thalassaemia minor

Endocrinology (3) BT-002، BT-008، BT-012 Hashimoto's thyroiditis · انسولين ريزسٽنس سان PCOS · سخت وٽامن ڊي جي کمي

Metabolic (2) BT-003، BT-013 ميٽابولڪ سنڊروم سان T2DM · گائوٽ جي خطري سان Hyperuricaemia

Hepatology (2) BT-004، BT-009 NAFLD / NASH · شديد وائرل هيپاٽائيٽس

Nephrology · Cardiology · Rheumatology (3) BT-005، BT-010، BT-011 CKD اسٽيج 3 · Atherogenic dyslipidaemia · Systemic lupus erythematosus

Trap cases (2) BT-014، BT-015 Gilbert's syndrome (اڪيلائيءَ ۾ indirect hyperbilirubinaemia) · مڪمل طور تي عام بالغ اسڪرين

هي خاص ورڇ ڇو

هيماتولوجي کي ٽي ڪيس ملن ٿا، ڇاڪاڻ⁠تہ مائڪرو سائيٽڪ ڊفرينشلز ۽ ميڪرو سائيٽڪ ڊفرينشلز حقيقي دنيا جي ليبارٽري عمل ۾ سڀ کان وڌيڪ مقدار وارا “ٽريپس” آهن. اينڊو ڪرائينولوجي کي ٽي ڪيس ملن ٿا، ڇاڪاڻ⁠تہ Hashimoto's، PCOS، ۽ وٽامن ڊي جي کمي جون پيشڪشون مختلف تشخيصي شڪليون اختيار ڪن ٿيون (آٽو اينٽي باڊي-هلائيندڙ، هارمون-تناسب-هلائيندڙ، واحد-مارڪر-هلائيندڙ). واحد ڪيس واريون خاصيتون اڃا به معنيٰ رکن ٿيون، ڇاڪاڻ⁠تہ هر CKD، ASCVD خطري، ۽ SLE جو پنهنجو اسڪوئرنگ سسٽم آهي، جنهن کي انجڻ کي سڏڻ گهرجي (KDIGO اسٽيجنگ، ASCVD 10-سال خطرو، ۽ 2019 EULAR/ACR SLE معيار ترتيبوار).

V11 ٻيو اپڊيٽ — 127 ملڪ ليبلن ۾ پکڙيل 100,000 مصنوعي ڪيس

ٻيو اپڊيٽ اصل V11 جي 15-ڪيس هارڊ-ڪوڊڊ Python literal کي هڪ وڏي، پروگراماتي طور تي تيار ڪيل مصنوعي ڪيس سيٽ سان بدلائي ٿو. ڪيس سيٽ هر رن جي شروعات ۾ لوڊ ڪيو ويندو آهي ۽ شفافيت لاءِ ترتيب (configuration) لاگ ڪئي ويندي آهي. مواد واري علائقي موجب ڪوهاٽ جي ورڇ هيٺ ڏيکاري وئي آهي.

اينڊوڪرينولوجي 23,900 ڪيس (23.9%) ٿائيرائيڊ، PCOS، وٽامن ڊي، گونادل محور، پيٽيوٽري

ميٽابولڪ ميڊيسن 21,900 ڪيس (21.9%) T2DM، ميٽابولڪ سنڊروم، لپڊ پينلز، هائپر يوريسيميا

رت جي بيماري 15,400 ڪيس (15.4%) مائڪرو سائيٽڪ ۽ ميڪرو سائيٽڪ فرق (differentials)، B12/فوليٽ، آئرن اسٽڊيز

هيپاٽولوجي 12,400 ڪيس (12.4%) NAFLD/NASH، وائرل هيپاٽائيٽس، FIB-4، ڪوليسٽاسس

اندروني دوائون (incl. trap subset) 9,000 ڪيس (9.0%) گڏيل پيشڪشون ۽ 8,723 وقف ٿيل هائپرڊائگنوسس ٽريپ ڪيس

قلبی امراض 7,500 ڪيس (7.5%) ASCVD خطرو، ايٿروجينڪ ڊسليپيڊيميا، hs-CRP

ريميٽولوجي 6,000 ڪيس (6.0%) SLE، RA، ويسڪولائٽس، آٽو اينٽي باڊي پينلز (EULAR/ACR معيار)

گردن جي بيماري 4,000 ڪيس (4.0%) CKD اسٽيجنگ (KDIGO)، eGFR رجحان، اليڪٽرولائيٽ بي ترتيبي

مصنوعي ملڪ-ليبل ورڇ — مٿيان 10 ليبل

100,000 مصنوعي ڪيسن ۾ 127 ملڪ ليبل (ISO 3166-1 alpha-2) شامل آهن ته جيئن locale handling کي پرکيو وڃي. ليبل تفويض: يورپ 57.7%، آمريڪا 25.4%، ايشيا-پئسفڪ 6.2%، نالي سان وچ-اوڀر/افريقا ليبل 3.4%، ۽ باقي 97 اضافي ليبلن جي ڊگهي دم مجموعي طور تقريباً 7.3% آهي. ڪيس ڳڻپ موجب ڏهه سڀ کان وڌيڪ عام ليبل هئا: آمريڪا (10,500)، برازيل (9,500)، اسپين (9,000)، اٽلي (8,000)، جرمني (7,800)، فرانس (7,400)، پرتگال (5,800)، Türkiye (3,400)، برطانيه (2,900)، ۽ ميڪسيڪو (2,500). في-ليبل جامع اسڪور 0.9971 کان 0.9985 تائين هئا. اهي ليبل ڳڻپون generated cases جون ملڪيتون آهن جيڪي locale handling کي پرکڻ لاءِ استعمال ٿين ٿيون — اهي حقيقي استعمال ڪندڙ نه آهن ۽ نه ئي حقيقي دنيا جي جاگرافيائي ڪوريج.

اڳ-رجسٽرڊ روبرڪ جي وضاحت

اڳ-رجسٽريشن هن بينچمارڪ ۾ سڀ کان اهم طريقيڪار وارو فيصلو آهي. هر متوقع تشخيص، هر ڪلينڪل اسڪوئرنگ سسٽم، ۽ هر رپورٽ سيڪشن کي سورس ڪوڊ ۾ لاڪ ڪيو ويو انجڻ کي سڏڻ کان اڳ. تنهنڪري انجڻ کي خوش ڪرڻ لاءِ روبريڪ جي پوسٽ-هاڪ ٽيوننگ ممڪن ناهي.

جامع اسڪوئر ٽي حصن تي مشتمل آهي. ساختي حصو 35 سيڪڙو جو حصو ڏئي ٿو ۽ ماپي ٿو ته انجڻ ڇا ست لازمي رپورٽ سيڪشن واپس ڪيا (هيڊر، خلاصو، اهم نتيجا، ڊفرينشل، اسڪوئرنگ سسٽم، سفارشون، فالو اپ) ۽ انهن اندر موجود سولهن لازمي سب سيڪشن. سيڪشن موجودگي ساختي حساب ۾ 40 سيڪڙو وزن رکي ٿي ۽ سب سيڪشن موجودگي 60 سيڪڙو وزن رکي ٿي.

جي ڪلينڪل حصو 55 سيڪڙو جو حصو ڏئي ٿو ۽ ٽن شين کي گڏ ڪري ٿو: تشخيص-ڪي ورڊ يادگيري (ڪلينڪل سب-اسڪوئر جو 70 سيڪڙو)، اسڪوئرنگ سسٽم يادگيري (20 سيڪڙو — ڇا انجڻ Mentzer، FIB-4، HOMA-IR، ASCVD خطرو، KDIGO اسٽيجنگ، EULAR/ACR معيار جتي لاڳو هجن، حساب ڪري ٿو)، ۽ امڪان-مجموعو درستگي چيڪ (10 سيڪڙو — ڊفرينشل امڪانن جو مجموعو [90, 110] وقفي اندر هئڻ گهرجي). ٽريپ ڪيسن لاءِ، وڌ ۾ وڌ 0.30 جي واضح هائپر ڊائگنوسس پينلٽي ڪٽجي ٿي، جيڪا في ٺاهيل پيتھالاجي فليگ 0.10 جي حساب سان لڳائي وڃي ٿي، ۽ وڌ ۾ وڌ ٽي فليگ تائين محدود آهي.

جي ليٽنسي حصو 10 سيڪڙو جو حصو ڏئي ٿو. 20 سيڪنڊن کان گهٽ جواب مڪمل 0.10 حاصل ڪري ٿو، 40 سيڪنڊن کان گهٽ جواب 0.05 حاصل ڪري ٿو، ۽ ان کان وڌيڪ دير وارو ڪجهه به صفر. 20 سيڪنڊن جو ٽارگيٽ پروڊڪشن پرائمري-پٿ سروس-ليول مقصد کي ظاهر ڪري ٿو؛ 40 سيڪنڊن جي حد Phase 2 لاءِ ڳري-انجڻ انوڪيشنز جي فال بيڪ بجيٽ کي ظاهر ڪري ٿي.

اڳ-رجسٽريشن ڇا روڪي ٿي

فرسٽ پارٽي بينچمارڪ پوسٽ-هاڪ روبريڪ ٽيوننگ ذريعي پنهنجا انگ وڌائڻ لاءِ بدنام آهن. نمونو تقريباً هميشه ساڳيو هوندو آهي: ٽيم انجڻ هلائي ٿي، ڏسي ٿي ته ڪٿي گهٽ ڪارڪردگي ٿي رهي آهي، پوءِ خاموشي سان روبريڪ کي ترتيب ڏئي ٿي ته گهٽ ڪارڪردگي وارا علائقا گهٽ ڳڻجن. پهرين انجڻ ڪال کان اڳ روبريڪ کي سورس ڪوڊ ۾ لاڪ ڪرڻ ۽ هارنس کي MIT لائسنس تحت پبلش ڪرڻ سان، اها ترتيب ورزن ڪنٽرول ۾ نظر اچي ٿي. ڪو به ماڻهو رپوزٽري ڪلون ڪري سگهي ٿو، روبريڪ ليکڪ جي تاريخون چيڪ ڪري سگهي ٿو، ۽ تصديق ڪري سگهي ٿو ته انجڻ جا نتيجا اسڪورنگ کي ٺاهڻ لاءِ استعمال نه ڪيا ويا.

هائپرڊائگنوسس ٽريپ ڪيس — ڇو گهڻو سڏڻ اصل ناڪامي جو طريقو آهي

نارمل اسڪرينز تي پيتھالاجي کي زور سان وڌيڪ سڏڻ (over-calling) صارف-سامهون طبي اسسٽنٽن لاءِ دستاويزي ناڪامي وارو طريقو آهي. ان جا هيٺيان خرچ غير ضروري جاچ، مريض جي پريشاني، ۽ iatrogenic workup شامل ڪن ٿا. هن بينچمارڪ جا ٻه ٽريپ ڪيس ٺهيل آهن ته اها ناڪامي وارو طريقو نظر اچي ۽ اسڪور ٿي سگهي.

🟡 ٽريپ 1 — BT-014-GILBERT

پيشڪش. هڪ 24 سالن جو مرد جنهن جو ڪل بلي روبن 2.4 mg/dL آهي. ڊائريڪٽ حصو نارمل آهي، ٽرانسامينيز ۽ الڪالائن فاسفٽيز پنهنجن ريفرنس رينجز اندر آهن، ريٽيڪولوسائٽس غير معمولي نه آهن، ۽ هپٽوگلوبن ۽ LDH haemolysis کي رد ڪن ٿا.

صحيح تشريح. Gilbert's syndrome — هڪ بي نياز UGT1A1 پوليمورفزم. تشريح کي هيپاٽائيٽس، سرروسس، هيمولائيٽڪ انيميا، يا بائليري اوبسٽرڪشن کي سڏڻ نه گهرجي.

V11 نتيجو. جامع 1.000. ڇهن نگراني ڪيل اوور-ڊائگنوسس فليگز مان ڪو به فعال تشخيص طور ظاهر نه ٿيو.

🟡 ٽريپ 2 — BT-015-HEALTHY

پيشڪش. هڪ 35 سالن جي عورت لاءِ پندرهن-پيرا ميٽرن واري معمولي اسڪريننگ پينل. هر اينالائيٽ پنهنجي ريفرنس رينج اندر آرام سان موجود آهي.

صحيح تشريح. تسلي ۽ طرزِ زندگي جي سار سنڀال. تشريح کي اهڙي حدبندي واري بيماري جوڙڻ نه گهرجي جيڪا ڪلينڪي طور مفيد لڳي، پر اصل ۾ موجود نه هجي.

V11 نتيجو. مجموعي 1.000. نگراني ڪيل ستن مان ڪابه به وڌيڪ تشخيص واري خبرداري — ذيابيطس، انيميا، هائيپوتائيرائيڊزم، ڊس لپيڊيميا، هيپاٽائيٽس، گردن جي بيماري، ڪمي — فعال تشخيص طور ظاهر نه ٿي.

ٻنهي ٽريپس ۾، نگراني ڪيل تيرهن وڌيڪ تشخيص واري خبردارين کي چيڪ ڪيو ويو. ڪابه به ٽرگر نه ٿي. هي اهو نتيجو آهي جيڪو ڪنهن به ڪلينشين لاءِ سڀ کان وڌيڪ اهميت رکي ٿو جيڪو AI انجڻ کي ٽرييج يا اڳ-مشاورت واري اوزار طور استعمال ڪرڻ تي غور ڪري ٿو: سسٽم جتي بيماري موجود نه هئي، اتي بيماري ايجاد نه ڪئي.

مينتزير انڊيڪس: لوهه جي کوٽ کي ٿيلاسيميا ٽريٽ کان الڳ ڪرڻ

هڪ ٻي اعليٰ قدر واري ڳولا ڪيس BT-001 (لوهه جي ڪمي سبب انيميا) ۽ ڪيس BT-007 (بيٽا ٿالاسيميا مائنر) جي جوڙي سان لاڳاپيل آهي. ٻئي مائڪروسائٽوسس سان پيش ٿين ٿا ۽ ناتجربيڪار ڪلاسيفائرز لاءِ هڪ مشهور رڪاوٽ آهن. مينٽزر انڊيڪس، جيڪو MCV کي RBC ڳڻپ سان ورهائي حساب ڪيو ويندو آهي، لوهه جي ڪمي ۾ 13 کان مٿي ۽ ٿالاسيميا ٽريٽ ۾ 13 کان هيٺ اچي ٿو.

BT-001 ۾، مريض 34 سالن جي عورت هئي جنهن جو هيموگلوبن 10.4 g/dL، MCV 72.4 fL، RBC 4.1 × 10¹²/L، فيريٽين 6 ng/mL، ۽ TIBC وڌيل هو. تقريباً 17.7 جو مينٽزر انڊيڪس واضح/مطلق لوهه جي ڪمي جي حمايت ڪري ٿو. BT-007 ۾، مريض 28 سالن جو مرد هو جنهن ۾ مائڪروسائٽوسس (MCV 65.8 fL) هو، پر RBC ڳڻپ 6.2 وڌيڪ، RDW عام، فيريٽين عام، ۽ HbA2 5.6 سيڪڙو هو. تقريباً 10.6 جو مينٽزر انڊيڪس ٿالاسيميا ٽريٽ ڏانهن اشارو ڪري ٿو، ۽ HbA2 جو وڌيل هجڻ بيٽا ٿالاسيميا مائنر جي تصديق ڪري ٿو.

لوهه جي ڪمي سبب انيميا مينٽزر > 13 فيريٽين گهٽ، TSAT گهٽ، TIBC وڌيل، RDW وڌيل

بيٽا ٿالاسيميا ٽريٽ مينٽزر < 13 فيريٽين عام، RDW عام، HbA2 وڌيل (>3.5%)، RBC ڳڻپ وڌيڪ

ٻنهي ڪيسن جو اسڪور 1.000 هو. انجڻ ٻنهي تشريحن ۾ مينٽزر انڊيڪس کي واضح طور استعمال ڪيو ۽ هر ڀيري صحيح تشخيص موٽائي. هي سڄي بينچمارڪ ۾ واحد سڀ کان وڌيڪ ڪلينڪي طور تسلي بخش نتيجو آهي, ، ڇاڪاڻ ته ٿالاسيميا ٽريٽ کي لوهه جي ڪمي طور غلط درجي بندي ڪرڻ سان غير مناسب لوهه جي سپليمينٽيشن ٿي وڃي ٿي ۽ خاندان جي اسڪريننگ جا موقعا رهجي وڃن ٿا، ۽ لوهه جي ڪمي کي ٿالاسيميا طور غلط درجي بندي ڪرڻ سان سڌي سادي متبادل علاج ۾ دير ٿي وڃي ٿي. اسان فيريٽين رينج گائيڊ وسيع فرق واري (differential) حوالي جي وضاحت ڪريون ٿا.

V11 ابتدائي ريفرنس رن مان في ڪيس نتيجا (23 اپريل 2026)

15-case proof-of-concept ڪوهاٽ تي اصل V11 ريفرنس رن ان جي طريقياتي بنياد طور ڪم ڪري ٿو Second Update جو: هيٺ ڏنل هر في ڪيس تفصيل ڏيکاري ٿو ته روبريڪ حقيقي انجڻ جي جواب کي ڪيئن سنڀاليندو آهي. پندرهن مان ٻارهن ڪيسن پرائمري رستي تي ceiling جامع اسڪور 1.000 حاصل ڪيو؛ ٽي ڪيس Phase 2 fallback ذريعي سروس ڪيا ويا، جنهن 0.05 latency بونس وڃائي ڇڏيو جڏهن ته سمورو ڪلينڪل ۽ ساختياتي مواد محفوظ رهيو. هڪ ڪيس ۾ هڪ واحد لازمي سب سيڪشن غائب هو؛ هڪ ڪيس ۾ probability distribution جو مجموعو ٿورو گهٽ موٽيو.

ڪيس ID خاصيت (Specialty) گڏيل (Composite) Latency Path

BT-001-IDAرت جي بيماري1.00017.8 sprimary

BT-006-B12رت جي بيماري1.00018.4 سيڪنڊprimary

BT-007-ٿالاسيميارت جي بيماري1.00017.0 سيڪنڊprimary

BT-002-هئشاينڊوڪرينولوجي0.95037.0 سيڪنڊبيڪ اپ

BT-008-PCOSاينڊوڪرينولوجي0.98718.6 سيڪنڊprimary

BT-003-T2DMميٽابولڪ1.00019.1 سيڪنڊprimary

BT-013-گائوٽميٽابولڪ1.00019.4 سيڪنڊprimary

BT-004-NAFLDهيپاٽولوجي1.00019.6 سيڪنڊprimary

BT-009-وائرل هيپاٽائيٽسهيپاٽولوجي0.95023.4 سيڪنڊبيڪ اپ

BT-014-گِلبَرٽٽريپ1.00018.9 سيڪنڊprimary

BT-005-CKDگردن جي بيماري1.00017.4 سيڪنڊprimary

BT-010-ASCVDقلبی امراض1.00019.7 سيڪنڊprimary

BT-011-SLEريميٽولوجي0.98118.2 سيڪنڊprimary

BT-012-VITDاينڊوڪرينولوجي1.00019.3 سيڪنڊprimary

BT-015-HEALTHYٽريپ1.00018.7 سيڪنڊبيڪ اپ

PCOS جو ڪيس (BT-008) جواب جي جوڙجڪ ۾ هڪ لازمي ذيلي حصو وڃائي ڇڏيو — سولهن مان پندرهن بدران سولهن مان سولهن — جنهن ساختي نمبر کي 1.000 کان 0.963 تائين گهٽائي ڇڏيو. SLE جو ڪيس (BT-011) هڪ ٿورو گهٽجي ويل امڪاني-وڏي ورهاست (probability-distribution) جو مجموعو واپس ڪيو، جنهن ڪلينڪل نمبر کي 0.965 تائين آڻي ڇڏيو، جڏهن ته هر تشخيصي لفظ ۽ نمبرنگ سسٽم محفوظ رهيو. ٻنهي گهٽ-ترين ڪيسن ۾ به صحيح تشخيص ڇٽي نه وئي.

V11 Second Update aggregate — 100,000 ڪيس

آبادي جي پيماني تي، انفرادي ڪيسن جون قطارون (rows) انسان لاءِ پڙهڻ لائق نه هونديون آهن، تنهنڪري ٻيو اپڊيٽ 100,000-قطار واري ٽيبل بدران گڏيل (aggregated) ميٽرڪس رپورٽ ڪري ٿو. مکيه گڏيل نتيجو هيٺ ڏيکاريل آهي؛ في-خاصيت ۽ في-ملڪ-ليبل تفصيل ٽيڪنيڪل رپورٽ ۽ Figshare ڊپازٽ ۾ شايع ڪيا ويندا آهن. هڪ stratified random sample جو n = 201 خام انجڻ جوابن (deterministic seed 20260426) کي معائني لاءِ GitHub results/ ڊائريڪٽري ۾ شايع ڪيو ويو آهي.

جامع اسڪور V11 ابتدائي: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 100,000-case ڪوهاٽ ۾

ساختياتي اسڪور (اوسط) V11 ابتدائي: 0.998 → Second Update: 1.000 آبادي جي سطح تي مڪمل ساختياتي مطابقت

ڪلينڪل اسڪور (اوسط) V11 ابتدائي: 0.998 → Second Update: 0.996 −0.002؛ ڪنهن به ڪيس ۾ تشخيص پاڻ مس نه ٿي

ديرِي — اوسط (حد) V11 شروعاتي: 20.17 سيڪنڊ (17.0–37.0 سيڪنڊ) → ٻي اپڊيٽ: 13.26 سيڪنڊ (9.0–16.94 سيڪنڊ) رَنز جي وچ ۾ پروڊڪشن انجڻ جي اصلاحون

انجڻ جو رستو = پرائمري V11 شروعاتي: 12 / 15 → ٻي اپڊيٽ: 100,000 / 100,000 رَن دوران ڪنهن به موقعي تي فيز 2 جي بيڪ اپ جي ضرورت نه پئي

ٽريپ-سب سيٽ هائپرڊائگنوسس جا جھنڊا V11 شروعاتي: 0 / 13 → ٻي اپڊيٽ: 0 / 87,412 آبادي جي سطح تي ڪوبه غلط-مثبت نه (8,723 ٽريپ ڪيسز مانيٽر ڪيا ويا)

هيڊ لائن اسڪور اسان کي ڇا نٿو ٻڌائي

هن خاص اڳ-رجسٽرڊ روبِرڪ تحت 99.80 سيڪڙو جو هڪ جامع اسڪور، 127 ملڪ ليبلن تي پکڙيل 100,000-ڪيس مصنوعي ڪوهاٽ ۾، near-ceiling ڪارڪردگي ڏيکاري ٿو — پر ان کي احتياط سان فريم ڪرڻ گهرجي. نتيجو انجڻ جي رويي کي ان روبِرڪ جي خلاف بيان ڪري ٿو جنهن لاءِ اسان V11 ۾ سورس ڪوڊ ۾ وابستگي ڪئي هئي؛ اهو انجڻ جي هر ان بلڊ ٽيسٽ پينل تي درست هجڻ بابت ڪا عالمگير (universal) دعويٰ ناهي جيڪو دنيا ۾ موجود هجي.

اسڪور چوي ٿو ته انجڻ هن جائزي لاءِ چونڊيل تشخيصي نمونن کي آبادي-سطح جي ڪوهاٽ ۾ صحيح نموني سنڀاليو، اهڙي طريقيڪار سان جيڪو شايع ٿيل ۽ ورجائي سگهجي ٿو. اهو نٿو چوي ته انجڻ جنگل ۾ موجود هر رت جي جاچ پينل تي صحيح آهي. اهو نٿو چوي ته انجڻ کي ڪلينشين جي فيصلي جو متبادل بڻجڻ گهرجي. ۽ اهو نٿو چوي ته انجڻ متبادل AI سسٽمن کان بهتر آهي — ٻين انجڻن جي مقابلي واري تجزين کي هن رپورٽ جي دائري کان ٻاهر رکيو ويو.

جيڪو اسڪور قائم ڪري ٿو، اهو هڪ بنياد (baseline) آهي. جڏهن روبرڪ ۽ هارنس عوام لاءِ موجود آهن، انجڻ جا مستقبل وارا ورزن ساڳئي روبرڪ جي خلاف جائزو وٺي سگهجن ٿا — V11 شروعاتي 15 ڪيسن تي، ٻي اپڊيٽ 100,000 ڪيسن جي ڪوهاٽ تي، يا ڪنهن به بعد واري واڌ تي — ۽ شايع ٿيل اسڪور ۽ ڪنهن به بعد واري رَن جي وچ ۾ فرق پاڻ به ماپجي سگهجي ٿو. اڳواٽ رجسٽريشن جي اها ئي اهميت آهي: اها ڪارڪردگيءَ بابت دعوائن کي پرکي سگهڻ وارين دعوائن ۾ تبديل ڪري ٿي.

10 منٽن ۾ هن بئنچمارڪ کي ڪيئن ورجائجي

ٻيهر پيدا ڪرڻ لاءِ صرف هڪ Kantesti API credential جوڙو ۽ Python 3.10 يا ان کان پوءِ وارو ماحول گهربل آهي، جنهن ۾ requests ۽ reportlab لائبريريون انسٽال ٿيل هجن. مڪمل هارنس هڪ ئي، پاڻ ۾ مڪمل (self-contained) Python ماڊيول آهي، جيڪو MIT لائسنس تحت جاري ڪيو ويو آهي.

💻 GitHub MIT-لائسنس ٿيل هارنس · خام جواب · ريفرنس رن 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · بنيادي علمي رڪارڊ 🎓 ريسرچ گيٽ Publication 404175463 · V11 Second Update · علمي دريافت واري پرت 📄 اڪيڊميا ڊاٽ ايجو Paper 165956808 · V11 Second Update · علمي دريافت واري پرت

نئين رن لاءِ چار قدم

هڪ. رپوزٽري ڪلون ڪريو: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ٻه. انحصار (dependencies) انسٽال ڪريو pip install -r requirements.txt (Second Update شامل ڪري ٿو mysql-connector-python ≥ 8.0 SQL case loader لاءِ). ٽي. مقرر ڪريو KANTESTI_USERNAME ۽ KANTESTI_PASSWORD انجڻ جي API لاءِ ماحولياتي متغيرن (environment variables) طور. ٻي اپڊيٽ SQL case loader لاءِ پڻ سيٽ ڪريو KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، ۽ KANTESTI_DB_PASSWORD — لوڊر هڪ صرف-پڙهڻ واري رول ذريعي ڳنڍجي ٿو (bench_reader) جنهن کي سڃاڻپ ڪندڙ ٽيبلن تي ڪا به مراعت ناهي. چار. هلائڻ لاءِ python benchmark_bloodtest.py --limit 100000 مڪمل Second-Update هلائڻ لاءِ، يا python benchmark_bloodtest.py --limit 1000 تيز ورجاءَ لاءِ. آئوٽ پُٽ هتي محفوظ ٿين ٿا ./benchmark_results/: هڪ CSV scorecard جنهن ۾ per-country-label ۽ per-specialty ڪالمن، هڪ JSON aggregate، هڪ stratified-random خام-response sample، ۽ هڪ Markdown رپورٽ.

حوالاتي رَن 23 اپريل 2026 (V11 شروعاتي، 15 ڪيس) ۽ 26 اپريل 2026 (V11 Second Update، 100,000 ڪيس) رپوزٽري جي results/ ڊائريڪٽري ۾ محفوظ ڪيا ويا آهن. نئون رَن هڪ نئون ٽائيم اسٽيمپ ٿيل اسڪوَر ڪارڊ ٺاهيندو، جڏهن ته حوالاتي رَن اڻ ڇهيا رهندا. جيڪڏهن توهان جو رَن معنيٰ خيز طور تي مختلف نتيجو ڏئي، مهرباني ڪري GitHub تي هڪ issue کوليو جنهن ۾ رَن جو ٽائيم اسٽيمپ ۽ response metadata ۾ موٽايل engine version شامل هجي.

حدون ۽ مستقبل جو ڪم

127 ملڪ-ليبلز ۾ 100,000 ڪيسن تائين به، چار حدون واضح طور تي تسليم ٿيڻ گهرجن: long-tail ليبل undersampling، single-shot evaluation، single-engine scope، ۽ single-source data origin. انهن مان هر هڪ کي فعال follow-up ڪم ۾ حل ڪيو پيو وڃي.

Long-tail label coverage. Second Update ۾ 127 ملڪ-ليبلز شامل آهن، پر ورڇ غير متوازن آهي — مٿيان 10 ليبلز ڪيسن جو ≈66.4% حصو ڏين ٿا، ۽ باقي 97 اضافي ليبلز جو long tail گڏجي ≈7.3% (تقريباً 7,300 ڪيس گڏيل، في ليبل اوسط ~75 ڪيس) ۾ حصو ڏئي ٿو. تنهنڪري هن long tail ۾ per-label composites انهن headline انگن کان وڌيڪ شور وارا آهن جيڪي ظاهر ڪن ٿا. مستقبل جون رنسون ليبل اسائنمينٽ کي ٻيهر بيلنس ڪنديون ته جيئن per-label اندازا مضبوط ٿين.

سنگل شاٽ ايويوليئيشن. ڪوهرٽ ۾ هر ڪيس کي هڪ ڀيرو تشخيص ڪيو ويو. وڏا ٻولي ماڊل گهٽ sampling temperature تي به غير معمولي آئوٽ پُٽ ڦيرڦار ڏيکارين ٿا، تنهنڪري هر ڪيس لاءِ پنج تشخيصن سان multi-run پروٽوڪول ۽ رپورٽ ڪيل variance هڪ قدرتي ايندڙ قدم آهي — خاص طور تي trap-case سب سيٽ تي، جتي sampling jitter هيٺ تسلسل (consistency) حفاظت واري دعويٰ جو حصو آهي.

سنگل انجڻ جو دائرو. هي رپورٽ هڪ انجڻ (engine) کي بيان ڪري ٿي. متبادل AI سسٽمن جي خلاف تقابلي تجزيا هتي دائري کان ٻاهر آهن؛ اسان شايد انهن کي ساڳئي MIT-لائسنس ٿيل harness جي خلاف مناسب طريقيڪار سان هڪ الڳ آزاد مطالعي طور اڳتي وڌايون.

Synthetic data. 100,000 ڪيس synthetically generated آهن، نه ته synthetic cases؛ ۽ نتيجا حقيقي دنيا جي ڪلينڪل ڪارڪردگي ڏانهن منتقل نٿا ٿين. حقيقي، رضامنديءَ سان گڏ، ٻاهرين ذريعن مان آيل ڊيٽا تي تشخيص لاءِ مناسب اخلاقي نگراني گهربل هوندي ۽ هي هن synthetic benchmark جي دائري کان ٻاهر آهي.

انهن چئن کان ٻاهر، سڀ کان وڌيڪ اثرائتي رٿيل واڌ multi-language parity في جُراسڊڪشن آهي. Kantesti AI Engine 75+ ٻولين ۾ استعمال ڪندڙن کي سهولت ڏئي ٿو، ۽ ٻولي-وار stratified Second-Update سب-ڪوهرٽس (ترڪي، جرمن، اسپينش، فرينچ، اطالوي، پرتگالي، عربي، منڊارين) هلائڻ انجڻ جي سهڪار ڪيل ٻولين ۾ آئوٽ پُٽ معيار کي ماپيندو. هر ٻولي-وار تجزيو پنهنجي DOI ۽ harness برانچ سان شايع ڪيو ويندو.

ساڳيو انجڻ آزمائو جنهن 100,000 ڪيسن تي 99.80% Composite Score حاصل ڪيو

پنهنجي رت جي جاچ جو پينل ساڳئي پروڊڪشن اينڊ پوائنٽ تي اپلوڊ ڪريو جنهن کي هن بئنچمارڪ ۾ جائزو ورتو ويو هو. دنيا بھر ۾ 2 ملين کان وڌيڪ استعمال ڪندڙ Kantesti AI Engine استعمال ڪن ٿا، جيڪو 75+ ٻولين ۾ 15,000 کان وڌيڪ بائيو مارڪرز جي تشريح ڪري ٿو.

🔬 مفت ڊيمو آزمايو

ڪروم ايڪسٽينشن ايپ اسٽور گوگل کيڏو

📚 هن بئنچمارڪ کي ڪيئن حوالو ڏجي

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (ٽيڪنيڪل رپورٽ V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 ٻاهرين طريقيڪار جا حوالا

Mentzer, W. C. (1973). لوهه جي کوٽ کي ٿيلسيميا ٽريٽ کان ڌار ڪرڻ. The Lancet, 301(7808), 882.

🏥 پب ميڊ

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 European League Against Rheumatism / American College of Rheumatology سسٽمڪ لوپس ايريٿيميٽوسس لاءِ درجي بندي جا معيار. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 ڊي او آءِ 🏥 پب ميڊ

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: وڏي ٻوليءَ جي ماڊلز لاءِ ميڊيڪل ڊومين هيلوسينيشن ٽيسٽ. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%گڏيل اسڪور

100,000اسڪور ڪيل ڪيس

127Country Labels Covered

0 / 87,412ٽريپ جا غلط-مثبت نتيجا

وچان وچان سوال ڪرڻ

مصنوعي ٽيسٽ ڪيسن تي Kantesti AI انجڻ ڪيترو درست آهي؟

هڪ pre-registered rubric تي، 100,000 synthetically generated ٽيسٽ ڪيسن تي هلائي (اٺ مواد جي علائقن ۽ 127 ملڪ-ليبلز ۾؛ V11 Second Update)، انجڻ هڪ composite اسڪور 99.80 سيڪڙو تائين پهچي وئي، ۽ 87,412 نگراني ڪيل trap-case موقعن ۾ صفر hyperdiagnosis flags هئا، جڏهن ته mean response latency 13.26 سيڪنڊ هئي. هي composite ماپ ڪري ٿو synthetic inputs تي output conformance، نه ته تشخيصي درستگي. اصل V11 رليز ساڳي rubric کي 15 هٿ سان ٺهيل ڪيسن تي آزمايو (composite 99.12%)؛ Second Update rubric کي byte-identical رکي ٿي ۽ ان کي وڏي synthetic cohort تائين وڌائي ٿي. مڪمل scorecard Figshare تي DOI 10.6084/m9.figshare.32095435 تحت ۽ GitHub تي MIT licence تحت شايع ٿيل آهي.

ڇا Kantesti AI انجڻ ڪلينڪي طور تي تصديق ٿيل آهي؟

نه. انجڻ کي هڪ automated technical benchmark (نه ته clinical validation) سان تشخيص ڪيو ويو آهي، اهڙي rubric جي خلاف جيڪا V11 جي ابتدائي رن کان اڳ source code ۾ منجمد ڪئي وئي هئي ۽ V11 Second Update لاءِ byte-identical رکي وئي، ۽ 127 ملڪ-ليبلز مان چونڊيل hematology، endocrinology، metabolic medicine، hepatology، nephrology، cardiology، rheumatology، ۽ internal medicine ۾ 100,000 synthetic blood-test ڪيسن تي تشخيص ڪئي وئي. ڪلينڪل نگراني Dr. Thomas Klein، MD (ORCID 0009-0009-1490-1321) طرفان مهيا ڪئي وئي، جيڪو board-certified clinical hematologist ۽ Kantesti AI ۾ Chief Medical Officer آهي.

هائپرڊائگنوسس ٽريپ ڪيس ڇا آهي؟

هائپرڊائگنوسس ٽريپ ڪيس هڪ اهڙو ڪلينڪل منظرنامو آهي جيڪو خاص طور تي AI انجڻ ۾ اوور-ڊائگنوسس واري رويي کي سڃاڻڻ لاءِ ٺاهيو ويندو آهي. V11 شروعاتي بينچمارڪ اهڙن ٻن ڪيسن کي طريقه ڪار (methodological) جي ثبوت طور استعمال ڪيو: هڪ الڳ ٿيل اڻ سڌي هائپر بيليروبينيميا جيڪو گِلبرٽ جي سنڊروم سان مطابقت رکي ٿو (جتي صحيح تشريح هيپاٽائٽس يا هيمولائسز نه پر بي نائين UGT1A1 پوليمورفزم آهي) ۽ هڪ مڪمل طور تي عام بالغ اسڪريننگ پينل (جتي صحيح نتيجو يقين ڏيارڻ آهي، نه ته ٺاهيل سرحدي بيماري). V11 سيڪنڊ اپڊيٽ هن ٽريپ-ڪيس واري طريقي کي 8,723 ڪيسن جي مخصوص سب سيٽ تائين وڌايو، جنهن مان 87,412 نگراني ڪيل هائپرڊائگنوسس فليگ جا موقعا مليا — ۽ انجڻ جي false-positive شرح صفر ئي رهي.

ڇا Kantesti AI انجڻ جي جائزي (evaluation) کي ٻيهر ورجائي سگهجي ٿو؟

مڪمل ايوليوئيشن هارنس MIT لائسنس تحت جاري ڪئي وئي آهي هڪ ئي self-contained Python ماڊيول طور. V11 شروعاتي رن لاءِ صرف Kantesti API credential جوڙو ۽ Python 3.10 يا ان کان پوءِ گهربل آهي. V11 سيڪنڊ اپڊيٽ هڪ پيرا ميٽرائيزڊ، صرف پڙهڻ (read-only) SQL ڪيس لوڊر شامل ڪري ٿي، جنهن لاءِ Kantesti ڪلينڪل-ريپوزٽري credentials گهربل آهن (a bench_reader اهڙو ڪردار جنهن کي ٽيبلن جي سڃاڻپ (identifying) بابت ڪا به مراعت (privileges) ناهي). ڪوڊ، ڪيس لوڊر SQL، روبرڪ (رليزز جي وچ ۾ بائيٽ-برابر)، ۽ V11 شروعاتي ۽ سيڪنڊ اپڊيٽ ريفرنس رنز مان خام انجڻ جي جوابن جو stratified random sample github.com/emirhanai/kantesti-blood-test-benchmark تي موجود آهي ۽ Figshare، ResearchGate، ۽ Academia.edu تي به آئيني (mirrored) طور موجود آهي.

Kantesti AI انجڻ لوهه جي گهٽتائي کي بيٽا-ٿيلسيميا ٽريٽ کان ڪيئن ڌار ڪري ٿي؟

انجڻ Mentzer index لاڳو ڪري ٿي، جيڪو mean corpuscular volume کي red blood cell count سان ورهائي حساب ڪيو ويندو آهي. Mentzer index 13 کان مٿي هجي ته آئرن جي گهٽتائي واري انيميا (iron deficiency anaemia) جي حمايت ڪري ٿو، جڏهن ته 13 کان هيٺ هجي ته بيٽا-ٿالاسيميا ٽريٽ (beta-thalassaemia trait) جي حمايت ڪري ٿو. V11 شروعاتي بينچمارڪ ۾ ٻنهي پيشڪشن کي صحيح نموني درجه بندي ڪيو ويو، واضح Mentzer index حساب سان، ۽ ferritin، RDW، ۽ HbA2 جي حوالي (context) سان سهڪار ڏنو ويو. V11 سيڪنڊ اپڊيٽ ۾ 100,000 ڪيسن واري cohort ۾ به ساڳيو فرق ڪندڙ رويي آبادي جي سطح تي برقرار رهيو.

مان خام بينچمارڪ ڊيٽا ۽ سورس ڪوڊ ڪٿي ڳولي سگهان ٿو؟

ٽيڪنيڪل رپورٽ Figshare تي DOI 10.6084/m9.figshare.32095435 تحت جمع ڪئي وئي آهي (جنهن ۾ V11 شروعاتي رليز ۽ V11 سيڪنڊ اپڊيٽ ٻئي شامل آهن)، ResearchGate تي publication 404175463 ۽ Academia.edu تي paper 165956808 تي به آئيني طور موجود آهي — ٻئي V11 سيڪنڊ اپڊيٽ جي عنوان ۽ 100,000 ڪيسن جي نتيجن سان اپڊيٽ ڪيل — ۽ MIT-لائسنس ٿيل Python هارنس جنهن ۾ سڀ ريفرنس رن جا نتيجا شامل آهن، github.com/emirhanai/kantesti-blood-test-benchmark تي موجود آهي. چار-پليٽ فارم آئيني نيٽ ورڪ ڊگهي مدي واري دستيابي ۽ حوالن (citation) جي لچڪ کي يقيني بڻائي ٿو.

AI ميڊيڪل بينچمارڪن لاءِ اڳواٽ رجسٽريشن (pre-registration) ڇو اهم آهي؟

اڳواٽ رجسٽريشن پوسٽ-هاڪ روبرڪ ٽيوننگ کي روڪي ٿي، جيڪا ڪمپنيءَ هلائيندڙ بينچمارڪن ۾ پنهنجا انگ وڌائڻ جو سڀ کان عام طريقو آهي. روبرڪ کي ڪنهن به انجڻ جي سڏ کان اڳ سورس ڪوڊ ۾ پابند (commit) ڪري ۽ هارنس کي عوامي طور شايع ڪري، روبرڪ ليکڪ جون تاريخون ورزن ڪنٽرول ۾ جانچي سگهجن ٿيون، ۽ انجڻ جا نتيجا اسڪورنگ معيارن کي شڪل نه ڏئي سگهندا.

ڇا هن بينچمارڪ ۾ ٻين AI انجڻن سان مقابلا شامل آهن؟

نه. V11 رپورٽ — ٻئي شروعاتي رليز ۽ سيڪنڊ اپڊيٽ — ارادي طور هڪ ئي انجڻ کي هڪ مقرر روبرڪ جي خلاف بيان ڪري ٿي، نه ڪي ان کي متبادل تجارتي سسٽمن جي خلاف پوزيشن ڏئي ٿي. هارنس MIT لائسنس تحت اوپن سورس آهي (هاڻي SQL ڪيس لوڊر سميت)، تنهنڪري آزاد محقق ڪنهن به انجڻ کي چونڊي ساڳئي روبرڪ ۽ ڪيس لوڊر جي خلاف جائزو وٺي سگهن ٿا ۽ پنهنجا نتيجا شايع ڪري سگهن ٿا.

ڇا مريضن جا ڪيس حقيقي آهن يا مصنوعي (synthetic)؟

سڀ ڪيس synthetically generated آهن — V11 ابتدائي رليز ۾ 15 هٿ سان ٺهيل ڪيس ۽ Second Update ۾ 100,000. اهي synthetic cases نه آهن: ڪابه synthetic data، ڪوبه consent process، ۽ ڪابه de-identification شامل ناهي، ڇاڪاڻ ته cohort ۾ ڪا به ذاتي معلومات موجود ناهي. شايع ٿيل harness، technical report، يا جاري ڪيل datasets ۾ ڪا به ذاتي معلومات ظاهر نٿي ٿئي.

⚕️ طبي معذرت نامو (Medical Disclaimer) ۽ مفاد جو ٽڪراءُ (Conflict of Interest)

هي بينچمارڪ رپورٽ تحقيق ۽ طريقيڪار جي شفافيت جي مقصدن لاءِ آهي. هي طبي صلاح نه آهي، تشخيص نه آهي، ۽ پيشه ورانه طبي سنڀال جو متبادل نه آهي؛ هتي ڪو به نتيجو ڊاڪٽر کي ڏسڻ ۾ دير ڪرڻ يا ان کان پاسو ڪرڻ لاءِ استعمال نه ڪيو وڃي. تشخيص ۽ علاج بابت فيصلن لاءِ هميشه هڪ قابل صحت فراهم ڪندڙ سان صلاح ڪريو. هي ڪمپني جي پنهنجي انجڻ جو هڪ خود هلائيندڙ اندروني بينچمارڪ آهي ۽ ان جي آزاد طور تي ويليڊيشن يا پير-ريويو نه ڪئي وئي آهي. جامع اسڪور هڪ مقرر روبرڪ (رپورٽ جي جوڙجڪ، لفظي/ڪي ورڊ ۽ اسڪورنگ سسٽم جي ريڪال، ۽ ليٽنسي) سان مطابقت کي ماپي ٿو؛ اهو حقيقي دنيا جي تشخيصي درستگي يا ڪلينڪل حفاظت جو ماپ نه آهي. ٻئي ليکڪ Kantesti Ltd ۾ ملازم آهن ۽ ان ۾ ايڪوئٽي رکن ٿا، ۽ جنهن انجڻ جو جائزو ورتو پيو وڃي اهو ساڳي تنظيم جو هڪ تجارتي پراڊڪٽ آهي. مفاد جي هن ٽڪراءَ کي سورس ڪوڊ ۾ روبرڪ کي اڳواٽ رجسٽر ڪرڻ، MIT لائسنس تحت هارنس جاري ڪرڻ، ۽ خام انجڻ جي جوابن جو stratified random sample شايع ڪرڻ سان گهٽايو ويو آهي.

E-E-A-T اعتماد جا سگنل

⭐

تجربو

ڪيس پينل جي چونڊ جي نگراني لاءِ 15+ سال ڪلينڪل هيماتولوجي ۽ ليبارٽري ميڊيسن جي مشق.

📋

ماهر

اڳواٽ رجسٽر ٿيل روبرڪ ڊيزائن، واضح هائپرڊائگنوسس ڏنڊن (penalties) سان، ۽ تسليم ٿيل ڪلينڪل اسڪورنگ سسٽم (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

اختيار

مکيه ليکڪ ڊاڪٽر ٿامس ڪلين، ايم ڊي (ORCID 0009-0009-1490-1321). عمل درآمد (Implementation) جولين ايميرهان بلوت، CEO of Kantesti Ltd.

🛡️

اعتبار

MIT لائسنس تحت ٻيهر پيدا ڪري سگهجندڙ (reproducible) هارنس، خام انجڻ جا جواب شايع ٿيل، اوپن مفاد-ٽڪراءُ (conflict-of-interest) جي مڪمل پڌرائي، ۽ چار پليٽفارم ريسرچ آئيني نيٽ ورڪ.

🏢 ڪينٽيسٽي لميٽيڊ انگلينڊ ۽ ويلز ۾ رجسٽرڊ · ڪمپني نمبر. 17090423 لنڊن، برطانيه · ڪانٽيسٽي نيٽ