এই বেঞ্চমাৰ্ক কিয় আছে আৰু ই কি পৰীক্ষা কৰে

AI-সহায়ত তেজ পৰীক্ষাৰ ফলাফল কেনেকৈ পঢ়িব কনজিউমাৰ আৰু ক্লিনিকেল কাৰ্যপ্ৰবাহত ক্ৰমাৎ বেছি ব্যৱহাৰ কৰা হৈছে, কিন্তু লেবৰেটৰী চিকিৎসাৰ বাবে উপযোগী পুনৰুৎপাদনযোগ্য মূল্যায়ন কাঠামো অতি কম। এই পৰিস্থিতিত আটাইতকৈ গুৰুত্বপূৰ্ণ প্ৰশ্নবোৰ সাধাৰণ চিকিৎসা প্ৰশ্ন-উত্তৰ বেঞ্চমাৰ্কত কোৱা নহয়: mean corpuscular volume একে থাকিলেও এটা ইঞ্জিনে লৌহৰ অভাৱক থেলাছেমিয়া বৈশিষ্ট্যৰ পৰা পৃথক কৰিব পাৰেনে, hepatitis হিচাপে Gilbert's syndrome অতিনিৰ্ণয় (over-diagnose) কৰে নেকি, আৰু সম্পূৰ্ণ স্বাভাৱিক স্ক্ৰীণিং পেনেলত প্যাথলজি “উৎপাদন” কৰে নেকি?

Kantesti AI ইঞ্জিনক জমা (frozen) স্ক’ৰিং মানদণ্ডৰ বিপৰীতে কেনেকৈ মূল্যায়ন কৰা হয়—সেই কথা দেখুওৱা প্ৰি-ৰেজিষ্টাৰ্ড ৰুব্ৰিক ফ্ল’ ডায়াগ্ৰাম
চিত্ৰ ১: মানদণ্ডৰ স্থাপত্য — প্ৰতিটো কেছ, প্ৰতিটো কী-ৱৰ্ড, প্ৰতিটো স্ক’ৰিং ব্যৱস্থা — ইঞ্জিনে এটা PDF দেখাৰ আগতেই উৎস ক’ডত স্থিৰ কৰি দিয়া থাকে। ডিজাইনৰ দ্বাৰাই post-hoc rubric tuning সম্ভৱ নহয়।.

এটা একক তেজ পৰীক্ষাৰ পেনেল সাধাৰণতে কেইবাটাও প্ৰতিদ্বন্দ্বী ব্যাখ্যাৰ বাবে যথেষ্ট সংকেত বহন কৰে, আৰু ব্যাখ্যা কৰা চিকিৎসকজনৰ কাম হ’ল সেই ব্যাখ্যাবোৰক ইটোৰ সৈতে সিটো তুলনা কৰি ওজন দিয়া—পাঠ্যপুথিৰ এটা “ঠিক উত্তৰ” উদ্ধাৰ কৰা নহয়। পাঠ্যপুথিৰ কেছত ভাল কৰা এটা ইঞ্জিনে তথাপিও আটাইতকৈ গুৰুত্বপূৰ্ণ কেছত বিফল হ’ব পাৰে: differential-diagnosis ৰ ফান্দ, কেৱল এককভাৱে দেখিলে ভয়ংকৰ যেন লগা নিৰীহ ভেৰিয়েন্ট, আৰু সম্পূৰ্ণ স্বাভাৱিক পেনেল যিয়ে আত্মবিশ্বাসী সহায়কক pathology “উৎপাদন” কৰিবলৈ প্ৰলোভিত কৰে।.

এই benchmark ঠিক এই ধৰণৰ বিফলতাৰ ধৰণবোৰৰ ওপৰত নিৰ্মাণ কৰা হৈছিল। পঞ্চদশটা কেছক এটা নিৰ্দিষ্ট ডায়াগন’ষ্টিক গুণৰ বাবে বাছনি কৰা হৈছিল: একে mean corpuscular volume থকা beta-thalassaemia trait ৰ পৰা পৃথক কৰি ৰাখিব লাগা iron-deficient microcytosis, এটা Gilbert's syndrome ৰ উপস্থাপন য’ত একমাত্ৰ অস্বাভাৱিকতা হ’ল isolated indirect hyperbilirubinaemia, আৰু এটা পঞ্চদশ-পেৰামিটাৰ screening পেনেল য’ত প্ৰতিটো analyte নিজৰ reference range ৰ ভিতৰতেই থাকে। rubric এ সেই ইঞ্জিনক পুৰস্কৃত কৰে যিয়ে প্ৰতিটো কেছক নিজৰ নিজা চৰ্তত পঢ়ে, আৰু সেই ইঞ্জিনক শাস্তি দিয়ে যিয়ে এনে ডায়াগন’ছিছৰ প্ৰয়োজন নথকা সত্ত্বেও আত্মবিশ্বাসী ডায়াগন’ছিছত উপনীত হয়।.

MD থমাছ ক্লেইন হিচাপে, মই কেছ পেনেল বাছনি কৰিছিলোঁ কাৰণ মই দেখোঁ যে laboratory-medicine সহায়কসকলে আটাইতকৈ বেছি ভুল কৰা পেটাৰ্নবোৰ এয়াই।. ব্যয়বহুল বিফলতাৰ ধৰণটো "এটা বিৰল ৰোগ এৰি যোৱা" নহয়—ইয়াৰ বদলে, যিসকল ৰোগীয়ে সেই ৰোগটো নাথাকে তেওঁলোকৰ ক্ষেত্ৰত routine pathology উদ্ভাৱন কৰা।. আমাৰ চিকিৎসা বৈধকৰণ hub এ বহল কাঠামো বৰ্ণনা কৰে; এই পৃষ্ঠাই V11 ইঞ্জিনত ইয়াৰ প্ৰয়োগ কৰা ফলাফল বৰ্ণনা কৰে।.

শেহতীয়া ৰেফাৰেন্স ৰান — V11 (এপ্ৰিল ২০২৬)

Kantesti AI Engine V11 ৰ April 2026 reference run এ এটা composite score উৎপন্ন কৰিছিল 99.12% pre-registered পঞ্চদশ-কেছ rubric ত। দুয়োটা hyperdiagnosis trap কেছ ceiling ত স্ক’ৰ কৰিছিল। iron-deficiency বনাম thalassaemia differential ত Mentzer index সঠিকভাৱে প্ৰয়োগ কৰা হৈছিল।.

Composite 99.12% 15 of 15 কেছ স্ক’ৰ
0.998 Structural score
0.998 Clinical score
20.17 s Mean latency
0 / 13 Trap false-positives

Composite সূত্ৰটোৱে তিনিটা উপাদান একত্ৰিত কৰে: structural conformance সাতটা বাধ্যতামূলক report section আৰু ষোলটা বাধ্যতামূলক subsection ৰ সৈতে, clinical accuracy যাক মাপা হয় keyword recall + scoring-system recall + probability-distribution validity check ৰে, আৰু response latency ২০-ছেকেণ্ডৰ primary-path service-level target ৰ বিপৰীতে। সঠিক বিভাজন তলৰ rubric formula ত দেখুওৱা হৈছে।.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × বিলম্বতা

হেডৰুমৰ বাকী 0.88 শতাংশ পইণ্ট প্ৰায় সম্পূৰ্ণভাৱে বিলম্বতা হেৰুৱাৰ বাবে ভাঙি যায় — প্ৰতি এটা মুঠতে −0.05 সংযুক্ত (composite) থকা তিনিটা Phase 2 fallback আহ্বানে 0.88-পইণ্ট ঘাটিৰ ভিতৰত প্ৰায় 0.60 অৰিহণা আগবঢ়াইছিল — ক্লিনিকেল বিষয়বস্তুত নহয়। ইঞ্জিনে পঞ্চদশটা কেছৰ এটাতো এটা সঠিক নিৰ্ণয় (diagnosis) মিছ নকৰিলে; য’ত ই অলপ কম পৰিল, তাত সৰু সংখ্যক আহ্বানত ২০-ছেকেণ্ডৰ প্ৰাথমিক-পথ (primary-path) লক্ষ্যতকৈ অলপ বেছি সময় লৈছিল।.

সাতটা চিকিৎসা বিশেষত্বৰ মাজেৰে পোন্ধৰটা কেছ

কেছ পেনেলে সাতটা বিশেষত্ব সামৰি লয় — হেমাট’লজি, এণ্ড’ক্ৰাইন’লজি, মেটাবলিক মেডিচিন, হেপাট’লজি, নেফ্ৰ’লজি, কাৰ্ড’লজি, ৰিউমেট’লজি — লগতে দুটা নিৰ্দিষ্ট hyperdiagnosis trap কেছ। প্ৰতিটো কেছ হৈছে লিখিত অৱগত সম্মতি (written informed consent)ৰ অধীনত Kantesti ক্লিনিকেল ডাটা ৰিপ’জিটৰিৰ পৰা লোৱা এটা বেনামীকৃত (anonymised) বাস্তৱ ৰোগীৰ ৰেকৰ্ড।.

সাতটা চিকিৎসা বিশেষত্বৰ মাজত বিতৰণ কৰা পঞ্চদশটা বেনামী তেজ পৰীক্ষাৰ কেছৰ কভাৰেজ মানচিত্ৰ, লগতে হাইপাৰডায়াগন’ছিছ ট্ৰেপ কেছ
চিত্ৰ ২: হেমাট’লজি, এণ্ড’ক্ৰাইন’লজি, মেটাবলিক মেডিচিন, হেপাট’লজি, নেফ্ৰ’লজি, কাৰ্ড’লজি, ৰিউমেট’লজি — এইবোৰৰ মাজত কেছৰ বণ্টন, লগতে দুটা trap কেছ — Gilbert's syndrome আৰু সম্পূৰ্ণ স্বাভাৱিক স্ক্ৰিনিং পেনেল।.

Safe Harbor পদ্ধতি অনুসৰি ডি-আইডেণ্টিফিকেচন কৰা হৈছিল: সকলো প্ৰত্যক্ষ চিনাক্তকাৰী (direct identifiers) আঁতৰোৱা বা সলনি কৰা হৈছিল, আৰু প্ৰতিটো ৰেকৰ্ডক BT-NNN-LABEL বিন্যাসত এটা benchmark-internal কেছ ক’ড দিয়া হৈছিল। প্ৰক্ৰিয়াকৰণ কৰা হৈছিল তলত দিয়া অনুসৰি GDPR ধাৰা 9(2)(j) উপযুক্ত সুৰক্ষা ব্যৱস্থাসহ বৈজ্ঞানিক গৱেষণাৰ বাবে, আৰু সমতুল্য UK GDPR বিধানসমূহ। প্ৰকাশিত harness, কাৰিকৰী প্ৰতিবেদন (technical report), বা মুক্তি দিয়া ডাটাছেটসমূহৰ ক’তো কোনো ব্যক্তিগতভাৱে চিনাক্ত কৰিব পৰা তথ্য (personally identifying information) দেখা নাযায়।.

হেমাট’লজি (3) BT-001, BT-006, BT-007 Iron deficiency anaemia · B12 deficiency · Beta-thalassaemia minor
এণ্ড’ক্ৰাইন’লজি (3) BT-002, BT-008, BT-012 Hashimoto's thyroiditis · ইনচুলিন ৰেজিষ্টেন্স থকা PCOS · গুৰুতৰ ভিটামিন ডিৰ অভাৱ
মেটাবলিক (2) BT-003, BT-013 মেটাবলিক ছিণ্ড্ৰমসহ T2DM · গাউটৰ ঝুঁকি থকা Hyperuricaemia
হেপাট’লজি (2) BT-004, BT-009 NAFLD / NASH · তীব্ৰ ভাইৰেল হেপাটাইটিছ
নেফ্ৰ’লজি · কাৰ্ড’লজি · ৰিউমেট’লজি (3) BT-005, BT-010, BT-011 CKD stage 3 · Atherogenic dyslipidaemia · Systemic lupus erythematosus
Trap কেছ (2) BT-014, BT-015 Gilbert's syndrome (isolated indirect hyperbilirubinaemia) · সম্পূৰ্ণ স্বাভাৱিক প্ৰাপ্তবয়স্ক স্ক্ৰিন

এই বিশেষ বিতৰণ কিয়?

হেমাট’লজি তিনিটা কেছ পায় কাৰণ মাইক্ৰ’চাইটিক ডিফাৰেনচিয়েল আৰু মেক্ৰ’চাইটিক ডিফাৰেনচিয়েল—দুয়োটাই বাস্তৱ-জগতৰ লেব’ৰেটৰী অনুশীলনত সৰ্বাধিক পৰিমাণৰ “ট্ৰেপ”। এণ্ড’ক্ৰাইন’লজি তিনিটা কেছ পায় কাৰণ Hashimoto's, PCOS, আৰু ভিটামিন ডিৰ অভাৱ—এইবোৰৰ উপস্থাপনাই ভিন্ন ভিন্ন ডায়াগন’ষ্টিক আকৃতি সৃষ্টি কৰে (autoantibody-চালিত, hormone-ratio-চালিত, একক-মাৰ্কাৰ-চালিত)। একক-কেছ বিশেষত্বসমূহ এতিয়াও অৰ্থবহ, কাৰণ CKD, ASCVD ৰিস্ক, আৰু SLE—এই তিনিওটাৰ নিজস্ব স্ক’ৰিং ব্যৱস্থা আছে যিটো ইঞ্জিনে আহ্বান কৰিব লাগে (KDIGO staging, ASCVD 10-year risk, আৰু ক্ৰমে 2019 EULAR/ACR SLE criteria)।.

পূৰ্ব-নিবন্ধিত ৰুব্ৰিক, বুজাই দিয়া হৈছে

এই বেঞ্চমাৰ্কত pre-registration হৈছে সৰ্বাধিক গুৰুত্বপূৰ্ণ পদ্ধতিগত সিদ্ধান্ত। প্ৰতিটো সম্ভাৱ্য ডায়াগন’ছিছ, প্ৰতিটো ক্লিনিকেল স্ক’ৰিং ব্যৱস্থা, আৰু প্ৰতিটো ৰিপ’ৰ্ট অংশ—সকলোকে ইঞ্জিন আহ্বান কৰাৰ আগতেই source code-ত কমিট কৰা হৈছিল ইঞ্জিন আহ্বান কৰাৰ আগতে. । সেয়েহে ইঞ্জিনক সন্তুষ্ট কৰিবলৈ rubric-ৰ post-hoc tuning সম্ভৱ নহয়।.

কম্প’জিট স্ক’ৰ গঠন কৰে তিনিটা উপাদানে। সেই structural component এ 35 শতাংশ বৰঙণি দিয়ে আৰু জুখে যে ইঞ্জিনে সাতটা বাধ্যতামূলক ৰিপ’ৰ্ট অংশ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) আৰু সেইবোৰৰ ভিতৰত থকা ষোলটা বাধ্যতামূলক উপ-অংশ সঠিকভাৱে ঘূৰাই দিছিল নে নাই। structural calculation-ত section presence এ 40 শতাংশ ওজন পায় আৰু subsection presence এ 60 শতাংশ ওজন পায়।.

দ্য... clinical component এ 55 শতাংশ বৰঙণি দিয়ে আৰু তিনিটা বস্তু একত্ৰিত কৰে: diagnosis-keyword recall (clinical sub-score-ৰ 70 শতাংশ), scoring-system recall (20 শতাংশ — প্ৰাসংগিক হ’লে ইঞ্জিনে Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR criteria গণনা কৰে নে নাই), আৰু probability-sum validity check (10 শতাংশ — differential সম্ভাৱনাসমূহে [90, 110] অন্তৰালৰ ভিতৰত যোগফল দিব লাগিব)। ট্ৰেপ কেছৰ বাবে, সর্বোচ্চ 0.30 পৰ্যন্ত এটা স্পষ্ট hyperdiagnosis penalty কাটি দিয়া হয়—প্ৰতি fabricated pathology flag-ত 0.10 হিচাপে গণনা কৰি, সৰ্বোচ্চ তিনিটা flag-ত সীমাবদ্ধ।.

দ্য... latency component এ 10 শতাংশ বৰঙণি দিয়ে। 20 ছেকেণ্ডৰ তলত উত্তৰ দিলে পূৰ্ণ 0.10 পোৱা যায়, 40 ছেকেণ্ডৰ তলত উত্তৰ দিলে 0.05 পোৱা যায়, আৰু তাতকৈ ধীৰ যিকোনো উত্তৰে শূন্য পায়। 20-ছেকেণ্ড লক্ষ্য হৈছে production primary-path service-level objective; 40-ছেকেণ্ড ceiling হৈছে heavy-engine invocations-ৰ বাবে Phase 2 fallback budget।.

MIT-লাইচেন্সড Kantesti বেঞ্চমাৰ্ক হাৰ্নেছ চলি থাকি প্ৰতি-কেছৰ স্ক’ৰ নিৰ্গত কৰাৰ টাৰ্মিনেল স্ক্ৰীণশ্বট
চিত্ৰ ৩: execution-ত থকা harness। প্ৰতিটো কেছ A4 PDF হিচাপে render কৰা হয়, production v11 endpoint-ত প’ষ্ট কৰা হয়, আৰু frozen rubric-ৰ বিপৰীতে স্ক’ৰ কৰা হয়। প্ৰতিটো কেঁচা উত্তৰ aggregated scorecard-ৰ সৈতে একেলগে সংৰক্ষণ কৰা হয়।.

pre-registration-এ কি বাধা দিয়ে

First-party বেঞ্চমাৰ্কসমূহে post-hoc rubric tuning কৰি নিজৰ সংখ্যাবোৰ স্ফীত কৰাৰ বাবে কুখ্যাত। আৰ্হিটো প্ৰায় সদায় একে: দলটোৱে ইঞ্জিন চলায়, ক’ত কম ফল দিছে দেখে, তাৰ পিছত নিস্তব্ধভাৱে rubric-টো সামঞ্জস্য কৰে যাতে কম ফল দিয়া ক্ষেত্ৰসমূহে কম গণনা পায়। প্ৰথম ইঞ্জিন কলৰ আগতেই rubric-টো source code-ত কমিট কৰি আৰু MIT licence-ত harness প্ৰকাশ কৰি, এই সামঞ্জস্যটো version control-ত দৃশ্যমান হৈ পৰে। যিকোনো ব্যক্তিয়ে repository clone কৰিব পাৰে, rubric author dates পৰীক্ষা কৰিব পাৰে, আৰু ইঞ্জিনৰ ফলাফল স্ক’ৰিং গঢ়িবলৈ ব্যৱহাৰ কৰা হোৱা নাছিল বুলি নিশ্চিত কৰিব পাৰে।.

হাইপাৰডাইগন’ছিছ ফাঁদ কেছ — কিয় অতিমাত্ৰা কল কৰাটো প্ৰকৃত বিফলতাৰ ধৰণ

স্বাভাৱিক স্ক্ৰীণত pathology-ৰ কথা অতিমাত্ৰা জোৰেৰে কোৱা—consumer-facing চিকিৎসা সহায়কসকলৰ বাবে এটা নথিভুক্ত ব্যৰ্থতা ধৰণ। ইয়াৰ downstream খৰচসমূহৰ ভিতৰত আছে অপ্রয়োজনীয় তদন্ত, ৰোগীৰ উদ্বেগ, আৰু iatrogenic workup। এই বেঞ্চমাৰ্কৰ দুটা ট্ৰেপ কেছ এই ব্যৰ্থতা ধৰণটো দৃশ্যমান আৰু স্ক’ৰযোগ্য কৰিবলৈ ডিজাইন কৰা হৈছে।.

গিলবাৰ্টৰ ছিণ্ড্ৰম পেনেলত এজন নৈভ AI এ হেপাটাইটিছ “সাজি” দেখুওৱাৰ বিপৰীতে Kantesti ইঞ্জিনে নিৰ্ভুলভাৱে নিৰ্ণয় কৰা নিৰীহ UGT1A1 পলিমৰফিজমৰ কাষে-কাষে তুলনা
চিত্ৰ ৪: ট্ৰেপ-কেছ ডিজাইন। যি ইঞ্জিনে Gilbert's syndrome-ক hepatitis বুলি আত্মবিশ্বাসেৰে লেবেল কৰে, বা সম্পূৰ্ণ স্বাভাৱিক স্ক্ৰীণত সীমান্তীয় pathology “উৎপাদন” কৰে—তাক শাস্তি দিয়া হয়; ক্লিনিকেল যেন লাগিছে বুলি শুনাবলৈ পুৰস্কাৰ দিয়া নহয়।.

🟡 ট্ৰেপ 1 — BT-014-GILBERT

উপস্থাপন।. 2.4 mg/dL মুঠ বিলিৰুবিন থকা 24 বছৰীয়া এজন পুৰুষ। direct অংশ স্বাভাৱিক, transaminases আৰু alkaline phosphatase তেওঁলোকৰ reference range-ৰ ভিতৰত থাকে, reticulocytes অস্বাভাৱিক নহয়, আৰু haptoglobin আৰু LDH-এ haemolysis নাকচ কৰে।.

সঠিক ব্যাখ্যা।. Gilbert's syndrome — এটা benign UGT1A1 polymorphism। ব্যাখ্যাই hepatitis, cirrhosis, haemolytic anaemia, বা biliary obstruction আহ্বান কৰা উচিত নহয়।.

V11 ফলাফল।. Composite 1.000। ছয়টা নিৰীক্ষিত over-diagnosis flag-ৰ কোনোটোৱেই active diagnosis হিচাপে দেখা নগ’ল।.

🟡 ট্ৰেপ 2 — BT-015-HEALTHY

উপস্থাপন।. ৩৫ বছৰীয়া এগৰাকী মহিলা, পঞ্চদশ-পেৰামিটাৰৰ নিয়মীয়া স্ক্ৰিনিং পেনেলসহ। প্ৰতিটো এনালাইটেই নিজৰ নিৰ্দিষ্ট মান-সীমাৰ ভিতৰত স্বচ্ছন্দে আছে।.

সঠিক ব্যাখ্যা।. আশ্বাস আৰু জীৱনশৈলী বজাই ৰখা। ব্যাখ্যাই ক্লিনিকেলভাৱে উপযোগী যেন দেখাবলৈ সীমান্তৱৰ্তী ৰোগ-লক্ষণ “সৃষ্টি” কৰা উচিত নহয়।.

V11 ফলাফল।. Composite 1.000। সাতটা নিৰীক্ষণ কৰা over-diagnosis (অতি-নিৰ্ণয়) ফ্লেগৰ কোনোটোৱেই—ডায়েবেটিছ, ৰক্তহীনতা, থাইৰয়ডৰ কম কাম, ডিছলিপিডেমিয়া, হেপাটাইটিছ, বৃক্কৰ ৰোগ, অভাৱ—সক্ৰিয় ৰোগ হিচাপে দেখা নগ’ল।.

দুয়োটা ট্ৰেপৰ মাজেৰে তেৰটা নিৰীক্ষণ কৰা hyperdiagnosis ফ্লেগ পৰীক্ষা কৰা হৈছিল। এটাও ট্রিগাৰ নহ’ল। যিকোনো চিকিৎসকে AI ইঞ্জিনক triage বা pre-consultation সঁজুলি হিচাপে ব্যৱহাৰ কৰাৰ কথা ভাবিলে—এইটোৱেই আটাইতকৈ বেছি গুৰুত্বপূৰ্ণ ফলাফল: কোনো ৰোগ নাই বুলি থকা ঠাইত সিস্টেমে ৰোগ উদ্ভাৱন নকৰিলে.

মেণ্টজাৰ সূচক: লৌহৰ অভাৱক থেলাছেমিয়া বৈশিষ্ট্যৰ পৰা পৃথক কৰা

দ্বিতীয় এটা উচ্চ-মূল্যৰ আৱিষ্কাৰ হৈছে case BT-001 (iron deficiency anaemia) আৰু case BT-007 (beta-thalassaemia minor) ৰ মাজৰ মিল। দুয়োটাই microcytosis ৰ সৈতে দেখা দিয়ে আৰু naive classifier ৰ বাবে ই এটা সুপৰিচিত বাধা। Mentzer index, যাক MCV ক RBC গণনাৰে ভাগ কৰি গণনা কৰা হয়, iron deficiency ত 13 ৰ ওপৰত থাকে আৰু thalassaemia trait ত 13 ৰ তলত পৰে।.

BT-001 ত, ৰোগী আছিল ৩৪ বছৰীয়া মহিলা, hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, আৰু elevated TIBC আছিল। প্ৰায় 17.7 ৰ Mentzer index এ নিশ্চিতভাৱে absolute iron deficiency সমৰ্থন কৰে। BT-007 ত, ৰোগী আছিল ২৮ বছৰীয়া পুৰুষ, microcytosis (MCV 65.8 fL) আছিল যদিও RBC গণনা 6.2 উচ্চ, RDW স্বাভাৱিক, ferritin স্বাভাৱিক, আৰু HbA2 5.6 percent। প্ৰায় 10.6 ৰ Mentzer index এ thalassaemia trait সূচায়, আৰু elevated HbA2 এ beta-thalassaemia minor নিশ্চিত কৰে।.

Iron deficiency anaemia Mentzer > 13 Low ferritin, low TSAT, high TIBC, elevated RDW
Beta-thalassaemia trait Mentzer < 13 Normal ferritin, normal RDW, elevated HbA2 (>3.5%), high RBC count

দুয়োটা কেছেই 1.000 স্ক’ৰ কৰিছিল। ইঞ্জিনে দুয়োটা ব্যাখ্যাতেই Mentzer index স্পষ্টভাৱে ব্যৱহাৰ কৰিছিল আৰু প্ৰতিটো ক্ষেত্ৰতে সঠিক ৰোগ-নিৰ্ণয় ঘূৰাই দিছিল।. সমগ্ৰ benchmark ত একমাত্ৰ আটাইতকৈ ক্লিনিকেলভাৱে আশ্বাসজনক ফলাফল, কাৰণ thalassaemia trait ক iron deficiency হিচাপে ভুলকৈ ধৰা হলে অনুচিত iron supplementation হয় আৰু পৰিয়াল-স্ক্ৰিনিংৰ সুযোগ এৰি যায়; আৰু iron deficiency ক thalassaemia হিচাপে ভুলকৈ ধৰা হলে সহজ replacement therapy পলম হয়। আমাৰ ফেৰিটিন পৰিসীমা গাইড বৃহত্তৰ differential context বুজাই দিয়ে।.

এপ্ৰিল ২০২৬ ৰানৰ পৰা প্ৰতি-ক্ষেত্ৰৰ ফলাফল

পঞ্চদশটা কেছৰ ভিতৰত বাৰটোৱে primary path ত 1.000 ৰ ceiling composite score লাভ কৰিছিল। তিনিটা কেছ Phase 2 fallback ৰ জৰিয়তে সেৱা দিয়া হৈছিল, যাৰ ফলত 0.05 latency bonus হেৰুৱালেও সকলো ক্লিনিকেল আৰু গঠনগত বিষয়বস্তু অক্ষুণ্ণ থাকিল। এটা কেছত এটা একক বাধ্যতামূলক উপ-অধ্যায় অনুপস্থিত আছিল; এটা কেছে marginally reduced probability distribution sum ঘূৰাই দিছিল।.

Case ID Specialty Composite Latency Path
BT-001-IDAৰক্তবিজ্ঞান1.00017.8 sprimary
BT-006-B12ৰক্তবিজ্ঞান1.00018.4 ছেকেণ্ডprimary
BT-007-থালৰক্তবিজ্ঞান1.00017.0 ছেকেণ্ডprimary
BT-002-হ্যাশএণ্ডক্ৰাইন’লজী0.95037.0 ছেকেণ্ডফলবেক
BT-008-PCOSএণ্ডক্ৰাইন’লজী0.98718.6 ছেকেণ্ডprimary
BT-003-T2DMবিপাকীয়1.00019.1 ছেকেণ্ডprimary
BT-013-গাউটবিপাকীয়1.00019.4 ছেকেণ্ডprimary
BT-004-NAFLDহেপাট’লজি1.00019.6 ছেকেণ্ডprimary
BT-009-VIRHEPহেপাট’লজি0.95023.4 ছেকেণ্ডফলবেক
BT-014-গিলবাৰ্টট্ৰেপ1.00018.9 ছেকেণ্ডprimary
BT-005-CKDনেফ্ৰ’লজী1.00017.4 ছেকেণ্ডprimary
BT-010-ASCVDহৃদৰোগ বিজ্ঞান (Cardiology)1.00019.7 ছেকেণ্ডprimary
BT-011-SLEৰিউমেট’লজি0.98118.2 sprimary
BT-012-VITDএণ্ডক্ৰাইন’লজী1.00019.3 sprimary
BT-015-HEALTHYট্ৰেপ1.00018.7 sফলবেক

PCOS কেছ (BT-008) এ উত্তৰৰ গঠন-ৰূপত এটা বাধ্যতামূলক উপ-ধাৰা হেৰুৱাইছিল — ষোলখনৰ ভিতৰত পোন্ধৰখনৰ পৰিৱৰ্তে ষোলখনৰ ভিতৰত ষোলখন — যাৰ ফলত গঠনগত স্ক’ৰ 1.000 ৰ পৰা 0.963 লৈ কমি গ’ল। SLE কেছ (BT-011) এ এটা সামান্য কমি যোৱা সম্ভাৱনা-বিতৰণৰ যোগফল ঘূৰাই দিলে, যাৰ ফলত ক্লিনিকেল স্ক’ৰ 0.965 লৈ নামি গ’ল, তথাপিও সকলো ডায়াগন’ষ্টিক কী-ৱাৰ্ড আৰু স্ক’ৰিং ব্যৱস্থা অক্ষুণ্ণ থাকিল। কোনো উপ-সম্পূৰ্ণ কেছেই সঠিক ডায়াগন’ছিছ মিছ নকৰিলে।.

শিৰোনামৰ স্ক’ৰে আমাক কোৱা নাই কি

এই বিশেষ pre-registered rubric ৰ অধীনত 99.12 শতাংশৰ এটা যৌগিক স্ক’ৰে near-ceiling পৰিৱেশনক বুজায়, কিন্তু ইয়াক সাৱধানে প্ৰসংগসহ উপস্থাপন কৰাটো উচিত। ফলাফলে ইঞ্জিনটোৰ আচৰণক পঞ্চদশখন সাৱধানে নিৰ্বাচিত বেনামী কেছৰ বিপৰীতে বৰ্ণনা কৰে—প্ৰতিটো কেছ এবাৰকৈ মূল্যায়ন কৰা হৈছিল—আৰু এটা একক rubric ৰ বিপৰীতে। সংখ্যাটোৱে কি প্ৰতিষ্ঠা কৰে আৰু কি নকৰে, সেই বিষয়ে আমি স্পষ্ট।.

স্ক’ৰটোৱে কয় যে V11 ইঞ্জিনে এই মূল্যায়নৰ বাবে নিৰ্বাচিত ডায়াগন’ষ্টিক ধৰণসমূহ সঠিকভাৱে পৰিচালনা কৰিছিল, প্ৰকাশিত আৰু পুনৰুৎপাদনযোগ্য পদ্ধতিৰ ওপৰত ভিত্তি কৰি। ই এয়া নকয় যে বন্য পৰিৱেশত থকা সকলো তেজ পৰীক্ষাৰ পেনেলত ইঞ্জিনটো সঠিক। ই এয়া নকয় যে ইঞ্জিনটোৱে চিকিৎসকসকলৰ বিচাৰ-বুদ্ধিক প্ৰতিস্থাপন কৰা উচিত। আৰু ই এয়া নকয় যে ইঞ্জিনটোৱে বিকল্প AI ব্যৱস্থাসমূহতকৈ ভাল কাম কৰে—এই প্ৰতিবেদনখনৰ বাবে আন ইঞ্জিনসমূহৰ সৈতে তুলনামূলক বিশ্লেষণ ইচ্ছাকৃতভাৱে পৰিসীমাৰ বাহিৰত ৰখা হৈছিল।.

স্ক’ৰটোৱে যিটো প্ৰতিষ্ঠা কৰে সেয়া হৈছে এটা বেছলাইন। rubric আৰু harness ৰাজহুৱা হোৱাৰ বাবে, ইঞ্জিনৰ ভৱিষ্যৎ সংস্কৰণসমূহ একে পঞ্চদশখন কেছৰ বিপৰীতে মূল্যায়ন কৰিব পাৰি, আৰু প্ৰকাশিত স্ক’ৰৰ পৰা যিকোনো পিছৰ ৰানলৈ হোৱা ব্যৱধান নিজেই মাপিব পৰা। pre-registration ৰ মূল্য এয়াই: ই পৰিৱেশন দাবীক পৰীক্ষাযোগ্য দাবীত ৰূপান্তৰ কৰে.

১০ মিনিটত এই বেঞ্চমাৰ্ক কেনেকৈ পুনৰুৎপাদন কৰিব

পুনৰুৎপাদনৰ বাবে কেৱল এটা Kantesti API credential pair আৰু Python 3.10 বা তাতকৈ পাছৰ এটা পৰিৱেশৰ প্ৰয়োজন, য’ত requests আৰু reportlab লাইব্ৰেৰীসমূহ ইনষ্টল কৰা থাকে। সম্পূৰ্ণ harness এটা একক, নিজেই সম্পূৰ্ণ Python module, MIT লাইচেন্সৰ অধীনত মুক্তি দিয়া।.

বেঞ্চমাৰ্কক Figshare, ResearchGate, Academia.edu আৰু GitHub ত প্ৰতিফলিত (mirrored) কৰি দেখুওৱা পুনৰুৎপাদনযোগ্যতা নেটৱৰ্ক ডায়াগ্ৰাম, য’ত Figshare DOI ক’ননিকেল এংকৰ
চিত্ৰ ৫: benchmark চাৰিখন গৱেষণা প্লেটফৰ্মত প্ৰতিফলিত কৰা হৈছে। Figshare DOI হৈছে canonical scholarly identifier; ResearchGate, Academia.edu, আৰু GitHub এ সমান্তৰাল কপি আৰু ক’ড আৰু কেঁচা ডাটা হ’ষ্ট কৰে।.

এটা নতুন ৰানৰ বাবে চাৰিটা পদক্ষেপ

প্ৰথম।. ৰিপ’জিট’ৰীটো clone কৰক: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. দুটা।. তলত দিয়া ধৰণে নিৰ্ভৰশীলতা ইনষ্টল কৰক pip install -r requirements.txt. তিনিটা।. নিৰ্ধাৰণ কৰক KANTESTI_USERNAME আৰু KANTESTI_PASSWORD ক পৰিৱেশ চলক (environment variables) হিচাপে — প্ৰমাণপত্ৰসমূহ runtime ত পঢ়া হয় আৰু স্ক্ৰিপ্টত একো hard-code কৰা নহয়।. চাৰিটা।. চলাওক python benchmark_bloodtest.py আৰু কাৰ্য্যকৰী ডাইৰেক্টৰীত নিৰ্গত হোৱা চাৰিটা artefact পৰীক্ষা কৰক: এটা CSV scorecard, এটা JSON scorecard, কেঁচা ইঞ্জিন উত্তৰসমূহ অন্তৰ্ভুক্ত কৰা এটা সম্পূৰ্ণ JSON dump, আৰু এটা মানুহে পঢ়িব পৰা Markdown প্রতিবেদন।.

২৩ এপ্ৰিল ২০২৬ ৰ পৰা reference run টো সংৰক্ষিত আছে results/ ৰিপ’জিটৰিৰ ডাইৰেক্টৰিত। এটা নতুন run এ নতুন timestamped scorecard উৎপন্ন কৰিব, কিন্তু reference run টোক অক্ষত ৰাখিব। যদি আপোনাৰ run এ তাৎপৰ্য্যপূর্ণভাৱে বেলেগ ফলাফল উৎপন্ন কৰে, অনুগ্ৰহ কৰি GitHub issue এটা খোলক—run timestamp আৰু response metadata ত ঘূৰি অহা engine version সহ।.

সীমাবদ্ধতা আৰু ভৱিষ্যৎ কাম

চাৰিটা সীমাবদ্ধতাক স্পষ্টভাৱে স্বীকাৰ কৰা উচিত: নমুনা আকাৰ, single-shot মূল্যায়ন, single-engine scope, আৰু single-source data origin। এইবোৰক সক্ৰিয়ভাৱে follow-up কামত সমাধান কৰা হৈছে।.

নমুনা আকাৰ।. আঠটা বিশেষত্ব (specialty) বাল্টিত পঁচোদশটা কেছ এটা proof of concept ৰ বাবে যথেষ্ট, কিন্তু কোনো বিশেষত্বৰ ভিতৰত subgroup বিশ্লেষণৰ বাবে নহয়। পঞ্চাশটা কেছলৈ সম্প্ৰসাৰণৰ পৰিকল্পনা আছে আৰু ইয়াত coagulation panels, haematological malignancy screening, pregnancy panels, আৰু শিশুৰ (paediatric) উপস্থাপনসমূহ অন্তৰ্ভুক্ত থাকিব।.

Single-shot মূল্যায়ন।. প্ৰতিটো কেছ এবাৰ মূল্যায়ন কৰা হৈছিল। কম sampling temperature তো large language models এ non-trivial output variance দেখুৱায়, সেয়ে প্ৰতিটো কেছৰ বাবে পাঁচটা মূল্যায়নসহ multi-run protocol আৰু প্ৰতিবেদন কৰা variance টো স্বাভাৱিক পৰৱৰ্তী পদক্ষেপ।.

Single-engine scope।. এই প্রতিবেদনখনে এটা ইঞ্জিনকেই বৰ্ণনা কৰে। বিকল্প AI ব্যৱস্থাসমূহৰ সৈতে তুলনামূলক বিশ্লেষণ ইয়াত scope ৰ বাহিৰত; উপযুক্ত methodology সহ আমি তাক পৃথক স্বাধীন অধ্যয়ন হিচাপে অনুসৰণ কৰিব পাৰোঁ।.

Single-source data origin।. পঁচোদশটা কেছ একেটা একক clinical repository ৰ পৰা লোৱা বাস্তৱ ৰোগীৰ (real patient) ৰেকৰ্ড—সেইবোৰ anonymised। ইহঁতে এটা curated sample প্ৰতিনিধিত্ব কৰে আৰু জনসংখ্যা-প্ৰতিনিধিত্বমূলক এলোমেলো (random) নমুনা নহয়। মূল্যায়নক multi-centre ডেটালৈ সম্প্ৰসাৰণ কৰাৰ পৰিকল্পনা roadmap ত আছে।.

আটাইতকৈ প্ৰভাৱশালী পৰিকল্পিত সম্প্ৰসাৰণ হৈছে multi-language parity। Kantesti AI Engine এ 75+ ভাষাত ব্যৱহাৰকাৰীক সেৱা আগবঢ়ায়, আৰু তুৰ্কী, জাৰ্মান, স্পেনিছ, ফ্ৰেঞ্চ, আৰু আৰবী—এই ভাষাসমূহত একে পঁচোদশ-কেছ harness চলালে ইঞ্জিনে সমৰ্থন কৰা ভাষাসমূহৰ মাজত output quality কিমান—সেয়া পৰিমাপ কৰা হ’ব। আমি প্ৰতিটো ভাষা-নিৰ্দিষ্ট run নিজা DOI আৰু harness branch সহ প্ৰকাশ কৰিম।.