এই বেঞ্চমাৰ্ক কিয় আছে আৰু ই কি পৰীক্ষা কৰে
AI-সহায়ত তেজ পৰীক্ষাৰ ফলাফল কেনেকৈ পঢ়িব কনজিউমাৰ আৰু ক্লিনিকেল কাৰ্যপ্ৰবাহত ক্ৰমাৎ বেছি ব্যৱহাৰ কৰা হৈছে, কিন্তু লেবৰেটৰী চিকিৎসাৰ বাবে উপযোগী পুনৰুৎপাদনযোগ্য মূল্যায়ন কাঠামো অতি কম। এই পৰিস্থিতিত আটাইতকৈ গুৰুত্বপূৰ্ণ প্ৰশ্নবোৰ সাধাৰণ চিকিৎসা প্ৰশ্ন-উত্তৰ বেঞ্চমাৰ্কত কোৱা নহয়: mean corpuscular volume একে থাকিলেও এটা ইঞ্জিনে লৌহৰ অভাৱক থেলাছেমিয়া বৈশিষ্ট্যৰ পৰা পৃথক কৰিব পাৰেনে, hepatitis হিচাপে Gilbert's syndrome অতিনিৰ্ণয় (over-diagnose) কৰে নেকি, আৰু সম্পূৰ্ণ স্বাভাৱিক স্ক্ৰীণিং পেনেলত প্যাথলজি “উৎপাদন” কৰে নেকি?
এটা একক তেজ পৰীক্ষাৰ পেনেল সাধাৰণতে কেইবাটাও প্ৰতিদ্বন্দ্বী ব্যাখ্যাৰ বাবে যথেষ্ট সংকেত বহন কৰে, আৰু ব্যাখ্যা কৰা চিকিৎসকজনৰ কাম হ’ল সেই ব্যাখ্যাবোৰক ইটোৰ সৈতে সিটো তুলনা কৰি ওজন দিয়া—পাঠ্যপুথিৰ এটা “ঠিক উত্তৰ” উদ্ধাৰ কৰা নহয়। পাঠ্যপুথিৰ কেছত ভাল কৰা এটা ইঞ্জিনে তথাপিও আটাইতকৈ গুৰুত্বপূৰ্ণ কেছত বিফল হ’ব পাৰে: differential-diagnosis ৰ ফান্দ, কেৱল এককভাৱে দেখিলে ভয়ংকৰ যেন লগা নিৰীহ ভেৰিয়েন্ট, আৰু সম্পূৰ্ণ স্বাভাৱিক পেনেল যিয়ে আত্মবিশ্বাসী সহায়কক pathology “উৎপাদন” কৰিবলৈ প্ৰলোভিত কৰে।.
এই benchmark ঠিক এই ধৰণৰ বিফলতাৰ ধৰণবোৰৰ ওপৰত নিৰ্মাণ কৰা হৈছিল। পঞ্চদশটা কেছক এটা নিৰ্দিষ্ট ডায়াগন’ষ্টিক গুণৰ বাবে বাছনি কৰা হৈছিল: একে mean corpuscular volume থকা beta-thalassaemia trait ৰ পৰা পৃথক কৰি ৰাখিব লাগা iron-deficient microcytosis, এটা Gilbert's syndrome ৰ উপস্থাপন য’ত একমাত্ৰ অস্বাভাৱিকতা হ’ল isolated indirect hyperbilirubinaemia, আৰু এটা পঞ্চদশ-পেৰামিটাৰ screening পেনেল য’ত প্ৰতিটো analyte নিজৰ reference range ৰ ভিতৰতেই থাকে। rubric এ সেই ইঞ্জিনক পুৰস্কৃত কৰে যিয়ে প্ৰতিটো কেছক নিজৰ নিজা চৰ্তত পঢ়ে, আৰু সেই ইঞ্জিনক শাস্তি দিয়ে যিয়ে এনে ডায়াগন’ছিছৰ প্ৰয়োজন নথকা সত্ত্বেও আত্মবিশ্বাসী ডায়াগন’ছিছত উপনীত হয়।.
MD থমাছ ক্লেইন হিচাপে, মই কেছ পেনেল বাছনি কৰিছিলোঁ কাৰণ মই দেখোঁ যে laboratory-medicine সহায়কসকলে আটাইতকৈ বেছি ভুল কৰা পেটাৰ্নবোৰ এয়াই।. ব্যয়বহুল বিফলতাৰ ধৰণটো "এটা বিৰল ৰোগ এৰি যোৱা" নহয়—ইয়াৰ বদলে, যিসকল ৰোগীয়ে সেই ৰোগটো নাথাকে তেওঁলোকৰ ক্ষেত্ৰত routine pathology উদ্ভাৱন কৰা।. আমাৰ চিকিৎসা বৈধকৰণ hub এ অধিক বিস্তৃত ফ্ৰেমৱৰ্ক বৰ্ণনা কৰে; এই পৃষ্ঠাই V11 প্ৰথম proof-of-concept আৰু V11 দ্বিতীয় আপডেট বৰ্ণনা কৰে যিয়ে একে স্ক’ৰিং ৰুব্ৰিক ব্যৱহাৰ কৰি, বাইট-একেই, আৰু কোনো post-hoc tuning অনুমোদন নোহোৱাকৈ, 127 দেশৰ লেবেল জুৰি বিস্তৃত এটা সিন্থেটিক কেছ ছেটৰ পৰা সংগ্ৰহ কৰা 100,000টা সিন্থেটিক কেছলৈ স্কেল কৰিছিল।.
শেহতীয়া ৰেফাৰেন্স ৰান — V11 Second Update (April 26, 2026)
26 April 2026-ৰ V11 Second Update ৰেফাৰেন্স ৰানে 99.80% একেটি pre-registered ৰুব্ৰিকৰ ওপৰত (V11 আৰম্ভণি মুক্তিত ব্যৱহৃত) ভিত্তি কৰি মূল্যায়ন কৰি 100,000টা সিন্থেটিক কেছ Kantesti সিন্থেটিক কেছ ছেটৰ পৰা সংগ্ৰহ কৰা আৰু বিস্তৃত 127টা দেশৰ লেবেল আৰু 75+ ভাষাসমূহ জুৰি। প্ৰতিটো কেছ ইঞ্জিনৰ প্ৰাথমিক পথত সম্পূৰ্ণ হৈছিল; trap-case hyperdiagnosis flag সক্ৰিয়কৰণ 0 / 87,412. তেই থাকিল। 23 April 2026-ৰ মূল V11 ৰানে 15টা হাতে-নিৰ্বাচিত কেছ (composite 99.12%) সামৰি লৈ ৰুব্ৰিকটো বৈধতা দিছিল; Second Update-এ সেই ৰুব্ৰিকটো বাইট-একেই ৰাখি মূল্যায়নক জনসংখ্যা-স্কেল cohortলৈ সম্প্ৰসাৰিত কৰে।.
Composite সূত্ৰটোৱে তিনিটা উপাদান একত্ৰিত কৰে: structural conformance সাতটা বাধ্যতামূলক report section আৰু ষোলটা বাধ্যতামূলক subsection ৰ সৈতে, বিষয়বস্তুৰ সঠিকতা যাক মাপা হয় keyword recall + scoring-system recall + probability-distribution validity check ৰে, আৰু response latency প্ৰাথমিক-পথ service-level লক্ষ্যৰ বিপৰীতে। তলৰ ৰুব্ৰিক সূত্ৰত সঠিক বিশ্লেষণ দেখুওৱা হৈছে—Second Update-ৰ বাবে এই ওজনসমূহ বা sub-rubrics কোনোটোৱেই সলনি কৰা হোৱা নাছিল।.
headroomৰ বাকী 0.20 শতাংশ পইণ্ট প্ৰায় সম্পূৰ্ণৰূপে ক্লিনিকেল sub-score-লৈ বিভাজিত হয়—কিছুমান কেছৰ এটা সৰু অংশ (প্ৰধানকৈ Hepatology আৰু Rheumatology-ত) ইঞ্জিনৰ ব্যাখ্যাত এটা আশা কৰা স্ক’ৰিং-ব্যৱস্থা কী-ৱৰ্ড নাছিল, যদিও ডায়াগন’ষ্টিক বিষয়বস্তু সঠিক আছিল।. 100,000-কেছ Second-Update cohort-ৰ কোনো কেছেই নিজেই ডায়াগন’ছিছটো মিছ নকৰিলে।. latency V11 আৰম্ভণি মুক্তিত গড়ে 20.17 s পৰা Second Update-ত 13.26 s লৈ উন্নত হৈছিল—দুটা ৰানৰ মাজত production ইঞ্জিন অপ্টিমাইজেচনৰ প্ৰতিফলন; ৰুব্ৰিক, স্ক’ৰিং কোড, আৰু API endpoint একেই আছে।.
প্ৰতি-লেবেল যৌগিক স্ক’ৰসমূহ 30টা আটাইতকৈ বেছি প্ৰতিনিধিত্ব কৰা দেশৰ লেবেলৰ ক্ষেত্ৰত 0.9971ৰ পৰা 0.9985লৈ পৰিসৰ দেখুৱাইছে। অতি কম প্ৰতিনিধিত্ব থকা 97টা অতিৰিক্ত লেবেলৰ “লং টেইল” (মুঠতে ≈7,300 কেছ)ত কোনো ধৰণৰ পদ্ধতিগত অৱনতি (systematic degradation) দেখা নগ’ল। কেছ গণনাৰ ভিত্তিত আটাইতকৈ বেছি ঘন ঘন লেবেলসমূহ আছিল—যুক্তৰাষ্ট্ৰ (10,500), ব্ৰাজিল (9,500), স্পেইন (9,000), ইতালি (8,000), জাৰ্মানি (7,800), ফ্ৰান্স (7,400), পৰ্তুগাল (5,800), Türkiye (3,400), যুক্তৰাজ্য (2,900), আৰু মেক্সিকো (2,500)।.
১৫টা কেছৰ পৰা 100,000লৈ: 127 দেশৰ লেবেল জুৰি ক’হ’ৰ্টৰ বিকাশ
মূল V11 কেছ পেনেলত সাতটা বিশেষত্ব আছিল — হেমাট’ল’জি, এণ্ড’ক্ৰাইন’ল’জি, মেটাব’লিক মেডিচিন, হেপাট’ল’জি, নেফ্ৰ’ল’জি, কাৰ্ডিয়’ল’জি, ৰিউমাট’ল’জি — লগতে দুটা নিবেদিত hyperdiagnosis trap কেছ; প্ৰতিটো কেছেই এটা সিন্থেটিকভাৱে সৃষ্টি কৰা ৰক্ত-টেষ্ট পেনেল। V11 দ্বিতীয় আপডেটে মূল্যায়ন সম্প্ৰসাৰিত কৰে 127 দেশৰ লেবেল জুৰি 100,000টা সিন্থেটিক কেছলৈ, সম্প্ৰসাৰিত কৰে—আঠটা বিশেষত্বত বিভক্ত (মূল সাতটা + trap subset-টো শোষণ কৰা এটা dedicated internal-medicine bucket)। একেটি স্ক’ৰিং ৰুব্ৰিক দুয়োটা ৰানতে বাইট-একেই প্ৰয়োগ কৰা হয়।.
কিয়নো সকলো কেছেই সিন্থেটিকভাৱে সৃষ্টি কৰা, সেয়েহে আঁতৰাবলৈ কোনো বাস্তৱ শনাক্তকাৰী নাই আৰু কোনো ব্যক্তিগত ডাটা জড়িত নহয়। প্ৰতিটো সিন্থেটিক কেছেই এটা বেঞ্চমাৰ্ক-অভ্যন্তৰীণ কেছ ক’ড বহন কৰে (V11 প্ৰথম ছেটত BT-NNN-LABEL, এটা স্থিৰ case_uid দ্বিতীয় আপডেটত)। প্ৰকাশিত হাৰ্নেছ, কাৰিগৰী প্ৰতিবেদন, বা মুক্তি দিয়া ডেটাছেটসমূহৰ ক’তো কোনো ব্যক্তিগত ডাটা দেখা নাযায়।.
V11 আৰম্ভণি মুক্তি অনুসৰি — 15টা হাতে-নিৰ্বাচিত কেছ
মূল V11 কেছ পেনেলখন ড০. থমাছ ক্লেইনে হাতেৰে বাছনি কৰি তৈয়াৰ কৰিছিল যাতে লেবোৰেটৰী-মেডিচিন সহায়কসকলে আটাইতকৈ বেছি ভুল কৰা ডায়াগন’ষ্টিক ধৰণসমূহ অনুশীলন কৰিব পাৰি। তলত দিয়া অনুসৰি পোন্ধৰটা কেছক এটা এটা নিৰ্দিষ্ট ডায়াগন’ষ্টিক বৈশিষ্ট্যৰ বাবে বাছনি কৰা হৈছিল।.
এই বিশেষ বিতৰণ কিয়?
হেমাট’লজি তিনিটা কেছ পায় কাৰণ মাইক্ৰ’চাইটিক ডিফাৰেনচিয়েল আৰু মেক্ৰ’চাইটিক ডিফাৰেনচিয়েল—দুয়োটাই বাস্তৱ-জগতৰ লেব’ৰেটৰী অনুশীলনত সৰ্বাধিক পৰিমাণৰ “ট্ৰেপ”। এণ্ড’ক্ৰাইন’লজি তিনিটা কেছ পায় কাৰণ Hashimoto's, PCOS, আৰু ভিটামিন ডিৰ অভাৱ—এইবোৰৰ উপস্থাপনাই ভিন্ন ভিন্ন ডায়াগন’ষ্টিক আকৃতি সৃষ্টি কৰে (autoantibody-চালিত, hormone-ratio-চালিত, একক-মাৰ্কাৰ-চালিত)। একক-কেছ বিশেষত্বসমূহ এতিয়াও অৰ্থবহ, কাৰণ CKD, ASCVD ৰিস্ক, আৰু SLE—এই তিনিওটাৰ নিজস্ব স্ক’ৰিং ব্যৱস্থা আছে যিটো ইঞ্জিনে আহ্বান কৰিব লাগে (KDIGO staging, ASCVD 10-year risk, আৰু ক্ৰমে 2019 EULAR/ACR SLE criteria)।.
V11 দ্বিতীয় আপডেট — 127 দেশৰ লেবেল জুৰি 100,000টা সিন্থেটিক কেছ
দ্বিতীয় আপডেটে মূল V11 hard-coded 15-কেছ Python literal-টোক এটা ডাঙৰ, প্ৰগ্ৰামেটিকভাৱে সৃষ্টি কৰা সিন্থেটিক কেছ ছেটৰ সৈতে সলনি কৰে। কেছ ছেট প্ৰতিটো ৰানৰ আৰম্ভণিতে ল’ড কৰা হয় আৰু স্বচ্ছতাৰ বাবে কনফিগাৰেচন লগ কৰা হয়। বিষয়বস্তু ক্ষেত্ৰ (content area) অনুসৰি ক’হ’ৰ্টৰ বিতৰণ তলত দেখুওৱা হৈছে।.
কৃত্রিম দেশ-লেবেল বিতৰণ — শীৰ্ষ 10টা লেবেল
100,000টা কৃত্রিম কেছত 127টা দেশৰ লেবেল (ISO 3166-1 alpha-2) আছে যাতে লোকেল (locale) পৰিচালনা পৰীক্ষা কৰিব পাৰি। লেবেল নিৰ্ধাৰণ: ইউৰোপ 57.7%, আমেৰিকাস 25.4%, এচিয়া-পেচিফিক 6.2%, নামকৰণ কৰা মধ্য-পূব/আফ্ৰিকা লেবেল 3.4%, আৰু প্ৰায় 7.3% মুঠতে যোগ হোৱা 97টা অতিৰিক্ত লেবেলৰ এটা লং টেইল। কেছ গণনাৰ ভিত্তিত আটাইতকৈ বেছি ঘন ঘন দহটা লেবেল আছিল—যুক্তৰাষ্ট্ৰ (10,500), ব্ৰাজিল (9,500), স্পেইন (9,000), ইতালি (8,000), জাৰ্মানি (7,800), ফ্ৰান্স (7,400), পৰ্তুগাল (5,800), Türkiye (3,400), যুক্তৰাজ্য (2,900), আৰু মেক্সিকো (2,500)। প্ৰতি-লেবেল যৌগিক স্ক’ৰসমূহ 0.9971ৰ পৰা 0.9985লৈ পৰিসৰ দেখুৱাইছে। এই লেবেল গণনাসমূহ লোকেল পৰিচালনা পৰীক্ষা কৰিবলৈ ব্যৱহৃত সৃষ্টি কৰা কেছসমূহৰ বৈশিষ্ট্য—ইয়াত বাস্তৱ ব্যৱহাৰকাৰী নাই আৰু বাস্তৱ-জগতৰ ভৌগোলিক কভাৰেজো নাই।.
পূৰ্ব-নিবন্ধিত ৰুব্ৰিক, বুজাই দিয়া হৈছে
এই বেঞ্চমাৰ্কত pre-registration হৈছে সৰ্বাধিক গুৰুত্বপূৰ্ণ পদ্ধতিগত সিদ্ধান্ত। প্ৰতিটো সম্ভাৱ্য ডায়াগন’ছিছ, প্ৰতিটো ক্লিনিকেল স্ক’ৰিং ব্যৱস্থা, আৰু প্ৰতিটো ৰিপ’ৰ্ট অংশ—সকলোকে ইঞ্জিন আহ্বান কৰাৰ আগতেই source code-ত কমিট কৰা হৈছিল ইঞ্জিন আহ্বান কৰাৰ আগতে. । সেয়েহে ইঞ্জিনক সন্তুষ্ট কৰিবলৈ rubric-ৰ post-hoc tuning সম্ভৱ নহয়।.
কম্প’জিট স্ক’ৰ গঠন কৰে তিনিটা উপাদানে। সেই structural component এ 35 শতাংশ বৰঙণি দিয়ে আৰু জুখে যে ইঞ্জিনে সাতটা বাধ্যতামূলক ৰিপ’ৰ্ট অংশ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) আৰু সেইবোৰৰ ভিতৰত থকা ষোলটা বাধ্যতামূলক উপ-অংশ সঠিকভাৱে ঘূৰাই দিছিল নে নাই। structural calculation-ত section presence এ 40 শতাংশ ওজন পায় আৰু subsection presence এ 60 শতাংশ ওজন পায়।.
দ্য... clinical component এ 55 শতাংশ বৰঙণি দিয়ে আৰু তিনিটা বস্তু একত্ৰিত কৰে: diagnosis-keyword recall (clinical sub-score-ৰ 70 শতাংশ), scoring-system recall (20 শতাংশ — প্ৰাসংগিক হ’লে ইঞ্জিনে Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR criteria গণনা কৰে নে নাই), আৰু probability-sum validity check (10 শতাংশ — differential সম্ভাৱনাসমূহে [90, 110] অন্তৰালৰ ভিতৰত যোগফল দিব লাগিব)। ট্ৰেপ কেছৰ বাবে, সর্বোচ্চ 0.30 পৰ্যন্ত এটা স্পষ্ট hyperdiagnosis penalty কাটি দিয়া হয়—প্ৰতি fabricated pathology flag-ত 0.10 হিচাপে গণনা কৰি, সৰ্বোচ্চ তিনিটা flag-ত সীমাবদ্ধ।.
দ্য... latency component এ 10 শতাংশ বৰঙণি দিয়ে। 20 ছেকেণ্ডৰ তলত উত্তৰ দিলে পূৰ্ণ 0.10 পোৱা যায়, 40 ছেকেণ্ডৰ তলত উত্তৰ দিলে 0.05 পোৱা যায়, আৰু তাতকৈ ধীৰ যিকোনো উত্তৰে শূন্য পায়। 20-ছেকেণ্ড লক্ষ্য হৈছে production primary-path service-level objective; 40-ছেকেণ্ড ceiling হৈছে heavy-engine invocations-ৰ বাবে Phase 2 fallback budget।.
pre-registration-এ কি বাধা দিয়ে
First-party বেঞ্চমাৰ্কসমূহে post-hoc rubric tuning কৰি নিজৰ সংখ্যাবোৰ স্ফীত কৰাৰ বাবে কুখ্যাত। আৰ্হিটো প্ৰায় সদায় একে: দলটোৱে ইঞ্জিন চলায়, ক’ত কম ফল দিছে দেখে, তাৰ পিছত নিস্তব্ধভাৱে rubric-টো সামঞ্জস্য কৰে যাতে কম ফল দিয়া ক্ষেত্ৰসমূহে কম গণনা পায়। প্ৰথম ইঞ্জিন কলৰ আগতেই rubric-টো source code-ত কমিট কৰি আৰু MIT licence-ত harness প্ৰকাশ কৰি, এই সামঞ্জস্যটো version control-ত দৃশ্যমান হৈ পৰে। যিকোনো ব্যক্তিয়ে repository clone কৰিব পাৰে, rubric author dates পৰীক্ষা কৰিব পাৰে, আৰু ইঞ্জিনৰ ফলাফল স্ক’ৰিং গঢ়িবলৈ ব্যৱহাৰ কৰা হোৱা নাছিল বুলি নিশ্চিত কৰিব পাৰে।.
হাইপাৰডাইগন’ছিছ ফাঁদ কেছ — কিয় অতিমাত্ৰা কল কৰাটো প্ৰকৃত বিফলতাৰ ধৰণ
স্বাভাৱিক স্ক্ৰীণত pathology-ৰ কথা অতিমাত্ৰা জোৰেৰে কোৱা—consumer-facing চিকিৎসা সহায়কসকলৰ বাবে এটা নথিভুক্ত ব্যৰ্থতা ধৰণ। ইয়াৰ downstream খৰচসমূহৰ ভিতৰত আছে অপ্রয়োজনীয় তদন্ত, ৰোগীৰ উদ্বেগ, আৰু iatrogenic workup। এই বেঞ্চমাৰ্কৰ দুটা ট্ৰেপ কেছ এই ব্যৰ্থতা ধৰণটো দৃশ্যমান আৰু স্ক’ৰযোগ্য কৰিবলৈ ডিজাইন কৰা হৈছে।.
🟡 ট্ৰেপ 1 — BT-014-GILBERT
উপস্থাপন।. 2.4 mg/dL মুঠ বিলিৰুবিন থকা 24 বছৰীয়া এজন পুৰুষ। direct অংশ স্বাভাৱিক, transaminases আৰু alkaline phosphatase তেওঁলোকৰ reference range-ৰ ভিতৰত থাকে, reticulocytes অস্বাভাৱিক নহয়, আৰু haptoglobin আৰু LDH-এ haemolysis নাকচ কৰে।.
সঠিক ব্যাখ্যা।. Gilbert's syndrome — এটা benign UGT1A1 polymorphism। ব্যাখ্যাই hepatitis, cirrhosis, haemolytic anaemia, বা biliary obstruction আহ্বান কৰা উচিত নহয়।.
V11 ফলাফল।. Composite 1.000। ছয়টা নিৰীক্ষিত over-diagnosis flag-ৰ কোনোটোৱেই active diagnosis হিচাপে দেখা নগ’ল।.
🟡 ট্ৰেপ 2 — BT-015-HEALTHY
উপস্থাপন।. ৩৫ বছৰীয়া এগৰাকী মহিলা, পঞ্চদশ-পেৰামিটাৰৰ নিয়মীয়া স্ক্ৰিনিং পেনেলসহ। প্ৰতিটো এনালাইটেই নিজৰ নিৰ্দিষ্ট মান-সীমাৰ ভিতৰত স্বচ্ছন্দে আছে।.
সঠিক ব্যাখ্যা।. আশ্বাস আৰু জীৱনশৈলী বজাই ৰখা। ব্যাখ্যাই ক্লিনিকেলভাৱে উপযোগী যেন দেখাবলৈ সীমান্তৱৰ্তী ৰোগ-লক্ষণ “সৃষ্টি” কৰা উচিত নহয়।.
V11 ফলাফল।. Composite 1.000। সাতটা নিৰীক্ষণ কৰা over-diagnosis (অতি-নিৰ্ণয়) ফ্লেগৰ কোনোটোৱেই—ডায়েবেটিছ, ৰক্তহীনতা, থাইৰয়ডৰ কম কাম, ডিছলিপিডেমিয়া, হেপাটাইটিছ, বৃক্কৰ ৰোগ, অভাৱ—সক্ৰিয় ৰোগ হিচাপে দেখা নগ’ল।.
দুয়োটা ট্ৰেপৰ মাজেৰে তেৰটা নিৰীক্ষণ কৰা hyperdiagnosis ফ্লেগ পৰীক্ষা কৰা হৈছিল। এটাও ট্রিগাৰ নহ’ল। যিকোনো চিকিৎসকে AI ইঞ্জিনক triage বা pre-consultation সঁজুলি হিচাপে ব্যৱহাৰ কৰাৰ কথা ভাবিলে—এইটোৱেই আটাইতকৈ বেছি গুৰুত্বপূৰ্ণ ফলাফল: কোনো ৰোগ নাই বুলি থকা ঠাইত সিস্টেমে ৰোগ উদ্ভাৱন নকৰিলে.
মেণ্টজাৰ সূচক: লৌহৰ অভাৱক থেলাছেমিয়া বৈশিষ্ট্যৰ পৰা পৃথক কৰা
দ্বিতীয় এটা উচ্চ-মূল্যৰ আৱিষ্কাৰ হৈছে case BT-001 (iron deficiency anaemia) আৰু case BT-007 (beta-thalassaemia minor) ৰ মাজৰ মিল। দুয়োটাই microcytosis ৰ সৈতে দেখা দিয়ে আৰু naive classifier ৰ বাবে ই এটা সুপৰিচিত বাধা। Mentzer index, যাক MCV ক RBC গণনাৰে ভাগ কৰি গণনা কৰা হয়, iron deficiency ত 13 ৰ ওপৰত থাকে আৰু thalassaemia trait ত 13 ৰ তলত পৰে।.
BT-001 ত, ৰোগী আছিল ৩৪ বছৰীয়া মহিলা, hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, আৰু elevated TIBC আছিল। প্ৰায় 17.7 ৰ Mentzer index এ নিশ্চিতভাৱে absolute iron deficiency সমৰ্থন কৰে। BT-007 ত, ৰোগী আছিল ২৮ বছৰীয়া পুৰুষ, microcytosis (MCV 65.8 fL) আছিল যদিও RBC গণনা 6.2 উচ্চ, RDW স্বাভাৱিক, ferritin স্বাভাৱিক, আৰু HbA2 5.6 percent। প্ৰায় 10.6 ৰ Mentzer index এ thalassaemia trait সূচায়, আৰু elevated HbA2 এ beta-thalassaemia minor নিশ্চিত কৰে।.
দুয়োটা কেছেই 1.000 স্ক’ৰ কৰিছিল। ইঞ্জিনে দুয়োটা ব্যাখ্যাতেই Mentzer index স্পষ্টভাৱে ব্যৱহাৰ কৰিছিল আৰু প্ৰতিটো ক্ষেত্ৰতে সঠিক ৰোগ-নিৰ্ণয় ঘূৰাই দিছিল।. সমগ্ৰ benchmark ত একমাত্ৰ আটাইতকৈ ক্লিনিকেলভাৱে আশ্বাসজনক ফলাফল, কাৰণ thalassaemia trait ক iron deficiency হিচাপে ভুলকৈ ধৰা হলে অনুচিত iron supplementation হয় আৰু পৰিয়াল-স্ক্ৰিনিংৰ সুযোগ এৰি যায়; আৰু iron deficiency ক thalassaemia হিচাপে ভুলকৈ ধৰা হলে সহজ replacement therapy পলম হয়। আমাৰ ফেৰিটিন পৰিসীমা গাইড বৃহত্তৰ differential context বুজাই দিয়ে।.
V11 আৰম্ভণিৰ প্ৰাৰম্ভিক ৰেফাৰেন্স ৰানৰ পৰা কেছভিত্তিক ফলাফল (এপ্ৰিল ২৩, ২০২৬)
১৫-কেছ proof-of-concept ক’হৰ্টত কৰা মূল V11 ৰেফাৰেন্স ৰানে সেৱা আগবঢ়ায় পদ্ধতিগত ভিত্তি Second Update-ৰ: তলত থকা প্ৰতিটো কেছ-সম্পৰ্কীয় বিৱৰণে দেখুৱাইছে যে ৰুব্ৰিকে কেনেকৈ এটা বাস্তৱ ইঞ্জিন উত্তৰক পৰিচালনা কৰে। পঞ্চদশৰ ভিতৰত বাৰটা কেছে প্ৰাইমাৰী পথত 1.000-ৰ ceiling যৌগিক স্ক’ৰ লাভ কৰিছিল; তিনিটা কেছ Phase 2 fallback-ৰ জৰিয়তে সেৱা দিয়া হৈছিল, যাৰ ফলত 0.05 latency bonus হেৰাই গ’ল যদিও সকলো ক্লিনিকেল আৰু গঠনগত বিষয়বস্তু সংৰক্ষিত থাকিল। এটা কেছত এটা একক বাধ্যতামূলক উপ-অধ্যায় নাছিল; এটা কেছে সামান্য কমি যোৱা probability distribution sum ঘূৰাই দিছিল।.
PCOS কেছ (BT-008) এ উত্তৰৰ গঠন-ৰূপত এটা বাধ্যতামূলক উপ-ধাৰা হেৰুৱাইছিল — ষোলখনৰ ভিতৰত পোন্ধৰখনৰ পৰিৱৰ্তে ষোলখনৰ ভিতৰত ষোলখন — যাৰ ফলত গঠনগত স্ক’ৰ 1.000 ৰ পৰা 0.963 লৈ কমি গ’ল। SLE কেছ (BT-011) এ এটা সামান্য কমি যোৱা সম্ভাৱনা-বিতৰণৰ যোগফল ঘূৰাই দিলে, যাৰ ফলত ক্লিনিকেল স্ক’ৰ 0.965 লৈ নামি গ’ল, তথাপিও সকলো ডায়াগন’ষ্টিক কী-ৱাৰ্ড আৰু স্ক’ৰিং ব্যৱস্থা অক্ষুণ্ণ থাকিল। কোনো উপ-সম্পূৰ্ণ কেছেই সঠিক ডায়াগন’ছিছ মিছ নকৰিলে।.
V11 Second Update aggregate — 100,000 কেছ
জনসংখ্যা-স্কেলত ব্যক্তিগত কেছৰ শাৰীসমূহ মানুহে পঢ়িব পৰা নহয়, সেয়ে দ্বিতীয় আপডেটে 100,000-শাৰী টেবিলৰ বদলে সমষ্টিগত (aggregated) মেট্ৰিক্স ৰিপ’ৰ্ট কৰে। তলত মূল শিৰোনামৰ সমষ্টি দেখুওৱা হৈছে; বিশেষত্বভিত্তিক আৰু দেশ-লেবেলভিত্তিক বিশ্লেষণসমূহ প্রযুক্তিগত ৰিপ’ৰ্ট আৰু Figshare ডিপ’জিটত প্ৰকাশ কৰা হৈছে। এটা স্তৰীকৃত এলোমেলি নমুনা of n = 201 কেঁচা ইঞ্জিন উত্তৰ (deterministic seed 20260426) পৰিদৰ্শনৰ বাবে GitHub results/ ডাইৰেক্টৰীত প্ৰকাশ কৰা হৈছে।.
শিৰোনামৰ স্ক’ৰে আমাক কোৱা নাই কি
এই বিশেষ প্ৰি-ৰেজিষ্টাৰ্ড ৰুব্ৰিকৰ অধীনত 99.80 শতাংশৰ এটা কম্প’জিট স্ক’ৰ, 127 দেশৰ লেবেল জুৰি বিস্তৃত 100,000-কেছ সিন্থেটিক ক’হ’ৰ্টত, near-ceiling performance — কিন্তু ইয়াক সাৱধানে ফ্ৰেমিং কৰাটো উচিত। ফলাফলটো V11-ত আমি উৎস ক’ডত প্ৰতিশ্ৰুতি দিয়া ৰুব্ৰিকৰ বিপৰীতে ইঞ্জিনৰ আচৰণ বৰ্ণনা কৰে; বন্য পৰিৱেশত থকা প্ৰতিটো ৰক্ত-টেষ্ট পেনেলৰ ক্ষেত্ৰত ইঞ্জিনৰ শুদ্ধতা সম্পৰ্কে ই এটা সর্বজনীন দাবী নহয়।.
স্ক’ৰটোৱে কয় যে ইঞ্জিনটোৱে এই মূল্যায়নৰ বাবে নিৰ্বাচিত ডায়াগন’ষ্টিক ধৰণসমূহ জনসংখ্যা-স্কেল cohortত সঠিকভাৱে পৰিচালনা কৰিছিল, প্ৰকাশিত আৰু পুনৰুৎপাদনযোগ্য এটা methodologyৰ ওপৰত ভিত্তি কৰি। ই বন্য পৰিৱেশত থকা প্ৰতিটো তেজ পৰীক্ষাৰ পেনেলৰ ক্ষেত্ৰত ইঞ্জিনটো সঠিক বুলি নকয়। ই ইঞ্জিনটোৱে চিকিৎসকসকলৰ বিচাৰ-বুদ্ধিক প্ৰতিস্থাপন কৰা উচিত বুলি নকয়। আৰু ই আন বিকল্প AI ব্যৱস্থাসমূহতকৈ ইঞ্জিনটোৱে বেছি ফল দেখুৱায় বুলি নকয় — অন্য ইঞ্জিনসমূহৰ সৈতে তুলনামূলক বিশ্লেষণসমূহ ইচ্ছাকৃতভাৱে এই প্ৰতিবেদনৰ পৰিসীমাৰ বাহিৰত ৰখা হৈছিল।.
স্ক’ৰটোৱে যিটো স্থাপন কৰে সেয়া হৈছে এটা baseline। rubric আৰু harness ৰাজহুৱা হোৱাৰ পাছত, ইঞ্জিনৰ ভৱিষ্যৎ সংস্কৰণসমূহ একে rubricৰ বিপৰীতে মূল্যায়ন কৰিব পাৰি — V11 আৰম্ভণিৰ 15টা কেছত, দ্বিতীয় আপডেটৰ 100,000-কেছ cohortত, বা যিকোনো পৰৱৰ্তী সম্প্ৰসাৰণত — আৰু প্ৰকাশিত স্ক’ৰৰ মাজত আৰু পৰৱৰ্তী যিকোনো চলনৰ মাজত থকা ব্যৱধান নিজেই পৰিমাপযোগ্য। pre-registrationৰ মূল্য এয়াই: ই পৰিৱেশন দাবীক পৰীক্ষাযোগ্য দাবীত ৰূপান্তৰ কৰে.
১০ মিনিটত এই বেঞ্চমাৰ্ক কেনেকৈ পুনৰুৎপাদন কৰিব
পুনৰুৎপাদনৰ বাবে কেৱল এটা Kantesti API credential pair আৰু Python 3.10 বা তাতকৈ পাছৰ এটা পৰিৱেশৰ প্ৰয়োজন, য’ত requests আৰু reportlab লাইব্ৰেৰীসমূহ ইনষ্টল কৰা থাকে। সম্পূৰ্ণ harness এটা একক, নিজেই সম্পূৰ্ণ Python module, MIT লাইচেন্সৰ অধীনত মুক্তি দিয়া।.
এটা নতুন ৰানৰ বাবে চাৰিটা পদক্ষেপ
প্ৰথম।. ৰিপ’জিট’ৰীটো clone কৰক: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. দুটা।. তলত দিয়া ধৰণে নিৰ্ভৰশীলতা ইনষ্টল কৰক pip install -r requirements.txt (Second Update এ যোগ কৰে mysql-connector-python ≥ 8.0 SQL case loaderৰ বাবে)।. তিনিটা।. নিৰ্ধাৰণ কৰক KANTESTI_USERNAME আৰু KANTESTI_PASSWORD ইঞ্জিন APIৰ বাবে environment variables হিচাপে। দ্বিতীয় আপডেটৰ SQL case loaderৰ বাবে, লগতে সেট কৰক KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, আৰু KANTESTI_DB_PASSWORD — ল’ডাৰে এটা কেৱল-পঢ়া ভূমিকা (bench_reader)-ৰ জৰিয়তে সংযোগ কৰে, যাৰ টেবুল চিনাক্ত কৰাৰ কোনো সুবিধা নাই।. চাৰিটা।. চলাওক python benchmark_bloodtest.py --limit 100000 সম্পূৰ্ণ Second-Update চলাবলৈ, বা python benchmark_bloodtest.py --limit 1000 দ্ৰুত পুনৰাবৃত্তিৰ বাবে। আউটপুট জমা হয় ./benchmark_results/: এটা CSV স্ক’ৰকাৰ্ড য’ত প্ৰতি-দেশ-লেবেল আৰু প্ৰতি-বিশেষত্ব কলাম আছে, এটা JSON সমষ্টি (aggregate), এটা stratified-random কেঁচা-উত্তৰ নমুনা, আৰু এটা Markdown ৰিপ’ৰ্ট।.
২৩ এপ্ৰিল ২০২৬ (V11 আৰম্ভণি, ১৫টা কেছ) আৰু ২৬ এপ্ৰিল ২০২৬ (V11 Second Update, 100,000টা কেছ) ৰ ৰেফাৰেন্স চলনসমূহ ৰেপ’জিটৰিৰ results/ ডাইৰেক্টৰীত সংৰক্ষিত আছে। নতুন এটা চলনে এটা নতুন টাইমষ্টেম্পযুক্ত স্ক’ৰকাৰ্ড উৎপন্ন কৰিব, কিন্তু ৰেফাৰেন্স চলনসমূহ অক্ষত ৰাখিব। যদি আপোনাৰ চলনে তাৎপৰ্যপূৰ্ণভাৱে বেলেগ ফলাফল উৎপন্ন কৰে, অনুগ্ৰহ কৰি GitHub issue এটা খোলক—চলনৰ টাইমষ্টেম্প আৰু উত্তৰৰ মেটাডেটাত ঘূৰি অহা ইঞ্জিন সংস্কৰণসহ।.
সীমাবদ্ধতা আৰু ভৱিষ্যৎ কাম
127টা দেশৰ লেবেলৰ মাজত 100,000টা কেছতো, চাৰিটা সীমাবদ্ধতাক স্পষ্টভাৱে স্বীকাৰ কৰা উচিত: লং-টেইল লেবেলৰ কম নমুনা (undersampling), এক-সময়ৰ (single-shot) মূল্যায়ন, এক-ইঞ্জিনৰ পৰিসৰ (single-engine scope), আৰু এক-উৎস ডেটা উৎপত্তি (single-source data origin)। এইবোৰক সক্ৰিয়ভাৱে চলি থকা follow-up কামত সমাধান কৰা হৈছে।.
লং-টেইল লেবেল কভাৰেজ।. দ্বিতীয় আপডেটত 127টা দেশৰ লেবেল সামৰি লোৱা হৈছে, কিন্তু বিতৰণটো অসম (unbalanced)—শীৰ্ষ 10টা লেবেলে কেছৰ ≈66.4% অংশ দখল কৰে, আৰু বাকী 97টা অতিৰিক্ত লেবেলে একেলগে ≈7.3% যোগ কৰে (মুঠতে প্ৰায় 7,300 কেছ, গড়ে প্ৰতি লেবেল ~75 কেছ)। সেয়ে এই লং টেইলত থকা প্ৰতি-লেবেল যৌগিকসমূহ শিৰোনামৰ সংখ্যাই যিমান কথা কয় তাৰ তুলনাত অধিক “নয়েজি” (noisier)। ভৱিষ্যতৰ ৰানসমূহে প্ৰতি-লেবেল অনুমানসমূহ দৃঢ় (firm up) কৰিবলৈ লেবেল নিৰ্ধাৰণ পুনঃসমতল (rebalance) কৰিব।.
Single-shot মূল্যায়ন।. ক’হৰ্টৰ প্ৰতিটো কেছ এবাৰকৈ মূল্যায়ন কৰা হৈছিল। কম নমুনা-তাপমাত্রাতো বৃহৎ ভাষা মডেলসমূহে তাৎপৰ্যপূৰ্ণ আউটপুট ভেৰিয়েন্স দেখুৱায়, সেয়ে প্ৰতিটো কেছৰ বাবে পাঁচটা মূল্যায়নসহ আৰু প্ৰতিবেদিত ভেৰিয়েন্স থকা বহু-চলন (multi-run) প্ৰট’কল এটা স্বাভাৱিক পৰৱৰ্তী পদক্ষেপ—বিশেষকৈ trap-case উপ-সমষ্টিত, য’ত sampling jitter-ৰ অধীনত সামঞ্জস্যতা সুৰক্ষাৰ দাবীৰ অংশ।.
Single-engine scope।. এই প্ৰতিবেদনখনে এটা ইঞ্জিনকেই বৰ্ণনা কৰে। বিকল্প AI ব্যৱস্থাসমূহৰ সৈতে তুলনামূলক বিশ্লেষণ ইয়াতৰ পৰিসৰৰ বাহিৰ; একে MIT-লাইচেন্সযুক্ত harness ব্যৱহাৰ কৰি উপযুক্ত পদ্ধতিৰে আমি তাক পৃথক স্বাধীন অধ্যয়ন হিচাপে অনুসৰণ কৰিব পাৰোঁ।.
সিন্থেটিক ডাটা।. 100,000টা কেছ সিন্থেটিকভাৱে সৃষ্টি কৰা হৈছে, সিন্থেটিক কেছ নহয়, আৰু ফলাফল বাস্তৱ-জগতৰ ক্লিনিকেল কাৰ্যক্ষমতালৈ স্থানান্তৰ নহয়। বাস্তৱ, সম্মতি-প্ৰাপ্ত, বাহ্যিকভাৱে সংগ্ৰহ কৰা ডাটাৰ ওপৰত মূল্যায়নে উপযুক্ত নৈতিক তদাৰক (ethical oversight) দাবী কৰিব আৰু এই সিন্থেটিক বেঞ্চমাৰ্কৰ পৰিসৰৰ বাহিৰত।.
এই চাৰিটাৰ বাহিৰে, আটাইতকৈ প্ৰভাৱশালী পৰিকল্পিত সম্প্ৰসাৰণ হৈছে প্ৰতি-জুৰিসডিকশনৰ বাবে বহু-ভাষাৰ সমতা (parity)। Kantesti AI Engine-এ 75+ ভাষাত ব্যৱহাৰকাৰীক সেৱা আগবঢ়ায়, আৰু ভাষা-স্তৰীকৃত Second-Update উপ-ক’হৰ্টসমূহ (তুৰ্কী, জাৰ্মান, স্পেনিছ, ফ্ৰেঞ্চ, ইতালীয়, পৰ্তুগীজ, আৰবী, মেণ্ডেৰিন) চলালে ইঞ্জিনে সমৰ্থন কৰা ভাষাসমূহৰ মাজে আউটপুট গুণগত মান কিমান—সেয়া পৰিমাপ কৰা হ’ব। প্ৰতিটো ভাষা-স্তৰীকৃত বিশ্লেষণ নিজস্ব DOI আৰু harness শাখাৰ সৈতে প্ৰকাশ কৰা হ’ব।.