এই বেঞ্চমাৰ্ক কিয় আছে আৰু ই কি পৰীক্ষা কৰে
AI-সহায়ত তেজ পৰীক্ষাৰ ফলাফল কেনেকৈ পঢ়িব কনজিউমাৰ আৰু ক্লিনিকেল কাৰ্যপ্ৰবাহত ক্ৰমাৎ বেছি ব্যৱহাৰ কৰা হৈছে, কিন্তু লেবৰেটৰী চিকিৎসাৰ বাবে উপযোগী পুনৰুৎপাদনযোগ্য মূল্যায়ন কাঠামো অতি কম। এই পৰিস্থিতিত আটাইতকৈ গুৰুত্বপূৰ্ণ প্ৰশ্নবোৰ সাধাৰণ চিকিৎসা প্ৰশ্ন-উত্তৰ বেঞ্চমাৰ্কত কোৱা নহয়: mean corpuscular volume একে থাকিলেও এটা ইঞ্জিনে লৌহৰ অভাৱক থেলাছেমিয়া বৈশিষ্ট্যৰ পৰা পৃথক কৰিব পাৰেনে, hepatitis হিচাপে Gilbert's syndrome অতিনিৰ্ণয় (over-diagnose) কৰে নেকি, আৰু সম্পূৰ্ণ স্বাভাৱিক স্ক্ৰীণিং পেনেলত প্যাথলজি “উৎপাদন” কৰে নেকি?
এটা একক তেজ পৰীক্ষাৰ পেনেল সাধাৰণতে কেইবাটাও প্ৰতিদ্বন্দ্বী ব্যাখ্যাৰ বাবে যথেষ্ট সংকেত বহন কৰে, আৰু ব্যাখ্যা কৰা চিকিৎসকজনৰ কাম হ’ল সেই ব্যাখ্যাবোৰক ইটোৰ সৈতে সিটো তুলনা কৰি ওজন দিয়া—পাঠ্যপুথিৰ এটা “ঠিক উত্তৰ” উদ্ধাৰ কৰা নহয়। পাঠ্যপুথিৰ কেছত ভাল কৰা এটা ইঞ্জিনে তথাপিও আটাইতকৈ গুৰুত্বপূৰ্ণ কেছত বিফল হ’ব পাৰে: differential-diagnosis ৰ ফান্দ, কেৱল এককভাৱে দেখিলে ভয়ংকৰ যেন লগা নিৰীহ ভেৰিয়েন্ট, আৰু সম্পূৰ্ণ স্বাভাৱিক পেনেল যিয়ে আত্মবিশ্বাসী সহায়কক pathology “উৎপাদন” কৰিবলৈ প্ৰলোভিত কৰে।.
এই benchmark ঠিক এই ধৰণৰ বিফলতাৰ ধৰণবোৰৰ ওপৰত নিৰ্মাণ কৰা হৈছিল। পঞ্চদশটা কেছক এটা নিৰ্দিষ্ট ডায়াগন’ষ্টিক গুণৰ বাবে বাছনি কৰা হৈছিল: একে mean corpuscular volume থকা beta-thalassaemia trait ৰ পৰা পৃথক কৰি ৰাখিব লাগা iron-deficient microcytosis, এটা Gilbert's syndrome ৰ উপস্থাপন য’ত একমাত্ৰ অস্বাভাৱিকতা হ’ল isolated indirect hyperbilirubinaemia, আৰু এটা পঞ্চদশ-পেৰামিটাৰ screening পেনেল য’ত প্ৰতিটো analyte নিজৰ reference range ৰ ভিতৰতেই থাকে। rubric এ সেই ইঞ্জিনক পুৰস্কৃত কৰে যিয়ে প্ৰতিটো কেছক নিজৰ নিজা চৰ্তত পঢ়ে, আৰু সেই ইঞ্জিনক শাস্তি দিয়ে যিয়ে এনে ডায়াগন’ছিছৰ প্ৰয়োজন নথকা সত্ত্বেও আত্মবিশ্বাসী ডায়াগন’ছিছত উপনীত হয়।.
MD থমাছ ক্লেইন হিচাপে, মই কেছ পেনেল বাছনি কৰিছিলোঁ কাৰণ মই দেখোঁ যে laboratory-medicine সহায়কসকলে আটাইতকৈ বেছি ভুল কৰা পেটাৰ্নবোৰ এয়াই।. ব্যয়বহুল বিফলতাৰ ধৰণটো "এটা বিৰল ৰোগ এৰি যোৱা" নহয়—ইয়াৰ বদলে, যিসকল ৰোগীয়ে সেই ৰোগটো নাথাকে তেওঁলোকৰ ক্ষেত্ৰত routine pathology উদ্ভাৱন কৰা।. আমাৰ চিকিৎসা বৈধকৰণ hub-এ অধিক বিস্তৃত কাঠামো বৰ্ণনা কৰে; এই পৃষ্ঠাই V11 আৰম্ভণি proof-of-concept আৰু V11 Second Update বৰ্ণনা কৰে যিয়ে ইয়াক 100,000টা anonymised কেছলৈ স্কেল কৰিছিল—127খন দেশ জুৰি থকা SQL-সমৰ্থিত ক্লিনিকেল ৰিপ’জিটৰীৰ পৰা সংগ্ৰহ কৰা—একেই স্ক’ৰিং ৰুব্ৰিক ব্যৱহাৰ কৰি, বাইট-একেই, আৰু post-hoc টিউনিং অনুমোদিত নহয়।.
শেহতীয়া ৰেফাৰেন্স ৰান — V11 Second Update (April 26, 2026)
26 April 2026-ৰ V11 Second Update ৰেফাৰেন্স ৰানে 99.80% একেটি pre-registered ৰুব্ৰিকৰ ওপৰত (V11 আৰম্ভণি মুক্তিত ব্যৱহৃত) ভিত্তি কৰি মূল্যায়ন কৰি 100,000টা anonymised কেছত Kantesti SQL-সমৰ্থিত ক্লিনিকেল ৰিপ’জিটৰীৰ পৰা সংগ্ৰহ কৰা আৰু 127 খন দেশৰ আৰু 75+ ভাষাসমূহ জুৰি। প্ৰতিটো কেছ ইঞ্জিনৰ প্ৰাথমিক পথত সম্পূৰ্ণ হৈছিল; trap-case hyperdiagnosis flag সক্ৰিয়কৰণ 0 / 87,412. তেই থাকিল। 23 April 2026-ৰ মূল V11 ৰানে 15টা হাতে-নিৰ্বাচিত কেছ (composite 99.12%) সামৰি লৈ ৰুব্ৰিকটো বৈধতা দিছিল; Second Update-এ সেই ৰুব্ৰিকটো বাইট-একেই ৰাখি মূল্যায়নক জনসংখ্যা-স্কেল cohortলৈ সম্প্ৰসাৰিত কৰে।.
Composite সূত্ৰটোৱে তিনিটা উপাদান একত্ৰিত কৰে: structural conformance সাতটা বাধ্যতামূলক report section আৰু ষোলটা বাধ্যতামূলক subsection ৰ সৈতে, clinical accuracy যাক মাপা হয় keyword recall + scoring-system recall + probability-distribution validity check ৰে, আৰু response latency প্ৰাথমিক-পথ service-level লক্ষ্যৰ বিপৰীতে। তলৰ ৰুব্ৰিক সূত্ৰত সঠিক বিশ্লেষণ দেখুওৱা হৈছে—Second Update-ৰ বাবে এই ওজনসমূহ বা sub-rubrics কোনোটোৱেই সলনি কৰা হোৱা নাছিল।.
headroomৰ বাকী 0.20 শতাংশ পইণ্ট প্ৰায় সম্পূৰ্ণৰূপে ক্লিনিকেল sub-score-লৈ বিভাজিত হয়—কিছুমান কেছৰ এটা সৰু অংশ (প্ৰধানকৈ Hepatology আৰু Rheumatology-ত) ইঞ্জিনৰ ব্যাখ্যাত এটা আশা কৰা স্ক’ৰিং-ব্যৱস্থা কী-ৱৰ্ড নাছিল, যদিও ডায়াগন’ষ্টিক বিষয়বস্তু সঠিক আছিল।. 100,000-কেছ Second-Update cohort-ৰ কোনো কেছেই নিজেই ডায়াগন’ছিছটো মিছ নকৰিলে।. latency V11 আৰম্ভণি মুক্তিত গড়ে 20.17 s পৰা Second Update-ত 13.26 s লৈ উন্নত হৈছিল—দুটা ৰানৰ মাজত production ইঞ্জিন অপ্টিমাইজেচনৰ প্ৰতিফলন; ৰুব্ৰিক, স্ক’ৰিং কোড, আৰু API endpoint একেই আছে।.
30টা আটাইতকৈ বেছি প্ৰতিনিধিত্ব থকা দেশৰ ভিতৰত দেশভিত্তিক composite স্ক’ৰ 0.9971 (India)ৰ পৰা 0.9985 (Switzerland)লৈ আছিল। অতি দীঘল লেজৰ 97টা অতিৰিক্ত দেশ (মুঠতে ≈7,300 কেছ)ত কোনো পদ্ধতিগত অৱনতি দেখা নগ’ল। কেছ গণনাৰ ভিত্তিত শীৰ্ষ অৱদানকাৰী আছিল—United States (10,500), Brazil (9,500), Spain (9,000), Italy (8,000), Germany (7,800), France (7,400), Portugal (5,800), Türkiye (3,400), the United Kingdom (2,900), আৰু Mexico (2,500)।.
১৫টা কেছৰ পৰা 100,000লৈ: 127 খন দেশ জুৰি কোহৰ্টৰ বিকাশ
মূল V11 কেছ পেনেলত সাতটা বিশেষত্ব আছিল—hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology—আৰু লগতে দুটা dedicated hyperdiagnosis trap কেছ; প্ৰতিটো কেছেই Kantesti ক্লিনিকেল ডাটা ৰিপ’জিটৰীৰ পৰা লিখিত informed consent-ৰ অধীনত লোৱা এটা বাস্তৱ anonymised ৰোগীৰ ৰেক’ৰ্ড। V11 Second Update-এ মূল্যায়নক 127খন দেশ জুৰি 100,000টা anonymised কেছলৈ, সম্প্ৰসাৰিত কৰে—আঠটা বিশেষত্বত বিভক্ত (মূল সাতটা + trap subset-টো শোষণ কৰা এটা dedicated internal-medicine bucket)। একেটি স্ক’ৰিং ৰুব্ৰিক দুয়োটা ৰানতে বাইট-একেই প্ৰয়োগ কৰা হয়।.
Safe Harbor পদ্ধতি অনুসৰি de-identification কৰা হৈছিল: সকলো direct identifier আঁতৰোৱা বা সলনি কৰা হৈছিল, আৰু প্ৰতিটো ৰেক’ৰ্ডক BT-NNN-LABEL বিন্যাসত এটা benchmark-internal কেছ কোড দিয়া হৈছিল (V11 আৰম্ভণি) বা Second Update-ৰ বাবে এটা স্থিৰ anonymised case_uid । প্ৰচেছিং কৰা হৈছিল GDPR ধাৰা 9(2)(j) উপযুক্ত সুৰক্ষা ব্যৱস্থাসহ বৈজ্ঞানিক গৱেষণাৰ বাবে, আৰু সমতুল্য UK GDPR বিধানসমূহ। প্ৰকাশিত harness, কাৰিকৰী প্ৰতিবেদন (technical report), বা মুক্তি দিয়া ডাটাছেটসমূহৰ ক’তো কোনো ব্যক্তিগতভাৱে চিনাক্ত কৰিব পৰা তথ্য (personally identifying information) দেখা নাযায়।.
V11 আৰম্ভণি মুক্তি অনুসৰি — 15টা হাতে-নিৰ্বাচিত কেছ
মূল V11 কেছ পেনেলখন ড০. থমাছ ক্লেইনে হাতেৰে বাছনি কৰি তৈয়াৰ কৰিছিল যাতে লেবোৰেটৰী-মেডিচিন সহায়কসকলে আটাইতকৈ বেছি ভুল কৰা ডায়াগন’ষ্টিক ধৰণসমূহ অনুশীলন কৰিব পাৰি। তলত দিয়া অনুসৰি পোন্ধৰটা কেছক এটা এটা নিৰ্দিষ্ট ডায়াগন’ষ্টিক বৈশিষ্ট্যৰ বাবে বাছনি কৰা হৈছিল।.
এই বিশেষ বিতৰণ কিয়?
হেমাট’লজি তিনিটা কেছ পায় কাৰণ মাইক্ৰ’চাইটিক ডিফাৰেনচিয়েল আৰু মেক্ৰ’চাইটিক ডিফাৰেনচিয়েল—দুয়োটাই বাস্তৱ-জগতৰ লেব’ৰেটৰী অনুশীলনত সৰ্বাধিক পৰিমাণৰ “ট্ৰেপ”। এণ্ড’ক্ৰাইন’লজি তিনিটা কেছ পায় কাৰণ Hashimoto's, PCOS, আৰু ভিটামিন ডিৰ অভাৱ—এইবোৰৰ উপস্থাপনাই ভিন্ন ভিন্ন ডায়াগন’ষ্টিক আকৃতি সৃষ্টি কৰে (autoantibody-চালিত, hormone-ratio-চালিত, একক-মাৰ্কাৰ-চালিত)। একক-কেছ বিশেষত্বসমূহ এতিয়াও অৰ্থবহ, কাৰণ CKD, ASCVD ৰিস্ক, আৰু SLE—এই তিনিওটাৰ নিজস্ব স্ক’ৰিং ব্যৱস্থা আছে যিটো ইঞ্জিনে আহ্বান কৰিব লাগে (KDIGO staging, ASCVD 10-year risk, আৰু ক্ৰমে 2019 EULAR/ACR SLE criteria)।.
V11 দ্বিতীয় আপডেট — 127 খন দেশৰ মাজেৰে 100,000 গৰাকী বেনামী কেছ
দ্বিতীয় আপডেটে মূল V11 ক’ড-হাৰ্ডক’ড 15-কেছ Python literal-টোক এটা পেৰামিটাৰাইজড, কেৱল-পঢ়িব পৰা SQL কুৱেৰীৰে সলনি কৰে যি Kantesti ক্লিনিকেল ৰিপ’জিট’ৰীৰ বিৰুদ্ধে (anonymised_blood_panels)। কুৱেৰীখন ফিল্টাৰ কৰে consent_research = 1 AND released_for_benchmark = 1.
ভৌগোলিক বিতৰণ — শীৰ্ষ ১০ খন দেশ
এই ক’হৰ্টে ১২৭ খন দেশ সামৰি লয় (ISO 3166-1 alpha-2)। ইউৰোপে 57.7% যোগান ধৰে, আমেৰিকাসে 25.4%, এচিয়া-পেচিফিকে 6.2%, নামকৰণ কৰা মধ্য-পূব/আফ্ৰিকা এন্ট্ৰিয়ে 3.4%, আৰু ৯৭ খন অতিৰিক্ত দেশৰ দীঘল লেজে মুঠতে প্ৰায় 7.3% যোগান ধৰে। দহটা সৰ্ববৃহৎ যোগানকাৰী হৈছে আমেৰিকা যুক্তৰাষ্ট্ৰ (10,500), ব্ৰাজিল (9,500), স্পেইন (9,000), ইটালি (8,000), জাৰ্মানি (7,800), ফ্ৰান্স (7,400), পৰ্তুগাল (5,800), Türkiye (3,400), যুক্তৰাজ্য (2,900), আৰু মেক্সিকো (2,500)। দেশভিত্তিক যৌগিক স্ক’ৰসমূহ 0.9971 (ভাৰত)ৰ পৰা 0.9985 (ছুইজাৰলেণ্ড)লৈকে বিস্তৃত আছিল।.
পূৰ্ব-নিবন্ধিত ৰুব্ৰিক, বুজাই দিয়া হৈছে
এই বেঞ্চমাৰ্কত pre-registration হৈছে সৰ্বাধিক গুৰুত্বপূৰ্ণ পদ্ধতিগত সিদ্ধান্ত। প্ৰতিটো সম্ভাৱ্য ডায়াগন’ছিছ, প্ৰতিটো ক্লিনিকেল স্ক’ৰিং ব্যৱস্থা, আৰু প্ৰতিটো ৰিপ’ৰ্ট অংশ—সকলোকে ইঞ্জিন আহ্বান কৰাৰ আগতেই source code-ত কমিট কৰা হৈছিল ইঞ্জিন আহ্বান কৰাৰ আগতে. । সেয়েহে ইঞ্জিনক সন্তুষ্ট কৰিবলৈ rubric-ৰ post-hoc tuning সম্ভৱ নহয়।.
কম্প’জিট স্ক’ৰ গঠন কৰে তিনিটা উপাদানে। সেই structural component এ 35 শতাংশ বৰঙণি দিয়ে আৰু জুখে যে ইঞ্জিনে সাতটা বাধ্যতামূলক ৰিপ’ৰ্ট অংশ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) আৰু সেইবোৰৰ ভিতৰত থকা ষোলটা বাধ্যতামূলক উপ-অংশ সঠিকভাৱে ঘূৰাই দিছিল নে নাই। structural calculation-ত section presence এ 40 শতাংশ ওজন পায় আৰু subsection presence এ 60 শতাংশ ওজন পায়।.
দ্য... clinical component এ 55 শতাংশ বৰঙণি দিয়ে আৰু তিনিটা বস্তু একত্ৰিত কৰে: diagnosis-keyword recall (clinical sub-score-ৰ 70 শতাংশ), scoring-system recall (20 শতাংশ — প্ৰাসংগিক হ’লে ইঞ্জিনে Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR criteria গণনা কৰে নে নাই), আৰু probability-sum validity check (10 শতাংশ — differential সম্ভাৱনাসমূহে [90, 110] অন্তৰালৰ ভিতৰত যোগফল দিব লাগিব)। ট্ৰেপ কেছৰ বাবে, সর্বোচ্চ 0.30 পৰ্যন্ত এটা স্পষ্ট hyperdiagnosis penalty কাটি দিয়া হয়—প্ৰতি fabricated pathology flag-ত 0.10 হিচাপে গণনা কৰি, সৰ্বোচ্চ তিনিটা flag-ত সীমাবদ্ধ।.
দ্য... latency component এ 10 শতাংশ বৰঙণি দিয়ে। 20 ছেকেণ্ডৰ তলত উত্তৰ দিলে পূৰ্ণ 0.10 পোৱা যায়, 40 ছেকেণ্ডৰ তলত উত্তৰ দিলে 0.05 পোৱা যায়, আৰু তাতকৈ ধীৰ যিকোনো উত্তৰে শূন্য পায়। 20-ছেকেণ্ড লক্ষ্য হৈছে production primary-path service-level objective; 40-ছেকেণ্ড ceiling হৈছে heavy-engine invocations-ৰ বাবে Phase 2 fallback budget।.
pre-registration-এ কি বাধা দিয়ে
First-party বেঞ্চমাৰ্কসমূহে post-hoc rubric tuning কৰি নিজৰ সংখ্যাবোৰ স্ফীত কৰাৰ বাবে কুখ্যাত। আৰ্হিটো প্ৰায় সদায় একে: দলটোৱে ইঞ্জিন চলায়, ক’ত কম ফল দিছে দেখে, তাৰ পিছত নিস্তব্ধভাৱে rubric-টো সামঞ্জস্য কৰে যাতে কম ফল দিয়া ক্ষেত্ৰসমূহে কম গণনা পায়। প্ৰথম ইঞ্জিন কলৰ আগতেই rubric-টো source code-ত কমিট কৰি আৰু MIT licence-ত harness প্ৰকাশ কৰি, এই সামঞ্জস্যটো version control-ত দৃশ্যমান হৈ পৰে। যিকোনো ব্যক্তিয়ে repository clone কৰিব পাৰে, rubric author dates পৰীক্ষা কৰিব পাৰে, আৰু ইঞ্জিনৰ ফলাফল স্ক’ৰিং গঢ়িবলৈ ব্যৱহাৰ কৰা হোৱা নাছিল বুলি নিশ্চিত কৰিব পাৰে।.
হাইপাৰডাইগন’ছিছ ফাঁদ কেছ — কিয় অতিমাত্ৰা কল কৰাটো প্ৰকৃত বিফলতাৰ ধৰণ
স্বাভাৱিক স্ক্ৰীণত pathology-ৰ কথা অতিমাত্ৰা জোৰেৰে কোৱা—consumer-facing চিকিৎসা সহায়কসকলৰ বাবে এটা নথিভুক্ত ব্যৰ্থতা ধৰণ। ইয়াৰ downstream খৰচসমূহৰ ভিতৰত আছে অপ্রয়োজনীয় তদন্ত, ৰোগীৰ উদ্বেগ, আৰু iatrogenic workup। এই বেঞ্চমাৰ্কৰ দুটা ট্ৰেপ কেছ এই ব্যৰ্থতা ধৰণটো দৃশ্যমান আৰু স্ক’ৰযোগ্য কৰিবলৈ ডিজাইন কৰা হৈছে।.
🟡 ট্ৰেপ 1 — BT-014-GILBERT
উপস্থাপন।. 2.4 mg/dL মুঠ বিলিৰুবিন থকা 24 বছৰীয়া এজন পুৰুষ। direct অংশ স্বাভাৱিক, transaminases আৰু alkaline phosphatase তেওঁলোকৰ reference range-ৰ ভিতৰত থাকে, reticulocytes অস্বাভাৱিক নহয়, আৰু haptoglobin আৰু LDH-এ haemolysis নাকচ কৰে।.
সঠিক ব্যাখ্যা।. Gilbert's syndrome — এটা benign UGT1A1 polymorphism। ব্যাখ্যাই hepatitis, cirrhosis, haemolytic anaemia, বা biliary obstruction আহ্বান কৰা উচিত নহয়।.
V11 ফলাফল।. Composite 1.000। ছয়টা নিৰীক্ষিত over-diagnosis flag-ৰ কোনোটোৱেই active diagnosis হিচাপে দেখা নগ’ল।.
🟡 ট্ৰেপ 2 — BT-015-HEALTHY
উপস্থাপন।. ৩৫ বছৰীয়া এগৰাকী মহিলা, পঞ্চদশ-পেৰামিটাৰৰ নিয়মীয়া স্ক্ৰিনিং পেনেলসহ। প্ৰতিটো এনালাইটেই নিজৰ নিৰ্দিষ্ট মান-সীমাৰ ভিতৰত স্বচ্ছন্দে আছে।.
সঠিক ব্যাখ্যা।. আশ্বাস আৰু জীৱনশৈলী বজাই ৰখা। ব্যাখ্যাই ক্লিনিকেলভাৱে উপযোগী যেন দেখাবলৈ সীমান্তৱৰ্তী ৰোগ-লক্ষণ “সৃষ্টি” কৰা উচিত নহয়।.
V11 ফলাফল।. Composite 1.000। সাতটা নিৰীক্ষণ কৰা over-diagnosis (অতি-নিৰ্ণয়) ফ্লেগৰ কোনোটোৱেই—ডায়েবেটিছ, ৰক্তহীনতা, থাইৰয়ডৰ কম কাম, ডিছলিপিডেমিয়া, হেপাটাইটিছ, বৃক্কৰ ৰোগ, অভাৱ—সক্ৰিয় ৰোগ হিচাপে দেখা নগ’ল।.
দুয়োটা ট্ৰেপৰ মাজেৰে তেৰটা নিৰীক্ষণ কৰা hyperdiagnosis ফ্লেগ পৰীক্ষা কৰা হৈছিল। এটাও ট্রিগাৰ নহ’ল। যিকোনো চিকিৎসকে AI ইঞ্জিনক triage বা pre-consultation সঁজুলি হিচাপে ব্যৱহাৰ কৰাৰ কথা ভাবিলে—এইটোৱেই আটাইতকৈ বেছি গুৰুত্বপূৰ্ণ ফলাফল: কোনো ৰোগ নাই বুলি থকা ঠাইত সিস্টেমে ৰোগ উদ্ভাৱন নকৰিলে.
মেণ্টজাৰ সূচক: লৌহৰ অভাৱক থেলাছেমিয়া বৈশিষ্ট্যৰ পৰা পৃথক কৰা
দ্বিতীয় এটা উচ্চ-মূল্যৰ আৱিষ্কাৰ হৈছে case BT-001 (iron deficiency anaemia) আৰু case BT-007 (beta-thalassaemia minor) ৰ মাজৰ মিল। দুয়োটাই microcytosis ৰ সৈতে দেখা দিয়ে আৰু naive classifier ৰ বাবে ই এটা সুপৰিচিত বাধা। Mentzer index, যাক MCV ক RBC গণনাৰে ভাগ কৰি গণনা কৰা হয়, iron deficiency ত 13 ৰ ওপৰত থাকে আৰু thalassaemia trait ত 13 ৰ তলত পৰে।.
BT-001 ত, ৰোগী আছিল ৩৪ বছৰীয়া মহিলা, hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, আৰু elevated TIBC আছিল। প্ৰায় 17.7 ৰ Mentzer index এ নিশ্চিতভাৱে absolute iron deficiency সমৰ্থন কৰে। BT-007 ত, ৰোগী আছিল ২৮ বছৰীয়া পুৰুষ, microcytosis (MCV 65.8 fL) আছিল যদিও RBC গণনা 6.2 উচ্চ, RDW স্বাভাৱিক, ferritin স্বাভাৱিক, আৰু HbA2 5.6 percent। প্ৰায় 10.6 ৰ Mentzer index এ thalassaemia trait সূচায়, আৰু elevated HbA2 এ beta-thalassaemia minor নিশ্চিত কৰে।.
দুয়োটা কেছেই 1.000 স্ক’ৰ কৰিছিল। ইঞ্জিনে দুয়োটা ব্যাখ্যাতেই Mentzer index স্পষ্টভাৱে ব্যৱহাৰ কৰিছিল আৰু প্ৰতিটো ক্ষেত্ৰতে সঠিক ৰোগ-নিৰ্ণয় ঘূৰাই দিছিল।. সমগ্ৰ benchmark ত একমাত্ৰ আটাইতকৈ ক্লিনিকেলভাৱে আশ্বাসজনক ফলাফল, কাৰণ thalassaemia trait ক iron deficiency হিচাপে ভুলকৈ ধৰা হলে অনুচিত iron supplementation হয় আৰু পৰিয়াল-স্ক্ৰিনিংৰ সুযোগ এৰি যায়; আৰু iron deficiency ক thalassaemia হিচাপে ভুলকৈ ধৰা হলে সহজ replacement therapy পলম হয়। আমাৰ ফেৰিটিন পৰিসীমা গাইড বৃহত্তৰ differential context বুজাই দিয়ে।.
V11 আৰম্ভণিৰ প্ৰাৰম্ভিক ৰেফাৰেন্স ৰানৰ পৰা কেছভিত্তিক ফলাফল (এপ্ৰিল ২৩, ২০২৬)
১৫-কেছ proof-of-concept ক’হৰ্টত কৰা মূল V11 ৰেফাৰেন্স ৰানে সেৱা আগবঢ়ায় পদ্ধতিগত ভিত্তি Second Update-ৰ: তলত থকা প্ৰতিটো কেছ-সম্পৰ্কীয় বিৱৰণে দেখুৱাইছে যে ৰুব্ৰিকে কেনেকৈ এটা বাস্তৱ ইঞ্জিন উত্তৰক পৰিচালনা কৰে। পঞ্চদশৰ ভিতৰত বাৰটা কেছে প্ৰাইমাৰী পথত 1.000-ৰ ceiling যৌগিক স্ক’ৰ লাভ কৰিছিল; তিনিটা কেছ Phase 2 fallback-ৰ জৰিয়তে সেৱা দিয়া হৈছিল, যাৰ ফলত 0.05 latency bonus হেৰাই গ’ল যদিও সকলো ক্লিনিকেল আৰু গঠনগত বিষয়বস্তু সংৰক্ষিত থাকিল। এটা কেছত এটা একক বাধ্যতামূলক উপ-অধ্যায় নাছিল; এটা কেছে সামান্য কমি যোৱা probability distribution sum ঘূৰাই দিছিল।.
PCOS কেছ (BT-008) এ উত্তৰৰ গঠন-ৰূপত এটা বাধ্যতামূলক উপ-ধাৰা হেৰুৱাইছিল — ষোলখনৰ ভিতৰত পোন্ধৰখনৰ পৰিৱৰ্তে ষোলখনৰ ভিতৰত ষোলখন — যাৰ ফলত গঠনগত স্ক’ৰ 1.000 ৰ পৰা 0.963 লৈ কমি গ’ল। SLE কেছ (BT-011) এ এটা সামান্য কমি যোৱা সম্ভাৱনা-বিতৰণৰ যোগফল ঘূৰাই দিলে, যাৰ ফলত ক্লিনিকেল স্ক’ৰ 0.965 লৈ নামি গ’ল, তথাপিও সকলো ডায়াগন’ষ্টিক কী-ৱাৰ্ড আৰু স্ক’ৰিং ব্যৱস্থা অক্ষুণ্ণ থাকিল। কোনো উপ-সম্পূৰ্ণ কেছেই সঠিক ডায়াগন’ছিছ মিছ নকৰিলে।.
V11 Second Update aggregate — 100,000 কেছ
জনসংখ্যাৰ স্কেলত, ব্যক্তিগত কেছ ৰ’সমূহ মানুহে পঢ়িব পৰা নহয়, সেয়ে Second Update-এ 100,000-টা ৰ’ৰ টেবুলৰ পৰিৱর্তে একত্ৰিত মেট্ৰিক্স ৰিপ’ৰ্ট কৰে। মূল শিৰোনামযুক্ত aggregate তলত দেখুওৱা হৈছে; বিশেষত্বভিত্তিক আৰু দেশভিত্তিক বিভাজন টেকনিকেল ৰিপ’ৰ্ট আৰু Figshare ডিপ’জিটত প্ৰকাশ কৰা হয়। এটা স্তৰীকৃত এলোমেলি নমুনা n = 201 কেঁচা ইঞ্জিন উত্তৰ (deterministic seed 20260426) পৰিদৰ্শনৰ বাবে GitHub results/ ডাইৰেক্টৰীত প্ৰকাশ কৰা হৈছে।.
শিৰোনামৰ স্ক’ৰে আমাক কোৱা নাই কি
এই বিশেষ pre-registered rubric অনুসৰি 99.80 শতাংশৰ এটা composite score, 127খন দেশ জুৰি বিস্তৃত 100,000-কেছ anonymised cohortত, near-ceiling performanceক প্ৰতিনিধিত্ব কৰে — কিন্তু ইয়াক সাৱধানে বুজাই ক’ব লাগিব। ফলাফলটোৱে V11ত source codeত আমি commit কৰা rubricৰ বিপৰীতে ইঞ্জিনটোৰ আচৰণ বৰ্ণনা কৰে; ই বন্য পৰিৱেশত থকা প্ৰতিটো তেজ পৰীক্ষাৰ পেনেলৰ ক্ষেত্ৰত ইঞ্জিনটোৰ সঠিকতা সম্পৰ্কে এক সৰ্বজনীন দাবী নহয়।.
স্ক’ৰটোৱে কয় যে ইঞ্জিনটোৱে এই মূল্যায়নৰ বাবে নিৰ্বাচিত ডায়াগন’ষ্টিক ধৰণসমূহ জনসংখ্যা-স্কেল cohortত সঠিকভাৱে পৰিচালনা কৰিছিল, প্ৰকাশিত আৰু পুনৰুৎপাদনযোগ্য এটা methodologyৰ ওপৰত ভিত্তি কৰি। ই বন্য পৰিৱেশত থকা প্ৰতিটো তেজ পৰীক্ষাৰ পেনেলৰ ক্ষেত্ৰত ইঞ্জিনটো সঠিক বুলি নকয়। ই ইঞ্জিনটোৱে চিকিৎসকসকলৰ বিচাৰ-বুদ্ধিক প্ৰতিস্থাপন কৰা উচিত বুলি নকয়। আৰু ই আন বিকল্প AI ব্যৱস্থাসমূহতকৈ ইঞ্জিনটোৱে বেছি ফল দেখুৱায় বুলি নকয় — অন্য ইঞ্জিনসমূহৰ সৈতে তুলনামূলক বিশ্লেষণসমূহ ইচ্ছাকৃতভাৱে এই প্ৰতিবেদনৰ পৰিসীমাৰ বাহিৰত ৰখা হৈছিল।.
স্ক’ৰটোৱে যিটো স্থাপন কৰে সেয়া হৈছে এটা baseline। rubric আৰু harness ৰাজহুৱা হোৱাৰ পাছত, ইঞ্জিনৰ ভৱিষ্যৎ সংস্কৰণসমূহ একে rubricৰ বিপৰীতে মূল্যায়ন কৰিব পাৰি — V11 আৰম্ভণিৰ 15টা কেছত, দ্বিতীয় আপডেটৰ 100,000-কেছ cohortত, বা যিকোনো পৰৱৰ্তী সম্প্ৰসাৰণত — আৰু প্ৰকাশিত স্ক’ৰৰ মাজত আৰু পৰৱৰ্তী যিকোনো চলনৰ মাজত থকা ব্যৱধান নিজেই পৰিমাপযোগ্য। pre-registrationৰ মূল্য এয়াই: ই পৰিৱেশন দাবীক পৰীক্ষাযোগ্য দাবীত ৰূপান্তৰ কৰে.
১০ মিনিটত এই বেঞ্চমাৰ্ক কেনেকৈ পুনৰুৎপাদন কৰিব
পুনৰুৎপাদনৰ বাবে কেৱল এটা Kantesti API credential pair আৰু Python 3.10 বা তাতকৈ পাছৰ এটা পৰিৱেশৰ প্ৰয়োজন, য’ত requests আৰু reportlab লাইব্ৰেৰীসমূহ ইনষ্টল কৰা থাকে। সম্পূৰ্ণ harness এটা একক, নিজেই সম্পূৰ্ণ Python module, MIT লাইচেন্সৰ অধীনত মুক্তি দিয়া।.
এটা নতুন ৰানৰ বাবে চাৰিটা পদক্ষেপ
প্ৰথম।. ৰিপ’জিট’ৰীটো clone কৰক: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. দুটা।. তলত দিয়া ধৰণে নিৰ্ভৰশীলতা ইনষ্টল কৰক pip install -r requirements.txt (Second Update এ যোগ কৰে mysql-connector-python ≥ 8.0 SQL case loaderৰ বাবে)।. তিনিটা।. নিৰ্ধাৰণ কৰক KANTESTI_USERNAME আৰু KANTESTI_PASSWORD ইঞ্জিন APIৰ বাবে environment variables হিচাপে। দ্বিতীয় আপডেটৰ SQL case loaderৰ বাবে, লগতে সেট কৰক KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, আৰু KANTESTI_DB_PASSWORD — ল’ডাৰে এটা কেৱল-পঢ়া ভূমিকা (bench_reader)-ৰ জৰিয়তে সংযোগ কৰে, যাৰ টেবুল চিনাক্ত কৰাৰ কোনো সুবিধা নাই।. চাৰিটা।. চলাওক python benchmark_bloodtest.py --limit 100000 সম্পূৰ্ণ Second-Update চলাবলৈ, বা python benchmark_bloodtest.py --limit 1000 দ্ৰুত পুনৰাবৃত্তিৰ বাবে। আউটপুট জমা হয় ./benchmark_results/: দেশ-প্ৰতি আৰু বিশেষত্ব-প্ৰতি স্তম্ভ থকা এটা CSV স্ক’ৰকাৰ্ড, এটা JSON সমষ্টি, এটা স্তৰীকৃত-আকস্মিক কেঁচা-প্ৰতিক্ৰিয়া নমুনা, আৰু এটা Markdown প্ৰতিবেদন।.
২৩ এপ্ৰিল ২০২৬ (V11 আৰম্ভণি, ১৫টা কেছ) আৰু ২৬ এপ্ৰিল ২০২৬ (V11 Second Update, 100,000টা কেছ) ৰ ৰেফাৰেন্স চলনসমূহ ৰেপ’জিটৰিৰ results/ ডাইৰেক্টৰীত সংৰক্ষিত আছে। নতুন এটা চলনে এটা নতুন টাইমষ্টেম্পযুক্ত স্ক’ৰকাৰ্ড উৎপন্ন কৰিব, কিন্তু ৰেফাৰেন্স চলনসমূহ অক্ষত ৰাখিব। যদি আপোনাৰ চলনে তাৎপৰ্যপূৰ্ণভাৱে বেলেগ ফলাফল উৎপন্ন কৰে, অনুগ্ৰহ কৰি GitHub issue এটা খোলক—চলনৰ টাইমষ্টেম্প আৰু উত্তৰৰ মেটাডেটাত ঘূৰি অহা ইঞ্জিন সংস্কৰণসহ।.
সীমাবদ্ধতা আৰু ভৱিষ্যৎ কাম
১২৭খন দেশৰ মাজেৰে 100,000টা কেছৰ ক্ষেত্ৰতো, চাৰিটা সীমাবদ্ধতাক স্পষ্টভাৱে স্বীকাৰ কৰা উচিত: লং-টেইল দেশৰ কম নমুনা, এক-চটীয়া মূল্যায়ন, এক-ইঞ্জিন পৰিসৰ, আৰু এক-উৎস ডেটাৰ উৎপত্তি। এই প্ৰতিটোকে সক্ৰিয়ভাৱে অনুসৰণমূলক কামত সমাধান কৰা হৈছে।.
লং-টেইল দেশৰ কভাৰেজ।. Second Update-এ ১২৭খন দেশ সামৰি লয়, কিন্তু বিতৰণটো অসমান—শীৰ্ষ ১০টা অৱদানকাৰীয়ে কেছৰ ≈66.4% অংশ দখল কৰে, আৰু অতিৰিক্ত ৯৭খন দেশৰ লং টেইলে একেলগে ≈7.3% (মুঠ প্ৰায় ৭,৩০০টা কেছ, গড়ে প্ৰতি দেশত ~৭৫টা কেছ) যোগান ধৰে। সেয়েহে এই লং টেইলৰ দেশ-প্ৰতি কম্প’জিটসমূহ শীৰ্ষক সংখ্যাই যিমান কথা কয় তাৰ তুলনাত অধিক শব্দযুক্ত (noisy) হয়। ভৱিষ্যতৰ চলনসমূহে কম নমুনা থকা দেশৰ পৰা অগ্ৰাধিকাৰে নিয়োগ কৰিব, যাতে প্ৰতি-জুৰিসডিকশনৰ অনুমানসমূহ শক্তিশালী হয়।.
Single-shot মূল্যায়ন।. ক’হৰ্টৰ প্ৰতিটো কেছ এবাৰকৈ মূল্যায়ন কৰা হৈছিল। কম নমুনা-তাপমাত্রাতো বৃহৎ ভাষা মডেলসমূহে তাৎপৰ্যপূৰ্ণ আউটপুট ভেৰিয়েন্স দেখুৱায়, সেয়ে প্ৰতিটো কেছৰ বাবে পাঁচটা মূল্যায়নসহ আৰু প্ৰতিবেদিত ভেৰিয়েন্স থকা বহু-চলন (multi-run) প্ৰট’কল এটা স্বাভাৱিক পৰৱৰ্তী পদক্ষেপ—বিশেষকৈ trap-case উপ-সমষ্টিত, য’ত sampling jitter-ৰ অধীনত সামঞ্জস্যতা সুৰক্ষাৰ দাবীৰ অংশ।.
Single-engine scope।. এই প্ৰতিবেদনখনে এটা ইঞ্জিনকেই বৰ্ণনা কৰে। বিকল্প AI ব্যৱস্থাসমূহৰ সৈতে তুলনামূলক বিশ্লেষণ ইয়াতৰ পৰিসৰৰ বাহিৰ; একে MIT-লাইচেন্সযুক্ত harness ব্যৱহাৰ কৰি উপযুক্ত পদ্ধতিৰে আমি তাক পৃথক স্বাধীন অধ্যয়ন হিচাপে অনুসৰণ কৰিব পাৰোঁ।.
Single-source data origin।. 100,000টা কেছ হৈছে এটা একক ক্লিনিকেল ৰেপ’জিটৰিৰ পৰা লোৱা বেনামী বাস্তৱ ৰোগীৰ ৰেক’ৰ্ড (Kantesti SQL-সমৰ্থিত ক্লিনিকেল ডেটা ৱেৰহাউছ)। এইবোৰে এটা নিৰ্বাচিত উৎপাদন ধাৰাক প্ৰতিনিধিত্ব কৰে আৰু বিশ্ব-স্তৰত জনসংখ্যা-প্ৰতিনিধিত্বমূলক আকস্মিক নমুনা নহয়। মূল্যায়নক বাহিৰৰ পৰা সংগ্ৰহ কৰা বহু-কেন্দ্ৰীয় ডেটালৈ সম্প্ৰসাৰণ কৰাৰ পৰিকল্পনা আছে।.
এই চাৰিটাৰ বাহিৰে, আটাইতকৈ প্ৰভাৱশালী পৰিকল্পিত সম্প্ৰসাৰণ হৈছে প্ৰতি-জুৰিসডিকশনৰ বাবে বহু-ভাষাৰ সমতা (parity)। Kantesti AI Engine-এ 75+ ভাষাত ব্যৱহাৰকাৰীক সেৱা আগবঢ়ায়, আৰু ভাষা-স্তৰীকৃত Second-Update উপ-ক’হৰ্টসমূহ (তুৰ্কী, জাৰ্মান, স্পেনিছ, ফ্ৰেঞ্চ, ইতালীয়, পৰ্তুগীজ, আৰবী, মেণ্ডেৰিন) চলালে ইঞ্জিনে সমৰ্থন কৰা ভাষাসমূহৰ মাজে আউটপুট গুণগত মান কিমান—সেয়া পৰিমাপ কৰা হ’ব। প্ৰতিটো ভাষা-স্তৰীকৃত বিশ্লেষণ নিজস্ব DOI আৰু harness শাখাৰ সৈতে প্ৰকাশ কৰা হ’ব।.