এই বেঞ্চমাৰ্ক কিয় আছে আৰু ই কি পৰীক্ষা কৰে
AI-সহায়ত তেজ পৰীক্ষাৰ ফলাফল কেনেকৈ পঢ়িব কনজিউমাৰ আৰু ক্লিনিকেল কাৰ্যপ্ৰবাহত ক্ৰমাৎ বেছি ব্যৱহাৰ কৰা হৈছে, কিন্তু লেবৰেটৰী চিকিৎসাৰ বাবে উপযোগী পুনৰুৎপাদনযোগ্য মূল্যায়ন কাঠামো অতি কম। এই পৰিস্থিতিত আটাইতকৈ গুৰুত্বপূৰ্ণ প্ৰশ্নবোৰ সাধাৰণ চিকিৎসা প্ৰশ্ন-উত্তৰ বেঞ্চমাৰ্কত কোৱা নহয়: mean corpuscular volume একে থাকিলেও এটা ইঞ্জিনে লৌহৰ অভাৱক থেলাছেমিয়া বৈশিষ্ট্যৰ পৰা পৃথক কৰিব পাৰেনে, hepatitis হিচাপে Gilbert's syndrome অতিনিৰ্ণয় (over-diagnose) কৰে নেকি, আৰু সম্পূৰ্ণ স্বাভাৱিক স্ক্ৰীণিং পেনেলত প্যাথলজি “উৎপাদন” কৰে নেকি?
এটা একক তেজ পৰীক্ষাৰ পেনেল সাধাৰণতে কেইবাটাও প্ৰতিদ্বন্দ্বী ব্যাখ্যাৰ বাবে যথেষ্ট সংকেত বহন কৰে, আৰু ব্যাখ্যা কৰা চিকিৎসকজনৰ কাম হ’ল সেই ব্যাখ্যাবোৰক ইটোৰ সৈতে সিটো তুলনা কৰি ওজন দিয়া—পাঠ্যপুথিৰ এটা “ঠিক উত্তৰ” উদ্ধাৰ কৰা নহয়। পাঠ্যপুথিৰ কেছত ভাল কৰা এটা ইঞ্জিনে তথাপিও আটাইতকৈ গুৰুত্বপূৰ্ণ কেছত বিফল হ’ব পাৰে: differential-diagnosis ৰ ফান্দ, কেৱল এককভাৱে দেখিলে ভয়ংকৰ যেন লগা নিৰীহ ভেৰিয়েন্ট, আৰু সম্পূৰ্ণ স্বাভাৱিক পেনেল যিয়ে আত্মবিশ্বাসী সহায়কক pathology “উৎপাদন” কৰিবলৈ প্ৰলোভিত কৰে।.
এই benchmark ঠিক এই ধৰণৰ বিফলতাৰ ধৰণবোৰৰ ওপৰত নিৰ্মাণ কৰা হৈছিল। পঞ্চদশটা কেছক এটা নিৰ্দিষ্ট ডায়াগন’ষ্টিক গুণৰ বাবে বাছনি কৰা হৈছিল: একে mean corpuscular volume থকা beta-thalassaemia trait ৰ পৰা পৃথক কৰি ৰাখিব লাগা iron-deficient microcytosis, এটা Gilbert's syndrome ৰ উপস্থাপন য’ত একমাত্ৰ অস্বাভাৱিকতা হ’ল isolated indirect hyperbilirubinaemia, আৰু এটা পঞ্চদশ-পেৰামিটাৰ screening পেনেল য’ত প্ৰতিটো analyte নিজৰ reference range ৰ ভিতৰতেই থাকে। rubric এ সেই ইঞ্জিনক পুৰস্কৃত কৰে যিয়ে প্ৰতিটো কেছক নিজৰ নিজা চৰ্তত পঢ়ে, আৰু সেই ইঞ্জিনক শাস্তি দিয়ে যিয়ে এনে ডায়াগন’ছিছৰ প্ৰয়োজন নথকা সত্ত্বেও আত্মবিশ্বাসী ডায়াগন’ছিছত উপনীত হয়।.
MD থমাছ ক্লেইন হিচাপে, মই কেছ পেনেল বাছনি কৰিছিলোঁ কাৰণ মই দেখোঁ যে laboratory-medicine সহায়কসকলে আটাইতকৈ বেছি ভুল কৰা পেটাৰ্নবোৰ এয়াই।. ব্যয়বহুল বিফলতাৰ ধৰণটো "এটা বিৰল ৰোগ এৰি যোৱা" নহয়—ইয়াৰ বদলে, যিসকল ৰোগীয়ে সেই ৰোগটো নাথাকে তেওঁলোকৰ ক্ষেত্ৰত routine pathology উদ্ভাৱন কৰা।. আমাৰ চিকিৎসা বৈধকৰণ hub এ বহল কাঠামো বৰ্ণনা কৰে; এই পৃষ্ঠাই V11 ইঞ্জিনত ইয়াৰ প্ৰয়োগ কৰা ফলাফল বৰ্ণনা কৰে।.
শেহতীয়া ৰেফাৰেন্স ৰান — V11 (এপ্ৰিল ২০২৬)
Kantesti AI Engine V11 ৰ April 2026 reference run এ এটা composite score উৎপন্ন কৰিছিল 99.12% pre-registered পঞ্চদশ-কেছ rubric ত। দুয়োটা hyperdiagnosis trap কেছ ceiling ত স্ক’ৰ কৰিছিল। iron-deficiency বনাম thalassaemia differential ত Mentzer index সঠিকভাৱে প্ৰয়োগ কৰা হৈছিল।.
Composite সূত্ৰটোৱে তিনিটা উপাদান একত্ৰিত কৰে: structural conformance সাতটা বাধ্যতামূলক report section আৰু ষোলটা বাধ্যতামূলক subsection ৰ সৈতে, clinical accuracy যাক মাপা হয় keyword recall + scoring-system recall + probability-distribution validity check ৰে, আৰু response latency ২০-ছেকেণ্ডৰ primary-path service-level target ৰ বিপৰীতে। সঠিক বিভাজন তলৰ rubric formula ত দেখুওৱা হৈছে।.
হেডৰুমৰ বাকী 0.88 শতাংশ পইণ্ট প্ৰায় সম্পূৰ্ণভাৱে বিলম্বতা হেৰুৱাৰ বাবে ভাঙি যায় — প্ৰতি এটা মুঠতে −0.05 সংযুক্ত (composite) থকা তিনিটা Phase 2 fallback আহ্বানে 0.88-পইণ্ট ঘাটিৰ ভিতৰত প্ৰায় 0.60 অৰিহণা আগবঢ়াইছিল — ক্লিনিকেল বিষয়বস্তুত নহয়। ইঞ্জিনে পঞ্চদশটা কেছৰ এটাতো এটা সঠিক নিৰ্ণয় (diagnosis) মিছ নকৰিলে; য’ত ই অলপ কম পৰিল, তাত সৰু সংখ্যক আহ্বানত ২০-ছেকেণ্ডৰ প্ৰাথমিক-পথ (primary-path) লক্ষ্যতকৈ অলপ বেছি সময় লৈছিল।.
সাতটা চিকিৎসা বিশেষত্বৰ মাজেৰে পোন্ধৰটা কেছ
কেছ পেনেলে সাতটা বিশেষত্ব সামৰি লয় — হেমাট’লজি, এণ্ড’ক্ৰাইন’লজি, মেটাবলিক মেডিচিন, হেপাট’লজি, নেফ্ৰ’লজি, কাৰ্ড’লজি, ৰিউমেট’লজি — লগতে দুটা নিৰ্দিষ্ট hyperdiagnosis trap কেছ। প্ৰতিটো কেছ হৈছে লিখিত অৱগত সম্মতি (written informed consent)ৰ অধীনত Kantesti ক্লিনিকেল ডাটা ৰিপ’জিটৰিৰ পৰা লোৱা এটা বেনামীকৃত (anonymised) বাস্তৱ ৰোগীৰ ৰেকৰ্ড।.
Safe Harbor পদ্ধতি অনুসৰি ডি-আইডেণ্টিফিকেচন কৰা হৈছিল: সকলো প্ৰত্যক্ষ চিনাক্তকাৰী (direct identifiers) আঁতৰোৱা বা সলনি কৰা হৈছিল, আৰু প্ৰতিটো ৰেকৰ্ডক BT-NNN-LABEL বিন্যাসত এটা benchmark-internal কেছ ক’ড দিয়া হৈছিল। প্ৰক্ৰিয়াকৰণ কৰা হৈছিল তলত দিয়া অনুসৰি GDPR ধাৰা 9(2)(j) উপযুক্ত সুৰক্ষা ব্যৱস্থাসহ বৈজ্ঞানিক গৱেষণাৰ বাবে, আৰু সমতুল্য UK GDPR বিধানসমূহ। প্ৰকাশিত harness, কাৰিকৰী প্ৰতিবেদন (technical report), বা মুক্তি দিয়া ডাটাছেটসমূহৰ ক’তো কোনো ব্যক্তিগতভাৱে চিনাক্ত কৰিব পৰা তথ্য (personally identifying information) দেখা নাযায়।.
এই বিশেষ বিতৰণ কিয়?
হেমাট’লজি তিনিটা কেছ পায় কাৰণ মাইক্ৰ’চাইটিক ডিফাৰেনচিয়েল আৰু মেক্ৰ’চাইটিক ডিফাৰেনচিয়েল—দুয়োটাই বাস্তৱ-জগতৰ লেব’ৰেটৰী অনুশীলনত সৰ্বাধিক পৰিমাণৰ “ট্ৰেপ”। এণ্ড’ক্ৰাইন’লজি তিনিটা কেছ পায় কাৰণ Hashimoto's, PCOS, আৰু ভিটামিন ডিৰ অভাৱ—এইবোৰৰ উপস্থাপনাই ভিন্ন ভিন্ন ডায়াগন’ষ্টিক আকৃতি সৃষ্টি কৰে (autoantibody-চালিত, hormone-ratio-চালিত, একক-মাৰ্কাৰ-চালিত)। একক-কেছ বিশেষত্বসমূহ এতিয়াও অৰ্থবহ, কাৰণ CKD, ASCVD ৰিস্ক, আৰু SLE—এই তিনিওটাৰ নিজস্ব স্ক’ৰিং ব্যৱস্থা আছে যিটো ইঞ্জিনে আহ্বান কৰিব লাগে (KDIGO staging, ASCVD 10-year risk, আৰু ক্ৰমে 2019 EULAR/ACR SLE criteria)।.
পূৰ্ব-নিবন্ধিত ৰুব্ৰিক, বুজাই দিয়া হৈছে
এই বেঞ্চমাৰ্কত pre-registration হৈছে সৰ্বাধিক গুৰুত্বপূৰ্ণ পদ্ধতিগত সিদ্ধান্ত। প্ৰতিটো সম্ভাৱ্য ডায়াগন’ছিছ, প্ৰতিটো ক্লিনিকেল স্ক’ৰিং ব্যৱস্থা, আৰু প্ৰতিটো ৰিপ’ৰ্ট অংশ—সকলোকে ইঞ্জিন আহ্বান কৰাৰ আগতেই source code-ত কমিট কৰা হৈছিল ইঞ্জিন আহ্বান কৰাৰ আগতে. । সেয়েহে ইঞ্জিনক সন্তুষ্ট কৰিবলৈ rubric-ৰ post-hoc tuning সম্ভৱ নহয়।.
কম্প’জিট স্ক’ৰ গঠন কৰে তিনিটা উপাদানে। সেই structural component এ 35 শতাংশ বৰঙণি দিয়ে আৰু জুখে যে ইঞ্জিনে সাতটা বাধ্যতামূলক ৰিপ’ৰ্ট অংশ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) আৰু সেইবোৰৰ ভিতৰত থকা ষোলটা বাধ্যতামূলক উপ-অংশ সঠিকভাৱে ঘূৰাই দিছিল নে নাই। structural calculation-ত section presence এ 40 শতাংশ ওজন পায় আৰু subsection presence এ 60 শতাংশ ওজন পায়।.
দ্য... clinical component এ 55 শতাংশ বৰঙণি দিয়ে আৰু তিনিটা বস্তু একত্ৰিত কৰে: diagnosis-keyword recall (clinical sub-score-ৰ 70 শতাংশ), scoring-system recall (20 শতাংশ — প্ৰাসংগিক হ’লে ইঞ্জিনে Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR criteria গণনা কৰে নে নাই), আৰু probability-sum validity check (10 শতাংশ — differential সম্ভাৱনাসমূহে [90, 110] অন্তৰালৰ ভিতৰত যোগফল দিব লাগিব)। ট্ৰেপ কেছৰ বাবে, সর্বোচ্চ 0.30 পৰ্যন্ত এটা স্পষ্ট hyperdiagnosis penalty কাটি দিয়া হয়—প্ৰতি fabricated pathology flag-ত 0.10 হিচাপে গণনা কৰি, সৰ্বোচ্চ তিনিটা flag-ত সীমাবদ্ধ।.
দ্য... latency component এ 10 শতাংশ বৰঙণি দিয়ে। 20 ছেকেণ্ডৰ তলত উত্তৰ দিলে পূৰ্ণ 0.10 পোৱা যায়, 40 ছেকেণ্ডৰ তলত উত্তৰ দিলে 0.05 পোৱা যায়, আৰু তাতকৈ ধীৰ যিকোনো উত্তৰে শূন্য পায়। 20-ছেকেণ্ড লক্ষ্য হৈছে production primary-path service-level objective; 40-ছেকেণ্ড ceiling হৈছে heavy-engine invocations-ৰ বাবে Phase 2 fallback budget।.
pre-registration-এ কি বাধা দিয়ে
First-party বেঞ্চমাৰ্কসমূহে post-hoc rubric tuning কৰি নিজৰ সংখ্যাবোৰ স্ফীত কৰাৰ বাবে কুখ্যাত। আৰ্হিটো প্ৰায় সদায় একে: দলটোৱে ইঞ্জিন চলায়, ক’ত কম ফল দিছে দেখে, তাৰ পিছত নিস্তব্ধভাৱে rubric-টো সামঞ্জস্য কৰে যাতে কম ফল দিয়া ক্ষেত্ৰসমূহে কম গণনা পায়। প্ৰথম ইঞ্জিন কলৰ আগতেই rubric-টো source code-ত কমিট কৰি আৰু MIT licence-ত harness প্ৰকাশ কৰি, এই সামঞ্জস্যটো version control-ত দৃশ্যমান হৈ পৰে। যিকোনো ব্যক্তিয়ে repository clone কৰিব পাৰে, rubric author dates পৰীক্ষা কৰিব পাৰে, আৰু ইঞ্জিনৰ ফলাফল স্ক’ৰিং গঢ়িবলৈ ব্যৱহাৰ কৰা হোৱা নাছিল বুলি নিশ্চিত কৰিব পাৰে।.
হাইপাৰডাইগন’ছিছ ফাঁদ কেছ — কিয় অতিমাত্ৰা কল কৰাটো প্ৰকৃত বিফলতাৰ ধৰণ
স্বাভাৱিক স্ক্ৰীণত pathology-ৰ কথা অতিমাত্ৰা জোৰেৰে কোৱা—consumer-facing চিকিৎসা সহায়কসকলৰ বাবে এটা নথিভুক্ত ব্যৰ্থতা ধৰণ। ইয়াৰ downstream খৰচসমূহৰ ভিতৰত আছে অপ্রয়োজনীয় তদন্ত, ৰোগীৰ উদ্বেগ, আৰু iatrogenic workup। এই বেঞ্চমাৰ্কৰ দুটা ট্ৰেপ কেছ এই ব্যৰ্থতা ধৰণটো দৃশ্যমান আৰু স্ক’ৰযোগ্য কৰিবলৈ ডিজাইন কৰা হৈছে।.
🟡 ট্ৰেপ 1 — BT-014-GILBERT
উপস্থাপন।. 2.4 mg/dL মুঠ বিলিৰুবিন থকা 24 বছৰীয়া এজন পুৰুষ। direct অংশ স্বাভাৱিক, transaminases আৰু alkaline phosphatase তেওঁলোকৰ reference range-ৰ ভিতৰত থাকে, reticulocytes অস্বাভাৱিক নহয়, আৰু haptoglobin আৰু LDH-এ haemolysis নাকচ কৰে।.
সঠিক ব্যাখ্যা।. Gilbert's syndrome — এটা benign UGT1A1 polymorphism। ব্যাখ্যাই hepatitis, cirrhosis, haemolytic anaemia, বা biliary obstruction আহ্বান কৰা উচিত নহয়।.
V11 ফলাফল।. Composite 1.000। ছয়টা নিৰীক্ষিত over-diagnosis flag-ৰ কোনোটোৱেই active diagnosis হিচাপে দেখা নগ’ল।.
🟡 ট্ৰেপ 2 — BT-015-HEALTHY
উপস্থাপন।. ৩৫ বছৰীয়া এগৰাকী মহিলা, পঞ্চদশ-পেৰামিটাৰৰ নিয়মীয়া স্ক্ৰিনিং পেনেলসহ। প্ৰতিটো এনালাইটেই নিজৰ নিৰ্দিষ্ট মান-সীমাৰ ভিতৰত স্বচ্ছন্দে আছে।.
সঠিক ব্যাখ্যা।. আশ্বাস আৰু জীৱনশৈলী বজাই ৰখা। ব্যাখ্যাই ক্লিনিকেলভাৱে উপযোগী যেন দেখাবলৈ সীমান্তৱৰ্তী ৰোগ-লক্ষণ “সৃষ্টি” কৰা উচিত নহয়।.
V11 ফলাফল।. Composite 1.000। সাতটা নিৰীক্ষণ কৰা over-diagnosis (অতি-নিৰ্ণয়) ফ্লেগৰ কোনোটোৱেই—ডায়েবেটিছ, ৰক্তহীনতা, থাইৰয়ডৰ কম কাম, ডিছলিপিডেমিয়া, হেপাটাইটিছ, বৃক্কৰ ৰোগ, অভাৱ—সক্ৰিয় ৰোগ হিচাপে দেখা নগ’ল।.
দুয়োটা ট্ৰেপৰ মাজেৰে তেৰটা নিৰীক্ষণ কৰা hyperdiagnosis ফ্লেগ পৰীক্ষা কৰা হৈছিল। এটাও ট্রিগাৰ নহ’ল। যিকোনো চিকিৎসকে AI ইঞ্জিনক triage বা pre-consultation সঁজুলি হিচাপে ব্যৱহাৰ কৰাৰ কথা ভাবিলে—এইটোৱেই আটাইতকৈ বেছি গুৰুত্বপূৰ্ণ ফলাফল: কোনো ৰোগ নাই বুলি থকা ঠাইত সিস্টেমে ৰোগ উদ্ভাৱন নকৰিলে.
মেণ্টজাৰ সূচক: লৌহৰ অভাৱক থেলাছেমিয়া বৈশিষ্ট্যৰ পৰা পৃথক কৰা
দ্বিতীয় এটা উচ্চ-মূল্যৰ আৱিষ্কাৰ হৈছে case BT-001 (iron deficiency anaemia) আৰু case BT-007 (beta-thalassaemia minor) ৰ মাজৰ মিল। দুয়োটাই microcytosis ৰ সৈতে দেখা দিয়ে আৰু naive classifier ৰ বাবে ই এটা সুপৰিচিত বাধা। Mentzer index, যাক MCV ক RBC গণনাৰে ভাগ কৰি গণনা কৰা হয়, iron deficiency ত 13 ৰ ওপৰত থাকে আৰু thalassaemia trait ত 13 ৰ তলত পৰে।.
BT-001 ত, ৰোগী আছিল ৩৪ বছৰীয়া মহিলা, hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, আৰু elevated TIBC আছিল। প্ৰায় 17.7 ৰ Mentzer index এ নিশ্চিতভাৱে absolute iron deficiency সমৰ্থন কৰে। BT-007 ত, ৰোগী আছিল ২৮ বছৰীয়া পুৰুষ, microcytosis (MCV 65.8 fL) আছিল যদিও RBC গণনা 6.2 উচ্চ, RDW স্বাভাৱিক, ferritin স্বাভাৱিক, আৰু HbA2 5.6 percent। প্ৰায় 10.6 ৰ Mentzer index এ thalassaemia trait সূচায়, আৰু elevated HbA2 এ beta-thalassaemia minor নিশ্চিত কৰে।.
দুয়োটা কেছেই 1.000 স্ক’ৰ কৰিছিল। ইঞ্জিনে দুয়োটা ব্যাখ্যাতেই Mentzer index স্পষ্টভাৱে ব্যৱহাৰ কৰিছিল আৰু প্ৰতিটো ক্ষেত্ৰতে সঠিক ৰোগ-নিৰ্ণয় ঘূৰাই দিছিল।. সমগ্ৰ benchmark ত একমাত্ৰ আটাইতকৈ ক্লিনিকেলভাৱে আশ্বাসজনক ফলাফল, কাৰণ thalassaemia trait ক iron deficiency হিচাপে ভুলকৈ ধৰা হলে অনুচিত iron supplementation হয় আৰু পৰিয়াল-স্ক্ৰিনিংৰ সুযোগ এৰি যায়; আৰু iron deficiency ক thalassaemia হিচাপে ভুলকৈ ধৰা হলে সহজ replacement therapy পলম হয়। আমাৰ ফেৰিটিন পৰিসীমা গাইড বৃহত্তৰ differential context বুজাই দিয়ে।.
এপ্ৰিল ২০২৬ ৰানৰ পৰা প্ৰতি-ক্ষেত্ৰৰ ফলাফল
পঞ্চদশটা কেছৰ ভিতৰত বাৰটোৱে primary path ত 1.000 ৰ ceiling composite score লাভ কৰিছিল। তিনিটা কেছ Phase 2 fallback ৰ জৰিয়তে সেৱা দিয়া হৈছিল, যাৰ ফলত 0.05 latency bonus হেৰুৱালেও সকলো ক্লিনিকেল আৰু গঠনগত বিষয়বস্তু অক্ষুণ্ণ থাকিল। এটা কেছত এটা একক বাধ্যতামূলক উপ-অধ্যায় অনুপস্থিত আছিল; এটা কেছে marginally reduced probability distribution sum ঘূৰাই দিছিল।.
PCOS কেছ (BT-008) এ উত্তৰৰ গঠন-ৰূপত এটা বাধ্যতামূলক উপ-ধাৰা হেৰুৱাইছিল — ষোলখনৰ ভিতৰত পোন্ধৰখনৰ পৰিৱৰ্তে ষোলখনৰ ভিতৰত ষোলখন — যাৰ ফলত গঠনগত স্ক’ৰ 1.000 ৰ পৰা 0.963 লৈ কমি গ’ল। SLE কেছ (BT-011) এ এটা সামান্য কমি যোৱা সম্ভাৱনা-বিতৰণৰ যোগফল ঘূৰাই দিলে, যাৰ ফলত ক্লিনিকেল স্ক’ৰ 0.965 লৈ নামি গ’ল, তথাপিও সকলো ডায়াগন’ষ্টিক কী-ৱাৰ্ড আৰু স্ক’ৰিং ব্যৱস্থা অক্ষুণ্ণ থাকিল। কোনো উপ-সম্পূৰ্ণ কেছেই সঠিক ডায়াগন’ছিছ মিছ নকৰিলে।.
শিৰোনামৰ স্ক’ৰে আমাক কোৱা নাই কি
এই বিশেষ pre-registered rubric ৰ অধীনত 99.12 শতাংশৰ এটা যৌগিক স্ক’ৰে near-ceiling পৰিৱেশনক বুজায়, কিন্তু ইয়াক সাৱধানে প্ৰসংগসহ উপস্থাপন কৰাটো উচিত। ফলাফলে ইঞ্জিনটোৰ আচৰণক পঞ্চদশখন সাৱধানে নিৰ্বাচিত বেনামী কেছৰ বিপৰীতে বৰ্ণনা কৰে—প্ৰতিটো কেছ এবাৰকৈ মূল্যায়ন কৰা হৈছিল—আৰু এটা একক rubric ৰ বিপৰীতে। সংখ্যাটোৱে কি প্ৰতিষ্ঠা কৰে আৰু কি নকৰে, সেই বিষয়ে আমি স্পষ্ট।.
স্ক’ৰটোৱে কয় যে V11 ইঞ্জিনে এই মূল্যায়নৰ বাবে নিৰ্বাচিত ডায়াগন’ষ্টিক ধৰণসমূহ সঠিকভাৱে পৰিচালনা কৰিছিল, প্ৰকাশিত আৰু পুনৰুৎপাদনযোগ্য পদ্ধতিৰ ওপৰত ভিত্তি কৰি। ই এয়া নকয় যে বন্য পৰিৱেশত থকা সকলো তেজ পৰীক্ষাৰ পেনেলত ইঞ্জিনটো সঠিক। ই এয়া নকয় যে ইঞ্জিনটোৱে চিকিৎসকসকলৰ বিচাৰ-বুদ্ধিক প্ৰতিস্থাপন কৰা উচিত। আৰু ই এয়া নকয় যে ইঞ্জিনটোৱে বিকল্প AI ব্যৱস্থাসমূহতকৈ ভাল কাম কৰে—এই প্ৰতিবেদনখনৰ বাবে আন ইঞ্জিনসমূহৰ সৈতে তুলনামূলক বিশ্লেষণ ইচ্ছাকৃতভাৱে পৰিসীমাৰ বাহিৰত ৰখা হৈছিল।.
স্ক’ৰটোৱে যিটো প্ৰতিষ্ঠা কৰে সেয়া হৈছে এটা বেছলাইন। rubric আৰু harness ৰাজহুৱা হোৱাৰ বাবে, ইঞ্জিনৰ ভৱিষ্যৎ সংস্কৰণসমূহ একে পঞ্চদশখন কেছৰ বিপৰীতে মূল্যায়ন কৰিব পাৰি, আৰু প্ৰকাশিত স্ক’ৰৰ পৰা যিকোনো পিছৰ ৰানলৈ হোৱা ব্যৱধান নিজেই মাপিব পৰা। pre-registration ৰ মূল্য এয়াই: ই পৰিৱেশন দাবীক পৰীক্ষাযোগ্য দাবীত ৰূপান্তৰ কৰে.
১০ মিনিটত এই বেঞ্চমাৰ্ক কেনেকৈ পুনৰুৎপাদন কৰিব
পুনৰুৎপাদনৰ বাবে কেৱল এটা Kantesti API credential pair আৰু Python 3.10 বা তাতকৈ পাছৰ এটা পৰিৱেশৰ প্ৰয়োজন, য’ত requests আৰু reportlab লাইব্ৰেৰীসমূহ ইনষ্টল কৰা থাকে। সম্পূৰ্ণ harness এটা একক, নিজেই সম্পূৰ্ণ Python module, MIT লাইচেন্সৰ অধীনত মুক্তি দিয়া।.
এটা নতুন ৰানৰ বাবে চাৰিটা পদক্ষেপ
প্ৰথম।. ৰিপ’জিট’ৰীটো clone কৰক: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. দুটা।. তলত দিয়া ধৰণে নিৰ্ভৰশীলতা ইনষ্টল কৰক pip install -r requirements.txt. তিনিটা।. নিৰ্ধাৰণ কৰক KANTESTI_USERNAME আৰু KANTESTI_PASSWORD ক পৰিৱেশ চলক (environment variables) হিচাপে — প্ৰমাণপত্ৰসমূহ runtime ত পঢ়া হয় আৰু স্ক্ৰিপ্টত একো hard-code কৰা নহয়।. চাৰিটা।. চলাওক python benchmark_bloodtest.py আৰু কাৰ্য্যকৰী ডাইৰেক্টৰীত নিৰ্গত হোৱা চাৰিটা artefact পৰীক্ষা কৰক: এটা CSV scorecard, এটা JSON scorecard, কেঁচা ইঞ্জিন উত্তৰসমূহ অন্তৰ্ভুক্ত কৰা এটা সম্পূৰ্ণ JSON dump, আৰু এটা মানুহে পঢ়িব পৰা Markdown প্রতিবেদন।.
২৩ এপ্ৰিল ২০২৬ ৰ পৰা reference run টো সংৰক্ষিত আছে results/ ৰিপ’জিটৰিৰ ডাইৰেক্টৰিত। এটা নতুন run এ নতুন timestamped scorecard উৎপন্ন কৰিব, কিন্তু reference run টোক অক্ষত ৰাখিব। যদি আপোনাৰ run এ তাৎপৰ্য্যপূর্ণভাৱে বেলেগ ফলাফল উৎপন্ন কৰে, অনুগ্ৰহ কৰি GitHub issue এটা খোলক—run timestamp আৰু response metadata ত ঘূৰি অহা engine version সহ।.
সীমাবদ্ধতা আৰু ভৱিষ্যৎ কাম
চাৰিটা সীমাবদ্ধতাক স্পষ্টভাৱে স্বীকাৰ কৰা উচিত: নমুনা আকাৰ, single-shot মূল্যায়ন, single-engine scope, আৰু single-source data origin। এইবোৰক সক্ৰিয়ভাৱে follow-up কামত সমাধান কৰা হৈছে।.
নমুনা আকাৰ।. আঠটা বিশেষত্ব (specialty) বাল্টিত পঁচোদশটা কেছ এটা proof of concept ৰ বাবে যথেষ্ট, কিন্তু কোনো বিশেষত্বৰ ভিতৰত subgroup বিশ্লেষণৰ বাবে নহয়। পঞ্চাশটা কেছলৈ সম্প্ৰসাৰণৰ পৰিকল্পনা আছে আৰু ইয়াত coagulation panels, haematological malignancy screening, pregnancy panels, আৰু শিশুৰ (paediatric) উপস্থাপনসমূহ অন্তৰ্ভুক্ত থাকিব।.
Single-shot মূল্যায়ন।. প্ৰতিটো কেছ এবাৰ মূল্যায়ন কৰা হৈছিল। কম sampling temperature তো large language models এ non-trivial output variance দেখুৱায়, সেয়ে প্ৰতিটো কেছৰ বাবে পাঁচটা মূল্যায়নসহ multi-run protocol আৰু প্ৰতিবেদন কৰা variance টো স্বাভাৱিক পৰৱৰ্তী পদক্ষেপ।.
Single-engine scope।. এই প্রতিবেদনখনে এটা ইঞ্জিনকেই বৰ্ণনা কৰে। বিকল্প AI ব্যৱস্থাসমূহৰ সৈতে তুলনামূলক বিশ্লেষণ ইয়াত scope ৰ বাহিৰত; উপযুক্ত methodology সহ আমি তাক পৃথক স্বাধীন অধ্যয়ন হিচাপে অনুসৰণ কৰিব পাৰোঁ।.
Single-source data origin।. পঁচোদশটা কেছ একেটা একক clinical repository ৰ পৰা লোৱা বাস্তৱ ৰোগীৰ (real patient) ৰেকৰ্ড—সেইবোৰ anonymised। ইহঁতে এটা curated sample প্ৰতিনিধিত্ব কৰে আৰু জনসংখ্যা-প্ৰতিনিধিত্বমূলক এলোমেলো (random) নমুনা নহয়। মূল্যায়নক multi-centre ডেটালৈ সম্প্ৰসাৰণ কৰাৰ পৰিকল্পনা roadmap ত আছে।.
আটাইতকৈ প্ৰভাৱশালী পৰিকল্পিত সম্প্ৰসাৰণ হৈছে multi-language parity। Kantesti AI Engine এ 75+ ভাষাত ব্যৱহাৰকাৰীক সেৱা আগবঢ়ায়, আৰু তুৰ্কী, জাৰ্মান, স্পেনিছ, ফ্ৰেঞ্চ, আৰু আৰবী—এই ভাষাসমূহত একে পঁচোদশ-কেছ harness চলালে ইঞ্জিনে সমৰ্থন কৰা ভাষাসমূহৰ মাজত output quality কিমান—সেয়া পৰিমাপ কৰা হ’ব। আমি প্ৰতিটো ভাষা-নিৰ্দিষ্ট run নিজা DOI আৰু harness branch সহ প্ৰকাশ কৰিম।.