Kantesti AI তেজ পৰীক্ষা বেঞ্চমাৰ্ক — ক্লিনিকেল ভেলিডেচন

ক্লিনিকেল বৈধকৰণ পূৰ্ব-নিবন্ধিত বেঞ্চমাৰ্ক V11 — এপ্ৰিল ২০২৬ MIT-লাইচেন্সপ্ৰাপ্ত সমকক্ষভাৱে পৰীক্ষাযোগ্য

পূৰ্ব-নিবন্ধিত ৰুব্ৰিকত ০টা হাইপাৰডাইগন’ছিছ (Hyperdiagnosis) ভুৱা-পজিটিভৰ সৈতে 99.12% যৌগিক স্ক’ৰ

বেনামী তেজ পৰীক্ষাৰ কেছৰ ওপৰত Kantesti AI ইঞ্জিনৰ এটা স্বাধীন, পূৰ্ব-নিবন্ধিত চিকিৎসাজনিত মূল্যায়ন। প্ৰথম ইঞ্জিন কলৰ আগতেই উৎস ক’ডত ৰুব্ৰিক স্থিৰ কৰা হৈছিল, মূল্যায়ন হাৰ্নেছ MIT-লাইচেন্সপ্ৰাপ্ত, আৰু প্ৰতিটো কেঁচা উত্তৰ প্ৰকাশ কৰা হৈছে।.

📖 ~১৪ মিনিট 📅 এপ্ৰিল 23, 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 প্ৰকাশিত: এপ্ৰিল 23, 2026 🩺 চিকিৎসাগতভাৱে পৰ্যালোচিত: এপ্ৰিল 23, 2026 ✅ পূৰ্ব-নিবন্ধিত ৰুব্ৰিক 🔓 খোলা ক’ড & তথ্য

এই চিকিৎসাজনিত বৈধতা অধ্যয়ন পৰিচালনা কৰিছিল ডাঃ থমাছ ক্লেইন, এম.ডি, Kantesti AI-ৰ মুখ্য চিকিৎসা বিষয়া (Chief Medical Officer), সহযোগিতাত জুলিয়ান এমিৰহান বুলুট, Kantesti Ltd-ৰ জ্যেষ্ঠ AI অভিযন্তা আৰু CEO। পদ্ধতি আৰু ৰুব্ৰিক পৰ্যালোচনা কৰিছিল কান্টেষ্টি এ আই মেডিকেল এডভাইজাৰী ব’ৰ্ড.

মুখ্য লেখক & চিকিৎসাজনিত তত্ত্বাৱধান

থমাছ ক্লেইন, এম.ডি

মুখ্য চিকিৎসা বিষয়া, কান্টেষ্টি এ আই

ড° থমাছ ক্লেইন এজন ব’ৰ্ড-প্ৰমাণিত চিকিৎসাজনিত হেমাট’লজিষ্ট আৰু ইণ্টাৰনিষ্ট, আৰু তেওঁ লেব’ৰেটৰী মেডিচিনত ১৫ বছৰতকৈও অধিক অভিজ্ঞতা আছে। Kantesti AI-ৰ মুখ্য চিকিৎসা বিষয়া হিচাপে, তেওঁ এই বেঞ্চমাৰ্কৰ বাবে কেছ পেনেল নিৰ্বাচন কৰিছিল, সকলো ডাইগন’ষ্টিক স্থিত সত্য (ground truths) পৰ্যালোচনা কৰিছিল, আৰু প্ৰথম ইঞ্জিন আহ্বানৰ আগতেই পূৰ্ব-নিবন্ধিত ৰুব্ৰিক অনুমোদন কৰিছিল।.

ORCID 0009-0009-1490-1321 ৰিচাৰ্চগেট গুগল স্কোলাৰ

সহ-লেখক & ৰূপায়ণ

জুলিয়ান এমিৰহান বুলুট

জ্যেষ্ঠ AI অভিযন্তা & CEO, Kantesti Ltd

জুলিয়ান এমিৰহান বুলুট Kantesti Ltd-ৰ প্ৰতিষ্ঠাপক আৰু CEO। তেওঁ মূল্যায়ন হাৰ্নেছ ডিজাইন আৰু ৰূপায়ণ কৰিছিল, API সংযোগ সম্পন্ন কৰিছিল, এপ্ৰিল ২০২৬-ৰ বেঞ্চমাৰ্ক ৰান কৰিছিল, আৰু পৰিসংখ্যাগত সমষ্টিকৰণ প্ৰস্তুত কৰিছিল। ২০১৯ চনৰ পৰা প্লেটফৰ্মৰ প্ৰতিষ্ঠাপক।.

GitHub কান্টেষ্টিৰ বিষয়ে

⚡ Qısa Xülasə V11 — এপ্ৰিল 23, 2026

99.12% যৌগিক স্ক’ৰ সাতটা চিকিৎসা বিশেষত্বৰ ভিতৰত ১৫টা বেনামী বাস্তৱ ৰোগীৰ তেজ পৰীক্ষাৰ কেছত।.
শূন্য অতিমাত্ৰা নিৰ্ণয়ৰ (hyperdiagnosis) ভুল-পজিটিভ দুয়োটা ট্ৰেপ কেছত (Gilbert's syndrome আৰু সম্পূৰ্ণ স্বাভাৱিক প্ৰাপ্তবয়স্ক স্ক্ৰীণ)।.
পূৰ্ব-নিবন্ধিত ৰুব্ৰিক প্ৰথম ইঞ্জিন কলৰ আগতেই উৎস ক’ডত স্থিৰ কৰা — কোনো post-hoc tuning সম্ভৱ নাছিল।.
মেণ্টজাৰ সূচক সঠিকভাৱে প্ৰয়োগ কৰা লৌহৰ অভাৱজনিত ৰক্তহীনতা (iron deficiency anaemia)ক beta-thalassaemia minor ৰ পৰা পৃথক কৰিবলৈ।.
কেৱল উৎপাদন (production) এণ্ডপইণ্ট — কোনো বিশেষ সুবিধাজনক ৰাউটিং নাই; দৰমহা দিয়া গ্ৰাহকে যিদৰে এক্সেছ কৰিব, ঠিক সেইদৰে মূল্যায়ন কৰা হৈছে।.
গড় latency 20.17 ছেকেণ্ড end-to-end, আৰু ১৫টা কেছৰ ভিতৰত ১২টা ২০-ছেকেণ্ডৰ প্ৰাথমিক-পথ লক্ষ্যৰ ভিতৰত।.
MIT-licensed harness GitHub ত মুকলি কৰা হৈছে প্ৰতিটো কেঁচা ইঞ্জিন উত্তৰৰ সৈতে — স্বাধীন পুনৰুৎপাদন সমৰ্থিত।.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub ত প্ৰতিলিপি (mirrored)।.

এই বেঞ্চমাৰ্ক কিয় আছে আৰু ই কি পৰীক্ষা কৰে

AI-সহায়ত তেজ পৰীক্ষাৰ ফলাফল কেনেকৈ পঢ়িব কনজিউমাৰ আৰু ক্লিনিকেল কাৰ্যপ্ৰবাহত ক্ৰমাৎ বেছি ব্যৱহাৰ কৰা হৈছে, কিন্তু লেবৰেটৰী চিকিৎসাৰ বাবে উপযোগী পুনৰুৎপাদনযোগ্য মূল্যায়ন কাঠামো অতি কম। এই পৰিস্থিতিত আটাইতকৈ গুৰুত্বপূৰ্ণ প্ৰশ্নবোৰ সাধাৰণ চিকিৎসা প্ৰশ্ন-উত্তৰ বেঞ্চমাৰ্কত কোৱা নহয়: mean corpuscular volume একে থাকিলেও এটা ইঞ্জিনে লৌহৰ অভাৱক থেলাছেমিয়া বৈশিষ্ট্যৰ পৰা পৃথক কৰিব পাৰেনে, hepatitis হিচাপে Gilbert's syndrome অতিনিৰ্ণয় (over-diagnose) কৰে নেকি, আৰু সম্পূৰ্ণ স্বাভাৱিক স্ক্ৰীণিং পেনেলত প্যাথলজি “উৎপাদন” কৰে নেকি?

এটা একক তেজ পৰীক্ষাৰ পেনেল সাধাৰণতে কেইবাটাও প্ৰতিদ্বন্দ্বী ব্যাখ্যাৰ বাবে যথেষ্ট সংকেত বহন কৰে, আৰু ব্যাখ্যা কৰা চিকিৎসকজনৰ কাম হ’ল সেই ব্যাখ্যাবোৰক ইটোৰ সৈতে সিটো তুলনা কৰি ওজন দিয়া—পাঠ্যপুথিৰ এটা “ঠিক উত্তৰ” উদ্ধাৰ কৰা নহয়। পাঠ্যপুথিৰ কেছত ভাল কৰা এটা ইঞ্জিনে তথাপিও আটাইতকৈ গুৰুত্বপূৰ্ণ কেছত বিফল হ’ব পাৰে: differential-diagnosis ৰ ফান্দ, কেৱল এককভাৱে দেখিলে ভয়ংকৰ যেন লগা নিৰীহ ভেৰিয়েন্ট, আৰু সম্পূৰ্ণ স্বাভাৱিক পেনেল যিয়ে আত্মবিশ্বাসী সহায়কক pathology “উৎপাদন” কৰিবলৈ প্ৰলোভিত কৰে।.

এই benchmark ঠিক এই ধৰণৰ বিফলতাৰ ধৰণবোৰৰ ওপৰত নিৰ্মাণ কৰা হৈছিল। পঞ্চদশটা কেছক এটা নিৰ্দিষ্ট ডায়াগন’ষ্টিক গুণৰ বাবে বাছনি কৰা হৈছিল: একে mean corpuscular volume থকা beta-thalassaemia trait ৰ পৰা পৃথক কৰি ৰাখিব লাগা iron-deficient microcytosis, এটা Gilbert's syndrome ৰ উপস্থাপন য’ত একমাত্ৰ অস্বাভাৱিকতা হ’ল isolated indirect hyperbilirubinaemia, আৰু এটা পঞ্চদশ-পেৰামিটাৰ screening পেনেল য’ত প্ৰতিটো analyte নিজৰ reference range ৰ ভিতৰতেই থাকে। rubric এ সেই ইঞ্জিনক পুৰস্কৃত কৰে যিয়ে প্ৰতিটো কেছক নিজৰ নিজা চৰ্তত পঢ়ে, আৰু সেই ইঞ্জিনক শাস্তি দিয়ে যিয়ে এনে ডায়াগন’ছিছৰ প্ৰয়োজন নথকা সত্ত্বেও আত্মবিশ্বাসী ডায়াগন’ছিছত উপনীত হয়।.

MD থমাছ ক্লেইন হিচাপে, মই কেছ পেনেল বাছনি কৰিছিলোঁ কাৰণ মই দেখোঁ যে laboratory-medicine সহায়কসকলে আটাইতকৈ বেছি ভুল কৰা পেটাৰ্নবোৰ এয়াই।. ব্যয়বহুল বিফলতাৰ ধৰণটো "এটা বিৰল ৰোগ এৰি যোৱা" নহয়—ইয়াৰ বদলে, যিসকল ৰোগীয়ে সেই ৰোগটো নাথাকে তেওঁলোকৰ ক্ষেত্ৰত routine pathology উদ্ভাৱন কৰা।. আমাৰ চিকিৎসা বৈধকৰণ hub এ বহল কাঠামো বৰ্ণনা কৰে; এই পৃষ্ঠাই V11 ইঞ্জিনত ইয়াৰ প্ৰয়োগ কৰা ফলাফল বৰ্ণনা কৰে।.

শেহতীয়া ৰেফাৰেন্স ৰান — V11 (এপ্ৰিল ২০২৬)

Kantesti AI Engine V11 ৰ April 2026 reference run এ এটা composite score উৎপন্ন কৰিছিল 99.12% pre-registered পঞ্চদশ-কেছ rubric ত। দুয়োটা hyperdiagnosis trap কেছ ceiling ত স্ক’ৰ কৰিছিল। iron-deficiency বনাম thalassaemia differential ত Mentzer index সঠিকভাৱে প্ৰয়োগ কৰা হৈছিল।.

Composite 99.12% 15 of 15 কেছ স্ক’ৰ

0.998 Structural score

0.998 Clinical score

20.17 s Mean latency

0 / 13 Trap false-positives

Composite সূত্ৰটোৱে তিনিটা উপাদান একত্ৰিত কৰে: structural conformance সাতটা বাধ্যতামূলক report section আৰু ষোলটা বাধ্যতামূলক subsection ৰ সৈতে, clinical accuracy যাক মাপা হয় keyword recall + scoring-system recall + probability-distribution validity check ৰে, আৰু response latency ২০-ছেকেণ্ডৰ primary-path service-level target ৰ বিপৰীতে। সঠিক বিভাজন তলৰ rubric formula ত দেখুওৱা হৈছে।.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × বিলম্বতা

হেডৰুমৰ বাকী 0.88 শতাংশ পইণ্ট প্ৰায় সম্পূৰ্ণভাৱে বিলম্বতা হেৰুৱাৰ বাবে ভাঙি যায় — প্ৰতি এটা মুঠতে −0.05 সংযুক্ত (composite) থকা তিনিটা Phase 2 fallback আহ্বানে 0.88-পইণ্ট ঘাটিৰ ভিতৰত প্ৰায় 0.60 অৰিহণা আগবঢ়াইছিল — ক্লিনিকেল বিষয়বস্তুত নহয়। ইঞ্জিনে পঞ্চদশটা কেছৰ এটাতো এটা সঠিক নিৰ্ণয় (diagnosis) মিছ নকৰিলে; য’ত ই অলপ কম পৰিল, তাত সৰু সংখ্যক আহ্বানত ২০-ছেকেণ্ডৰ প্ৰাথমিক-পথ (primary-path) লক্ষ্যতকৈ অলপ বেছি সময় লৈছিল।.

সাতটা চিকিৎসা বিশেষত্বৰ মাজেৰে পোন্ধৰটা কেছ

কেছ পেনেলে সাতটা বিশেষত্ব সামৰি লয় — হেমাট’লজি, এণ্ড’ক্ৰাইন’লজি, মেটাবলিক মেডিচিন, হেপাট’লজি, নেফ্ৰ’লজি, কাৰ্ড’লজি, ৰিউমেট’লজি — লগতে দুটা নিৰ্দিষ্ট hyperdiagnosis trap কেছ। প্ৰতিটো কেছ হৈছে লিখিত অৱগত সম্মতি (written informed consent)ৰ অধীনত Kantesti ক্লিনিকেল ডাটা ৰিপ’জিটৰিৰ পৰা লোৱা এটা বেনামীকৃত (anonymised) বাস্তৱ ৰোগীৰ ৰেকৰ্ড।.

Safe Harbor পদ্ধতি অনুসৰি ডি-আইডেণ্টিফিকেচন কৰা হৈছিল: সকলো প্ৰত্যক্ষ চিনাক্তকাৰী (direct identifiers) আঁতৰোৱা বা সলনি কৰা হৈছিল, আৰু প্ৰতিটো ৰেকৰ্ডক BT-NNN-LABEL বিন্যাসত এটা benchmark-internal কেছ ক’ড দিয়া হৈছিল। প্ৰক্ৰিয়াকৰণ কৰা হৈছিল তলত দিয়া অনুসৰি GDPR ধাৰা 9(2)(j) উপযুক্ত সুৰক্ষা ব্যৱস্থাসহ বৈজ্ঞানিক গৱেষণাৰ বাবে, আৰু সমতুল্য UK GDPR বিধানসমূহ। প্ৰকাশিত harness, কাৰিকৰী প্ৰতিবেদন (technical report), বা মুক্তি দিয়া ডাটাছেটসমূহৰ ক’তো কোনো ব্যক্তিগতভাৱে চিনাক্ত কৰিব পৰা তথ্য (personally identifying information) দেখা নাযায়।.

হেমাট’লজি (3) BT-001, BT-006, BT-007 Iron deficiency anaemia · B12 deficiency · Beta-thalassaemia minor

এণ্ড’ক্ৰাইন’লজি (3) BT-002, BT-008, BT-012 Hashimoto's thyroiditis · ইনচুলিন ৰেজিষ্টেন্স থকা PCOS · গুৰুতৰ ভিটামিন ডিৰ অভাৱ

মেটাবলিক (2) BT-003, BT-013 মেটাবলিক ছিণ্ড্ৰমসহ T2DM · গাউটৰ ঝুঁকি থকা Hyperuricaemia

হেপাট’লজি (2) BT-004, BT-009 NAFLD / NASH · তীব্ৰ ভাইৰেল হেপাটাইটিছ

নেফ্ৰ’লজি · কাৰ্ড’লজি · ৰিউমেট’লজি (3) BT-005, BT-010, BT-011 CKD stage 3 · Atherogenic dyslipidaemia · Systemic lupus erythematosus

Trap কেছ (2) BT-014, BT-015 Gilbert's syndrome (isolated indirect hyperbilirubinaemia) · সম্পূৰ্ণ স্বাভাৱিক প্ৰাপ্তবয়স্ক স্ক্ৰিন

এই বিশেষ বিতৰণ কিয়?

হেমাট’লজি তিনিটা কেছ পায় কাৰণ মাইক্ৰ’চাইটিক ডিফাৰেনচিয়েল আৰু মেক্ৰ’চাইটিক ডিফাৰেনচিয়েল—দুয়োটাই বাস্তৱ-জগতৰ লেব’ৰেটৰী অনুশীলনত সৰ্বাধিক পৰিমাণৰ “ট্ৰেপ”। এণ্ড’ক্ৰাইন’লজি তিনিটা কেছ পায় কাৰণ Hashimoto's, PCOS, আৰু ভিটামিন ডিৰ অভাৱ—এইবোৰৰ উপস্থাপনাই ভিন্ন ভিন্ন ডায়াগন’ষ্টিক আকৃতি সৃষ্টি কৰে (autoantibody-চালিত, hormone-ratio-চালিত, একক-মাৰ্কাৰ-চালিত)। একক-কেছ বিশেষত্বসমূহ এতিয়াও অৰ্থবহ, কাৰণ CKD, ASCVD ৰিস্ক, আৰু SLE—এই তিনিওটাৰ নিজস্ব স্ক’ৰিং ব্যৱস্থা আছে যিটো ইঞ্জিনে আহ্বান কৰিব লাগে (KDIGO staging, ASCVD 10-year risk, আৰু ক্ৰমে 2019 EULAR/ACR SLE criteria)।.

পূৰ্ব-নিবন্ধিত ৰুব্ৰিক, বুজাই দিয়া হৈছে

এই বেঞ্চমাৰ্কত pre-registration হৈছে সৰ্বাধিক গুৰুত্বপূৰ্ণ পদ্ধতিগত সিদ্ধান্ত। প্ৰতিটো সম্ভাৱ্য ডায়াগন’ছিছ, প্ৰতিটো ক্লিনিকেল স্ক’ৰিং ব্যৱস্থা, আৰু প্ৰতিটো ৰিপ’ৰ্ট অংশ—সকলোকে ইঞ্জিন আহ্বান কৰাৰ আগতেই source code-ত কমিট কৰা হৈছিল ইঞ্জিন আহ্বান কৰাৰ আগতে. । সেয়েহে ইঞ্জিনক সন্তুষ্ট কৰিবলৈ rubric-ৰ post-hoc tuning সম্ভৱ নহয়।.

কম্প’জিট স্ক’ৰ গঠন কৰে তিনিটা উপাদানে। সেই structural component এ 35 শতাংশ বৰঙণি দিয়ে আৰু জুখে যে ইঞ্জিনে সাতটা বাধ্যতামূলক ৰিপ’ৰ্ট অংশ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) আৰু সেইবোৰৰ ভিতৰত থকা ষোলটা বাধ্যতামূলক উপ-অংশ সঠিকভাৱে ঘূৰাই দিছিল নে নাই। structural calculation-ত section presence এ 40 শতাংশ ওজন পায় আৰু subsection presence এ 60 শতাংশ ওজন পায়।.

দ্য... clinical component এ 55 শতাংশ বৰঙণি দিয়ে আৰু তিনিটা বস্তু একত্ৰিত কৰে: diagnosis-keyword recall (clinical sub-score-ৰ 70 শতাংশ), scoring-system recall (20 শতাংশ — প্ৰাসংগিক হ’লে ইঞ্জিনে Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR criteria গণনা কৰে নে নাই), আৰু probability-sum validity check (10 শতাংশ — differential সম্ভাৱনাসমূহে [90, 110] অন্তৰালৰ ভিতৰত যোগফল দিব লাগিব)। ট্ৰেপ কেছৰ বাবে, সর্বোচ্চ 0.30 পৰ্যন্ত এটা স্পষ্ট hyperdiagnosis penalty কাটি দিয়া হয়—প্ৰতি fabricated pathology flag-ত 0.10 হিচাপে গণনা কৰি, সৰ্বোচ্চ তিনিটা flag-ত সীমাবদ্ধ।.

দ্য... latency component এ 10 শতাংশ বৰঙণি দিয়ে। 20 ছেকেণ্ডৰ তলত উত্তৰ দিলে পূৰ্ণ 0.10 পোৱা যায়, 40 ছেকেণ্ডৰ তলত উত্তৰ দিলে 0.05 পোৱা যায়, আৰু তাতকৈ ধীৰ যিকোনো উত্তৰে শূন্য পায়। 20-ছেকেণ্ড লক্ষ্য হৈছে production primary-path service-level objective; 40-ছেকেণ্ড ceiling হৈছে heavy-engine invocations-ৰ বাবে Phase 2 fallback budget।.

pre-registration-এ কি বাধা দিয়ে

First-party বেঞ্চমাৰ্কসমূহে post-hoc rubric tuning কৰি নিজৰ সংখ্যাবোৰ স্ফীত কৰাৰ বাবে কুখ্যাত। আৰ্হিটো প্ৰায় সদায় একে: দলটোৱে ইঞ্জিন চলায়, ক’ত কম ফল দিছে দেখে, তাৰ পিছত নিস্তব্ধভাৱে rubric-টো সামঞ্জস্য কৰে যাতে কম ফল দিয়া ক্ষেত্ৰসমূহে কম গণনা পায়। প্ৰথম ইঞ্জিন কলৰ আগতেই rubric-টো source code-ত কমিট কৰি আৰু MIT licence-ত harness প্ৰকাশ কৰি, এই সামঞ্জস্যটো version control-ত দৃশ্যমান হৈ পৰে। যিকোনো ব্যক্তিয়ে repository clone কৰিব পাৰে, rubric author dates পৰীক্ষা কৰিব পাৰে, আৰু ইঞ্জিনৰ ফলাফল স্ক’ৰিং গঢ়িবলৈ ব্যৱহাৰ কৰা হোৱা নাছিল বুলি নিশ্চিত কৰিব পাৰে।.

হাইপাৰডাইগন’ছিছ ফাঁদ কেছ — কিয় অতিমাত্ৰা কল কৰাটো প্ৰকৃত বিফলতাৰ ধৰণ

স্বাভাৱিক স্ক্ৰীণত pathology-ৰ কথা অতিমাত্ৰা জোৰেৰে কোৱা—consumer-facing চিকিৎসা সহায়কসকলৰ বাবে এটা নথিভুক্ত ব্যৰ্থতা ধৰণ। ইয়াৰ downstream খৰচসমূহৰ ভিতৰত আছে অপ্রয়োজনীয় তদন্ত, ৰোগীৰ উদ্বেগ, আৰু iatrogenic workup। এই বেঞ্চমাৰ্কৰ দুটা ট্ৰেপ কেছ এই ব্যৰ্থতা ধৰণটো দৃশ্যমান আৰু স্ক’ৰযোগ্য কৰিবলৈ ডিজাইন কৰা হৈছে।.

🟡 ট্ৰেপ 1 — BT-014-GILBERT

উপস্থাপন।. 2.4 mg/dL মুঠ বিলিৰুবিন থকা 24 বছৰীয়া এজন পুৰুষ। direct অংশ স্বাভাৱিক, transaminases আৰু alkaline phosphatase তেওঁলোকৰ reference range-ৰ ভিতৰত থাকে, reticulocytes অস্বাভাৱিক নহয়, আৰু haptoglobin আৰু LDH-এ haemolysis নাকচ কৰে।.

সঠিক ব্যাখ্যা।. Gilbert's syndrome — এটা benign UGT1A1 polymorphism। ব্যাখ্যাই hepatitis, cirrhosis, haemolytic anaemia, বা biliary obstruction আহ্বান কৰা উচিত নহয়।.

V11 ফলাফল।. Composite 1.000। ছয়টা নিৰীক্ষিত over-diagnosis flag-ৰ কোনোটোৱেই active diagnosis হিচাপে দেখা নগ’ল।.

🟡 ট্ৰেপ 2 — BT-015-HEALTHY

উপস্থাপন।. ৩৫ বছৰীয়া এগৰাকী মহিলা, পঞ্চদশ-পেৰামিটাৰৰ নিয়মীয়া স্ক্ৰিনিং পেনেলসহ। প্ৰতিটো এনালাইটেই নিজৰ নিৰ্দিষ্ট মান-সীমাৰ ভিতৰত স্বচ্ছন্দে আছে।.

সঠিক ব্যাখ্যা।. আশ্বাস আৰু জীৱনশৈলী বজাই ৰখা। ব্যাখ্যাই ক্লিনিকেলভাৱে উপযোগী যেন দেখাবলৈ সীমান্তৱৰ্তী ৰোগ-লক্ষণ “সৃষ্টি” কৰা উচিত নহয়।.

V11 ফলাফল।. Composite 1.000। সাতটা নিৰীক্ষণ কৰা over-diagnosis (অতি-নিৰ্ণয়) ফ্লেগৰ কোনোটোৱেই—ডায়েবেটিছ, ৰক্তহীনতা, থাইৰয়ডৰ কম কাম, ডিছলিপিডেমিয়া, হেপাটাইটিছ, বৃক্কৰ ৰোগ, অভাৱ—সক্ৰিয় ৰোগ হিচাপে দেখা নগ’ল।.

দুয়োটা ট্ৰেপৰ মাজেৰে তেৰটা নিৰীক্ষণ কৰা hyperdiagnosis ফ্লেগ পৰীক্ষা কৰা হৈছিল। এটাও ট্রিগাৰ নহ’ল। যিকোনো চিকিৎসকে AI ইঞ্জিনক triage বা pre-consultation সঁজুলি হিচাপে ব্যৱহাৰ কৰাৰ কথা ভাবিলে—এইটোৱেই আটাইতকৈ বেছি গুৰুত্বপূৰ্ণ ফলাফল: কোনো ৰোগ নাই বুলি থকা ঠাইত সিস্টেমে ৰোগ উদ্ভাৱন নকৰিলে.

মেণ্টজাৰ সূচক: লৌহৰ অভাৱক থেলাছেমিয়া বৈশিষ্ট্যৰ পৰা পৃথক কৰা

দ্বিতীয় এটা উচ্চ-মূল্যৰ আৱিষ্কাৰ হৈছে case BT-001 (iron deficiency anaemia) আৰু case BT-007 (beta-thalassaemia minor) ৰ মাজৰ মিল। দুয়োটাই microcytosis ৰ সৈতে দেখা দিয়ে আৰু naive classifier ৰ বাবে ই এটা সুপৰিচিত বাধা। Mentzer index, যাক MCV ক RBC গণনাৰে ভাগ কৰি গণনা কৰা হয়, iron deficiency ত 13 ৰ ওপৰত থাকে আৰু thalassaemia trait ত 13 ৰ তলত পৰে।.

BT-001 ত, ৰোগী আছিল ৩৪ বছৰীয়া মহিলা, hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, আৰু elevated TIBC আছিল। প্ৰায় 17.7 ৰ Mentzer index এ নিশ্চিতভাৱে absolute iron deficiency সমৰ্থন কৰে। BT-007 ত, ৰোগী আছিল ২৮ বছৰীয়া পুৰুষ, microcytosis (MCV 65.8 fL) আছিল যদিও RBC গণনা 6.2 উচ্চ, RDW স্বাভাৱিক, ferritin স্বাভাৱিক, আৰু HbA2 5.6 percent। প্ৰায় 10.6 ৰ Mentzer index এ thalassaemia trait সূচায়, আৰু elevated HbA2 এ beta-thalassaemia minor নিশ্চিত কৰে।.

Iron deficiency anaemia Mentzer > 13 Low ferritin, low TSAT, high TIBC, elevated RDW

Beta-thalassaemia trait Mentzer < 13 Normal ferritin, normal RDW, elevated HbA2 (>3.5%), high RBC count

দুয়োটা কেছেই 1.000 স্ক’ৰ কৰিছিল। ইঞ্জিনে দুয়োটা ব্যাখ্যাতেই Mentzer index স্পষ্টভাৱে ব্যৱহাৰ কৰিছিল আৰু প্ৰতিটো ক্ষেত্ৰতে সঠিক ৰোগ-নিৰ্ণয় ঘূৰাই দিছিল।. সমগ্ৰ benchmark ত একমাত্ৰ আটাইতকৈ ক্লিনিকেলভাৱে আশ্বাসজনক ফলাফল, কাৰণ thalassaemia trait ক iron deficiency হিচাপে ভুলকৈ ধৰা হলে অনুচিত iron supplementation হয় আৰু পৰিয়াল-স্ক্ৰিনিংৰ সুযোগ এৰি যায়; আৰু iron deficiency ক thalassaemia হিচাপে ভুলকৈ ধৰা হলে সহজ replacement therapy পলম হয়। আমাৰ ফেৰিটিন পৰিসীমা গাইড বৃহত্তৰ differential context বুজাই দিয়ে।.

এপ্ৰিল ২০২৬ ৰানৰ পৰা প্ৰতি-ক্ষেত্ৰৰ ফলাফল

পঞ্চদশটা কেছৰ ভিতৰত বাৰটোৱে primary path ত 1.000 ৰ ceiling composite score লাভ কৰিছিল। তিনিটা কেছ Phase 2 fallback ৰ জৰিয়তে সেৱা দিয়া হৈছিল, যাৰ ফলত 0.05 latency bonus হেৰুৱালেও সকলো ক্লিনিকেল আৰু গঠনগত বিষয়বস্তু অক্ষুণ্ণ থাকিল। এটা কেছত এটা একক বাধ্যতামূলক উপ-অধ্যায় অনুপস্থিত আছিল; এটা কেছে marginally reduced probability distribution sum ঘূৰাই দিছিল।.

Case ID Specialty Composite Latency Path

BT-001-IDAৰক্তবিজ্ঞান1.00017.8 sprimary

BT-006-B12ৰক্তবিজ্ঞান1.00018.4 ছেকেণ্ডprimary

BT-007-থালৰক্তবিজ্ঞান1.00017.0 ছেকেণ্ডprimary

BT-002-হ্যাশএণ্ডক্ৰাইন’লজী0.95037.0 ছেকেণ্ডফলবেক

BT-008-PCOSএণ্ডক্ৰাইন’লজী0.98718.6 ছেকেণ্ডprimary

BT-003-T2DMবিপাকীয়1.00019.1 ছেকেণ্ডprimary

BT-013-গাউটবিপাকীয়1.00019.4 ছেকেণ্ডprimary

BT-004-NAFLDহেপাট’লজি1.00019.6 ছেকেণ্ডprimary

BT-009-VIRHEPহেপাট’লজি0.95023.4 ছেকেণ্ডফলবেক

BT-014-গিলবাৰ্টট্ৰেপ1.00018.9 ছেকেণ্ডprimary

BT-005-CKDনেফ্ৰ’লজী1.00017.4 ছেকেণ্ডprimary

BT-010-ASCVDহৃদৰোগ বিজ্ঞান (Cardiology)1.00019.7 ছেকেণ্ডprimary

BT-011-SLEৰিউমেট’লজি0.98118.2 sprimary

BT-012-VITDএণ্ডক্ৰাইন’লজী1.00019.3 sprimary

BT-015-HEALTHYট্ৰেপ1.00018.7 sফলবেক

PCOS কেছ (BT-008) এ উত্তৰৰ গঠন-ৰূপত এটা বাধ্যতামূলক উপ-ধাৰা হেৰুৱাইছিল — ষোলখনৰ ভিতৰত পোন্ধৰখনৰ পৰিৱৰ্তে ষোলখনৰ ভিতৰত ষোলখন — যাৰ ফলত গঠনগত স্ক’ৰ 1.000 ৰ পৰা 0.963 লৈ কমি গ’ল। SLE কেছ (BT-011) এ এটা সামান্য কমি যোৱা সম্ভাৱনা-বিতৰণৰ যোগফল ঘূৰাই দিলে, যাৰ ফলত ক্লিনিকেল স্ক’ৰ 0.965 লৈ নামি গ’ল, তথাপিও সকলো ডায়াগন’ষ্টিক কী-ৱাৰ্ড আৰু স্ক’ৰিং ব্যৱস্থা অক্ষুণ্ণ থাকিল। কোনো উপ-সম্পূৰ্ণ কেছেই সঠিক ডায়াগন’ছিছ মিছ নকৰিলে।.

শিৰোনামৰ স্ক’ৰে আমাক কোৱা নাই কি

এই বিশেষ pre-registered rubric ৰ অধীনত 99.12 শতাংশৰ এটা যৌগিক স্ক’ৰে near-ceiling পৰিৱেশনক বুজায়, কিন্তু ইয়াক সাৱধানে প্ৰসংগসহ উপস্থাপন কৰাটো উচিত। ফলাফলে ইঞ্জিনটোৰ আচৰণক পঞ্চদশখন সাৱধানে নিৰ্বাচিত বেনামী কেছৰ বিপৰীতে বৰ্ণনা কৰে—প্ৰতিটো কেছ এবাৰকৈ মূল্যায়ন কৰা হৈছিল—আৰু এটা একক rubric ৰ বিপৰীতে। সংখ্যাটোৱে কি প্ৰতিষ্ঠা কৰে আৰু কি নকৰে, সেই বিষয়ে আমি স্পষ্ট।.

স্ক’ৰটোৱে কয় যে V11 ইঞ্জিনে এই মূল্যায়নৰ বাবে নিৰ্বাচিত ডায়াগন’ষ্টিক ধৰণসমূহ সঠিকভাৱে পৰিচালনা কৰিছিল, প্ৰকাশিত আৰু পুনৰুৎপাদনযোগ্য পদ্ধতিৰ ওপৰত ভিত্তি কৰি। ই এয়া নকয় যে বন্য পৰিৱেশত থকা সকলো তেজ পৰীক্ষাৰ পেনেলত ইঞ্জিনটো সঠিক। ই এয়া নকয় যে ইঞ্জিনটোৱে চিকিৎসকসকলৰ বিচাৰ-বুদ্ধিক প্ৰতিস্থাপন কৰা উচিত। আৰু ই এয়া নকয় যে ইঞ্জিনটোৱে বিকল্প AI ব্যৱস্থাসমূহতকৈ ভাল কাম কৰে—এই প্ৰতিবেদনখনৰ বাবে আন ইঞ্জিনসমূহৰ সৈতে তুলনামূলক বিশ্লেষণ ইচ্ছাকৃতভাৱে পৰিসীমাৰ বাহিৰত ৰখা হৈছিল।.

স্ক’ৰটোৱে যিটো প্ৰতিষ্ঠা কৰে সেয়া হৈছে এটা বেছলাইন। rubric আৰু harness ৰাজহুৱা হোৱাৰ বাবে, ইঞ্জিনৰ ভৱিষ্যৎ সংস্কৰণসমূহ একে পঞ্চদশখন কেছৰ বিপৰীতে মূল্যায়ন কৰিব পাৰি, আৰু প্ৰকাশিত স্ক’ৰৰ পৰা যিকোনো পিছৰ ৰানলৈ হোৱা ব্যৱধান নিজেই মাপিব পৰা। pre-registration ৰ মূল্য এয়াই: ই পৰিৱেশন দাবীক পৰীক্ষাযোগ্য দাবীত ৰূপান্তৰ কৰে.

১০ মিনিটত এই বেঞ্চমাৰ্ক কেনেকৈ পুনৰুৎপাদন কৰিব

পুনৰুৎপাদনৰ বাবে কেৱল এটা Kantesti API credential pair আৰু Python 3.10 বা তাতকৈ পাছৰ এটা পৰিৱেশৰ প্ৰয়োজন, য’ত requests আৰু reportlab লাইব্ৰেৰীসমূহ ইনষ্টল কৰা থাকে। সম্পূৰ্ণ harness এটা একক, নিজেই সম্পূৰ্ণ Python module, MIT লাইচেন্সৰ অধীনত মুক্তি দিয়া।.

💻 GitHub MIT-licensed harness · raw responses · reference run 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · canonical academic record 🎓 ৰিচাৰ্চগেট Publication 404175463 · academic discovery layer 📄 Academia.edu Paper 165956808 · academic discovery layer

এটা নতুন ৰানৰ বাবে চাৰিটা পদক্ষেপ

প্ৰথম।. ৰিপ’জিট’ৰীটো clone কৰক: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. দুটা।. তলত দিয়া ধৰণে নিৰ্ভৰশীলতা ইনষ্টল কৰক pip install -r requirements.txt. তিনিটা।. নিৰ্ধাৰণ কৰক KANTESTI_USERNAME আৰু KANTESTI_PASSWORD ক পৰিৱেশ চলক (environment variables) হিচাপে — প্ৰমাণপত্ৰসমূহ runtime ত পঢ়া হয় আৰু স্ক্ৰিপ্টত একো hard-code কৰা নহয়।. চাৰিটা।. চলাওক python benchmark_bloodtest.py আৰু কাৰ্য্যকৰী ডাইৰেক্টৰীত নিৰ্গত হোৱা চাৰিটা artefact পৰীক্ষা কৰক: এটা CSV scorecard, এটা JSON scorecard, কেঁচা ইঞ্জিন উত্তৰসমূহ অন্তৰ্ভুক্ত কৰা এটা সম্পূৰ্ণ JSON dump, আৰু এটা মানুহে পঢ়িব পৰা Markdown প্রতিবেদন।.

২৩ এপ্ৰিল ২০২৬ ৰ পৰা reference run টো সংৰক্ষিত আছে results/ ৰিপ’জিটৰিৰ ডাইৰেক্টৰিত। এটা নতুন run এ নতুন timestamped scorecard উৎপন্ন কৰিব, কিন্তু reference run টোক অক্ষত ৰাখিব। যদি আপোনাৰ run এ তাৎপৰ্য্যপূর্ণভাৱে বেলেগ ফলাফল উৎপন্ন কৰে, অনুগ্ৰহ কৰি GitHub issue এটা খোলক—run timestamp আৰু response metadata ত ঘূৰি অহা engine version সহ।.

সীমাবদ্ধতা আৰু ভৱিষ্যৎ কাম

চাৰিটা সীমাবদ্ধতাক স্পষ্টভাৱে স্বীকাৰ কৰা উচিত: নমুনা আকাৰ, single-shot মূল্যায়ন, single-engine scope, আৰু single-source data origin। এইবোৰক সক্ৰিয়ভাৱে follow-up কামত সমাধান কৰা হৈছে।.

নমুনা আকাৰ।. আঠটা বিশেষত্ব (specialty) বাল্টিত পঁচোদশটা কেছ এটা proof of concept ৰ বাবে যথেষ্ট, কিন্তু কোনো বিশেষত্বৰ ভিতৰত subgroup বিশ্লেষণৰ বাবে নহয়। পঞ্চাশটা কেছলৈ সম্প্ৰসাৰণৰ পৰিকল্পনা আছে আৰু ইয়াত coagulation panels, haematological malignancy screening, pregnancy panels, আৰু শিশুৰ (paediatric) উপস্থাপনসমূহ অন্তৰ্ভুক্ত থাকিব।.

Single-shot মূল্যায়ন।. প্ৰতিটো কেছ এবাৰ মূল্যায়ন কৰা হৈছিল। কম sampling temperature তো large language models এ non-trivial output variance দেখুৱায়, সেয়ে প্ৰতিটো কেছৰ বাবে পাঁচটা মূল্যায়নসহ multi-run protocol আৰু প্ৰতিবেদন কৰা variance টো স্বাভাৱিক পৰৱৰ্তী পদক্ষেপ।.

Single-engine scope।. এই প্রতিবেদনখনে এটা ইঞ্জিনকেই বৰ্ণনা কৰে। বিকল্প AI ব্যৱস্থাসমূহৰ সৈতে তুলনামূলক বিশ্লেষণ ইয়াত scope ৰ বাহিৰত; উপযুক্ত methodology সহ আমি তাক পৃথক স্বাধীন অধ্যয়ন হিচাপে অনুসৰণ কৰিব পাৰোঁ।.

Single-source data origin।. পঁচোদশটা কেছ একেটা একক clinical repository ৰ পৰা লোৱা বাস্তৱ ৰোগীৰ (real patient) ৰেকৰ্ড—সেইবোৰ anonymised। ইহঁতে এটা curated sample প্ৰতিনিধিত্ব কৰে আৰু জনসংখ্যা-প্ৰতিনিধিত্বমূলক এলোমেলো (random) নমুনা নহয়। মূল্যায়নক multi-centre ডেটালৈ সম্প্ৰসাৰণ কৰাৰ পৰিকল্পনা roadmap ত আছে।.

আটাইতকৈ প্ৰভাৱশালী পৰিকল্পিত সম্প্ৰসাৰণ হৈছে multi-language parity। Kantesti AI Engine এ 75+ ভাষাত ব্যৱহাৰকাৰীক সেৱা আগবঢ়ায়, আৰু তুৰ্কী, জাৰ্মান, স্পেনিছ, ফ্ৰেঞ্চ, আৰু আৰবী—এই ভাষাসমূহত একে পঁচোদশ-কেছ harness চলালে ইঞ্জিনে সমৰ্থন কৰা ভাষাসমূহৰ মাজত output quality কিমান—সেয়া পৰিমাপ কৰা হ’ব। আমি প্ৰতিটো ভাষা-নিৰ্দিষ্ট run নিজা DOI আৰু harness branch সহ প্ৰকাশ কৰিম।.

সেই একে ইঞ্জিনটো চেষ্টা কৰক যিয়ে 99.12% কম্প’জিট স্ক’ৰ লাভ কৰিছিল

এই বেঞ্চমাৰ্কত মূল্যায়ন কৰা একে প্ৰডাকচন এণ্ডপইণ্টলৈ আপোনাৰ নিজৰ তেজ পৰীক্ষাৰ পেনেল আপলোড কৰক। বিশ্বজুৰি ২ মিলিয়নৰো অধিক ব্যৱহাৰকাৰীয়ে Kantesti AI Engine ব্যৱহাৰ কৰি 75+ ভাষাৰ মাজেৰে ১৫,০০০ৰো অধিক বায়’মাৰ্কাৰ ব্যাখ্যা কৰে।.

🔬 বিনামূলীয়া ডেমো চেষ্টা কৰক

ক্ৰ'ম এক্সটেনচন এপ ষ্ট'ৰ গুগল প্লে

📚 এই বেঞ্চমাৰ্ক কেনেকৈ উদ্ধৃতি দিব

BibTeX

@techreport{klein2026kantesti,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {Kantesti AI Engine (2.78T) ৰ ক্লিনিকেল ভেলিডেচন (১৫টা বেনামী তেজ পৰীক্ষাৰ কেছৰ ওপৰত): সাতটা চিকিৎসা বিশেষত্বৰ মাজেৰে হাইপাৰডায়েগন’ছিছ ট্ৰেপ অন্তৰ্ভুক্ত কৰা এটা প্ৰি-ৰেজিষ্টাৰ্ড ৰুব্ৰিক-ভিত্তিক বেঞ্চমাৰ্ক},  
  institution = {Kantesti Ltd},  
  address     = {লণ্ডন, যুক্তৰাজ্য},  
  year        = {2026},  
  month       = {এপ্ৰিল},  
  type        = {টেকনিকেল ৰিপ’ৰ্ট},  
  number      = {V11},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026)।. 15টা বেনামী তেজ পৰীক্ষাৰ কেছত Kantesti AI ইঞ্জিন (2.78T) ৰ ক্লিনিকেল ভেলিডেচন: সাতটা চিকিৎসা বিশেষত্বৰ মাজেৰে হাইপাৰডায়েগন’ছিছ ট্ৰেপ কেছ অন্তৰ্ভুক্ত কৰা এটা প্ৰি-ৰেজিষ্টাৰ্ড ৰুব্ৰিক-ভিত্তিক বেঞ্চমাৰ্ক (টেকনিকেল ৰিপ’ৰ্ট V11)। Kantesti Ltd।. https://doi.org/10.6084/m9.figshare.32095435

📖 সম্পৰ্কীয় Kantesti ভেলিডেচন কাম

ক্লেইন, টি (2025). এআই-চালিত তেজৰ পৰীক্ষাৰ ব্যাখ্যাৰ বাবে ক্লিনিকেল বৈধকৰণ কাঠামো: ট্ৰিপল-ব্লাইণ্ড বৈধকৰণ পদ্ধতি, পৰিৱেশন মেট্ৰিক্স, আৰু গুণগত নিশ্চয়তা প্ৰট'কল. Kantesti AI Medical Research.

🎓 ৰিচাৰ্চগেট

📖 বাহ্যিক পদ্ধতিগত উদ্ধৃতি

Mentzer, W. C. (1973)।. থেলাছেমিয়া ট্ৰেইটৰ পৰা লৌহৰ অভাৱ পৃথকীকৰণ. The Lancet, 301(7808), 882।.

🏥 পাবমেড

Aringer, M., Costenbader, K., Daikh, D., et al. (2019)।. 2019 European League Against Rheumatism / American College of Rheumatology Systemic Lupus Erythematosus ৰ বাবে শ্ৰেণীবিভাজন মানদণ্ড. Arthritis & Rheumatology, 71(9), 1400–1412।.

🔗 DOI 🏥 পাবমেড

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023)।. Med-HALT: বৃহৎ ভাষা মডেলৰ বাবে মেডিকেল ড’মেইন হেলুচিনেচন টেষ্ট. Proceedings of CoNLL 2023।.

🔗 ACL Anthology

99.12%কম্প’জিট স্ক’ৰ

15স্ক’ৰ কৰা কেছসমূহ

7বিশেষত্বসমূহ

0ট্ৰেপ ফলছ-পজিটিভ

সঘনাই সোধা প্ৰশ্ন

বাস্তৱিক তেজ পৰীক্ষাৰ কেছত Kantesti AI ইঞ্জিন কিমান সঠিক?

সাতটা চিকিৎসা বিশেষত্বৰ মাজেৰে ১৫টা বেনামী বাস্তৱ-ৰোগীৰ তেজ পৰীক্ষাৰ কেছৰ এটা প্ৰি-ৰেজিষ্টাৰ্ড ৰুব্ৰিকৰ ওপৰত, Kantesti AI Engine V11 এ 99.12 শতাংশৰ এটা কম্প’জিট স্ক’ৰ লাভ কৰিছিল; ট্ৰেপ কেছ দুয়োটাতেই শূন্য হাইপাৰডায়েগন’ছিছ ফলছ-পজিটিভ আছিল আৰু গড় উত্তৰৰ বিলম্ব (response latency) আছিল 20.17 ছেকেণ্ড। সম্পূৰ্ণ প্ৰতি-কেছ স্ক’ৰকাৰ্ড Figshare ত DOI 10.6084/m9.figshare.32095435 ৰ অধীনত আৰু GitHub ত MIT লাইচেন্সৰ অধীনত প্ৰকাশ কৰা হৈছে।.

Kantesti AI ইঞ্জিনটো চিকিৎসাগতভাৱে পৰীক্ষিত (ক্লিনিকেলি ভেলিডেটেড) নেকি?

হয়। ইঞ্জিনটোক ক্লিনিকেলভাৱে বৈধতা দিয়া হৈছে এটা ৰুব্ৰিকৰ বিৰুদ্ধে, যিটো ইঞ্জিনটো আহ্বান কৰাৰ আগতেই উৎস ক’ডত স্থিৰ (freeze) কৰা হৈছিল; হেমাট’লজি, এণ্ড’ক্ৰাইন’লজি, মেটাবলিক মেডিচিন, হেপাট’লজি, নেফ্ৰ’লজি, কাৰ্ডিঅ’লজি, আৰু ৰিউমেট’লজি—এই সাতটা চিকিৎসা শাখাৰ ভিতৰত ১৫টা বেনামী তেজ পৰীক্ষাৰ কেছত মূল্যায়ন কৰা হৈছিল। ক্লিনিকেল তত্ত্বাৱধান দিছিল ড° থমাছ ক্লেইন, এম.ডি. (ORCID 0009-0009-1490-1321), যিজন board-certified ক্লিনিকেল হেমাট’লজিষ্ট আৰু Kantesti AI-ৰ Chief Medical Officer।.

হাইপাৰডায়াগন’ছিছ ট্ৰেপ কেছ কি?

এটা হাইপাৰডায়েগন’ছিছ ট্ৰেপ কেছ হৈছে বিশেষভাৱে ডিজাইন কৰা এটা ক্লিনিকেল পৰিস্থিতি, যিয়ে AI ইঞ্জিনসমূহৰ অতিমাত্ৰা নিৰ্ণয় (over-diagnosis) আচৰণ ধৰা পেলাবলৈ লক্ষ্য কৰে। Kantesti V11 বেঞ্চমাৰ্কত এনে দুটা কেছ ব্যৱহাৰ কৰা হৈছে। প্ৰথমটো হৈছে Gilbert’s syndrome-ৰ সৈতে সামঞ্জস্যপূৰ্ণ এটা পৃথক (isolated) পৰোক্ষ হাইপাৰবিলিৰুবিনেমিয়া—য’ত সঠিক ব্যাখ্যা হৈছে hepatitis বা haemolysis নহয়, বৰং benign UGT1A1 polymorphism। দ্বিতীয়টো হৈছে সম্পূৰ্ণ স্বাভাৱিক প্ৰাপ্তবয়স্ক স্ক্ৰিনিং পেনেল—য’ত সঠিক আউটপুট হৈছে আশ্বাস (reassurance) আৰু জীৱনশৈলী বজাই ৰখা (lifestyle maintenance), কোনো কৃত্ৰিমভাৱে নিৰ্মিত সীমান্তীয় (borderline) ৰোগ-সম্পৰ্কীয় প্যাথ’লজি নহয়।.

Kantesti AI ইঞ্জিনৰ মূল্যায়ন পুনৰাবৃত্তিযোগ্য নেকি?

সম্পূৰ্ণ মূল্যায়ন হাৰ্নেছ MIT লাইচেন্সৰ অধীনত এটা একক, self-contained Python মডিউল হিচাপে মুকলি কৰা হৈছে। পুনৰুৎপাদন (reproduction) কৰিবলৈ কেৱল এটা Kantesti API credential pair আৰু Python 3.10 বা তাতকৈ পাছৰ সংস্কৰণ লাগে। ক’ড, কেছ সংজ্ঞাসমূহ, আৰু এপ্ৰিল ২০২৬ reference run-ৰ পৰা প্ৰতিটো কেঁচা (raw) ইঞ্জিন উত্তৰ github.com/emirhanai/kantesti-blood-test-benchmark ত উপলব্ধ, আৰু Figshare, ResearchGate, আৰু Academia.edu-ত mirror কৰা হৈছে।.

Kantesti AI ইঞ্জিনে কেনেকৈ লৌহৰ অভাৱক beta-thalassaemia trait ৰ পৰা পৃথক কৰে?

ইঞ্জিনটোৱে Mentzer index প্ৰয়োগ কৰে, যিটো গণনা কৰা হয় mean corpuscular volume-ক red blood cell count-ৰে ভাগ কৰি। Mentzer index ১৩-তকৈ ওপৰত থাকিলে iron deficiency anaemia-ৰ পক্ষে সহায় কৰে, আনহাতে ১৩-তকৈ তলৰ মানে beta-thalassaemia trait-ৰ পক্ষে সহায় কৰে। V11 বেঞ্চমাৰ্কত দুয়োটা উপস্থাপন (presentation) সঠিকভাৱে শ্ৰেণীবদ্ধ কৰা হৈছিল স্পষ্ট Mentzer index গণনাৰে, আৰু ferritin, RDW, আৰু HbA2-ৰ প্ৰসংগ (context) দ্বাৰা সমৰ্থিত।.

মই ক’ত কেঁচা বেঞ্চমাৰ্ক ডাটা আৰু উৎস ক’ড পাম?

টেকনিকেল ৰিপ’ৰ্ট Figshare-ত DOI 10.6084/m9.figshare.32095435 হিচাপে জমা দিয়া হৈছে; ResearchGate publication 404175463 আৰু Academia.edu paper 165956808-ত mirror কৰা হৈছে; আৰু MIT-লাইচেন্সযুক্ত Python harness, সকলো reference run ফলাফলসহ, github.com/emirhanai/kantesti-blood-test-benchmark ত আছে। চাৰিখন প্লেটফৰ্মৰ mirror নেটৱৰ্কে দীৰ্ঘম্যাদী উপলব্ধতা আৰু citation-ৰ নমনীয়তা নিশ্চিত কৰে।.

AI চিকিৎসা বেঞ্চমাৰ্কৰ বাবে pre-registration কিয় গুৰুত্বপূৰ্ণ?

Pre-registration এ post-hoc rubric tuning ৰোধ কৰে—যিটো কোম্পানী-চালিত বেঞ্চমাৰ্কে নিজৰ সংখ্যা স্ফীত (inflate) কৰাৰ আটাইতকৈ সাধাৰণ একমাত্ৰ উপায়। কোনো ইঞ্জিন কল কৰাৰ আগতেই উৎস ক’ডত ৰুব্ৰিকটো commit কৰি আৰু harness-টো ৰাজহুৱা কৰি দিলে, ৰুব্ৰিক লেখকৰ তাৰিখসমূহ version control-ত পৰীক্ষাযোগ্য (inspectable) হৈ পৰে, আৰু ইঞ্জিনৰ ফলাফলে স্ক’ৰিং মানদণ্ড (scoring criteria) গঢ়ি তুলিব নোৱাৰা হয়।.

এই বেঞ্চমাৰ্কত আন আন AI ইঞ্জিনৰ সৈতে তুলনা অন্তৰ্ভুক্ত আছে নেকি?

নাই। V11 ৰিপ’ৰ্টে ইচ্ছাকৃতভাৱে এটা স্থিৰ (fixed) ৰুব্ৰিকৰ বিৰুদ্ধে এটা একক ইঞ্জিনকেই বৰ্ণনা কৰে, বিকল্প বাণিজ্যিক ব্যৱস্থাৰ সৈতে স্থাপন (position) নকৰে। harness MIT লাইচেন্সৰ অধীনত open source, সেয়ে স্বাধীন গৱেষকসকলে তেওঁলোকে বাছি লোৱা যিকোনো ইঞ্জিনক একে পঞ্চদশটা কেছ আৰু ৰুব্ৰিকৰ বিৰুদ্ধে মূল্যায়ন কৰি নিজৰ ফলাফল প্ৰকাশ কৰিব পাৰে।.

ৰোগীৰ কেছসমূহ বাস্তৱ নে কৃত্ৰিম (synthetic)?

পঞ্চদশটা কেছেই বেনামীকৰণ কৰা বাস্তৱ ৰোগীৰ ৰেকৰ্ড—লিখিত informed consent-ৰ অধীনত Kantesti ক্লিনিকেল ডাটা ৰিপ’জিটৰিৰ পৰা সংগ্ৰহ কৰা। Safe Harbor পদ্ধতি অনুসৰি de-identification কৰা হৈছিল, আৰু সকলো direct identifier আঁতৰোৱা বা সলনি কৰা হৈছিল। GDPR Article 9(2)(j) আৰু সমতুল্য UK GDPR বিধান অনুসৰি প্ৰচেছিং কৰা হৈছিল। প্ৰকাশিত harness, টেকনিকেল ৰিপ’ৰ্ট, বা মুকলি কৰা ডাটাছেটসমূহত কোনো ব্যক্তিগত চিনাক্তকৰণ তথ্য (personally identifying information) দেখা নাযায়।.

⚕️ চিকিৎসা সতৰ্কীকৰণ (Medical Disclaimer) & স্বার্থৰ সংঘাত (Conflict of Interest)

এই বেঞ্চমাৰ্ক ৰিপ’ৰ্ট কেৱল গৱেষণা আৰু পদ্ধতিগত স্বচ্ছতা (methodological transparency) উদ্দেশ্যৰ বাবে। ই চিকিৎসা পৰামৰ্শ (medical advice) নহয়। নিৰ্ণয় (diagnosis) আৰু চিকিৎসা সিদ্ধান্তৰ বাবে সদায় যোগ্য স্বাস্থ্যসেৱা প্ৰদানকাৰীৰ সৈতে পৰামৰ্শ কৰক। দুয়োখন লেখক Kantesti Ltd-ত নিযুক্ত আৰু তাত equity ধাৰণ কৰে, আৰু মূল্যায়নাধীন ইঞ্জিনটো একে সংস্থাটোৰ এটা বাণিজ্যিক (commercial) পণ্য। এই স্বার্থৰ সংঘাত pre-registering কৰি উৎস ক’ডত ৰুব্ৰিক স্থাপন, MIT লাইচেন্সৰ অধীনত harness মুকলি কৰা, আৰু প্ৰতিটো কেঁচা (raw) ইঞ্জিন উত্তৰ প্ৰকাশ কৰাৰ দ্বাৰা কমোৱা হৈছে।.

E-E-A-T বিশ্বাস সংকেত

⭐

অভিজ্ঞতা

কেছ পেনেল নিৰ্বাচন তত্ত্বাৱধান কৰা ১৫+ বছৰীয়া ক্লিনিকেল হেমাট’লজি আৰু লেব’ৰেটৰী মেডিচিনৰ অভিজ্ঞতা।.

📋

বিশেষজ্ঞতা

স্পষ্ট হাইপাৰডায়েগন’ছিছ শাস্তি (penalties) আৰু স্বীকৃত ক্লিনিকেল স্ক’ৰিং ব্যৱস্থা (Mentzer, FIB-4, EULAR/ACR, KDIGO) সহ pre-registered ৰুব্ৰিক ডিজাইন।.

👤

কৰ্তৃত্বশীলতা

মূল লেখক ড° থমাছ ক্লেইন, এম.ডি. (ORCID 0009-0009-1490-1321)। বাস্তৱায়ন (Implementation) জুলিয়ান এমিৰহান বুলুট, Kantesti Ltd-ৰ CEO।.

🛡️

বিশ্বাসযোগ্যতা

MIT-লাইচেন্সযুক্ত পুনৰুৎপাদনযোগ্য (reproducible) harness, কেঁচা ইঞ্জিন উত্তৰ প্ৰকাশিত, open conflict-of-interest disclosure, চাৰিখন প্লেটফৰ্মৰ গৱেষণা mirror নেটৱৰ্ক।.

🏢 কান্টেষ্টি লিমিটেড ইংলেণ্ড আৰু ৱেলছত পঞ্জীয়নভুক্ত · কোম্পানী নং।. 17090423 লণ্ডন, যুক্তৰাজ্য · kantesti.net