Kantesti AI তেজ পৰীক্ষা বেঞ্চমাৰ্ক — ক্লিনিকেল ভেলিডেচন

স্বয়ংক্ৰিয় বেঞ্চমাৰ্ক পূৰ্ব-নিবন্ধিত বেঞ্চমাৰ্ক V11 দ্বিতীয় আপডেট — এপ্ৰিল ২০২৬ MIT-লাইচেন্সপ্ৰাপ্ত পুনৰুৎপাদনযোগ্য · উন্মুক্ত তথ্য 100K সিন্থেটিক ক’হ’ৰ্ট · 127 দেশৰ লেবেল

99.80% প্ৰি-ৰেজিষ্টাৰ্ড ৰুব্ৰিকত কম্প’জিট স্ক’ৰ — V11 দ্বিতীয় আপডেট, 127 দেশৰ লেবেল জুৰি 100,000-কেছ ক’হ’ৰ্ট

Kantesti ইঞ্জিনৰ ওপৰত 100,000টা কৃত্রিমভাৱে সৃষ্টি কৰা ৰক্ত পৰীক্ষা কেছৰ সৈতে 127টা দেশৰ লেবেল টেগ কৰি কৰা এটা পূৰ্ব-নিবন্ধিত, ৰুব্ৰিক-ভিত্তিক স্বয়ংক্ৰিয় প্রযুক্তিগত বেঞ্চমাৰ্ক। ই ডায়াগনস্টিক যথার্থতা নহয়, আউটপুটৰ অনুগমন (conformance) জুখে। V11 প্ৰথম ৰিলিজৰ আগতেই উৎস ক’ডত ৰুব্ৰিকটো স্থিৰ (freeze) কৰা হৈছিল আৰু এই দ্বিতীয় আপডেটত বাইট-একেই (byte-identical) ৰখা হৈছিল; মূল্যায়ন হাৰ্নেছ MIT-লাইচেন্সড; পৰিদৰ্শনৰ বাবে কেঁচা ইঞ্জিন উত্তৰৰ এটা স্তৰীকৃত এলোমেলি নমুনা প্ৰকাশ কৰা হৈছে। সকলো কেছ কৃত্রিম; কোনো ব্যক্তিগত তথ্য ব্যৱহাৰ কৰা হোৱা নাই।.

📖 ~১৪ মিনিট 📅 ২৩ এপ্ৰিল, ২০২৬ তাৰিখে প্ৰকাশিত · ২৬ এপ্ৰিল, ২০২৬ তাৰিখে আপডেট (V11 দ্বিতীয় আপডেট) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 প্ৰকাশিত: এপ্ৰিল 23, 2026 🔄 V11 দ্বিতীয় আপডেট: ২৬ এপ্ৰিল, ২০২৬ 🩺 চিকিৎসাগতভাৱে পৰ্যালোচিত: ২৬ এপ্ৰিল, ২০২৬ ✅ প্ৰি-ৰেজিষ্টাৰ্ড ৰুব্ৰিক (Byte-Identical) 🔓 খোলা ক’ড & তথ্য

এই স্বয়ংক্ৰিয় বেঞ্চমাৰ্কখন ডিজাইন আৰু পৰিচালনা কৰা হৈছিল জুলিয়ান এমিৰহান বুলুট, Kantesti Ltdৰ জ্যেষ্ঠ AI ইঞ্জিনীয়াৰ আৰু CEO। স্ক’ৰিং সম্পূৰ্ণৰূপে উৎস ক’ডত স্বয়ংক্ৰিয়; স্ক’ৰিং ৰুব্ৰিক আৰু কেছ পেনেল ক্লিনিকেল ইনপুটৰ সৈতে বিকশিত কৰা হৈছিল ডাঃ থমাছ ক্লেইন, এম.ডি, Kantesti AIৰ চিফ মেডিকেল অফিচাৰ, আৰু পৰ্যালোচনা কৰিছিল কান্টেষ্টি এ আই মেডিকেল এডভাইজাৰী ব’ৰ্ড. ই এটা স্ব-চালিত অভ্যন্তৰীণ বেঞ্চমাৰ্ক, স্বাধীন বা peer-reviewed স্বয়ংক্ৰিয় কাৰিগৰী বেঞ্চমাৰ্ক নহয়।.

মুখ্য লেখক & চিকিৎসাজনিত তত্ত্বাৱধান

থমাছ ক্লেইন, এম.ডি

মুখ্য চিকিৎসা বিষয়া, কান্টেষ্টি এ আই

ড° থমাছ ক্লেইন এজন ব’ৰ্ড-চাৰ্টিফাইড ক্লিনিকেল হেমাট’ল’জিষ্ট আৰু ইণ্টাৰনিষ্ট, লেব’ৰেট’ৰি মেডিচিনত ১৫ বছৰতকৈ অধিক অভিজ্ঞতা আছে। Kantesti AI-ৰ চিফ মেডিকেল অফিচাৰ হিচাপে, তেওঁ এই বেঞ্চমাৰ্কৰ বাবে কেছ পেনেল নিৰ্বাচন কৰে, সিন্থেটিক কেছসমূহৰ ক্লিনিকেল বিষয়বস্তু আৰু আশা কৰা উত্তৰসমূহ পৰ্যালোচনা কৰে, আৰু প্ৰথম ইঞ্জিন আহ্বানৰ আগতেই প্ৰি-ৰেজিষ্টাৰ্ড ৰুব্ৰিক অনুমোদন কৰে।.

ORCID 0009-0009-1490-1321 ৰিচাৰ্চগেট গুগল স্কোলাৰ

সহ-লেখক & ৰূপায়ণ

জুলিয়ান এমিৰহান বুলুট

জ্যেষ্ঠ AI অভিযন্তা & CEO, Kantesti Ltd

জুলিয়ান এমিৰহান বুলুট Kantesti Ltd-ৰ প্ৰতিষ্ঠাতা আৰু CEO। তেওঁ মূল্যায়ন হাৰ্নেছ ডিজাইন আৰু বাস্তৱায়ন কৰিছিল—V11 দ্বিতীয় আপডেটৰ বাবে যোগ দিয়া SQL কেছ ল’ডাৰসহ—API ইন্টিগ্ৰেচন সম্পন্ন কৰিছিল, V11 প্ৰথম প্ৰাথমিক ৰেফাৰেন্স ৰান আৰু V11 দ্বিতীয় আপডেটৰ 100,000-কেছ ৰান দুয়োটাই পৰিচালনা কৰিছিল, আৰু পৰিসংখ্যাগত সমষ্টিকৰণ প্ৰস্তুত কৰিছিল। ২০১৯ চনৰ পৰা প্লেটফৰ্মৰ প্ৰতিষ্ঠাতা।.

GitHub কান্টেষ্টিৰ বিষয়ে

⚡ Qısa Xülasə V11 দ্বিতীয় আপডেট — ২৬ এপ্ৰিল, ২০২৬

99.80% কম্প’জিট স্ক’ৰ আঠটা চিকিৎসা বিশেষত্বৰ ভিতৰত 100,000টা কৃত্রিম ৰক্ত পৰীক্ষা কেছ আৰু 127টা দেশৰ লেবেল (V11 দ্বিতীয় আপডেট)।.
শূন্য অতিমাত্ৰা নিৰ্ণয়ৰ (hyperdiagnosis) ভুল-পজিটিভ 87,412টা নিৰীক্ষিত “trap-case” ফ্লেগ সুযোগৰ ওপৰত — V11 প্ৰথমৰ একে trap-case পদ্ধতি, জনসংখ্যা স্তৰলৈ স্কেল কৰা।.
পূৰ্ব-নিবন্ধিত ৰুব্ৰিক V11 প্ৰথম ৰানৰ আগতেই উৎস ক’ডত স্থিৰ (freeze) কৰা হৈছিল আৰু ৰখা হৈছিল byte-identical এই দ্বিতীয় আপডেটৰ বাবে — post-hoc টিউনিং সম্ভৱ নাছিল।.
মেণ্টজাৰ সূচক সঠিকভাৱে প্ৰয়োগ কৰা V11 প্ৰথম মুকলিত iron deficiency anaemia (আয়ৰণৰ অভাৱজনিত ৰক্তহীনতা) ৰ পৰা beta-thalassaemia minor (বিটা-থেলাছেমিয়া মাইন’ৰ) পৃথক কৰিবলৈ; জনসংখ্যা স্তৰত সেই পৃথকীকৰণৰ আচৰণ সংৰক্ষিত আছিল।.
কেৱল উৎপাদন (production) এণ্ডপইণ্ট — কোনো বিশেষ সুবিধাজনক ৰাউটিং নাই; দৰমহা দিয়া গ্ৰাহকে যিদৰে এক্সেছ কৰিব, ঠিক সেইদৰে মূল্যায়ন কৰা হৈছে।.
13.26 ছেকেণ্ড গড় latency end-to-end (পৰিসৰ 9.0–16.94 s), আৰু সকলো 100,000টা কেছ ইঞ্জিনৰ প্ৰাথমিক পথত সম্পূৰ্ণ হৈছিল।.
সিন্থেটিক ক’হ’ৰ্ট।. ৰান-টাইমত ল’ড কৰা 100,000টা সিন্থেটিকভাৱে সৃষ্টি কৰা টেষ্ট কেছ। কোনো সিন্থেটিক ডাটা আৰু কোনো ব্যক্তিগত ডাটা ব্যৱহাৰ কৰা নহয়।.
MIT-licensed harness পৰীক্ষাৰ বাবে GitHub-ত এটা স্তৰীকৃত এলোমেলি নমুনা (n = 201) সহ সম্পূৰ্ণ কেঁচা ইঞ্জিন উত্তৰ প্ৰকাশ কৰা হৈছে।.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub ত প্ৰতিলিপি (mirrored)।.

এই বেঞ্চমাৰ্ক কিয় আছে আৰু ই কি পৰীক্ষা কৰে

AI-সহায়ত তেজ পৰীক্ষাৰ ফলাফল কেনেকৈ পঢ়িব কনজিউমাৰ আৰু ক্লিনিকেল কাৰ্যপ্ৰবাহত ক্ৰমাৎ বেছি ব্যৱহাৰ কৰা হৈছে, কিন্তু লেবৰেটৰী চিকিৎসাৰ বাবে উপযোগী পুনৰুৎপাদনযোগ্য মূল্যায়ন কাঠামো অতি কম। এই পৰিস্থিতিত আটাইতকৈ গুৰুত্বপূৰ্ণ প্ৰশ্নবোৰ সাধাৰণ চিকিৎসা প্ৰশ্ন-উত্তৰ বেঞ্চমাৰ্কত কোৱা নহয়: mean corpuscular volume একে থাকিলেও এটা ইঞ্জিনে লৌহৰ অভাৱক থেলাছেমিয়া বৈশিষ্ট্যৰ পৰা পৃথক কৰিব পাৰেনে, hepatitis হিচাপে Gilbert's syndrome অতিনিৰ্ণয় (over-diagnose) কৰে নেকি, আৰু সম্পূৰ্ণ স্বাভাৱিক স্ক্ৰীণিং পেনেলত প্যাথলজি “উৎপাদন” কৰে নেকি?

এটা একক তেজ পৰীক্ষাৰ পেনেল সাধাৰণতে কেইবাটাও প্ৰতিদ্বন্দ্বী ব্যাখ্যাৰ বাবে যথেষ্ট সংকেত বহন কৰে, আৰু ব্যাখ্যা কৰা চিকিৎসকজনৰ কাম হ’ল সেই ব্যাখ্যাবোৰক ইটোৰ সৈতে সিটো তুলনা কৰি ওজন দিয়া—পাঠ্যপুথিৰ এটা “ঠিক উত্তৰ” উদ্ধাৰ কৰা নহয়। পাঠ্যপুথিৰ কেছত ভাল কৰা এটা ইঞ্জিনে তথাপিও আটাইতকৈ গুৰুত্বপূৰ্ণ কেছত বিফল হ’ব পাৰে: differential-diagnosis ৰ ফান্দ, কেৱল এককভাৱে দেখিলে ভয়ংকৰ যেন লগা নিৰীহ ভেৰিয়েন্ট, আৰু সম্পূৰ্ণ স্বাভাৱিক পেনেল যিয়ে আত্মবিশ্বাসী সহায়কক pathology “উৎপাদন” কৰিবলৈ প্ৰলোভিত কৰে।.

এই benchmark ঠিক এই ধৰণৰ বিফলতাৰ ধৰণবোৰৰ ওপৰত নিৰ্মাণ কৰা হৈছিল। পঞ্চদশটা কেছক এটা নিৰ্দিষ্ট ডায়াগন’ষ্টিক গুণৰ বাবে বাছনি কৰা হৈছিল: একে mean corpuscular volume থকা beta-thalassaemia trait ৰ পৰা পৃথক কৰি ৰাখিব লাগা iron-deficient microcytosis, এটা Gilbert's syndrome ৰ উপস্থাপন য’ত একমাত্ৰ অস্বাভাৱিকতা হ’ল isolated indirect hyperbilirubinaemia, আৰু এটা পঞ্চদশ-পেৰামিটাৰ screening পেনেল য’ত প্ৰতিটো analyte নিজৰ reference range ৰ ভিতৰতেই থাকে। rubric এ সেই ইঞ্জিনক পুৰস্কৃত কৰে যিয়ে প্ৰতিটো কেছক নিজৰ নিজা চৰ্তত পঢ়ে, আৰু সেই ইঞ্জিনক শাস্তি দিয়ে যিয়ে এনে ডায়াগন’ছিছৰ প্ৰয়োজন নথকা সত্ত্বেও আত্মবিশ্বাসী ডায়াগন’ছিছত উপনীত হয়।.

MD থমাছ ক্লেইন হিচাপে, মই কেছ পেনেল বাছনি কৰিছিলোঁ কাৰণ মই দেখোঁ যে laboratory-medicine সহায়কসকলে আটাইতকৈ বেছি ভুল কৰা পেটাৰ্নবোৰ এয়াই।. ব্যয়বহুল বিফলতাৰ ধৰণটো "এটা বিৰল ৰোগ এৰি যোৱা" নহয়—ইয়াৰ বদলে, যিসকল ৰোগীয়ে সেই ৰোগটো নাথাকে তেওঁলোকৰ ক্ষেত্ৰত routine pathology উদ্ভাৱন কৰা।. আমাৰ চিকিৎসা বৈধকৰণ hub এ অধিক বিস্তৃত ফ্ৰেমৱৰ্ক বৰ্ণনা কৰে; এই পৃষ্ঠাই V11 প্ৰথম proof-of-concept আৰু V11 দ্বিতীয় আপডেট বৰ্ণনা কৰে যিয়ে একে স্ক’ৰিং ৰুব্ৰিক ব্যৱহাৰ কৰি, বাইট-একেই, আৰু কোনো post-hoc tuning অনুমোদন নোহোৱাকৈ, 127 দেশৰ লেবেল জুৰি বিস্তৃত এটা সিন্থেটিক কেছ ছেটৰ পৰা সংগ্ৰহ কৰা 100,000টা সিন্থেটিক কেছলৈ স্কেল কৰিছিল।.

শেহতীয়া ৰেফাৰেন্স ৰান — V11 Second Update (April 26, 2026)

26 April 2026-ৰ V11 Second Update ৰেফাৰেন্স ৰানে 99.80% একেটি pre-registered ৰুব্ৰিকৰ ওপৰত (V11 আৰম্ভণি মুক্তিত ব্যৱহৃত) ভিত্তি কৰি মূল্যায়ন কৰি 100,000টা সিন্থেটিক কেছ Kantesti সিন্থেটিক কেছ ছেটৰ পৰা সংগ্ৰহ কৰা আৰু বিস্তৃত 127টা দেশৰ লেবেল আৰু 75+ ভাষাসমূহ জুৰি। প্ৰতিটো কেছ ইঞ্জিনৰ প্ৰাথমিক পথত সম্পূৰ্ণ হৈছিল; trap-case hyperdiagnosis flag সক্ৰিয়কৰণ 0 / 87,412. তেই থাকিল। 23 April 2026-ৰ মূল V11 ৰানে 15টা হাতে-নিৰ্বাচিত কেছ (composite 99.12%) সামৰি লৈ ৰুব্ৰিকটো বৈধতা দিছিল; Second Update-এ সেই ৰুব্ৰিকটো বাইট-একেই ৰাখি মূল্যায়নক জনসংখ্যা-স্কেল cohortলৈ সম্প্ৰসাৰিত কৰে।.

Composite 99.80% 100,000ৰ ভিতৰত 100,000 কেছত স্ক’ৰ

1.000 Structural score

0.996 Clinical score

13.26 s Mean latency

0 / 87,412 Trap false-positives

Composite সূত্ৰটোৱে তিনিটা উপাদান একত্ৰিত কৰে: structural conformance সাতটা বাধ্যতামূলক report section আৰু ষোলটা বাধ্যতামূলক subsection ৰ সৈতে, বিষয়বস্তুৰ সঠিকতা যাক মাপা হয় keyword recall + scoring-system recall + probability-distribution validity check ৰে, আৰু response latency প্ৰাথমিক-পথ service-level লক্ষ্যৰ বিপৰীতে। তলৰ ৰুব্ৰিক সূত্ৰত সঠিক বিশ্লেষণ দেখুওৱা হৈছে—Second Update-ৰ বাবে এই ওজনসমূহ বা sub-rubrics কোনোটোৱেই সলনি কৰা হোৱা নাছিল।.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × বিলম্বতা

headroomৰ বাকী 0.20 শতাংশ পইণ্ট প্ৰায় সম্পূৰ্ণৰূপে ক্লিনিকেল sub-score-লৈ বিভাজিত হয়—কিছুমান কেছৰ এটা সৰু অংশ (প্ৰধানকৈ Hepatology আৰু Rheumatology-ত) ইঞ্জিনৰ ব্যাখ্যাত এটা আশা কৰা স্ক’ৰিং-ব্যৱস্থা কী-ৱৰ্ড নাছিল, যদিও ডায়াগন’ষ্টিক বিষয়বস্তু সঠিক আছিল।. 100,000-কেছ Second-Update cohort-ৰ কোনো কেছেই নিজেই ডায়াগন’ছিছটো মিছ নকৰিলে।. latency V11 আৰম্ভণি মুক্তিত গড়ে 20.17 s পৰা Second Update-ত 13.26 s লৈ উন্নত হৈছিল—দুটা ৰানৰ মাজত production ইঞ্জিন অপ্টিমাইজেচনৰ প্ৰতিফলন; ৰুব্ৰিক, স্ক’ৰিং কোড, আৰু API endpoint একেই আছে।.

প্ৰতি-লেবেল যৌগিক স্ক’ৰসমূহ 30টা আটাইতকৈ বেছি প্ৰতিনিধিত্ব কৰা দেশৰ লেবেলৰ ক্ষেত্ৰত 0.9971ৰ পৰা 0.9985লৈ পৰিসৰ দেখুৱাইছে। অতি কম প্ৰতিনিধিত্ব থকা 97টা অতিৰিক্ত লেবেলৰ “লং টেইল” (মুঠতে ≈7,300 কেছ)ত কোনো ধৰণৰ পদ্ধতিগত অৱনতি (systematic degradation) দেখা নগ’ল। কেছ গণনাৰ ভিত্তিত আটাইতকৈ বেছি ঘন ঘন লেবেলসমূহ আছিল—যুক্তৰাষ্ট্ৰ (10,500), ব্ৰাজিল (9,500), স্পেইন (9,000), ইতালি (8,000), জাৰ্মানি (7,800), ফ্ৰান্স (7,400), পৰ্তুগাল (5,800), Türkiye (3,400), যুক্তৰাজ্য (2,900), আৰু মেক্সিকো (2,500)।.

১৫টা কেছৰ পৰা 100,000লৈ: 127 দেশৰ লেবেল জুৰি ক’হ’ৰ্টৰ বিকাশ

মূল V11 কেছ পেনেলত সাতটা বিশেষত্ব আছিল — হেমাট’ল’জি, এণ্ড’ক্ৰাইন’ল’জি, মেটাব’লিক মেডিচিন, হেপাট’ল’জি, নেফ্ৰ’ল’জি, কাৰ্ডিয়’ল’জি, ৰিউমাট’ল’জি — লগতে দুটা নিবেদিত hyperdiagnosis trap কেছ; প্ৰতিটো কেছেই এটা সিন্থেটিকভাৱে সৃষ্টি কৰা ৰক্ত-টেষ্ট পেনেল। V11 দ্বিতীয় আপডেটে মূল্যায়ন সম্প্ৰসাৰিত কৰে 127 দেশৰ লেবেল জুৰি 100,000টা সিন্থেটিক কেছলৈ, সম্প্ৰসাৰিত কৰে—আঠটা বিশেষত্বত বিভক্ত (মূল সাতটা + trap subset-টো শোষণ কৰা এটা dedicated internal-medicine bucket)। একেটি স্ক’ৰিং ৰুব্ৰিক দুয়োটা ৰানতে বাইট-একেই প্ৰয়োগ কৰা হয়।.

কিয়নো সকলো কেছেই সিন্থেটিকভাৱে সৃষ্টি কৰা, সেয়েহে আঁতৰাবলৈ কোনো বাস্তৱ শনাক্তকাৰী নাই আৰু কোনো ব্যক্তিগত ডাটা জড়িত নহয়। প্ৰতিটো সিন্থেটিক কেছেই এটা বেঞ্চমাৰ্ক-অভ্যন্তৰীণ কেছ ক’ড বহন কৰে (V11 প্ৰথম ছেটত BT-NNN-LABEL, এটা স্থিৰ case_uid দ্বিতীয় আপডেটত)। প্ৰকাশিত হাৰ্নেছ, কাৰিগৰী প্ৰতিবেদন, বা মুক্তি দিয়া ডেটাছেটসমূহৰ ক’তো কোনো ব্যক্তিগত ডাটা দেখা নাযায়।.

V11 আৰম্ভণি মুক্তি অনুসৰি — 15টা হাতে-নিৰ্বাচিত কেছ

মূল V11 কেছ পেনেলখন ড০. থমাছ ক্লেইনে হাতেৰে বাছনি কৰি তৈয়াৰ কৰিছিল যাতে লেবোৰেটৰী-মেডিচিন সহায়কসকলে আটাইতকৈ বেছি ভুল কৰা ডায়াগন’ষ্টিক ধৰণসমূহ অনুশীলন কৰিব পাৰি। তলত দিয়া অনুসৰি পোন্ধৰটা কেছক এটা এটা নিৰ্দিষ্ট ডায়াগন’ষ্টিক বৈশিষ্ট্যৰ বাবে বাছনি কৰা হৈছিল।.

হেমাট’লজি (3) BT-001, BT-006, BT-007 Iron deficiency anaemia · B12 deficiency · Beta-thalassaemia minor

এণ্ড’ক্ৰাইন’লজি (3) BT-002, BT-008, BT-012 Hashimoto's thyroiditis · ইনচুলিন ৰেজিষ্টেন্স থকা PCOS · গুৰুতৰ ভিটামিন ডিৰ অভাৱ

মেটাবলিক (2) BT-003, BT-013 মেটাবলিক ছিণ্ড্ৰমসহ T2DM · গাউটৰ ঝুঁকি থকা Hyperuricaemia

হেপাট’লজি (2) BT-004, BT-009 NAFLD / NASH · তীব্ৰ ভাইৰেল হেপাটাইটিছ

নেফ্ৰ’লজি · কাৰ্ড’লজি · ৰিউমেট’লজি (3) BT-005, BT-010, BT-011 CKD stage 3 · Atherogenic dyslipidaemia · Systemic lupus erythematosus

Trap কেছ (2) BT-014, BT-015 Gilbert's syndrome (isolated indirect hyperbilirubinaemia) · সম্পূৰ্ণ স্বাভাৱিক প্ৰাপ্তবয়স্ক স্ক্ৰিন

এই বিশেষ বিতৰণ কিয়?

হেমাট’লজি তিনিটা কেছ পায় কাৰণ মাইক্ৰ’চাইটিক ডিফাৰেনচিয়েল আৰু মেক্ৰ’চাইটিক ডিফাৰেনচিয়েল—দুয়োটাই বাস্তৱ-জগতৰ লেব’ৰেটৰী অনুশীলনত সৰ্বাধিক পৰিমাণৰ “ট্ৰেপ”। এণ্ড’ক্ৰাইন’লজি তিনিটা কেছ পায় কাৰণ Hashimoto's, PCOS, আৰু ভিটামিন ডিৰ অভাৱ—এইবোৰৰ উপস্থাপনাই ভিন্ন ভিন্ন ডায়াগন’ষ্টিক আকৃতি সৃষ্টি কৰে (autoantibody-চালিত, hormone-ratio-চালিত, একক-মাৰ্কাৰ-চালিত)। একক-কেছ বিশেষত্বসমূহ এতিয়াও অৰ্থবহ, কাৰণ CKD, ASCVD ৰিস্ক, আৰু SLE—এই তিনিওটাৰ নিজস্ব স্ক’ৰিং ব্যৱস্থা আছে যিটো ইঞ্জিনে আহ্বান কৰিব লাগে (KDIGO staging, ASCVD 10-year risk, আৰু ক্ৰমে 2019 EULAR/ACR SLE criteria)।.

V11 দ্বিতীয় আপডেট — 127 দেশৰ লেবেল জুৰি 100,000টা সিন্থেটিক কেছ

দ্বিতীয় আপডেটে মূল V11 hard-coded 15-কেছ Python literal-টোক এটা ডাঙৰ, প্ৰগ্ৰামেটিকভাৱে সৃষ্টি কৰা সিন্থেটিক কেছ ছেটৰ সৈতে সলনি কৰে। কেছ ছেট প্ৰতিটো ৰানৰ আৰম্ভণিতে ল’ড কৰা হয় আৰু স্বচ্ছতাৰ বাবে কনফিগাৰেচন লগ কৰা হয়। বিষয়বস্তু ক্ষেত্ৰ (content area) অনুসৰি ক’হ’ৰ্টৰ বিতৰণ তলত দেখুওৱা হৈছে।.

এণ্ডক্ৰাইন’লজী আৰু স্বচ্ছতাৰ বাবে প্ৰতিটো বেঞ্চমাৰ্ক ৰানৰ ওপৰতেই প্ৰিণ্ট কৰা হয়। বিশেষত্ব অনুসৰি ক’হৰ্টৰ বিতৰণ তলত দেখুওৱা হৈছে। 23,900 কেছ (23.9%)

থাইৰয়ড, PCOS, ভিটামিন ডি, গ’নাডাল এক্সিছ, পিটুইটাৰী মেটাবলিক মেডিচিন 21,900 কেছ (21.9%)

ৰক্তবিজ্ঞান T2DM, মেটাবলিক ছিণ্ড্ৰম, লিপিড পেনেল, হাইপাৰইউৰিকেমিয়া 15,400 কেছ (15.4%)

হেপাট’লজি মাইক্ৰ’চাইটিক আৰু মেক্ৰ’চাইটিক ডিফাৰেনশিয়েল, B12/ফ’লেট, আয়ৰণ ষ্টাডি 12,400 কেছ (12.4%)

NAFLD/NASH, ভাইৰেল হেপাটাইটিছ, FIB-4, ক’লেষ্টেছিছ অভ্যন্তৰীণ মেডিচিন (ট্ৰেপ ছাব-ছেট অন্তৰ্ভুক্ত) 9,000 কেছ (9.0%)

হৃদৰোগ বিজ্ঞান (Cardiology) মিশ্ৰিত উপস্থাপন আৰু 8,723 গৰাকী নিৰ্দিষ্ট হাইপাৰডায়াগন’ষ্টিক ট্ৰেপ কেছ 7,500 কেছ (7.5%)

ৰিউমেট’লজি ASCVD ৰিস্ক, এথেৰ’জেনিক ডিছলিপিডেমিয়া, hs-CRP 6,000 কেছ (6.0%)

নেফ্ৰ’লজী SLE, RA, ভেছকুলাইটিছ, অটোএণ্টিবডি পেনেল (EULAR/ACR মানদণ্ড) 4,000 কেছ (4.0%)

কৃত্রিম দেশ-লেবেল বিতৰণ — শীৰ্ষ 10টা লেবেল

100,000টা কৃত্রিম কেছত 127টা দেশৰ লেবেল (ISO 3166-1 alpha-2) আছে যাতে লোকেল (locale) পৰিচালনা পৰীক্ষা কৰিব পাৰি। লেবেল নিৰ্ধাৰণ: ইউৰোপ 57.7%, আমেৰিকাস 25.4%, এচিয়া-পেচিফিক 6.2%, নামকৰণ কৰা মধ্য-পূব/আফ্ৰিকা লেবেল 3.4%, আৰু প্ৰায় 7.3% মুঠতে যোগ হোৱা 97টা অতিৰিক্ত লেবেলৰ এটা লং টেইল। কেছ গণনাৰ ভিত্তিত আটাইতকৈ বেছি ঘন ঘন দহটা লেবেল আছিল—যুক্তৰাষ্ট্ৰ (10,500), ব্ৰাজিল (9,500), স্পেইন (9,000), ইতালি (8,000), জাৰ্মানি (7,800), ফ্ৰান্স (7,400), পৰ্তুগাল (5,800), Türkiye (3,400), যুক্তৰাজ্য (2,900), আৰু মেক্সিকো (2,500)। প্ৰতি-লেবেল যৌগিক স্ক’ৰসমূহ 0.9971ৰ পৰা 0.9985লৈ পৰিসৰ দেখুৱাইছে। এই লেবেল গণনাসমূহ লোকেল পৰিচালনা পৰীক্ষা কৰিবলৈ ব্যৱহৃত সৃষ্টি কৰা কেছসমূহৰ বৈশিষ্ট্য—ইয়াত বাস্তৱ ব্যৱহাৰকাৰী নাই আৰু বাস্তৱ-জগতৰ ভৌগোলিক কভাৰেজো নাই।.

পূৰ্ব-নিবন্ধিত ৰুব্ৰিক, বুজাই দিয়া হৈছে

এই বেঞ্চমাৰ্কত pre-registration হৈছে সৰ্বাধিক গুৰুত্বপূৰ্ণ পদ্ধতিগত সিদ্ধান্ত। প্ৰতিটো সম্ভাৱ্য ডায়াগন’ছিছ, প্ৰতিটো ক্লিনিকেল স্ক’ৰিং ব্যৱস্থা, আৰু প্ৰতিটো ৰিপ’ৰ্ট অংশ—সকলোকে ইঞ্জিন আহ্বান কৰাৰ আগতেই source code-ত কমিট কৰা হৈছিল ইঞ্জিন আহ্বান কৰাৰ আগতে. । সেয়েহে ইঞ্জিনক সন্তুষ্ট কৰিবলৈ rubric-ৰ post-hoc tuning সম্ভৱ নহয়।.

কম্প’জিট স্ক’ৰ গঠন কৰে তিনিটা উপাদানে। সেই structural component এ 35 শতাংশ বৰঙণি দিয়ে আৰু জুখে যে ইঞ্জিনে সাতটা বাধ্যতামূলক ৰিপ’ৰ্ট অংশ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) আৰু সেইবোৰৰ ভিতৰত থকা ষোলটা বাধ্যতামূলক উপ-অংশ সঠিকভাৱে ঘূৰাই দিছিল নে নাই। structural calculation-ত section presence এ 40 শতাংশ ওজন পায় আৰু subsection presence এ 60 শতাংশ ওজন পায়।.

দ্য... clinical component এ 55 শতাংশ বৰঙণি দিয়ে আৰু তিনিটা বস্তু একত্ৰিত কৰে: diagnosis-keyword recall (clinical sub-score-ৰ 70 শতাংশ), scoring-system recall (20 শতাংশ — প্ৰাসংগিক হ’লে ইঞ্জিনে Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR criteria গণনা কৰে নে নাই), আৰু probability-sum validity check (10 শতাংশ — differential সম্ভাৱনাসমূহে [90, 110] অন্তৰালৰ ভিতৰত যোগফল দিব লাগিব)। ট্ৰেপ কেছৰ বাবে, সর্বোচ্চ 0.30 পৰ্যন্ত এটা স্পষ্ট hyperdiagnosis penalty কাটি দিয়া হয়—প্ৰতি fabricated pathology flag-ত 0.10 হিচাপে গণনা কৰি, সৰ্বোচ্চ তিনিটা flag-ত সীমাবদ্ধ।.

দ্য... latency component এ 10 শতাংশ বৰঙণি দিয়ে। 20 ছেকেণ্ডৰ তলত উত্তৰ দিলে পূৰ্ণ 0.10 পোৱা যায়, 40 ছেকেণ্ডৰ তলত উত্তৰ দিলে 0.05 পোৱা যায়, আৰু তাতকৈ ধীৰ যিকোনো উত্তৰে শূন্য পায়। 20-ছেকেণ্ড লক্ষ্য হৈছে production primary-path service-level objective; 40-ছেকেণ্ড ceiling হৈছে heavy-engine invocations-ৰ বাবে Phase 2 fallback budget।.

pre-registration-এ কি বাধা দিয়ে

First-party বেঞ্চমাৰ্কসমূহে post-hoc rubric tuning কৰি নিজৰ সংখ্যাবোৰ স্ফীত কৰাৰ বাবে কুখ্যাত। আৰ্হিটো প্ৰায় সদায় একে: দলটোৱে ইঞ্জিন চলায়, ক’ত কম ফল দিছে দেখে, তাৰ পিছত নিস্তব্ধভাৱে rubric-টো সামঞ্জস্য কৰে যাতে কম ফল দিয়া ক্ষেত্ৰসমূহে কম গণনা পায়। প্ৰথম ইঞ্জিন কলৰ আগতেই rubric-টো source code-ত কমিট কৰি আৰু MIT licence-ত harness প্ৰকাশ কৰি, এই সামঞ্জস্যটো version control-ত দৃশ্যমান হৈ পৰে। যিকোনো ব্যক্তিয়ে repository clone কৰিব পাৰে, rubric author dates পৰীক্ষা কৰিব পাৰে, আৰু ইঞ্জিনৰ ফলাফল স্ক’ৰিং গঢ়িবলৈ ব্যৱহাৰ কৰা হোৱা নাছিল বুলি নিশ্চিত কৰিব পাৰে।.

হাইপাৰডাইগন’ছিছ ফাঁদ কেছ — কিয় অতিমাত্ৰা কল কৰাটো প্ৰকৃত বিফলতাৰ ধৰণ

স্বাভাৱিক স্ক্ৰীণত pathology-ৰ কথা অতিমাত্ৰা জোৰেৰে কোৱা—consumer-facing চিকিৎসা সহায়কসকলৰ বাবে এটা নথিভুক্ত ব্যৰ্থতা ধৰণ। ইয়াৰ downstream খৰচসমূহৰ ভিতৰত আছে অপ্রয়োজনীয় তদন্ত, ৰোগীৰ উদ্বেগ, আৰু iatrogenic workup। এই বেঞ্চমাৰ্কৰ দুটা ট্ৰেপ কেছ এই ব্যৰ্থতা ধৰণটো দৃশ্যমান আৰু স্ক’ৰযোগ্য কৰিবলৈ ডিজাইন কৰা হৈছে।.

🟡 ট্ৰেপ 1 — BT-014-GILBERT

উপস্থাপন।. 2.4 mg/dL মুঠ বিলিৰুবিন থকা 24 বছৰীয়া এজন পুৰুষ। direct অংশ স্বাভাৱিক, transaminases আৰু alkaline phosphatase তেওঁলোকৰ reference range-ৰ ভিতৰত থাকে, reticulocytes অস্বাভাৱিক নহয়, আৰু haptoglobin আৰু LDH-এ haemolysis নাকচ কৰে।.

সঠিক ব্যাখ্যা।. Gilbert's syndrome — এটা benign UGT1A1 polymorphism। ব্যাখ্যাই hepatitis, cirrhosis, haemolytic anaemia, বা biliary obstruction আহ্বান কৰা উচিত নহয়।.

V11 ফলাফল।. Composite 1.000। ছয়টা নিৰীক্ষিত over-diagnosis flag-ৰ কোনোটোৱেই active diagnosis হিচাপে দেখা নগ’ল।.

🟡 ট্ৰেপ 2 — BT-015-HEALTHY

উপস্থাপন।. ৩৫ বছৰীয়া এগৰাকী মহিলা, পঞ্চদশ-পেৰামিটাৰৰ নিয়মীয়া স্ক্ৰিনিং পেনেলসহ। প্ৰতিটো এনালাইটেই নিজৰ নিৰ্দিষ্ট মান-সীমাৰ ভিতৰত স্বচ্ছন্দে আছে।.

সঠিক ব্যাখ্যা।. আশ্বাস আৰু জীৱনশৈলী বজাই ৰখা। ব্যাখ্যাই ক্লিনিকেলভাৱে উপযোগী যেন দেখাবলৈ সীমান্তৱৰ্তী ৰোগ-লক্ষণ “সৃষ্টি” কৰা উচিত নহয়।.

V11 ফলাফল।. Composite 1.000। সাতটা নিৰীক্ষণ কৰা over-diagnosis (অতি-নিৰ্ণয়) ফ্লেগৰ কোনোটোৱেই—ডায়েবেটিছ, ৰক্তহীনতা, থাইৰয়ডৰ কম কাম, ডিছলিপিডেমিয়া, হেপাটাইটিছ, বৃক্কৰ ৰোগ, অভাৱ—সক্ৰিয় ৰোগ হিচাপে দেখা নগ’ল।.

দুয়োটা ট্ৰেপৰ মাজেৰে তেৰটা নিৰীক্ষণ কৰা hyperdiagnosis ফ্লেগ পৰীক্ষা কৰা হৈছিল। এটাও ট্রিগাৰ নহ’ল। যিকোনো চিকিৎসকে AI ইঞ্জিনক triage বা pre-consultation সঁজুলি হিচাপে ব্যৱহাৰ কৰাৰ কথা ভাবিলে—এইটোৱেই আটাইতকৈ বেছি গুৰুত্বপূৰ্ণ ফলাফল: কোনো ৰোগ নাই বুলি থকা ঠাইত সিস্টেমে ৰোগ উদ্ভাৱন নকৰিলে.

মেণ্টজাৰ সূচক: লৌহৰ অভাৱক থেলাছেমিয়া বৈশিষ্ট্যৰ পৰা পৃথক কৰা

দ্বিতীয় এটা উচ্চ-মূল্যৰ আৱিষ্কাৰ হৈছে case BT-001 (iron deficiency anaemia) আৰু case BT-007 (beta-thalassaemia minor) ৰ মাজৰ মিল। দুয়োটাই microcytosis ৰ সৈতে দেখা দিয়ে আৰু naive classifier ৰ বাবে ই এটা সুপৰিচিত বাধা। Mentzer index, যাক MCV ক RBC গণনাৰে ভাগ কৰি গণনা কৰা হয়, iron deficiency ত 13 ৰ ওপৰত থাকে আৰু thalassaemia trait ত 13 ৰ তলত পৰে।.

BT-001 ত, ৰোগী আছিল ৩৪ বছৰীয়া মহিলা, hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, আৰু elevated TIBC আছিল। প্ৰায় 17.7 ৰ Mentzer index এ নিশ্চিতভাৱে absolute iron deficiency সমৰ্থন কৰে। BT-007 ত, ৰোগী আছিল ২৮ বছৰীয়া পুৰুষ, microcytosis (MCV 65.8 fL) আছিল যদিও RBC গণনা 6.2 উচ্চ, RDW স্বাভাৱিক, ferritin স্বাভাৱিক, আৰু HbA2 5.6 percent। প্ৰায় 10.6 ৰ Mentzer index এ thalassaemia trait সূচায়, আৰু elevated HbA2 এ beta-thalassaemia minor নিশ্চিত কৰে।.

Iron deficiency anaemia Mentzer > 13 Low ferritin, low TSAT, high TIBC, elevated RDW

Beta-thalassaemia trait Mentzer < 13 Normal ferritin, normal RDW, elevated HbA2 (>3.5%), high RBC count

দুয়োটা কেছেই 1.000 স্ক’ৰ কৰিছিল। ইঞ্জিনে দুয়োটা ব্যাখ্যাতেই Mentzer index স্পষ্টভাৱে ব্যৱহাৰ কৰিছিল আৰু প্ৰতিটো ক্ষেত্ৰতে সঠিক ৰোগ-নিৰ্ণয় ঘূৰাই দিছিল।. সমগ্ৰ benchmark ত একমাত্ৰ আটাইতকৈ ক্লিনিকেলভাৱে আশ্বাসজনক ফলাফল, কাৰণ thalassaemia trait ক iron deficiency হিচাপে ভুলকৈ ধৰা হলে অনুচিত iron supplementation হয় আৰু পৰিয়াল-স্ক্ৰিনিংৰ সুযোগ এৰি যায়; আৰু iron deficiency ক thalassaemia হিচাপে ভুলকৈ ধৰা হলে সহজ replacement therapy পলম হয়। আমাৰ ফেৰিটিন পৰিসীমা গাইড বৃহত্তৰ differential context বুজাই দিয়ে।.

V11 আৰম্ভণিৰ প্ৰাৰম্ভিক ৰেফাৰেন্স ৰানৰ পৰা কেছভিত্তিক ফলাফল (এপ্ৰিল ২৩, ২০২৬)

১৫-কেছ proof-of-concept ক’হৰ্টত কৰা মূল V11 ৰেফাৰেন্স ৰানে সেৱা আগবঢ়ায় পদ্ধতিগত ভিত্তি Second Update-ৰ: তলত থকা প্ৰতিটো কেছ-সম্পৰ্কীয় বিৱৰণে দেখুৱাইছে যে ৰুব্ৰিকে কেনেকৈ এটা বাস্তৱ ইঞ্জিন উত্তৰক পৰিচালনা কৰে। পঞ্চদশৰ ভিতৰত বাৰটা কেছে প্ৰাইমাৰী পথত 1.000-ৰ ceiling যৌগিক স্ক’ৰ লাভ কৰিছিল; তিনিটা কেছ Phase 2 fallback-ৰ জৰিয়তে সেৱা দিয়া হৈছিল, যাৰ ফলত 0.05 latency bonus হেৰাই গ’ল যদিও সকলো ক্লিনিকেল আৰু গঠনগত বিষয়বস্তু সংৰক্ষিত থাকিল। এটা কেছত এটা একক বাধ্যতামূলক উপ-অধ্যায় নাছিল; এটা কেছে সামান্য কমি যোৱা probability distribution sum ঘূৰাই দিছিল।.

Case ID Specialty Composite Latency Path

BT-001-IDAৰক্তবিজ্ঞান1.00017.8 sprimary

BT-006-B12ৰক্তবিজ্ঞান1.00018.4 ছেকেণ্ডprimary

BT-007-থালৰক্তবিজ্ঞান1.00017.0 ছেকেণ্ডprimary

BT-002-হ্যাশএণ্ডক্ৰাইন’লজী0.95037.0 ছেকেণ্ডফলবেক

BT-008-PCOSএণ্ডক্ৰাইন’লজী0.98718.6 ছেকেণ্ডprimary

BT-003-T2DMবিপাকীয়1.00019.1 ছেকেণ্ডprimary

BT-013-গাউটবিপাকীয়1.00019.4 ছেকেণ্ডprimary

BT-004-NAFLDহেপাট’লজি1.00019.6 ছেকেণ্ডprimary

BT-009-VIRHEPহেপাট’লজি0.95023.4 ছেকেণ্ডফলবেক

BT-014-গিলবাৰ্টট্ৰেপ1.00018.9 ছেকেণ্ডprimary

BT-005-CKDনেফ্ৰ’লজী1.00017.4 ছেকেণ্ডprimary

BT-010-ASCVDহৃদৰোগ বিজ্ঞান (Cardiology)1.00019.7 ছেকেণ্ডprimary

BT-011-SLEৰিউমেট’লজি0.98118.2 sprimary

BT-012-VITDএণ্ডক্ৰাইন’লজী1.00019.3 sprimary

BT-015-HEALTHYট্ৰেপ1.00018.7 sফলবেক

PCOS কেছ (BT-008) এ উত্তৰৰ গঠন-ৰূপত এটা বাধ্যতামূলক উপ-ধাৰা হেৰুৱাইছিল — ষোলখনৰ ভিতৰত পোন্ধৰখনৰ পৰিৱৰ্তে ষোলখনৰ ভিতৰত ষোলখন — যাৰ ফলত গঠনগত স্ক’ৰ 1.000 ৰ পৰা 0.963 লৈ কমি গ’ল। SLE কেছ (BT-011) এ এটা সামান্য কমি যোৱা সম্ভাৱনা-বিতৰণৰ যোগফল ঘূৰাই দিলে, যাৰ ফলত ক্লিনিকেল স্ক’ৰ 0.965 লৈ নামি গ’ল, তথাপিও সকলো ডায়াগন’ষ্টিক কী-ৱাৰ্ড আৰু স্ক’ৰিং ব্যৱস্থা অক্ষুণ্ণ থাকিল। কোনো উপ-সম্পূৰ্ণ কেছেই সঠিক ডায়াগন’ছিছ মিছ নকৰিলে।.

V11 Second Update aggregate — 100,000 কেছ

জনসংখ্যা-স্কেলত ব্যক্তিগত কেছৰ শাৰীসমূহ মানুহে পঢ়িব পৰা নহয়, সেয়ে দ্বিতীয় আপডেটে 100,000-শাৰী টেবিলৰ বদলে সমষ্টিগত (aggregated) মেট্ৰিক্স ৰিপ’ৰ্ট কৰে। তলত মূল শিৰোনামৰ সমষ্টি দেখুওৱা হৈছে; বিশেষত্বভিত্তিক আৰু দেশ-লেবেলভিত্তিক বিশ্লেষণসমূহ প্রযুক্তিগত ৰিপ’ৰ্ট আৰু Figshare ডিপ’জিটত প্ৰকাশ কৰা হৈছে। এটা স্তৰীকৃত এলোমেলি নমুনা of n = 201 কেঁচা ইঞ্জিন উত্তৰ (deterministic seed 20260426) পৰিদৰ্শনৰ বাবে GitHub results/ ডাইৰেক্টৰীত প্ৰকাশ কৰা হৈছে।.

যৌগিক স্ক’ৰ V11 আৰম্ভণি: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 100,000-কেছ ক’হৰ্ট জুৰি

গঠনগত স্ক’ৰ (গড়) V11 আৰম্ভণি: 0.998 → Second Update: 1.000 জনসংখ্যাৰ স্কেলত নিখুঁত গঠনগত অনুকূলতা

ক্লিনিকেল স্ক’ৰ (গড়) V11 আৰম্ভণি: 0.998 → Second Update: 0.996 −0.002; কোনো কেছেই নিজেই ডায়াগন’ছিছটো মিছ নকৰিলে

বিলম্ব — গড় (পৰিসৰ) V11 আৰম্ভণি: 20.17 ছেকেণ্ড (17.0–37.0 ছেকেণ্ড) → দ্বিতীয় আপডেট: 13.26 ছেকেণ্ড (9.0–16.94 ছেকেণ্ড) চলনৰ মাজত উৎপাদন ইঞ্জিনৰ অপ্টিমাইজেচনসমূহ

ইঞ্জিন পথ = প্ৰাথমিক V11 আৰম্ভণি: 12 / 15 → দ্বিতীয় আপডেট: 100,000 / 100,000 চলনৰ কোনো মুহূর্ততে Phase 2 fallbackৰ প্ৰয়োজন হোৱা নাছিল

Trap-subset hyperdiagnosis flagসমূহ V11 আৰম্ভণি: 0 / 13 → দ্বিতীয় আপডেট: 0 / 87,412 জনসংখ্যা-স্কেলত শূন্য false-positive (8,723টা trap কেছ নিৰীক্ষণ কৰা হৈছিল)

শিৰোনামৰ স্ক’ৰে আমাক কোৱা নাই কি

এই বিশেষ প্ৰি-ৰেজিষ্টাৰ্ড ৰুব্ৰিকৰ অধীনত 99.80 শতাংশৰ এটা কম্প’জিট স্ক’ৰ, 127 দেশৰ লেবেল জুৰি বিস্তৃত 100,000-কেছ সিন্থেটিক ক’হ’ৰ্টত, near-ceiling performance — কিন্তু ইয়াক সাৱধানে ফ্ৰেমিং কৰাটো উচিত। ফলাফলটো V11-ত আমি উৎস ক’ডত প্ৰতিশ্ৰুতি দিয়া ৰুব্ৰিকৰ বিপৰীতে ইঞ্জিনৰ আচৰণ বৰ্ণনা কৰে; বন্য পৰিৱেশত থকা প্ৰতিটো ৰক্ত-টেষ্ট পেনেলৰ ক্ষেত্ৰত ইঞ্জিনৰ শুদ্ধতা সম্পৰ্কে ই এটা সর্বজনীন দাবী নহয়।.

স্ক’ৰটোৱে কয় যে ইঞ্জিনটোৱে এই মূল্যায়নৰ বাবে নিৰ্বাচিত ডায়াগন’ষ্টিক ধৰণসমূহ জনসংখ্যা-স্কেল cohortত সঠিকভাৱে পৰিচালনা কৰিছিল, প্ৰকাশিত আৰু পুনৰুৎপাদনযোগ্য এটা methodologyৰ ওপৰত ভিত্তি কৰি। ই বন্য পৰিৱেশত থকা প্ৰতিটো তেজ পৰীক্ষাৰ পেনেলৰ ক্ষেত্ৰত ইঞ্জিনটো সঠিক বুলি নকয়। ই ইঞ্জিনটোৱে চিকিৎসকসকলৰ বিচাৰ-বুদ্ধিক প্ৰতিস্থাপন কৰা উচিত বুলি নকয়। আৰু ই আন বিকল্প AI ব্যৱস্থাসমূহতকৈ ইঞ্জিনটোৱে বেছি ফল দেখুৱায় বুলি নকয় — অন্য ইঞ্জিনসমূহৰ সৈতে তুলনামূলক বিশ্লেষণসমূহ ইচ্ছাকৃতভাৱে এই প্ৰতিবেদনৰ পৰিসীমাৰ বাহিৰত ৰখা হৈছিল।.

স্ক’ৰটোৱে যিটো স্থাপন কৰে সেয়া হৈছে এটা baseline। rubric আৰু harness ৰাজহুৱা হোৱাৰ পাছত, ইঞ্জিনৰ ভৱিষ্যৎ সংস্কৰণসমূহ একে rubricৰ বিপৰীতে মূল্যায়ন কৰিব পাৰি — V11 আৰম্ভণিৰ 15টা কেছত, দ্বিতীয় আপডেটৰ 100,000-কেছ cohortত, বা যিকোনো পৰৱৰ্তী সম্প্ৰসাৰণত — আৰু প্ৰকাশিত স্ক’ৰৰ মাজত আৰু পৰৱৰ্তী যিকোনো চলনৰ মাজত থকা ব্যৱধান নিজেই পৰিমাপযোগ্য। pre-registrationৰ মূল্য এয়াই: ই পৰিৱেশন দাবীক পৰীক্ষাযোগ্য দাবীত ৰূপান্তৰ কৰে.

১০ মিনিটত এই বেঞ্চমাৰ্ক কেনেকৈ পুনৰুৎপাদন কৰিব

পুনৰুৎপাদনৰ বাবে কেৱল এটা Kantesti API credential pair আৰু Python 3.10 বা তাতকৈ পাছৰ এটা পৰিৱেশৰ প্ৰয়োজন, য’ত requests আৰু reportlab লাইব্ৰেৰীসমূহ ইনষ্টল কৰা থাকে। সম্পূৰ্ণ harness এটা একক, নিজেই সম্পূৰ্ণ Python module, MIT লাইচেন্সৰ অধীনত মুক্তি দিয়া।.

💻 GitHub MIT-licensed harness · raw responses · reference run 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · canonical academic record 🎓 ৰিচাৰ্চগেট Publication 404175463 · V11 Second Update · academic discovery layer 📄 Academia.edu Paper 165956808 · V11 Second Update · academic discovery layer

এটা নতুন ৰানৰ বাবে চাৰিটা পদক্ষেপ

প্ৰথম।. ৰিপ’জিট’ৰীটো clone কৰক: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. দুটা।. তলত দিয়া ধৰণে নিৰ্ভৰশীলতা ইনষ্টল কৰক pip install -r requirements.txt (Second Update এ যোগ কৰে mysql-connector-python ≥ 8.0 SQL case loaderৰ বাবে)।. তিনিটা।. নিৰ্ধাৰণ কৰক KANTESTI_USERNAME আৰু KANTESTI_PASSWORD ইঞ্জিন APIৰ বাবে environment variables হিচাপে। দ্বিতীয় আপডেটৰ SQL case loaderৰ বাবে, লগতে সেট কৰক KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, আৰু KANTESTI_DB_PASSWORD — ল’ডাৰে এটা কেৱল-পঢ়া ভূমিকা (bench_reader)-ৰ জৰিয়তে সংযোগ কৰে, যাৰ টেবুল চিনাক্ত কৰাৰ কোনো সুবিধা নাই।. চাৰিটা।. চলাওক python benchmark_bloodtest.py --limit 100000 সম্পূৰ্ণ Second-Update চলাবলৈ, বা python benchmark_bloodtest.py --limit 1000 দ্ৰুত পুনৰাবৃত্তিৰ বাবে। আউটপুট জমা হয় ./benchmark_results/: এটা CSV স্ক’ৰকাৰ্ড য’ত প্ৰতি-দেশ-লেবেল আৰু প্ৰতি-বিশেষত্ব কলাম আছে, এটা JSON সমষ্টি (aggregate), এটা stratified-random কেঁচা-উত্তৰ নমুনা, আৰু এটা Markdown ৰিপ’ৰ্ট।.

২৩ এপ্ৰিল ২০২৬ (V11 আৰম্ভণি, ১৫টা কেছ) আৰু ২৬ এপ্ৰিল ২০২৬ (V11 Second Update, 100,000টা কেছ) ৰ ৰেফাৰেন্স চলনসমূহ ৰেপ’জিটৰিৰ results/ ডাইৰেক্টৰীত সংৰক্ষিত আছে। নতুন এটা চলনে এটা নতুন টাইমষ্টেম্পযুক্ত স্ক’ৰকাৰ্ড উৎপন্ন কৰিব, কিন্তু ৰেফাৰেন্স চলনসমূহ অক্ষত ৰাখিব। যদি আপোনাৰ চলনে তাৎপৰ্যপূৰ্ণভাৱে বেলেগ ফলাফল উৎপন্ন কৰে, অনুগ্ৰহ কৰি GitHub issue এটা খোলক—চলনৰ টাইমষ্টেম্প আৰু উত্তৰৰ মেটাডেটাত ঘূৰি অহা ইঞ্জিন সংস্কৰণসহ।.

সীমাবদ্ধতা আৰু ভৱিষ্যৎ কাম

127টা দেশৰ লেবেলৰ মাজত 100,000টা কেছতো, চাৰিটা সীমাবদ্ধতাক স্পষ্টভাৱে স্বীকাৰ কৰা উচিত: লং-টেইল লেবেলৰ কম নমুনা (undersampling), এক-সময়ৰ (single-shot) মূল্যায়ন, এক-ইঞ্জিনৰ পৰিসৰ (single-engine scope), আৰু এক-উৎস ডেটা উৎপত্তি (single-source data origin)। এইবোৰক সক্ৰিয়ভাৱে চলি থকা follow-up কামত সমাধান কৰা হৈছে।.

লং-টেইল লেবেল কভাৰেজ।. দ্বিতীয় আপডেটত 127টা দেশৰ লেবেল সামৰি লোৱা হৈছে, কিন্তু বিতৰণটো অসম (unbalanced)—শীৰ্ষ 10টা লেবেলে কেছৰ ≈66.4% অংশ দখল কৰে, আৰু বাকী 97টা অতিৰিক্ত লেবেলে একেলগে ≈7.3% যোগ কৰে (মুঠতে প্ৰায় 7,300 কেছ, গড়ে প্ৰতি লেবেল ~75 কেছ)। সেয়ে এই লং টেইলত থকা প্ৰতি-লেবেল যৌগিকসমূহ শিৰোনামৰ সংখ্যাই যিমান কথা কয় তাৰ তুলনাত অধিক “নয়েজি” (noisier)। ভৱিষ্যতৰ ৰানসমূহে প্ৰতি-লেবেল অনুমানসমূহ দৃঢ় (firm up) কৰিবলৈ লেবেল নিৰ্ধাৰণ পুনঃসমতল (rebalance) কৰিব।.

Single-shot মূল্যায়ন।. ক’হৰ্টৰ প্ৰতিটো কেছ এবাৰকৈ মূল্যায়ন কৰা হৈছিল। কম নমুনা-তাপমাত্রাতো বৃহৎ ভাষা মডেলসমূহে তাৎপৰ্যপূৰ্ণ আউটপুট ভেৰিয়েন্স দেখুৱায়, সেয়ে প্ৰতিটো কেছৰ বাবে পাঁচটা মূল্যায়নসহ আৰু প্ৰতিবেদিত ভেৰিয়েন্স থকা বহু-চলন (multi-run) প্ৰট’কল এটা স্বাভাৱিক পৰৱৰ্তী পদক্ষেপ—বিশেষকৈ trap-case উপ-সমষ্টিত, য’ত sampling jitter-ৰ অধীনত সামঞ্জস্যতা সুৰক্ষাৰ দাবীৰ অংশ।.

Single-engine scope।. এই প্ৰতিবেদনখনে এটা ইঞ্জিনকেই বৰ্ণনা কৰে। বিকল্প AI ব্যৱস্থাসমূহৰ সৈতে তুলনামূলক বিশ্লেষণ ইয়াতৰ পৰিসৰৰ বাহিৰ; একে MIT-লাইচেন্সযুক্ত harness ব্যৱহাৰ কৰি উপযুক্ত পদ্ধতিৰে আমি তাক পৃথক স্বাধীন অধ্যয়ন হিচাপে অনুসৰণ কৰিব পাৰোঁ।.

সিন্থেটিক ডাটা।. 100,000টা কেছ সিন্থেটিকভাৱে সৃষ্টি কৰা হৈছে, সিন্থেটিক কেছ নহয়, আৰু ফলাফল বাস্তৱ-জগতৰ ক্লিনিকেল কাৰ্যক্ষমতালৈ স্থানান্তৰ নহয়। বাস্তৱ, সম্মতি-প্ৰাপ্ত, বাহ্যিকভাৱে সংগ্ৰহ কৰা ডাটাৰ ওপৰত মূল্যায়নে উপযুক্ত নৈতিক তদাৰক (ethical oversight) দাবী কৰিব আৰু এই সিন্থেটিক বেঞ্চমাৰ্কৰ পৰিসৰৰ বাহিৰত।.

এই চাৰিটাৰ বাহিৰে, আটাইতকৈ প্ৰভাৱশালী পৰিকল্পিত সম্প্ৰসাৰণ হৈছে প্ৰতি-জুৰিসডিকশনৰ বাবে বহু-ভাষাৰ সমতা (parity)। Kantesti AI Engine-এ 75+ ভাষাত ব্যৱহাৰকাৰীক সেৱা আগবঢ়ায়, আৰু ভাষা-স্তৰীকৃত Second-Update উপ-ক’হৰ্টসমূহ (তুৰ্কী, জাৰ্মান, স্পেনিছ, ফ্ৰেঞ্চ, ইতালীয়, পৰ্তুগীজ, আৰবী, মেণ্ডেৰিন) চলালে ইঞ্জিনে সমৰ্থন কৰা ভাষাসমূহৰ মাজে আউটপুট গুণগত মান কিমান—সেয়া পৰিমাপ কৰা হ’ব। প্ৰতিটো ভাষা-স্তৰীকৃত বিশ্লেষণ নিজস্ব DOI আৰু harness শাখাৰ সৈতে প্ৰকাশ কৰা হ’ব।.

100,000টা কেছত 99.80% কম্প’জিট স্ক’ৰ লাভ কৰা একে ইঞ্জিনটো চেষ্টা কৰক

এই বেঞ্চমাৰ্কত মূল্যায়ন কৰা একে প্ৰডাকচন এণ্ডপইণ্টলৈ আপোনাৰ নিজৰ তেজ পৰীক্ষাৰ পেনেল আপলোড কৰক। বিশ্বজুৰি ২ মিলিয়নৰো অধিক ব্যৱহাৰকাৰীয়ে Kantesti AI Engine ব্যৱহাৰ কৰি 75+ ভাষাৰ মাজেৰে ১৫,০০০ৰো অধিক বায়’মাৰ্কাৰ ব্যাখ্যা কৰে।.

🔬 বিনামূলীয়া ডেমো চেষ্টা কৰক

ক্ৰ'ম এক্সটেনচন এপ ষ্ট'ৰ গুগল প্লে

📚 এই বেঞ্চমাৰ্ক কেনেকৈ উদ্ধৃতি দিব

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026)।. ১TP6T ৰক্ত পৰীক্ষা ব্যাখ্যা ইঞ্জিনৰ ওপৰত 100,000টা কৃত্ৰিম পৰীক্ষা কেছৰ ক্ষেত্ৰত—V11 দ্বিতীয় আপডেট—এটা প্ৰি-ৰেজিষ্টাৰ্ড, ৰুব্ৰিক-ভিত্তিক স্বয়ংক্ৰিয় কাৰিগৰী বেঞ্চমাৰ্ক (Technical Report V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 বাহ্যিক পদ্ধতিগত উদ্ধৃতি

Mentzer, W. C. (1973)।. থেলাছেমিয়া ট্ৰেইটৰ পৰা লৌহৰ অভাৱ পৃথকীকৰণ. The Lancet, 301(7808), 882।.

🏥 পাবমেড

Aringer, M., Costenbader, K., Daikh, D., et al. (2019)।. 2019 European League Against Rheumatism / American College of Rheumatology Systemic Lupus Erythematosus ৰ বাবে শ্ৰেণীবিভাজন মানদণ্ড. Arthritis & Rheumatology, 71(9), 1400–1412।.

🔗 DOI 🏥 পাবমেড

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023)।. Med-HALT: বৃহৎ ভাষা মডেলৰ বাবে মেডিকেল ড’মেইন হেলুচিনেচন টেষ্ট. Proceedings of CoNLL 2023।.

🔗 ACL Anthology

99.80%কম্প’জিট স্ক’ৰ

100,000স্ক’ৰ কৰা কেছসমূহ

127সামৰি লোৱা দেশৰ লেবেলসমূহ

0 / 87,412ট্ৰেপ ফলছ-পজিটিভ

সঘনাই সোধা প্ৰশ্ন

কৃত্ৰিম পৰীক্ষা কেছসমূহত Kantesti AI ইঞ্জিনখন কিমান সঠিক?

এটা প্ৰি-ৰেজিষ্টাৰ্ড ৰুব্ৰিকৰ ওপৰত, আঠটা কনটেণ্ট ক্ষেত্ৰ আৰু 127টা দেশৰ লেবেলৰ মাজেৰে 100,000টা কৃত্ৰিমভাৱে উৎপাদিত পৰীক্ষা কেছত চলাই (V11 দ্বিতীয় আপডেট), ইঞ্জিনে 99.80 শতাংশৰ এটা কম্প’জিট স্ক’ৰ লাভ কৰে; 87,412টা নিৰীক্ষিত ট্ৰেপ-কেছ সুযোগৰ ভিতৰত শূন্য হাইপাৰডায়াগন’ছিছ ফ্লেগ থাকে আৰু গড় উত্তৰ দেৰী (mean response latency) 13.26 ছেকেণ্ড। এই কম্প’জিটে কৃত্ৰিম ইনপুটৰ ওপৰত আউটপুটৰ অনুগতি (conformance) জোখে, ডায়াগন’ষ্টিক নিখুঁততা (diagnostic accuracy) নহয়। মূল V11 ৰিলিজে একে ৰুব্ৰিক 15টা হাতেৰে নিৰ্মিত কেছত পৰীক্ষা কৰিছিল (কম্প’জিট 99.12%); দ্বিতীয় আপডেটে ৰুব্ৰিকটো বাইট-একেই (byte-identical) ৰাখি ইয়াক এটা বৃহৎ কৃত্ৰিম ক’হ’ৰ্টলৈ সম্প্ৰসাৰিত কৰে। সম্পূৰ্ণ স্ক’ৰকাৰ্ড Figshare ত DOI 10.6084/m9.figshare.32095435 ৰ অধীনত আৰু GitHub ত MIT লাইচেন্সৰ অধীনত প্ৰকাশ কৰা হৈছে।.

Kantesti AI ইঞ্জিনটো চিকিৎসাগতভাৱে পৰীক্ষিত (ক্লিনিকেলি ভেলিডেটেড) নেকি?

নহয়। ইঞ্জিনটো এটা স্বয়ংক্ৰিয় প্রযুক্তিগত বেঞ্চমাৰ্ক (ক্লিনিকেল ভেলিডেচন নহয়)ৰ বিপৰীতে মূল্যায়ন কৰা হৈছিল—এটা ৰুব্ৰিকৰ সহায়ত যিটো V11 প্ৰথম ৰানৰ আগতেই উৎস ক’ডত স্থিৰ (freeze) কৰা হৈছিল আৰু V11 দ্বিতীয় আপডেটৰ বাবে বাইট-একেই ৰখা হৈছিল—হেমাট’লজি, এণ্ড’ক্ৰাইন’লজি, মেটাবলিক মেডিচিন, হেপাট’লজি, নেফ্ৰ’লজি, কাৰ্ড’লজি, ৰিউমেট’লজি, আৰু ইণ্টাৰনেল মেডিচিনৰ ক্ষেত্ৰত 100,000টা কৃত্রিম ৰক্ত পৰীক্ষা কেছত মূল্যায়ন কৰা হৈছিল, যিবোৰ 127টা দেশৰ লেবেলৰ পৰা সংগ্ৰহ কৰা। ক্লিনিকেল তত্ত্বাৱধান Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321)ৰ দ্বাৰা দিয়া হৈছিল—Kantesti AI-ত board-certified ক্লিনিকেল হেমাট’লজিষ্ট আৰু Chief Medical Officer।.

হাইপাৰডায়াগন’ছিছ ট্ৰেপ কেছ কি?

এটা হাইপাৰডায়েগন’ছিছ (hyperdiagnosis) ট্ৰেপ কেছ হৈছে বিশেষভাৱে ডিজাইন কৰা এটা ক্লিনিকেল পৰিস্থিতি, যিয়ে AI ইঞ্জিনত অতিমাত্ৰা নিৰ্ণয় (over-diagnosis) আচৰণ ধৰা পেলাবলৈ লক্ষ্য কৰে। V11 প্ৰথম বেঞ্চমাৰ্কত এনে দুটা কেছক পদ্ধতিগত প্ৰমাণ-ধাৰণা (methodological proof-of-concept) হিচাপে ব্যৱহাৰ কৰা হৈছিল: গিলবাৰ্ট’ছ ছিণ্ড্ৰমৰ সৈতে মিল থকা এটা পৃথক (isolated) পৰোক্ষ হাইপাৰবিলিৰুবিনেমিয়া (য’ত সঠিক ব্যাখ্যা হৈছে হেপাটাইটিছ বা হিম’লাইছিছ নহয়, বৰং নিৰীহ UGT1A1 পলিমৰ্ফিজম) আৰু সম্পূৰ্ণ স্বাভাৱিক প্ৰাপ্তবয়স্ক স্ক্ৰিনিং পেনেল (য’ত সঠিক আউটপুট হৈছে আশ্বাস, কোনো কৃত্ৰিম সীমান্তীয় (borderline) ৰোগ-লক্ষণ নহয়)। V11 দ্বিতীয় আপডেটে এই ট্ৰেপ-কেছ পদ্ধতিটোক ৮,৭২৩টা কেছৰ এটা নিৰ্দিষ্ট উপ-গোটলৈ স্কেল কৰিছিল, য’ত ৮৭,৪১২টা নিৰীক্ষিত (monitored) হাইপাৰডায়েগন’ছিছ ফ্লেগ সুযোগ সৃষ্টি হৈছিল—আৰু ইঞ্জিনটোৰ false-positive হাৰ শূন্যেই আছিল।.

Kantesti AI ইঞ্জিনৰ মূল্যায়ন পুনৰাবৃত্তিযোগ্য নেকি?

সম্পূৰ্ণ মূল্যায়ন (evaluation) হাৰ্নেছ MIT লাইচেন্সৰ অধীনত এটা একক, self-contained Python মডিউল হিচাপে মুক্ত কৰা হৈছে। V11 প্ৰথম ৰানত কেৱল Kantesti API credential pair আৰু Python 3.10 বা তাতকৈ পাছৰ প্ৰয়োজন। V11 দ্বিতীয় আপডেটে এটা parameterised, read-only SQL কেছ ল’ডাৰ যোগ কৰে, য’ত Kantesti clinical-repository credential লাগে (a bench_reader টেবুল চিনাক্তকৰণত কোনো সুবিধা (privileges) নাই)। ক’ড, কেছ ল’ডাৰ SQL, ৰুব্ৰিক (মুক্তিৰ মাজত বাইট-একেই), আৰু V11 প্ৰথম আৰু দ্বিতীয় আপডেটৰ reference ৰান দুয়োটাৰ পৰা এটা stratified random sample কেঁচা ইঞ্জিন উত্তৰ (responses) github.com/emirhanai/kantesti-blood-test-benchmark ত উপলব্ধ আৰু Figshare, ResearchGate, আৰু Academia.edu তো mirror কৰা হৈছে।.

Kantesti AI ইঞ্জিনে কেনেকৈ লৌহৰ অভাৱক beta-thalassaemia trait ৰ পৰা পৃথক কৰে?

ইঞ্জিনটোৱে Mentzer index প্ৰয়োগ কৰে, যিটো গণনা কৰা হয় mean corpuscular volume-ক red blood cell count-ৰ দ্বাৰা ভাগ কৰি। Mentzer index ১৩ৰ ওপৰত থাকিলে iron deficiency anaemia সমৰ্থন কৰে, আৰু ১৩ৰ তলত থাকিলে beta-thalassaemia trait সমৰ্থন কৰে। V11 প্ৰথম বেঞ্চমাৰ্কত দুয়োটা উপস্থাপন (presentations) স্পষ্ট Mentzer index গণনাৰে সঠিকভাৱে শ্ৰেণীবদ্ধ কৰা হৈছিল, য’ত ferritin, RDW, আৰু HbA2-ৰ প্ৰসংগ (context) সমৰ্থন হিচাপে আছিল। V11 দ্বিতীয় আপডেটৰ ১০০,০০০-কেছ cohort জুৰি একেই ধৰণৰ differential আচৰণ জনসংখ্যা পৰ্যায়তো সংৰক্ষিত আছিল।.

মই ক’ত কেঁচা বেঞ্চমাৰ্ক ডাটা আৰু উৎস ক’ড পাম?

টেকনিকেল ৰিপ’ৰ্ট Figshare ত DOI 10.6084/m9.figshare.32095435 হিচাপে জমা দিয়া হৈছে (V11 প্ৰথম মুক্তি আৰু V11 দ্বিতীয় আপডেট দুয়োটাকে সামৰি)। ResearchGate publication 404175463 আৰু Academia.edu paper 165956808 তো mirror কৰা হৈছে—দুয়োটাই V11 দ্বিতীয় আপডেটৰ শিৰোনাম আৰু ১০০,০০০-কেছ ফলাফলসহ আপডেট কৰা হৈছে—আৰু MIT-licensed Python harness, য’ত সকলো reference ৰান ফলাফল আছে, সেইটো github.com/emirhanai/kantesti-blood-test-benchmark ত আছে। চাৰিখন প্লেটফ’ৰ্মৰ mirror নেটৱৰ্কে দীৰ্ঘম্যাদী উপলব্ধতা আৰু citation flexibility নিশ্চিত কৰে।.

AI চিকিৎসা বেঞ্চমাৰ্কৰ বাবে pre-registration কিয় গুৰুত্বপূৰ্ণ?

Pre-registration এ post-hoc rubric tuning ৰোধ কৰে—যিটো কোম্পানী-চালিত বেঞ্চমাৰ্কে নিজৰ সংখ্যা স্ফীত (inflate) কৰাৰ আটাইতকৈ সাধাৰণ একমাত্ৰ উপায়। কোনো ইঞ্জিন কল কৰাৰ আগতেই উৎস ক’ডত ৰুব্ৰিকটো commit কৰি আৰু harness-টো ৰাজহুৱা কৰি দিলে, ৰুব্ৰিক লেখকৰ তাৰিখসমূহ version control-ত পৰীক্ষাযোগ্য (inspectable) হৈ পৰে, আৰু ইঞ্জিনৰ ফলাফলে স্ক’ৰিং মানদণ্ড (scoring criteria) গঢ়ি তুলিব নোৱাৰা হয়।.

এই বেঞ্চমাৰ্কত আন আন AI ইঞ্জিনৰ সৈতে তুলনা অন্তৰ্ভুক্ত আছে নেকি?

নহয়। V11 ৰিপ’ৰ্ট—দুয়োটা, প্ৰথম মুক্তি আৰু দ্বিতীয় আপডেট—ইচ্ছাকৃতভাৱে এটা স্থিৰ (fixed) ৰুব্ৰিকৰ বিপৰীতে এটা একক ইঞ্জিনক বৰ্ণনা কৰে, বিকল্প কিছুমান বাণিজ্যিক ব্যৱস্থাৰ বিপৰীতে স্থাপন (positioning) নকৰে। harness MIT লাইচেন্সৰ অধীনত open source (এতিয়া SQL কেছ ল’ডাৰো অন্তৰ্ভুক্ত), সেয়ে স্বাধীন গৱেষকসকলে তেওঁলোকে বাছি লোৱা যিকোনো ইঞ্জিনক একেই ৰুব্ৰিক আৰু কেছ ল’ডাৰৰ বিপৰীতে মূল্যায়ন কৰি নিজৰ ফলাফল প্ৰকাশ কৰিব পাৰে।.

ৰোগীৰ কেছসমূহ বাস্তৱ নে কৃত্ৰিম (synthetic)?

সকলো কেছ কৃত্ৰিমভাৱে উৎপাদিত—V11 আৰম্ভণি ৰিলিজত 15টা হাতেৰে নিৰ্মিত কেছ আৰু দ্বিতীয় আপডেটত 100,000টা। এইবোৰ কৃত্ৰিম কেছ নহয়: কোনো কৃত্ৰিম ডাটা (synthetic data), কোনো সম্মতি প্ৰক্ৰিয়া (consent process), আৰু কোনো ডি-আইডেণ্টিফিকেচন (de-identification) জড়িত নহয়, কাৰণ ক’হ’ৰ্টত কোনো ব্যক্তিগত তথ্য (personal data) নাই। প্ৰকাশিত হাৰ্নেছ (published harness), কাৰিগৰী প্ৰতিবেদন (technical report), বা মুক্তি দিয়া ডেটাছেটসমূহত কোনো ব্যক্তিগত তথ্য দেখা নাযায়।.

⚕️ চিকিৎসা সতৰ্কীকৰণ (Medical Disclaimer) & স্বার্থৰ সংঘাত (Conflict of Interest)

এই বেঞ্চমাৰ্ক প্ৰতিবেদনখন গৱেষণা আৰু পদ্ধতিগত স্বচ্ছতাৰ উদ্দেশ্যে। ই চিকিৎসা পৰামৰ্শ হিচাপে গণ্য নহয়, কোনো নিৰ্ণয় নহয়, আৰু পেছাদাৰী চিকিৎসা যত্নৰ বিকল্প নহয়; ইয়াত থকা কোনো ফলাফলক চিকিৎসকৰ ওচৰত যোৱা পলম কৰিবলৈ বা এৰাই চলিবলৈ ব্যৱহাৰ কৰা উচিত নহয়। নিৰ্ণয় আৰু চিকিৎসা সিদ্ধান্তৰ বাবে সদায় যোগ্য স্বাস্থ্যসেৱা প্ৰদানকাৰীৰ সৈতে পৰামৰ্শ কৰক। এইটো কোম্পানীৰ নিজা ইঞ্জিনৰ এটা স্ব-চালিত অভ্যন্তৰীণ বেঞ্চমাৰ্ক, যাক স্বাধীনভাৱে ভেলিডেট বা peer-reviewed কৰা হোৱা নাই। কম্প’জিট স্ক’ৰটোৱে এটা স্থিৰ ৰুব্ৰিকৰ সৈতে সঙ্গতি (প্ৰতিবেদন গঠন, কী-ৱৰ্ড আৰু স্ক’ৰিং-চিষ্টেম ৰিকল, আৰু লেটেন্সি) জুখে; ই বাস্তৱ-জগতৰ নিৰ্ণয়গত সঠিকতা বা ক্লিনিকেল সুৰক্ষাৰ মাপকাঠি নহয়। দুয়োগৰাকী লেখক Kantesti Ltdত নিযুক্ত আৰু ইকুইটি ধাৰণ কৰে, আৰু মূল্যায়ন কৰা ইঞ্জিনটো একে সংগঠনৰ এটা বাণিজ্যিক পণ্য। এই স্বাৰ্থ-সংঘাত কমোৱা হৈছে উৎস ক’ডত ৰুব্ৰিক pre-register কৰাৰ মাধ্যমে, MIT licenceৰ অধীনত harness মুকলি কৰাৰ মাধ্যমে, আৰু কেঁচা ইঞ্জিন উত্তৰৰ এটা stratified random sample প্ৰকাশ কৰাৰ মাধ্যমে।.

E-E-A-T বিশ্বাস সংকেত

⭐

অভিজ্ঞতা

কেছ পেনেল নিৰ্বাচন তত্ত্বাৱধান কৰা ১৫+ বছৰীয়া ক্লিনিকেল হেমাট’লজি আৰু লেব’ৰেটৰী মেডিচিনৰ অভিজ্ঞতা।.

📋

বিশেষজ্ঞতা

স্পষ্ট হাইপাৰডায়েগন’ছিছ শাস্তি (penalties) আৰু স্বীকৃত ক্লিনিকেল স্ক’ৰিং ব্যৱস্থা (Mentzer, FIB-4, EULAR/ACR, KDIGO) সহ pre-registered ৰুব্ৰিক ডিজাইন।.

👤

কৰ্তৃত্বশীলতা

মূল লেখক ড° থমাছ ক্লেইন, এম.ডি. (ORCID 0009-0009-1490-1321)। বাস্তৱায়ন (Implementation) জুলিয়ান এমিৰহান বুলুট, Kantesti Ltd-ৰ CEO।.

🛡️

বিশ্বাসযোগ্যতা

MIT-লাইচেন্সযুক্ত পুনৰুৎপাদনযোগ্য (reproducible) harness, কেঁচা ইঞ্জিন উত্তৰ প্ৰকাশিত, open conflict-of-interest disclosure, চাৰিখন প্লেটফৰ্মৰ গৱেষণা mirror নেটৱৰ্ক।.

🏢 কান্টেষ্টি লিমিটেড ইংলেণ্ড আৰু ৱেলছত পঞ্জীয়নভুক্ত · কোম্পানী নং।. 17090423 লণ্ডন, যুক্তৰাজ্য · kantesti.net