এই বেঞ্চমাৰ্ক কিয় আছে আৰু ই কি পৰীক্ষা কৰে

AI-সহায়ত তেজ পৰীক্ষাৰ ফলাফল কেনেকৈ পঢ়িব কনজিউমাৰ আৰু ক্লিনিকেল কাৰ্যপ্ৰবাহত ক্ৰমাৎ বেছি ব্যৱহাৰ কৰা হৈছে, কিন্তু লেবৰেটৰী চিকিৎসাৰ বাবে উপযোগী পুনৰুৎপাদনযোগ্য মূল্যায়ন কাঠামো অতি কম। এই পৰিস্থিতিত আটাইতকৈ গুৰুত্বপূৰ্ণ প্ৰশ্নবোৰ সাধাৰণ চিকিৎসা প্ৰশ্ন-উত্তৰ বেঞ্চমাৰ্কত কোৱা নহয়: mean corpuscular volume একে থাকিলেও এটা ইঞ্জিনে লৌহৰ অভাৱক থেলাছেমিয়া বৈশিষ্ট্যৰ পৰা পৃথক কৰিব পাৰেনে, hepatitis হিচাপে Gilbert's syndrome অতিনিৰ্ণয় (over-diagnose) কৰে নেকি, আৰু সম্পূৰ্ণ স্বাভাৱিক স্ক্ৰীণিং পেনেলত প্যাথলজি “উৎপাদন” কৰে নেকি?

Pre-registered rubric flow diagram যিয়ে দেখুৱাইছে কেনেকৈ Kantesti AI Engine — V11 Second Update, 100,000 কেছত 99.80% composite স্ক’ৰ —ক স্থিৰ (frozen) স্ক’ৰিং মানদণ্ডৰ বিপৰীতে মূল্যায়ন কৰা হয়
চিত্ৰ ১: V11 Second Update 100,000-case cohortৰ পিচফালে থকা বেঞ্চমাৰ্ক স্থাপত্য 99.80% কম্প’জিট স্ক’ৰ — প্ৰতিটো কেছ, প্ৰতিটো কী-ৱৰ্ড, প্ৰতিটো স্ক’ৰিং ব্যৱস্থা ইঞ্জিনে এটা PDF দেখাৰ আগতেই উৎস-সংকেতত স্থিৰ কৰা থাকে, আৰু ৰুব্ৰিকটো V11 আৰম্ভণি মুক্তিৰ সৈতে বাইট-একেই; ডিজাইনৰ দ্বাৰা post-hoc ৰুব্ৰিক টিউনিং সম্ভৱ নহয়।.

এটা একক তেজ পৰীক্ষাৰ পেনেল সাধাৰণতে কেইবাটাও প্ৰতিদ্বন্দ্বী ব্যাখ্যাৰ বাবে যথেষ্ট সংকেত বহন কৰে, আৰু ব্যাখ্যা কৰা চিকিৎসকজনৰ কাম হ’ল সেই ব্যাখ্যাবোৰক ইটোৰ সৈতে সিটো তুলনা কৰি ওজন দিয়া—পাঠ্যপুথিৰ এটা “ঠিক উত্তৰ” উদ্ধাৰ কৰা নহয়। পাঠ্যপুথিৰ কেছত ভাল কৰা এটা ইঞ্জিনে তথাপিও আটাইতকৈ গুৰুত্বপূৰ্ণ কেছত বিফল হ’ব পাৰে: differential-diagnosis ৰ ফান্দ, কেৱল এককভাৱে দেখিলে ভয়ংকৰ যেন লগা নিৰীহ ভেৰিয়েন্ট, আৰু সম্পূৰ্ণ স্বাভাৱিক পেনেল যিয়ে আত্মবিশ্বাসী সহায়কক pathology “উৎপাদন” কৰিবলৈ প্ৰলোভিত কৰে।.

এই benchmark ঠিক এই ধৰণৰ বিফলতাৰ ধৰণবোৰৰ ওপৰত নিৰ্মাণ কৰা হৈছিল। পঞ্চদশটা কেছক এটা নিৰ্দিষ্ট ডায়াগন’ষ্টিক গুণৰ বাবে বাছনি কৰা হৈছিল: একে mean corpuscular volume থকা beta-thalassaemia trait ৰ পৰা পৃথক কৰি ৰাখিব লাগা iron-deficient microcytosis, এটা Gilbert's syndrome ৰ উপস্থাপন য’ত একমাত্ৰ অস্বাভাৱিকতা হ’ল isolated indirect hyperbilirubinaemia, আৰু এটা পঞ্চদশ-পেৰামিটাৰ screening পেনেল য’ত প্ৰতিটো analyte নিজৰ reference range ৰ ভিতৰতেই থাকে। rubric এ সেই ইঞ্জিনক পুৰস্কৃত কৰে যিয়ে প্ৰতিটো কেছক নিজৰ নিজা চৰ্তত পঢ়ে, আৰু সেই ইঞ্জিনক শাস্তি দিয়ে যিয়ে এনে ডায়াগন’ছিছৰ প্ৰয়োজন নথকা সত্ত্বেও আত্মবিশ্বাসী ডায়াগন’ছিছত উপনীত হয়।.

MD থমাছ ক্লেইন হিচাপে, মই কেছ পেনেল বাছনি কৰিছিলোঁ কাৰণ মই দেখোঁ যে laboratory-medicine সহায়কসকলে আটাইতকৈ বেছি ভুল কৰা পেটাৰ্নবোৰ এয়াই।. ব্যয়বহুল বিফলতাৰ ধৰণটো "এটা বিৰল ৰোগ এৰি যোৱা" নহয়—ইয়াৰ বদলে, যিসকল ৰোগীয়ে সেই ৰোগটো নাথাকে তেওঁলোকৰ ক্ষেত্ৰত routine pathology উদ্ভাৱন কৰা।. আমাৰ চিকিৎসা বৈধকৰণ hub এ অধিক বিস্তৃত ফ্ৰেমৱৰ্ক বৰ্ণনা কৰে; এই পৃষ্ঠাই V11 প্ৰথম proof-of-concept আৰু V11 দ্বিতীয় আপডেট বৰ্ণনা কৰে যিয়ে একে স্ক’ৰিং ৰুব্ৰিক ব্যৱহাৰ কৰি, বাইট-একেই, আৰু কোনো post-hoc tuning অনুমোদন নোহোৱাকৈ, 127 দেশৰ লেবেল জুৰি বিস্তৃত এটা সিন্থেটিক কেছ ছেটৰ পৰা সংগ্ৰহ কৰা 100,000টা সিন্থেটিক কেছলৈ স্কেল কৰিছিল।.

শেহতীয়া ৰেফাৰেন্স ৰান — V11 Second Update (April 26, 2026)

26 April 2026-ৰ V11 Second Update ৰেফাৰেন্স ৰানে 99.80% একেটি pre-registered ৰুব্ৰিকৰ ওপৰত (V11 আৰম্ভণি মুক্তিত ব্যৱহৃত) ভিত্তি কৰি মূল্যায়ন কৰি 100,000টা সিন্থেটিক কেছ Kantesti সিন্থেটিক কেছ ছেটৰ পৰা সংগ্ৰহ কৰা আৰু বিস্তৃত 127টা দেশৰ লেবেল আৰু 75+ ভাষাসমূহ জুৰি। প্ৰতিটো কেছ ইঞ্জিনৰ প্ৰাথমিক পথত সম্পূৰ্ণ হৈছিল; trap-case hyperdiagnosis flag সক্ৰিয়কৰণ 0 / 87,412. তেই থাকিল। 23 April 2026-ৰ মূল V11 ৰানে 15টা হাতে-নিৰ্বাচিত কেছ (composite 99.12%) সামৰি লৈ ৰুব্ৰিকটো বৈধতা দিছিল; Second Update-এ সেই ৰুব্ৰিকটো বাইট-একেই ৰাখি মূল্যায়নক জনসংখ্যা-স্কেল cohortলৈ সম্প্ৰসাৰিত কৰে।.

Composite 99.80% 100,000ৰ ভিতৰত 100,000 কেছত স্ক’ৰ
1.000 Structural score
0.996 Clinical score
13.26 s Mean latency
0 / 87,412 Trap false-positives

Composite সূত্ৰটোৱে তিনিটা উপাদান একত্ৰিত কৰে: structural conformance সাতটা বাধ্যতামূলক report section আৰু ষোলটা বাধ্যতামূলক subsection ৰ সৈতে, বিষয়বস্তুৰ সঠিকতা যাক মাপা হয় keyword recall + scoring-system recall + probability-distribution validity check ৰে, আৰু response latency প্ৰাথমিক-পথ service-level লক্ষ্যৰ বিপৰীতে। তলৰ ৰুব্ৰিক সূত্ৰত সঠিক বিশ্লেষণ দেখুওৱা হৈছে—Second Update-ৰ বাবে এই ওজনসমূহ বা sub-rubrics কোনোটোৱেই সলনি কৰা হোৱা নাছিল।.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × বিলম্বতা

headroomৰ বাকী 0.20 শতাংশ পইণ্ট প্ৰায় সম্পূৰ্ণৰূপে ক্লিনিকেল sub-score-লৈ বিভাজিত হয়—কিছুমান কেছৰ এটা সৰু অংশ (প্ৰধানকৈ Hepatology আৰু Rheumatology-ত) ইঞ্জিনৰ ব্যাখ্যাত এটা আশা কৰা স্ক’ৰিং-ব্যৱস্থা কী-ৱৰ্ড নাছিল, যদিও ডায়াগন’ষ্টিক বিষয়বস্তু সঠিক আছিল।. 100,000-কেছ Second-Update cohort-ৰ কোনো কেছেই নিজেই ডায়াগন’ছিছটো মিছ নকৰিলে।. latency V11 আৰম্ভণি মুক্তিত গড়ে 20.17 s পৰা Second Update-ত 13.26 s লৈ উন্নত হৈছিল—দুটা ৰানৰ মাজত production ইঞ্জিন অপ্টিমাইজেচনৰ প্ৰতিফলন; ৰুব্ৰিক, স্ক’ৰিং কোড, আৰু API endpoint একেই আছে।.

প্ৰতি-লেবেল যৌগিক স্ক’ৰসমূহ 30টা আটাইতকৈ বেছি প্ৰতিনিধিত্ব কৰা দেশৰ লেবেলৰ ক্ষেত্ৰত 0.9971ৰ পৰা 0.9985লৈ পৰিসৰ দেখুৱাইছে। অতি কম প্ৰতিনিধিত্ব থকা 97টা অতিৰিক্ত লেবেলৰ “লং টেইল” (মুঠতে ≈7,300 কেছ)ত কোনো ধৰণৰ পদ্ধতিগত অৱনতি (systematic degradation) দেখা নগ’ল। কেছ গণনাৰ ভিত্তিত আটাইতকৈ বেছি ঘন ঘন লেবেলসমূহ আছিল—যুক্তৰাষ্ট্ৰ (10,500), ব্ৰাজিল (9,500), স্পেইন (9,000), ইতালি (8,000), জাৰ্মানি (7,800), ফ্ৰান্স (7,400), পৰ্তুগাল (5,800), Türkiye (3,400), যুক্তৰাজ্য (2,900), আৰু মেক্সিকো (2,500)।.

১৫টা কেছৰ পৰা 100,000লৈ: 127 দেশৰ লেবেল জুৰি ক’হ’ৰ্টৰ বিকাশ

মূল V11 কেছ পেনেলত সাতটা বিশেষত্ব আছিল — হেমাট’ল’জি, এণ্ড’ক্ৰাইন’ল’জি, মেটাব’লিক মেডিচিন, হেপাট’ল’জি, নেফ্ৰ’ল’জি, কাৰ্ডিয়’ল’জি, ৰিউমাট’ল’জি — লগতে দুটা নিবেদিত hyperdiagnosis trap কেছ; প্ৰতিটো কেছেই এটা সিন্থেটিকভাৱে সৃষ্টি কৰা ৰক্ত-টেষ্ট পেনেল। V11 দ্বিতীয় আপডেটে মূল্যায়ন সম্প্ৰসাৰিত কৰে 127 দেশৰ লেবেল জুৰি 100,000টা সিন্থেটিক কেছলৈ, সম্প্ৰসাৰিত কৰে—আঠটা বিশেষত্বত বিভক্ত (মূল সাতটা + trap subset-টো শোষণ কৰা এটা dedicated internal-medicine bucket)। একেটি স্ক’ৰিং ৰুব্ৰিক দুয়োটা ৰানতে বাইট-একেই প্ৰয়োগ কৰা হয়।.

V11 আৰম্ভণি কেছ-পেনেল ডিজাইন—সাতটা চিকিৎসা বিশেষত্বত পঞ্চদশটা কৃত্ৰিম ৰক্ত পৰীক্ষা কেছ আৰু দুটা হাইপাৰডায়াগন’ছিছ ট্ৰেপ কেছ; একে ৰুব্ৰিকে V11 দ্বিতীয় আপডেটত 100,000টা কেছত 99.80% কম্প’জিট স্ক’ৰ লাভ কৰিছিল
চিত্ৰ ২: hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology—এইবোৰৰ ভিতৰত V11 আৰম্ভণি কেছ-পেনেল ডিজাইন, লগতে দুটা trap কেছ—Gilbert's syndrome আৰু সম্পূৰ্ণ স্বাভাৱিক screening panel। Second Update-এ এই ৰুব্ৰিকটো বাইট-একেই সংৰক্ষণ কৰি cohort-টোক Kantesti SQL ৰিপ’জিটৰীৰ পৰা সংগ্ৰহ কৰা 100,000 কেছলৈ সম্প্ৰসাৰিত কৰে।.

কিয়নো সকলো কেছেই সিন্থেটিকভাৱে সৃষ্টি কৰা, সেয়েহে আঁতৰাবলৈ কোনো বাস্তৱ শনাক্তকাৰী নাই আৰু কোনো ব্যক্তিগত ডাটা জড়িত নহয়। প্ৰতিটো সিন্থেটিক কেছেই এটা বেঞ্চমাৰ্ক-অভ্যন্তৰীণ কেছ ক’ড বহন কৰে (V11 প্ৰথম ছেটত BT-NNN-LABEL, এটা স্থিৰ case_uid দ্বিতীয় আপডেটত)। প্ৰকাশিত হাৰ্নেছ, কাৰিগৰী প্ৰতিবেদন, বা মুক্তি দিয়া ডেটাছেটসমূহৰ ক’তো কোনো ব্যক্তিগত ডাটা দেখা নাযায়।.

V11 আৰম্ভণি মুক্তি অনুসৰি — 15টা হাতে-নিৰ্বাচিত কেছ

মূল V11 কেছ পেনেলখন ড০. থমাছ ক্লেইনে হাতেৰে বাছনি কৰি তৈয়াৰ কৰিছিল যাতে লেবোৰেটৰী-মেডিচিন সহায়কসকলে আটাইতকৈ বেছি ভুল কৰা ডায়াগন’ষ্টিক ধৰণসমূহ অনুশীলন কৰিব পাৰি। তলত দিয়া অনুসৰি পোন্ধৰটা কেছক এটা এটা নিৰ্দিষ্ট ডায়াগন’ষ্টিক বৈশিষ্ট্যৰ বাবে বাছনি কৰা হৈছিল।.

হেমাট’লজি (3) BT-001, BT-006, BT-007 Iron deficiency anaemia · B12 deficiency · Beta-thalassaemia minor
এণ্ড’ক্ৰাইন’লজি (3) BT-002, BT-008, BT-012 Hashimoto's thyroiditis · ইনচুলিন ৰেজিষ্টেন্স থকা PCOS · গুৰুতৰ ভিটামিন ডিৰ অভাৱ
মেটাবলিক (2) BT-003, BT-013 মেটাবলিক ছিণ্ড্ৰমসহ T2DM · গাউটৰ ঝুঁকি থকা Hyperuricaemia
হেপাট’লজি (2) BT-004, BT-009 NAFLD / NASH · তীব্ৰ ভাইৰেল হেপাটাইটিছ
নেফ্ৰ’লজি · কাৰ্ড’লজি · ৰিউমেট’লজি (3) BT-005, BT-010, BT-011 CKD stage 3 · Atherogenic dyslipidaemia · Systemic lupus erythematosus
Trap কেছ (2) BT-014, BT-015 Gilbert's syndrome (isolated indirect hyperbilirubinaemia) · সম্পূৰ্ণ স্বাভাৱিক প্ৰাপ্তবয়স্ক স্ক্ৰিন

এই বিশেষ বিতৰণ কিয়?

হেমাট’লজি তিনিটা কেছ পায় কাৰণ মাইক্ৰ’চাইটিক ডিফাৰেনচিয়েল আৰু মেক্ৰ’চাইটিক ডিফাৰেনচিয়েল—দুয়োটাই বাস্তৱ-জগতৰ লেব’ৰেটৰী অনুশীলনত সৰ্বাধিক পৰিমাণৰ “ট্ৰেপ”। এণ্ড’ক্ৰাইন’লজি তিনিটা কেছ পায় কাৰণ Hashimoto's, PCOS, আৰু ভিটামিন ডিৰ অভাৱ—এইবোৰৰ উপস্থাপনাই ভিন্ন ভিন্ন ডায়াগন’ষ্টিক আকৃতি সৃষ্টি কৰে (autoantibody-চালিত, hormone-ratio-চালিত, একক-মাৰ্কাৰ-চালিত)। একক-কেছ বিশেষত্বসমূহ এতিয়াও অৰ্থবহ, কাৰণ CKD, ASCVD ৰিস্ক, আৰু SLE—এই তিনিওটাৰ নিজস্ব স্ক’ৰিং ব্যৱস্থা আছে যিটো ইঞ্জিনে আহ্বান কৰিব লাগে (KDIGO staging, ASCVD 10-year risk, আৰু ক্ৰমে 2019 EULAR/ACR SLE criteria)।.

V11 দ্বিতীয় আপডেট — 127 দেশৰ লেবেল জুৰি 100,000টা সিন্থেটিক কেছ

দ্বিতীয় আপডেটে মূল V11 hard-coded 15-কেছ Python literal-টোক এটা ডাঙৰ, প্ৰগ্ৰামেটিকভাৱে সৃষ্টি কৰা সিন্থেটিক কেছ ছেটৰ সৈতে সলনি কৰে। কেছ ছেট প্ৰতিটো ৰানৰ আৰম্ভণিতে ল’ড কৰা হয় আৰু স্বচ্ছতাৰ বাবে কনফিগাৰেচন লগ কৰা হয়। বিষয়বস্তু ক্ষেত্ৰ (content area) অনুসৰি ক’হ’ৰ্টৰ বিতৰণ তলত দেখুওৱা হৈছে।.

এণ্ডক্ৰাইন’লজী আৰু স্বচ্ছতাৰ বাবে প্ৰতিটো বেঞ্চমাৰ্ক ৰানৰ ওপৰতেই প্ৰিণ্ট কৰা হয়। বিশেষত্ব অনুসৰি ক’হৰ্টৰ বিতৰণ তলত দেখুওৱা হৈছে। 23,900 কেছ (23.9%)
থাইৰয়ড, PCOS, ভিটামিন ডি, গ’নাডাল এক্সিছ, পিটুইটাৰী মেটাবলিক মেডিচিন 21,900 কেছ (21.9%)
ৰক্তবিজ্ঞান T2DM, মেটাবলিক ছিণ্ড্ৰম, লিপিড পেনেল, হাইপাৰইউৰিকেমিয়া 15,400 কেছ (15.4%)
হেপাট’লজি মাইক্ৰ’চাইটিক আৰু মেক্ৰ’চাইটিক ডিফাৰেনশিয়েল, B12/ফ’লেট, আয়ৰণ ষ্টাডি 12,400 কেছ (12.4%)
NAFLD/NASH, ভাইৰেল হেপাটাইটিছ, FIB-4, ক’লেষ্টেছিছ অভ্যন্তৰীণ মেডিচিন (ট্ৰেপ ছাব-ছেট অন্তৰ্ভুক্ত) 9,000 কেছ (9.0%)
হৃদৰোগ বিজ্ঞান (Cardiology) মিশ্ৰিত উপস্থাপন আৰু 8,723 গৰাকী নিৰ্দিষ্ট হাইপাৰডায়াগন’ষ্টিক ট্ৰেপ কেছ 7,500 কেছ (7.5%)
ৰিউমেট’লজি ASCVD ৰিস্ক, এথেৰ’জেনিক ডিছলিপিডেমিয়া, hs-CRP 6,000 কেছ (6.0%)
নেফ্ৰ’লজী SLE, RA, ভেছকুলাইটিছ, অটোএণ্টিবডি পেনেল (EULAR/ACR মানদণ্ড) 4,000 কেছ (4.0%)

কৃত্রিম দেশ-লেবেল বিতৰণ — শীৰ্ষ 10টা লেবেল

100,000টা কৃত্রিম কেছত 127টা দেশৰ লেবেল (ISO 3166-1 alpha-2) আছে যাতে লোকেল (locale) পৰিচালনা পৰীক্ষা কৰিব পাৰি। লেবেল নিৰ্ধাৰণ: ইউৰোপ 57.7%, আমেৰিকাস 25.4%, এচিয়া-পেচিফিক 6.2%, নামকৰণ কৰা মধ্য-পূব/আফ্ৰিকা লেবেল 3.4%, আৰু প্ৰায় 7.3% মুঠতে যোগ হোৱা 97টা অতিৰিক্ত লেবেলৰ এটা লং টেইল। কেছ গণনাৰ ভিত্তিত আটাইতকৈ বেছি ঘন ঘন দহটা লেবেল আছিল—যুক্তৰাষ্ট্ৰ (10,500), ব্ৰাজিল (9,500), স্পেইন (9,000), ইতালি (8,000), জাৰ্মানি (7,800), ফ্ৰান্স (7,400), পৰ্তুগাল (5,800), Türkiye (3,400), যুক্তৰাজ্য (2,900), আৰু মেক্সিকো (2,500)। প্ৰতি-লেবেল যৌগিক স্ক’ৰসমূহ 0.9971ৰ পৰা 0.9985লৈ পৰিসৰ দেখুৱাইছে। এই লেবেল গণনাসমূহ লোকেল পৰিচালনা পৰীক্ষা কৰিবলৈ ব্যৱহৃত সৃষ্টি কৰা কেছসমূহৰ বৈশিষ্ট্য—ইয়াত বাস্তৱ ব্যৱহাৰকাৰী নাই আৰু বাস্তৱ-জগতৰ ভৌগোলিক কভাৰেজো নাই।.

পূৰ্ব-নিবন্ধিত ৰুব্ৰিক, বুজাই দিয়া হৈছে

এই বেঞ্চমাৰ্কত pre-registration হৈছে সৰ্বাধিক গুৰুত্বপূৰ্ণ পদ্ধতিগত সিদ্ধান্ত। প্ৰতিটো সম্ভাৱ্য ডায়াগন’ছিছ, প্ৰতিটো ক্লিনিকেল স্ক’ৰিং ব্যৱস্থা, আৰু প্ৰতিটো ৰিপ’ৰ্ট অংশ—সকলোকে ইঞ্জিন আহ্বান কৰাৰ আগতেই source code-ত কমিট কৰা হৈছিল ইঞ্জিন আহ্বান কৰাৰ আগতে. । সেয়েহে ইঞ্জিনক সন্তুষ্ট কৰিবলৈ rubric-ৰ post-hoc tuning সম্ভৱ নহয়।.

কম্প’জিট স্ক’ৰ গঠন কৰে তিনিটা উপাদানে। সেই structural component এ 35 শতাংশ বৰঙণি দিয়ে আৰু জুখে যে ইঞ্জিনে সাতটা বাধ্যতামূলক ৰিপ’ৰ্ট অংশ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) আৰু সেইবোৰৰ ভিতৰত থকা ষোলটা বাধ্যতামূলক উপ-অংশ সঠিকভাৱে ঘূৰাই দিছিল নে নাই। structural calculation-ত section presence এ 40 শতাংশ ওজন পায় আৰু subsection presence এ 60 শতাংশ ওজন পায়।.

দ্য... clinical component এ 55 শতাংশ বৰঙণি দিয়ে আৰু তিনিটা বস্তু একত্ৰিত কৰে: diagnosis-keyword recall (clinical sub-score-ৰ 70 শতাংশ), scoring-system recall (20 শতাংশ — প্ৰাসংগিক হ’লে ইঞ্জিনে Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR criteria গণনা কৰে নে নাই), আৰু probability-sum validity check (10 শতাংশ — differential সম্ভাৱনাসমূহে [90, 110] অন্তৰালৰ ভিতৰত যোগফল দিব লাগিব)। ট্ৰেপ কেছৰ বাবে, সর্বোচ্চ 0.30 পৰ্যন্ত এটা স্পষ্ট hyperdiagnosis penalty কাটি দিয়া হয়—প্ৰতি fabricated pathology flag-ত 0.10 হিচাপে গণনা কৰি, সৰ্বোচ্চ তিনিটা flag-ত সীমাবদ্ধ।.

দ্য... latency component এ 10 শতাংশ বৰঙণি দিয়ে। 20 ছেকেণ্ডৰ তলত উত্তৰ দিলে পূৰ্ণ 0.10 পোৱা যায়, 40 ছেকেণ্ডৰ তলত উত্তৰ দিলে 0.05 পোৱা যায়, আৰু তাতকৈ ধীৰ যিকোনো উত্তৰে শূন্য পায়। 20-ছেকেণ্ড লক্ষ্য হৈছে production primary-path service-level objective; 40-ছেকেণ্ড ceiling হৈছে heavy-engine invocations-ৰ বাবে Phase 2 fallback budget।.

MIT-licensed Kantesti বেঞ্চমাৰ্ক harness চলি থকা আৰু প্ৰতি-কেছ স্ক’ৰ নিৰ্গত (emit) কৰা টাৰ্মিনেল স্ক্ৰিনশ্বট — একেই harness, এতিয়া SQL-চালিত, V11 দ্বিতীয় আপডেটৰ 100,000-কেছ ৰানত 99.80% composite স্ক’ৰ উৎপন্ন কৰিছিল
চিত্ৰ ৩: কাৰ্যকৰী হৈ থকা হাৰ্নেছ — সেই একে ইঞ্জিন যিয়ে উৎপন্ন কৰিছিল 99.80% যৌগিক V11 Second Update 100,000-কেছ ক’হৰ্ট। প্ৰতিটো কেছক A4 PDF হিচাপে ৰেণ্ডাৰ কৰা হয়, উৎপাদন v11 এণ্ডপইণ্টলৈ প’ষ্ট কৰা হয়, আৰু জমা হোৱা হিমায়িত ৰুব্ৰিকৰ বিপৰীতে স্ক’ৰ কৰা হয়। Second Update-এ এটা পেৰামিটাৰাইজড SQL কেছ ল’ডাৰ যোগ কৰিছিল; কেঁচা ইঞ্জিন উত্তৰৰ এটা স্তৰীকৃত এলোমেলি নমুনা (n = 201) একত্ৰিত স্ক’ৰকাৰ্ডৰ কাষত সংৰক্ষণ কৰা হয়।.

pre-registration-এ কি বাধা দিয়ে

First-party বেঞ্চমাৰ্কসমূহে post-hoc rubric tuning কৰি নিজৰ সংখ্যাবোৰ স্ফীত কৰাৰ বাবে কুখ্যাত। আৰ্হিটো প্ৰায় সদায় একে: দলটোৱে ইঞ্জিন চলায়, ক’ত কম ফল দিছে দেখে, তাৰ পিছত নিস্তব্ধভাৱে rubric-টো সামঞ্জস্য কৰে যাতে কম ফল দিয়া ক্ষেত্ৰসমূহে কম গণনা পায়। প্ৰথম ইঞ্জিন কলৰ আগতেই rubric-টো source code-ত কমিট কৰি আৰু MIT licence-ত harness প্ৰকাশ কৰি, এই সামঞ্জস্যটো version control-ত দৃশ্যমান হৈ পৰে। যিকোনো ব্যক্তিয়ে repository clone কৰিব পাৰে, rubric author dates পৰীক্ষা কৰিব পাৰে, আৰু ইঞ্জিনৰ ফলাফল স্ক’ৰিং গঢ়িবলৈ ব্যৱহাৰ কৰা হোৱা নাছিল বুলি নিশ্চিত কৰিব পাৰে।.

হাইপাৰডাইগন’ছিছ ফাঁদ কেছ — কিয় অতিমাত্ৰা কল কৰাটো প্ৰকৃত বিফলতাৰ ধৰণ

স্বাভাৱিক স্ক্ৰীণত pathology-ৰ কথা অতিমাত্ৰা জোৰেৰে কোৱা—consumer-facing চিকিৎসা সহায়কসকলৰ বাবে এটা নথিভুক্ত ব্যৰ্থতা ধৰণ। ইয়াৰ downstream খৰচসমূহৰ ভিতৰত আছে অপ্রয়োজনীয় তদন্ত, ৰোগীৰ উদ্বেগ, আৰু iatrogenic workup। এই বেঞ্চমাৰ্কৰ দুটা ট্ৰেপ কেছ এই ব্যৰ্থতা ধৰণটো দৃশ্যমান আৰু স্ক’ৰযোগ্য কৰিবলৈ ডিজাইন কৰা হৈছে।.

এটা naive AI-এ গিলবাৰ্ট’ছ ছিণ্ড্ৰম পেনেলত হেপাটাইটিছ কৃত্ৰিমভাৱে (fabricating) দেখুওৱাৰ বিপৰীতে Kantesti ইঞ্জিনে নিৰীহ UGT1A1 পলিমৰ্ফিজম সঠিকভাৱে চিনাক্ত কৰাৰ side-by-side তুলনা — এই পদ্ধতিটো V11 দ্বিতীয় আপডেট 99.80% বেঞ্চমাৰ্কত 87,412টা ট্ৰেপ-ফ্লেগ সুযোগ জুৰি শূন্য false-positives লৈ স্কেল হৈছিল
চিত্ৰ ৪: V11 আৰম্ভণিৰ মুক্তিৰ পৰা অহা trap-case ডিজাইন — যি ইঞ্জিনে Gilbert's syndrome-এ হেপাটাইটিছ বুলি আত্মবিশ্বাসেৰে লেবেল কৰে, বা যি সম্পূৰ্ণ স্বাভাৱিক স্ক্ৰীণত সীমান্তীয় প্যাথলজি “উৎপাদন” কৰে, তাক “ক্লিনিকেল যেন লাগিছে” বুলি কোৱা বাবে পুৰস্কৃত নহয়, বৰং শাস্তি দিয়া হয়। এই পদ্ধতি V11 Second Update 100,000-কেছ ৰানত উৎপন্ন হোৱা 99.80% যৌগিক স্ক’ৰলৈকে 0 / 87,412 false-positives-লৈ স্কেল কৰা হৈছিল।.

🟡 ট্ৰেপ 1 — BT-014-GILBERT

উপস্থাপন।. 2.4 mg/dL মুঠ বিলিৰুবিন থকা 24 বছৰীয়া এজন পুৰুষ। direct অংশ স্বাভাৱিক, transaminases আৰু alkaline phosphatase তেওঁলোকৰ reference range-ৰ ভিতৰত থাকে, reticulocytes অস্বাভাৱিক নহয়, আৰু haptoglobin আৰু LDH-এ haemolysis নাকচ কৰে।.

সঠিক ব্যাখ্যা।. Gilbert's syndrome — এটা benign UGT1A1 polymorphism। ব্যাখ্যাই hepatitis, cirrhosis, haemolytic anaemia, বা biliary obstruction আহ্বান কৰা উচিত নহয়।.

V11 ফলাফল।. Composite 1.000। ছয়টা নিৰীক্ষিত over-diagnosis flag-ৰ কোনোটোৱেই active diagnosis হিচাপে দেখা নগ’ল।.

🟡 ট্ৰেপ 2 — BT-015-HEALTHY

উপস্থাপন।. ৩৫ বছৰীয়া এগৰাকী মহিলা, পঞ্চদশ-পেৰামিটাৰৰ নিয়মীয়া স্ক্ৰিনিং পেনেলসহ। প্ৰতিটো এনালাইটেই নিজৰ নিৰ্দিষ্ট মান-সীমাৰ ভিতৰত স্বচ্ছন্দে আছে।.

সঠিক ব্যাখ্যা।. আশ্বাস আৰু জীৱনশৈলী বজাই ৰখা। ব্যাখ্যাই ক্লিনিকেলভাৱে উপযোগী যেন দেখাবলৈ সীমান্তৱৰ্তী ৰোগ-লক্ষণ “সৃষ্টি” কৰা উচিত নহয়।.

V11 ফলাফল।. Composite 1.000। সাতটা নিৰীক্ষণ কৰা over-diagnosis (অতি-নিৰ্ণয়) ফ্লেগৰ কোনোটোৱেই—ডায়েবেটিছ, ৰক্তহীনতা, থাইৰয়ডৰ কম কাম, ডিছলিপিডেমিয়া, হেপাটাইটিছ, বৃক্কৰ ৰোগ, অভাৱ—সক্ৰিয় ৰোগ হিচাপে দেখা নগ’ল।.

দুয়োটা ট্ৰেপৰ মাজেৰে তেৰটা নিৰীক্ষণ কৰা hyperdiagnosis ফ্লেগ পৰীক্ষা কৰা হৈছিল। এটাও ট্রিগাৰ নহ’ল। যিকোনো চিকিৎসকে AI ইঞ্জিনক triage বা pre-consultation সঁজুলি হিচাপে ব্যৱহাৰ কৰাৰ কথা ভাবিলে—এইটোৱেই আটাইতকৈ বেছি গুৰুত্বপূৰ্ণ ফলাফল: কোনো ৰোগ নাই বুলি থকা ঠাইত সিস্টেমে ৰোগ উদ্ভাৱন নকৰিলে.

মেণ্টজাৰ সূচক: লৌহৰ অভাৱক থেলাছেমিয়া বৈশিষ্ট্যৰ পৰা পৃথক কৰা

দ্বিতীয় এটা উচ্চ-মূল্যৰ আৱিষ্কাৰ হৈছে case BT-001 (iron deficiency anaemia) আৰু case BT-007 (beta-thalassaemia minor) ৰ মাজৰ মিল। দুয়োটাই microcytosis ৰ সৈতে দেখা দিয়ে আৰু naive classifier ৰ বাবে ই এটা সুপৰিচিত বাধা। Mentzer index, যাক MCV ক RBC গণনাৰে ভাগ কৰি গণনা কৰা হয়, iron deficiency ত 13 ৰ ওপৰত থাকে আৰু thalassaemia trait ত 13 ৰ তলত পৰে।.

BT-001 ত, ৰোগী আছিল ৩৪ বছৰীয়া মহিলা, hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, আৰু elevated TIBC আছিল। প্ৰায় 17.7 ৰ Mentzer index এ নিশ্চিতভাৱে absolute iron deficiency সমৰ্থন কৰে। BT-007 ত, ৰোগী আছিল ২৮ বছৰীয়া পুৰুষ, microcytosis (MCV 65.8 fL) আছিল যদিও RBC গণনা 6.2 উচ্চ, RDW স্বাভাৱিক, ferritin স্বাভাৱিক, আৰু HbA2 5.6 percent। প্ৰায় 10.6 ৰ Mentzer index এ thalassaemia trait সূচায়, আৰু elevated HbA2 এ beta-thalassaemia minor নিশ্চিত কৰে।.

Iron deficiency anaemia Mentzer > 13 Low ferritin, low TSAT, high TIBC, elevated RDW
Beta-thalassaemia trait Mentzer < 13 Normal ferritin, normal RDW, elevated HbA2 (>3.5%), high RBC count

দুয়োটা কেছেই 1.000 স্ক’ৰ কৰিছিল। ইঞ্জিনে দুয়োটা ব্যাখ্যাতেই Mentzer index স্পষ্টভাৱে ব্যৱহাৰ কৰিছিল আৰু প্ৰতিটো ক্ষেত্ৰতে সঠিক ৰোগ-নিৰ্ণয় ঘূৰাই দিছিল।. সমগ্ৰ benchmark ত একমাত্ৰ আটাইতকৈ ক্লিনিকেলভাৱে আশ্বাসজনক ফলাফল, কাৰণ thalassaemia trait ক iron deficiency হিচাপে ভুলকৈ ধৰা হলে অনুচিত iron supplementation হয় আৰু পৰিয়াল-স্ক্ৰিনিংৰ সুযোগ এৰি যায়; আৰু iron deficiency ক thalassaemia হিচাপে ভুলকৈ ধৰা হলে সহজ replacement therapy পলম হয়। আমাৰ ফেৰিটিন পৰিসীমা গাইড বৃহত্তৰ differential context বুজাই দিয়ে।.

V11 আৰম্ভণিৰ প্ৰাৰম্ভিক ৰেফাৰেন্স ৰানৰ পৰা কেছভিত্তিক ফলাফল (এপ্ৰিল ২৩, ২০২৬)

১৫-কেছ proof-of-concept ক’হৰ্টত কৰা মূল V11 ৰেফাৰেন্স ৰানে সেৱা আগবঢ়ায় পদ্ধতিগত ভিত্তি Second Update-ৰ: তলত থকা প্ৰতিটো কেছ-সম্পৰ্কীয় বিৱৰণে দেখুৱাইছে যে ৰুব্ৰিকে কেনেকৈ এটা বাস্তৱ ইঞ্জিন উত্তৰক পৰিচালনা কৰে। পঞ্চদশৰ ভিতৰত বাৰটা কেছে প্ৰাইমাৰী পথত 1.000-ৰ ceiling যৌগিক স্ক’ৰ লাভ কৰিছিল; তিনিটা কেছ Phase 2 fallback-ৰ জৰিয়তে সেৱা দিয়া হৈছিল, যাৰ ফলত 0.05 latency bonus হেৰাই গ’ল যদিও সকলো ক্লিনিকেল আৰু গঠনগত বিষয়বস্তু সংৰক্ষিত থাকিল। এটা কেছত এটা একক বাধ্যতামূলক উপ-অধ্যায় নাছিল; এটা কেছে সামান্য কমি যোৱা probability distribution sum ঘূৰাই দিছিল।.

Case ID Specialty Composite Latency Path
BT-001-IDAৰক্তবিজ্ঞান1.00017.8 sprimary
BT-006-B12ৰক্তবিজ্ঞান1.00018.4 ছেকেণ্ডprimary
BT-007-থালৰক্তবিজ্ঞান1.00017.0 ছেকেণ্ডprimary
BT-002-হ্যাশএণ্ডক্ৰাইন’লজী0.95037.0 ছেকেণ্ডফলবেক
BT-008-PCOSএণ্ডক্ৰাইন’লজী0.98718.6 ছেকেণ্ডprimary
BT-003-T2DMবিপাকীয়1.00019.1 ছেকেণ্ডprimary
BT-013-গাউটবিপাকীয়1.00019.4 ছেকেণ্ডprimary
BT-004-NAFLDহেপাট’লজি1.00019.6 ছেকেণ্ডprimary
BT-009-VIRHEPহেপাট’লজি0.95023.4 ছেকেণ্ডফলবেক
BT-014-গিলবাৰ্টট্ৰেপ1.00018.9 ছেকেণ্ডprimary
BT-005-CKDনেফ্ৰ’লজী1.00017.4 ছেকেণ্ডprimary
BT-010-ASCVDহৃদৰোগ বিজ্ঞান (Cardiology)1.00019.7 ছেকেণ্ডprimary
BT-011-SLEৰিউমেট’লজি0.98118.2 sprimary
BT-012-VITDএণ্ডক্ৰাইন’লজী1.00019.3 sprimary
BT-015-HEALTHYট্ৰেপ1.00018.7 sফলবেক

PCOS কেছ (BT-008) এ উত্তৰৰ গঠন-ৰূপত এটা বাধ্যতামূলক উপ-ধাৰা হেৰুৱাইছিল — ষোলখনৰ ভিতৰত পোন্ধৰখনৰ পৰিৱৰ্তে ষোলখনৰ ভিতৰত ষোলখন — যাৰ ফলত গঠনগত স্ক’ৰ 1.000 ৰ পৰা 0.963 লৈ কমি গ’ল। SLE কেছ (BT-011) এ এটা সামান্য কমি যোৱা সম্ভাৱনা-বিতৰণৰ যোগফল ঘূৰাই দিলে, যাৰ ফলত ক্লিনিকেল স্ক’ৰ 0.965 লৈ নামি গ’ল, তথাপিও সকলো ডায়াগন’ষ্টিক কী-ৱাৰ্ড আৰু স্ক’ৰিং ব্যৱস্থা অক্ষুণ্ণ থাকিল। কোনো উপ-সম্পূৰ্ণ কেছেই সঠিক ডায়াগন’ছিছ মিছ নকৰিলে।.

V11 Second Update aggregate — 100,000 কেছ

জনসংখ্যা-স্কেলত ব্যক্তিগত কেছৰ শাৰীসমূহ মানুহে পঢ়িব পৰা নহয়, সেয়ে দ্বিতীয় আপডেটে 100,000-শাৰী টেবিলৰ বদলে সমষ্টিগত (aggregated) মেট্ৰিক্স ৰিপ’ৰ্ট কৰে। তলত মূল শিৰোনামৰ সমষ্টি দেখুওৱা হৈছে; বিশেষত্বভিত্তিক আৰু দেশ-লেবেলভিত্তিক বিশ্লেষণসমূহ প্রযুক্তিগত ৰিপ’ৰ্ট আৰু Figshare ডিপ’জিটত প্ৰকাশ কৰা হৈছে। এটা স্তৰীকৃত এলোমেলি নমুনা of n = 201 কেঁচা ইঞ্জিন উত্তৰ (deterministic seed 20260426) পৰিদৰ্শনৰ বাবে GitHub results/ ডাইৰেক্টৰীত প্ৰকাশ কৰা হৈছে।.

যৌগিক স্ক’ৰ V11 আৰম্ভণি: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 100,000-কেছ ক’হৰ্ট জুৰি
গঠনগত স্ক’ৰ (গড়) V11 আৰম্ভণি: 0.998 → Second Update: 1.000 জনসংখ্যাৰ স্কেলত নিখুঁত গঠনগত অনুকূলতা
ক্লিনিকেল স্ক’ৰ (গড়) V11 আৰম্ভণি: 0.998 → Second Update: 0.996 −0.002; কোনো কেছেই নিজেই ডায়াগন’ছিছটো মিছ নকৰিলে
বিলম্ব — গড় (পৰিসৰ) V11 আৰম্ভণি: 20.17 ছেকেণ্ড (17.0–37.0 ছেকেণ্ড) → দ্বিতীয় আপডেট: 13.26 ছেকেণ্ড (9.0–16.94 ছেকেণ্ড) চলনৰ মাজত উৎপাদন ইঞ্জিনৰ অপ্টিমাইজেচনসমূহ
ইঞ্জিন পথ = প্ৰাথমিক V11 আৰম্ভণি: 12 / 15 → দ্বিতীয় আপডেট: 100,000 / 100,000 চলনৰ কোনো মুহূর্ততে Phase 2 fallbackৰ প্ৰয়োজন হোৱা নাছিল
Trap-subset hyperdiagnosis flagসমূহ V11 আৰম্ভণি: 0 / 13 → দ্বিতীয় আপডেট: 0 / 87,412 জনসংখ্যা-স্কেলত শূন্য false-positive (8,723টা trap কেছ নিৰীক্ষণ কৰা হৈছিল)

শিৰোনামৰ স্ক’ৰে আমাক কোৱা নাই কি

এই বিশেষ প্ৰি-ৰেজিষ্টাৰ্ড ৰুব্ৰিকৰ অধীনত 99.80 শতাংশৰ এটা কম্প’জিট স্ক’ৰ, 127 দেশৰ লেবেল জুৰি বিস্তৃত 100,000-কেছ সিন্থেটিক ক’হ’ৰ্টত, near-ceiling performance — কিন্তু ইয়াক সাৱধানে ফ্ৰেমিং কৰাটো উচিত। ফলাফলটো V11-ত আমি উৎস ক’ডত প্ৰতিশ্ৰুতি দিয়া ৰুব্ৰিকৰ বিপৰীতে ইঞ্জিনৰ আচৰণ বৰ্ণনা কৰে; বন্য পৰিৱেশত থকা প্ৰতিটো ৰক্ত-টেষ্ট পেনেলৰ ক্ষেত্ৰত ইঞ্জিনৰ শুদ্ধতা সম্পৰ্কে ই এটা সর্বজনীন দাবী নহয়।.

স্ক’ৰটোৱে কয় যে ইঞ্জিনটোৱে এই মূল্যায়নৰ বাবে নিৰ্বাচিত ডায়াগন’ষ্টিক ধৰণসমূহ জনসংখ্যা-স্কেল cohortত সঠিকভাৱে পৰিচালনা কৰিছিল, প্ৰকাশিত আৰু পুনৰুৎপাদনযোগ্য এটা methodologyৰ ওপৰত ভিত্তি কৰি। ই বন্য পৰিৱেশত থকা প্ৰতিটো তেজ পৰীক্ষাৰ পেনেলৰ ক্ষেত্ৰত ইঞ্জিনটো সঠিক বুলি নকয়। ই ইঞ্জিনটোৱে চিকিৎসকসকলৰ বিচাৰ-বুদ্ধিক প্ৰতিস্থাপন কৰা উচিত বুলি নকয়। আৰু ই আন বিকল্প AI ব্যৱস্থাসমূহতকৈ ইঞ্জিনটোৱে বেছি ফল দেখুৱায় বুলি নকয় — অন্য ইঞ্জিনসমূহৰ সৈতে তুলনামূলক বিশ্লেষণসমূহ ইচ্ছাকৃতভাৱে এই প্ৰতিবেদনৰ পৰিসীমাৰ বাহিৰত ৰখা হৈছিল।.

স্ক’ৰটোৱে যিটো স্থাপন কৰে সেয়া হৈছে এটা baseline। rubric আৰু harness ৰাজহুৱা হোৱাৰ পাছত, ইঞ্জিনৰ ভৱিষ্যৎ সংস্কৰণসমূহ একে rubricৰ বিপৰীতে মূল্যায়ন কৰিব পাৰি — V11 আৰম্ভণিৰ 15টা কেছত, দ্বিতীয় আপডেটৰ 100,000-কেছ cohortত, বা যিকোনো পৰৱৰ্তী সম্প্ৰসাৰণত — আৰু প্ৰকাশিত স্ক’ৰৰ মাজত আৰু পৰৱৰ্তী যিকোনো চলনৰ মাজত থকা ব্যৱধান নিজেই পৰিমাপযোগ্য। pre-registrationৰ মূল্য এয়াই: ই পৰিৱেশন দাবীক পৰীক্ষাযোগ্য দাবীত ৰূপান্তৰ কৰে.

১০ মিনিটত এই বেঞ্চমাৰ্ক কেনেকৈ পুনৰুৎপাদন কৰিব

পুনৰুৎপাদনৰ বাবে কেৱল এটা Kantesti API credential pair আৰু Python 3.10 বা তাতকৈ পাছৰ এটা পৰিৱেশৰ প্ৰয়োজন, য’ত requests আৰু reportlab লাইব্ৰেৰীসমূহ ইনষ্টল কৰা থাকে। সম্পূৰ্ণ harness এটা একক, নিজেই সম্পূৰ্ণ Python module, MIT লাইচেন্সৰ অধীনত মুক্তি দিয়া।.

V11 দ্বিতীয় আপডেট বেঞ্চমাৰ্ক (99.80% composite, 100,000 কেছ, 127টা দেশৰ লেবেল) দেখুওৱা reproducibility নেটৱৰ্ক ডায়াগ্ৰাম—Figshare, ResearchGate, Academia.edu আৰু GitHub-ত Figshare DOI-টোক canonical anchor হিচাপে লৈ mirrored কৰা হৈছে।
চিত্ৰ ৫: V11 দ্বিতীয় আপডেট benchmark — 127 দেশৰ লেবেল জুৰি 100,000টা কেছত 99.80% কম্প’জিট স্ক’ৰ — চাৰিখন গৱেষণা প্লেটফৰ্মত প্ৰতিফলিত (mirrored) কৰা হৈছে। Figshare DOI হৈছে canonical scholarly identifier; ResearchGate (publication 404175463), Academia.edu (paper 165956808), আৰু GitHub-এ বেঞ্চমাৰ্ক হাৰ্নেছ, কেঁচা উত্তৰৰ স্তৰীকৃত এলোমেলি নমুনা, আৰু প্ৰতি-দেশ-লেবেল/প্ৰতি-বিশেষত্ব স্ক’ৰকাৰ্ডসমূহৰ সমান্তৰাল কপি হ’ষ্ট কৰে।.

এটা নতুন ৰানৰ বাবে চাৰিটা পদক্ষেপ

প্ৰথম।. ৰিপ’জিট’ৰীটো clone কৰক: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. দুটা।. তলত দিয়া ধৰণে নিৰ্ভৰশীলতা ইনষ্টল কৰক pip install -r requirements.txt (Second Update এ যোগ কৰে mysql-connector-python ≥ 8.0 SQL case loaderৰ বাবে)।. তিনিটা।. নিৰ্ধাৰণ কৰক KANTESTI_USERNAME আৰু KANTESTI_PASSWORD ইঞ্জিন APIৰ বাবে environment variables হিচাপে। দ্বিতীয় আপডেটৰ SQL case loaderৰ বাবে, লগতে সেট কৰক KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, আৰু KANTESTI_DB_PASSWORD — ল’ডাৰে এটা কেৱল-পঢ়া ভূমিকা (bench_reader)-ৰ জৰিয়তে সংযোগ কৰে, যাৰ টেবুল চিনাক্ত কৰাৰ কোনো সুবিধা নাই।. চাৰিটা।. চলাওক python benchmark_bloodtest.py --limit 100000 সম্পূৰ্ণ Second-Update চলাবলৈ, বা python benchmark_bloodtest.py --limit 1000 দ্ৰুত পুনৰাবৃত্তিৰ বাবে। আউটপুট জমা হয় ./benchmark_results/: এটা CSV স্ক’ৰকাৰ্ড য’ত প্ৰতি-দেশ-লেবেল আৰু প্ৰতি-বিশেষত্ব কলাম আছে, এটা JSON সমষ্টি (aggregate), এটা stratified-random কেঁচা-উত্তৰ নমুনা, আৰু এটা Markdown ৰিপ’ৰ্ট।.

২৩ এপ্ৰিল ২০২৬ (V11 আৰম্ভণি, ১৫টা কেছ) আৰু ২৬ এপ্ৰিল ২০২৬ (V11 Second Update, 100,000টা কেছ) ৰ ৰেফাৰেন্স চলনসমূহ ৰেপ’জিটৰিৰ results/ ডাইৰেক্টৰীত সংৰক্ষিত আছে। নতুন এটা চলনে এটা নতুন টাইমষ্টেম্পযুক্ত স্ক’ৰকাৰ্ড উৎপন্ন কৰিব, কিন্তু ৰেফাৰেন্স চলনসমূহ অক্ষত ৰাখিব। যদি আপোনাৰ চলনে তাৎপৰ্যপূৰ্ণভাৱে বেলেগ ফলাফল উৎপন্ন কৰে, অনুগ্ৰহ কৰি GitHub issue এটা খোলক—চলনৰ টাইমষ্টেম্প আৰু উত্তৰৰ মেটাডেটাত ঘূৰি অহা ইঞ্জিন সংস্কৰণসহ।.

সীমাবদ্ধতা আৰু ভৱিষ্যৎ কাম

127টা দেশৰ লেবেলৰ মাজত 100,000টা কেছতো, চাৰিটা সীমাবদ্ধতাক স্পষ্টভাৱে স্বীকাৰ কৰা উচিত: লং-টেইল লেবেলৰ কম নমুনা (undersampling), এক-সময়ৰ (single-shot) মূল্যায়ন, এক-ইঞ্জিনৰ পৰিসৰ (single-engine scope), আৰু এক-উৎস ডেটা উৎপত্তি (single-source data origin)। এইবোৰক সক্ৰিয়ভাৱে চলি থকা follow-up কামত সমাধান কৰা হৈছে।.

লং-টেইল লেবেল কভাৰেজ।. দ্বিতীয় আপডেটত 127টা দেশৰ লেবেল সামৰি লোৱা হৈছে, কিন্তু বিতৰণটো অসম (unbalanced)—শীৰ্ষ 10টা লেবেলে কেছৰ ≈66.4% অংশ দখল কৰে, আৰু বাকী 97টা অতিৰিক্ত লেবেলে একেলগে ≈7.3% যোগ কৰে (মুঠতে প্ৰায় 7,300 কেছ, গড়ে প্ৰতি লেবেল ~75 কেছ)। সেয়ে এই লং টেইলত থকা প্ৰতি-লেবেল যৌগিকসমূহ শিৰোনামৰ সংখ্যাই যিমান কথা কয় তাৰ তুলনাত অধিক “নয়েজি” (noisier)। ভৱিষ্যতৰ ৰানসমূহে প্ৰতি-লেবেল অনুমানসমূহ দৃঢ় (firm up) কৰিবলৈ লেবেল নিৰ্ধাৰণ পুনঃসমতল (rebalance) কৰিব।.

Single-shot মূল্যায়ন।. ক’হৰ্টৰ প্ৰতিটো কেছ এবাৰকৈ মূল্যায়ন কৰা হৈছিল। কম নমুনা-তাপমাত্রাতো বৃহৎ ভাষা মডেলসমূহে তাৎপৰ্যপূৰ্ণ আউটপুট ভেৰিয়েন্স দেখুৱায়, সেয়ে প্ৰতিটো কেছৰ বাবে পাঁচটা মূল্যায়নসহ আৰু প্ৰতিবেদিত ভেৰিয়েন্স থকা বহু-চলন (multi-run) প্ৰট’কল এটা স্বাভাৱিক পৰৱৰ্তী পদক্ষেপ—বিশেষকৈ trap-case উপ-সমষ্টিত, য’ত sampling jitter-ৰ অধীনত সামঞ্জস্যতা সুৰক্ষাৰ দাবীৰ অংশ।.

Single-engine scope।. এই প্ৰতিবেদনখনে এটা ইঞ্জিনকেই বৰ্ণনা কৰে। বিকল্প AI ব্যৱস্থাসমূহৰ সৈতে তুলনামূলক বিশ্লেষণ ইয়াতৰ পৰিসৰৰ বাহিৰ; একে MIT-লাইচেন্সযুক্ত harness ব্যৱহাৰ কৰি উপযুক্ত পদ্ধতিৰে আমি তাক পৃথক স্বাধীন অধ্যয়ন হিচাপে অনুসৰণ কৰিব পাৰোঁ।.

সিন্থেটিক ডাটা।. 100,000টা কেছ সিন্থেটিকভাৱে সৃষ্টি কৰা হৈছে, সিন্থেটিক কেছ নহয়, আৰু ফলাফল বাস্তৱ-জগতৰ ক্লিনিকেল কাৰ্যক্ষমতালৈ স্থানান্তৰ নহয়। বাস্তৱ, সম্মতি-প্ৰাপ্ত, বাহ্যিকভাৱে সংগ্ৰহ কৰা ডাটাৰ ওপৰত মূল্যায়নে উপযুক্ত নৈতিক তদাৰক (ethical oversight) দাবী কৰিব আৰু এই সিন্থেটিক বেঞ্চমাৰ্কৰ পৰিসৰৰ বাহিৰত।.

এই চাৰিটাৰ বাহিৰে, আটাইতকৈ প্ৰভাৱশালী পৰিকল্পিত সম্প্ৰসাৰণ হৈছে প্ৰতি-জুৰিসডিকশনৰ বাবে বহু-ভাষাৰ সমতা (parity)। Kantesti AI Engine-এ 75+ ভাষাত ব্যৱহাৰকাৰীক সেৱা আগবঢ়ায়, আৰু ভাষা-স্তৰীকৃত Second-Update উপ-ক’হৰ্টসমূহ (তুৰ্কী, জাৰ্মান, স্পেনিছ, ফ্ৰেঞ্চ, ইতালীয়, পৰ্তুগীজ, আৰবী, মেণ্ডেৰিন) চলালে ইঞ্জিনে সমৰ্থন কৰা ভাষাসমূহৰ মাজে আউটপুট গুণগত মান কিমান—সেয়া পৰিমাপ কৰা হ’ব। প্ৰতিটো ভাষা-স্তৰীকৃত বিশ্লেষণ নিজস্ব DOI আৰু harness শাখাৰ সৈতে প্ৰকাশ কৰা হ’ব।.