এই বেঞ্চমাৰ্ক কিয় আছে আৰু ই কি পৰীক্ষা কৰে

AI-সহায়ত তেজ পৰীক্ষাৰ ফলাফল কেনেকৈ পঢ়িব কনজিউমাৰ আৰু ক্লিনিকেল কাৰ্যপ্ৰবাহত ক্ৰমাৎ বেছি ব্যৱহাৰ কৰা হৈছে, কিন্তু লেবৰেটৰী চিকিৎসাৰ বাবে উপযোগী পুনৰুৎপাদনযোগ্য মূল্যায়ন কাঠামো অতি কম। এই পৰিস্থিতিত আটাইতকৈ গুৰুত্বপূৰ্ণ প্ৰশ্নবোৰ সাধাৰণ চিকিৎসা প্ৰশ্ন-উত্তৰ বেঞ্চমাৰ্কত কোৱা নহয়: mean corpuscular volume একে থাকিলেও এটা ইঞ্জিনে লৌহৰ অভাৱক থেলাছেমিয়া বৈশিষ্ট্যৰ পৰা পৃথক কৰিব পাৰেনে, hepatitis হিচাপে Gilbert's syndrome অতিনিৰ্ণয় (over-diagnose) কৰে নেকি, আৰু সম্পূৰ্ণ স্বাভাৱিক স্ক্ৰীণিং পেনেলত প্যাথলজি “উৎপাদন” কৰে নেকি?

Pre-registered rubric flow diagram যিয়ে দেখুৱাইছে কেনেকৈ Kantesti AI Engine — V11 Second Update, 100,000 কেছত 99.80% composite স্ক’ৰ —ক স্থিৰ (frozen) স্ক’ৰিং মানদণ্ডৰ বিপৰীতে মূল্যায়ন কৰা হয়
চিত্ৰ ১: V11 Second Update 100,000-case cohortৰ পিচফালে থকা বেঞ্চমাৰ্ক স্থাপত্য 99.80% কম্প’জিট স্ক’ৰ — প্ৰতিটো কেছ, প্ৰতিটো কী-ৱৰ্ড, প্ৰতিটো স্ক’ৰিং ব্যৱস্থা ইঞ্জিনে এটা PDF দেখাৰ আগতেই উৎস-সংকেতত স্থিৰ কৰা থাকে, আৰু ৰুব্ৰিকটো V11 আৰম্ভণি মুক্তিৰ সৈতে বাইট-একেই; ডিজাইনৰ দ্বাৰা post-hoc ৰুব্ৰিক টিউনিং সম্ভৱ নহয়।.

এটা একক তেজ পৰীক্ষাৰ পেনেল সাধাৰণতে কেইবাটাও প্ৰতিদ্বন্দ্বী ব্যাখ্যাৰ বাবে যথেষ্ট সংকেত বহন কৰে, আৰু ব্যাখ্যা কৰা চিকিৎসকজনৰ কাম হ’ল সেই ব্যাখ্যাবোৰক ইটোৰ সৈতে সিটো তুলনা কৰি ওজন দিয়া—পাঠ্যপুথিৰ এটা “ঠিক উত্তৰ” উদ্ধাৰ কৰা নহয়। পাঠ্যপুথিৰ কেছত ভাল কৰা এটা ইঞ্জিনে তথাপিও আটাইতকৈ গুৰুত্বপূৰ্ণ কেছত বিফল হ’ব পাৰে: differential-diagnosis ৰ ফান্দ, কেৱল এককভাৱে দেখিলে ভয়ংকৰ যেন লগা নিৰীহ ভেৰিয়েন্ট, আৰু সম্পূৰ্ণ স্বাভাৱিক পেনেল যিয়ে আত্মবিশ্বাসী সহায়কক pathology “উৎপাদন” কৰিবলৈ প্ৰলোভিত কৰে।.

এই benchmark ঠিক এই ধৰণৰ বিফলতাৰ ধৰণবোৰৰ ওপৰত নিৰ্মাণ কৰা হৈছিল। পঞ্চদশটা কেছক এটা নিৰ্দিষ্ট ডায়াগন’ষ্টিক গুণৰ বাবে বাছনি কৰা হৈছিল: একে mean corpuscular volume থকা beta-thalassaemia trait ৰ পৰা পৃথক কৰি ৰাখিব লাগা iron-deficient microcytosis, এটা Gilbert's syndrome ৰ উপস্থাপন য’ত একমাত্ৰ অস্বাভাৱিকতা হ’ল isolated indirect hyperbilirubinaemia, আৰু এটা পঞ্চদশ-পেৰামিটাৰ screening পেনেল য’ত প্ৰতিটো analyte নিজৰ reference range ৰ ভিতৰতেই থাকে। rubric এ সেই ইঞ্জিনক পুৰস্কৃত কৰে যিয়ে প্ৰতিটো কেছক নিজৰ নিজা চৰ্তত পঢ়ে, আৰু সেই ইঞ্জিনক শাস্তি দিয়ে যিয়ে এনে ডায়াগন’ছিছৰ প্ৰয়োজন নথকা সত্ত্বেও আত্মবিশ্বাসী ডায়াগন’ছিছত উপনীত হয়।.

MD থমাছ ক্লেইন হিচাপে, মই কেছ পেনেল বাছনি কৰিছিলোঁ কাৰণ মই দেখোঁ যে laboratory-medicine সহায়কসকলে আটাইতকৈ বেছি ভুল কৰা পেটাৰ্নবোৰ এয়াই।. ব্যয়বহুল বিফলতাৰ ধৰণটো "এটা বিৰল ৰোগ এৰি যোৱা" নহয়—ইয়াৰ বদলে, যিসকল ৰোগীয়ে সেই ৰোগটো নাথাকে তেওঁলোকৰ ক্ষেত্ৰত routine pathology উদ্ভাৱন কৰা।. আমাৰ চিকিৎসা বৈধকৰণ hub-এ অধিক বিস্তৃত কাঠামো বৰ্ণনা কৰে; এই পৃষ্ঠাই V11 আৰম্ভণি proof-of-concept আৰু V11 Second Update বৰ্ণনা কৰে যিয়ে ইয়াক 100,000টা anonymised কেছলৈ স্কেল কৰিছিল—127খন দেশ জুৰি থকা SQL-সমৰ্থিত ক্লিনিকেল ৰিপ’জিটৰীৰ পৰা সংগ্ৰহ কৰা—একেই স্ক’ৰিং ৰুব্ৰিক ব্যৱহাৰ কৰি, বাইট-একেই, আৰু post-hoc টিউনিং অনুমোদিত নহয়।.

শেহতীয়া ৰেফাৰেন্স ৰান — V11 Second Update (April 26, 2026)

26 April 2026-ৰ V11 Second Update ৰেফাৰেন্স ৰানে 99.80% একেটি pre-registered ৰুব্ৰিকৰ ওপৰত (V11 আৰম্ভণি মুক্তিত ব্যৱহৃত) ভিত্তি কৰি মূল্যায়ন কৰি 100,000টা anonymised কেছত Kantesti SQL-সমৰ্থিত ক্লিনিকেল ৰিপ’জিটৰীৰ পৰা সংগ্ৰহ কৰা আৰু 127 খন দেশৰ আৰু 75+ ভাষাসমূহ জুৰি। প্ৰতিটো কেছ ইঞ্জিনৰ প্ৰাথমিক পথত সম্পূৰ্ণ হৈছিল; trap-case hyperdiagnosis flag সক্ৰিয়কৰণ 0 / 87,412. তেই থাকিল। 23 April 2026-ৰ মূল V11 ৰানে 15টা হাতে-নিৰ্বাচিত কেছ (composite 99.12%) সামৰি লৈ ৰুব্ৰিকটো বৈধতা দিছিল; Second Update-এ সেই ৰুব্ৰিকটো বাইট-একেই ৰাখি মূল্যায়নক জনসংখ্যা-স্কেল cohortলৈ সম্প্ৰসাৰিত কৰে।.

Composite 99.80% 100,000ৰ ভিতৰত 100,000 কেছত স্ক’ৰ
1.000 Structural score
0.996 Clinical score
13.26 s Mean latency
0 / 87,412 Trap false-positives

Composite সূত্ৰটোৱে তিনিটা উপাদান একত্ৰিত কৰে: structural conformance সাতটা বাধ্যতামূলক report section আৰু ষোলটা বাধ্যতামূলক subsection ৰ সৈতে, clinical accuracy যাক মাপা হয় keyword recall + scoring-system recall + probability-distribution validity check ৰে, আৰু response latency প্ৰাথমিক-পথ service-level লক্ষ্যৰ বিপৰীতে। তলৰ ৰুব্ৰিক সূত্ৰত সঠিক বিশ্লেষণ দেখুওৱা হৈছে—Second Update-ৰ বাবে এই ওজনসমূহ বা sub-rubrics কোনোটোৱেই সলনি কৰা হোৱা নাছিল।.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × বিলম্বতা

headroomৰ বাকী 0.20 শতাংশ পইণ্ট প্ৰায় সম্পূৰ্ণৰূপে ক্লিনিকেল sub-score-লৈ বিভাজিত হয়—কিছুমান কেছৰ এটা সৰু অংশ (প্ৰধানকৈ Hepatology আৰু Rheumatology-ত) ইঞ্জিনৰ ব্যাখ্যাত এটা আশা কৰা স্ক’ৰিং-ব্যৱস্থা কী-ৱৰ্ড নাছিল, যদিও ডায়াগন’ষ্টিক বিষয়বস্তু সঠিক আছিল।. 100,000-কেছ Second-Update cohort-ৰ কোনো কেছেই নিজেই ডায়াগন’ছিছটো মিছ নকৰিলে।. latency V11 আৰম্ভণি মুক্তিত গড়ে 20.17 s পৰা Second Update-ত 13.26 s লৈ উন্নত হৈছিল—দুটা ৰানৰ মাজত production ইঞ্জিন অপ্টিমাইজেচনৰ প্ৰতিফলন; ৰুব্ৰিক, স্ক’ৰিং কোড, আৰু API endpoint একেই আছে।.

30টা আটাইতকৈ বেছি প্ৰতিনিধিত্ব থকা দেশৰ ভিতৰত দেশভিত্তিক composite স্ক’ৰ 0.9971 (India)ৰ পৰা 0.9985 (Switzerland)লৈ আছিল। অতি দীঘল লেজৰ 97টা অতিৰিক্ত দেশ (মুঠতে ≈7,300 কেছ)ত কোনো পদ্ধতিগত অৱনতি দেখা নগ’ল। কেছ গণনাৰ ভিত্তিত শীৰ্ষ অৱদানকাৰী আছিল—United States (10,500), Brazil (9,500), Spain (9,000), Italy (8,000), Germany (7,800), France (7,400), Portugal (5,800), Türkiye (3,400), the United Kingdom (2,900), আৰু Mexico (2,500)।.

১৫টা কেছৰ পৰা 100,000লৈ: 127 খন দেশ জুৰি কোহৰ্টৰ বিকাশ

মূল V11 কেছ পেনেলত সাতটা বিশেষত্ব আছিল—hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology—আৰু লগতে দুটা dedicated hyperdiagnosis trap কেছ; প্ৰতিটো কেছেই Kantesti ক্লিনিকেল ডাটা ৰিপ’জিটৰীৰ পৰা লিখিত informed consent-ৰ অধীনত লোৱা এটা বাস্তৱ anonymised ৰোগীৰ ৰেক’ৰ্ড। V11 Second Update-এ মূল্যায়নক 127খন দেশ জুৰি 100,000টা anonymised কেছলৈ, সম্প্ৰসাৰিত কৰে—আঠটা বিশেষত্বত বিভক্ত (মূল সাতটা + trap subset-টো শোষণ কৰা এটা dedicated internal-medicine bucket)। একেটি স্ক’ৰিং ৰুব্ৰিক দুয়োটা ৰানতে বাইট-একেই প্ৰয়োগ কৰা হয়।.

V11 প্ৰথম কেছ-পেনেল ডিজাইন — সাতটা চিকিৎসা বিশেষজ্ঞতাৰ মাজত পঞ্চদশ (fifteen) অজ্ঞাতনামা তেজ পৰীক্ষাৰ কেছ, লগতে দুটা হাইপাৰডায়েগন’ছিছ ট্ৰেপ কেছ; একেই ৰুব্ৰিকে V11 দ্বিতীয় আপডেটত 100,000 কেছত 99.80% composite স্ক’ৰ লাভ কৰিছিল
চিত্ৰ ২: hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology—এইবোৰৰ ভিতৰত V11 আৰম্ভণি কেছ-পেনেল ডিজাইন, লগতে দুটা trap কেছ—Gilbert's syndrome আৰু সম্পূৰ্ণ স্বাভাৱিক screening panel। Second Update-এ এই ৰুব্ৰিকটো বাইট-একেই সংৰক্ষণ কৰি cohort-টোক Kantesti SQL ৰিপ’জিটৰীৰ পৰা সংগ্ৰহ কৰা 100,000 কেছলৈ সম্প্ৰসাৰিত কৰে।.

Safe Harbor পদ্ধতি অনুসৰি de-identification কৰা হৈছিল: সকলো direct identifier আঁতৰোৱা বা সলনি কৰা হৈছিল, আৰু প্ৰতিটো ৰেক’ৰ্ডক BT-NNN-LABEL বিন্যাসত এটা benchmark-internal কেছ কোড দিয়া হৈছিল (V11 আৰম্ভণি) বা Second Update-ৰ বাবে এটা স্থিৰ anonymised case_uid । প্ৰচেছিং কৰা হৈছিল GDPR ধাৰা 9(2)(j) উপযুক্ত সুৰক্ষা ব্যৱস্থাসহ বৈজ্ঞানিক গৱেষণাৰ বাবে, আৰু সমতুল্য UK GDPR বিধানসমূহ। প্ৰকাশিত harness, কাৰিকৰী প্ৰতিবেদন (technical report), বা মুক্তি দিয়া ডাটাছেটসমূহৰ ক’তো কোনো ব্যক্তিগতভাৱে চিনাক্ত কৰিব পৰা তথ্য (personally identifying information) দেখা নাযায়।.

V11 আৰম্ভণি মুক্তি অনুসৰি — 15টা হাতে-নিৰ্বাচিত কেছ

মূল V11 কেছ পেনেলখন ড০. থমাছ ক্লেইনে হাতেৰে বাছনি কৰি তৈয়াৰ কৰিছিল যাতে লেবোৰেটৰী-মেডিচিন সহায়কসকলে আটাইতকৈ বেছি ভুল কৰা ডায়াগন’ষ্টিক ধৰণসমূহ অনুশীলন কৰিব পাৰি। তলত দিয়া অনুসৰি পোন্ধৰটা কেছক এটা এটা নিৰ্দিষ্ট ডায়াগন’ষ্টিক বৈশিষ্ট্যৰ বাবে বাছনি কৰা হৈছিল।.

হেমাট’লজি (3) BT-001, BT-006, BT-007 Iron deficiency anaemia · B12 deficiency · Beta-thalassaemia minor
এণ্ড’ক্ৰাইন’লজি (3) BT-002, BT-008, BT-012 Hashimoto's thyroiditis · ইনচুলিন ৰেজিষ্টেন্স থকা PCOS · গুৰুতৰ ভিটামিন ডিৰ অভাৱ
মেটাবলিক (2) BT-003, BT-013 মেটাবলিক ছিণ্ড্ৰমসহ T2DM · গাউটৰ ঝুঁকি থকা Hyperuricaemia
হেপাট’লজি (2) BT-004, BT-009 NAFLD / NASH · তীব্ৰ ভাইৰেল হেপাটাইটিছ
নেফ্ৰ’লজি · কাৰ্ড’লজি · ৰিউমেট’লজি (3) BT-005, BT-010, BT-011 CKD stage 3 · Atherogenic dyslipidaemia · Systemic lupus erythematosus
Trap কেছ (2) BT-014, BT-015 Gilbert's syndrome (isolated indirect hyperbilirubinaemia) · সম্পূৰ্ণ স্বাভাৱিক প্ৰাপ্তবয়স্ক স্ক্ৰিন

এই বিশেষ বিতৰণ কিয়?

হেমাট’লজি তিনিটা কেছ পায় কাৰণ মাইক্ৰ’চাইটিক ডিফাৰেনচিয়েল আৰু মেক্ৰ’চাইটিক ডিফাৰেনচিয়েল—দুয়োটাই বাস্তৱ-জগতৰ লেব’ৰেটৰী অনুশীলনত সৰ্বাধিক পৰিমাণৰ “ট্ৰেপ”। এণ্ড’ক্ৰাইন’লজি তিনিটা কেছ পায় কাৰণ Hashimoto's, PCOS, আৰু ভিটামিন ডিৰ অভাৱ—এইবোৰৰ উপস্থাপনাই ভিন্ন ভিন্ন ডায়াগন’ষ্টিক আকৃতি সৃষ্টি কৰে (autoantibody-চালিত, hormone-ratio-চালিত, একক-মাৰ্কাৰ-চালিত)। একক-কেছ বিশেষত্বসমূহ এতিয়াও অৰ্থবহ, কাৰণ CKD, ASCVD ৰিস্ক, আৰু SLE—এই তিনিওটাৰ নিজস্ব স্ক’ৰিং ব্যৱস্থা আছে যিটো ইঞ্জিনে আহ্বান কৰিব লাগে (KDIGO staging, ASCVD 10-year risk, আৰু ক্ৰমে 2019 EULAR/ACR SLE criteria)।.

V11 দ্বিতীয় আপডেট — 127 খন দেশৰ মাজেৰে 100,000 গৰাকী বেনামী কেছ

দ্বিতীয় আপডেটে মূল V11 ক’ড-হাৰ্ডক’ড 15-কেছ Python literal-টোক এটা পেৰামিটাৰাইজড, কেৱল-পঢ়িব পৰা SQL কুৱেৰীৰে সলনি কৰে যি Kantesti ক্লিনিকেল ৰিপ’জিট’ৰীৰ বিৰুদ্ধে (anonymised_blood_panels)। কুৱেৰীখন ফিল্টাৰ কৰে consent_research = 1 AND released_for_benchmark = 1.

এণ্ডক্ৰাইন’লজী আৰু স্বচ্ছতাৰ বাবে প্ৰতিটো বেঞ্চমাৰ্ক ৰানৰ ওপৰতেই প্ৰিণ্ট কৰা হয়। বিশেষত্ব অনুসৰি ক’হৰ্টৰ বিতৰণ তলত দেখুওৱা হৈছে। 23,900 কেছ (23.9%)
থাইৰয়ড, PCOS, ভিটামিন ডি, গ’নাডাল এক্সিছ, পিটুইটাৰী মেটাবলিক মেডিচিন 21,900 কেছ (21.9%)
ৰক্তবিজ্ঞান T2DM, মেটাবলিক ছিণ্ড্ৰম, লিপিড পেনেল, হাইপাৰইউৰিকেমিয়া 15,400 কেছ (15.4%)
হেপাট’লজি মাইক্ৰ’চাইটিক আৰু মেক্ৰ’চাইটিক ডিফাৰেনশিয়েল, B12/ফ’লেট, আয়ৰণ ষ্টাডি 12,400 কেছ (12.4%)
NAFLD/NASH, ভাইৰেল হেপাটাইটিছ, FIB-4, ক’লেষ্টেছিছ অভ্যন্তৰীণ মেডিচিন (ট্ৰেপ ছাব-ছেট অন্তৰ্ভুক্ত) 9,000 কেছ (9.0%)
হৃদৰোগ বিজ্ঞান (Cardiology) মিশ্ৰিত উপস্থাপন আৰু 8,723 গৰাকী নিৰ্দিষ্ট হাইপাৰডায়াগন’ষ্টিক ট্ৰেপ কেছ 7,500 কেছ (7.5%)
ৰিউমেট’লজি ASCVD ৰিস্ক, এথেৰ’জেনিক ডিছলিপিডেমিয়া, hs-CRP 6,000 কেছ (6.0%)
নেফ্ৰ’লজী SLE, RA, ভেছকুলাইটিছ, অটোএণ্টিবডি পেনেল (EULAR/ACR মানদণ্ড) 4,000 কেছ (4.0%)

ভৌগোলিক বিতৰণ — শীৰ্ষ ১০ খন দেশ

এই ক’হৰ্টে ১২৭ খন দেশ সামৰি লয় (ISO 3166-1 alpha-2)। ইউৰোপে 57.7% যোগান ধৰে, আমেৰিকাসে 25.4%, এচিয়া-পেচিফিকে 6.2%, নামকৰণ কৰা মধ্য-পূব/আফ্ৰিকা এন্ট্ৰিয়ে 3.4%, আৰু ৯৭ খন অতিৰিক্ত দেশৰ দীঘল লেজে মুঠতে প্ৰায় 7.3% যোগান ধৰে। দহটা সৰ্ববৃহৎ যোগানকাৰী হৈছে আমেৰিকা যুক্তৰাষ্ট্ৰ (10,500), ব্ৰাজিল (9,500), স্পেইন (9,000), ইটালি (8,000), জাৰ্মানি (7,800), ফ্ৰান্স (7,400), পৰ্তুগাল (5,800), Türkiye (3,400), যুক্তৰাজ্য (2,900), আৰু মেক্সিকো (2,500)। দেশভিত্তিক যৌগিক স্ক’ৰসমূহ 0.9971 (ভাৰত)ৰ পৰা 0.9985 (ছুইজাৰলেণ্ড)লৈকে বিস্তৃত আছিল।.

পূৰ্ব-নিবন্ধিত ৰুব্ৰিক, বুজাই দিয়া হৈছে

এই বেঞ্চমাৰ্কত pre-registration হৈছে সৰ্বাধিক গুৰুত্বপূৰ্ণ পদ্ধতিগত সিদ্ধান্ত। প্ৰতিটো সম্ভাৱ্য ডায়াগন’ছিছ, প্ৰতিটো ক্লিনিকেল স্ক’ৰিং ব্যৱস্থা, আৰু প্ৰতিটো ৰিপ’ৰ্ট অংশ—সকলোকে ইঞ্জিন আহ্বান কৰাৰ আগতেই source code-ত কমিট কৰা হৈছিল ইঞ্জিন আহ্বান কৰাৰ আগতে. । সেয়েহে ইঞ্জিনক সন্তুষ্ট কৰিবলৈ rubric-ৰ post-hoc tuning সম্ভৱ নহয়।.

কম্প’জিট স্ক’ৰ গঠন কৰে তিনিটা উপাদানে। সেই structural component এ 35 শতাংশ বৰঙণি দিয়ে আৰু জুখে যে ইঞ্জিনে সাতটা বাধ্যতামূলক ৰিপ’ৰ্ট অংশ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) আৰু সেইবোৰৰ ভিতৰত থকা ষোলটা বাধ্যতামূলক উপ-অংশ সঠিকভাৱে ঘূৰাই দিছিল নে নাই। structural calculation-ত section presence এ 40 শতাংশ ওজন পায় আৰু subsection presence এ 60 শতাংশ ওজন পায়।.

দ্য... clinical component এ 55 শতাংশ বৰঙণি দিয়ে আৰু তিনিটা বস্তু একত্ৰিত কৰে: diagnosis-keyword recall (clinical sub-score-ৰ 70 শতাংশ), scoring-system recall (20 শতাংশ — প্ৰাসংগিক হ’লে ইঞ্জিনে Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR criteria গণনা কৰে নে নাই), আৰু probability-sum validity check (10 শতাংশ — differential সম্ভাৱনাসমূহে [90, 110] অন্তৰালৰ ভিতৰত যোগফল দিব লাগিব)। ট্ৰেপ কেছৰ বাবে, সর্বোচ্চ 0.30 পৰ্যন্ত এটা স্পষ্ট hyperdiagnosis penalty কাটি দিয়া হয়—প্ৰতি fabricated pathology flag-ত 0.10 হিচাপে গণনা কৰি, সৰ্বোচ্চ তিনিটা flag-ত সীমাবদ্ধ।.

দ্য... latency component এ 10 শতাংশ বৰঙণি দিয়ে। 20 ছেকেণ্ডৰ তলত উত্তৰ দিলে পূৰ্ণ 0.10 পোৱা যায়, 40 ছেকেণ্ডৰ তলত উত্তৰ দিলে 0.05 পোৱা যায়, আৰু তাতকৈ ধীৰ যিকোনো উত্তৰে শূন্য পায়। 20-ছেকেণ্ড লক্ষ্য হৈছে production primary-path service-level objective; 40-ছেকেণ্ড ceiling হৈছে heavy-engine invocations-ৰ বাবে Phase 2 fallback budget।.

MIT-licensed Kantesti বেঞ্চমাৰ্ক harness চলি থকা আৰু প্ৰতি-কেছ স্ক’ৰ নিৰ্গত (emit) কৰা টাৰ্মিনেল স্ক্ৰিনশ্বট — একেই harness, এতিয়া SQL-চালিত, V11 দ্বিতীয় আপডেটৰ 100,000-কেছ ৰানত 99.80% composite স্ক’ৰ উৎপন্ন কৰিছিল
চিত্ৰ ৩: কাৰ্যকৰী হৈ থকা হাৰ্নেছ — সেই একে ইঞ্জিন যিয়ে উৎপন্ন কৰিছিল 99.80% যৌগিক V11 Second Update 100,000-কেছ ক’হৰ্ট। প্ৰতিটো কেছক A4 PDF হিচাপে ৰেণ্ডাৰ কৰা হয়, উৎপাদন v11 এণ্ডপইণ্টলৈ প’ষ্ট কৰা হয়, আৰু জমা হোৱা হিমায়িত ৰুব্ৰিকৰ বিপৰীতে স্ক’ৰ কৰা হয়। Second Update-এ এটা পেৰামিটাৰাইজড SQL কেছ ল’ডাৰ যোগ কৰিছিল; কেঁচা ইঞ্জিন উত্তৰৰ এটা স্তৰীকৃত এলোমেলি নমুনা (n = 201) একত্ৰিত স্ক’ৰকাৰ্ডৰ কাষত সংৰক্ষণ কৰা হয়।.

pre-registration-এ কি বাধা দিয়ে

First-party বেঞ্চমাৰ্কসমূহে post-hoc rubric tuning কৰি নিজৰ সংখ্যাবোৰ স্ফীত কৰাৰ বাবে কুখ্যাত। আৰ্হিটো প্ৰায় সদায় একে: দলটোৱে ইঞ্জিন চলায়, ক’ত কম ফল দিছে দেখে, তাৰ পিছত নিস্তব্ধভাৱে rubric-টো সামঞ্জস্য কৰে যাতে কম ফল দিয়া ক্ষেত্ৰসমূহে কম গণনা পায়। প্ৰথম ইঞ্জিন কলৰ আগতেই rubric-টো source code-ত কমিট কৰি আৰু MIT licence-ত harness প্ৰকাশ কৰি, এই সামঞ্জস্যটো version control-ত দৃশ্যমান হৈ পৰে। যিকোনো ব্যক্তিয়ে repository clone কৰিব পাৰে, rubric author dates পৰীক্ষা কৰিব পাৰে, আৰু ইঞ্জিনৰ ফলাফল স্ক’ৰিং গঢ়িবলৈ ব্যৱহাৰ কৰা হোৱা নাছিল বুলি নিশ্চিত কৰিব পাৰে।.

হাইপাৰডাইগন’ছিছ ফাঁদ কেছ — কিয় অতিমাত্ৰা কল কৰাটো প্ৰকৃত বিফলতাৰ ধৰণ

স্বাভাৱিক স্ক্ৰীণত pathology-ৰ কথা অতিমাত্ৰা জোৰেৰে কোৱা—consumer-facing চিকিৎসা সহায়কসকলৰ বাবে এটা নথিভুক্ত ব্যৰ্থতা ধৰণ। ইয়াৰ downstream খৰচসমূহৰ ভিতৰত আছে অপ্রয়োজনীয় তদন্ত, ৰোগীৰ উদ্বেগ, আৰু iatrogenic workup। এই বেঞ্চমাৰ্কৰ দুটা ট্ৰেপ কেছ এই ব্যৰ্থতা ধৰণটো দৃশ্যমান আৰু স্ক’ৰযোগ্য কৰিবলৈ ডিজাইন কৰা হৈছে।.

এটা naive AI-এ গিলবাৰ্ট’ছ ছিণ্ড্ৰম পেনেলত হেপাটাইটিছ কৃত্ৰিমভাৱে (fabricating) দেখুওৱাৰ বিপৰীতে Kantesti ইঞ্জিনে নিৰীহ UGT1A1 পলিমৰ্ফিজম সঠিকভাৱে চিনাক্ত কৰাৰ side-by-side তুলনা — এই পদ্ধতিটো V11 দ্বিতীয় আপডেট 99.80% বেঞ্চমাৰ্কত 87,412টা ট্ৰেপ-ফ্লেগ সুযোগ জুৰি শূন্য false-positives লৈ স্কেল হৈছিল
চিত্ৰ ৪: V11 আৰম্ভণিৰ মুক্তিৰ পৰা অহা trap-case ডিজাইন — যি ইঞ্জিনে Gilbert's syndrome-এ হেপাটাইটিছ বুলি আত্মবিশ্বাসেৰে লেবেল কৰে, বা যি সম্পূৰ্ণ স্বাভাৱিক স্ক্ৰীণত সীমান্তীয় প্যাথলজি “উৎপাদন” কৰে, তাক “ক্লিনিকেল যেন লাগিছে” বুলি কোৱা বাবে পুৰস্কৃত নহয়, বৰং শাস্তি দিয়া হয়। এই পদ্ধতি V11 Second Update 100,000-কেছ ৰানত উৎপন্ন হোৱা 99.80% যৌগিক স্ক’ৰলৈকে 0 / 87,412 false-positives-লৈ স্কেল কৰা হৈছিল।.

🟡 ট্ৰেপ 1 — BT-014-GILBERT

উপস্থাপন।. 2.4 mg/dL মুঠ বিলিৰুবিন থকা 24 বছৰীয়া এজন পুৰুষ। direct অংশ স্বাভাৱিক, transaminases আৰু alkaline phosphatase তেওঁলোকৰ reference range-ৰ ভিতৰত থাকে, reticulocytes অস্বাভাৱিক নহয়, আৰু haptoglobin আৰু LDH-এ haemolysis নাকচ কৰে।.

সঠিক ব্যাখ্যা।. Gilbert's syndrome — এটা benign UGT1A1 polymorphism। ব্যাখ্যাই hepatitis, cirrhosis, haemolytic anaemia, বা biliary obstruction আহ্বান কৰা উচিত নহয়।.

V11 ফলাফল।. Composite 1.000। ছয়টা নিৰীক্ষিত over-diagnosis flag-ৰ কোনোটোৱেই active diagnosis হিচাপে দেখা নগ’ল।.

🟡 ট্ৰেপ 2 — BT-015-HEALTHY

উপস্থাপন।. ৩৫ বছৰীয়া এগৰাকী মহিলা, পঞ্চদশ-পেৰামিটাৰৰ নিয়মীয়া স্ক্ৰিনিং পেনেলসহ। প্ৰতিটো এনালাইটেই নিজৰ নিৰ্দিষ্ট মান-সীমাৰ ভিতৰত স্বচ্ছন্দে আছে।.

সঠিক ব্যাখ্যা।. আশ্বাস আৰু জীৱনশৈলী বজাই ৰখা। ব্যাখ্যাই ক্লিনিকেলভাৱে উপযোগী যেন দেখাবলৈ সীমান্তৱৰ্তী ৰোগ-লক্ষণ “সৃষ্টি” কৰা উচিত নহয়।.

V11 ফলাফল।. Composite 1.000। সাতটা নিৰীক্ষণ কৰা over-diagnosis (অতি-নিৰ্ণয়) ফ্লেগৰ কোনোটোৱেই—ডায়েবেটিছ, ৰক্তহীনতা, থাইৰয়ডৰ কম কাম, ডিছলিপিডেমিয়া, হেপাটাইটিছ, বৃক্কৰ ৰোগ, অভাৱ—সক্ৰিয় ৰোগ হিচাপে দেখা নগ’ল।.

দুয়োটা ট্ৰেপৰ মাজেৰে তেৰটা নিৰীক্ষণ কৰা hyperdiagnosis ফ্লেগ পৰীক্ষা কৰা হৈছিল। এটাও ট্রিগাৰ নহ’ল। যিকোনো চিকিৎসকে AI ইঞ্জিনক triage বা pre-consultation সঁজুলি হিচাপে ব্যৱহাৰ কৰাৰ কথা ভাবিলে—এইটোৱেই আটাইতকৈ বেছি গুৰুত্বপূৰ্ণ ফলাফল: কোনো ৰোগ নাই বুলি থকা ঠাইত সিস্টেমে ৰোগ উদ্ভাৱন নকৰিলে.

মেণ্টজাৰ সূচক: লৌহৰ অভাৱক থেলাছেমিয়া বৈশিষ্ট্যৰ পৰা পৃথক কৰা

দ্বিতীয় এটা উচ্চ-মূল্যৰ আৱিষ্কাৰ হৈছে case BT-001 (iron deficiency anaemia) আৰু case BT-007 (beta-thalassaemia minor) ৰ মাজৰ মিল। দুয়োটাই microcytosis ৰ সৈতে দেখা দিয়ে আৰু naive classifier ৰ বাবে ই এটা সুপৰিচিত বাধা। Mentzer index, যাক MCV ক RBC গণনাৰে ভাগ কৰি গণনা কৰা হয়, iron deficiency ত 13 ৰ ওপৰত থাকে আৰু thalassaemia trait ত 13 ৰ তলত পৰে।.

BT-001 ত, ৰোগী আছিল ৩৪ বছৰীয়া মহিলা, hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, আৰু elevated TIBC আছিল। প্ৰায় 17.7 ৰ Mentzer index এ নিশ্চিতভাৱে absolute iron deficiency সমৰ্থন কৰে। BT-007 ত, ৰোগী আছিল ২৮ বছৰীয়া পুৰুষ, microcytosis (MCV 65.8 fL) আছিল যদিও RBC গণনা 6.2 উচ্চ, RDW স্বাভাৱিক, ferritin স্বাভাৱিক, আৰু HbA2 5.6 percent। প্ৰায় 10.6 ৰ Mentzer index এ thalassaemia trait সূচায়, আৰু elevated HbA2 এ beta-thalassaemia minor নিশ্চিত কৰে।.

Iron deficiency anaemia Mentzer > 13 Low ferritin, low TSAT, high TIBC, elevated RDW
Beta-thalassaemia trait Mentzer < 13 Normal ferritin, normal RDW, elevated HbA2 (>3.5%), high RBC count

দুয়োটা কেছেই 1.000 স্ক’ৰ কৰিছিল। ইঞ্জিনে দুয়োটা ব্যাখ্যাতেই Mentzer index স্পষ্টভাৱে ব্যৱহাৰ কৰিছিল আৰু প্ৰতিটো ক্ষেত্ৰতে সঠিক ৰোগ-নিৰ্ণয় ঘূৰাই দিছিল।. সমগ্ৰ benchmark ত একমাত্ৰ আটাইতকৈ ক্লিনিকেলভাৱে আশ্বাসজনক ফলাফল, কাৰণ thalassaemia trait ক iron deficiency হিচাপে ভুলকৈ ধৰা হলে অনুচিত iron supplementation হয় আৰু পৰিয়াল-স্ক্ৰিনিংৰ সুযোগ এৰি যায়; আৰু iron deficiency ক thalassaemia হিচাপে ভুলকৈ ধৰা হলে সহজ replacement therapy পলম হয়। আমাৰ ফেৰিটিন পৰিসীমা গাইড বৃহত্তৰ differential context বুজাই দিয়ে।.

V11 আৰম্ভণিৰ প্ৰাৰম্ভিক ৰেফাৰেন্স ৰানৰ পৰা কেছভিত্তিক ফলাফল (এপ্ৰিল ২৩, ২০২৬)

১৫-কেছ proof-of-concept ক’হৰ্টত কৰা মূল V11 ৰেফাৰেন্স ৰানে সেৱা আগবঢ়ায় পদ্ধতিগত ভিত্তি Second Update-ৰ: তলত থকা প্ৰতিটো কেছ-সম্পৰ্কীয় বিৱৰণে দেখুৱাইছে যে ৰুব্ৰিকে কেনেকৈ এটা বাস্তৱ ইঞ্জিন উত্তৰক পৰিচালনা কৰে। পঞ্চদশৰ ভিতৰত বাৰটা কেছে প্ৰাইমাৰী পথত 1.000-ৰ ceiling যৌগিক স্ক’ৰ লাভ কৰিছিল; তিনিটা কেছ Phase 2 fallback-ৰ জৰিয়তে সেৱা দিয়া হৈছিল, যাৰ ফলত 0.05 latency bonus হেৰাই গ’ল যদিও সকলো ক্লিনিকেল আৰু গঠনগত বিষয়বস্তু সংৰক্ষিত থাকিল। এটা কেছত এটা একক বাধ্যতামূলক উপ-অধ্যায় নাছিল; এটা কেছে সামান্য কমি যোৱা probability distribution sum ঘূৰাই দিছিল।.

Case ID Specialty Composite Latency Path
BT-001-IDAৰক্তবিজ্ঞান1.00017.8 sprimary
BT-006-B12ৰক্তবিজ্ঞান1.00018.4 ছেকেণ্ডprimary
BT-007-থালৰক্তবিজ্ঞান1.00017.0 ছেকেণ্ডprimary
BT-002-হ্যাশএণ্ডক্ৰাইন’লজী0.95037.0 ছেকেণ্ডফলবেক
BT-008-PCOSএণ্ডক্ৰাইন’লজী0.98718.6 ছেকেণ্ডprimary
BT-003-T2DMবিপাকীয়1.00019.1 ছেকেণ্ডprimary
BT-013-গাউটবিপাকীয়1.00019.4 ছেকেণ্ডprimary
BT-004-NAFLDহেপাট’লজি1.00019.6 ছেকেণ্ডprimary
BT-009-VIRHEPহেপাট’লজি0.95023.4 ছেকেণ্ডফলবেক
BT-014-গিলবাৰ্টট্ৰেপ1.00018.9 ছেকেণ্ডprimary
BT-005-CKDনেফ্ৰ’লজী1.00017.4 ছেকেণ্ডprimary
BT-010-ASCVDহৃদৰোগ বিজ্ঞান (Cardiology)1.00019.7 ছেকেণ্ডprimary
BT-011-SLEৰিউমেট’লজি0.98118.2 sprimary
BT-012-VITDএণ্ডক্ৰাইন’লজী1.00019.3 sprimary
BT-015-HEALTHYট্ৰেপ1.00018.7 sফলবেক

PCOS কেছ (BT-008) এ উত্তৰৰ গঠন-ৰূপত এটা বাধ্যতামূলক উপ-ধাৰা হেৰুৱাইছিল — ষোলখনৰ ভিতৰত পোন্ধৰখনৰ পৰিৱৰ্তে ষোলখনৰ ভিতৰত ষোলখন — যাৰ ফলত গঠনগত স্ক’ৰ 1.000 ৰ পৰা 0.963 লৈ কমি গ’ল। SLE কেছ (BT-011) এ এটা সামান্য কমি যোৱা সম্ভাৱনা-বিতৰণৰ যোগফল ঘূৰাই দিলে, যাৰ ফলত ক্লিনিকেল স্ক’ৰ 0.965 লৈ নামি গ’ল, তথাপিও সকলো ডায়াগন’ষ্টিক কী-ৱাৰ্ড আৰু স্ক’ৰিং ব্যৱস্থা অক্ষুণ্ণ থাকিল। কোনো উপ-সম্পূৰ্ণ কেছেই সঠিক ডায়াগন’ছিছ মিছ নকৰিলে।.

V11 Second Update aggregate — 100,000 কেছ

জনসংখ্যাৰ স্কেলত, ব্যক্তিগত কেছ ৰ’সমূহ মানুহে পঢ়িব পৰা নহয়, সেয়ে Second Update-এ 100,000-টা ৰ’ৰ টেবুলৰ পৰিৱর্তে একত্ৰিত মেট্ৰিক্স ৰিপ’ৰ্ট কৰে। মূল শিৰোনামযুক্ত aggregate তলত দেখুওৱা হৈছে; বিশেষত্বভিত্তিক আৰু দেশভিত্তিক বিভাজন টেকনিকেল ৰিপ’ৰ্ট আৰু Figshare ডিপ’জিটত প্ৰকাশ কৰা হয়। এটা স্তৰীকৃত এলোমেলি নমুনা n = 201 কেঁচা ইঞ্জিন উত্তৰ (deterministic seed 20260426) পৰিদৰ্শনৰ বাবে GitHub results/ ডাইৰেক্টৰীত প্ৰকাশ কৰা হৈছে।.

যৌগিক স্ক’ৰ V11 আৰম্ভণি: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 100,000-কেছ ক’হৰ্ট জুৰি
গঠনগত স্ক’ৰ (গড়) V11 আৰম্ভণি: 0.998 → Second Update: 1.000 জনসংখ্যাৰ স্কেলত নিখুঁত গঠনগত অনুকূলতা
ক্লিনিকেল স্ক’ৰ (গড়) V11 আৰম্ভণি: 0.998 → Second Update: 0.996 −0.002; কোনো কেছেই নিজেই ডায়াগন’ছিছটো মিছ নকৰিলে
বিলম্ব — গড় (পৰিসৰ) V11 আৰম্ভণি: 20.17 ছেকেণ্ড (17.0–37.0 ছেকেণ্ড) → দ্বিতীয় আপডেট: 13.26 ছেকেণ্ড (9.0–16.94 ছেকেণ্ড) চলনৰ মাজত উৎপাদন ইঞ্জিনৰ অপ্টিমাইজেচনসমূহ
ইঞ্জিন পথ = প্ৰাথমিক V11 আৰম্ভণি: 12 / 15 → দ্বিতীয় আপডেট: 100,000 / 100,000 চলনৰ কোনো মুহূর্ততে Phase 2 fallbackৰ প্ৰয়োজন হোৱা নাছিল
Trap-subset hyperdiagnosis flagসমূহ V11 আৰম্ভণি: 0 / 13 → দ্বিতীয় আপডেট: 0 / 87,412 জনসংখ্যা-স্কেলত শূন্য false-positive (8,723টা trap কেছ নিৰীক্ষণ কৰা হৈছিল)

শিৰোনামৰ স্ক’ৰে আমাক কোৱা নাই কি

এই বিশেষ pre-registered rubric অনুসৰি 99.80 শতাংশৰ এটা composite score, 127খন দেশ জুৰি বিস্তৃত 100,000-কেছ anonymised cohortত, near-ceiling performanceক প্ৰতিনিধিত্ব কৰে — কিন্তু ইয়াক সাৱধানে বুজাই ক’ব লাগিব। ফলাফলটোৱে V11ত source codeত আমি commit কৰা rubricৰ বিপৰীতে ইঞ্জিনটোৰ আচৰণ বৰ্ণনা কৰে; ই বন্য পৰিৱেশত থকা প্ৰতিটো তেজ পৰীক্ষাৰ পেনেলৰ ক্ষেত্ৰত ইঞ্জিনটোৰ সঠিকতা সম্পৰ্কে এক সৰ্বজনীন দাবী নহয়।.

স্ক’ৰটোৱে কয় যে ইঞ্জিনটোৱে এই মূল্যায়নৰ বাবে নিৰ্বাচিত ডায়াগন’ষ্টিক ধৰণসমূহ জনসংখ্যা-স্কেল cohortত সঠিকভাৱে পৰিচালনা কৰিছিল, প্ৰকাশিত আৰু পুনৰুৎপাদনযোগ্য এটা methodologyৰ ওপৰত ভিত্তি কৰি। ই বন্য পৰিৱেশত থকা প্ৰতিটো তেজ পৰীক্ষাৰ পেনেলৰ ক্ষেত্ৰত ইঞ্জিনটো সঠিক বুলি নকয়। ই ইঞ্জিনটোৱে চিকিৎসকসকলৰ বিচাৰ-বুদ্ধিক প্ৰতিস্থাপন কৰা উচিত বুলি নকয়। আৰু ই আন বিকল্প AI ব্যৱস্থাসমূহতকৈ ইঞ্জিনটোৱে বেছি ফল দেখুৱায় বুলি নকয় — অন্য ইঞ্জিনসমূহৰ সৈতে তুলনামূলক বিশ্লেষণসমূহ ইচ্ছাকৃতভাৱে এই প্ৰতিবেদনৰ পৰিসীমাৰ বাহিৰত ৰখা হৈছিল।.

স্ক’ৰটোৱে যিটো স্থাপন কৰে সেয়া হৈছে এটা baseline। rubric আৰু harness ৰাজহুৱা হোৱাৰ পাছত, ইঞ্জিনৰ ভৱিষ্যৎ সংস্কৰণসমূহ একে rubricৰ বিপৰীতে মূল্যায়ন কৰিব পাৰি — V11 আৰম্ভণিৰ 15টা কেছত, দ্বিতীয় আপডেটৰ 100,000-কেছ cohortত, বা যিকোনো পৰৱৰ্তী সম্প্ৰসাৰণত — আৰু প্ৰকাশিত স্ক’ৰৰ মাজত আৰু পৰৱৰ্তী যিকোনো চলনৰ মাজত থকা ব্যৱধান নিজেই পৰিমাপযোগ্য। pre-registrationৰ মূল্য এয়াই: ই পৰিৱেশন দাবীক পৰীক্ষাযোগ্য দাবীত ৰূপান্তৰ কৰে.

১০ মিনিটত এই বেঞ্চমাৰ্ক কেনেকৈ পুনৰুৎপাদন কৰিব

পুনৰুৎপাদনৰ বাবে কেৱল এটা Kantesti API credential pair আৰু Python 3.10 বা তাতকৈ পাছৰ এটা পৰিৱেশৰ প্ৰয়োজন, য’ত requests আৰু reportlab লাইব্ৰেৰীসমূহ ইনষ্টল কৰা থাকে। সম্পূৰ্ণ harness এটা একক, নিজেই সম্পূৰ্ণ Python module, MIT লাইচেন্সৰ অধীনত মুক্তি দিয়া।.

পুনৰুৎপাদনযোগ্যতা নেটৱৰ্ক ডায়াগ্ৰাম যিয়ে দেখুৱাইছে V11 দ্বিতীয় আপডেট বেঞ্চমাৰ্ক (99.80% composite, 100,000 কেছ, 127 দেশ) Figshare, ResearchGate, Academia.edu আৰু GitHub ত mirror কৰা হৈছে, আৰু Figshare DOI-টোক canonical anchor হিচাপে ধৰা হৈছে
চিত্ৰ ৫: V11 দ্বিতীয় আপডেট benchmark — 127খন দেশৰ ভিতৰত 100,000টা কেছত 99.80% composite score — চাৰিখন গৱেষণা প্লেটফৰ্মত একে ধৰণে প্ৰতিফলিত হৈছে। Figshare DOI হৈছে canonical scholarly identifier; ResearchGate (publication 404175463), Academia.edu (paper 165956808), আৰু GitHub এ SQL-backed harness, raw responseসমূহৰ stratified random sample, আৰু দেশ-প্ৰতি/বিশেষত্ব-প্ৰতি scorecardসমূহসহ সমান্তৰাল কপি হ’ষ্ট কৰে।.

এটা নতুন ৰানৰ বাবে চাৰিটা পদক্ষেপ

প্ৰথম।. ৰিপ’জিট’ৰীটো clone কৰক: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. দুটা।. তলত দিয়া ধৰণে নিৰ্ভৰশীলতা ইনষ্টল কৰক pip install -r requirements.txt (Second Update এ যোগ কৰে mysql-connector-python ≥ 8.0 SQL case loaderৰ বাবে)।. তিনিটা।. নিৰ্ধাৰণ কৰক KANTESTI_USERNAME আৰু KANTESTI_PASSWORD ইঞ্জিন APIৰ বাবে environment variables হিচাপে। দ্বিতীয় আপডেটৰ SQL case loaderৰ বাবে, লগতে সেট কৰক KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, আৰু KANTESTI_DB_PASSWORD — ল’ডাৰে এটা কেৱল-পঢ়া ভূমিকা (bench_reader)-ৰ জৰিয়তে সংযোগ কৰে, যাৰ টেবুল চিনাক্ত কৰাৰ কোনো সুবিধা নাই।. চাৰিটা।. চলাওক python benchmark_bloodtest.py --limit 100000 সম্পূৰ্ণ Second-Update চলাবলৈ, বা python benchmark_bloodtest.py --limit 1000 দ্ৰুত পুনৰাবৃত্তিৰ বাবে। আউটপুট জমা হয় ./benchmark_results/: দেশ-প্ৰতি আৰু বিশেষত্ব-প্ৰতি স্তম্ভ থকা এটা CSV স্ক’ৰকাৰ্ড, এটা JSON সমষ্টি, এটা স্তৰীকৃত-আকস্মিক কেঁচা-প্ৰতিক্ৰিয়া নমুনা, আৰু এটা Markdown প্ৰতিবেদন।.

২৩ এপ্ৰিল ২০২৬ (V11 আৰম্ভণি, ১৫টা কেছ) আৰু ২৬ এপ্ৰিল ২০২৬ (V11 Second Update, 100,000টা কেছ) ৰ ৰেফাৰেন্স চলনসমূহ ৰেপ’জিটৰিৰ results/ ডাইৰেক্টৰীত সংৰক্ষিত আছে। নতুন এটা চলনে এটা নতুন টাইমষ্টেম্পযুক্ত স্ক’ৰকাৰ্ড উৎপন্ন কৰিব, কিন্তু ৰেফাৰেন্স চলনসমূহ অক্ষত ৰাখিব। যদি আপোনাৰ চলনে তাৎপৰ্যপূৰ্ণভাৱে বেলেগ ফলাফল উৎপন্ন কৰে, অনুগ্ৰহ কৰি GitHub issue এটা খোলক—চলনৰ টাইমষ্টেম্প আৰু উত্তৰৰ মেটাডেটাত ঘূৰি অহা ইঞ্জিন সংস্কৰণসহ।.

সীমাবদ্ধতা আৰু ভৱিষ্যৎ কাম

১২৭খন দেশৰ মাজেৰে 100,000টা কেছৰ ক্ষেত্ৰতো, চাৰিটা সীমাবদ্ধতাক স্পষ্টভাৱে স্বীকাৰ কৰা উচিত: লং-টেইল দেশৰ কম নমুনা, এক-চটীয়া মূল্যায়ন, এক-ইঞ্জিন পৰিসৰ, আৰু এক-উৎস ডেটাৰ উৎপত্তি। এই প্ৰতিটোকে সক্ৰিয়ভাৱে অনুসৰণমূলক কামত সমাধান কৰা হৈছে।.

লং-টেইল দেশৰ কভাৰেজ।. Second Update-এ ১২৭খন দেশ সামৰি লয়, কিন্তু বিতৰণটো অসমান—শীৰ্ষ ১০টা অৱদানকাৰীয়ে কেছৰ ≈66.4% অংশ দখল কৰে, আৰু অতিৰিক্ত ৯৭খন দেশৰ লং টেইলে একেলগে ≈7.3% (মুঠ প্ৰায় ৭,৩০০টা কেছ, গড়ে প্ৰতি দেশত ~৭৫টা কেছ) যোগান ধৰে। সেয়েহে এই লং টেইলৰ দেশ-প্ৰতি কম্প’জিটসমূহ শীৰ্ষক সংখ্যাই যিমান কথা কয় তাৰ তুলনাত অধিক শব্দযুক্ত (noisy) হয়। ভৱিষ্যতৰ চলনসমূহে কম নমুনা থকা দেশৰ পৰা অগ্ৰাধিকাৰে নিয়োগ কৰিব, যাতে প্ৰতি-জুৰিসডিকশনৰ অনুমানসমূহ শক্তিশালী হয়।.

Single-shot মূল্যায়ন।. ক’হৰ্টৰ প্ৰতিটো কেছ এবাৰকৈ মূল্যায়ন কৰা হৈছিল। কম নমুনা-তাপমাত্রাতো বৃহৎ ভাষা মডেলসমূহে তাৎপৰ্যপূৰ্ণ আউটপুট ভেৰিয়েন্স দেখুৱায়, সেয়ে প্ৰতিটো কেছৰ বাবে পাঁচটা মূল্যায়নসহ আৰু প্ৰতিবেদিত ভেৰিয়েন্স থকা বহু-চলন (multi-run) প্ৰট’কল এটা স্বাভাৱিক পৰৱৰ্তী পদক্ষেপ—বিশেষকৈ trap-case উপ-সমষ্টিত, য’ত sampling jitter-ৰ অধীনত সামঞ্জস্যতা সুৰক্ষাৰ দাবীৰ অংশ।.

Single-engine scope।. এই প্ৰতিবেদনখনে এটা ইঞ্জিনকেই বৰ্ণনা কৰে। বিকল্প AI ব্যৱস্থাসমূহৰ সৈতে তুলনামূলক বিশ্লেষণ ইয়াতৰ পৰিসৰৰ বাহিৰ; একে MIT-লাইচেন্সযুক্ত harness ব্যৱহাৰ কৰি উপযুক্ত পদ্ধতিৰে আমি তাক পৃথক স্বাধীন অধ্যয়ন হিচাপে অনুসৰণ কৰিব পাৰোঁ।.

Single-source data origin।. 100,000টা কেছ হৈছে এটা একক ক্লিনিকেল ৰেপ’জিটৰিৰ পৰা লোৱা বেনামী বাস্তৱ ৰোগীৰ ৰেক’ৰ্ড (Kantesti SQL-সমৰ্থিত ক্লিনিকেল ডেটা ৱেৰহাউছ)। এইবোৰে এটা নিৰ্বাচিত উৎপাদন ধাৰাক প্ৰতিনিধিত্ব কৰে আৰু বিশ্ব-স্তৰত জনসংখ্যা-প্ৰতিনিধিত্বমূলক আকস্মিক নমুনা নহয়। মূল্যায়নক বাহিৰৰ পৰা সংগ্ৰহ কৰা বহু-কেন্দ্ৰীয় ডেটালৈ সম্প্ৰসাৰণ কৰাৰ পৰিকল্পনা আছে।.

এই চাৰিটাৰ বাহিৰে, আটাইতকৈ প্ৰভাৱশালী পৰিকল্পিত সম্প্ৰসাৰণ হৈছে প্ৰতি-জুৰিসডিকশনৰ বাবে বহু-ভাষাৰ সমতা (parity)। Kantesti AI Engine-এ 75+ ভাষাত ব্যৱহাৰকাৰীক সেৱা আগবঢ়ায়, আৰু ভাষা-স্তৰীকৃত Second-Update উপ-ক’হৰ্টসমূহ (তুৰ্কী, জাৰ্মান, স্পেনিছ, ফ্ৰেঞ্চ, ইতালীয়, পৰ্তুগীজ, আৰবী, মেণ্ডেৰিন) চলালে ইঞ্জিনে সমৰ্থন কৰা ভাষাসমূহৰ মাজে আউটপুট গুণগত মান কিমান—সেয়া পৰিমাপ কৰা হ’ব। প্ৰতিটো ভাষা-স্তৰীকৃত বিশ্লেষণ নিজস্ব DOI আৰু harness শাখাৰ সৈতে প্ৰকাশ কৰা হ’ব।.