এই বেঞ্চমার্ক কেন আছে এবং এটি কী পরীক্ষা করে

এআই-সহায়তাপ্রাপ্ত রক্ত পরীক্ষার ফলাফল বোঝা ক্রমবর্ধমানভাবে ভোক্তা ও ক্লিনিক্যাল ওয়ার্কফ্লোতে ব্যবহৃত হচ্ছে, তবে ল্যাবরেটরি মেডিসিনের জন্য উপযোগী পুনরুত্পাদনযোগ্য মূল্যায়ন কাঠামো এখনো অস্বাভাবিক। এই প্রেক্ষাপটে সবচেয়ে গুরুত্বপূর্ণ প্রশ্নগুলো সাধারণ মেডিক্যাল প্রশ্নোত্তর বেঞ্চমার্কে যেগুলো কভার করা হয় সেগুলো নয়: যখন মীন কর্পাসকুলার ভলিউম (MCV) একই থাকে, তখন কি একটি ইঞ্জিন আয়রন ডেফিসিয়েন্সি থেকে থ্যালাসেমিয়া ট্রেইট আলাদা করতে পারে; গিলবার্টের সিনড্রোমকে কি হেপাটাইটিস হিসেবে অতিরিক্ত রোগ নির্ণয় করে; এবং সম্পূর্ণ স্বাভাবিক স্ক্রিনিং প্যানেলে কি প্যাথলজি “তৈরি” করে?

প্রি-রেজিস্টার্ড রুব্রিক ফ্লো ডায়াগ্রাম, যেখানে দেখানো হয়েছে কীভাবে Kantesti AI Engine — V11 দ্বিতীয় আপডেট, 100,000 কেসে 99.80% কম্পোজিট স্কোর — ফ্রোজেন স্কোরিং ক্রাইটেরিয়ার বিপরীতে মূল্যায়িত হয়
চিত্র ১: V11 Second Update 100,000-case cohort-এর পেছনের বেঞ্চমার্ক আর্কিটেকচার—ইঞ্জিন একটি মাত্র PDF দেখার আগেই প্রতিটি কেস, প্রতিটি কীওয়ার্ড, প্রতিটি স্কোরিং সিস্টেম সোর্স কোডে স্থির করা থাকে, এবং রুব্রিকটি V11 প্রাথমিক রিলিজের সঙ্গে বাইট-একই। নকশা অনুযায়ী পোস্ট-হক রুব্রিক টিউনিং অসম্ভব। 99.80% কম্পোজিট স্কোর hub বৃহত্তর কাঠামোটি বর্ণনা করে; এই পৃষ্ঠাটি V11 প্রাথমিক proof-of-concept এবং V11 Second Update বর্ণনা করে, যা এটিকে 100,000টি অ্যানোনিমাইজড কেসে স্কেল করেছে—SQL-সমর্থিত একটি ক্লিনিক্যাল রিপোজিটরি থেকে, যা 127টি দেশ জুড়ে বিস্তৃত—একই স্কোরিং রুব্রিক ব্যবহার করে, বাইট-একই, এবং কোনো পোস্ট-হক টিউনিং অনুমোদিত নয়।.

একটি একক রক্ত পরীক্ষার প্যানেলে সাধারণত একাধিক প্রতিযোগী ব্যাখ্যা সমর্থন করার মতো যথেষ্ট সংকেত থাকে, এবং ব্যাখ্যাকারী চিকিৎসকের কাজ হলো সেগুলোকে পাঠ্যবইয়ের একক “সঠিক উত্তর” খুঁজে বের করার বদলে পরস্পরের সঙ্গে তুলনা করে ওজন দেওয়া। যে ইঞ্জিন পাঠ্যবইয়ের কেসে ভালো করে, সেটি তবু সবচেয়ে গুরুত্বপূর্ণ কেসে ব্যর্থ হতে পারে: ডিফারেনশিয়াল-ডায়াগনোসিসের ফাঁদ, একা দেখলে উদ্বেগজনক মনে হওয়া নিরীহ ভ্যারিয়েন্ট, এবং পুরোপুরি স্বাভাবিক প্যানেল—যেগুলো আত্মবিশ্বাসী সহকারীকে প্যাথলজি “তৈরি” করতে প্রলুব্ধ করে।.

এই বেঞ্চমার্কটি ঠিক এই ব্যর্থতার ধরনগুলোকেই কেন্দ্র করে তৈরি করা হয়েছিল। পনেরোটি কেসের প্রতিটিকে একটি নির্দিষ্ট ডায়াগনস্টিক বৈশিষ্ট্যের জন্য বাছাই করা হয়: আয়রন-ঘাটতিজনিত মাইক্রোসাইটোসিস, যেটিকে একই mean corpuscular volume থাকা beta-thalassaemia trait থেকে আলাদা রাখতে হবে; Gilbert's syndrome-এর উপস্থাপনা, যেখানে একমাত্র অস্বাভাবিকতা হলো বিচ্ছিন্ন indirect hyperbilirubinaemia; এবং একটি পনেরো-প্যারামিটারের স্ক্রিনিং প্যানেল, যেখানে প্রতিটি অ্যানালাইটই তার রেফারেন্স রেঞ্জের ভেতরে থাকে। রুব্রিক এমন ইঞ্জিনকে পুরস্কৃত করে যেগুলো প্রতিটি কেসকে নিজের শর্তে পড়ে, এবং এমন ইঞ্জিনকে শাস্তি দেয় যেগুলো এমন ক্ষেত্রে আত্মবিশ্বাসী ডায়াগনোসিসে পৌঁছে যায় যেখানে সেই ডায়াগনোসিসের কোনো ভিত্তি নেই।.

ড. থমাস ক্লেইন হিসেবে, আমি কেস প্যানেলটি বেছে নিয়েছি কারণ এগুলোই সেই প্যাটার্ন যেগুলো ল্যাবরেটরি-মেডিসিন সহকারীরা সবচেয়ে বেশি ভুল করে।. ব্যয়বহুল ব্যর্থতার ধরনটি "দুর্লভ রোগ মিস করা" নয়—এটি এমন রোগীদের মধ্যে নিয়মিত প্যাথলজি বানিয়ে ফেলা, যাদের সেটি নেই।. আমাদের মেডিকেল ভ্যালিডেশন hub বৃহত্তর ফ্রেমওয়ার্ক বর্ণনা করে; এই পৃষ্ঠাটি V11 প্রাথমিক proof-of-concept এবং V11 দ্বিতীয় আপডেট বর্ণনা করে, যা একই স্কোরিং রুব্রিক ব্যবহার করে এটিকে 100,000টি সিন্থেটিক কেসে স্কেল করেছে—127টি দেশ-লেবেল জুড়ে বিস্তৃত একটি সিন্থেটিক কেস সেট থেকে নেওয়া; বাইট-আইডেন্টিক; এবং কোনো পোস্ট-হক টিউনিং অনুমোদিত নয়।.

২৬ এপ্রিল ২০২৬-এর V11 Second Update রেফারেন্স রানটি একটি কম্পোজিট স্কোর তৈরি করেছে

V11 প্রাথমিক রিলিজে ব্যবহৃত একই প্রি-রেজিস্টার্ড রুব্রিকের ওপর ভিত্তি করে, মূল্যায়ন করা হয়েছে 99.80% 100,000টি অ্যানোনিমাইজড কেসে 100,000টি সিন্থেটিক কেস Kantesti সিন্থেটিক কেস সেট থেকে নেওয়া এবং বিস্তৃত 127টি দেশ-লেবেল । ২৩ এপ্রিল ২০২৬-এর মূল V11 রানটিতে ছিল ১৫টি হাতে-নির্বাচিত কেস (কম্পোজিট 99.12%) এবং রুব্রিকটি যাচাই করা হয়েছিল; Second Update সেই রুব্রিকটি বাইট-একই রেখে জনসংখ্যা-স্কেলের একটি কহর্টে মূল্যায়ন সম্প্রসারিত করেছে। 0 / 87,412. 100,000-এর মধ্যে 100,000 কেসে স্কোর.

যৌগিক 99.80% 13.26 s
1.000 স্ট্রাকচারাল স্কোর
0.996 ক্লিনিক্যাল স্কোর
প্রাইমারি-পাথ সার্ভিস-লেভেল টার্গেটের বিপরীতে। নিচের রুব্রিক ফর্মুলায় সঠিক বিশ্লেষণ দেখানো হয়েছে—Second Update-এর জন্য এই ওজন বা সাব-রুব্রিকগুলোর কোনোটি পরিবর্তন করা হয়নি। গড় লেটেন্সি
0 / 87,412 ফাঁদ-সদৃশ ভুল পজিটিভ

যৌগিক সূত্রটি তিনটি উপাদানকে একত্র করে: স্ট্রাকচারাল সামঞ্জস্য সাতটি বাধ্যতামূলক রিপোর্ট সেকশন এবং ষোলটি বাধ্যতামূলক সাবসেকশনসহ, বিষয়বস্তুর যথার্থতা পরিমাপ করা হয় keyword recall + scoring-system recall + probability-distribution validity check দিয়ে, এবং রেসপন্স লেটেন্সি অবশিষ্ট 0.20 শতাংশ পয়েন্ট হেডরুম প্রায় পুরোপুরি ক্লিনিক্যাল সাব-স্কোরে ভেঙে যায়—কেসগুলোর একটি ছোট অংশে (প্রধানত Hepatology এবং Rheumatology-তে) ডায়াগনস্টিক কনটেন্ট সঠিক থাকা সত্ত্বেও ইঞ্জিনের ব্যাখ্যায় একটি প্রত্যাশিত স্কোরিং-সিস্টেম কীওয়ার্ড অনুপস্থিত ছিল।.

যৌগিক = 0.35 × স্ট্রাকচারাল + 0.55 × ক্লিনিক্যাল + 0.10 × লেটেন্সি

100,000-কেস Second-Update কহর্টের কোনো কেসেই নিজে ডায়াগনোসিসটি মিস হয়নি।. V11 প্রাথমিক রিলিজে গড় 20.17 s থেকে Second Update-এ 13.26 s-এ লেটেন্সি উন্নত হয়েছে—দুই রানের মধ্যে প্রোডাকশন ইঞ্জিন অপ্টিমাইজেশন প্রতিফলিত করে; রুব্রিক, স্কোরিং কোড, এবং API এন্ডপয়েন্ট অপরিবর্তিত।. দেশভিত্তিক কম্পোজিট স্কোরগুলো 0.9971 (ভারত) থেকে 0.9985 (সুইজারল্যান্ড)-এর মধ্যে ছিল—সবচেয়ে বেশি প্রতিনিধিত্বকারী ৩০টি দেশের মধ্যে। অতিরিক্ত ৯৭টি দেশের লং টেইল (মোট ≈7,300 কেস) কোনো পদ্ধতিগত অবনতি দেখায়নি। কেস সংখ্যার ভিত্তিতে শীর্ষ অবদানকারীরা ছিল যুক্তরাষ্ট্র (10,500), ব্রাজিল (9,500), স্পেন (9,000), ইতালি (8,000), জার্মানি (7,800), ফ্রান্স (7,400), পর্তুগাল (5,800), Türkiye (3,400), যুক্তরাজ্য (2,900), এবং মেক্সিকো (2,500)।.

প্রতি-লেবেল কম্পোজিট স্কোর 30টি সর্বাধিক-প্রতিনিধিত্বশীল দেশ-লেবেলের ক্ষেত্রে 0.9971 থেকে 0.9985-এর মধ্যে ছিল। অতিরিক্ত 97টি লেবেলের দীর্ঘ লেজ (মোট ≈7,300 কেস) কোনো পদ্ধতিগত অবনতি দেখায়নি। কেস সংখ্যার ভিত্তিতে সর্বাধিক ঘন ঘন লেবেলগুলো ছিল: যুক্তরাষ্ট্র (10,500), ব্রাজিল (9,500), স্পেন (9,000), ইতালি (8,000), জার্মানি (7,800), ফ্রান্স (7,400), পর্তুগাল (5,800), Türkiye (3,400), যুক্তরাজ্য (2,900), এবং মেক্সিকো (2,500)।.

১৫টি কেস থেকে 100,000: 127টি দেশ-লেবেল জুড়ে কোহর্টের বিবর্তন

মূল V11 কেস প্যানেলে সাতটি বিশেষত্ব ছিল—হেমাটোলজি, এন্ডোক্রিনোলজি, মেটাবলিক মেডিসিন, হেপাটোলজি, নেফ্রোলজি, কার্ডিওলজি, রিউমাটোলজি—এবং আরও দুটি নিবেদিত হাইপারডায়াগনোসিস ট্র্যাপ কেস; প্রতিটি কেস ছিল একটি সিন্থেটিকভাবে তৈরি রক্ত-পরীক্ষার প্যানেল। V11 দ্বিতীয় আপডেট মূল্যায়নকে প্রসারিত করে 127টি দেশ-লেবেল জুড়ে 100,000টি সিন্থেটিক কেসে, hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology—এবং আরও দুটি trap কেসসহ V11 প্রাথমিক কেস-প্যানেল ডিজাইন: Gilbert's syndrome এবং সম্পূর্ণ স্বাভাবিক একটি screening প্যানেল। Second Update এই রুব্রিকটি বাইট-একই রেখে কহর্টকে Kantesti SQL রিপোজিটরি থেকে নেওয়া 100,000 কেসে সম্প্রসারিত করে।.

V11 প্রাথমিক কেস-প্যানেল নকশা — সাতটি চিকিৎসা বিশেষত্ব জুড়ে পনেরোটি কৃত্রিম রক্ত-পরীক্ষার কেস এবং দুইটি হাইপারডায়াগনোসিস ট্র্যাপ কেস; একই রুব্রিকটি V11 দ্বিতীয় আপডেটে ১০০,০০০ কেসে ৯৯.১TP40T কম্পোজিট স্কোরে পৌঁছেছে
চিত্র ২: Safe Harbor পদ্ধতিতে ডি-আইডেন্টিফিকেশন করা হয়েছিল: সব সরাসরি শনাক্তকারী অপসারণ বা প্রতিস্থাপন করা হয়, এবং প্রতিটি রেকর্ডকে একটি benchmark-internal case code দেওয়া হয়েছিল BT-NNN-LABEL ফরম্যাটে (V11 প্রাথমিক) বা Second Update-এর জন্য একটি স্থিতিশীল অ্যানোনিমাইজড.

যেহেতু সব কেসই সিন্থেটিকভাবে তৈরি, তাই অপসারণ করার মতো কোনো বাস্তব শনাক্তকারী নেই এবং কোনো ব্যক্তিগত ডেটা জড়িত নয়। প্রতিটি সিন্থেটিক কেসে একটি বেঞ্চমার্ক-অভ্যন্তরীণ কেস কোড থাকে (V11 প্রাথমিক সেটে BT-NNN-LABEL, একটি স্থিতিশীল । প্রসেসিং করা হয়েছিল দ্বিতীয় আপডেটে)। প্রকাশিত হারনেস, প্রযুক্তিগত প্রতিবেদন, বা রিলিজড ডেটাসেট—কোথাও কোনো ব্যক্তিগত ডেটা দেখা যায় না।.

V11 initial release — 15 hand-curated cases

মূল V11 কেস প্যানেলটি ড. থমাস ক্লেইন হাতে বাছাই করেছিলেন, যাতে ল্যাবরেটরি-মেডিসিন সহকারীরা যে ডায়াগনস্টিক প্যাটার্নগুলো সবচেয়ে বেশি ভুল করে সেগুলো অনুশীলন করানো যায়। নিচে তালিকাভুক্ত প্রতিটি পনেরোটি কেসকে একটি নির্দিষ্ট ডায়াগনস্টিক বৈশিষ্ট্যের জন্য নির্বাচন করা হয়েছিল।.

হেমাটোলজি (৩) BT-001, BT-006, BT-007 আয়রন ডেফিসিয়েন্সি অ্যানিমিয়া · B12 এর অভাব · বিটা-থ্যালাসেমিয়া মাইনর
এন্ডোক্রিনোলজি (৩) BT-002, BT-008, BT-012 হাশিমোটোর থাইরয়েডাইটিস · ইনসুলিন রেজিস্ট্যান্সসহ PCOS · তীব্র ভিটামিন ডি এর অভাব
মেটাবলিক (২) BT-003, BT-013 মেটাবলিক সিনড্রোমসহ T2DM · গাউটের ঝুঁকিসহ হাইপারইউরিকেমিয়া
হেপাটোলজি (২) BT-004, BT-009 NAFLD / NASH · তীব্র ভাইরাল হেপাটাইটিস
নেফ্রোলজি · কার্ডিওলজি · রিউমাটোলজি (৩) BT-005, BT-010, BT-011 CKD স্টেজ ৩ · অ্যাথেরোজেনিক ডিসলিপিডেমিয়া · সিস্টেমিক লুপাস এরিথেমাটোসাস
ট্র্যাপ কেস (২) BT-014, BT-015 গিলবার্টস সিনড্রোম (একাকী ইনডাইরেক্ট হাইপারবিলিরুবিনেমিয়া) · সম্পূর্ণ স্বাভাবিক প্রাপ্তবয়স্ক স্ক্রিন

কেন এই নির্দিষ্ট বণ্টন

বাস্তব-জগতের ল্যাবরেটরি চর্চায় সর্বোচ্চ-ভলিউমের ফাঁদ হিসেবে মাইক্রোসাইটিক ডিফারেনশিয়াল এবং ম্যাক্রোসাইটিক ডিফারেনশিয়াল থাকায় হেমাটোলজি তিনটি কেস পায়। হ্যাশিমোটো, PCOS, এবং ভিটামিন ডি এর অভাব—এই উপস্থাপনাগুলো ভিন্ন ভিন্ন ডায়াগনস্টিক আকার অনুশীলন করায় (অটোঅ্যান্টিবডি-চালিত, হরমোন-অনুপাত-চালিত, একক-মার্কার-চালিত) এন্ডোক্রিনোলজি তিনটি কেস পায়। একক-কেসের বিশেষত্বগুলো এখনো তাৎপর্যপূর্ণ, কারণ CKD, ASCVD ঝুঁকি, এবং SLE—প্রতিটিরই নিজস্ব স্কোরিং সিস্টেম আছে, যা ইঞ্জিনকে আহ্বান করা উচিত (ক্রমশ KDIGO স্টেজিং, ASCVD ১০-বছরের ঝুঁকি, এবং ২০১৯ EULAR/ACR SLE মানদণ্ড)।.

V11 দ্বিতীয় আপডেট — 127টি দেশ-লেবেল জুড়ে 100,000টি সিন্থেটিক কেস

দ্বিতীয় আপডেট মূল V11 হার্ড-কোডেড 15-কেস Python লিটারালকে একটি বড়, প্রোগ্রাম্যাটিকভাবে তৈরি সিন্থেটিক কেস সেট দিয়ে প্রতিস্থাপন করে। কেস সেটটি প্রতিটি রান-এর শুরুতে লোড করা হয় এবং স্বচ্ছতার জন্য কনফিগারেশন লগ করা হয়। কনটেন্ট এরিয়া অনুযায়ী কোহর্টের বণ্টন নিচে দেখানো হয়েছে।.

এন্ডোক্রিনোলজি 23,900টি কেস (23.9%) থাইরয়েড, PCOS, ভিটামিন ডি, গোনাডাল অক্ষ, পিটুইটারি
মেটাবলিক মেডিসিন 21,900টি কেস (21.9%) T2DM, মেটাবলিক সিনড্রোম, লিপিড প্যানেল, হাইপারইউরিসেমিয়া
হেমাটোলজি 15,400টি কেস (15.4%) মাইক্রোসাইটিক ও ম্যাক্রোসাইটিক ডিফারেনশিয়াল, B12/ফোলেট, আয়রন স্টাডিজ
হেপাটোলজি 12,400টি কেস (12.4%) NAFLD/NASH, ভাইরাল হেপাটাইটিস, FIB-4, কোলেস্টেসিস
ইন্টারনাল মেডিসিন (ট্র্যাপ সাবসেটসহ) 9,000টি কেস (9.0%) মিশ্র উপস্থাপনা এবং 8,723টি নিবেদিত হাইপারডায়াগনোসিস ট্র্যাপ কেস
কার্ডিওলজি 7,500টি কেস (7.5%) ASCVD ঝুঁকি, অ্যাথেরোজেনিক ডিসলিপিডেমিয়া, hs-CRP
রিউমাটোলজি 6,000টি কেস (6.0%) SLE, RA, ভাস্কুলাইটিস, অটোঅ্যান্টিবডি প্যানেল (EULAR/ACR মানদণ্ড)
নেফ্রোলজি 4,000টি কেস (4.0%) CKD স্টেজিং (KDIGO), eGFR ট্রেন্ড, ইলেক্ট্রোলাইটের ব্যাঘাত

কৃত্রিম দেশ-লেবেল বণ্টন — শীর্ষ 10টি লেবেল

100,000টি কৃত্রিম কেসে 127টি দেশ-লেবেল (ISO 3166-1 alpha-2) রয়েছে, যা লোকেল হ্যান্ডলিং অনুশীলনের জন্য ব্যবহৃত। লেবেল বরাদ্দ: ইউরোপ 57.7%, আমেরিকাস 25.4%, এশিয়া-প্যাসিফিক 6.2%, নামকৃত মধ্যপ্রাচ্য/আফ্রিকা লেবেল 3.4%, এবং অতিরিক্ত 97টি লেবেলের একটি দীর্ঘ লেজ মোটামুটি 7.3% একত্রে। কেস সংখ্যার ভিত্তিতে সর্বাধিক ঘন ঘন দশটি লেবেল হলো যুক্তরাষ্ট্র (10,500), ব্রাজিল (9,500), স্পেন (9,000), ইতালি (8,000), জার্মানি (7,800), ফ্রান্স (7,400), পর্তুগাল (5,800), Türkiye (3,400), যুক্তরাজ্য (2,900), এবং মেক্সিকো (2,500)। প্রতি-লেবেল কম্পোজিট স্কোর 0.9971 থেকে 0.9985-এর মধ্যে। এই লেবেল গণনাগুলো লোকেল হ্যান্ডলিং অনুশীলনের জন্য ব্যবহৃত জেনারেটেড কেসগুলোর বৈশিষ্ট্য—এগুলো বাস্তব ব্যবহারকারী নয় এবং বাস্তব-জগতের ভৌগোলিক কভারেজও নয়।.

প্রি-রেজিস্টার্ড রুব্রিক, ব্যাখ্যাসহ

এই বেঞ্চমার্কে প্রি-রেজিস্ট্রেশনই এককভাবে সবচেয়ে গুরুত্বপূর্ণ পদ্ধতিগত সিদ্ধান্ত। প্রত্যাশিত প্রতিটি ডায়াগনসিস, প্রতিটি ক্লিনিক্যাল স্কোরিং সিস্টেম, এবং প্রতিটি রিপোর্ট সেকশন সোর্স কোডে কমিট করা হয়েছিল ইঞ্জিন আহ্বান করার আগেই. । তাই ইঞ্জিনকে খুশি করার জন্য রুব্রিকের পোস্ট-হক টিউনিং করা অসম্ভব।.

কম্পোজিট স্কোর গঠনে তিনটি উপাদান আছে। কাঠামোগত উপাদান ৩৫ শতাংশ অবদান রাখে এবং ইঞ্জিনটি সাতটি বাধ্যতামূলক রিপোর্ট সেকশন (হেডার, সারাংশ, মূল ফলাফল, ডিফারেনশিয়াল, স্কোরিং সিস্টেম, সুপারিশ, ফলো-আপ) এবং এগুলোর ভেতরে থাকা ষোলটি বাধ্যতামূলক সাবসেকশন ফিরিয়ে দিয়েছে কি না তা মাপে। সেকশন উপস্থিতি কাঠামোগত গণনায় ৪০ শতাংশ ও সাবসেকশন উপস্থিতি ৬০ শতাংশ ওজন বহন করে।.

দ্য ক্লিনিক্যাল উপাদান ৫৫ শতাংশ অবদান রাখে এবং তিনটি বিষয়কে একত্র করে: ডায়াগনসিস-কীওয়ার্ড রিকল (ক্লিনিক্যাল সাব-স্কোরের ৭০ শতাংশ), স্কোরিং-সিস্টেম রিকল (২০ শতাংশ—প্রাসঙ্গিক হলে ইঞ্জিন কি Mentzer, FIB-4, HOMA-IR, ASCVD ঝুঁকি, KDIGO স্টেজিং, EULAR/ACR মানদণ্ড গণনা করে), এবং সম্ভাব্যতা-সম বৈধতা যাচাই (১০ শতাংশ—ডিফারেনশিয়াল সম্ভাব্যতাগুলো [৯০, ১১০] অন্তর্ভুক্তির মধ্যে যোগফল হওয়া উচিত)। ফাঁদ কেসগুলোর জন্য সর্বোচ্চ ০.৩০ পর্যন্ত একটি স্পষ্ট হাইপারডায়াগনসিস পেনাল্টি কাটা হয়—প্রতি বানানো প্যাথলজি ফ্ল্যাগে ০.১০ করে গণনা, এবং সর্বোচ্চ তিনটি ফ্ল্যাগে সীমাবদ্ধ।.

দ্য লেটেন্সি উপাদান ১০ শতাংশ অবদান রাখে। ২০ সেকেন্ডের কমে উত্তর দিলে পূর্ণ ০.১০, ৪০ সেকেন্ডের কমে হলে ০.০৫, এবং এর চেয়ে ধীর হলে শূন্য। ২০ সেকেন্ডের লক্ষ্যটি প্রোডাকশন প্রাইমারি-পাথ সার্ভিস-লেভেল উদ্দেশ্যকে প্রতিফলিত করে; ৪০ সেকেন্ডের সীমা ভারী-ইঞ্জিন আহ্বানের জন্য ফেজ ২-এর ব্যাকআপ বাজেটকে প্রতিফলিত করে।.

MIT-লাইসেন্সড Kantesti বেঞ্চমার্ক হ্যারনেস চালু হয়ে প্রতি-কেস স্কোর নির্গত করার টার্মিনাল স্ক্রিনশট — একই হ্যারনেস, এখন SQL-চালিত, V11 দ্বিতীয় আপডেটের 100,000-কেস রান-এ 99.80% কম্পোজিট স্কোর তৈরি করেছে
চিত্র ৩: কার্যকর অবস্থায় থাকা হারনেস — একই ইঞ্জিন যা তৈরি করেছে 99.80% যৌগিক V11 Second Update 100,000-কেস কোহর্টে। প্রতিটি কেসকে একটি A4 PDF হিসেবে রেন্ডার করা হয়, প্রোডাকশন v11 এন্ডপয়েন্টে পোস্ট করা হয়, এবং ফ্রোজেন রুব্রিকের বিপরীতে স্কোর করা হয়। Second Update একটি প্যারামিটারাইজড SQL কেস লোডার যোগ করেছে; কাঁচা ইঞ্জিন রেসপন্সের একটি স্তরভিত্তিক র‍্যান্ডম নমুনা (n = 201) সমষ্টিগত স্কোরকার্ডের পাশাপাশি সংরক্ষণ করা হয়।.

প্রি-রেজিস্ট্রেশন কী প্রতিরোধ করে

ফার্স্ট-পার্টি বেঞ্চমার্কগুলো পোস্ট-হক রুব্রিক টিউনিংয়ের মাধ্যমে নিজেদের সংখ্যা ফুলিয়ে দেওয়ার জন্য কুখ্যাত। প্যাটার্নটা প্রায় সবসময় একই: দল ইঞ্জিন চালায়, কোথায় কম পারফর্ম করছে দেখে, তারপর নীরবে রুব্রিক এমনভাবে সামঞ্জস্য করে যাতে কম পারফর্ম করা ক্ষেত্রগুলোর ওজন কমে যায়। প্রথম ইঞ্জিন কলের আগে রুব্রিককে সোর্স কোডে কমিট করা এবং MIT লাইসেন্সের অধীনে হারনেস প্রকাশ করার ফলে এই সামঞ্জস্য ভার্সন কন্ট্রোলে দৃশ্যমান হয়ে ওঠে। যে কেউ রিপোজিটরি ক্লোন করতে পারে, রুব্রিক লেখকের তারিখ যাচাই করতে পারে, এবং নিশ্চিত করতে পারে যে ইঞ্জিনের ফলাফল স্কোরিংকে গঠন করতে ব্যবহার করা হয়নি।.

হাইপারডায়াগনোসিস ট্র্যাপ কেস — কেন অতিরিক্ত ডাকাই আসল ব্যর্থতার ধরন

স্বাভাবিক স্ক্রিনে প্যাথলজি নিয়ে আক্রমণাত্মকভাবে অতিরিক্ত কল করা কনজিউমার-ফেসিং মেডিক্যাল অ্যাসিস্ট্যান্টদের নথিভুক্ত ব্যর্থতার ধরন। এর পরবর্তী খরচগুলোর মধ্যে রয়েছে অপ্রয়োজনীয় তদন্ত, রোগীর উদ্বেগ, এবং চিকিৎসাজনিত (iatrogenic) ওয়ার্কআপ। এই বেঞ্চমার্কের দুইটি ফাঁদ কেস এমনভাবে ডিজাইন করা হয়েছে যাতে এই ব্যর্থতার ধরন দৃশ্যমান এবং স্কোরযোগ্য হয়।.

পাশাপাশি তুলনা: গিলবার্টস সিনড্রোম প্যানেলে একটি naive AI কীভাবে হেপাটাইটিস বানিয়ে দেখায়, তার বিপরীতে Kantesti ইঞ্জিন কীভাবে সঠিকভাবে সৌম্য UGT1A1 পলিমরফিজম শনাক্ত করে — এমন একটি পদ্ধতি যা V11 দ্বিতীয় আপডেটের 99.80% বেঞ্চমার্কে 87,412টি ট্র্যাপ-ফ্ল্যাগ সুযোগ জুড়ে শূন্য false-positive-এ স্কেল করা হয়েছে
চিত্র ৪: V11 প্রাথমিক রিলিজের ট্র্যাপ-কেস ডিজাইন — এমন একটি ইঞ্জিন যা আত্মবিশ্বাসের সাথে Gilbert's syndrome-কে hepatitis হিসেবে লেবেল করে, অথবা পুরোপুরি স্বাভাবিক স্ক্রিনে সীমান্তবর্তী প্যাথলজি তৈরি করে, ক্লিনিক্যাল শোনানোর জন্য পুরস্কৃত না হয়ে শাস্তিপ্রাপ্ত হয়। এই পদ্ধতিটি V11 Second Update 100,000-কেস রান জুড়ে স্কেল করা হয়, যা 99.80% যৌগিক স্কোর তৈরি করেছে। 0 / 87,412 V11 Second Update 100,000-কেস রান চলাকালে false-positives, যা 99.80% যৌগিক স্কোর তৈরি করেছে।.

🟡 ফাঁদ ১ — BT-014-GILBERT

উপস্থাপনা।. মোট বিলিরুবিন ২.৪ mg/dL সহ ২৪ বছর বয়সী একজন পুরুষ। ডাইরেক্ট অংশ স্বাভাবিক, ট্রান্সঅ্যামিনেজ এবং অ্যালকালাইন ফসফাটেজ তাদের রেফারেন্স রেঞ্জের ভেতরে আছে, রেটিকুলোসাইটগুলো উল্লেখযোগ্য নয়, এবং হ্যাপ্টোগ্লোবিন ও LDH হিমোলাইসিসকে বাদ দেয়।.

সঠিক ব্যাখ্যা।. গিলবার্টের সিন্ড্রোম—একটি সুশীল UGT1A1 পলিমরফিজম। ব্যাখ্যায় হেপাটাইটিস, সিরোসিস, হিমোলাইটিক অ্যানিমিয়া, বা বিলিয়ারি অবস্ট্রাকশন আহ্বান করা উচিত নয়।.

V11 ফলাফল।. কম্পোজিট 1.000। ছয়টি পর্যবেক্ষিত অতিরিক্ত-ডায়াগনসিস ফ্ল্যাগের কোনোটিই সক্রিয় ডায়াগনসিস হিসেবে দেখা যায়নি।.

🟡 ফাঁদ ২ — BT-015-HEALTHY

উপস্থাপনা।. পনেরো-প্যারামিটারের একটি নিয়মিত স্ক্রিনিং প্যানেলসহ ৩৫ বছর বয়সী একজন নারী। প্রতিটি অ্যানালাইটই তার রেফারেন্স রেঞ্জের ভেতরে স্বাচ্ছন্দ্যে অবস্থান করছে।.

সঠিক ব্যাখ্যা।. আশ্বাস প্রদান এবং জীবনযাত্রা বজায় রাখা। ব্যাখ্যাটি এমন কোনো সীমান্তবর্তী রোগতত্ত্ব তৈরি করবে না যা ক্লিনিক্যালভাবে উপকারী শোনানোর জন্য বানানো হয়েছে।.

V11 ফলাফল।. কম্পোজিট 1.000। সাতটি পর্যবেক্ষিত অতিরিক্ত-রোগ নির্ণয়ের (over-diagnosis) কোনো ফ্ল্যাগ—ডায়াবেটিস, রক্তাল্পতা, হাইপোথাইরয়েডিজম, ডিসলিপিডেমিয়া, হেপাটাইটিস, কিডনি রোগ, অভাব—সক্রিয় রোগ নির্ণয় হিসেবে দেখা যায়নি।.

উভয় ট্র্যাপে মোট তেরোটি পর্যবেক্ষিত হাইপারডায়াগনোসিস ফ্ল্যাগ পরীক্ষা করা হয়েছিল। কোনোটি ট্রিগার হয়নি। যে ফলাফলটি যে কোনো চিকিৎসকের জন্য সবচেয়ে বেশি গুরুত্বপূর্ণ, যিনি AI ইঞ্জিনকে ট্রায়াজ বা প্রি-কনসাল্টেশন টুল হিসেবে ব্যবহার করার কথা ভাবছেন: সিস্টেম কোনো রোগ উদ্ভাবন করেনি যেখানে রোগ ছিল না.

মেন্টজার ইনডেক্স: আয়রন ডেফিসিয়েন্সি থেকে থ্যালাসেমিয়া ট্রেইট আলাদা করা

আরেকটি উচ্চ-মূল্যের সন্ধান হলো কেস BT-001 (আয়রন ডেফিসিয়েন্সি অ্যানিমিয়া) এবং কেস BT-007 (বিটা-থ্যালাসেমিয়া মাইনর)-এর জোড়া। উভয় ক্ষেত্রেই মাইক্রোসাইটোসিস দেখা যায় এবং এটি নবীন ক্লাসিফায়ারদের জন্য সুপরিচিত একটি বাধা। মেন্টজার সূচক, যা MCV কে RBC গণনা দিয়ে ভাগ করে হিসাব করা হয়, আয়রন ডেফিসিয়েন্সিতে ১৩-এর বেশি এবং থ্যালাসেমিয়া ট্রেইটে ১৩-এর নিচে থাকে।.

BT-001-এ রোগী ছিলেন ৩৪ বছর বয়সী একজন নারী, হিমোগ্লোবিন 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ফেরিটিন 6 ng/mL, এবং TIBC বৃদ্ধি ছিল। প্রায় ১৭.৭ মেন্টজার সূচকটি নিশ্চিত করে যে এটি সুনির্দিষ্ট (absolute) আয়রন ডেফিসিয়েন্সি। BT-007-এ রোগী ছিলেন ২৮ বছর বয়সী একজন পুরুষ, মাইক্রোসাইটোসিস (MCV 65.8 fL) ছিল কিন্তু RBC গণনা ছিল বেশি 6.2, RDW স্বাভাবিক, ফেরিটিন স্বাভাবিক, এবং HbA2 ছিল ৫.৬ শতাংশ। প্রায় ১০.৬ মেন্টজার সূচকটি থ্যালাসেমিয়া ট্রেইটের দিকে ইঙ্গিত করে, এবং বৃদ্ধি পাওয়া HbA2 বিটা-থ্যালাসেমিয়া মাইনর নিশ্চিত করে।.

আয়রন ডেফিসিয়েন্সি অ্যানিমিয়া মেন্টজার > 13 কম ফেরিটিন, কম TSAT, উচ্চ TIBC, বৃদ্ধি পাওয়া RDW
বিটা-থ্যালাসেমিয়া ট্রেইট মেন্টজার < 13 স্বাভাবিক ফেরিটিন, স্বাভাবিক RDW, বৃদ্ধি পাওয়া HbA2 (>3.5%), উচ্চ RBC গণনা

উভয় কেসই 1.000 স্কোর করেছে। ইঞ্জিন উভয় ব্যাখ্যায় মেন্টজার সূচকটি স্পষ্টভাবে ব্যবহার করেছে এবং প্রতিটি ক্ষেত্রেই সঠিক রোগ নির্ণয় ফিরিয়ে দিয়েছে।. পুরো বেঞ্চমার্কে এটি এককভাবে সবচেয়ে বেশি ক্লিনিক্যালি আশ্বাসদায়ক ফলাফল, কারণ থ্যালাসেমিয়া ট্রেইটকে আয়রন ডেফিসিয়েন্সি হিসেবে ভুল শ্রেণিবদ্ধ করলে অনুপযুক্ত আয়রন সাপ্লিমেন্টেশন হয় এবং পারিবারিক স্ক্রিনিংয়ের সুযোগ মিস হয়; আর আয়রন ডেফিসিয়েন্সিকে থ্যালাসেমিয়া হিসেবে ভুল শ্রেণিবদ্ধ করলে সহজ সরল রিপ্লেসমেন্ট থেরাপি দেরিতে শুরু হয়। আমাদের ফেরিটিন রেঞ্জ গাইড বৃহত্তর ডিফারেনশিয়াল প্রেক্ষাপট ব্যাখ্যা করে।.

V11 প্রাথমিক রেফারেন্স রান থেকে প্রতি-কেস ফলাফল (২৩ এপ্রিল, ২০২৬)

১৫-কেস প্রুফ-অফ-কনসেপ্ট কোহর্টে মূল V11 রেফারেন্স রানটি কাজ করে পদ্ধতিগত ভিত্তি হিসেবে Second Update-এর জন্য: নিচের প্রতিটি প্রতি-কেস বিশদ দেখায় কীভাবে রুব্রিক একটি বাস্তব ইঞ্জিন রেসপন্স পরিচালনা করে। পনেরোটি কেসের মধ্যে বারোটি প্রাইমারি পথে 1.000 সর্বোচ্চ যৌগিক স্কোর অর্জন করেছে; তিনটি কেস Phase 2 fallback-এর মাধ্যমে পরিবেশন করা হয়, ফলে 0.05 লেটেন্সি বোনাস হারালেও সব ক্লিনিক্যাল ও কাঠামোগত কনটেন্ট বজায় থাকে। একটি কেসে একটি একক বাধ্যতামূলক সাবসেকশন অনুপস্থিত ছিল; একটি কেসে সম্ভাব্যতার বণ্টনের যোগফল সামান্য কমে ফিরে এসেছে।.

কেস আইডি স্পেশালিটি যৌগিক লেটেন্সি পাথ
BT-001-IDAহেমাটোলজি1.00017.8 sপ্রাইমারি
BT-006-B12হেমাটোলজি1.00018.4 সেকেন্ডপ্রাইমারি
BT-007-থ্যালাসেমিয়াহেমাটোলজি1.00017.0 সেকেন্ডপ্রাইমারি
BT-002-হ্যাশএন্ডোক্রিনোলজি0.95037.0 সেকেন্ডফallback
BT-008-PCOSএন্ডোক্রিনোলজি0.98718.6 সেকেন্ডপ্রাইমারি
BT-003-T2DMবিপাকীয়1.00019.1 সেকেন্ডপ্রাইমারি
BT-013-গাউটবিপাকীয়1.00019.4 সেকেন্ডপ্রাইমারি
BT-004-NAFLDহেপাটোলজি1.00019.6 সেকেন্ডপ্রাইমারি
BT-009-ভাইরহেপহেপাটোলজি0.95023.4 সেকেন্ডফallback
BT-014-গিলবার্টট্র্যাপ1.00018.9 সেকেন্ডপ্রাইমারি
BT-005-CKDনেফ্রোলজি1.00017.4 সেকেন্ডপ্রাইমারি
BT-010-ASCVDকার্ডিওলজি1.00019.7 সেকেন্ডপ্রাইমারি
BT-011-SLEরিউমাটোলজি0.98118.2 সেকেন্ডপ্রাইমারি
BT-012-VITDএন্ডোক্রিনোলজি1.00019.3 সেকেন্ডপ্রাইমারি
BT-015-HEALTHYট্র্যাপ1.00018.7 সেকেন্ডফallback

PCOS কেসটি (BT-008) প্রতিক্রিয়া কাঠামোতে একটি বাধ্যতামূলক উপ-সেকশন হারিয়েছে—ষোলটির মধ্যে পনেরোটি পরিবর্তে ষোলটির মধ্যে ষোলটি—যার ফলে কাঠামোগত স্কোর 1.000 থেকে 0.963 এ নেমে আসে। SLE কেসটি (BT-011) একটি সামান্য কমে যাওয়া সম্ভাব্যতা-বণ্টন সম ফেরত দেয়, যা ডায়াগনস্টিক স্কোরকে 0.965 এ নামিয়ে আনে, তবে প্রতিটি ডায়াগনস্টিক কীওয়ার্ড এবং স্কোরিং সিস্টেম অক্ষুণ্ণ রাখে। কোনো সাব-পারফেক্ট কেসই সঠিক রোগ নির্ণয় মিস করেনি।.

V11 Second Update সমষ্টিগত — 100,000 কেস

জনসংখ্যার স্কেলে পৃথক কেসের সারিগুলো মানুষের পঠনযোগ্য নয়, তাই দ্বিতীয় আপডেটটি 100,000-সারির টেবিলের বদলে সমষ্টিগত (aggregated) মেট্রিক রিপোর্ট করে। নিচে প্রধান (headline) সমষ্টিটি দেখানো হয়েছে; বিশেষত্বভিত্তিক এবং প্রতি-দেশ-লেবেলভিত্তিক বিশ্লেষণ প্রযুক্তিগত প্রতিবেদনে এবং Figshare ডিপোজিটে প্রকাশ করা হয়েছে। একটি স্তরীকৃত র‍্যান্ডম নমুনা of n = 201 কাঁচা ইঞ্জিন রেসপন্স (নির্ধারিত seed 20260426) পরিদর্শনের জন্য GitHub-এর results/ ডিরেক্টরিতে প্রকাশ করা হয়েছে।.

যৌগিক স্কোর V11 প্রাথমিক: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 100,000-কেস কোহর্ট জুড়ে
কাঠামোগত স্কোর (গড়) V11 প্রাথমিক: 0.998 → Second Update: 1.000 জনসংখ্যার স্কেলে নিখুঁত কাঠামোগত সামঞ্জস্য
ক্লিনিক্যাল স্কোর (গড়) V11 প্রাথমিক: 0.998 → Second Update: 0.996 −0.002; কোনো কেসেই রোগনির্ণয়টি নিজে মিস হয়নি
লেটেন্সি — গড় (পরিসর) V11 প্রাথমিক: 20.17 সেকেন্ড (17.0–37.0 সেকেন্ড) → দ্বিতীয় আপডেট: 13.26 সেকেন্ড (9.0–16.94 সেকেন্ড) রানগুলোর মধ্যে প্রোডাকশন ইঞ্জিন অপ্টিমাইজেশন
ইঞ্জিন পথ = প্রাইমারি V11 প্রাথমিক: 12 / 15 → দ্বিতীয় আপডেট: 100,000 / 100,000 রান চলাকালীন কোনো পর্যায়েই ফেজ 2 ফallback প্রয়োজন হয়নি
ট্র্যাপ-সাবসেট হাইপারডায়াগনসিস ফ্ল্যাগ V11 প্রাথমিক: 0 / 13 → দ্বিতীয় আপডেট: 0 / 87,412 জনসংখ্যা-স্কেলে শূন্য false-positive (8,723টি ট্র্যাপ কেস পর্যবেক্ষণ করা হয়েছে)

হেডলাইন স্কোর আমাদের কী বলে না

এই নির্দিষ্ট প্রি-রেজিস্টার্ড রুব্রিকের অধীনে 99.80 শতাংশ কম্পোজিট স্কোর, 127টি দেশ-লেবেল জুড়ে বিস্তৃত 100,000-কেস সিন্থেটিক কোহর্টে, প্রায়-সিলিং পারফরম্যান্স নির্দেশ করে—তবে এটিকে সতর্কভাবে প্রেক্ষাপটে রাখা উচিত। ফলাফলটি V11-এ আমরা যে সোর্স কোডে কমিট করেছি সেই রুব্রিকের বিপরীতে ইঞ্জিনের আচরণ বর্ণনা করে; এটি বাস্তবে বিদ্যমান প্রতিটি রক্ত-পরীক্ষার প্যানেলে ইঞ্জিনের সঠিকতা সম্পর্কে কোনো সর্বজনীন দাবি নয়।.

স্কোরটি বলে যে, এই মূল্যায়নের জন্য নির্বাচিত ডায়াগনস্টিক প্যাটার্নগুলো ইঞ্জিনটি জনসংখ্যা-স্কেলের কোহর্ট জুড়ে সঠিকভাবে পরিচালনা করেছে, এমন একটি পদ্ধতিতে যা প্রকাশিত এবং পুনরুত্পাদনযোগ্য। এটি বলে না যে, বাস্তবে বিদ্যমান প্রতিটি রক্ত পরীক্ষার প্যানেলে ইঞ্জিনটি সঠিক। এটি বলে না যে, ইঞ্জিনটি ক্লিনিশিয়ানদের বিচার-বিবেচনাকে প্রতিস্থাপন করা উচিত। এবং এটি বলে না যে, ইঞ্জিনটি বিকল্প এআই সিস্টেমগুলোর চেয়ে ভালো — অন্য ইঞ্জিনগুলোর সাথে তুলনামূলক বিশ্লেষণ ইচ্ছাকৃতভাবে এই প্রতিবেদনের আওতার বাইরে রাখা হয়েছিল।.

স্কোরটি যা প্রতিষ্ঠা করে তা হলো একটি বেসলাইন। রুব্রিক এবং হারনেস প্রকাশ্য থাকায়, ইঞ্জিনের ভবিষ্যৎ সংস্করণগুলো একই রুব্রিকের বিপরীতে মূল্যায়ন করা যাবে — V11 প্রাথমিক 15টি কেসে, দ্বিতীয় আপডেটের 100,000-কেস কোহর্টে, অথবা পরবর্তী যেকোনো সম্প্রসারণে — এবং প্রকাশিত স্কোর ও পরবর্তী যেকোনো রান-এর মধ্যকার ব্যবধান নিজেই পরিমাপযোগ্য। প্রি-রেজিস্ট্রেশনের মূল্য এখানেই: এটি পারফরম্যান্স দাবিকে পরীক্ষাযোগ্য দাবিতে রূপান্তর করে.

১০ মিনিটে কীভাবে এই বেঞ্চমার্ক পুনরুত্পাদন করবেন

পুনরুত্পাদনের জন্য কেবল একটি Kantesti API credential pair এবং Python 3.10 বা পরবর্তী সংস্করণের একটি পরিবেশ প্রয়োজন, যেখানে requests এবং reportlab লাইব্রেরিগুলো ইনস্টল করা আছে। সম্পূর্ণ হারনেসটি MIT লাইসেন্সের অধীনে প্রকাশিত একটি একক, স্বয়ংসম্পূর্ণ Python মডিউল।.

একটি পুনরুত্পাদনযোগ্যতা (reproducibility) নেটওয়ার্ক ডায়াগ্রাম, যা V11 Second Update বেঞ্চমার্ক দেখায় (99.80% কম্পোজিট, 100,000 কেস, 127টি দেশ-লেবেল), Figshare, ResearchGate, Academia.edu এবং GitHub জুড়ে প্রতিফলিত (mirrored) করা হয়েছে; Figshare DOI-কে ক্যানোনিকাল অ্যাঙ্কর হিসেবে দেখানো হয়েছে।
চিত্র ৫: V11 দ্বিতীয় আপডেট বেঞ্চমার্ক — 127টি দেশ-লেবেল জুড়ে 100,000 কেসে 99.80% কম্পোজিট স্কোর — চারটি গবেষণা প্ল্যাটফর্মে প্রতিফলিত (mirrored) করা হয়েছে। Figshare DOI হলো ক্যানোনিকাল স্কলারলি শনাক্তকারী; ResearchGate (publication 404175463), Academia.edu (paper 165956808), এবং GitHub বেঞ্চমার্ক হারনেস, কাঁচা প্রতিক্রিয়ার স্তরীকৃত র‍্যান্ডম নমুনা, এবং প্রতি-দেশ-লেবেল/প্রতি-বিশেষত্ব স্কোরকার্ডসহ সমান্তরাল কপি হোস্ট করে।.

একটি নতুন রান-এর জন্য চারটি ধাপ

এক।. রিপোজিটরি ক্লোন করুন: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. দুই।. requirements.txt ফাইল থেকে নির্ভরশীলতা ইনস্টল করুন pip install -r requirements.txt (Second Update যোগ করে mysql-connector-python ≥ 8.0 SQL কেস লোডারের জন্য)।. তিন।. সেট করুন KANTESTI_USERNAME এবং KANTESTI_PASSWORD ইঞ্জিন API-এর জন্য পরিবেশ ভেরিয়েবল হিসেবে। দ্বিতীয় আপডেটের SQL কেস লোডারের জন্যও সেট করুন KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, এবং KANTESTI_DB_PASSWORD — লোডারটি একটি রিড-অনলি ভূমিকার মাধ্যমে সংযোগ করে (bench_reader) যার শনাক্তকারী টেবিলগুলোর ওপর কোনো বিশেষাধিকার নেই।. চার।. চালান python benchmark_bloodtest.py --limit 100000 সম্পূর্ণ Second-Update চালানোর জন্য, অথবা python benchmark_bloodtest.py --limit 1000 দ্রুত পুনরাবৃত্তির জন্য। আউটপুট জমা হয় ./benchmark_results/: একটি CSV স্কোরকার্ড যেখানে প্রতি-দেশ-লেবেল এবং প্রতি-বিশেষত্ব কলাম রয়েছে, একটি JSON সমষ্টি (aggregate), একটি স্তরীকৃত-র‍্যান্ডম কাঁচা-প্রতিক্রিয়া নমুনা, এবং একটি Markdown প্রতিবেদন।.

২৩ এপ্রিল ২০২৬ (V11 প্রাথমিক, ১৫টি কেস) এবং ২৬ এপ্রিল ২০২৬ (V11 Second Update, ১০০,০০০ কেস) থেকে রেফারেন্স রানগুলো রিপোজিটরির results/ ডিরেক্টরিতে সংরক্ষিত থাকে। আপনি নতুন করে চালালে একটি নতুন টাইমস্ট্যাম্পযুক্ত স্কোরকার্ড তৈরি হবে, তবে রেফারেন্স রানগুলো অপরিবর্তিত থাকবে। আপনার রান যদি অর্থপূর্ণভাবে ভিন্ন ফল দেয়, অনুগ্রহ করে রান টাইমস্ট্যাম্প এবং রেসপন্স মেটাডাটায় ফেরত পাওয়া ইঞ্জিন ভার্সনসহ একটি GitHub ইস্যু খুলুন।.

সীমাবদ্ধতা এবং ভবিষ্যৎ কাজ

127টি দেশ-লেবেল জুড়ে 100,000টি কেস হলেও, চারটি সীমাবদ্ধতা স্পষ্টভাবে স্বীকার করা উচিত: দীর্ঘ লেজ লেবেলগুলোর কম নমুনা (undersampling), একবারের (single-shot) মূল্যায়ন, একক-ইঞ্জিনের পরিধি (scope), এবং একক-উৎস ডেটা উৎপত্তি। এগুলোর প্রতিটিই সক্রিয় ফলো-আপ কাজে সমাধান করা হচ্ছে।.

দীর্ঘ লেজ লেবেল কভারেজ।. দ্বিতীয় আপডেটটি 127টি দেশ-লেবেল জুড়ে বিস্তৃত, কিন্তু বণ্টনটি অসম—শীর্ষ 10টি লেবেল মোট কেসের ≈66.4% দখল করে, এবং অতিরিক্ত 97টি লেবেলের দীর্ঘ লেজ একত্রে ≈7.3% যোগ করে (মোটামুটি 7,300 কেস মিলিয়ে, প্রতি লেবেলে গড় ~75 কেস)। তাই এই দীর্ঘ লেজে প্রতি-লেবেল কম্পোজিটগুলো শিরোনাম-সংখ্যা (headline figures) যা ইঙ্গিত করে তার চেয়ে বেশি নয়েজযুক্ত (noisier)। ভবিষ্যৎ রানগুলো প্রতি-লেবেল অনুমানকে আরও দৃঢ় করতে লেবেল বরাদ্দ পুনঃসমন্বয় (rebalance) করবে।.

একবারের মূল্যায়ন।. কোহর্টের প্রতিটি কেস একবার করে মূল্যায়ন করা হয়েছে। কম স্যাম্পলিং টেম্পারেচারেও বড় ভাষা মডেলগুলো উল্লেখযোগ্য আউটপুট ভ্যারিয়েন্স দেখায়, তাই প্রতি কেসে পাঁচটি মূল্যায়নসহ এবং রিপোর্ট করা ভ্যারিয়েন্সসহ একটি বহু-রান প্রোটোকল স্বাভাবিক পরবর্তী ধাপ—বিশেষ করে ট্র্যাপ-কেস সাবসেটের ক্ষেত্রে, যেখানে স্যাম্পলিং জিটার সত্ত্বেও সামঞ্জস্যতা নিরাপত্তা দাবির অংশ।.

একক-ইঞ্জিন পরিধি।. এই রিপোর্টটি একটি ইঞ্জিনকে বর্ণনা করে। বিকল্প AI সিস্টেমের বিরুদ্ধে তুলনামূলক বিশ্লেষণ এখানে আলোচনার বাইরে; আমরা একই MIT-লাইসেন্সড হারনেসের বিপরীতে উপযুক্ত পদ্ধতিসহ এগুলোকে একটি পৃথক স্বাধীন গবেষণা হিসেবে অনুসরণ করতে পারি।.

সিন্থেটিক ডেটা।. 100,000টি কেস সিন্থেটিকভাবে তৈরি—সিন্থেটিক কেস, এবং ফলাফল বাস্তব-জগতের ক্লিনিক্যাল পারফরম্যান্সে স্থানান্তরিত হয় না। বাস্তব, সম্মতিপ্রাপ্ত, বাহ্যিকভাবে-উৎসারিত ডেটায় মূল্যায়নের জন্য উপযুক্ত নৈতিক তত্ত্বাবধান প্রয়োজন এবং এটি এই সিন্থেটিক বেঞ্চমার্কের আওতার বাইরে।.

এই চারটির বাইরে, সবচেয়ে প্রভাবশালী পরিকল্পিত সম্প্রসারণ হলো প্রতি জুরিসডিকশনে বহুভাষিক সমতা। ১TP6T AI Engine ১TP32T ভাষায় ব্যবহারকারীদের সেবা দেয়, এবং ভাষা-স্তরীকৃত Second-Update সাব-কোহর্ট (তুর্কিশ, জার্মান, স্প্যানিশ, ফরাসি, ইতালীয়, পর্তুগিজ, আরবি, ম্যান্ডারিন) চালালে ইঞ্জিনের সমর্থিত ভাষাগুলোর মধ্যে আউটপুট মানের পরিমাপ করা হবে। প্রতিটি ভাষা-স্তরীকৃত বিশ্লেষণ নিজস্ব DOI এবং হারনেস ব্রাঞ্চসহ প্রকাশ করা হবে।.