এই বেঞ্চমার্ক কেন আছে এবং এটি কী পরীক্ষা করে
এআই-সহায়তাপ্রাপ্ত রক্ত পরীক্ষার ফলাফল বোঝা ক্রমবর্ধমানভাবে ভোক্তা ও ক্লিনিক্যাল ওয়ার্কফ্লোতে ব্যবহৃত হচ্ছে, তবে ল্যাবরেটরি মেডিসিনের জন্য উপযোগী পুনরুত্পাদনযোগ্য মূল্যায়ন কাঠামো এখনো অস্বাভাবিক। এই প্রেক্ষাপটে সবচেয়ে গুরুত্বপূর্ণ প্রশ্নগুলো সাধারণ মেডিক্যাল প্রশ্নোত্তর বেঞ্চমার্কে যেগুলো কভার করা হয় সেগুলো নয়: যখন মীন কর্পাসকুলার ভলিউম (MCV) একই থাকে, তখন কি একটি ইঞ্জিন আয়রন ডেফিসিয়েন্সি থেকে থ্যালাসেমিয়া ট্রেইট আলাদা করতে পারে; গিলবার্টের সিনড্রোমকে কি হেপাটাইটিস হিসেবে অতিরিক্ত রোগ নির্ণয় করে; এবং সম্পূর্ণ স্বাভাবিক স্ক্রিনিং প্যানেলে কি প্যাথলজি “তৈরি” করে?
একটি একক রক্ত পরীক্ষার প্যানেলে সাধারণত একাধিক প্রতিযোগী ব্যাখ্যা সমর্থন করার মতো যথেষ্ট সংকেত থাকে, এবং ব্যাখ্যাকারী চিকিৎসকের কাজ হলো সেগুলোকে পাঠ্যবইয়ের একক “সঠিক উত্তর” খুঁজে বের করার বদলে পরস্পরের সঙ্গে তুলনা করে ওজন দেওয়া। যে ইঞ্জিন পাঠ্যবইয়ের কেসে ভালো করে, সেটি তবু সবচেয়ে গুরুত্বপূর্ণ কেসে ব্যর্থ হতে পারে: ডিফারেনশিয়াল-ডায়াগনোসিসের ফাঁদ, একা দেখলে উদ্বেগজনক মনে হওয়া নিরীহ ভ্যারিয়েন্ট, এবং পুরোপুরি স্বাভাবিক প্যানেল—যেগুলো আত্মবিশ্বাসী সহকারীকে প্যাথলজি “তৈরি” করতে প্রলুব্ধ করে।.
এই বেঞ্চমার্কটি ঠিক এই ব্যর্থতার ধরনগুলোকেই কেন্দ্র করে তৈরি করা হয়েছিল। পনেরোটি কেসের প্রতিটিকে একটি নির্দিষ্ট ডায়াগনস্টিক বৈশিষ্ট্যের জন্য বাছাই করা হয়: আয়রন-ঘাটতিজনিত মাইক্রোসাইটোসিস, যেটিকে একই mean corpuscular volume থাকা beta-thalassaemia trait থেকে আলাদা রাখতে হবে; Gilbert's syndrome-এর উপস্থাপনা, যেখানে একমাত্র অস্বাভাবিকতা হলো বিচ্ছিন্ন indirect hyperbilirubinaemia; এবং একটি পনেরো-প্যারামিটারের স্ক্রিনিং প্যানেল, যেখানে প্রতিটি অ্যানালাইটই তার রেফারেন্স রেঞ্জের ভেতরে থাকে। রুব্রিক এমন ইঞ্জিনকে পুরস্কৃত করে যেগুলো প্রতিটি কেসকে নিজের শর্তে পড়ে, এবং এমন ইঞ্জিনকে শাস্তি দেয় যেগুলো এমন ক্ষেত্রে আত্মবিশ্বাসী ডায়াগনোসিসে পৌঁছে যায় যেখানে সেই ডায়াগনোসিসের কোনো ভিত্তি নেই।.
ড. থমাস ক্লেইন হিসেবে, আমি কেস প্যানেলটি বেছে নিয়েছি কারণ এগুলোই সেই প্যাটার্ন যেগুলো ল্যাবরেটরি-মেডিসিন সহকারীরা সবচেয়ে বেশি ভুল করে।. ব্যয়বহুল ব্যর্থতার ধরনটি "দুর্লভ রোগ মিস করা" নয়—এটি এমন রোগীদের মধ্যে নিয়মিত প্যাথলজি বানিয়ে ফেলা, যাদের সেটি নেই।. আমাদের মেডিকেল ভ্যালিডেশন hub বৃহত্তর ফ্রেমওয়ার্ক বর্ণনা করে; এই পৃষ্ঠাটি V11 প্রাথমিক proof-of-concept এবং V11 দ্বিতীয় আপডেট বর্ণনা করে, যা একই স্কোরিং রুব্রিক ব্যবহার করে এটিকে 100,000টি সিন্থেটিক কেসে স্কেল করেছে—127টি দেশ-লেবেল জুড়ে বিস্তৃত একটি সিন্থেটিক কেস সেট থেকে নেওয়া; বাইট-আইডেন্টিক; এবং কোনো পোস্ট-হক টিউনিং অনুমোদিত নয়।.
২৬ এপ্রিল ২০২৬-এর V11 Second Update রেফারেন্স রানটি একটি কম্পোজিট স্কোর তৈরি করেছে
V11 প্রাথমিক রিলিজে ব্যবহৃত একই প্রি-রেজিস্টার্ড রুব্রিকের ওপর ভিত্তি করে, মূল্যায়ন করা হয়েছে 99.80% 100,000টি অ্যানোনিমাইজড কেসে 100,000টি সিন্থেটিক কেস Kantesti সিন্থেটিক কেস সেট থেকে নেওয়া এবং বিস্তৃত 127টি দেশ-লেবেল । ২৩ এপ্রিল ২০২৬-এর মূল V11 রানটিতে ছিল ১৫টি হাতে-নির্বাচিত কেস (কম্পোজিট 99.12%) এবং রুব্রিকটি যাচাই করা হয়েছিল; Second Update সেই রুব্রিকটি বাইট-একই রেখে জনসংখ্যা-স্কেলের একটি কহর্টে মূল্যায়ন সম্প্রসারিত করেছে। 0 / 87,412. 100,000-এর মধ্যে 100,000 কেসে স্কোর.
যৌগিক সূত্রটি তিনটি উপাদানকে একত্র করে: স্ট্রাকচারাল সামঞ্জস্য সাতটি বাধ্যতামূলক রিপোর্ট সেকশন এবং ষোলটি বাধ্যতামূলক সাবসেকশনসহ, বিষয়বস্তুর যথার্থতা পরিমাপ করা হয় keyword recall + scoring-system recall + probability-distribution validity check দিয়ে, এবং রেসপন্স লেটেন্সি অবশিষ্ট 0.20 শতাংশ পয়েন্ট হেডরুম প্রায় পুরোপুরি ক্লিনিক্যাল সাব-স্কোরে ভেঙে যায়—কেসগুলোর একটি ছোট অংশে (প্রধানত Hepatology এবং Rheumatology-তে) ডায়াগনস্টিক কনটেন্ট সঠিক থাকা সত্ত্বেও ইঞ্জিনের ব্যাখ্যায় একটি প্রত্যাশিত স্কোরিং-সিস্টেম কীওয়ার্ড অনুপস্থিত ছিল।.
100,000-কেস Second-Update কহর্টের কোনো কেসেই নিজে ডায়াগনোসিসটি মিস হয়নি।. V11 প্রাথমিক রিলিজে গড় 20.17 s থেকে Second Update-এ 13.26 s-এ লেটেন্সি উন্নত হয়েছে—দুই রানের মধ্যে প্রোডাকশন ইঞ্জিন অপ্টিমাইজেশন প্রতিফলিত করে; রুব্রিক, স্কোরিং কোড, এবং API এন্ডপয়েন্ট অপরিবর্তিত।. দেশভিত্তিক কম্পোজিট স্কোরগুলো 0.9971 (ভারত) থেকে 0.9985 (সুইজারল্যান্ড)-এর মধ্যে ছিল—সবচেয়ে বেশি প্রতিনিধিত্বকারী ৩০টি দেশের মধ্যে। অতিরিক্ত ৯৭টি দেশের লং টেইল (মোট ≈7,300 কেস) কোনো পদ্ধতিগত অবনতি দেখায়নি। কেস সংখ্যার ভিত্তিতে শীর্ষ অবদানকারীরা ছিল যুক্তরাষ্ট্র (10,500), ব্রাজিল (9,500), স্পেন (9,000), ইতালি (8,000), জার্মানি (7,800), ফ্রান্স (7,400), পর্তুগাল (5,800), Türkiye (3,400), যুক্তরাজ্য (2,900), এবং মেক্সিকো (2,500)।.
প্রতি-লেবেল কম্পোজিট স্কোর 30টি সর্বাধিক-প্রতিনিধিত্বশীল দেশ-লেবেলের ক্ষেত্রে 0.9971 থেকে 0.9985-এর মধ্যে ছিল। অতিরিক্ত 97টি লেবেলের দীর্ঘ লেজ (মোট ≈7,300 কেস) কোনো পদ্ধতিগত অবনতি দেখায়নি। কেস সংখ্যার ভিত্তিতে সর্বাধিক ঘন ঘন লেবেলগুলো ছিল: যুক্তরাষ্ট্র (10,500), ব্রাজিল (9,500), স্পেন (9,000), ইতালি (8,000), জার্মানি (7,800), ফ্রান্স (7,400), পর্তুগাল (5,800), Türkiye (3,400), যুক্তরাজ্য (2,900), এবং মেক্সিকো (2,500)।.
১৫টি কেস থেকে 100,000: 127টি দেশ-লেবেল জুড়ে কোহর্টের বিবর্তন
মূল V11 কেস প্যানেলে সাতটি বিশেষত্ব ছিল—হেমাটোলজি, এন্ডোক্রিনোলজি, মেটাবলিক মেডিসিন, হেপাটোলজি, নেফ্রোলজি, কার্ডিওলজি, রিউমাটোলজি—এবং আরও দুটি নিবেদিত হাইপারডায়াগনোসিস ট্র্যাপ কেস; প্রতিটি কেস ছিল একটি সিন্থেটিকভাবে তৈরি রক্ত-পরীক্ষার প্যানেল। V11 দ্বিতীয় আপডেট মূল্যায়নকে প্রসারিত করে 127টি দেশ-লেবেল জুড়ে 100,000টি সিন্থেটিক কেসে, hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology—এবং আরও দুটি trap কেসসহ V11 প্রাথমিক কেস-প্যানেল ডিজাইন: Gilbert's syndrome এবং সম্পূর্ণ স্বাভাবিক একটি screening প্যানেল। Second Update এই রুব্রিকটি বাইট-একই রেখে কহর্টকে Kantesti SQL রিপোজিটরি থেকে নেওয়া 100,000 কেসে সম্প্রসারিত করে।.
যেহেতু সব কেসই সিন্থেটিকভাবে তৈরি, তাই অপসারণ করার মতো কোনো বাস্তব শনাক্তকারী নেই এবং কোনো ব্যক্তিগত ডেটা জড়িত নয়। প্রতিটি সিন্থেটিক কেসে একটি বেঞ্চমার্ক-অভ্যন্তরীণ কেস কোড থাকে (V11 প্রাথমিক সেটে BT-NNN-LABEL, একটি স্থিতিশীল । প্রসেসিং করা হয়েছিল দ্বিতীয় আপডেটে)। প্রকাশিত হারনেস, প্রযুক্তিগত প্রতিবেদন, বা রিলিজড ডেটাসেট—কোথাও কোনো ব্যক্তিগত ডেটা দেখা যায় না।.
V11 initial release — 15 hand-curated cases
মূল V11 কেস প্যানেলটি ড. থমাস ক্লেইন হাতে বাছাই করেছিলেন, যাতে ল্যাবরেটরি-মেডিসিন সহকারীরা যে ডায়াগনস্টিক প্যাটার্নগুলো সবচেয়ে বেশি ভুল করে সেগুলো অনুশীলন করানো যায়। নিচে তালিকাভুক্ত প্রতিটি পনেরোটি কেসকে একটি নির্দিষ্ট ডায়াগনস্টিক বৈশিষ্ট্যের জন্য নির্বাচন করা হয়েছিল।.
কেন এই নির্দিষ্ট বণ্টন
বাস্তব-জগতের ল্যাবরেটরি চর্চায় সর্বোচ্চ-ভলিউমের ফাঁদ হিসেবে মাইক্রোসাইটিক ডিফারেনশিয়াল এবং ম্যাক্রোসাইটিক ডিফারেনশিয়াল থাকায় হেমাটোলজি তিনটি কেস পায়। হ্যাশিমোটো, PCOS, এবং ভিটামিন ডি এর অভাব—এই উপস্থাপনাগুলো ভিন্ন ভিন্ন ডায়াগনস্টিক আকার অনুশীলন করায় (অটোঅ্যান্টিবডি-চালিত, হরমোন-অনুপাত-চালিত, একক-মার্কার-চালিত) এন্ডোক্রিনোলজি তিনটি কেস পায়। একক-কেসের বিশেষত্বগুলো এখনো তাৎপর্যপূর্ণ, কারণ CKD, ASCVD ঝুঁকি, এবং SLE—প্রতিটিরই নিজস্ব স্কোরিং সিস্টেম আছে, যা ইঞ্জিনকে আহ্বান করা উচিত (ক্রমশ KDIGO স্টেজিং, ASCVD ১০-বছরের ঝুঁকি, এবং ২০১৯ EULAR/ACR SLE মানদণ্ড)।.
V11 দ্বিতীয় আপডেট — 127টি দেশ-লেবেল জুড়ে 100,000টি সিন্থেটিক কেস
দ্বিতীয় আপডেট মূল V11 হার্ড-কোডেড 15-কেস Python লিটারালকে একটি বড়, প্রোগ্রাম্যাটিকভাবে তৈরি সিন্থেটিক কেস সেট দিয়ে প্রতিস্থাপন করে। কেস সেটটি প্রতিটি রান-এর শুরুতে লোড করা হয় এবং স্বচ্ছতার জন্য কনফিগারেশন লগ করা হয়। কনটেন্ট এরিয়া অনুযায়ী কোহর্টের বণ্টন নিচে দেখানো হয়েছে।.
কৃত্রিম দেশ-লেবেল বণ্টন — শীর্ষ 10টি লেবেল
100,000টি কৃত্রিম কেসে 127টি দেশ-লেবেল (ISO 3166-1 alpha-2) রয়েছে, যা লোকেল হ্যান্ডলিং অনুশীলনের জন্য ব্যবহৃত। লেবেল বরাদ্দ: ইউরোপ 57.7%, আমেরিকাস 25.4%, এশিয়া-প্যাসিফিক 6.2%, নামকৃত মধ্যপ্রাচ্য/আফ্রিকা লেবেল 3.4%, এবং অতিরিক্ত 97টি লেবেলের একটি দীর্ঘ লেজ মোটামুটি 7.3% একত্রে। কেস সংখ্যার ভিত্তিতে সর্বাধিক ঘন ঘন দশটি লেবেল হলো যুক্তরাষ্ট্র (10,500), ব্রাজিল (9,500), স্পেন (9,000), ইতালি (8,000), জার্মানি (7,800), ফ্রান্স (7,400), পর্তুগাল (5,800), Türkiye (3,400), যুক্তরাজ্য (2,900), এবং মেক্সিকো (2,500)। প্রতি-লেবেল কম্পোজিট স্কোর 0.9971 থেকে 0.9985-এর মধ্যে। এই লেবেল গণনাগুলো লোকেল হ্যান্ডলিং অনুশীলনের জন্য ব্যবহৃত জেনারেটেড কেসগুলোর বৈশিষ্ট্য—এগুলো বাস্তব ব্যবহারকারী নয় এবং বাস্তব-জগতের ভৌগোলিক কভারেজও নয়।.
প্রি-রেজিস্টার্ড রুব্রিক, ব্যাখ্যাসহ
এই বেঞ্চমার্কে প্রি-রেজিস্ট্রেশনই এককভাবে সবচেয়ে গুরুত্বপূর্ণ পদ্ধতিগত সিদ্ধান্ত। প্রত্যাশিত প্রতিটি ডায়াগনসিস, প্রতিটি ক্লিনিক্যাল স্কোরিং সিস্টেম, এবং প্রতিটি রিপোর্ট সেকশন সোর্স কোডে কমিট করা হয়েছিল ইঞ্জিন আহ্বান করার আগেই. । তাই ইঞ্জিনকে খুশি করার জন্য রুব্রিকের পোস্ট-হক টিউনিং করা অসম্ভব।.
কম্পোজিট স্কোর গঠনে তিনটি উপাদান আছে। কাঠামোগত উপাদান ৩৫ শতাংশ অবদান রাখে এবং ইঞ্জিনটি সাতটি বাধ্যতামূলক রিপোর্ট সেকশন (হেডার, সারাংশ, মূল ফলাফল, ডিফারেনশিয়াল, স্কোরিং সিস্টেম, সুপারিশ, ফলো-আপ) এবং এগুলোর ভেতরে থাকা ষোলটি বাধ্যতামূলক সাবসেকশন ফিরিয়ে দিয়েছে কি না তা মাপে। সেকশন উপস্থিতি কাঠামোগত গণনায় ৪০ শতাংশ ও সাবসেকশন উপস্থিতি ৬০ শতাংশ ওজন বহন করে।.
দ্য ক্লিনিক্যাল উপাদান ৫৫ শতাংশ অবদান রাখে এবং তিনটি বিষয়কে একত্র করে: ডায়াগনসিস-কীওয়ার্ড রিকল (ক্লিনিক্যাল সাব-স্কোরের ৭০ শতাংশ), স্কোরিং-সিস্টেম রিকল (২০ শতাংশ—প্রাসঙ্গিক হলে ইঞ্জিন কি Mentzer, FIB-4, HOMA-IR, ASCVD ঝুঁকি, KDIGO স্টেজিং, EULAR/ACR মানদণ্ড গণনা করে), এবং সম্ভাব্যতা-সম বৈধতা যাচাই (১০ শতাংশ—ডিফারেনশিয়াল সম্ভাব্যতাগুলো [৯০, ১১০] অন্তর্ভুক্তির মধ্যে যোগফল হওয়া উচিত)। ফাঁদ কেসগুলোর জন্য সর্বোচ্চ ০.৩০ পর্যন্ত একটি স্পষ্ট হাইপারডায়াগনসিস পেনাল্টি কাটা হয়—প্রতি বানানো প্যাথলজি ফ্ল্যাগে ০.১০ করে গণনা, এবং সর্বোচ্চ তিনটি ফ্ল্যাগে সীমাবদ্ধ।.
দ্য লেটেন্সি উপাদান ১০ শতাংশ অবদান রাখে। ২০ সেকেন্ডের কমে উত্তর দিলে পূর্ণ ০.১০, ৪০ সেকেন্ডের কমে হলে ০.০৫, এবং এর চেয়ে ধীর হলে শূন্য। ২০ সেকেন্ডের লক্ষ্যটি প্রোডাকশন প্রাইমারি-পাথ সার্ভিস-লেভেল উদ্দেশ্যকে প্রতিফলিত করে; ৪০ সেকেন্ডের সীমা ভারী-ইঞ্জিন আহ্বানের জন্য ফেজ ২-এর ব্যাকআপ বাজেটকে প্রতিফলিত করে।.
প্রি-রেজিস্ট্রেশন কী প্রতিরোধ করে
ফার্স্ট-পার্টি বেঞ্চমার্কগুলো পোস্ট-হক রুব্রিক টিউনিংয়ের মাধ্যমে নিজেদের সংখ্যা ফুলিয়ে দেওয়ার জন্য কুখ্যাত। প্যাটার্নটা প্রায় সবসময় একই: দল ইঞ্জিন চালায়, কোথায় কম পারফর্ম করছে দেখে, তারপর নীরবে রুব্রিক এমনভাবে সামঞ্জস্য করে যাতে কম পারফর্ম করা ক্ষেত্রগুলোর ওজন কমে যায়। প্রথম ইঞ্জিন কলের আগে রুব্রিককে সোর্স কোডে কমিট করা এবং MIT লাইসেন্সের অধীনে হারনেস প্রকাশ করার ফলে এই সামঞ্জস্য ভার্সন কন্ট্রোলে দৃশ্যমান হয়ে ওঠে। যে কেউ রিপোজিটরি ক্লোন করতে পারে, রুব্রিক লেখকের তারিখ যাচাই করতে পারে, এবং নিশ্চিত করতে পারে যে ইঞ্জিনের ফলাফল স্কোরিংকে গঠন করতে ব্যবহার করা হয়নি।.
হাইপারডায়াগনোসিস ট্র্যাপ কেস — কেন অতিরিক্ত ডাকাই আসল ব্যর্থতার ধরন
স্বাভাবিক স্ক্রিনে প্যাথলজি নিয়ে আক্রমণাত্মকভাবে অতিরিক্ত কল করা কনজিউমার-ফেসিং মেডিক্যাল অ্যাসিস্ট্যান্টদের নথিভুক্ত ব্যর্থতার ধরন। এর পরবর্তী খরচগুলোর মধ্যে রয়েছে অপ্রয়োজনীয় তদন্ত, রোগীর উদ্বেগ, এবং চিকিৎসাজনিত (iatrogenic) ওয়ার্কআপ। এই বেঞ্চমার্কের দুইটি ফাঁদ কেস এমনভাবে ডিজাইন করা হয়েছে যাতে এই ব্যর্থতার ধরন দৃশ্যমান এবং স্কোরযোগ্য হয়।.
🟡 ফাঁদ ১ — BT-014-GILBERT
উপস্থাপনা।. মোট বিলিরুবিন ২.৪ mg/dL সহ ২৪ বছর বয়সী একজন পুরুষ। ডাইরেক্ট অংশ স্বাভাবিক, ট্রান্সঅ্যামিনেজ এবং অ্যালকালাইন ফসফাটেজ তাদের রেফারেন্স রেঞ্জের ভেতরে আছে, রেটিকুলোসাইটগুলো উল্লেখযোগ্য নয়, এবং হ্যাপ্টোগ্লোবিন ও LDH হিমোলাইসিসকে বাদ দেয়।.
সঠিক ব্যাখ্যা।. গিলবার্টের সিন্ড্রোম—একটি সুশীল UGT1A1 পলিমরফিজম। ব্যাখ্যায় হেপাটাইটিস, সিরোসিস, হিমোলাইটিক অ্যানিমিয়া, বা বিলিয়ারি অবস্ট্রাকশন আহ্বান করা উচিত নয়।.
V11 ফলাফল।. কম্পোজিট 1.000। ছয়টি পর্যবেক্ষিত অতিরিক্ত-ডায়াগনসিস ফ্ল্যাগের কোনোটিই সক্রিয় ডায়াগনসিস হিসেবে দেখা যায়নি।.
🟡 ফাঁদ ২ — BT-015-HEALTHY
উপস্থাপনা।. পনেরো-প্যারামিটারের একটি নিয়মিত স্ক্রিনিং প্যানেলসহ ৩৫ বছর বয়সী একজন নারী। প্রতিটি অ্যানালাইটই তার রেফারেন্স রেঞ্জের ভেতরে স্বাচ্ছন্দ্যে অবস্থান করছে।.
সঠিক ব্যাখ্যা।. আশ্বাস প্রদান এবং জীবনযাত্রা বজায় রাখা। ব্যাখ্যাটি এমন কোনো সীমান্তবর্তী রোগতত্ত্ব তৈরি করবে না যা ক্লিনিক্যালভাবে উপকারী শোনানোর জন্য বানানো হয়েছে।.
V11 ফলাফল।. কম্পোজিট 1.000। সাতটি পর্যবেক্ষিত অতিরিক্ত-রোগ নির্ণয়ের (over-diagnosis) কোনো ফ্ল্যাগ—ডায়াবেটিস, রক্তাল্পতা, হাইপোথাইরয়েডিজম, ডিসলিপিডেমিয়া, হেপাটাইটিস, কিডনি রোগ, অভাব—সক্রিয় রোগ নির্ণয় হিসেবে দেখা যায়নি।.
উভয় ট্র্যাপে মোট তেরোটি পর্যবেক্ষিত হাইপারডায়াগনোসিস ফ্ল্যাগ পরীক্ষা করা হয়েছিল। কোনোটি ট্রিগার হয়নি। যে ফলাফলটি যে কোনো চিকিৎসকের জন্য সবচেয়ে বেশি গুরুত্বপূর্ণ, যিনি AI ইঞ্জিনকে ট্রায়াজ বা প্রি-কনসাল্টেশন টুল হিসেবে ব্যবহার করার কথা ভাবছেন: সিস্টেম কোনো রোগ উদ্ভাবন করেনি যেখানে রোগ ছিল না.
মেন্টজার ইনডেক্স: আয়রন ডেফিসিয়েন্সি থেকে থ্যালাসেমিয়া ট্রেইট আলাদা করা
আরেকটি উচ্চ-মূল্যের সন্ধান হলো কেস BT-001 (আয়রন ডেফিসিয়েন্সি অ্যানিমিয়া) এবং কেস BT-007 (বিটা-থ্যালাসেমিয়া মাইনর)-এর জোড়া। উভয় ক্ষেত্রেই মাইক্রোসাইটোসিস দেখা যায় এবং এটি নবীন ক্লাসিফায়ারদের জন্য সুপরিচিত একটি বাধা। মেন্টজার সূচক, যা MCV কে RBC গণনা দিয়ে ভাগ করে হিসাব করা হয়, আয়রন ডেফিসিয়েন্সিতে ১৩-এর বেশি এবং থ্যালাসেমিয়া ট্রেইটে ১৩-এর নিচে থাকে।.
BT-001-এ রোগী ছিলেন ৩৪ বছর বয়সী একজন নারী, হিমোগ্লোবিন 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ফেরিটিন 6 ng/mL, এবং TIBC বৃদ্ধি ছিল। প্রায় ১৭.৭ মেন্টজার সূচকটি নিশ্চিত করে যে এটি সুনির্দিষ্ট (absolute) আয়রন ডেফিসিয়েন্সি। BT-007-এ রোগী ছিলেন ২৮ বছর বয়সী একজন পুরুষ, মাইক্রোসাইটোসিস (MCV 65.8 fL) ছিল কিন্তু RBC গণনা ছিল বেশি 6.2, RDW স্বাভাবিক, ফেরিটিন স্বাভাবিক, এবং HbA2 ছিল ৫.৬ শতাংশ। প্রায় ১০.৬ মেন্টজার সূচকটি থ্যালাসেমিয়া ট্রেইটের দিকে ইঙ্গিত করে, এবং বৃদ্ধি পাওয়া HbA2 বিটা-থ্যালাসেমিয়া মাইনর নিশ্চিত করে।.
উভয় কেসই 1.000 স্কোর করেছে। ইঞ্জিন উভয় ব্যাখ্যায় মেন্টজার সূচকটি স্পষ্টভাবে ব্যবহার করেছে এবং প্রতিটি ক্ষেত্রেই সঠিক রোগ নির্ণয় ফিরিয়ে দিয়েছে।. পুরো বেঞ্চমার্কে এটি এককভাবে সবচেয়ে বেশি ক্লিনিক্যালি আশ্বাসদায়ক ফলাফল, কারণ থ্যালাসেমিয়া ট্রেইটকে আয়রন ডেফিসিয়েন্সি হিসেবে ভুল শ্রেণিবদ্ধ করলে অনুপযুক্ত আয়রন সাপ্লিমেন্টেশন হয় এবং পারিবারিক স্ক্রিনিংয়ের সুযোগ মিস হয়; আর আয়রন ডেফিসিয়েন্সিকে থ্যালাসেমিয়া হিসেবে ভুল শ্রেণিবদ্ধ করলে সহজ সরল রিপ্লেসমেন্ট থেরাপি দেরিতে শুরু হয়। আমাদের ফেরিটিন রেঞ্জ গাইড বৃহত্তর ডিফারেনশিয়াল প্রেক্ষাপট ব্যাখ্যা করে।.
V11 প্রাথমিক রেফারেন্স রান থেকে প্রতি-কেস ফলাফল (২৩ এপ্রিল, ২০২৬)
১৫-কেস প্রুফ-অফ-কনসেপ্ট কোহর্টে মূল V11 রেফারেন্স রানটি কাজ করে পদ্ধতিগত ভিত্তি হিসেবে Second Update-এর জন্য: নিচের প্রতিটি প্রতি-কেস বিশদ দেখায় কীভাবে রুব্রিক একটি বাস্তব ইঞ্জিন রেসপন্স পরিচালনা করে। পনেরোটি কেসের মধ্যে বারোটি প্রাইমারি পথে 1.000 সর্বোচ্চ যৌগিক স্কোর অর্জন করেছে; তিনটি কেস Phase 2 fallback-এর মাধ্যমে পরিবেশন করা হয়, ফলে 0.05 লেটেন্সি বোনাস হারালেও সব ক্লিনিক্যাল ও কাঠামোগত কনটেন্ট বজায় থাকে। একটি কেসে একটি একক বাধ্যতামূলক সাবসেকশন অনুপস্থিত ছিল; একটি কেসে সম্ভাব্যতার বণ্টনের যোগফল সামান্য কমে ফিরে এসেছে।.
PCOS কেসটি (BT-008) প্রতিক্রিয়া কাঠামোতে একটি বাধ্যতামূলক উপ-সেকশন হারিয়েছে—ষোলটির মধ্যে পনেরোটি পরিবর্তে ষোলটির মধ্যে ষোলটি—যার ফলে কাঠামোগত স্কোর 1.000 থেকে 0.963 এ নেমে আসে। SLE কেসটি (BT-011) একটি সামান্য কমে যাওয়া সম্ভাব্যতা-বণ্টন সম ফেরত দেয়, যা ডায়াগনস্টিক স্কোরকে 0.965 এ নামিয়ে আনে, তবে প্রতিটি ডায়াগনস্টিক কীওয়ার্ড এবং স্কোরিং সিস্টেম অক্ষুণ্ণ রাখে। কোনো সাব-পারফেক্ট কেসই সঠিক রোগ নির্ণয় মিস করেনি।.
V11 Second Update সমষ্টিগত — 100,000 কেস
জনসংখ্যার স্কেলে পৃথক কেসের সারিগুলো মানুষের পঠনযোগ্য নয়, তাই দ্বিতীয় আপডেটটি 100,000-সারির টেবিলের বদলে সমষ্টিগত (aggregated) মেট্রিক রিপোর্ট করে। নিচে প্রধান (headline) সমষ্টিটি দেখানো হয়েছে; বিশেষত্বভিত্তিক এবং প্রতি-দেশ-লেবেলভিত্তিক বিশ্লেষণ প্রযুক্তিগত প্রতিবেদনে এবং Figshare ডিপোজিটে প্রকাশ করা হয়েছে। একটি স্তরীকৃত র্যান্ডম নমুনা of n = 201 কাঁচা ইঞ্জিন রেসপন্স (নির্ধারিত seed 20260426) পরিদর্শনের জন্য GitHub-এর results/ ডিরেক্টরিতে প্রকাশ করা হয়েছে।.
হেডলাইন স্কোর আমাদের কী বলে না
এই নির্দিষ্ট প্রি-রেজিস্টার্ড রুব্রিকের অধীনে 99.80 শতাংশ কম্পোজিট স্কোর, 127টি দেশ-লেবেল জুড়ে বিস্তৃত 100,000-কেস সিন্থেটিক কোহর্টে, প্রায়-সিলিং পারফরম্যান্স নির্দেশ করে—তবে এটিকে সতর্কভাবে প্রেক্ষাপটে রাখা উচিত। ফলাফলটি V11-এ আমরা যে সোর্স কোডে কমিট করেছি সেই রুব্রিকের বিপরীতে ইঞ্জিনের আচরণ বর্ণনা করে; এটি বাস্তবে বিদ্যমান প্রতিটি রক্ত-পরীক্ষার প্যানেলে ইঞ্জিনের সঠিকতা সম্পর্কে কোনো সর্বজনীন দাবি নয়।.
স্কোরটি বলে যে, এই মূল্যায়নের জন্য নির্বাচিত ডায়াগনস্টিক প্যাটার্নগুলো ইঞ্জিনটি জনসংখ্যা-স্কেলের কোহর্ট জুড়ে সঠিকভাবে পরিচালনা করেছে, এমন একটি পদ্ধতিতে যা প্রকাশিত এবং পুনরুত্পাদনযোগ্য। এটি বলে না যে, বাস্তবে বিদ্যমান প্রতিটি রক্ত পরীক্ষার প্যানেলে ইঞ্জিনটি সঠিক। এটি বলে না যে, ইঞ্জিনটি ক্লিনিশিয়ানদের বিচার-বিবেচনাকে প্রতিস্থাপন করা উচিত। এবং এটি বলে না যে, ইঞ্জিনটি বিকল্প এআই সিস্টেমগুলোর চেয়ে ভালো — অন্য ইঞ্জিনগুলোর সাথে তুলনামূলক বিশ্লেষণ ইচ্ছাকৃতভাবে এই প্রতিবেদনের আওতার বাইরে রাখা হয়েছিল।.
স্কোরটি যা প্রতিষ্ঠা করে তা হলো একটি বেসলাইন। রুব্রিক এবং হারনেস প্রকাশ্য থাকায়, ইঞ্জিনের ভবিষ্যৎ সংস্করণগুলো একই রুব্রিকের বিপরীতে মূল্যায়ন করা যাবে — V11 প্রাথমিক 15টি কেসে, দ্বিতীয় আপডেটের 100,000-কেস কোহর্টে, অথবা পরবর্তী যেকোনো সম্প্রসারণে — এবং প্রকাশিত স্কোর ও পরবর্তী যেকোনো রান-এর মধ্যকার ব্যবধান নিজেই পরিমাপযোগ্য। প্রি-রেজিস্ট্রেশনের মূল্য এখানেই: এটি পারফরম্যান্স দাবিকে পরীক্ষাযোগ্য দাবিতে রূপান্তর করে.
১০ মিনিটে কীভাবে এই বেঞ্চমার্ক পুনরুত্পাদন করবেন
পুনরুত্পাদনের জন্য কেবল একটি Kantesti API credential pair এবং Python 3.10 বা পরবর্তী সংস্করণের একটি পরিবেশ প্রয়োজন, যেখানে requests এবং reportlab লাইব্রেরিগুলো ইনস্টল করা আছে। সম্পূর্ণ হারনেসটি MIT লাইসেন্সের অধীনে প্রকাশিত একটি একক, স্বয়ংসম্পূর্ণ Python মডিউল।.
একটি নতুন রান-এর জন্য চারটি ধাপ
এক।. রিপোজিটরি ক্লোন করুন: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. দুই।. requirements.txt ফাইল থেকে নির্ভরশীলতা ইনস্টল করুন pip install -r requirements.txt (Second Update যোগ করে mysql-connector-python ≥ 8.0 SQL কেস লোডারের জন্য)।. তিন।. সেট করুন KANTESTI_USERNAME এবং KANTESTI_PASSWORD ইঞ্জিন API-এর জন্য পরিবেশ ভেরিয়েবল হিসেবে। দ্বিতীয় আপডেটের SQL কেস লোডারের জন্যও সেট করুন KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, এবং KANTESTI_DB_PASSWORD — লোডারটি একটি রিড-অনলি ভূমিকার মাধ্যমে সংযোগ করে (bench_reader) যার শনাক্তকারী টেবিলগুলোর ওপর কোনো বিশেষাধিকার নেই।. চার।. চালান python benchmark_bloodtest.py --limit 100000 সম্পূর্ণ Second-Update চালানোর জন্য, অথবা python benchmark_bloodtest.py --limit 1000 দ্রুত পুনরাবৃত্তির জন্য। আউটপুট জমা হয় ./benchmark_results/: একটি CSV স্কোরকার্ড যেখানে প্রতি-দেশ-লেবেল এবং প্রতি-বিশেষত্ব কলাম রয়েছে, একটি JSON সমষ্টি (aggregate), একটি স্তরীকৃত-র্যান্ডম কাঁচা-প্রতিক্রিয়া নমুনা, এবং একটি Markdown প্রতিবেদন।.
২৩ এপ্রিল ২০২৬ (V11 প্রাথমিক, ১৫টি কেস) এবং ২৬ এপ্রিল ২০২৬ (V11 Second Update, ১০০,০০০ কেস) থেকে রেফারেন্স রানগুলো রিপোজিটরির results/ ডিরেক্টরিতে সংরক্ষিত থাকে। আপনি নতুন করে চালালে একটি নতুন টাইমস্ট্যাম্পযুক্ত স্কোরকার্ড তৈরি হবে, তবে রেফারেন্স রানগুলো অপরিবর্তিত থাকবে। আপনার রান যদি অর্থপূর্ণভাবে ভিন্ন ফল দেয়, অনুগ্রহ করে রান টাইমস্ট্যাম্প এবং রেসপন্স মেটাডাটায় ফেরত পাওয়া ইঞ্জিন ভার্সনসহ একটি GitHub ইস্যু খুলুন।.
সীমাবদ্ধতা এবং ভবিষ্যৎ কাজ
127টি দেশ-লেবেল জুড়ে 100,000টি কেস হলেও, চারটি সীমাবদ্ধতা স্পষ্টভাবে স্বীকার করা উচিত: দীর্ঘ লেজ লেবেলগুলোর কম নমুনা (undersampling), একবারের (single-shot) মূল্যায়ন, একক-ইঞ্জিনের পরিধি (scope), এবং একক-উৎস ডেটা উৎপত্তি। এগুলোর প্রতিটিই সক্রিয় ফলো-আপ কাজে সমাধান করা হচ্ছে।.
দীর্ঘ লেজ লেবেল কভারেজ।. দ্বিতীয় আপডেটটি 127টি দেশ-লেবেল জুড়ে বিস্তৃত, কিন্তু বণ্টনটি অসম—শীর্ষ 10টি লেবেল মোট কেসের ≈66.4% দখল করে, এবং অতিরিক্ত 97টি লেবেলের দীর্ঘ লেজ একত্রে ≈7.3% যোগ করে (মোটামুটি 7,300 কেস মিলিয়ে, প্রতি লেবেলে গড় ~75 কেস)। তাই এই দীর্ঘ লেজে প্রতি-লেবেল কম্পোজিটগুলো শিরোনাম-সংখ্যা (headline figures) যা ইঙ্গিত করে তার চেয়ে বেশি নয়েজযুক্ত (noisier)। ভবিষ্যৎ রানগুলো প্রতি-লেবেল অনুমানকে আরও দৃঢ় করতে লেবেল বরাদ্দ পুনঃসমন্বয় (rebalance) করবে।.
একবারের মূল্যায়ন।. কোহর্টের প্রতিটি কেস একবার করে মূল্যায়ন করা হয়েছে। কম স্যাম্পলিং টেম্পারেচারেও বড় ভাষা মডেলগুলো উল্লেখযোগ্য আউটপুট ভ্যারিয়েন্স দেখায়, তাই প্রতি কেসে পাঁচটি মূল্যায়নসহ এবং রিপোর্ট করা ভ্যারিয়েন্সসহ একটি বহু-রান প্রোটোকল স্বাভাবিক পরবর্তী ধাপ—বিশেষ করে ট্র্যাপ-কেস সাবসেটের ক্ষেত্রে, যেখানে স্যাম্পলিং জিটার সত্ত্বেও সামঞ্জস্যতা নিরাপত্তা দাবির অংশ।.
একক-ইঞ্জিন পরিধি।. এই রিপোর্টটি একটি ইঞ্জিনকে বর্ণনা করে। বিকল্প AI সিস্টেমের বিরুদ্ধে তুলনামূলক বিশ্লেষণ এখানে আলোচনার বাইরে; আমরা একই MIT-লাইসেন্সড হারনেসের বিপরীতে উপযুক্ত পদ্ধতিসহ এগুলোকে একটি পৃথক স্বাধীন গবেষণা হিসেবে অনুসরণ করতে পারি।.
সিন্থেটিক ডেটা।. 100,000টি কেস সিন্থেটিকভাবে তৈরি—সিন্থেটিক কেস, এবং ফলাফল বাস্তব-জগতের ক্লিনিক্যাল পারফরম্যান্সে স্থানান্তরিত হয় না। বাস্তব, সম্মতিপ্রাপ্ত, বাহ্যিকভাবে-উৎসারিত ডেটায় মূল্যায়নের জন্য উপযুক্ত নৈতিক তত্ত্বাবধান প্রয়োজন এবং এটি এই সিন্থেটিক বেঞ্চমার্কের আওতার বাইরে।.
এই চারটির বাইরে, সবচেয়ে প্রভাবশালী পরিকল্পিত সম্প্রসারণ হলো প্রতি জুরিসডিকশনে বহুভাষিক সমতা। ১TP6T AI Engine ১TP32T ভাষায় ব্যবহারকারীদের সেবা দেয়, এবং ভাষা-স্তরীকৃত Second-Update সাব-কোহর্ট (তুর্কিশ, জার্মান, স্প্যানিশ, ফরাসি, ইতালীয়, পর্তুগিজ, আরবি, ম্যান্ডারিন) চালালে ইঞ্জিনের সমর্থিত ভাষাগুলোর মধ্যে আউটপুট মানের পরিমাপ করা হবে। প্রতিটি ভাষা-স্তরীকৃত বিশ্লেষণ নিজস্ব DOI এবং হারনেস ব্রাঞ্চসহ প্রকাশ করা হবে।.