এই বেঞ্চমার্ক কেন আছে এবং এটি কী পরীক্ষা করে

এআই-সহায়তাপ্রাপ্ত রক্ত পরীক্ষার ফলাফল বোঝা ক্রমবর্ধমানভাবে ভোক্তা ও ক্লিনিক্যাল ওয়ার্কফ্লোতে ব্যবহৃত হচ্ছে, তবে ল্যাবরেটরি মেডিসিনের জন্য উপযোগী পুনরুত্পাদনযোগ্য মূল্যায়ন কাঠামো এখনো অস্বাভাবিক। এই প্রেক্ষাপটে সবচেয়ে গুরুত্বপূর্ণ প্রশ্নগুলো সাধারণ মেডিক্যাল প্রশ্নোত্তর বেঞ্চমার্কে যেগুলো কভার করা হয় সেগুলো নয়: যখন মীন কর্পাসকুলার ভলিউম (MCV) একই থাকে, তখন কি একটি ইঞ্জিন আয়রন ডেফিসিয়েন্সি থেকে থ্যালাসেমিয়া ট্রেইট আলাদা করতে পারে; গিলবার্টের সিনড্রোমকে কি হেপাটাইটিস হিসেবে অতিরিক্ত রোগ নির্ণয় করে; এবং সম্পূর্ণ স্বাভাবিক স্ক্রিনিং প্যানেলে কি প্যাথলজি “তৈরি” করে?

প্রি-রেজিস্টার্ড রুব্রিক ফ্লো ডায়াগ্রাম, যেখানে দেখানো হয়েছে কীভাবে Kantesti এআই ইঞ্জিনকে স্থির (ফ্রোজেন) স্কোরিং মানদণ্ডের বিপরীতে মূল্যায়ন করা হয়
চিত্র ১: বেঞ্চমার্ক আর্কিটেকচার — প্রতিটি কেস, প্রতিটি কীওয়ার্ড, প্রতিটি স্কোরিং সিস্টেম ইঞ্জিন কোনো একক PDF দেখার আগেই সোর্স কোডে স্থির থাকে। ডিজাইন অনুযায়ী পোস্ট-হক রুব্রিক টিউনিং অসম্ভব।.

একটি একক রক্ত পরীক্ষার প্যানেলে সাধারণত একাধিক প্রতিযোগী ব্যাখ্যা সমর্থন করার মতো যথেষ্ট সংকেত থাকে, এবং ব্যাখ্যাকারী চিকিৎসকের কাজ হলো সেগুলোকে পাঠ্যবইয়ের একক “সঠিক উত্তর” খুঁজে বের করার বদলে পরস্পরের সঙ্গে তুলনা করে ওজন দেওয়া। যে ইঞ্জিন পাঠ্যবইয়ের কেসে ভালো করে, সেটি তবু সবচেয়ে গুরুত্বপূর্ণ কেসে ব্যর্থ হতে পারে: ডিফারেনশিয়াল-ডায়াগনোসিসের ফাঁদ, একা দেখলে উদ্বেগজনক মনে হওয়া নিরীহ ভ্যারিয়েন্ট, এবং পুরোপুরি স্বাভাবিক প্যানেল—যেগুলো আত্মবিশ্বাসী সহকারীকে প্যাথলজি “তৈরি” করতে প্রলুব্ধ করে।.

এই বেঞ্চমার্কটি ঠিক এই ব্যর্থতার ধরনগুলোকেই কেন্দ্র করে তৈরি করা হয়েছিল। পনেরোটি কেসের প্রতিটিকে একটি নির্দিষ্ট ডায়াগনস্টিক বৈশিষ্ট্যের জন্য বাছাই করা হয়: আয়রন-ঘাটতিজনিত মাইক্রোসাইটোসিস, যেটিকে একই mean corpuscular volume থাকা beta-thalassaemia trait থেকে আলাদা রাখতে হবে; Gilbert's syndrome-এর উপস্থাপনা, যেখানে একমাত্র অস্বাভাবিকতা হলো বিচ্ছিন্ন indirect hyperbilirubinaemia; এবং একটি পনেরো-প্যারামিটারের স্ক্রিনিং প্যানেল, যেখানে প্রতিটি অ্যানালাইটই তার রেফারেন্স রেঞ্জের ভেতরে থাকে। রুব্রিক এমন ইঞ্জিনকে পুরস্কৃত করে যেগুলো প্রতিটি কেসকে নিজের শর্তে পড়ে, এবং এমন ইঞ্জিনকে শাস্তি দেয় যেগুলো এমন ক্ষেত্রে আত্মবিশ্বাসী ডায়াগনোসিসে পৌঁছে যায় যেখানে সেই ডায়াগনোসিসের কোনো ভিত্তি নেই।.

ড. থমাস ক্লেইন হিসেবে, আমি কেস প্যানেলটি বেছে নিয়েছি কারণ এগুলোই সেই প্যাটার্ন যেগুলো ল্যাবরেটরি-মেডিসিন সহকারীরা সবচেয়ে বেশি ভুল করে।. ব্যয়বহুল ব্যর্থতার ধরনটি "দুর্লভ রোগ মিস করা" নয়—এটি এমন রোগীদের মধ্যে নিয়মিত প্যাথলজি বানিয়ে ফেলা, যাদের সেটি নেই।. আমাদের মেডিকেল ভ্যালিডেশন hub বৃহত্তর কাঠামো বর্ণনা করে; এই পৃষ্ঠাটি V11 ইঞ্জিনে এর প্রয়োগকৃত ফলাফল বর্ণনা করে।.

সর্বশেষ রেফারেন্স রান — V11 (এপ্রিল ২০২৬)

Kantesti AI Engine V11-এর এপ্রিল 2026 রেফারেন্স রান থেকে একটি যৌগিক স্কোর পাওয়া গেছে 99.12% প্রি-রেজিস্টার্ড পনেরো-কেস রুব্রিকে। উভয় hyperdiagnosis ফাঁদ কেসই সর্বোচ্চ সীমায় স্কোর করেছে। আয়রন-ঘাটতি বনাম থ্যালাসেমিয়া ডিফারেনশিয়ালে Mentzer index সঠিকভাবে প্রয়োগ করা হয়েছিল।.

যৌগিক 99.12% ১৫ এর মধ্যে ১৫ কেস স্কোর করেছে
0.998 স্ট্রাকচারাল স্কোর
0.998 ক্লিনিক্যাল স্কোর
20.17 সেকেন্ড গড় লেটেন্সি
0 / 13 ফাঁদ-সদৃশ ভুল পজিটিভ

যৌগিক সূত্রটি তিনটি উপাদানকে একত্র করে: স্ট্রাকচারাল সামঞ্জস্য সাতটি বাধ্যতামূলক রিপোর্ট সেকশন এবং ষোলটি বাধ্যতামূলক সাবসেকশনসহ, ক্লিনিক্যাল নির্ভুলতা পরিমাপ করা হয় keyword recall + scoring-system recall + probability-distribution validity check দিয়ে, এবং রেসপন্স লেটেন্সি ২০ সেকেন্ডের প্রধান primary-path সার্ভিস-লেভেল টার্গেটের বিপরীতে। নিচের রুব্রিক সূত্রে সঠিক বিশ্লেষণ দেখানো আছে।.

যৌগিক = 0.35 × স্ট্রাকচারাল + 0.55 × ক্লিনিক্যাল + 0.10 × লেটেন্সি

মাথার জায়গার বাকি ০.৮৮ শতাংশ পয়েন্ট প্রায় পুরোপুরি লেটেন্সি ক্ষতিতে ভেঙে যায়—প্রতি বার ০.০৫ করে তিনটি ফেজ ২ ফallback আহ্বান মিলিয়ে ০.৮৮-পয়েন্ট ঘাটতির প্রায় ০.৬০ অবদান রেখেছে—ক্লিনিক্যাল কনটেন্টে নয়। ইঞ্জিনটি পনেরোটি কেসের কোনো একটিতেই সঠিক রোগ নির্ণয় মিস করেনি; যেখানে ঘাটতি ছিল, সেখানে তা হয়েছে অল্প কিছু আহ্বানে ২০ সেকেন্ডের প্রাইমারি-পাথ লক্ষ্যমাত্রার চেয়ে সামান্য বেশি সময় নেওয়ার মাধ্যমে।.

সাতটি চিকিৎসা বিশেষত্ব জুড়ে পনেরোটি কেস

কেস প্যানেলে সাতটি বিশেষত্ব রয়েছে—হেমাটোলজি, এন্ডোক্রিনোলজি, মেটাবলিক মেডিসিন, হেপাটোলজি, নেফ্রোলজি, কার্ডিওলজি, রিউমাটোলজি—এছাড়া দুইটি নিবেদিত হাইপারডায়াগনোসিস ট্র্যাপ কেসও আছে। প্রতিটি কেস হলো লিখিত অবগত সম্মতির অধীনে ১TP6T ক্লিনিক্যাল ডেটা রিপোজিটরি থেকে নেওয়া একটি বেনামীকৃত বাস্তব রোগীর রেকর্ড।.

সাতটি চিকিৎসা বিশেষত্ব জুড়ে বণ্টিত পনেরোটি বেনামী রক্ত পরীক্ষার কেসের কভারেজ মানচিত্র, পাশাপাশি হাইপারডায়াগনোসিস ট্র্যাপ কেসসমূহ
চিত্র ২: হেমাটোলজি, এন্ডোক্রিনোলজি, মেটাবলিক মেডিসিন, হেপাটোলজি, নেফ্রোলজি, কার্ডিওলজি, রিউমাটোলজি—এগুলোর মধ্যে কেসের বণ্টন, পাশাপাশি দুইটি ট্র্যাপ কেস—গিলবার্টস সিনড্রোম এবং সম্পূর্ণ স্বাভাবিক স্ক্রিনিং প্যানেল।.

ডি-আইডেন্টিফিকেশন করা হয়েছে Safe Harbor পদ্ধতিতে: সব সরাসরি শনাক্তকারী অপসারণ বা প্রতিস্থাপন করা হয়, এবং প্রতিটি রেকর্ডকে BT-NNN-LABEL ফরম্যাটে একটি বেঞ্চমার্ক-ইন্টারনাল কেস কোড দেওয়া হয়। প্রসেসিং করা হয়েছে GDPR Article 9(2)(j) উপযুক্ত সুরক্ষা ব্যবস্থাসহ বৈজ্ঞানিক গবেষণার জন্য, এবং সমতুল্য UK GDPR বিধান অনুযায়ী। প্রকাশিত হ্যারনেস, টেকনিক্যাল রিপোর্ট, বা রিলিজড ডেটাসেট—কোথাও কোনো ব্যক্তিগতভাবে শনাক্তযোগ্য তথ্য দেখা যায় না।.

হেমাটোলজি (৩) BT-001, BT-006, BT-007 আয়রন ডেফিসিয়েন্সি অ্যানিমিয়া · B12 এর অভাব · বিটা-থ্যালাসেমিয়া মাইনর
এন্ডোক্রিনোলজি (৩) BT-002, BT-008, BT-012 হাশিমোটোর থাইরয়েডাইটিস · ইনসুলিন রেজিস্ট্যান্সসহ PCOS · তীব্র ভিটামিন ডি এর অভাব
মেটাবলিক (২) BT-003, BT-013 মেটাবলিক সিনড্রোমসহ T2DM · গাউটের ঝুঁকিসহ হাইপারইউরিকেমিয়া
হেপাটোলজি (২) BT-004, BT-009 NAFLD / NASH · তীব্র ভাইরাল হেপাটাইটিস
নেফ্রোলজি · কার্ডিওলজি · রিউমাটোলজি (৩) BT-005, BT-010, BT-011 CKD স্টেজ ৩ · অ্যাথেরোজেনিক ডিসলিপিডেমিয়া · সিস্টেমিক লুপাস এরিথেমাটোসাস
ট্র্যাপ কেস (২) BT-014, BT-015 গিলবার্টস সিনড্রোম (একাকী ইনডাইরেক্ট হাইপারবিলিরুবিনেমিয়া) · সম্পূর্ণ স্বাভাবিক প্রাপ্তবয়স্ক স্ক্রিন

কেন এই নির্দিষ্ট বণ্টন

বাস্তব-জগতের ল্যাবরেটরি চর্চায় সর্বোচ্চ-ভলিউমের ফাঁদ হিসেবে মাইক্রোসাইটিক ডিফারেনশিয়াল এবং ম্যাক্রোসাইটিক ডিফারেনশিয়াল থাকায় হেমাটোলজি তিনটি কেস পায়। হ্যাশিমোটো, PCOS, এবং ভিটামিন ডি এর অভাব—এই উপস্থাপনাগুলো ভিন্ন ভিন্ন ডায়াগনস্টিক আকার অনুশীলন করায় (অটোঅ্যান্টিবডি-চালিত, হরমোন-অনুপাত-চালিত, একক-মার্কার-চালিত) এন্ডোক্রিনোলজি তিনটি কেস পায়। একক-কেসের বিশেষত্বগুলো এখনো তাৎপর্যপূর্ণ, কারণ CKD, ASCVD ঝুঁকি, এবং SLE—প্রতিটিরই নিজস্ব স্কোরিং সিস্টেম আছে, যা ইঞ্জিনকে আহ্বান করা উচিত (ক্রমশ KDIGO স্টেজিং, ASCVD ১০-বছরের ঝুঁকি, এবং ২০১৯ EULAR/ACR SLE মানদণ্ড)।.

প্রি-রেজিস্টার্ড রুব্রিক, ব্যাখ্যাসহ

এই বেঞ্চমার্কে প্রি-রেজিস্ট্রেশনই এককভাবে সবচেয়ে গুরুত্বপূর্ণ পদ্ধতিগত সিদ্ধান্ত। প্রত্যাশিত প্রতিটি ডায়াগনসিস, প্রতিটি ক্লিনিক্যাল স্কোরিং সিস্টেম, এবং প্রতিটি রিপোর্ট সেকশন সোর্স কোডে কমিট করা হয়েছিল ইঞ্জিন আহ্বান করার আগেই. । তাই ইঞ্জিনকে খুশি করার জন্য রুব্রিকের পোস্ট-হক টিউনিং করা অসম্ভব।.

কম্পোজিট স্কোর গঠনে তিনটি উপাদান আছে। কাঠামোগত উপাদান ৩৫ শতাংশ অবদান রাখে এবং ইঞ্জিনটি সাতটি বাধ্যতামূলক রিপোর্ট সেকশন (হেডার, সারাংশ, মূল ফলাফল, ডিফারেনশিয়াল, স্কোরিং সিস্টেম, সুপারিশ, ফলো-আপ) এবং এগুলোর ভেতরে থাকা ষোলটি বাধ্যতামূলক সাবসেকশন ফিরিয়ে দিয়েছে কি না তা মাপে। সেকশন উপস্থিতি কাঠামোগত গণনায় ৪০ শতাংশ ও সাবসেকশন উপস্থিতি ৬০ শতাংশ ওজন বহন করে।.

দ্য ক্লিনিক্যাল উপাদান ৫৫ শতাংশ অবদান রাখে এবং তিনটি বিষয়কে একত্র করে: ডায়াগনসিস-কীওয়ার্ড রিকল (ক্লিনিক্যাল সাব-স্কোরের ৭০ শতাংশ), স্কোরিং-সিস্টেম রিকল (২০ শতাংশ—প্রাসঙ্গিক হলে ইঞ্জিন কি Mentzer, FIB-4, HOMA-IR, ASCVD ঝুঁকি, KDIGO স্টেজিং, EULAR/ACR মানদণ্ড গণনা করে), এবং সম্ভাব্যতা-সম বৈধতা যাচাই (১০ শতাংশ—ডিফারেনশিয়াল সম্ভাব্যতাগুলো [৯০, ১১০] অন্তর্ভুক্তির মধ্যে যোগফল হওয়া উচিত)। ফাঁদ কেসগুলোর জন্য সর্বোচ্চ ০.৩০ পর্যন্ত একটি স্পষ্ট হাইপারডায়াগনসিস পেনাল্টি কাটা হয়—প্রতি বানানো প্যাথলজি ফ্ল্যাগে ০.১০ করে গণনা, এবং সর্বোচ্চ তিনটি ফ্ল্যাগে সীমাবদ্ধ।.

দ্য লেটেন্সি উপাদান ১০ শতাংশ অবদান রাখে। ২০ সেকেন্ডের কমে উত্তর দিলে পূর্ণ ০.১০, ৪০ সেকেন্ডের কমে হলে ০.০৫, এবং এর চেয়ে ধীর হলে শূন্য। ২০ সেকেন্ডের লক্ষ্যটি প্রোডাকশন প্রাইমারি-পাথ সার্ভিস-লেভেল উদ্দেশ্যকে প্রতিফলিত করে; ৪০ সেকেন্ডের সীমা ভারী-ইঞ্জিন আহ্বানের জন্য ফেজ ২-এর ব্যাকআপ বাজেটকে প্রতিফলিত করে।.

MIT লাইসেন্সপ্রাপ্ত Kantesti বেঞ্চমার্ক হারনেস চালু হয়ে প্রতি-কেস স্কোর নির্গত করছে—এমন টার্মিনাল স্ক্রিনশট
চিত্র ৩: এক্সিকিউশনে হারনেস। প্রতিটি কেস A4 PDF হিসেবে রেন্ডার করা হয়, প্রোডাকশন v11 এন্ডপয়েন্টে পোস্ট করা হয়, এবং ফ্রোজেন রুব্রিকের বিরুদ্ধে স্কোর করা হয়। প্রতিটি কাঁচা উত্তরকে সমষ্টিগত স্কোরকার্ডের পাশাপাশি সংরক্ষণ করা হয়।.

প্রি-রেজিস্ট্রেশন কী প্রতিরোধ করে

ফার্স্ট-পার্টি বেঞ্চমার্কগুলো পোস্ট-হক রুব্রিক টিউনিংয়ের মাধ্যমে নিজেদের সংখ্যা ফুলিয়ে দেওয়ার জন্য কুখ্যাত। প্যাটার্নটা প্রায় সবসময় একই: দল ইঞ্জিন চালায়, কোথায় কম পারফর্ম করছে দেখে, তারপর নীরবে রুব্রিক এমনভাবে সামঞ্জস্য করে যাতে কম পারফর্ম করা ক্ষেত্রগুলোর ওজন কমে যায়। প্রথম ইঞ্জিন কলের আগে রুব্রিককে সোর্স কোডে কমিট করা এবং MIT লাইসেন্সের অধীনে হারনেস প্রকাশ করার ফলে এই সামঞ্জস্য ভার্সন কন্ট্রোলে দৃশ্যমান হয়ে ওঠে। যে কেউ রিপোজিটরি ক্লোন করতে পারে, রুব্রিক লেখকের তারিখ যাচাই করতে পারে, এবং নিশ্চিত করতে পারে যে ইঞ্জিনের ফলাফল স্কোরিংকে গঠন করতে ব্যবহার করা হয়নি।.

হাইপারডায়াগনোসিস ট্র্যাপ কেস — কেন অতিরিক্ত ডাকাই আসল ব্যর্থতার ধরন

স্বাভাবিক স্ক্রিনে প্যাথলজি নিয়ে আক্রমণাত্মকভাবে অতিরিক্ত কল করা কনজিউমার-ফেসিং মেডিক্যাল অ্যাসিস্ট্যান্টদের নথিভুক্ত ব্যর্থতার ধরন। এর পরবর্তী খরচগুলোর মধ্যে রয়েছে অপ্রয়োজনীয় তদন্ত, রোগীর উদ্বেগ, এবং চিকিৎসাজনিত (iatrogenic) ওয়ার্কআপ। এই বেঞ্চমার্কের দুইটি ফাঁদ কেস এমনভাবে ডিজাইন করা হয়েছে যাতে এই ব্যর্থতার ধরন দৃশ্যমান এবং স্কোরযোগ্য হয়।.

পাশাপাশি তুলনা: গিলবার্টস সিন্ড্রোম প্যানেলে একটী নৈবেদ্য এআই হেপাটাইটিস বানিয়ে দেখানোর বনাম Kantesti ইঞ্জিনের সঠিকভাবে নিরীহ UGT1A1 পলিমরফিজম শনাক্তকরণ
চিত্র ৪: ফাঁদ-কেস ডিজাইন। যে ইঞ্জিন আত্মবিশ্বাসের সাথে গিলবার্টের সিন্ড্রোমকে হেপাটাইটিস হিসেবে লেবেল করে, অথবা পুরোপুরি স্বাভাবিক স্ক্রিনে সীমান্তবর্তী প্যাথলজি তৈরি করে—তাকে শাস্তি দেওয়া হয়; ক্লিনিক্যাল শোনানোর জন্য পুরস্কৃত করা হয় না।.

🟡 ফাঁদ ১ — BT-014-GILBERT

উপস্থাপনা।. মোট বিলিরুবিন ২.৪ mg/dL সহ ২৪ বছর বয়সী একজন পুরুষ। ডাইরেক্ট অংশ স্বাভাবিক, ট্রান্সঅ্যামিনেজ এবং অ্যালকালাইন ফসফাটেজ তাদের রেফারেন্স রেঞ্জের ভেতরে আছে, রেটিকুলোসাইটগুলো উল্লেখযোগ্য নয়, এবং হ্যাপ্টোগ্লোবিন ও LDH হিমোলাইসিসকে বাদ দেয়।.

সঠিক ব্যাখ্যা।. গিলবার্টের সিন্ড্রোম—একটি সুশীল UGT1A1 পলিমরফিজম। ব্যাখ্যায় হেপাটাইটিস, সিরোসিস, হিমোলাইটিক অ্যানিমিয়া, বা বিলিয়ারি অবস্ট্রাকশন আহ্বান করা উচিত নয়।.

V11 ফলাফল।. কম্পোজিট 1.000। ছয়টি পর্যবেক্ষিত অতিরিক্ত-ডায়াগনসিস ফ্ল্যাগের কোনোটিই সক্রিয় ডায়াগনসিস হিসেবে দেখা যায়নি।.

🟡 ফাঁদ ২ — BT-015-HEALTHY

উপস্থাপনা।. পনেরো-প্যারামিটারের একটি নিয়মিত স্ক্রিনিং প্যানেলসহ ৩৫ বছর বয়সী একজন নারী। প্রতিটি অ্যানালাইটই তার রেফারেন্স রেঞ্জের ভেতরে স্বাচ্ছন্দ্যে অবস্থান করছে।.

সঠিক ব্যাখ্যা।. আশ্বাস প্রদান এবং জীবনযাত্রা বজায় রাখা। ব্যাখ্যাটি এমন কোনো সীমান্তবর্তী রোগতত্ত্ব তৈরি করবে না যা ক্লিনিক্যালভাবে উপকারী শোনানোর জন্য বানানো হয়েছে।.

V11 ফলাফল।. কম্পোজিট 1.000। সাতটি পর্যবেক্ষিত অতিরিক্ত-রোগ নির্ণয়ের (over-diagnosis) কোনো ফ্ল্যাগ—ডায়াবেটিস, রক্তাল্পতা, হাইপোথাইরয়েডিজম, ডিসলিপিডেমিয়া, হেপাটাইটিস, কিডনি রোগ, অভাব—সক্রিয় রোগ নির্ণয় হিসেবে দেখা যায়নি।.

উভয় ট্র্যাপে মোট তেরোটি পর্যবেক্ষিত হাইপারডায়াগনোসিস ফ্ল্যাগ পরীক্ষা করা হয়েছিল। কোনোটি ট্রিগার হয়নি। যে ফলাফলটি যে কোনো চিকিৎসকের জন্য সবচেয়ে বেশি গুরুত্বপূর্ণ, যিনি AI ইঞ্জিনকে ট্রায়াজ বা প্রি-কনসাল্টেশন টুল হিসেবে ব্যবহার করার কথা ভাবছেন: সিস্টেম কোনো রোগ উদ্ভাবন করেনি যেখানে রোগ ছিল না.

মেন্টজার ইনডেক্স: আয়রন ডেফিসিয়েন্সি থেকে থ্যালাসেমিয়া ট্রেইট আলাদা করা

আরেকটি উচ্চ-মূল্যের সন্ধান হলো কেস BT-001 (আয়রন ডেফিসিয়েন্সি অ্যানিমিয়া) এবং কেস BT-007 (বিটা-থ্যালাসেমিয়া মাইনর)-এর জোড়া। উভয় ক্ষেত্রেই মাইক্রোসাইটোসিস দেখা যায় এবং এটি নবীন ক্লাসিফায়ারদের জন্য সুপরিচিত একটি বাধা। মেন্টজার সূচক, যা MCV কে RBC গণনা দিয়ে ভাগ করে হিসাব করা হয়, আয়রন ডেফিসিয়েন্সিতে ১৩-এর বেশি এবং থ্যালাসেমিয়া ট্রেইটে ১৩-এর নিচে থাকে।.

BT-001-এ রোগী ছিলেন ৩৪ বছর বয়সী একজন নারী, হিমোগ্লোবিন 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ফেরিটিন 6 ng/mL, এবং TIBC বৃদ্ধি ছিল। প্রায় ১৭.৭ মেন্টজার সূচকটি নিশ্চিত করে যে এটি সুনির্দিষ্ট (absolute) আয়রন ডেফিসিয়েন্সি। BT-007-এ রোগী ছিলেন ২৮ বছর বয়সী একজন পুরুষ, মাইক্রোসাইটোসিস (MCV 65.8 fL) ছিল কিন্তু RBC গণনা ছিল বেশি 6.2, RDW স্বাভাবিক, ফেরিটিন স্বাভাবিক, এবং HbA2 ছিল ৫.৬ শতাংশ। প্রায় ১০.৬ মেন্টজার সূচকটি থ্যালাসেমিয়া ট্রেইটের দিকে ইঙ্গিত করে, এবং বৃদ্ধি পাওয়া HbA2 বিটা-থ্যালাসেমিয়া মাইনর নিশ্চিত করে।.

আয়রন ডেফিসিয়েন্সি অ্যানিমিয়া মেন্টজার > 13 কম ফেরিটিন, কম TSAT, উচ্চ TIBC, বৃদ্ধি পাওয়া RDW
বিটা-থ্যালাসেমিয়া ট্রেইট মেন্টজার < 13 স্বাভাবিক ফেরিটিন, স্বাভাবিক RDW, বৃদ্ধি পাওয়া HbA2 (>3.5%), উচ্চ RBC গণনা

উভয় কেসই 1.000 স্কোর করেছে। ইঞ্জিন উভয় ব্যাখ্যায় মেন্টজার সূচকটি স্পষ্টভাবে ব্যবহার করেছে এবং প্রতিটি ক্ষেত্রেই সঠিক রোগ নির্ণয় ফিরিয়ে দিয়েছে।. পুরো বেঞ্চমার্কে এটি এককভাবে সবচেয়ে বেশি ক্লিনিক্যালি আশ্বাসদায়ক ফলাফল, কারণ থ্যালাসেমিয়া ট্রেইটকে আয়রন ডেফিসিয়েন্সি হিসেবে ভুল শ্রেণিবদ্ধ করলে অনুপযুক্ত আয়রন সাপ্লিমেন্টেশন হয় এবং পারিবারিক স্ক্রিনিংয়ের সুযোগ মিস হয়; আর আয়রন ডেফিসিয়েন্সিকে থ্যালাসেমিয়া হিসেবে ভুল শ্রেণিবদ্ধ করলে সহজ সরল রিপ্লেসমেন্ট থেরাপি দেরিতে শুরু হয়। আমাদের ফেরিটিন রেঞ্জ গাইড বৃহত্তর ডিফারেনশিয়াল প্রেক্ষাপট ব্যাখ্যা করে।.

এপ্রিল ২০২৬ রান থেকে প্রতি-কেস ফলাফল

পনেরোটি কেসের মধ্যে বারোটি প্রাইমারি পাথে সর্বোচ্চ কম্পোজিট স্কোর 1.000 অর্জন করেছে। তিনটি কেস Phase 2 fallback-এর মাধ্যমে পরিবেশন করা হয়েছিল, ফলে 0.05 লেটেন্সি বোনাস হারালেও সব ক্লিনিক্যাল ও কাঠামোগত কনটেন্ট অক্ষুণ্ণ ছিল। একটি কেসে একটি একক বাধ্যতামূলক সাবসেকশন অনুপস্থিত ছিল; একটি কেসে সম্ভাব্যতার (probability) যোগফল সামান্য কমে যাওয়া অবস্থায় ফিরে এসেছে।.

কেস আইডি স্পেশালিটি যৌগিক লেটেন্সি পাথ
BT-001-IDAহেমাটোলজি1.00017.8 sপ্রাইমারি
BT-006-B12হেমাটোলজি1.00018.4 সেকেন্ডপ্রাইমারি
BT-007-থ্যালাসেমিয়াহেমাটোলজি1.00017.0 সেকেন্ডপ্রাইমারি
BT-002-হ্যাশএন্ডোক্রিনোলজি0.95037.0 সেকেন্ডফallback
BT-008-PCOSএন্ডোক্রিনোলজি0.98718.6 সেকেন্ডপ্রাইমারি
BT-003-T2DMবিপাকীয়1.00019.1 সেকেন্ডপ্রাইমারি
BT-013-গাউটবিপাকীয়1.00019.4 সেকেন্ডপ্রাইমারি
BT-004-NAFLDহেপাটোলজি1.00019.6 সেকেন্ডপ্রাইমারি
BT-009-ভাইরহেপহেপাটোলজি0.95023.4 সেকেন্ডফallback
BT-014-গিলবার্টট্র্যাপ1.00018.9 সেকেন্ডপ্রাইমারি
BT-005-CKDনেফ্রোলজি1.00017.4 সেকেন্ডপ্রাইমারি
BT-010-ASCVDকার্ডিওলজি1.00019.7 সেকেন্ডপ্রাইমারি
BT-011-SLEরিউমাটোলজি0.98118.2 সেকেন্ডপ্রাইমারি
BT-012-VITDএন্ডোক্রিনোলজি1.00019.3 সেকেন্ডপ্রাইমারি
BT-015-HEALTHYট্র্যাপ1.00018.7 সেকেন্ডফallback

PCOS কেসটি (BT-008) প্রতিক্রিয়া কাঠামোতে একটি বাধ্যতামূলক উপ-সেকশন হারিয়েছে—ষোলটির মধ্যে পনেরোটি পরিবর্তে ষোলটির মধ্যে ষোলটি—যার ফলে কাঠামোগত স্কোর 1.000 থেকে 0.963 এ নেমে আসে। SLE কেসটি (BT-011) একটি সামান্য কমে যাওয়া সম্ভাব্যতা-বণ্টন সম ফেরত দেয়, যা ডায়াগনস্টিক স্কোরকে 0.965 এ নামিয়ে আনে, তবে প্রতিটি ডায়াগনস্টিক কীওয়ার্ড এবং স্কোরিং সিস্টেম অক্ষুণ্ণ রাখে। কোনো সাব-পারফেক্ট কেসই সঠিক রোগ নির্ণয় মিস করেনি।.

হেডলাইন স্কোর আমাদের কী বলে না

এই নির্দিষ্ট প্রি-রেজিস্টার্ড রুব্রিকের অধীনে 99.12 শতাংশের একটি যৌগিক স্কোর প্রায়-সিলিং পারফরম্যান্স নির্দেশ করে, কিন্তু এটিকে সতর্কভাবে প্রেক্ষাপটে রাখা দরকার। ফলাফলটি ইঞ্জিনের আচরণকে পনেরোটি সাবধানে নির্বাচিত বেনামী কেসের বিপরীতে বর্ণনা করে—প্রতিটি কেস একবার করে—একটি একক রুব্রিকের অধীনে। আমরা স্পষ্ট করে বলছি, সংখ্যাটি কী প্রতিষ্ঠা করে এবং কী করে না।.

স্কোরটি বলে যে V11 ইঞ্জিনটি এই মূল্যায়নের জন্য নির্বাচিত ডায়াগনস্টিক প্যাটার্নগুলো সঠিকভাবে পরিচালনা করেছে—একটি প্রকাশিত এবং পুনরুত্পাদনযোগ্য পদ্ধতিতে। এটি বলে না যে বন্য পরিবেশে বিদ্যমান প্রতিটি রক্ত পরীক্ষার প্যানেলে ইঞ্জিনটি সঠিক। এটি বলে না যে ইঞ্জিনটি চিকিৎসকের সিদ্ধান্তকে প্রতিস্থাপন করা উচিত। এবং এটি বলে না যে ইঞ্জিনটি বিকল্প এআই সিস্টেমগুলোর চেয়ে ভালো—অন্য ইঞ্জিনগুলোর সঙ্গে তুলনামূলক বিশ্লেষণ ইচ্ছাকৃতভাবে এই প্রতিবেদনের আওতার বাইরে রাখা হয়েছে।.

স্কোরটি যা প্রতিষ্ঠা করে তা হলো একটি বেসলাইন। রুব্রিক এবং হারনেস প্রকাশ্য হওয়ায়, ইঞ্জিনের ভবিষ্যৎ সংস্করণগুলো একই পনেরোটি কেসের বিপরীতে মূল্যায়ন করা যাবে, এবং প্রকাশিত স্কোর ও পরবর্তী যেকোনো রান-এর মধ্যে ব্যবধান নিজেই পরিমাপযোগ্য। প্রি-রেজিস্ট্রেশনের মূল্য এখানেই: এটি পারফরম্যান্স দাবিকে পরীক্ষাযোগ্য দাবিতে রূপান্তর করে.

১০ মিনিটে কীভাবে এই বেঞ্চমার্ক পুনরুত্পাদন করবেন

পুনরুত্পাদনের জন্য কেবল একটি Kantesti API credential pair এবং Python 3.10 বা পরবর্তী সংস্করণের একটি পরিবেশ প্রয়োজন, যেখানে requests এবং reportlab লাইব্রেরিগুলো ইনস্টল করা আছে। সম্পূর্ণ হারনেসটি MIT লাইসেন্সের অধীনে প্রকাশিত একটি একক, স্বয়ংসম্পূর্ণ Python মডিউল।.

পুনরুত্পাদনযোগ্যতা নেটওয়ার্ক ডায়াগ্রাম: Figshare, ResearchGate, Academia.edu এবং GitHub জুড়ে বেঞ্চমার্কটি মিরর করা হয়েছে; Figshare DOI-কে ক্যানোনিকাল অ্যাঙ্কর হিসেবে দেখানো হয়েছে
চিত্র ৫: বেঞ্চমার্কটি চারটি গবেষণা প্ল্যাটফর্মে প্রতিফলিত করা হয়েছে। Figshare DOI হলো ক্যানোনিকাল স্কলারলি শনাক্তকারী; ResearchGate, Academia.edu, এবং GitHub কোড ও কাঁচা ডেটাসহ সমান্তরাল কপি হোস্ট করে।.

একটি নতুন রান-এর জন্য চারটি ধাপ

এক।. রিপোজিটরি ক্লোন করুন: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. দুই।. requirements.txt ফাইল থেকে নির্ভরশীলতা ইনস্টল করুন pip install -r requirements.txt. তিন।. সেট করুন KANTESTI_USERNAME এবং KANTESTI_PASSWORD পরিবেশ ভেরিয়েবল হিসেবে—ক্রেডেনশিয়ালগুলো রানটাইমে পড়া হয় এবং স্ক্রিপ্টে কিছুই হার্ড-কোড করা থাকে না।. চার।. চালান python benchmark_bloodtest.py এবং কাজের ডিরেক্টরিতে নির্গত চারটি আর্টিফ্যাক্ট পরীক্ষা করুন: একটি CSV স্কোরকার্ড, একটি JSON স্কোরকার্ড, কাঁচা ইঞ্জিন রেসপন্সসহ একটি পূর্ণ JSON ডাম্প, এবং একটি মানুষের-পাঠযোগ্য Markdown রিপোর্ট।.

২৩ এপ্রিল ২০২৬-এর রেফারেন্স রানটি সংরক্ষিত আছে results/ রিপোজিটরির ডিরেক্টরিতে। একটি নতুন রান নতুন টাইমস্ট্যাম্পযুক্ত স্কোরকার্ড তৈরি করবে, কিন্তু রেফারেন্স রানটি অপরিবর্তিত থাকবে। আপনার রান যদি অর্থপূর্ণভাবে ভিন্ন ফল দেয়, অনুগ্রহ করে রান টাইমস্ট্যাম্প এবং রেসপন্স মেটাডেটায় ফেরত দেওয়া ইঞ্জিন ভার্সনসহ একটি GitHub issue খুলুন।.

সীমাবদ্ধতা এবং ভবিষ্যৎ কাজ

চারটি সীমাবদ্ধতা স্পষ্টভাবে স্বীকার করা দরকার: নমুনার আকার, একবারের মূল্যায়ন, একক-ইঞ্জিন পরিধি, এবং একক-উৎস ডেটা উৎপত্তি। এগুলো সক্রিয়ভাবে ফলো-আপ কাজের মাধ্যমে সমাধান করা হচ্ছে।.

নমুনার আকার।. আটটি বিশেষায়িত ক্যাটাগরিতে পনেরোটি কেস প্রুফ অব কনসেপ্টের জন্য যথেষ্ট, কিন্তু কোনো বিশেষায়িত ক্ষেত্রের ভেতরে সাবগ্রুপ বিশ্লেষণের জন্য নয়। পঞ্চাশটি কেসে সম্প্রসারণ পরিকল্পিত এবং এতে কোয়াগুলেশন প্যানেল, হেমাটোলজিক্যাল ম্যালিগন্যান্সি স্ক্রিনিং, প্রেগন্যান্সি প্যানেল এবং শিশু রোগীদের উপস্থাপনাগুলো অন্তর্ভুক্ত থাকবে।.

একবারের মূল্যায়ন।. প্রতিটি কেস একবারই মূল্যায়ন করা হয়েছে। এমনকি কম স্যাম্পলিং টেম্পারেচারেও বড় ভাষা মডেলগুলো উল্লেখযোগ্য আউটপুট ভ্যারিয়েন্স দেখায়, তাই প্রতি কেসে পাঁচটি মূল্যায়নসহ একটি বহু-রান প্রোটোকল এবং রিপোর্ট করা ভ্যারিয়েন্স পরবর্তী স্বাভাবিক ধাপ।.

একক-ইঞ্জিন পরিধি।. এই রিপোর্টটি একটি ইঞ্জিনকে বর্ণনা করে। বিকল্প AI সিস্টেমের সাথে তুলনামূলক বিশ্লেষণ এখানে আলোচনার বাইরে; উপযুক্ত পদ্ধতিসহ আমরা এগুলোকে একটি পৃথক স্বাধীন গবেষণা হিসেবে অনুসরণ করতে পারি।.

একক-উৎস ডেটা উৎপত্তি।. পনেরোটি কেসই একটি একক ক্লিনিক্যাল রিপোজিটরি থেকে নেওয়া বেনামীকৃত বাস্তব রোগীর রেকর্ড। এগুলো একটি কিউরেটেড নমুনা এবং জনসংখ্যা-প্রতিনিধিত্বশীল এলোমেলো নমুনা নয়। মূল্যায়নকে বহু-কেন্দ্রের ডেটায় সম্প্রসারণের পরিকল্পনা রোডম্যাপে রয়েছে।.

সবচেয়ে প্রভাবশালী পরিকল্পিত সম্প্রসারণ হলো বহু-ভাষার সমতা। Kantesti AI Engine 75+ ভাষায় ব্যবহারকারীদের সেবা দেয়, এবং তুর্কি, জার্মান, স্প্যানিশ, ফরাসি ও আরবিতে একই পনেরো-কেসের হারনেস চালালে ইঞ্জিনের সমর্থিত ভাষাগুলোর মধ্যে আউটপুট মানের পরিমাপ করা হবে। আমরা প্রতিটি ভাষাভিত্তিক রান তার নিজস্ব DOI এবং হারনেস ব্রাঞ্চসহ প্রকাশ করব।.