এই বেঞ্চমার্ক কেন আছে এবং এটি কী পরীক্ষা করে
এআই-সহায়তাপ্রাপ্ত রক্ত পরীক্ষার ফলাফল বোঝা ক্রমবর্ধমানভাবে ভোক্তা ও ক্লিনিক্যাল ওয়ার্কফ্লোতে ব্যবহৃত হচ্ছে, তবে ল্যাবরেটরি মেডিসিনের জন্য উপযোগী পুনরুত্পাদনযোগ্য মূল্যায়ন কাঠামো এখনো অস্বাভাবিক। এই প্রেক্ষাপটে সবচেয়ে গুরুত্বপূর্ণ প্রশ্নগুলো সাধারণ মেডিক্যাল প্রশ্নোত্তর বেঞ্চমার্কে যেগুলো কভার করা হয় সেগুলো নয়: যখন মীন কর্পাসকুলার ভলিউম (MCV) একই থাকে, তখন কি একটি ইঞ্জিন আয়রন ডেফিসিয়েন্সি থেকে থ্যালাসেমিয়া ট্রেইট আলাদা করতে পারে; গিলবার্টের সিনড্রোমকে কি হেপাটাইটিস হিসেবে অতিরিক্ত রোগ নির্ণয় করে; এবং সম্পূর্ণ স্বাভাবিক স্ক্রিনিং প্যানেলে কি প্যাথলজি “তৈরি” করে?
একটি একক রক্ত পরীক্ষার প্যানেলে সাধারণত একাধিক প্রতিযোগী ব্যাখ্যা সমর্থন করার মতো যথেষ্ট সংকেত থাকে, এবং ব্যাখ্যাকারী চিকিৎসকের কাজ হলো সেগুলোকে পাঠ্যবইয়ের একক “সঠিক উত্তর” খুঁজে বের করার বদলে পরস্পরের সঙ্গে তুলনা করে ওজন দেওয়া। যে ইঞ্জিন পাঠ্যবইয়ের কেসে ভালো করে, সেটি তবু সবচেয়ে গুরুত্বপূর্ণ কেসে ব্যর্থ হতে পারে: ডিফারেনশিয়াল-ডায়াগনোসিসের ফাঁদ, একা দেখলে উদ্বেগজনক মনে হওয়া নিরীহ ভ্যারিয়েন্ট, এবং পুরোপুরি স্বাভাবিক প্যানেল—যেগুলো আত্মবিশ্বাসী সহকারীকে প্যাথলজি “তৈরি” করতে প্রলুব্ধ করে।.
এই বেঞ্চমার্কটি ঠিক এই ব্যর্থতার ধরনগুলোকেই কেন্দ্র করে তৈরি করা হয়েছিল। পনেরোটি কেসের প্রতিটিকে একটি নির্দিষ্ট ডায়াগনস্টিক বৈশিষ্ট্যের জন্য বাছাই করা হয়: আয়রন-ঘাটতিজনিত মাইক্রোসাইটোসিস, যেটিকে একই mean corpuscular volume থাকা beta-thalassaemia trait থেকে আলাদা রাখতে হবে; Gilbert's syndrome-এর উপস্থাপনা, যেখানে একমাত্র অস্বাভাবিকতা হলো বিচ্ছিন্ন indirect hyperbilirubinaemia; এবং একটি পনেরো-প্যারামিটারের স্ক্রিনিং প্যানেল, যেখানে প্রতিটি অ্যানালাইটই তার রেফারেন্স রেঞ্জের ভেতরে থাকে। রুব্রিক এমন ইঞ্জিনকে পুরস্কৃত করে যেগুলো প্রতিটি কেসকে নিজের শর্তে পড়ে, এবং এমন ইঞ্জিনকে শাস্তি দেয় যেগুলো এমন ক্ষেত্রে আত্মবিশ্বাসী ডায়াগনোসিসে পৌঁছে যায় যেখানে সেই ডায়াগনোসিসের কোনো ভিত্তি নেই।.
ড. থমাস ক্লেইন হিসেবে, আমি কেস প্যানেলটি বেছে নিয়েছি কারণ এগুলোই সেই প্যাটার্ন যেগুলো ল্যাবরেটরি-মেডিসিন সহকারীরা সবচেয়ে বেশি ভুল করে।. ব্যয়বহুল ব্যর্থতার ধরনটি "দুর্লভ রোগ মিস করা" নয়—এটি এমন রোগীদের মধ্যে নিয়মিত প্যাথলজি বানিয়ে ফেলা, যাদের সেটি নেই।. আমাদের মেডিকেল ভ্যালিডেশন hub বৃহত্তর কাঠামো বর্ণনা করে; এই পৃষ্ঠাটি V11 ইঞ্জিনে এর প্রয়োগকৃত ফলাফল বর্ণনা করে।.
সর্বশেষ রেফারেন্স রান — V11 (এপ্রিল ২০২৬)
Kantesti AI Engine V11-এর এপ্রিল 2026 রেফারেন্স রান থেকে একটি যৌগিক স্কোর পাওয়া গেছে 99.12% প্রি-রেজিস্টার্ড পনেরো-কেস রুব্রিকে। উভয় hyperdiagnosis ফাঁদ কেসই সর্বোচ্চ সীমায় স্কোর করেছে। আয়রন-ঘাটতি বনাম থ্যালাসেমিয়া ডিফারেনশিয়ালে Mentzer index সঠিকভাবে প্রয়োগ করা হয়েছিল।.
যৌগিক সূত্রটি তিনটি উপাদানকে একত্র করে: স্ট্রাকচারাল সামঞ্জস্য সাতটি বাধ্যতামূলক রিপোর্ট সেকশন এবং ষোলটি বাধ্যতামূলক সাবসেকশনসহ, ক্লিনিক্যাল নির্ভুলতা পরিমাপ করা হয় keyword recall + scoring-system recall + probability-distribution validity check দিয়ে, এবং রেসপন্স লেটেন্সি ২০ সেকেন্ডের প্রধান primary-path সার্ভিস-লেভেল টার্গেটের বিপরীতে। নিচের রুব্রিক সূত্রে সঠিক বিশ্লেষণ দেখানো আছে।.
মাথার জায়গার বাকি ০.৮৮ শতাংশ পয়েন্ট প্রায় পুরোপুরি লেটেন্সি ক্ষতিতে ভেঙে যায়—প্রতি বার ০.০৫ করে তিনটি ফেজ ২ ফallback আহ্বান মিলিয়ে ০.৮৮-পয়েন্ট ঘাটতির প্রায় ০.৬০ অবদান রেখেছে—ক্লিনিক্যাল কনটেন্টে নয়। ইঞ্জিনটি পনেরোটি কেসের কোনো একটিতেই সঠিক রোগ নির্ণয় মিস করেনি; যেখানে ঘাটতি ছিল, সেখানে তা হয়েছে অল্প কিছু আহ্বানে ২০ সেকেন্ডের প্রাইমারি-পাথ লক্ষ্যমাত্রার চেয়ে সামান্য বেশি সময় নেওয়ার মাধ্যমে।.
সাতটি চিকিৎসা বিশেষত্ব জুড়ে পনেরোটি কেস
কেস প্যানেলে সাতটি বিশেষত্ব রয়েছে—হেমাটোলজি, এন্ডোক্রিনোলজি, মেটাবলিক মেডিসিন, হেপাটোলজি, নেফ্রোলজি, কার্ডিওলজি, রিউমাটোলজি—এছাড়া দুইটি নিবেদিত হাইপারডায়াগনোসিস ট্র্যাপ কেসও আছে। প্রতিটি কেস হলো লিখিত অবগত সম্মতির অধীনে ১TP6T ক্লিনিক্যাল ডেটা রিপোজিটরি থেকে নেওয়া একটি বেনামীকৃত বাস্তব রোগীর রেকর্ড।.
ডি-আইডেন্টিফিকেশন করা হয়েছে Safe Harbor পদ্ধতিতে: সব সরাসরি শনাক্তকারী অপসারণ বা প্রতিস্থাপন করা হয়, এবং প্রতিটি রেকর্ডকে BT-NNN-LABEL ফরম্যাটে একটি বেঞ্চমার্ক-ইন্টারনাল কেস কোড দেওয়া হয়। প্রসেসিং করা হয়েছে GDPR Article 9(2)(j) উপযুক্ত সুরক্ষা ব্যবস্থাসহ বৈজ্ঞানিক গবেষণার জন্য, এবং সমতুল্য UK GDPR বিধান অনুযায়ী। প্রকাশিত হ্যারনেস, টেকনিক্যাল রিপোর্ট, বা রিলিজড ডেটাসেট—কোথাও কোনো ব্যক্তিগতভাবে শনাক্তযোগ্য তথ্য দেখা যায় না।.
কেন এই নির্দিষ্ট বণ্টন
বাস্তব-জগতের ল্যাবরেটরি চর্চায় সর্বোচ্চ-ভলিউমের ফাঁদ হিসেবে মাইক্রোসাইটিক ডিফারেনশিয়াল এবং ম্যাক্রোসাইটিক ডিফারেনশিয়াল থাকায় হেমাটোলজি তিনটি কেস পায়। হ্যাশিমোটো, PCOS, এবং ভিটামিন ডি এর অভাব—এই উপস্থাপনাগুলো ভিন্ন ভিন্ন ডায়াগনস্টিক আকার অনুশীলন করায় (অটোঅ্যান্টিবডি-চালিত, হরমোন-অনুপাত-চালিত, একক-মার্কার-চালিত) এন্ডোক্রিনোলজি তিনটি কেস পায়। একক-কেসের বিশেষত্বগুলো এখনো তাৎপর্যপূর্ণ, কারণ CKD, ASCVD ঝুঁকি, এবং SLE—প্রতিটিরই নিজস্ব স্কোরিং সিস্টেম আছে, যা ইঞ্জিনকে আহ্বান করা উচিত (ক্রমশ KDIGO স্টেজিং, ASCVD ১০-বছরের ঝুঁকি, এবং ২০১৯ EULAR/ACR SLE মানদণ্ড)।.
প্রি-রেজিস্টার্ড রুব্রিক, ব্যাখ্যাসহ
এই বেঞ্চমার্কে প্রি-রেজিস্ট্রেশনই এককভাবে সবচেয়ে গুরুত্বপূর্ণ পদ্ধতিগত সিদ্ধান্ত। প্রত্যাশিত প্রতিটি ডায়াগনসিস, প্রতিটি ক্লিনিক্যাল স্কোরিং সিস্টেম, এবং প্রতিটি রিপোর্ট সেকশন সোর্স কোডে কমিট করা হয়েছিল ইঞ্জিন আহ্বান করার আগেই. । তাই ইঞ্জিনকে খুশি করার জন্য রুব্রিকের পোস্ট-হক টিউনিং করা অসম্ভব।.
কম্পোজিট স্কোর গঠনে তিনটি উপাদান আছে। কাঠামোগত উপাদান ৩৫ শতাংশ অবদান রাখে এবং ইঞ্জিনটি সাতটি বাধ্যতামূলক রিপোর্ট সেকশন (হেডার, সারাংশ, মূল ফলাফল, ডিফারেনশিয়াল, স্কোরিং সিস্টেম, সুপারিশ, ফলো-আপ) এবং এগুলোর ভেতরে থাকা ষোলটি বাধ্যতামূলক সাবসেকশন ফিরিয়ে দিয়েছে কি না তা মাপে। সেকশন উপস্থিতি কাঠামোগত গণনায় ৪০ শতাংশ ও সাবসেকশন উপস্থিতি ৬০ শতাংশ ওজন বহন করে।.
দ্য ক্লিনিক্যাল উপাদান ৫৫ শতাংশ অবদান রাখে এবং তিনটি বিষয়কে একত্র করে: ডায়াগনসিস-কীওয়ার্ড রিকল (ক্লিনিক্যাল সাব-স্কোরের ৭০ শতাংশ), স্কোরিং-সিস্টেম রিকল (২০ শতাংশ—প্রাসঙ্গিক হলে ইঞ্জিন কি Mentzer, FIB-4, HOMA-IR, ASCVD ঝুঁকি, KDIGO স্টেজিং, EULAR/ACR মানদণ্ড গণনা করে), এবং সম্ভাব্যতা-সম বৈধতা যাচাই (১০ শতাংশ—ডিফারেনশিয়াল সম্ভাব্যতাগুলো [৯০, ১১০] অন্তর্ভুক্তির মধ্যে যোগফল হওয়া উচিত)। ফাঁদ কেসগুলোর জন্য সর্বোচ্চ ০.৩০ পর্যন্ত একটি স্পষ্ট হাইপারডায়াগনসিস পেনাল্টি কাটা হয়—প্রতি বানানো প্যাথলজি ফ্ল্যাগে ০.১০ করে গণনা, এবং সর্বোচ্চ তিনটি ফ্ল্যাগে সীমাবদ্ধ।.
দ্য লেটেন্সি উপাদান ১০ শতাংশ অবদান রাখে। ২০ সেকেন্ডের কমে উত্তর দিলে পূর্ণ ০.১০, ৪০ সেকেন্ডের কমে হলে ০.০৫, এবং এর চেয়ে ধীর হলে শূন্য। ২০ সেকেন্ডের লক্ষ্যটি প্রোডাকশন প্রাইমারি-পাথ সার্ভিস-লেভেল উদ্দেশ্যকে প্রতিফলিত করে; ৪০ সেকেন্ডের সীমা ভারী-ইঞ্জিন আহ্বানের জন্য ফেজ ২-এর ব্যাকআপ বাজেটকে প্রতিফলিত করে।.
প্রি-রেজিস্ট্রেশন কী প্রতিরোধ করে
ফার্স্ট-পার্টি বেঞ্চমার্কগুলো পোস্ট-হক রুব্রিক টিউনিংয়ের মাধ্যমে নিজেদের সংখ্যা ফুলিয়ে দেওয়ার জন্য কুখ্যাত। প্যাটার্নটা প্রায় সবসময় একই: দল ইঞ্জিন চালায়, কোথায় কম পারফর্ম করছে দেখে, তারপর নীরবে রুব্রিক এমনভাবে সামঞ্জস্য করে যাতে কম পারফর্ম করা ক্ষেত্রগুলোর ওজন কমে যায়। প্রথম ইঞ্জিন কলের আগে রুব্রিককে সোর্স কোডে কমিট করা এবং MIT লাইসেন্সের অধীনে হারনেস প্রকাশ করার ফলে এই সামঞ্জস্য ভার্সন কন্ট্রোলে দৃশ্যমান হয়ে ওঠে। যে কেউ রিপোজিটরি ক্লোন করতে পারে, রুব্রিক লেখকের তারিখ যাচাই করতে পারে, এবং নিশ্চিত করতে পারে যে ইঞ্জিনের ফলাফল স্কোরিংকে গঠন করতে ব্যবহার করা হয়নি।.
হাইপারডায়াগনোসিস ট্র্যাপ কেস — কেন অতিরিক্ত ডাকাই আসল ব্যর্থতার ধরন
স্বাভাবিক স্ক্রিনে প্যাথলজি নিয়ে আক্রমণাত্মকভাবে অতিরিক্ত কল করা কনজিউমার-ফেসিং মেডিক্যাল অ্যাসিস্ট্যান্টদের নথিভুক্ত ব্যর্থতার ধরন। এর পরবর্তী খরচগুলোর মধ্যে রয়েছে অপ্রয়োজনীয় তদন্ত, রোগীর উদ্বেগ, এবং চিকিৎসাজনিত (iatrogenic) ওয়ার্কআপ। এই বেঞ্চমার্কের দুইটি ফাঁদ কেস এমনভাবে ডিজাইন করা হয়েছে যাতে এই ব্যর্থতার ধরন দৃশ্যমান এবং স্কোরযোগ্য হয়।.
🟡 ফাঁদ ১ — BT-014-GILBERT
উপস্থাপনা।. মোট বিলিরুবিন ২.৪ mg/dL সহ ২৪ বছর বয়সী একজন পুরুষ। ডাইরেক্ট অংশ স্বাভাবিক, ট্রান্সঅ্যামিনেজ এবং অ্যালকালাইন ফসফাটেজ তাদের রেফারেন্স রেঞ্জের ভেতরে আছে, রেটিকুলোসাইটগুলো উল্লেখযোগ্য নয়, এবং হ্যাপ্টোগ্লোবিন ও LDH হিমোলাইসিসকে বাদ দেয়।.
সঠিক ব্যাখ্যা।. গিলবার্টের সিন্ড্রোম—একটি সুশীল UGT1A1 পলিমরফিজম। ব্যাখ্যায় হেপাটাইটিস, সিরোসিস, হিমোলাইটিক অ্যানিমিয়া, বা বিলিয়ারি অবস্ট্রাকশন আহ্বান করা উচিত নয়।.
V11 ফলাফল।. কম্পোজিট 1.000। ছয়টি পর্যবেক্ষিত অতিরিক্ত-ডায়াগনসিস ফ্ল্যাগের কোনোটিই সক্রিয় ডায়াগনসিস হিসেবে দেখা যায়নি।.
🟡 ফাঁদ ২ — BT-015-HEALTHY
উপস্থাপনা।. পনেরো-প্যারামিটারের একটি নিয়মিত স্ক্রিনিং প্যানেলসহ ৩৫ বছর বয়সী একজন নারী। প্রতিটি অ্যানালাইটই তার রেফারেন্স রেঞ্জের ভেতরে স্বাচ্ছন্দ্যে অবস্থান করছে।.
সঠিক ব্যাখ্যা।. আশ্বাস প্রদান এবং জীবনযাত্রা বজায় রাখা। ব্যাখ্যাটি এমন কোনো সীমান্তবর্তী রোগতত্ত্ব তৈরি করবে না যা ক্লিনিক্যালভাবে উপকারী শোনানোর জন্য বানানো হয়েছে।.
V11 ফলাফল।. কম্পোজিট 1.000। সাতটি পর্যবেক্ষিত অতিরিক্ত-রোগ নির্ণয়ের (over-diagnosis) কোনো ফ্ল্যাগ—ডায়াবেটিস, রক্তাল্পতা, হাইপোথাইরয়েডিজম, ডিসলিপিডেমিয়া, হেপাটাইটিস, কিডনি রোগ, অভাব—সক্রিয় রোগ নির্ণয় হিসেবে দেখা যায়নি।.
উভয় ট্র্যাপে মোট তেরোটি পর্যবেক্ষিত হাইপারডায়াগনোসিস ফ্ল্যাগ পরীক্ষা করা হয়েছিল। কোনোটি ট্রিগার হয়নি। যে ফলাফলটি যে কোনো চিকিৎসকের জন্য সবচেয়ে বেশি গুরুত্বপূর্ণ, যিনি AI ইঞ্জিনকে ট্রায়াজ বা প্রি-কনসাল্টেশন টুল হিসেবে ব্যবহার করার কথা ভাবছেন: সিস্টেম কোনো রোগ উদ্ভাবন করেনি যেখানে রোগ ছিল না.
মেন্টজার ইনডেক্স: আয়রন ডেফিসিয়েন্সি থেকে থ্যালাসেমিয়া ট্রেইট আলাদা করা
আরেকটি উচ্চ-মূল্যের সন্ধান হলো কেস BT-001 (আয়রন ডেফিসিয়েন্সি অ্যানিমিয়া) এবং কেস BT-007 (বিটা-থ্যালাসেমিয়া মাইনর)-এর জোড়া। উভয় ক্ষেত্রেই মাইক্রোসাইটোসিস দেখা যায় এবং এটি নবীন ক্লাসিফায়ারদের জন্য সুপরিচিত একটি বাধা। মেন্টজার সূচক, যা MCV কে RBC গণনা দিয়ে ভাগ করে হিসাব করা হয়, আয়রন ডেফিসিয়েন্সিতে ১৩-এর বেশি এবং থ্যালাসেমিয়া ট্রেইটে ১৩-এর নিচে থাকে।.
BT-001-এ রোগী ছিলেন ৩৪ বছর বয়সী একজন নারী, হিমোগ্লোবিন 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ফেরিটিন 6 ng/mL, এবং TIBC বৃদ্ধি ছিল। প্রায় ১৭.৭ মেন্টজার সূচকটি নিশ্চিত করে যে এটি সুনির্দিষ্ট (absolute) আয়রন ডেফিসিয়েন্সি। BT-007-এ রোগী ছিলেন ২৮ বছর বয়সী একজন পুরুষ, মাইক্রোসাইটোসিস (MCV 65.8 fL) ছিল কিন্তু RBC গণনা ছিল বেশি 6.2, RDW স্বাভাবিক, ফেরিটিন স্বাভাবিক, এবং HbA2 ছিল ৫.৬ শতাংশ। প্রায় ১০.৬ মেন্টজার সূচকটি থ্যালাসেমিয়া ট্রেইটের দিকে ইঙ্গিত করে, এবং বৃদ্ধি পাওয়া HbA2 বিটা-থ্যালাসেমিয়া মাইনর নিশ্চিত করে।.
উভয় কেসই 1.000 স্কোর করেছে। ইঞ্জিন উভয় ব্যাখ্যায় মেন্টজার সূচকটি স্পষ্টভাবে ব্যবহার করেছে এবং প্রতিটি ক্ষেত্রেই সঠিক রোগ নির্ণয় ফিরিয়ে দিয়েছে।. পুরো বেঞ্চমার্কে এটি এককভাবে সবচেয়ে বেশি ক্লিনিক্যালি আশ্বাসদায়ক ফলাফল, কারণ থ্যালাসেমিয়া ট্রেইটকে আয়রন ডেফিসিয়েন্সি হিসেবে ভুল শ্রেণিবদ্ধ করলে অনুপযুক্ত আয়রন সাপ্লিমেন্টেশন হয় এবং পারিবারিক স্ক্রিনিংয়ের সুযোগ মিস হয়; আর আয়রন ডেফিসিয়েন্সিকে থ্যালাসেমিয়া হিসেবে ভুল শ্রেণিবদ্ধ করলে সহজ সরল রিপ্লেসমেন্ট থেরাপি দেরিতে শুরু হয়। আমাদের ফেরিটিন রেঞ্জ গাইড বৃহত্তর ডিফারেনশিয়াল প্রেক্ষাপট ব্যাখ্যা করে।.
এপ্রিল ২০২৬ রান থেকে প্রতি-কেস ফলাফল
পনেরোটি কেসের মধ্যে বারোটি প্রাইমারি পাথে সর্বোচ্চ কম্পোজিট স্কোর 1.000 অর্জন করেছে। তিনটি কেস Phase 2 fallback-এর মাধ্যমে পরিবেশন করা হয়েছিল, ফলে 0.05 লেটেন্সি বোনাস হারালেও সব ক্লিনিক্যাল ও কাঠামোগত কনটেন্ট অক্ষুণ্ণ ছিল। একটি কেসে একটি একক বাধ্যতামূলক সাবসেকশন অনুপস্থিত ছিল; একটি কেসে সম্ভাব্যতার (probability) যোগফল সামান্য কমে যাওয়া অবস্থায় ফিরে এসেছে।.
PCOS কেসটি (BT-008) প্রতিক্রিয়া কাঠামোতে একটি বাধ্যতামূলক উপ-সেকশন হারিয়েছে—ষোলটির মধ্যে পনেরোটি পরিবর্তে ষোলটির মধ্যে ষোলটি—যার ফলে কাঠামোগত স্কোর 1.000 থেকে 0.963 এ নেমে আসে। SLE কেসটি (BT-011) একটি সামান্য কমে যাওয়া সম্ভাব্যতা-বণ্টন সম ফেরত দেয়, যা ডায়াগনস্টিক স্কোরকে 0.965 এ নামিয়ে আনে, তবে প্রতিটি ডায়াগনস্টিক কীওয়ার্ড এবং স্কোরিং সিস্টেম অক্ষুণ্ণ রাখে। কোনো সাব-পারফেক্ট কেসই সঠিক রোগ নির্ণয় মিস করেনি।.
হেডলাইন স্কোর আমাদের কী বলে না
এই নির্দিষ্ট প্রি-রেজিস্টার্ড রুব্রিকের অধীনে 99.12 শতাংশের একটি যৌগিক স্কোর প্রায়-সিলিং পারফরম্যান্স নির্দেশ করে, কিন্তু এটিকে সতর্কভাবে প্রেক্ষাপটে রাখা দরকার। ফলাফলটি ইঞ্জিনের আচরণকে পনেরোটি সাবধানে নির্বাচিত বেনামী কেসের বিপরীতে বর্ণনা করে—প্রতিটি কেস একবার করে—একটি একক রুব্রিকের অধীনে। আমরা স্পষ্ট করে বলছি, সংখ্যাটি কী প্রতিষ্ঠা করে এবং কী করে না।.
স্কোরটি বলে যে V11 ইঞ্জিনটি এই মূল্যায়নের জন্য নির্বাচিত ডায়াগনস্টিক প্যাটার্নগুলো সঠিকভাবে পরিচালনা করেছে—একটি প্রকাশিত এবং পুনরুত্পাদনযোগ্য পদ্ধতিতে। এটি বলে না যে বন্য পরিবেশে বিদ্যমান প্রতিটি রক্ত পরীক্ষার প্যানেলে ইঞ্জিনটি সঠিক। এটি বলে না যে ইঞ্জিনটি চিকিৎসকের সিদ্ধান্তকে প্রতিস্থাপন করা উচিত। এবং এটি বলে না যে ইঞ্জিনটি বিকল্প এআই সিস্টেমগুলোর চেয়ে ভালো—অন্য ইঞ্জিনগুলোর সঙ্গে তুলনামূলক বিশ্লেষণ ইচ্ছাকৃতভাবে এই প্রতিবেদনের আওতার বাইরে রাখা হয়েছে।.
স্কোরটি যা প্রতিষ্ঠা করে তা হলো একটি বেসলাইন। রুব্রিক এবং হারনেস প্রকাশ্য হওয়ায়, ইঞ্জিনের ভবিষ্যৎ সংস্করণগুলো একই পনেরোটি কেসের বিপরীতে মূল্যায়ন করা যাবে, এবং প্রকাশিত স্কোর ও পরবর্তী যেকোনো রান-এর মধ্যে ব্যবধান নিজেই পরিমাপযোগ্য। প্রি-রেজিস্ট্রেশনের মূল্য এখানেই: এটি পারফরম্যান্স দাবিকে পরীক্ষাযোগ্য দাবিতে রূপান্তর করে.
১০ মিনিটে কীভাবে এই বেঞ্চমার্ক পুনরুত্পাদন করবেন
পুনরুত্পাদনের জন্য কেবল একটি Kantesti API credential pair এবং Python 3.10 বা পরবর্তী সংস্করণের একটি পরিবেশ প্রয়োজন, যেখানে requests এবং reportlab লাইব্রেরিগুলো ইনস্টল করা আছে। সম্পূর্ণ হারনেসটি MIT লাইসেন্সের অধীনে প্রকাশিত একটি একক, স্বয়ংসম্পূর্ণ Python মডিউল।.
একটি নতুন রান-এর জন্য চারটি ধাপ
এক।. রিপোজিটরি ক্লোন করুন: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. দুই।. requirements.txt ফাইল থেকে নির্ভরশীলতা ইনস্টল করুন pip install -r requirements.txt. তিন।. সেট করুন KANTESTI_USERNAME এবং KANTESTI_PASSWORD পরিবেশ ভেরিয়েবল হিসেবে—ক্রেডেনশিয়ালগুলো রানটাইমে পড়া হয় এবং স্ক্রিপ্টে কিছুই হার্ড-কোড করা থাকে না।. চার।. চালান python benchmark_bloodtest.py এবং কাজের ডিরেক্টরিতে নির্গত চারটি আর্টিফ্যাক্ট পরীক্ষা করুন: একটি CSV স্কোরকার্ড, একটি JSON স্কোরকার্ড, কাঁচা ইঞ্জিন রেসপন্সসহ একটি পূর্ণ JSON ডাম্প, এবং একটি মানুষের-পাঠযোগ্য Markdown রিপোর্ট।.
২৩ এপ্রিল ২০২৬-এর রেফারেন্স রানটি সংরক্ষিত আছে results/ রিপোজিটরির ডিরেক্টরিতে। একটি নতুন রান নতুন টাইমস্ট্যাম্পযুক্ত স্কোরকার্ড তৈরি করবে, কিন্তু রেফারেন্স রানটি অপরিবর্তিত থাকবে। আপনার রান যদি অর্থপূর্ণভাবে ভিন্ন ফল দেয়, অনুগ্রহ করে রান টাইমস্ট্যাম্প এবং রেসপন্স মেটাডেটায় ফেরত দেওয়া ইঞ্জিন ভার্সনসহ একটি GitHub issue খুলুন।.
সীমাবদ্ধতা এবং ভবিষ্যৎ কাজ
চারটি সীমাবদ্ধতা স্পষ্টভাবে স্বীকার করা দরকার: নমুনার আকার, একবারের মূল্যায়ন, একক-ইঞ্জিন পরিধি, এবং একক-উৎস ডেটা উৎপত্তি। এগুলো সক্রিয়ভাবে ফলো-আপ কাজের মাধ্যমে সমাধান করা হচ্ছে।.
নমুনার আকার।. আটটি বিশেষায়িত ক্যাটাগরিতে পনেরোটি কেস প্রুফ অব কনসেপ্টের জন্য যথেষ্ট, কিন্তু কোনো বিশেষায়িত ক্ষেত্রের ভেতরে সাবগ্রুপ বিশ্লেষণের জন্য নয়। পঞ্চাশটি কেসে সম্প্রসারণ পরিকল্পিত এবং এতে কোয়াগুলেশন প্যানেল, হেমাটোলজিক্যাল ম্যালিগন্যান্সি স্ক্রিনিং, প্রেগন্যান্সি প্যানেল এবং শিশু রোগীদের উপস্থাপনাগুলো অন্তর্ভুক্ত থাকবে।.
একবারের মূল্যায়ন।. প্রতিটি কেস একবারই মূল্যায়ন করা হয়েছে। এমনকি কম স্যাম্পলিং টেম্পারেচারেও বড় ভাষা মডেলগুলো উল্লেখযোগ্য আউটপুট ভ্যারিয়েন্স দেখায়, তাই প্রতি কেসে পাঁচটি মূল্যায়নসহ একটি বহু-রান প্রোটোকল এবং রিপোর্ট করা ভ্যারিয়েন্স পরবর্তী স্বাভাবিক ধাপ।.
একক-ইঞ্জিন পরিধি।. এই রিপোর্টটি একটি ইঞ্জিনকে বর্ণনা করে। বিকল্প AI সিস্টেমের সাথে তুলনামূলক বিশ্লেষণ এখানে আলোচনার বাইরে; উপযুক্ত পদ্ধতিসহ আমরা এগুলোকে একটি পৃথক স্বাধীন গবেষণা হিসেবে অনুসরণ করতে পারি।.
একক-উৎস ডেটা উৎপত্তি।. পনেরোটি কেসই একটি একক ক্লিনিক্যাল রিপোজিটরি থেকে নেওয়া বেনামীকৃত বাস্তব রোগীর রেকর্ড। এগুলো একটি কিউরেটেড নমুনা এবং জনসংখ্যা-প্রতিনিধিত্বশীল এলোমেলো নমুনা নয়। মূল্যায়নকে বহু-কেন্দ্রের ডেটায় সম্প্রসারণের পরিকল্পনা রোডম্যাপে রয়েছে।.
সবচেয়ে প্রভাবশালী পরিকল্পিত সম্প্রসারণ হলো বহু-ভাষার সমতা। Kantesti AI Engine 75+ ভাষায় ব্যবহারকারীদের সেবা দেয়, এবং তুর্কি, জার্মান, স্প্যানিশ, ফরাসি ও আরবিতে একই পনেরো-কেসের হারনেস চালালে ইঞ্জিনের সমর্থিত ভাষাগুলোর মধ্যে আউটপুট মানের পরিমাপ করা হবে। আমরা প্রতিটি ভাষাভিত্তিক রান তার নিজস্ব DOI এবং হারনেস ব্রাঞ্চসহ প্রকাশ করব।.