ক্লিনিক্যাল ভ্যালিডেশন প্রি-রেজিস্টার্ড বেঞ্চমার্ক V11 — এপ্রিল ২০২৬ MIT-লাইসেন্সড পিয়ার-ভেরিফায়েবল

Kantesti এআই ইঞ্জিন — রক্ত পরীক্ষার বেঞ্চমার্ক: সাতটি চিকিৎসা বিশেষত্ব জুড়ে ক্লিনিক্যাল ভ্যালিডেশন

১TP6T AI ইঞ্জিনের অজ্ঞাতনামা রক্ত পরীক্ষার কেসে একটি স্বাধীন, প্রি-রেজিস্টার্ড ক্লিনিক্যাল মূল্যায়ন। প্রথম ইঞ্জিন কলের আগেই সোর্স কোডে রুব্রিকটি স্থির করা হয়েছিল, মূল্যায়ন হ্যারনেসটি MIT-লাইসেন্সড, এবং প্রতিটি কাঁচা প্রতিক্রিয়া প্রকাশ করা হয়।.

📖 ~14 মিনিট 📅 ২৩ এপ্রিল, ২০২৬ 🔗 DOI: 10.6084/m9.figshare.32095435

📝 প্রকাশিত: ২৩ এপ্রিল, ২০২৬ 🩺 চিকিৎসাগতভাবে পর্যালোচিত: ২৩ এপ্রিল, ২০২৬ ✅ প্রি-রেজিস্টার্ড রুব্রিক 🔓 ওপেন কোড ও ডেটা

এই ক্লিনিক্যাল ভ্যালিডেশন স্টাডিটি পরিচালনা করেন ডঃ টমাস ক্লেইন, এমডি, Kantesti AI-এর চিফ মেডিক্যাল অফিসার, সহযোগিতায় জুলিয়ান এমিরহান বুলুত, Kantesti Ltd-এর সিনিয়র AI ইঞ্জিনিয়ার এবং CEO। পদ্ধতি ও রুব্রিক পর্যালোচনা করেছেন কান্তেস্তি এআই মেডিকেল উপদেষ্টা বোর্ড.

লিড অথর ও ক্লিনিক্যাল তত্ত্বাবধান

টমাস ক্লেইন, এমডি

প্রধান চিকিৎসা কর্মকর্তা, কান্তেস্তি এআই

ড. থমাস ক্লেইন একজন বোর্ড-সার্টিফাইড ক্লিনিক্যাল হেমাটোলজিস্ট এবং ইন্টারনিস্ট, ল্যাবরেটরি মেডিসিনে ১৫ বছরেরও বেশি অভিজ্ঞতা রয়েছে। Kantesti AI-এর চিফ মেডিক্যাল অফিসার হিসেবে, তিনি এই বেঞ্চমার্কের জন্য কেস প্যানেল নির্বাচন করেন, সব ডায়াগনস্টিক গ্রাউন্ড ট্রুথ পর্যালোচনা করেন, এবং প্রথম ইঞ্জিন আহ্বানের আগেই প্রি-রেজিস্টার্ড রুব্রিক অনুমোদন করেন।.

ORCID 0009-0009-1490-1321 রিসার্চগেট গুগল স্কলার

সহ-লেখক ও বাস্তবায়ন

জুলিয়ান এমিরহান বুলুত

সিনিয়র AI ইঞ্জিনিয়ার ও CEO, Kantesti Ltd

জুলিয়ান এমিরহান বুলুত Kantesti Ltd-এর প্রতিষ্ঠাতা এবং CEO। তিনি মূল্যায়ন হ্যারনেস ডিজাইন ও বাস্তবায়ন করেন, API ইন্টিগ্রেশন সম্পন্ন করেন, এপ্রিল ২০২৬-এর বেঞ্চমার্ক রান পরিচালনা করেন, এবং পরিসংখ্যানগত সমষ্টিকরণ প্রস্তুত করেন। ২০১৯ সাল থেকে প্ল্যাটফর্মের প্রতিষ্ঠাতা।.

GitHub কান্তেস্তি সম্পর্কে

⚡ দ্রুত সারসংক্ষেপ V11 — ২৩ এপ্রিল, ২০২৬

99.12% কম্পোজিট স্কোর সাতটি চিকিৎসা বিশেষত্ব জুড়ে ১৫টি বেনামী বাস্তব রোগীর রক্ত পরীক্ষার কেসে।.
শূন্য অতিরিক্ত রোগ নির্ণয়ের (হাইপারডায়াগনোসিস) ভুল-পজিটিভ উভয় ট্র্যাপ কেসে (গিলবার্টের সিনড্রোম এবং সম্পূর্ণ স্বাভাবিক প্রাপ্তবয়স্ক স্ক্রিন)।.
প্রি-রেজিস্টার্ড রুব্রিক প্রথম ইঞ্জিন কলের আগেই সোর্স কোডে স্থির করা — পোস্ট-হক টিউনিং সম্ভব ছিল না।.
মেনটজার ইনডেক্স সঠিকভাবে প্রয়োগ করা হয়েছে আয়রন ডেফিসিয়েন্সি অ্যানিমিয়া থেকে বিটা-থ্যালাসেমিয়া মাইনর আলাদা করতে।.
কেবল প্রোডাকশন এন্ডপয়েন্ট — কোনো বিশেষ সুবিধাপ্রাপ্ত রাউটিং নেই; ঠিক যেমন একজন অর্থ প্রদানকারী গ্রাহক অ্যাক্সেস করতেন, তেমনভাবেই মূল্যায়ন করা হয়েছে।.
গড় লেটেন্সি ২০.১৭ সেকেন্ড এন্ড-টু-এন্ড, যেখানে ১৫টির মধ্যে ১২টি কেস ২০-সেকেন্ডের প্রাইমারি-পাথ টার্গেটের মধ্যে ছিল।.
MIT-লাইসেন্সড হারনেস GitHub-এ প্রকাশিত, প্রতিটি কাঁচা ইঞ্জিন রেসপন্সসহ — স্বাধীনভাবে পুনরুত্পাদন সমর্থিত।.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub-এ মিরর করা হয়েছে।.

এই বেঞ্চমার্ক কেন আছে এবং এটি কী পরীক্ষা করে

এআই-সহায়তাপ্রাপ্ত রক্ত পরীক্ষার ফলাফল বোঝা ক্রমবর্ধমানভাবে ভোক্তা ও ক্লিনিক্যাল ওয়ার্কফ্লোতে ব্যবহৃত হচ্ছে, তবে ল্যাবরেটরি মেডিসিনের জন্য উপযোগী পুনরুত্পাদনযোগ্য মূল্যায়ন কাঠামো এখনো অস্বাভাবিক। এই প্রেক্ষাপটে সবচেয়ে গুরুত্বপূর্ণ প্রশ্নগুলো সাধারণ মেডিক্যাল প্রশ্নোত্তর বেঞ্চমার্কে যেগুলো কভার করা হয় সেগুলো নয়: যখন মীন কর্পাসকুলার ভলিউম (MCV) একই থাকে, তখন কি একটি ইঞ্জিন আয়রন ডেফিসিয়েন্সি থেকে থ্যালাসেমিয়া ট্রেইট আলাদা করতে পারে; গিলবার্টের সিনড্রোমকে কি হেপাটাইটিস হিসেবে অতিরিক্ত রোগ নির্ণয় করে; এবং সম্পূর্ণ স্বাভাবিক স্ক্রিনিং প্যানেলে কি প্যাথলজি “তৈরি” করে?

একটি একক রক্ত পরীক্ষার প্যানেলে সাধারণত একাধিক প্রতিযোগী ব্যাখ্যা সমর্থন করার মতো যথেষ্ট সংকেত থাকে, এবং ব্যাখ্যাকারী চিকিৎসকের কাজ হলো সেগুলোকে পাঠ্যবইয়ের একক “সঠিক উত্তর” খুঁজে বের করার বদলে পরস্পরের সঙ্গে তুলনা করে ওজন দেওয়া। যে ইঞ্জিন পাঠ্যবইয়ের কেসে ভালো করে, সেটি তবু সবচেয়ে গুরুত্বপূর্ণ কেসে ব্যর্থ হতে পারে: ডিফারেনশিয়াল-ডায়াগনোসিসের ফাঁদ, একা দেখলে উদ্বেগজনক মনে হওয়া নিরীহ ভ্যারিয়েন্ট, এবং পুরোপুরি স্বাভাবিক প্যানেল—যেগুলো আত্মবিশ্বাসী সহকারীকে প্যাথলজি “তৈরি” করতে প্রলুব্ধ করে।.

এই বেঞ্চমার্কটি ঠিক এই ব্যর্থতার ধরনগুলোকেই কেন্দ্র করে তৈরি করা হয়েছিল। পনেরোটি কেসের প্রতিটিকে একটি নির্দিষ্ট ডায়াগনস্টিক বৈশিষ্ট্যের জন্য বাছাই করা হয়: আয়রন-ঘাটতিজনিত মাইক্রোসাইটোসিস, যেটিকে একই mean corpuscular volume থাকা beta-thalassaemia trait থেকে আলাদা রাখতে হবে; Gilbert's syndrome-এর উপস্থাপনা, যেখানে একমাত্র অস্বাভাবিকতা হলো বিচ্ছিন্ন indirect hyperbilirubinaemia; এবং একটি পনেরো-প্যারামিটারের স্ক্রিনিং প্যানেল, যেখানে প্রতিটি অ্যানালাইটই তার রেফারেন্স রেঞ্জের ভেতরে থাকে। রুব্রিক এমন ইঞ্জিনকে পুরস্কৃত করে যেগুলো প্রতিটি কেসকে নিজের শর্তে পড়ে, এবং এমন ইঞ্জিনকে শাস্তি দেয় যেগুলো এমন ক্ষেত্রে আত্মবিশ্বাসী ডায়াগনোসিসে পৌঁছে যায় যেখানে সেই ডায়াগনোসিসের কোনো ভিত্তি নেই।.

ড. থমাস ক্লেইন হিসেবে, আমি কেস প্যানেলটি বেছে নিয়েছি কারণ এগুলোই সেই প্যাটার্ন যেগুলো ল্যাবরেটরি-মেডিসিন সহকারীরা সবচেয়ে বেশি ভুল করে।. ব্যয়বহুল ব্যর্থতার ধরনটি "দুর্লভ রোগ মিস করা" নয়—এটি এমন রোগীদের মধ্যে নিয়মিত প্যাথলজি বানিয়ে ফেলা, যাদের সেটি নেই।. আমাদের মেডিকেল ভ্যালিডেশন hub বৃহত্তর কাঠামো বর্ণনা করে; এই পৃষ্ঠাটি V11 ইঞ্জিনে এর প্রয়োগকৃত ফলাফল বর্ণনা করে।.

সর্বশেষ রেফারেন্স রান — V11 (এপ্রিল ২০২৬)

Kantesti AI Engine V11-এর এপ্রিল 2026 রেফারেন্স রান থেকে একটি যৌগিক স্কোর পাওয়া গেছে 99.12% প্রি-রেজিস্টার্ড পনেরো-কেস রুব্রিকে। উভয় hyperdiagnosis ফাঁদ কেসই সর্বোচ্চ সীমায় স্কোর করেছে। আয়রন-ঘাটতি বনাম থ্যালাসেমিয়া ডিফারেনশিয়ালে Mentzer index সঠিকভাবে প্রয়োগ করা হয়েছিল।.

যৌগিক 99.12% ১৫ এর মধ্যে ১৫ কেস স্কোর করেছে

0.998 স্ট্রাকচারাল স্কোর

0.998 ক্লিনিক্যাল স্কোর

20.17 সেকেন্ড গড় লেটেন্সি

0 / 13 ফাঁদ-সদৃশ ভুল পজিটিভ

যৌগিক সূত্রটি তিনটি উপাদানকে একত্র করে: স্ট্রাকচারাল সামঞ্জস্য সাতটি বাধ্যতামূলক রিপোর্ট সেকশন এবং ষোলটি বাধ্যতামূলক সাবসেকশনসহ, ক্লিনিক্যাল নির্ভুলতা পরিমাপ করা হয় keyword recall + scoring-system recall + probability-distribution validity check দিয়ে, এবং রেসপন্স লেটেন্সি ২০ সেকেন্ডের প্রধান primary-path সার্ভিস-লেভেল টার্গেটের বিপরীতে। নিচের রুব্রিক সূত্রে সঠিক বিশ্লেষণ দেখানো আছে।.

যৌগিক = 0.35 × স্ট্রাকচারাল + 0.55 × ক্লিনিক্যাল + 0.10 × লেটেন্সি

মাথার জায়গার বাকি ০.৮৮ শতাংশ পয়েন্ট প্রায় পুরোপুরি লেটেন্সি ক্ষতিতে ভেঙে যায়—প্রতি বার ০.০৫ করে তিনটি ফেজ ২ ফallback আহ্বান মিলিয়ে ০.৮৮-পয়েন্ট ঘাটতির প্রায় ০.৬০ অবদান রেখেছে—ক্লিনিক্যাল কনটেন্টে নয়। ইঞ্জিনটি পনেরোটি কেসের কোনো একটিতেই সঠিক রোগ নির্ণয় মিস করেনি; যেখানে ঘাটতি ছিল, সেখানে তা হয়েছে অল্প কিছু আহ্বানে ২০ সেকেন্ডের প্রাইমারি-পাথ লক্ষ্যমাত্রার চেয়ে সামান্য বেশি সময় নেওয়ার মাধ্যমে।.

সাতটি চিকিৎসা বিশেষত্ব জুড়ে পনেরোটি কেস

কেস প্যানেলে সাতটি বিশেষত্ব রয়েছে—হেমাটোলজি, এন্ডোক্রিনোলজি, মেটাবলিক মেডিসিন, হেপাটোলজি, নেফ্রোলজি, কার্ডিওলজি, রিউমাটোলজি—এছাড়া দুইটি নিবেদিত হাইপারডায়াগনোসিস ট্র্যাপ কেসও আছে। প্রতিটি কেস হলো লিখিত অবগত সম্মতির অধীনে ১TP6T ক্লিনিক্যাল ডেটা রিপোজিটরি থেকে নেওয়া একটি বেনামীকৃত বাস্তব রোগীর রেকর্ড।.

ডি-আইডেন্টিফিকেশন করা হয়েছে Safe Harbor পদ্ধতিতে: সব সরাসরি শনাক্তকারী অপসারণ বা প্রতিস্থাপন করা হয়, এবং প্রতিটি রেকর্ডকে BT-NNN-LABEL ফরম্যাটে একটি বেঞ্চমার্ক-ইন্টারনাল কেস কোড দেওয়া হয়। প্রসেসিং করা হয়েছে GDPR Article 9(2)(j) উপযুক্ত সুরক্ষা ব্যবস্থাসহ বৈজ্ঞানিক গবেষণার জন্য, এবং সমতুল্য UK GDPR বিধান অনুযায়ী। প্রকাশিত হ্যারনেস, টেকনিক্যাল রিপোর্ট, বা রিলিজড ডেটাসেট—কোথাও কোনো ব্যক্তিগতভাবে শনাক্তযোগ্য তথ্য দেখা যায় না।.

হেমাটোলজি (৩) BT-001, BT-006, BT-007 আয়রন ডেফিসিয়েন্সি অ্যানিমিয়া · B12 এর অভাব · বিটা-থ্যালাসেমিয়া মাইনর

এন্ডোক্রিনোলজি (৩) BT-002, BT-008, BT-012 হাশিমোটোর থাইরয়েডাইটিস · ইনসুলিন রেজিস্ট্যান্সসহ PCOS · তীব্র ভিটামিন ডি এর অভাব

মেটাবলিক (২) BT-003, BT-013 মেটাবলিক সিনড্রোমসহ T2DM · গাউটের ঝুঁকিসহ হাইপারইউরিকেমিয়া

হেপাটোলজি (২) BT-004, BT-009 NAFLD / NASH · তীব্র ভাইরাল হেপাটাইটিস

নেফ্রোলজি · কার্ডিওলজি · রিউমাটোলজি (৩) BT-005, BT-010, BT-011 CKD স্টেজ ৩ · অ্যাথেরোজেনিক ডিসলিপিডেমিয়া · সিস্টেমিক লুপাস এরিথেমাটোসাস

ট্র্যাপ কেস (২) BT-014, BT-015 গিলবার্টস সিনড্রোম (একাকী ইনডাইরেক্ট হাইপারবিলিরুবিনেমিয়া) · সম্পূর্ণ স্বাভাবিক প্রাপ্তবয়স্ক স্ক্রিন

কেন এই নির্দিষ্ট বণ্টন

বাস্তব-জগতের ল্যাবরেটরি চর্চায় সর্বোচ্চ-ভলিউমের ফাঁদ হিসেবে মাইক্রোসাইটিক ডিফারেনশিয়াল এবং ম্যাক্রোসাইটিক ডিফারেনশিয়াল থাকায় হেমাটোলজি তিনটি কেস পায়। হ্যাশিমোটো, PCOS, এবং ভিটামিন ডি এর অভাব—এই উপস্থাপনাগুলো ভিন্ন ভিন্ন ডায়াগনস্টিক আকার অনুশীলন করায় (অটোঅ্যান্টিবডি-চালিত, হরমোন-অনুপাত-চালিত, একক-মার্কার-চালিত) এন্ডোক্রিনোলজি তিনটি কেস পায়। একক-কেসের বিশেষত্বগুলো এখনো তাৎপর্যপূর্ণ, কারণ CKD, ASCVD ঝুঁকি, এবং SLE—প্রতিটিরই নিজস্ব স্কোরিং সিস্টেম আছে, যা ইঞ্জিনকে আহ্বান করা উচিত (ক্রমশ KDIGO স্টেজিং, ASCVD ১০-বছরের ঝুঁকি, এবং ২০১৯ EULAR/ACR SLE মানদণ্ড)।.

প্রি-রেজিস্টার্ড রুব্রিক, ব্যাখ্যাসহ

এই বেঞ্চমার্কে প্রি-রেজিস্ট্রেশনই এককভাবে সবচেয়ে গুরুত্বপূর্ণ পদ্ধতিগত সিদ্ধান্ত। প্রত্যাশিত প্রতিটি ডায়াগনসিস, প্রতিটি ক্লিনিক্যাল স্কোরিং সিস্টেম, এবং প্রতিটি রিপোর্ট সেকশন সোর্স কোডে কমিট করা হয়েছিল ইঞ্জিন আহ্বান করার আগেই. । তাই ইঞ্জিনকে খুশি করার জন্য রুব্রিকের পোস্ট-হক টিউনিং করা অসম্ভব।.

কম্পোজিট স্কোর গঠনে তিনটি উপাদান আছে। কাঠামোগত উপাদান ৩৫ শতাংশ অবদান রাখে এবং ইঞ্জিনটি সাতটি বাধ্যতামূলক রিপোর্ট সেকশন (হেডার, সারাংশ, মূল ফলাফল, ডিফারেনশিয়াল, স্কোরিং সিস্টেম, সুপারিশ, ফলো-আপ) এবং এগুলোর ভেতরে থাকা ষোলটি বাধ্যতামূলক সাবসেকশন ফিরিয়ে দিয়েছে কি না তা মাপে। সেকশন উপস্থিতি কাঠামোগত গণনায় ৪০ শতাংশ ও সাবসেকশন উপস্থিতি ৬০ শতাংশ ওজন বহন করে।.

দ্য ক্লিনিক্যাল উপাদান ৫৫ শতাংশ অবদান রাখে এবং তিনটি বিষয়কে একত্র করে: ডায়াগনসিস-কীওয়ার্ড রিকল (ক্লিনিক্যাল সাব-স্কোরের ৭০ শতাংশ), স্কোরিং-সিস্টেম রিকল (২০ শতাংশ—প্রাসঙ্গিক হলে ইঞ্জিন কি Mentzer, FIB-4, HOMA-IR, ASCVD ঝুঁকি, KDIGO স্টেজিং, EULAR/ACR মানদণ্ড গণনা করে), এবং সম্ভাব্যতা-সম বৈধতা যাচাই (১০ শতাংশ—ডিফারেনশিয়াল সম্ভাব্যতাগুলো [৯০, ১১০] অন্তর্ভুক্তির মধ্যে যোগফল হওয়া উচিত)। ফাঁদ কেসগুলোর জন্য সর্বোচ্চ ০.৩০ পর্যন্ত একটি স্পষ্ট হাইপারডায়াগনসিস পেনাল্টি কাটা হয়—প্রতি বানানো প্যাথলজি ফ্ল্যাগে ০.১০ করে গণনা, এবং সর্বোচ্চ তিনটি ফ্ল্যাগে সীমাবদ্ধ।.

দ্য লেটেন্সি উপাদান ১০ শতাংশ অবদান রাখে। ২০ সেকেন্ডের কমে উত্তর দিলে পূর্ণ ০.১০, ৪০ সেকেন্ডের কমে হলে ০.০৫, এবং এর চেয়ে ধীর হলে শূন্য। ২০ সেকেন্ডের লক্ষ্যটি প্রোডাকশন প্রাইমারি-পাথ সার্ভিস-লেভেল উদ্দেশ্যকে প্রতিফলিত করে; ৪০ সেকেন্ডের সীমা ভারী-ইঞ্জিন আহ্বানের জন্য ফেজ ২-এর ব্যাকআপ বাজেটকে প্রতিফলিত করে।.

প্রি-রেজিস্ট্রেশন কী প্রতিরোধ করে

ফার্স্ট-পার্টি বেঞ্চমার্কগুলো পোস্ট-হক রুব্রিক টিউনিংয়ের মাধ্যমে নিজেদের সংখ্যা ফুলিয়ে দেওয়ার জন্য কুখ্যাত। প্যাটার্নটা প্রায় সবসময় একই: দল ইঞ্জিন চালায়, কোথায় কম পারফর্ম করছে দেখে, তারপর নীরবে রুব্রিক এমনভাবে সামঞ্জস্য করে যাতে কম পারফর্ম করা ক্ষেত্রগুলোর ওজন কমে যায়। প্রথম ইঞ্জিন কলের আগে রুব্রিককে সোর্স কোডে কমিট করা এবং MIT লাইসেন্সের অধীনে হারনেস প্রকাশ করার ফলে এই সামঞ্জস্য ভার্সন কন্ট্রোলে দৃশ্যমান হয়ে ওঠে। যে কেউ রিপোজিটরি ক্লোন করতে পারে, রুব্রিক লেখকের তারিখ যাচাই করতে পারে, এবং নিশ্চিত করতে পারে যে ইঞ্জিনের ফলাফল স্কোরিংকে গঠন করতে ব্যবহার করা হয়নি।.

হাইপারডায়াগনোসিস ট্র্যাপ কেস — কেন অতিরিক্ত ডাকাই আসল ব্যর্থতার ধরন

স্বাভাবিক স্ক্রিনে প্যাথলজি নিয়ে আক্রমণাত্মকভাবে অতিরিক্ত কল করা কনজিউমার-ফেসিং মেডিক্যাল অ্যাসিস্ট্যান্টদের নথিভুক্ত ব্যর্থতার ধরন। এর পরবর্তী খরচগুলোর মধ্যে রয়েছে অপ্রয়োজনীয় তদন্ত, রোগীর উদ্বেগ, এবং চিকিৎসাজনিত (iatrogenic) ওয়ার্কআপ। এই বেঞ্চমার্কের দুইটি ফাঁদ কেস এমনভাবে ডিজাইন করা হয়েছে যাতে এই ব্যর্থতার ধরন দৃশ্যমান এবং স্কোরযোগ্য হয়।.

🟡 ফাঁদ ১ — BT-014-GILBERT

উপস্থাপনা।. মোট বিলিরুবিন ২.৪ mg/dL সহ ২৪ বছর বয়সী একজন পুরুষ। ডাইরেক্ট অংশ স্বাভাবিক, ট্রান্সঅ্যামিনেজ এবং অ্যালকালাইন ফসফাটেজ তাদের রেফারেন্স রেঞ্জের ভেতরে আছে, রেটিকুলোসাইটগুলো উল্লেখযোগ্য নয়, এবং হ্যাপ্টোগ্লোবিন ও LDH হিমোলাইসিসকে বাদ দেয়।.

সঠিক ব্যাখ্যা।. গিলবার্টের সিন্ড্রোম—একটি সুশীল UGT1A1 পলিমরফিজম। ব্যাখ্যায় হেপাটাইটিস, সিরোসিস, হিমোলাইটিক অ্যানিমিয়া, বা বিলিয়ারি অবস্ট্রাকশন আহ্বান করা উচিত নয়।.

V11 ফলাফল।. কম্পোজিট 1.000। ছয়টি পর্যবেক্ষিত অতিরিক্ত-ডায়াগনসিস ফ্ল্যাগের কোনোটিই সক্রিয় ডায়াগনসিস হিসেবে দেখা যায়নি।.

🟡 ফাঁদ ২ — BT-015-HEALTHY

উপস্থাপনা।. পনেরো-প্যারামিটারের একটি নিয়মিত স্ক্রিনিং প্যানেলসহ ৩৫ বছর বয়সী একজন নারী। প্রতিটি অ্যানালাইটই তার রেফারেন্স রেঞ্জের ভেতরে স্বাচ্ছন্দ্যে অবস্থান করছে।.

সঠিক ব্যাখ্যা।. আশ্বাস প্রদান এবং জীবনযাত্রা বজায় রাখা। ব্যাখ্যাটি এমন কোনো সীমান্তবর্তী রোগতত্ত্ব তৈরি করবে না যা ক্লিনিক্যালভাবে উপকারী শোনানোর জন্য বানানো হয়েছে।.

V11 ফলাফল।. কম্পোজিট 1.000। সাতটি পর্যবেক্ষিত অতিরিক্ত-রোগ নির্ণয়ের (over-diagnosis) কোনো ফ্ল্যাগ—ডায়াবেটিস, রক্তাল্পতা, হাইপোথাইরয়েডিজম, ডিসলিপিডেমিয়া, হেপাটাইটিস, কিডনি রোগ, অভাব—সক্রিয় রোগ নির্ণয় হিসেবে দেখা যায়নি।.

উভয় ট্র্যাপে মোট তেরোটি পর্যবেক্ষিত হাইপারডায়াগনোসিস ফ্ল্যাগ পরীক্ষা করা হয়েছিল। কোনোটি ট্রিগার হয়নি। যে ফলাফলটি যে কোনো চিকিৎসকের জন্য সবচেয়ে বেশি গুরুত্বপূর্ণ, যিনি AI ইঞ্জিনকে ট্রায়াজ বা প্রি-কনসাল্টেশন টুল হিসেবে ব্যবহার করার কথা ভাবছেন: সিস্টেম কোনো রোগ উদ্ভাবন করেনি যেখানে রোগ ছিল না.

মেন্টজার ইনডেক্স: আয়রন ডেফিসিয়েন্সি থেকে থ্যালাসেমিয়া ট্রেইট আলাদা করা

আরেকটি উচ্চ-মূল্যের সন্ধান হলো কেস BT-001 (আয়রন ডেফিসিয়েন্সি অ্যানিমিয়া) এবং কেস BT-007 (বিটা-থ্যালাসেমিয়া মাইনর)-এর জোড়া। উভয় ক্ষেত্রেই মাইক্রোসাইটোসিস দেখা যায় এবং এটি নবীন ক্লাসিফায়ারদের জন্য সুপরিচিত একটি বাধা। মেন্টজার সূচক, যা MCV কে RBC গণনা দিয়ে ভাগ করে হিসাব করা হয়, আয়রন ডেফিসিয়েন্সিতে ১৩-এর বেশি এবং থ্যালাসেমিয়া ট্রেইটে ১৩-এর নিচে থাকে।.

BT-001-এ রোগী ছিলেন ৩৪ বছর বয়সী একজন নারী, হিমোগ্লোবিন 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ফেরিটিন 6 ng/mL, এবং TIBC বৃদ্ধি ছিল। প্রায় ১৭.৭ মেন্টজার সূচকটি নিশ্চিত করে যে এটি সুনির্দিষ্ট (absolute) আয়রন ডেফিসিয়েন্সি। BT-007-এ রোগী ছিলেন ২৮ বছর বয়সী একজন পুরুষ, মাইক্রোসাইটোসিস (MCV 65.8 fL) ছিল কিন্তু RBC গণনা ছিল বেশি 6.2, RDW স্বাভাবিক, ফেরিটিন স্বাভাবিক, এবং HbA2 ছিল ৫.৬ শতাংশ। প্রায় ১০.৬ মেন্টজার সূচকটি থ্যালাসেমিয়া ট্রেইটের দিকে ইঙ্গিত করে, এবং বৃদ্ধি পাওয়া HbA2 বিটা-থ্যালাসেমিয়া মাইনর নিশ্চিত করে।.

আয়রন ডেফিসিয়েন্সি অ্যানিমিয়া মেন্টজার > 13 কম ফেরিটিন, কম TSAT, উচ্চ TIBC, বৃদ্ধি পাওয়া RDW

বিটা-থ্যালাসেমিয়া ট্রেইট মেন্টজার < 13 স্বাভাবিক ফেরিটিন, স্বাভাবিক RDW, বৃদ্ধি পাওয়া HbA2 (>3.5%), উচ্চ RBC গণনা

উভয় কেসই 1.000 স্কোর করেছে। ইঞ্জিন উভয় ব্যাখ্যায় মেন্টজার সূচকটি স্পষ্টভাবে ব্যবহার করেছে এবং প্রতিটি ক্ষেত্রেই সঠিক রোগ নির্ণয় ফিরিয়ে দিয়েছে।. পুরো বেঞ্চমার্কে এটি এককভাবে সবচেয়ে বেশি ক্লিনিক্যালি আশ্বাসদায়ক ফলাফল, কারণ থ্যালাসেমিয়া ট্রেইটকে আয়রন ডেফিসিয়েন্সি হিসেবে ভুল শ্রেণিবদ্ধ করলে অনুপযুক্ত আয়রন সাপ্লিমেন্টেশন হয় এবং পারিবারিক স্ক্রিনিংয়ের সুযোগ মিস হয়; আর আয়রন ডেফিসিয়েন্সিকে থ্যালাসেমিয়া হিসেবে ভুল শ্রেণিবদ্ধ করলে সহজ সরল রিপ্লেসমেন্ট থেরাপি দেরিতে শুরু হয়। আমাদের ফেরিটিন রেঞ্জ গাইড বৃহত্তর ডিফারেনশিয়াল প্রেক্ষাপট ব্যাখ্যা করে।.

এপ্রিল ২০২৬ রান থেকে প্রতি-কেস ফলাফল

পনেরোটি কেসের মধ্যে বারোটি প্রাইমারি পাথে সর্বোচ্চ কম্পোজিট স্কোর 1.000 অর্জন করেছে। তিনটি কেস Phase 2 fallback-এর মাধ্যমে পরিবেশন করা হয়েছিল, ফলে 0.05 লেটেন্সি বোনাস হারালেও সব ক্লিনিক্যাল ও কাঠামোগত কনটেন্ট অক্ষুণ্ণ ছিল। একটি কেসে একটি একক বাধ্যতামূলক সাবসেকশন অনুপস্থিত ছিল; একটি কেসে সম্ভাব্যতার (probability) যোগফল সামান্য কমে যাওয়া অবস্থায় ফিরে এসেছে।.

কেস আইডি স্পেশালিটি যৌগিক লেটেন্সি পাথ

BT-001-IDAহেমাটোলজি1.00017.8 sপ্রাইমারি

BT-006-B12হেমাটোলজি1.00018.4 সেকেন্ডপ্রাইমারি

BT-007-থ্যালাসেমিয়াহেমাটোলজি1.00017.0 সেকেন্ডপ্রাইমারি

BT-002-হ্যাশএন্ডোক্রিনোলজি0.95037.0 সেকেন্ডফallback

BT-008-PCOSএন্ডোক্রিনোলজি0.98718.6 সেকেন্ডপ্রাইমারি

BT-003-T2DMবিপাকীয়1.00019.1 সেকেন্ডপ্রাইমারি

BT-013-গাউটবিপাকীয়1.00019.4 সেকেন্ডপ্রাইমারি

BT-004-NAFLDহেপাটোলজি1.00019.6 সেকেন্ডপ্রাইমারি

BT-009-ভাইরহেপহেপাটোলজি0.95023.4 সেকেন্ডফallback

BT-014-গিলবার্টট্র্যাপ1.00018.9 সেকেন্ডপ্রাইমারি

BT-005-CKDনেফ্রোলজি1.00017.4 সেকেন্ডপ্রাইমারি

BT-010-ASCVDকার্ডিওলজি1.00019.7 সেকেন্ডপ্রাইমারি

BT-011-SLEরিউমাটোলজি0.98118.2 সেকেন্ডপ্রাইমারি

BT-012-VITDএন্ডোক্রিনোলজি1.00019.3 সেকেন্ডপ্রাইমারি

BT-015-HEALTHYট্র্যাপ1.00018.7 সেকেন্ডফallback

PCOS কেসটি (BT-008) প্রতিক্রিয়া কাঠামোতে একটি বাধ্যতামূলক উপ-সেকশন হারিয়েছে—ষোলটির মধ্যে পনেরোটি পরিবর্তে ষোলটির মধ্যে ষোলটি—যার ফলে কাঠামোগত স্কোর 1.000 থেকে 0.963 এ নেমে আসে। SLE কেসটি (BT-011) একটি সামান্য কমে যাওয়া সম্ভাব্যতা-বণ্টন সম ফেরত দেয়, যা ডায়াগনস্টিক স্কোরকে 0.965 এ নামিয়ে আনে, তবে প্রতিটি ডায়াগনস্টিক কীওয়ার্ড এবং স্কোরিং সিস্টেম অক্ষুণ্ণ রাখে। কোনো সাব-পারফেক্ট কেসই সঠিক রোগ নির্ণয় মিস করেনি।.

হেডলাইন স্কোর আমাদের কী বলে না

এই নির্দিষ্ট প্রি-রেজিস্টার্ড রুব্রিকের অধীনে 99.12 শতাংশের একটি যৌগিক স্কোর প্রায়-সিলিং পারফরম্যান্স নির্দেশ করে, কিন্তু এটিকে সতর্কভাবে প্রেক্ষাপটে রাখা দরকার। ফলাফলটি ইঞ্জিনের আচরণকে পনেরোটি সাবধানে নির্বাচিত বেনামী কেসের বিপরীতে বর্ণনা করে—প্রতিটি কেস একবার করে—একটি একক রুব্রিকের অধীনে। আমরা স্পষ্ট করে বলছি, সংখ্যাটি কী প্রতিষ্ঠা করে এবং কী করে না।.

স্কোরটি বলে যে V11 ইঞ্জিনটি এই মূল্যায়নের জন্য নির্বাচিত ডায়াগনস্টিক প্যাটার্নগুলো সঠিকভাবে পরিচালনা করেছে—একটি প্রকাশিত এবং পুনরুত্পাদনযোগ্য পদ্ধতিতে। এটি বলে না যে বন্য পরিবেশে বিদ্যমান প্রতিটি রক্ত পরীক্ষার প্যানেলে ইঞ্জিনটি সঠিক। এটি বলে না যে ইঞ্জিনটি চিকিৎসকের সিদ্ধান্তকে প্রতিস্থাপন করা উচিত। এবং এটি বলে না যে ইঞ্জিনটি বিকল্প এআই সিস্টেমগুলোর চেয়ে ভালো—অন্য ইঞ্জিনগুলোর সঙ্গে তুলনামূলক বিশ্লেষণ ইচ্ছাকৃতভাবে এই প্রতিবেদনের আওতার বাইরে রাখা হয়েছে।.

স্কোরটি যা প্রতিষ্ঠা করে তা হলো একটি বেসলাইন। রুব্রিক এবং হারনেস প্রকাশ্য হওয়ায়, ইঞ্জিনের ভবিষ্যৎ সংস্করণগুলো একই পনেরোটি কেসের বিপরীতে মূল্যায়ন করা যাবে, এবং প্রকাশিত স্কোর ও পরবর্তী যেকোনো রান-এর মধ্যে ব্যবধান নিজেই পরিমাপযোগ্য। প্রি-রেজিস্ট্রেশনের মূল্য এখানেই: এটি পারফরম্যান্স দাবিকে পরীক্ষাযোগ্য দাবিতে রূপান্তর করে.

১০ মিনিটে কীভাবে এই বেঞ্চমার্ক পুনরুত্পাদন করবেন

পুনরুত্পাদনের জন্য কেবল একটি Kantesti API credential pair এবং Python 3.10 বা পরবর্তী সংস্করণের একটি পরিবেশ প্রয়োজন, যেখানে requests এবং reportlab লাইব্রেরিগুলো ইনস্টল করা আছে। সম্পূর্ণ হারনেসটি MIT লাইসেন্সের অধীনে প্রকাশিত একটি একক, স্বয়ংসম্পূর্ণ Python মডিউল।.

💻 GitHub MIT-লাইসেন্সড হারনেস · কাঁচা প্রতিক্রিয়া · রেফারেন্স রান 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · ক্যানোনিকাল একাডেমিক রেকর্ড 🎓 রিসার্চগেট Publication 404175463 · একাডেমিক আবিষ্কার স্তর 📄 একাডেমিয়া.এডু Paper 165956808 · একাডেমিক আবিষ্কার স্তর

একটি নতুন রান-এর জন্য চারটি ধাপ

এক।. রিপোজিটরি ক্লোন করুন: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. দুই।. requirements.txt ফাইল থেকে নির্ভরশীলতা ইনস্টল করুন pip install -r requirements.txt. তিন।. সেট করুন KANTESTI_USERNAME এবং KANTESTI_PASSWORD পরিবেশ ভেরিয়েবল হিসেবে—ক্রেডেনশিয়ালগুলো রানটাইমে পড়া হয় এবং স্ক্রিপ্টে কিছুই হার্ড-কোড করা থাকে না।. চার।. চালান python benchmark_bloodtest.py এবং কাজের ডিরেক্টরিতে নির্গত চারটি আর্টিফ্যাক্ট পরীক্ষা করুন: একটি CSV স্কোরকার্ড, একটি JSON স্কোরকার্ড, কাঁচা ইঞ্জিন রেসপন্সসহ একটি পূর্ণ JSON ডাম্প, এবং একটি মানুষের-পাঠযোগ্য Markdown রিপোর্ট।.

২৩ এপ্রিল ২০২৬-এর রেফারেন্স রানটি সংরক্ষিত আছে results/ রিপোজিটরির ডিরেক্টরিতে। একটি নতুন রান নতুন টাইমস্ট্যাম্পযুক্ত স্কোরকার্ড তৈরি করবে, কিন্তু রেফারেন্স রানটি অপরিবর্তিত থাকবে। আপনার রান যদি অর্থপূর্ণভাবে ভিন্ন ফল দেয়, অনুগ্রহ করে রান টাইমস্ট্যাম্প এবং রেসপন্স মেটাডেটায় ফেরত দেওয়া ইঞ্জিন ভার্সনসহ একটি GitHub issue খুলুন।.

সীমাবদ্ধতা এবং ভবিষ্যৎ কাজ

চারটি সীমাবদ্ধতা স্পষ্টভাবে স্বীকার করা দরকার: নমুনার আকার, একবারের মূল্যায়ন, একক-ইঞ্জিন পরিধি, এবং একক-উৎস ডেটা উৎপত্তি। এগুলো সক্রিয়ভাবে ফলো-আপ কাজের মাধ্যমে সমাধান করা হচ্ছে।.

নমুনার আকার।. আটটি বিশেষায়িত ক্যাটাগরিতে পনেরোটি কেস প্রুফ অব কনসেপ্টের জন্য যথেষ্ট, কিন্তু কোনো বিশেষায়িত ক্ষেত্রের ভেতরে সাবগ্রুপ বিশ্লেষণের জন্য নয়। পঞ্চাশটি কেসে সম্প্রসারণ পরিকল্পিত এবং এতে কোয়াগুলেশন প্যানেল, হেমাটোলজিক্যাল ম্যালিগন্যান্সি স্ক্রিনিং, প্রেগন্যান্সি প্যানেল এবং শিশু রোগীদের উপস্থাপনাগুলো অন্তর্ভুক্ত থাকবে।.

একবারের মূল্যায়ন।. প্রতিটি কেস একবারই মূল্যায়ন করা হয়েছে। এমনকি কম স্যাম্পলিং টেম্পারেচারেও বড় ভাষা মডেলগুলো উল্লেখযোগ্য আউটপুট ভ্যারিয়েন্স দেখায়, তাই প্রতি কেসে পাঁচটি মূল্যায়নসহ একটি বহু-রান প্রোটোকল এবং রিপোর্ট করা ভ্যারিয়েন্স পরবর্তী স্বাভাবিক ধাপ।.

একক-ইঞ্জিন পরিধি।. এই রিপোর্টটি একটি ইঞ্জিনকে বর্ণনা করে। বিকল্প AI সিস্টেমের সাথে তুলনামূলক বিশ্লেষণ এখানে আলোচনার বাইরে; উপযুক্ত পদ্ধতিসহ আমরা এগুলোকে একটি পৃথক স্বাধীন গবেষণা হিসেবে অনুসরণ করতে পারি।.

একক-উৎস ডেটা উৎপত্তি।. পনেরোটি কেসই একটি একক ক্লিনিক্যাল রিপোজিটরি থেকে নেওয়া বেনামীকৃত বাস্তব রোগীর রেকর্ড। এগুলো একটি কিউরেটেড নমুনা এবং জনসংখ্যা-প্রতিনিধিত্বশীল এলোমেলো নমুনা নয়। মূল্যায়নকে বহু-কেন্দ্রের ডেটায় সম্প্রসারণের পরিকল্পনা রোডম্যাপে রয়েছে।.

সবচেয়ে প্রভাবশালী পরিকল্পিত সম্প্রসারণ হলো বহু-ভাষার সমতা। Kantesti AI Engine 75+ ভাষায় ব্যবহারকারীদের সেবা দেয়, এবং তুর্কি, জার্মান, স্প্যানিশ, ফরাসি ও আরবিতে একই পনেরো-কেসের হারনেস চালালে ইঞ্জিনের সমর্থিত ভাষাগুলোর মধ্যে আউটপুট মানের পরিমাপ করা হবে। আমরা প্রতিটি ভাষাভিত্তিক রান তার নিজস্ব DOI এবং হারনেস ব্রাঞ্চসহ প্রকাশ করব।.

যে একই ইঞ্জিনটি 99.12% কম্পোজিট স্কোর অর্জন করেছে সেটিই ব্যবহার করে দেখুন

আপনার নিজের রক্ত পরীক্ষার প্যানেলটি এই বেঞ্চমার্কে মূল্যায়িত একই প্রোডাকশন এন্ডপয়েন্টে আপলোড করুন। বিশ্বব্যাপী ২ মিলিয়নেরও বেশি ব্যবহারকারী Kantesti AI Engine ব্যবহার করে 75+ ভাষায় ১৫,০০০+ বায়োমার্কার ব্যাখ্যা করেন।.

🔬 ফ্রি ডেমো ব্যবহার করে দেখুন

ক্রোম এক্সটেনশন অ্যাপ স্টোর গুগল প্লে

📚 এই বেঞ্চমার্ক কীভাবে উদ্ধৃত করবেন

BibTeX

@techreport{klein2026kantesti,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {Kantesti AI Engine-এর ক্লিনিক্যাল ভ্যালিডেশন (2.78T)  
                 ১৫টি বেনামী রক্ত পরীক্ষার কেসে: একটি প্রি-রেজিস্টার্ড  
                 রুব্রিক-ভিত্তিক বেঞ্চমার্ক, যেখানে হাইপারডায়াগনোসিস ট্র্যাপ কেস অন্তর্ভুক্ত  
                 সাতটি চিকিৎসা বিশেষত্ব জুড়ে},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026)।. ১৫টি বেনামী রক্ত পরীক্ষার কেসে Kantesti AI Engine-এর ক্লিনিক্যাল ভ্যালিডেশন (2.78T): সাতটি চিকিৎসা বিশেষত্ব জুড়ে হাইপারডায়াগনোসিস ট্র্যাপ কেসসহ একটি প্রি-রেজিস্টার্ড রুব্রিক-ভিত্তিক বেঞ্চমার্ক (Technical Report V11)। Kantesti Ltd।. https://doi.org/10.6084/m9.figshare.32095435

📖 সম্পর্কিত Kantesti ভ্যালিডেশন কাজ

. এআই-চালিত রক্ত পরীক্ষার জন্য ক্লিনিক্যাল ভ্যালিডেশন ফ্রেমওয়ার্ক ব্যাখ্যা: ট্রিপল-ব্লাইন্ড ভ্যালিডেশন পদ্ধতি, কর্মক্ষমতা মেট্রিক্স এবং গুণমান নিশ্চিতকরণ প্রোটোকল. Kantesti AI মেডিক্যাল রিসার্চ।.

🎓 রিসার্চগেট

📖 বাহ্যিক পদ্ধতিগত রেফারেন্স

Mentzer, W. C. (1973)।. থ্যালাসেমিয়া ট্রেইট থেকে আয়রন ডেফিসিয়েন্সি পার্থক্য করা. The Lancet, 301(7808), 882।.

🏥 পাবমেড

Aringer, M., Costenbader, K., Daikh, D., et al. (2019)।. সিস্টেমিক লুপাস এরিথেমাটোসাসের জন্য ২০১৯ ইউরোপীয় লিগ এগেইনস্ট রিউমাটিজম / আমেরিকান কলেজ অব রিউমাটোলজি শ্রেণিবিন্যাস মানদণ্ড. Arthritis & Rheumatology, 71(9), 1400–1412।.

🔗 ডিওআই 🏥 পাবমেড

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023)।. Med-HALT: বড় ভাষা মডেলের জন্য মেডিক্যাল ডোমেইন হ্যালুসিনেশন টেস্ট. Proceedings of CoNLL 2023।.

🔗 ACL Anthology

99.12%কম্পোজিট স্কোর

15স্কোর করা কেস

7বিশেষত্বসমূহ

0ট্র্যাপ ফালস-পজিটিভ

সচরাচর জিজ্ঞাস্য

বাস্তব রক্ত পরীক্ষার ক্ষেত্রে Kantesti এআই ইঞ্জিনটি কতটা নির্ভুল?

সাতটি চিকিৎসা বিশেষত্ব জুড়ে ১৫টি বেনামী বাস্তব-রোগীর রক্ত পরীক্ষার কেসের একটি প্রি-রেজিস্টার্ড রুব্রিকের ওপর, Kantesti AI Engine V11 কম্পোজিট স্কোর অর্জন করেছে 99.12 percent, এবং ট্র্যাপ কেস—দুই ক্ষেত্রেই শূন্য হাইপারডায়াগনোসিস ফালস-পজিটিভ ছিল; পাশাপাশি গড় রেসপন্স লেটেন্সি ছিল 20.17 সেকেন্ড। সম্পূর্ণ কেস-ভিত্তিক স্কোরকার্ড Figshare-এ DOI 10.6084/m9.figshare.32095435-এর অধীনে এবং GitHub-এ MIT লাইসেন্সের অধীনে প্রকাশিত।.

Kantesti এআই ইঞ্জিন কি ক্লিনিক্যালভাবে যাচাই করা হয়েছে?

হ্যাঁ। ইঞ্জিনটি ক্লিনিক্যালভাবে যাচাই করা হয়েছে এমন একটি রুব্রিকের বিপরীতে, যা ইঞ্জিনটি আহ্বান করার আগেই সোর্স কোডে স্থির (ফ্রোজেন) করা ছিল; হেমাটোলজি, এন্ডোক্রিনোলজি, মেটাবলিক মেডিসিন, হেপাটোলজি, নেফ্রোলজি, কার্ডিওলজি এবং রিউমাটোলজি—এই সাতটি ক্ষেত্রে ১৫টি বেনামী রক্ত পরীক্ষার কেসে মূল্যায়ন করা হয়। ক্লিনিক্যাল তত্ত্বাবধান প্রদান করেন ড. থমাস ক্লেইন, এমডি (ORCID 0009-0009-1490-1321), যিনি Kantesti AI-এ বোর্ড-সার্টিফাইড ক্লিনিক্যাল হেমাটোলজিস্ট এবং চিফ মেডিক্যাল অফিসার।.

হাইপারডায়াগনোসিস ট্র্যাপ কেস কী?

একটি হাইপারডায়াগনোসিস ট্র্যাপ কেস হলো এমন একটি ক্লিনিক্যাল পরিস্থিতি, যা বিশেষভাবে ডিজাইন করা হয় AI ইঞ্জিনে অতিরিক্ত রোগনির্ণয়ের (over-diagnosis) আচরণ শনাক্ত করার জন্য। Kantesti V11 বেঞ্চমার্কে এমন দুইটি কেস ব্যবহার করা হয়েছে। প্রথমটি হলো গিলবার্টস সিনড্রোমের সাথে সামঞ্জস্যপূর্ণ একটি বিচ্ছিন্ন (isolated) পরোক্ষ হাইপারবিলিরুবিনেমিয়া—যেখানে সঠিক ব্যাখ্যা হলো হেপাটাইটিস বা হিমোলাইসিস নয়, বরং UGT1A1 পলিমরফিজমের সৌম্য (benign) ধরন। দ্বিতীয়টি হলো সম্পূর্ণ স্বাভাবিক প্রাপ্তবয়স্কদের স্ক্রিনিং প্যানেল—যেখানে সঠিক আউটপুট হলো আশ্বস্ত করা এবং জীবনযাত্রা বজায় রাখা; কোনো তৈরি করা (manufactured) সীমান্তবর্তী (borderline) রোগ-সংক্রান্ত ফল নয়।.

Kantesti এআই ইঞ্জিনের মূল্যায়ন কি পুনরুত্পাদনযোগ্য?

পূর্ণ মূল্যায়ন (evaluation) হ্যারনেসটি MIT লাইসেন্সের অধীনে একটি একক, স্বয়ংসম্পূর্ণ Python মডিউল হিসেবে প্রকাশ করা হয়েছে। পুনরুত্পাদন করতে কেবল একটি Kantesti API credential pair এবং Python 3.10 বা পরবর্তী সংস্করণ প্রয়োজন। কোড, কেস সংজ্ঞা (case definitions), এবং এপ্রিল ২০২৬ রেফারেন্স রান থেকে প্রতিটি কাঁচা (raw) ইঞ্জিন প্রতিক্রিয়া পাওয়া যাবে github.com/emirhanai/kantesti-blood-test-benchmark-এ এবং Figshare, ResearchGate ও Academia.edu-তেও এর প্রতিলিপি (mirrored) রয়েছে।.

Kantesti এআই ইঞ্জিন কীভাবে আয়রনের ঘাটতি থেকে বিটা-থ্যালাসেমিয়া বাহকের বৈশিষ্ট্য আলাদা করে?

ইঞ্জিনটি Mentzer index প্রয়োগ করে, যা গণনা করা হয় mean corpuscular volume কে লোহিত রক্তকণিকার সংখ্যা (red blood cell count) দিয়ে ভাগ করে। Mentzer index ১৩-এর বেশি হলে আয়রন ডেফিসিয়েন্সি অ্যানিমিয়া সমর্থন করে, আর ১৩-এর নিচে হলে বিটা-থ্যালাসেমিয়া ট্রেইট সমর্থন করে। V11 বেঞ্চমার্কে উভয় উপস্থাপনাই (presentations) স্পষ্ট Mentzer index গণনার মাধ্যমে সঠিকভাবে শ্রেণিবদ্ধ করা হয়েছে; সাথে ferritin, RDW এবং HbA2 প্রসঙ্গ (context) ব্যবহার করা হয়েছে।.

আমি কোথায় কাঁচা বেঞ্চমার্ক ডেটা এবং সোর্স কোড খুঁজে পেতে পারি?

টেকনিক্যাল রিপোর্টটি Figshare-এ DOI 10.6084/m9.figshare-এর অধীনে জমা দেওয়া হয়েছে; ResearchGate-এ প্রকাশনা 404175463 এবং Academia.edu-তে পেপার 165956808 হিসেবে এর প্রতিলিপি রয়েছে। MIT-লাইসেন্সড Python হ্যারনেসটি, সব রেফারেন্স রান ফলসহ, আছে github.com/emirhanai/kantesti-blood-test-benchmark-এ। চার-প্ল্যাটফর্ম প্রতিলিপি নেটওয়ার্ক দীর্ঘমেয়াদি প্রাপ্যতা এবং উদ্ধৃতি (citation) নমনীয়তা নিশ্চিত করে।.

AI মেডিক্যাল বেঞ্চমার্কে প্রি-রেজিস্ট্রেশন কেন গুরুত্বপূর্ণ?

প্রি-রেজিস্ট্রেশন পোস্ট-হক রুব্রিক টিউনিং ঠেকায়—যা কোম্পানি-চালিত বেঞ্চমার্কগুলো নিজেদের সংখ্যা বাড়িয়ে দেখানোর সবচেয়ে সাধারণ একক উপায়। কোনো ইঞ্জিন কলের আগে রুব্রিককে সোর্স কোডে কমিট করে এবং হ্যারনেসটি প্রকাশ্যে প্রকাশ করে, রুব্রিক লেখকের তারিখগুলো ভার্সন কন্ট্রোলে যাচাইযোগ্য (inspectable) হয়ে যায়, এবং ইঞ্জিনের ফলাফল স্কোরিং মানদণ্ডকে প্রভাবিত করতে পারে না।.

এই বেঞ্চমার্ক কি অন্য AI ইঞ্জিনের সাথে তুলনা অন্তর্ভুক্ত করে?

না। V11 রিপোর্টটি ইচ্ছাকৃতভাবে একটি নির্দিষ্ট রুব্রিকের বিপরীতে একটি একক ইঞ্জিনকে চরিত্রায়িত (characterise) করে, বিকল্প কোনো বাণিজ্যিক সিস্টেমের বিপরীতে অবস্থান করায় না। হ্যারনেসটি MIT লাইসেন্সের অধীনে ওপেন সোর্স, তাই স্বাধীন গবেষকেরা তাদের পছন্দের যেকোনো ইঞ্জিনকে একই পনেরোটি কেস এবং রুব্রিকের বিপরীতে মূল্যায়ন করতে পারে এবং তাদের ফলাফল প্রকাশ করতে পারে।.

রোগীর কেসগুলো কি বাস্তব নাকি কৃত্রিম (synthetic)?

পনেরোটি কেসই বেনামী করা বাস্তব রোগীর রেকর্ড—লিখিত অবগত সম্মতি (written informed consent) নিয়ে Kantesti ক্লিনিক্যাল ডেটা রিপোজিটরি থেকে নেওয়া। Safe Harbor পদ্ধতির অধীনে ডি-আইডেন্টিফিকেশন করা হয়েছে, যেখানে সব সরাসরি শনাক্তকারী (direct identifiers) সরানো বা প্রতিস্থাপিত করা হয়েছে। প্রক্রিয়াটি GDPR Article 9(2)(j) এবং যুক্তরাজ্যের সমতুল্য GDPR বিধান অনুযায়ী সম্পন্ন হয়েছে। প্রকাশিত হ্যারনেস, টেকনিক্যাল রিপোর্ট বা প্রকাশিত ডেটাসেটগুলোর কোথাও কোনো ব্যক্তিগতভাবে শনাক্তযোগ্য তথ্য (personally identifying information) নেই।.

⚕️ মেডিক্যাল ডিসক্লেইমার ও স্বার্থের সংঘাত

এই বেঞ্চমার্ক রিপোর্টটি গবেষণা এবং পদ্ধতিগত স্বচ্ছতার (methodological transparency) উদ্দেশ্যে। এটি চিকিৎসা পরামর্শ হিসেবে গণ্য হয় না। রোগ নির্ণয় ও চিকিৎসা সিদ্ধান্তের জন্য সর্বদা একজন যোগ্য স্বাস্থ্যসেবা প্রদানকারীর সাথে পরামর্শ করুন। উভয় লেখক Kantesti Ltd-এ কর্মরত এবং সেখানে ইকুইটি ধারণ করেন, এবং মূল্যায়নাধীন ইঞ্জিনটি একই প্রতিষ্ঠানের একটি বাণিজ্যিক পণ্য। এই স্বার্থের সংঘাত কমানো হয়েছে রুব্রিককে সোর্স কোডে প্রি-রেজিস্টার করে, MIT লাইসেন্সের অধীনে হ্যারনেস প্রকাশ করে, এবং প্রতিটি কাঁচা (raw) ইঞ্জিন প্রতিক্রিয়া প্রকাশ করার মাধ্যমে।.

E-E-A-T বিশ্বাসযোগ্যতার সংকেত

⭐

অভিজ্ঞতা

কেস প্যানেল নির্বাচন তত্ত্বাবধানের জন্য ১৫+ বছর ক্লিনিক্যাল হেমাটোলজি ও ল্যাবরেটরি মেডিসিন অনুশীলন।.

📋

দক্ষতা

প্রি-রেজিস্টার্ড রুব্রিক ডিজাইন, যেখানে স্পষ্ট হাইপারডায়াগনোসিস পেনাল্টি এবং স্বীকৃত ক্লিনিক্যাল স্কোরিং সিস্টেম (Mentzer, FIB-4, EULAR/ACR, KDIGO) অন্তর্ভুক্ত।.

👤

কর্তৃত্ব

প্রধান লেখক ড. থমাস ক্লেইন, এমডি (ORCID 0009-0009-1490-1321)। বাস্তবায়ন করেছেন জুলিয়ান এমিরহান বুলুত, Kantesti Ltd-এর CEO।.

🛡️

বিশ্বাসযোগ্যতা

MIT-লাইসেন্সড পুনরুত্পাদনযোগ্য (reproducible) হ্যারনেস, কাঁচা ইঞ্জিন প্রতিক্রিয়া প্রকাশিত, উন্মুক্ত স্বার্থের সংঘাত (conflict-of-interest) প্রকাশ, চার-প্ল্যাটফর্ম গবেষণা প্রতিলিপি নেটওয়ার্ক।.

🏢 কান্তেস্টি লিমিটেড ইংল্যান্ড ও ওয়েলসে নিবন্ধিত · কোম্পানি নং।. 17090423 লন্ডন, যুক্তরাজ্য · কান্টেস্টি.নেট