Kantesti এআই রক্ত পরীক্ষা বেঞ্চমার্ক — ক্লিনিক্যাল ভ্যালিডেশন

স্বয়ংক্রিয় বেঞ্চমার্ক প্রি-রেজিস্টার্ড বেঞ্চমার্ক V11 দ্বিতীয় আপডেট — এপ্রিল ২০২৬ MIT-লাইসেন্সড পুনরুত্পাদনযোগ্য · উন্মুক্ত ডেটা 100K সিন্থেটিক কোহর্ট · 127টি দেশ-লেবেল

প্রি-রেজিস্টার্ড রুব্রিকের ওপর 99.80% কম্পোজিট স্কোর — V11 দ্বিতীয় আপডেট, 127টি দেশ-লেবেল জুড়ে 100,000-কেস কোহর্ট

একটি প্রি-রেজিস্টার্ড, রুব্রিক-ভিত্তিক স্বয়ংক্রিয় প্রযুক্তিগত বেঞ্চমার্ক, যেখানে Kantesti ইঞ্জিনকে 127টি দেশ-লেবেল ট্যাগ করা 100,000টি কৃত্রিম (synthetically generated) রক্ত-পরীক্ষার কেসে চালানো হয়েছে। এটি ডায়াগনস্টিক নির্ভুলতা নয়, আউটপুটের সামঞ্জস্য (conformance) পরিমাপ করে। রুব্রিকটি V11 প্রাথমিক রিলিজের আগে সোর্স কোডে স্থির (frozen) করা হয়েছিল এবং এই দ্বিতীয় আপডেটের জন্য বাইট-একই (byte-identical) রাখা হয়েছে; মূল্যায়ন হারনেসটি MIT-লাইসেন্সড; পরিদর্শনের জন্য কাঁচা ইঞ্জিন প্রতিক্রিয়ার একটি স্তরীকৃত র‍্যান্ডম নমুনা প্রকাশ করা হয়েছে। সব কেসই কৃত্রিম; কোনো ব্যক্তিগত ডেটা ব্যবহার করা হয়নি।.

📖 ~14 মিনিট 📅 প্রকাশিত: ২৩ এপ্রিল, ২০২৬ · হালনাগাদ: ২৬ এপ্রিল, ২০২৬ (V11 দ্বিতীয় আপডেট) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 প্রকাশিত: ২৩ এপ্রিল, ২০২৬ 🔄 V11 দ্বিতীয় আপডেট: ২৬ এপ্রিল, ২০২৬ 🩺 চিকিৎসাগতভাবে পর্যালোচিত: ২৬ এপ্রিল, ২০২৬ ✅ প্রি-রেজিস্টার্ড রুব্রিক (বাইট-একই) 🔓 ওপেন কোড ও ডেটা

এই স্বয়ংক্রিয় বেঞ্চমার্কটি নকশা ও পরিচালনা করেছেন জুলিয়ান এমিরহান বুলুত, Kantesti Ltd-এর সিনিয়র AI ইঞ্জিনিয়ার এবং CEO। স্কোরিং সম্পূর্ণভাবে সোর্স কোডে স্বয়ংক্রিয়; স্কোরিং রুব্রিক এবং কেস প্যানেলটি ক্লিনিক্যাল ইনপুটের ভিত্তিতে তৈরি করা হয়েছে ডঃ টমাস ক্লেইন, এমডি, Kantesti AI-এর চিফ মেডিক্যাল অফিসার, এবং পর্যালোচনা করেছেন কান্তেস্তি এআই মেডিকেল উপদেষ্টা বোর্ড. এটি একটি স্ব-চালিত অভ্যন্তরীণ বেঞ্চমার্ক, কোনো স্বাধীন বা পিয়ার-রিভিউড স্বয়ংক্রিয় প্রযুক্তিগত বেঞ্চমার্ক নয়।.

লিড অথর ও ক্লিনিক্যাল তত্ত্বাবধান

টমাস ক্লেইন, এমডি

প্রধান চিকিৎসা কর্মকর্তা, কান্তেস্তি এআই

ড. থমাস ক্লেইন একজন বোর্ড-সার্টিফাইড ক্লিনিক্যাল হেমাটোলজিস্ট এবং ইন্টারনিস্ট, ল্যাবরেটরি মেডিসিনে ১৫ বছরেরও বেশি অভিজ্ঞতা রয়েছে। Kantesti AI-তে চিফ মেডিক্যাল অফিসার হিসেবে, তিনি এই বেঞ্চমার্কের জন্য কেস প্যানেল নির্বাচন করেন, সিন্থেটিক কেসগুলোর ক্লিনিক্যাল কনটেন্ট ও প্রত্যাশিত উত্তর পর্যালোচনা করেন, এবং প্রথম ইঞ্জিন আহ্বানের আগে প্রি-রেজিস্টার্ড রুব্রিক অনুমোদন করেন।.

ORCID 0009-0009-1490-1321 রিসার্চগেট গুগল স্কলার

সহ-লেখক ও বাস্তবায়ন

জুলিয়ান এমিরহান বুলুত

সিনিয়র AI ইঞ্জিনিয়ার ও CEO, Kantesti Ltd

জুলিয়ান এমিরহান বুলুত Kantesti Ltd-এর প্রতিষ্ঠাতা এবং সিইও। তিনি মূল্যায়ন হারনেসটি ডিজাইন ও বাস্তবায়ন করেন — যার মধ্যে V11 দ্বিতীয় আপডেটের জন্য যোগ করা SQL কেস লোডারও অন্তর্ভুক্ত — API ইন্টিগ্রেশন সম্পন্ন করেন, V11 প্রাথমিক রেফারেন্স রান এবং V11 দ্বিতীয় আপডেটের 100,000-কেস রান—দুটিই পরিচালনা করেন, এবং পরিসংখ্যানগত সমষ্টিকরণ প্রস্তুত করেন। ২০১৯ সাল থেকে প্ল্যাটফর্মের প্রতিষ্ঠাতা।.

GitHub কান্তেস্তি সম্পর্কে

⚡ দ্রুত সারসংক্ষেপ V11 দ্বিতীয় আপডেট — ২৬ এপ্রিল, ২০২৬

99.80% কম্পোজিট স্কোর আটটি চিকিৎসা বিশেষত্ব এবং 127টি দেশ-লেবেল জুড়ে 100,000টি কৃত্রিম রক্ত-পরীক্ষার কেসে (V11 Second Update)।.
শূন্য অতিরিক্ত রোগ নির্ণয়ের (হাইপারডায়াগনোসিস) ভুল-পজিটিভ 87,412টি পর্যবেক্ষিত ট্র্যাপ-কেস ফ্ল্যাগ সুযোগের ওপর — V11 প্রাথমিকের মতোই ট্র্যাপ-কেস পদ্ধতি, জনসংখ্যা পর্যায়ে স্কেল করা।.
প্রি-রেজিস্টার্ড রুব্রিক V11 প্রাথমিক রান শুরুর আগেই সোর্স কোডে ফ্রোজেন করা হয়েছিল এবং রাখা হয়েছে বাইট-একইভাবে এই দ্বিতীয় আপডেটের জন্য — কোনো পোস্ট-হক টিউনিং সম্ভব ছিল না।.
মেনটজার ইনডেক্স সঠিকভাবে প্রয়োগ করা হয়েছে V11 প্রাথমিক রিলিজে আয়রন ডেফিসিয়েন্সি অ্যানিমিয়া থেকে বিটা-থ্যালাসেমিয়া মাইনরকে আলাদা করতে; জনসংখ্যা পর্যায়েও পার্থক্যমূলক আচরণটি সংরক্ষিত ছিল।.
কেবল প্রোডাকশন এন্ডপয়েন্ট — কোনো বিশেষ সুবিধাপ্রাপ্ত রাউটিং নেই; ঠিক যেমন একজন অর্থ প্রদানকারী গ্রাহক অ্যাক্সেস করতেন, তেমনভাবেই মূল্যায়ন করা হয়েছে।.
গড় লেটেন্সি 13.26 সেকেন্ড এন্ড-টু-এন্ড (পরিসর 9.0–16.94 সেকেন্ড), এবং সব 100,000 কেস ইঞ্জিনের প্রাইমারি পথে সম্পন্ন হয়েছে।.
সিন্থেটিক কোহর্ট।. রান-টাইমে লোড করা 100,000টি সিন্থেটিকভাবে তৈরি টেস্ট কেস। কোনো সিন্থেটিক ডেটা এবং কোনো ব্যক্তিগত ডেটা ব্যবহার করা হয় না।.
MIT-লাইসেন্সড হারনেস GitHub-এ প্রকাশিত হয়েছে পরিদর্শনের জন্য একটি স্তরভিত্তিক র‍্যান্ডম নমুনা (n = 201) হিসেবে সম্পূর্ণ ইঞ্জিনের কাঁচা প্রতিক্রিয়া।.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub-এ মিরর করা হয়েছে।.

এই বেঞ্চমার্ক কেন আছে এবং এটি কী পরীক্ষা করে

এআই-সহায়তাপ্রাপ্ত রক্ত পরীক্ষার ফলাফল বোঝা ক্রমবর্ধমানভাবে ভোক্তা ও ক্লিনিক্যাল ওয়ার্কফ্লোতে ব্যবহৃত হচ্ছে, তবে ল্যাবরেটরি মেডিসিনের জন্য উপযোগী পুনরুত্পাদনযোগ্য মূল্যায়ন কাঠামো এখনো অস্বাভাবিক। এই প্রেক্ষাপটে সবচেয়ে গুরুত্বপূর্ণ প্রশ্নগুলো সাধারণ মেডিক্যাল প্রশ্নোত্তর বেঞ্চমার্কে যেগুলো কভার করা হয় সেগুলো নয়: যখন মীন কর্পাসকুলার ভলিউম (MCV) একই থাকে, তখন কি একটি ইঞ্জিন আয়রন ডেফিসিয়েন্সি থেকে থ্যালাসেমিয়া ট্রেইট আলাদা করতে পারে; গিলবার্টের সিনড্রোমকে কি হেপাটাইটিস হিসেবে অতিরিক্ত রোগ নির্ণয় করে; এবং সম্পূর্ণ স্বাভাবিক স্ক্রিনিং প্যানেলে কি প্যাথলজি “তৈরি” করে?

একটি একক রক্ত পরীক্ষার প্যানেলে সাধারণত একাধিক প্রতিযোগী ব্যাখ্যা সমর্থন করার মতো যথেষ্ট সংকেত থাকে, এবং ব্যাখ্যাকারী চিকিৎসকের কাজ হলো সেগুলোকে পাঠ্যবইয়ের একক “সঠিক উত্তর” খুঁজে বের করার বদলে পরস্পরের সঙ্গে তুলনা করে ওজন দেওয়া। যে ইঞ্জিন পাঠ্যবইয়ের কেসে ভালো করে, সেটি তবু সবচেয়ে গুরুত্বপূর্ণ কেসে ব্যর্থ হতে পারে: ডিফারেনশিয়াল-ডায়াগনোসিসের ফাঁদ, একা দেখলে উদ্বেগজনক মনে হওয়া নিরীহ ভ্যারিয়েন্ট, এবং পুরোপুরি স্বাভাবিক প্যানেল—যেগুলো আত্মবিশ্বাসী সহকারীকে প্যাথলজি “তৈরি” করতে প্রলুব্ধ করে।.

এই বেঞ্চমার্কটি ঠিক এই ব্যর্থতার ধরনগুলোকেই কেন্দ্র করে তৈরি করা হয়েছিল। পনেরোটি কেসের প্রতিটিকে একটি নির্দিষ্ট ডায়াগনস্টিক বৈশিষ্ট্যের জন্য বাছাই করা হয়: আয়রন-ঘাটতিজনিত মাইক্রোসাইটোসিস, যেটিকে একই mean corpuscular volume থাকা beta-thalassaemia trait থেকে আলাদা রাখতে হবে; Gilbert's syndrome-এর উপস্থাপনা, যেখানে একমাত্র অস্বাভাবিকতা হলো বিচ্ছিন্ন indirect hyperbilirubinaemia; এবং একটি পনেরো-প্যারামিটারের স্ক্রিনিং প্যানেল, যেখানে প্রতিটি অ্যানালাইটই তার রেফারেন্স রেঞ্জের ভেতরে থাকে। রুব্রিক এমন ইঞ্জিনকে পুরস্কৃত করে যেগুলো প্রতিটি কেসকে নিজের শর্তে পড়ে, এবং এমন ইঞ্জিনকে শাস্তি দেয় যেগুলো এমন ক্ষেত্রে আত্মবিশ্বাসী ডায়াগনোসিসে পৌঁছে যায় যেখানে সেই ডায়াগনোসিসের কোনো ভিত্তি নেই।.

ড. থমাস ক্লেইন হিসেবে, আমি কেস প্যানেলটি বেছে নিয়েছি কারণ এগুলোই সেই প্যাটার্ন যেগুলো ল্যাবরেটরি-মেডিসিন সহকারীরা সবচেয়ে বেশি ভুল করে।. ব্যয়বহুল ব্যর্থতার ধরনটি "দুর্লভ রোগ মিস করা" নয়—এটি এমন রোগীদের মধ্যে নিয়মিত প্যাথলজি বানিয়ে ফেলা, যাদের সেটি নেই।. আমাদের মেডিকেল ভ্যালিডেশন hub বৃহত্তর ফ্রেমওয়ার্ক বর্ণনা করে; এই পৃষ্ঠাটি V11 প্রাথমিক proof-of-concept এবং V11 দ্বিতীয় আপডেট বর্ণনা করে, যা একই স্কোরিং রুব্রিক ব্যবহার করে এটিকে 100,000টি সিন্থেটিক কেসে স্কেল করেছে—127টি দেশ-লেবেল জুড়ে বিস্তৃত একটি সিন্থেটিক কেস সেট থেকে নেওয়া; বাইট-আইডেন্টিক; এবং কোনো পোস্ট-হক টিউনিং অনুমোদিত নয়।.

২৬ এপ্রিল ২০২৬-এর V11 Second Update রেফারেন্স রানটি একটি কম্পোজিট স্কোর তৈরি করেছে

V11 প্রাথমিক রিলিজে ব্যবহৃত একই প্রি-রেজিস্টার্ড রুব্রিকের ওপর ভিত্তি করে, মূল্যায়ন করা হয়েছে 99.80% 100,000টি অ্যানোনিমাইজড কেসে 100,000টি সিন্থেটিক কেস Kantesti সিন্থেটিক কেস সেট থেকে নেওয়া এবং বিস্তৃত 127টি দেশ-লেবেল । ২৩ এপ্রিল ২০২৬-এর মূল V11 রানটিতে ছিল ১৫টি হাতে-নির্বাচিত কেস (কম্পোজিট 99.12%) এবং রুব্রিকটি যাচাই করা হয়েছিল; Second Update সেই রুব্রিকটি বাইট-একই রেখে জনসংখ্যা-স্কেলের একটি কহর্টে মূল্যায়ন সম্প্রসারিত করেছে। 0 / 87,412. 100,000-এর মধ্যে 100,000 কেসে স্কোর.

যৌগিক 99.80% 13.26 s

1.000 স্ট্রাকচারাল স্কোর

0.996 ক্লিনিক্যাল স্কোর

প্রাইমারি-পাথ সার্ভিস-লেভেল টার্গেটের বিপরীতে। নিচের রুব্রিক ফর্মুলায় সঠিক বিশ্লেষণ দেখানো হয়েছে—Second Update-এর জন্য এই ওজন বা সাব-রুব্রিকগুলোর কোনোটি পরিবর্তন করা হয়নি। গড় লেটেন্সি

0 / 87,412 ফাঁদ-সদৃশ ভুল পজিটিভ

যৌগিক সূত্রটি তিনটি উপাদানকে একত্র করে: স্ট্রাকচারাল সামঞ্জস্য সাতটি বাধ্যতামূলক রিপোর্ট সেকশন এবং ষোলটি বাধ্যতামূলক সাবসেকশনসহ, বিষয়বস্তুর যথার্থতা পরিমাপ করা হয় keyword recall + scoring-system recall + probability-distribution validity check দিয়ে, এবং রেসপন্স লেটেন্সি অবশিষ্ট 0.20 শতাংশ পয়েন্ট হেডরুম প্রায় পুরোপুরি ক্লিনিক্যাল সাব-স্কোরে ভেঙে যায়—কেসগুলোর একটি ছোট অংশে (প্রধানত Hepatology এবং Rheumatology-তে) ডায়াগনস্টিক কনটেন্ট সঠিক থাকা সত্ত্বেও ইঞ্জিনের ব্যাখ্যায় একটি প্রত্যাশিত স্কোরিং-সিস্টেম কীওয়ার্ড অনুপস্থিত ছিল।.

যৌগিক = 0.35 × স্ট্রাকচারাল + 0.55 × ক্লিনিক্যাল + 0.10 × লেটেন্সি

100,000-কেস Second-Update কহর্টের কোনো কেসেই নিজে ডায়াগনোসিসটি মিস হয়নি।. V11 প্রাথমিক রিলিজে গড় 20.17 s থেকে Second Update-এ 13.26 s-এ লেটেন্সি উন্নত হয়েছে—দুই রানের মধ্যে প্রোডাকশন ইঞ্জিন অপ্টিমাইজেশন প্রতিফলিত করে; রুব্রিক, স্কোরিং কোড, এবং API এন্ডপয়েন্ট অপরিবর্তিত।. দেশভিত্তিক কম্পোজিট স্কোরগুলো 0.9971 (ভারত) থেকে 0.9985 (সুইজারল্যান্ড)-এর মধ্যে ছিল—সবচেয়ে বেশি প্রতিনিধিত্বকারী ৩০টি দেশের মধ্যে। অতিরিক্ত ৯৭টি দেশের লং টেইল (মোট ≈7,300 কেস) কোনো পদ্ধতিগত অবনতি দেখায়নি। কেস সংখ্যার ভিত্তিতে শীর্ষ অবদানকারীরা ছিল যুক্তরাষ্ট্র (10,500), ব্রাজিল (9,500), স্পেন (9,000), ইতালি (8,000), জার্মানি (7,800), ফ্রান্স (7,400), পর্তুগাল (5,800), Türkiye (3,400), যুক্তরাজ্য (2,900), এবং মেক্সিকো (2,500)।.

প্রতি-লেবেল কম্পোজিট স্কোর 30টি সর্বাধিক-প্রতিনিধিত্বশীল দেশ-লেবেলের ক্ষেত্রে 0.9971 থেকে 0.9985-এর মধ্যে ছিল। অতিরিক্ত 97টি লেবেলের দীর্ঘ লেজ (মোট ≈7,300 কেস) কোনো পদ্ধতিগত অবনতি দেখায়নি। কেস সংখ্যার ভিত্তিতে সর্বাধিক ঘন ঘন লেবেলগুলো ছিল: যুক্তরাষ্ট্র (10,500), ব্রাজিল (9,500), স্পেন (9,000), ইতালি (8,000), জার্মানি (7,800), ফ্রান্স (7,400), পর্তুগাল (5,800), Türkiye (3,400), যুক্তরাজ্য (2,900), এবং মেক্সিকো (2,500)।.

১৫টি কেস থেকে 100,000: 127টি দেশ-লেবেল জুড়ে কোহর্টের বিবর্তন

মূল V11 কেস প্যানেলে সাতটি বিশেষত্ব ছিল—হেমাটোলজি, এন্ডোক্রিনোলজি, মেটাবলিক মেডিসিন, হেপাটোলজি, নেফ্রোলজি, কার্ডিওলজি, রিউমাটোলজি—এবং আরও দুটি নিবেদিত হাইপারডায়াগনোসিস ট্র্যাপ কেস; প্রতিটি কেস ছিল একটি সিন্থেটিকভাবে তৈরি রক্ত-পরীক্ষার প্যানেল। V11 দ্বিতীয় আপডেট মূল্যায়নকে প্রসারিত করে 127টি দেশ-লেবেল জুড়ে 100,000টি সিন্থেটিক কেসে, hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology—এবং আরও দুটি trap কেসসহ V11 প্রাথমিক কেস-প্যানেল ডিজাইন: Gilbert's syndrome এবং সম্পূর্ণ স্বাভাবিক একটি screening প্যানেল। Second Update এই রুব্রিকটি বাইট-একই রেখে কহর্টকে Kantesti SQL রিপোজিটরি থেকে নেওয়া 100,000 কেসে সম্প্রসারিত করে।.

যেহেতু সব কেসই সিন্থেটিকভাবে তৈরি, তাই অপসারণ করার মতো কোনো বাস্তব শনাক্তকারী নেই এবং কোনো ব্যক্তিগত ডেটা জড়িত নয়। প্রতিটি সিন্থেটিক কেসে একটি বেঞ্চমার্ক-অভ্যন্তরীণ কেস কোড থাকে (V11 প্রাথমিক সেটে BT-NNN-LABEL, একটি স্থিতিশীল । প্রসেসিং করা হয়েছিল দ্বিতীয় আপডেটে)। প্রকাশিত হারনেস, প্রযুক্তিগত প্রতিবেদন, বা রিলিজড ডেটাসেট—কোথাও কোনো ব্যক্তিগত ডেটা দেখা যায় না।.

V11 initial release — 15 hand-curated cases

মূল V11 কেস প্যানেলটি ড. থমাস ক্লেইন হাতে বাছাই করেছিলেন, যাতে ল্যাবরেটরি-মেডিসিন সহকারীরা যে ডায়াগনস্টিক প্যাটার্নগুলো সবচেয়ে বেশি ভুল করে সেগুলো অনুশীলন করানো যায়। নিচে তালিকাভুক্ত প্রতিটি পনেরোটি কেসকে একটি নির্দিষ্ট ডায়াগনস্টিক বৈশিষ্ট্যের জন্য নির্বাচন করা হয়েছিল।.

হেমাটোলজি (৩) BT-001, BT-006, BT-007 আয়রন ডেফিসিয়েন্সি অ্যানিমিয়া · B12 এর অভাব · বিটা-থ্যালাসেমিয়া মাইনর

এন্ডোক্রিনোলজি (৩) BT-002, BT-008, BT-012 হাশিমোটোর থাইরয়েডাইটিস · ইনসুলিন রেজিস্ট্যান্সসহ PCOS · তীব্র ভিটামিন ডি এর অভাব

মেটাবলিক (২) BT-003, BT-013 মেটাবলিক সিনড্রোমসহ T2DM · গাউটের ঝুঁকিসহ হাইপারইউরিকেমিয়া

হেপাটোলজি (২) BT-004, BT-009 NAFLD / NASH · তীব্র ভাইরাল হেপাটাইটিস

নেফ্রোলজি · কার্ডিওলজি · রিউমাটোলজি (৩) BT-005, BT-010, BT-011 CKD স্টেজ ৩ · অ্যাথেরোজেনিক ডিসলিপিডেমিয়া · সিস্টেমিক লুপাস এরিথেমাটোসাস

ট্র্যাপ কেস (২) BT-014, BT-015 গিলবার্টস সিনড্রোম (একাকী ইনডাইরেক্ট হাইপারবিলিরুবিনেমিয়া) · সম্পূর্ণ স্বাভাবিক প্রাপ্তবয়স্ক স্ক্রিন

কেন এই নির্দিষ্ট বণ্টন

বাস্তব-জগতের ল্যাবরেটরি চর্চায় সর্বোচ্চ-ভলিউমের ফাঁদ হিসেবে মাইক্রোসাইটিক ডিফারেনশিয়াল এবং ম্যাক্রোসাইটিক ডিফারেনশিয়াল থাকায় হেমাটোলজি তিনটি কেস পায়। হ্যাশিমোটো, PCOS, এবং ভিটামিন ডি এর অভাব—এই উপস্থাপনাগুলো ভিন্ন ভিন্ন ডায়াগনস্টিক আকার অনুশীলন করায় (অটোঅ্যান্টিবডি-চালিত, হরমোন-অনুপাত-চালিত, একক-মার্কার-চালিত) এন্ডোক্রিনোলজি তিনটি কেস পায়। একক-কেসের বিশেষত্বগুলো এখনো তাৎপর্যপূর্ণ, কারণ CKD, ASCVD ঝুঁকি, এবং SLE—প্রতিটিরই নিজস্ব স্কোরিং সিস্টেম আছে, যা ইঞ্জিনকে আহ্বান করা উচিত (ক্রমশ KDIGO স্টেজিং, ASCVD ১০-বছরের ঝুঁকি, এবং ২০১৯ EULAR/ACR SLE মানদণ্ড)।.

V11 দ্বিতীয় আপডেট — 127টি দেশ-লেবেল জুড়ে 100,000টি সিন্থেটিক কেস

দ্বিতীয় আপডেট মূল V11 হার্ড-কোডেড 15-কেস Python লিটারালকে একটি বড়, প্রোগ্রাম্যাটিকভাবে তৈরি সিন্থেটিক কেস সেট দিয়ে প্রতিস্থাপন করে। কেস সেটটি প্রতিটি রান-এর শুরুতে লোড করা হয় এবং স্বচ্ছতার জন্য কনফিগারেশন লগ করা হয়। কনটেন্ট এরিয়া অনুযায়ী কোহর্টের বণ্টন নিচে দেখানো হয়েছে।.

এন্ডোক্রিনোলজি 23,900টি কেস (23.9%) থাইরয়েড, PCOS, ভিটামিন ডি, গোনাডাল অক্ষ, পিটুইটারি

মেটাবলিক মেডিসিন 21,900টি কেস (21.9%) T2DM, মেটাবলিক সিনড্রোম, লিপিড প্যানেল, হাইপারইউরিসেমিয়া

হেমাটোলজি 15,400টি কেস (15.4%) মাইক্রোসাইটিক ও ম্যাক্রোসাইটিক ডিফারেনশিয়াল, B12/ফোলেট, আয়রন স্টাডিজ

হেপাটোলজি 12,400টি কেস (12.4%) NAFLD/NASH, ভাইরাল হেপাটাইটিস, FIB-4, কোলেস্টেসিস

ইন্টারনাল মেডিসিন (ট্র্যাপ সাবসেটসহ) 9,000টি কেস (9.0%) মিশ্র উপস্থাপনা এবং 8,723টি নিবেদিত হাইপারডায়াগনোসিস ট্র্যাপ কেস

কার্ডিওলজি 7,500টি কেস (7.5%) ASCVD ঝুঁকি, অ্যাথেরোজেনিক ডিসলিপিডেমিয়া, hs-CRP

রিউমাটোলজি 6,000টি কেস (6.0%) SLE, RA, ভাস্কুলাইটিস, অটোঅ্যান্টিবডি প্যানেল (EULAR/ACR মানদণ্ড)

নেফ্রোলজি 4,000টি কেস (4.0%) CKD স্টেজিং (KDIGO), eGFR ট্রেন্ড, ইলেক্ট্রোলাইটের ব্যাঘাত

কৃত্রিম দেশ-লেবেল বণ্টন — শীর্ষ 10টি লেবেল

100,000টি কৃত্রিম কেসে 127টি দেশ-লেবেল (ISO 3166-1 alpha-2) রয়েছে, যা লোকেল হ্যান্ডলিং অনুশীলনের জন্য ব্যবহৃত। লেবেল বরাদ্দ: ইউরোপ 57.7%, আমেরিকাস 25.4%, এশিয়া-প্যাসিফিক 6.2%, নামকৃত মধ্যপ্রাচ্য/আফ্রিকা লেবেল 3.4%, এবং অতিরিক্ত 97টি লেবেলের একটি দীর্ঘ লেজ মোটামুটি 7.3% একত্রে। কেস সংখ্যার ভিত্তিতে সর্বাধিক ঘন ঘন দশটি লেবেল হলো যুক্তরাষ্ট্র (10,500), ব্রাজিল (9,500), স্পেন (9,000), ইতালি (8,000), জার্মানি (7,800), ফ্রান্স (7,400), পর্তুগাল (5,800), Türkiye (3,400), যুক্তরাজ্য (2,900), এবং মেক্সিকো (2,500)। প্রতি-লেবেল কম্পোজিট স্কোর 0.9971 থেকে 0.9985-এর মধ্যে। এই লেবেল গণনাগুলো লোকেল হ্যান্ডলিং অনুশীলনের জন্য ব্যবহৃত জেনারেটেড কেসগুলোর বৈশিষ্ট্য—এগুলো বাস্তব ব্যবহারকারী নয় এবং বাস্তব-জগতের ভৌগোলিক কভারেজও নয়।.

প্রি-রেজিস্টার্ড রুব্রিক, ব্যাখ্যাসহ

এই বেঞ্চমার্কে প্রি-রেজিস্ট্রেশনই এককভাবে সবচেয়ে গুরুত্বপূর্ণ পদ্ধতিগত সিদ্ধান্ত। প্রত্যাশিত প্রতিটি ডায়াগনসিস, প্রতিটি ক্লিনিক্যাল স্কোরিং সিস্টেম, এবং প্রতিটি রিপোর্ট সেকশন সোর্স কোডে কমিট করা হয়েছিল ইঞ্জিন আহ্বান করার আগেই. । তাই ইঞ্জিনকে খুশি করার জন্য রুব্রিকের পোস্ট-হক টিউনিং করা অসম্ভব।.

কম্পোজিট স্কোর গঠনে তিনটি উপাদান আছে। কাঠামোগত উপাদান ৩৫ শতাংশ অবদান রাখে এবং ইঞ্জিনটি সাতটি বাধ্যতামূলক রিপোর্ট সেকশন (হেডার, সারাংশ, মূল ফলাফল, ডিফারেনশিয়াল, স্কোরিং সিস্টেম, সুপারিশ, ফলো-আপ) এবং এগুলোর ভেতরে থাকা ষোলটি বাধ্যতামূলক সাবসেকশন ফিরিয়ে দিয়েছে কি না তা মাপে। সেকশন উপস্থিতি কাঠামোগত গণনায় ৪০ শতাংশ ও সাবসেকশন উপস্থিতি ৬০ শতাংশ ওজন বহন করে।.

দ্য ক্লিনিক্যাল উপাদান ৫৫ শতাংশ অবদান রাখে এবং তিনটি বিষয়কে একত্র করে: ডায়াগনসিস-কীওয়ার্ড রিকল (ক্লিনিক্যাল সাব-স্কোরের ৭০ শতাংশ), স্কোরিং-সিস্টেম রিকল (২০ শতাংশ—প্রাসঙ্গিক হলে ইঞ্জিন কি Mentzer, FIB-4, HOMA-IR, ASCVD ঝুঁকি, KDIGO স্টেজিং, EULAR/ACR মানদণ্ড গণনা করে), এবং সম্ভাব্যতা-সম বৈধতা যাচাই (১০ শতাংশ—ডিফারেনশিয়াল সম্ভাব্যতাগুলো [৯০, ১১০] অন্তর্ভুক্তির মধ্যে যোগফল হওয়া উচিত)। ফাঁদ কেসগুলোর জন্য সর্বোচ্চ ০.৩০ পর্যন্ত একটি স্পষ্ট হাইপারডায়াগনসিস পেনাল্টি কাটা হয়—প্রতি বানানো প্যাথলজি ফ্ল্যাগে ০.১০ করে গণনা, এবং সর্বোচ্চ তিনটি ফ্ল্যাগে সীমাবদ্ধ।.

দ্য লেটেন্সি উপাদান ১০ শতাংশ অবদান রাখে। ২০ সেকেন্ডের কমে উত্তর দিলে পূর্ণ ০.১০, ৪০ সেকেন্ডের কমে হলে ০.০৫, এবং এর চেয়ে ধীর হলে শূন্য। ২০ সেকেন্ডের লক্ষ্যটি প্রোডাকশন প্রাইমারি-পাথ সার্ভিস-লেভেল উদ্দেশ্যকে প্রতিফলিত করে; ৪০ সেকেন্ডের সীমা ভারী-ইঞ্জিন আহ্বানের জন্য ফেজ ২-এর ব্যাকআপ বাজেটকে প্রতিফলিত করে।.

প্রি-রেজিস্ট্রেশন কী প্রতিরোধ করে

ফার্স্ট-পার্টি বেঞ্চমার্কগুলো পোস্ট-হক রুব্রিক টিউনিংয়ের মাধ্যমে নিজেদের সংখ্যা ফুলিয়ে দেওয়ার জন্য কুখ্যাত। প্যাটার্নটা প্রায় সবসময় একই: দল ইঞ্জিন চালায়, কোথায় কম পারফর্ম করছে দেখে, তারপর নীরবে রুব্রিক এমনভাবে সামঞ্জস্য করে যাতে কম পারফর্ম করা ক্ষেত্রগুলোর ওজন কমে যায়। প্রথম ইঞ্জিন কলের আগে রুব্রিককে সোর্স কোডে কমিট করা এবং MIT লাইসেন্সের অধীনে হারনেস প্রকাশ করার ফলে এই সামঞ্জস্য ভার্সন কন্ট্রোলে দৃশ্যমান হয়ে ওঠে। যে কেউ রিপোজিটরি ক্লোন করতে পারে, রুব্রিক লেখকের তারিখ যাচাই করতে পারে, এবং নিশ্চিত করতে পারে যে ইঞ্জিনের ফলাফল স্কোরিংকে গঠন করতে ব্যবহার করা হয়নি।.

হাইপারডায়াগনোসিস ট্র্যাপ কেস — কেন অতিরিক্ত ডাকাই আসল ব্যর্থতার ধরন

স্বাভাবিক স্ক্রিনে প্যাথলজি নিয়ে আক্রমণাত্মকভাবে অতিরিক্ত কল করা কনজিউমার-ফেসিং মেডিক্যাল অ্যাসিস্ট্যান্টদের নথিভুক্ত ব্যর্থতার ধরন। এর পরবর্তী খরচগুলোর মধ্যে রয়েছে অপ্রয়োজনীয় তদন্ত, রোগীর উদ্বেগ, এবং চিকিৎসাজনিত (iatrogenic) ওয়ার্কআপ। এই বেঞ্চমার্কের দুইটি ফাঁদ কেস এমনভাবে ডিজাইন করা হয়েছে যাতে এই ব্যর্থতার ধরন দৃশ্যমান এবং স্কোরযোগ্য হয়।.

🟡 ফাঁদ ১ — BT-014-GILBERT

উপস্থাপনা।. মোট বিলিরুবিন ২.৪ mg/dL সহ ২৪ বছর বয়সী একজন পুরুষ। ডাইরেক্ট অংশ স্বাভাবিক, ট্রান্সঅ্যামিনেজ এবং অ্যালকালাইন ফসফাটেজ তাদের রেফারেন্স রেঞ্জের ভেতরে আছে, রেটিকুলোসাইটগুলো উল্লেখযোগ্য নয়, এবং হ্যাপ্টোগ্লোবিন ও LDH হিমোলাইসিসকে বাদ দেয়।.

সঠিক ব্যাখ্যা।. গিলবার্টের সিন্ড্রোম—একটি সুশীল UGT1A1 পলিমরফিজম। ব্যাখ্যায় হেপাটাইটিস, সিরোসিস, হিমোলাইটিক অ্যানিমিয়া, বা বিলিয়ারি অবস্ট্রাকশন আহ্বান করা উচিত নয়।.

V11 ফলাফল।. কম্পোজিট 1.000। ছয়টি পর্যবেক্ষিত অতিরিক্ত-ডায়াগনসিস ফ্ল্যাগের কোনোটিই সক্রিয় ডায়াগনসিস হিসেবে দেখা যায়নি।.

🟡 ফাঁদ ২ — BT-015-HEALTHY

উপস্থাপনা।. পনেরো-প্যারামিটারের একটি নিয়মিত স্ক্রিনিং প্যানেলসহ ৩৫ বছর বয়সী একজন নারী। প্রতিটি অ্যানালাইটই তার রেফারেন্স রেঞ্জের ভেতরে স্বাচ্ছন্দ্যে অবস্থান করছে।.

সঠিক ব্যাখ্যা।. আশ্বাস প্রদান এবং জীবনযাত্রা বজায় রাখা। ব্যাখ্যাটি এমন কোনো সীমান্তবর্তী রোগতত্ত্ব তৈরি করবে না যা ক্লিনিক্যালভাবে উপকারী শোনানোর জন্য বানানো হয়েছে।.

V11 ফলাফল।. কম্পোজিট 1.000। সাতটি পর্যবেক্ষিত অতিরিক্ত-রোগ নির্ণয়ের (over-diagnosis) কোনো ফ্ল্যাগ—ডায়াবেটিস, রক্তাল্পতা, হাইপোথাইরয়েডিজম, ডিসলিপিডেমিয়া, হেপাটাইটিস, কিডনি রোগ, অভাব—সক্রিয় রোগ নির্ণয় হিসেবে দেখা যায়নি।.

উভয় ট্র্যাপে মোট তেরোটি পর্যবেক্ষিত হাইপারডায়াগনোসিস ফ্ল্যাগ পরীক্ষা করা হয়েছিল। কোনোটি ট্রিগার হয়নি। যে ফলাফলটি যে কোনো চিকিৎসকের জন্য সবচেয়ে বেশি গুরুত্বপূর্ণ, যিনি AI ইঞ্জিনকে ট্রায়াজ বা প্রি-কনসাল্টেশন টুল হিসেবে ব্যবহার করার কথা ভাবছেন: সিস্টেম কোনো রোগ উদ্ভাবন করেনি যেখানে রোগ ছিল না.

মেন্টজার ইনডেক্স: আয়রন ডেফিসিয়েন্সি থেকে থ্যালাসেমিয়া ট্রেইট আলাদা করা

আরেকটি উচ্চ-মূল্যের সন্ধান হলো কেস BT-001 (আয়রন ডেফিসিয়েন্সি অ্যানিমিয়া) এবং কেস BT-007 (বিটা-থ্যালাসেমিয়া মাইনর)-এর জোড়া। উভয় ক্ষেত্রেই মাইক্রোসাইটোসিস দেখা যায় এবং এটি নবীন ক্লাসিফায়ারদের জন্য সুপরিচিত একটি বাধা। মেন্টজার সূচক, যা MCV কে RBC গণনা দিয়ে ভাগ করে হিসাব করা হয়, আয়রন ডেফিসিয়েন্সিতে ১৩-এর বেশি এবং থ্যালাসেমিয়া ট্রেইটে ১৩-এর নিচে থাকে।.

BT-001-এ রোগী ছিলেন ৩৪ বছর বয়সী একজন নারী, হিমোগ্লোবিন 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ফেরিটিন 6 ng/mL, এবং TIBC বৃদ্ধি ছিল। প্রায় ১৭.৭ মেন্টজার সূচকটি নিশ্চিত করে যে এটি সুনির্দিষ্ট (absolute) আয়রন ডেফিসিয়েন্সি। BT-007-এ রোগী ছিলেন ২৮ বছর বয়সী একজন পুরুষ, মাইক্রোসাইটোসিস (MCV 65.8 fL) ছিল কিন্তু RBC গণনা ছিল বেশি 6.2, RDW স্বাভাবিক, ফেরিটিন স্বাভাবিক, এবং HbA2 ছিল ৫.৬ শতাংশ। প্রায় ১০.৬ মেন্টজার সূচকটি থ্যালাসেমিয়া ট্রেইটের দিকে ইঙ্গিত করে, এবং বৃদ্ধি পাওয়া HbA2 বিটা-থ্যালাসেমিয়া মাইনর নিশ্চিত করে।.

আয়রন ডেফিসিয়েন্সি অ্যানিমিয়া মেন্টজার > 13 কম ফেরিটিন, কম TSAT, উচ্চ TIBC, বৃদ্ধি পাওয়া RDW

বিটা-থ্যালাসেমিয়া ট্রেইট মেন্টজার < 13 স্বাভাবিক ফেরিটিন, স্বাভাবিক RDW, বৃদ্ধি পাওয়া HbA2 (>3.5%), উচ্চ RBC গণনা

উভয় কেসই 1.000 স্কোর করেছে। ইঞ্জিন উভয় ব্যাখ্যায় মেন্টজার সূচকটি স্পষ্টভাবে ব্যবহার করেছে এবং প্রতিটি ক্ষেত্রেই সঠিক রোগ নির্ণয় ফিরিয়ে দিয়েছে।. পুরো বেঞ্চমার্কে এটি এককভাবে সবচেয়ে বেশি ক্লিনিক্যালি আশ্বাসদায়ক ফলাফল, কারণ থ্যালাসেমিয়া ট্রেইটকে আয়রন ডেফিসিয়েন্সি হিসেবে ভুল শ্রেণিবদ্ধ করলে অনুপযুক্ত আয়রন সাপ্লিমেন্টেশন হয় এবং পারিবারিক স্ক্রিনিংয়ের সুযোগ মিস হয়; আর আয়রন ডেফিসিয়েন্সিকে থ্যালাসেমিয়া হিসেবে ভুল শ্রেণিবদ্ধ করলে সহজ সরল রিপ্লেসমেন্ট থেরাপি দেরিতে শুরু হয়। আমাদের ফেরিটিন রেঞ্জ গাইড বৃহত্তর ডিফারেনশিয়াল প্রেক্ষাপট ব্যাখ্যা করে।.

V11 প্রাথমিক রেফারেন্স রান থেকে প্রতি-কেস ফলাফল (২৩ এপ্রিল, ২০২৬)

১৫-কেস প্রুফ-অফ-কনসেপ্ট কোহর্টে মূল V11 রেফারেন্স রানটি কাজ করে পদ্ধতিগত ভিত্তি হিসেবে Second Update-এর জন্য: নিচের প্রতিটি প্রতি-কেস বিশদ দেখায় কীভাবে রুব্রিক একটি বাস্তব ইঞ্জিন রেসপন্স পরিচালনা করে। পনেরোটি কেসের মধ্যে বারোটি প্রাইমারি পথে 1.000 সর্বোচ্চ যৌগিক স্কোর অর্জন করেছে; তিনটি কেস Phase 2 fallback-এর মাধ্যমে পরিবেশন করা হয়, ফলে 0.05 লেটেন্সি বোনাস হারালেও সব ক্লিনিক্যাল ও কাঠামোগত কনটেন্ট বজায় থাকে। একটি কেসে একটি একক বাধ্যতামূলক সাবসেকশন অনুপস্থিত ছিল; একটি কেসে সম্ভাব্যতার বণ্টনের যোগফল সামান্য কমে ফিরে এসেছে।.

কেস আইডি স্পেশালিটি যৌগিক লেটেন্সি পাথ

BT-001-IDAহেমাটোলজি1.00017.8 sপ্রাইমারি

BT-006-B12হেমাটোলজি1.00018.4 সেকেন্ডপ্রাইমারি

BT-007-থ্যালাসেমিয়াহেমাটোলজি1.00017.0 সেকেন্ডপ্রাইমারি

BT-002-হ্যাশএন্ডোক্রিনোলজি0.95037.0 সেকেন্ডফallback

BT-008-PCOSএন্ডোক্রিনোলজি0.98718.6 সেকেন্ডপ্রাইমারি

BT-003-T2DMবিপাকীয়1.00019.1 সেকেন্ডপ্রাইমারি

BT-013-গাউটবিপাকীয়1.00019.4 সেকেন্ডপ্রাইমারি

BT-004-NAFLDহেপাটোলজি1.00019.6 সেকেন্ডপ্রাইমারি

BT-009-ভাইরহেপহেপাটোলজি0.95023.4 সেকেন্ডফallback

BT-014-গিলবার্টট্র্যাপ1.00018.9 সেকেন্ডপ্রাইমারি

BT-005-CKDনেফ্রোলজি1.00017.4 সেকেন্ডপ্রাইমারি

BT-010-ASCVDকার্ডিওলজি1.00019.7 সেকেন্ডপ্রাইমারি

BT-011-SLEরিউমাটোলজি0.98118.2 সেকেন্ডপ্রাইমারি

BT-012-VITDএন্ডোক্রিনোলজি1.00019.3 সেকেন্ডপ্রাইমারি

BT-015-HEALTHYট্র্যাপ1.00018.7 সেকেন্ডফallback

PCOS কেসটি (BT-008) প্রতিক্রিয়া কাঠামোতে একটি বাধ্যতামূলক উপ-সেকশন হারিয়েছে—ষোলটির মধ্যে পনেরোটি পরিবর্তে ষোলটির মধ্যে ষোলটি—যার ফলে কাঠামোগত স্কোর 1.000 থেকে 0.963 এ নেমে আসে। SLE কেসটি (BT-011) একটি সামান্য কমে যাওয়া সম্ভাব্যতা-বণ্টন সম ফেরত দেয়, যা ডায়াগনস্টিক স্কোরকে 0.965 এ নামিয়ে আনে, তবে প্রতিটি ডায়াগনস্টিক কীওয়ার্ড এবং স্কোরিং সিস্টেম অক্ষুণ্ণ রাখে। কোনো সাব-পারফেক্ট কেসই সঠিক রোগ নির্ণয় মিস করেনি।.

V11 Second Update সমষ্টিগত — 100,000 কেস

জনসংখ্যার স্কেলে পৃথক কেসের সারিগুলো মানুষের পঠনযোগ্য নয়, তাই দ্বিতীয় আপডেটটি 100,000-সারির টেবিলের বদলে সমষ্টিগত (aggregated) মেট্রিক রিপোর্ট করে। নিচে প্রধান (headline) সমষ্টিটি দেখানো হয়েছে; বিশেষত্বভিত্তিক এবং প্রতি-দেশ-লেবেলভিত্তিক বিশ্লেষণ প্রযুক্তিগত প্রতিবেদনে এবং Figshare ডিপোজিটে প্রকাশ করা হয়েছে। একটি স্তরীকৃত র‍্যান্ডম নমুনা of n = 201 কাঁচা ইঞ্জিন রেসপন্স (নির্ধারিত seed 20260426) পরিদর্শনের জন্য GitHub-এর results/ ডিরেক্টরিতে প্রকাশ করা হয়েছে।.

যৌগিক স্কোর V11 প্রাথমিক: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 100,000-কেস কোহর্ট জুড়ে

কাঠামোগত স্কোর (গড়) V11 প্রাথমিক: 0.998 → Second Update: 1.000 জনসংখ্যার স্কেলে নিখুঁত কাঠামোগত সামঞ্জস্য

ক্লিনিক্যাল স্কোর (গড়) V11 প্রাথমিক: 0.998 → Second Update: 0.996 −0.002; কোনো কেসেই রোগনির্ণয়টি নিজে মিস হয়নি

লেটেন্সি — গড় (পরিসর) V11 প্রাথমিক: 20.17 সেকেন্ড (17.0–37.0 সেকেন্ড) → দ্বিতীয় আপডেট: 13.26 সেকেন্ড (9.0–16.94 সেকেন্ড) রানগুলোর মধ্যে প্রোডাকশন ইঞ্জিন অপ্টিমাইজেশন

ইঞ্জিন পথ = প্রাইমারি V11 প্রাথমিক: 12 / 15 → দ্বিতীয় আপডেট: 100,000 / 100,000 রান চলাকালীন কোনো পর্যায়েই ফেজ 2 ফallback প্রয়োজন হয়নি

ট্র্যাপ-সাবসেট হাইপারডায়াগনসিস ফ্ল্যাগ V11 প্রাথমিক: 0 / 13 → দ্বিতীয় আপডেট: 0 / 87,412 জনসংখ্যা-স্কেলে শূন্য false-positive (8,723টি ট্র্যাপ কেস পর্যবেক্ষণ করা হয়েছে)

হেডলাইন স্কোর আমাদের কী বলে না

এই নির্দিষ্ট প্রি-রেজিস্টার্ড রুব্রিকের অধীনে 99.80 শতাংশ কম্পোজিট স্কোর, 127টি দেশ-লেবেল জুড়ে বিস্তৃত 100,000-কেস সিন্থেটিক কোহর্টে, প্রায়-সিলিং পারফরম্যান্স নির্দেশ করে—তবে এটিকে সতর্কভাবে প্রেক্ষাপটে রাখা উচিত। ফলাফলটি V11-এ আমরা যে সোর্স কোডে কমিট করেছি সেই রুব্রিকের বিপরীতে ইঞ্জিনের আচরণ বর্ণনা করে; এটি বাস্তবে বিদ্যমান প্রতিটি রক্ত-পরীক্ষার প্যানেলে ইঞ্জিনের সঠিকতা সম্পর্কে কোনো সর্বজনীন দাবি নয়।.

স্কোরটি বলে যে, এই মূল্যায়নের জন্য নির্বাচিত ডায়াগনস্টিক প্যাটার্নগুলো ইঞ্জিনটি জনসংখ্যা-স্কেলের কোহর্ট জুড়ে সঠিকভাবে পরিচালনা করেছে, এমন একটি পদ্ধতিতে যা প্রকাশিত এবং পুনরুত্পাদনযোগ্য। এটি বলে না যে, বাস্তবে বিদ্যমান প্রতিটি রক্ত পরীক্ষার প্যানেলে ইঞ্জিনটি সঠিক। এটি বলে না যে, ইঞ্জিনটি ক্লিনিশিয়ানদের বিচার-বিবেচনাকে প্রতিস্থাপন করা উচিত। এবং এটি বলে না যে, ইঞ্জিনটি বিকল্প এআই সিস্টেমগুলোর চেয়ে ভালো — অন্য ইঞ্জিনগুলোর সাথে তুলনামূলক বিশ্লেষণ ইচ্ছাকৃতভাবে এই প্রতিবেদনের আওতার বাইরে রাখা হয়েছিল।.

স্কোরটি যা প্রতিষ্ঠা করে তা হলো একটি বেসলাইন। রুব্রিক এবং হারনেস প্রকাশ্য থাকায়, ইঞ্জিনের ভবিষ্যৎ সংস্করণগুলো একই রুব্রিকের বিপরীতে মূল্যায়ন করা যাবে — V11 প্রাথমিক 15টি কেসে, দ্বিতীয় আপডেটের 100,000-কেস কোহর্টে, অথবা পরবর্তী যেকোনো সম্প্রসারণে — এবং প্রকাশিত স্কোর ও পরবর্তী যেকোনো রান-এর মধ্যকার ব্যবধান নিজেই পরিমাপযোগ্য। প্রি-রেজিস্ট্রেশনের মূল্য এখানেই: এটি পারফরম্যান্স দাবিকে পরীক্ষাযোগ্য দাবিতে রূপান্তর করে.

১০ মিনিটে কীভাবে এই বেঞ্চমার্ক পুনরুত্পাদন করবেন

পুনরুত্পাদনের জন্য কেবল একটি Kantesti API credential pair এবং Python 3.10 বা পরবর্তী সংস্করণের একটি পরিবেশ প্রয়োজন, যেখানে requests এবং reportlab লাইব্রেরিগুলো ইনস্টল করা আছে। সম্পূর্ণ হারনেসটি MIT লাইসেন্সের অধীনে প্রকাশিত একটি একক, স্বয়ংসম্পূর্ণ Python মডিউল।.

💻 GitHub MIT-লাইসেন্সড হারনেস · কাঁচা প্রতিক্রিয়া · রেফারেন্স রান 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · ক্যানোনিকাল একাডেমিক রেকর্ড 🎓 রিসার্চগেট Publication 404175463 · V11 Second Update · academic discovery layer 📄 একাডেমিয়া.এডু Paper 165956808 · V11 Second Update · academic discovery layer

একটি নতুন রান-এর জন্য চারটি ধাপ

এক।. রিপোজিটরি ক্লোন করুন: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. দুই।. requirements.txt ফাইল থেকে নির্ভরশীলতা ইনস্টল করুন pip install -r requirements.txt (Second Update যোগ করে mysql-connector-python ≥ 8.0 SQL কেস লোডারের জন্য)।. তিন।. সেট করুন KANTESTI_USERNAME এবং KANTESTI_PASSWORD ইঞ্জিন API-এর জন্য পরিবেশ ভেরিয়েবল হিসেবে। দ্বিতীয় আপডেটের SQL কেস লোডারের জন্যও সেট করুন KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, এবং KANTESTI_DB_PASSWORD — লোডারটি একটি রিড-অনলি ভূমিকার মাধ্যমে সংযোগ করে (bench_reader) যার শনাক্তকারী টেবিলগুলোর ওপর কোনো বিশেষাধিকার নেই।. চার।. চালান python benchmark_bloodtest.py --limit 100000 সম্পূর্ণ Second-Update চালানোর জন্য, অথবা python benchmark_bloodtest.py --limit 1000 দ্রুত পুনরাবৃত্তির জন্য। আউটপুট জমা হয় ./benchmark_results/: একটি CSV স্কোরকার্ড যেখানে প্রতি-দেশ-লেবেল এবং প্রতি-বিশেষত্ব কলাম রয়েছে, একটি JSON সমষ্টি (aggregate), একটি স্তরীকৃত-র‍্যান্ডম কাঁচা-প্রতিক্রিয়া নমুনা, এবং একটি Markdown প্রতিবেদন।.

২৩ এপ্রিল ২০২৬ (V11 প্রাথমিক, ১৫টি কেস) এবং ২৬ এপ্রিল ২০২৬ (V11 Second Update, ১০০,০০০ কেস) থেকে রেফারেন্স রানগুলো রিপোজিটরির results/ ডিরেক্টরিতে সংরক্ষিত থাকে। আপনি নতুন করে চালালে একটি নতুন টাইমস্ট্যাম্পযুক্ত স্কোরকার্ড তৈরি হবে, তবে রেফারেন্স রানগুলো অপরিবর্তিত থাকবে। আপনার রান যদি অর্থপূর্ণভাবে ভিন্ন ফল দেয়, অনুগ্রহ করে রান টাইমস্ট্যাম্প এবং রেসপন্স মেটাডাটায় ফেরত পাওয়া ইঞ্জিন ভার্সনসহ একটি GitHub ইস্যু খুলুন।.

সীমাবদ্ধতা এবং ভবিষ্যৎ কাজ

127টি দেশ-লেবেল জুড়ে 100,000টি কেস হলেও, চারটি সীমাবদ্ধতা স্পষ্টভাবে স্বীকার করা উচিত: দীর্ঘ লেজ লেবেলগুলোর কম নমুনা (undersampling), একবারের (single-shot) মূল্যায়ন, একক-ইঞ্জিনের পরিধি (scope), এবং একক-উৎস ডেটা উৎপত্তি। এগুলোর প্রতিটিই সক্রিয় ফলো-আপ কাজে সমাধান করা হচ্ছে।.

দীর্ঘ লেজ লেবেল কভারেজ।. দ্বিতীয় আপডেটটি 127টি দেশ-লেবেল জুড়ে বিস্তৃত, কিন্তু বণ্টনটি অসম—শীর্ষ 10টি লেবেল মোট কেসের ≈66.4% দখল করে, এবং অতিরিক্ত 97টি লেবেলের দীর্ঘ লেজ একত্রে ≈7.3% যোগ করে (মোটামুটি 7,300 কেস মিলিয়ে, প্রতি লেবেলে গড় ~75 কেস)। তাই এই দীর্ঘ লেজে প্রতি-লেবেল কম্পোজিটগুলো শিরোনাম-সংখ্যা (headline figures) যা ইঙ্গিত করে তার চেয়ে বেশি নয়েজযুক্ত (noisier)। ভবিষ্যৎ রানগুলো প্রতি-লেবেল অনুমানকে আরও দৃঢ় করতে লেবেল বরাদ্দ পুনঃসমন্বয় (rebalance) করবে।.

একবারের মূল্যায়ন।. কোহর্টের প্রতিটি কেস একবার করে মূল্যায়ন করা হয়েছে। কম স্যাম্পলিং টেম্পারেচারেও বড় ভাষা মডেলগুলো উল্লেখযোগ্য আউটপুট ভ্যারিয়েন্স দেখায়, তাই প্রতি কেসে পাঁচটি মূল্যায়নসহ এবং রিপোর্ট করা ভ্যারিয়েন্সসহ একটি বহু-রান প্রোটোকল স্বাভাবিক পরবর্তী ধাপ—বিশেষ করে ট্র্যাপ-কেস সাবসেটের ক্ষেত্রে, যেখানে স্যাম্পলিং জিটার সত্ত্বেও সামঞ্জস্যতা নিরাপত্তা দাবির অংশ।.

একক-ইঞ্জিন পরিধি।. এই রিপোর্টটি একটি ইঞ্জিনকে বর্ণনা করে। বিকল্প AI সিস্টেমের বিরুদ্ধে তুলনামূলক বিশ্লেষণ এখানে আলোচনার বাইরে; আমরা একই MIT-লাইসেন্সড হারনেসের বিপরীতে উপযুক্ত পদ্ধতিসহ এগুলোকে একটি পৃথক স্বাধীন গবেষণা হিসেবে অনুসরণ করতে পারি।.

সিন্থেটিক ডেটা।. 100,000টি কেস সিন্থেটিকভাবে তৈরি—সিন্থেটিক কেস, এবং ফলাফল বাস্তব-জগতের ক্লিনিক্যাল পারফরম্যান্সে স্থানান্তরিত হয় না। বাস্তব, সম্মতিপ্রাপ্ত, বাহ্যিকভাবে-উৎসারিত ডেটায় মূল্যায়নের জন্য উপযুক্ত নৈতিক তত্ত্বাবধান প্রয়োজন এবং এটি এই সিন্থেটিক বেঞ্চমার্কের আওতার বাইরে।.

এই চারটির বাইরে, সবচেয়ে প্রভাবশালী পরিকল্পিত সম্প্রসারণ হলো প্রতি জুরিসডিকশনে বহুভাষিক সমতা। ১TP6T AI Engine ১TP32T ভাষায় ব্যবহারকারীদের সেবা দেয়, এবং ভাষা-স্তরীকৃত Second-Update সাব-কোহর্ট (তুর্কিশ, জার্মান, স্প্যানিশ, ফরাসি, ইতালীয়, পর্তুগিজ, আরবি, ম্যান্ডারিন) চালালে ইঞ্জিনের সমর্থিত ভাষাগুলোর মধ্যে আউটপুট মানের পরিমাপ করা হবে। প্রতিটি ভাষা-স্তরীকৃত বিশ্লেষণ নিজস্ব DOI এবং হারনেস ব্রাঞ্চসহ প্রকাশ করা হবে।.

যে একই ইঞ্জিনটি ১০০,০০০ কেসে ৯৯.১TP40T কম্পোজিট স্কোর অর্জন করেছে সেটাই চেষ্টা করুন

আপনার নিজের রক্ত পরীক্ষার প্যানেলটি এই বেঞ্চমার্কে মূল্যায়িত একই প্রোডাকশন এন্ডপয়েন্টে আপলোড করুন। বিশ্বব্যাপী ২ মিলিয়নেরও বেশি ব্যবহারকারী Kantesti AI Engine ব্যবহার করে 75+ ভাষায় ১৫,০০০+ বায়োমার্কার ব্যাখ্যা করেন।.

🔬 ফ্রি ডেমো ব্যবহার করে দেখুন

ক্রোম এক্সটেনশন অ্যাপ স্টোর গুগল প্লে

📚 এই বেঞ্চমার্ক কীভাবে উদ্ধৃত করবেন

BibTeX

@techreport{klein2026kantesti_v11_second_update,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {A Pre-Registered, Rubric-Based Automated Technical  
                 Benchmark of the Kantesti Blood-Test Interpretation  
                 Engine on 100,000 Synthetic Test Cases  
                 --- V11 Second Update},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11 (Second Update)},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026)।. ১TP6T রক্ত-পরীক্ষা ব্যাখ্যা ইঞ্জিনের উপর ১০০,০০০টি কৃত্রিম টেস্ট কেসে ১টি প্রি-রেজিস্টার্ড, রুব্রিক-ভিত্তিক স্বয়ংক্রিয় প্রযুক্তিগত বেঞ্চমার্ক — V11 দ্বিতীয় আপডেট (Technical Report V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 বাহ্যিক পদ্ধতিগত রেফারেন্স

Mentzer, W. C. (1973)।. থ্যালাসেমিয়া ট্রেইট থেকে আয়রন ডেফিসিয়েন্সি পার্থক্য করা. The Lancet, 301(7808), 882।.

🏥 পাবমেড

Aringer, M., Costenbader, K., Daikh, D., et al. (2019)।. সিস্টেমিক লুপাস এরিথেমাটোসাসের জন্য ২০১৯ ইউরোপীয় লিগ এগেইনস্ট রিউমাটিজম / আমেরিকান কলেজ অব রিউমাটোলজি শ্রেণিবিন্যাস মানদণ্ড. Arthritis & Rheumatology, 71(9), 1400–1412।.

🔗 ডিওআই 🏥 পাবমেড

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023)।. Med-HALT: বড় ভাষা মডেলের জন্য মেডিক্যাল ডোমেইন হ্যালুসিনেশন টেস্ট. Proceedings of CoNLL 2023।.

🔗 ACL Anthology

99.80%কম্পোজিট স্কোর

100,000স্কোর করা কেস

127কভার করা দেশ-লেবেল

0 / 87,412ট্র্যাপ ফালস-পজিটিভ

সচরাচর জিজ্ঞাস্য

Kantesti AI ইঞ্জিনটি কি কৃত্রিম টেস্ট কেসে কতটা নির্ভুল?

একটি প্রি-রেজিস্টার্ড রুব্রিকের অধীনে, আটটি কনটেন্ট এরিয়া জুড়ে এবং ১২৭টি দেশ-লেবেলসহ ১০০,০০০টি কৃত্রিমভাবে তৈরি টেস্ট কেসে (V11 দ্বিতীয় আপডেট) চালানোর পর, ইঞ্জিনটি ৯৯.৮০ শতাংশের একটি কম্পোজিট স্কোর অর্জন করেছে; ৮৭,৪১২টি পর্যবেক্ষিত ট্র্যাপ-কেস সুযোগের মধ্যে শূন্য হাইপারডায়াগনোসিস ফ্ল্যাগ এবং গড় প্রতিক্রিয়া বিলম্ব ছিল ১৩.২৬ সেকেন্ড। এই কম্পোজিটটি কৃত্রিম ইনপুটে আউটপুটের সামঞ্জস্য (conformance) পরিমাপ করে, ডায়াগনস্টিক নির্ভুলতা নয়। মূল V11 রিলিজ একই রুব্রিক ১৫টি হাতে-তৈরি কেসে প্রয়োগ করেছিল (কম্পোজিট ৯৯.১২১TP54T); দ্বিতীয় আপডেটটি রুব্রিকটিকে বাইট-আইডেন্টিক রাখে এবং এটিকে একটি বৃহত্তর কৃত্রিম কোহর্টে প্রসারিত করে। পূর্ণ স্কোরকার্ডটি Figshare-এ DOI 10.6084/m9.figshare.32095435 এবং GitHub-এ MIT লাইসেন্সের অধীনে প্রকাশিত।.

Kantesti এআই ইঞ্জিন কি ক্লিনিক্যালভাবে যাচাই করা হয়েছে?

না। ইঞ্জিনটি একটি স্বয়ংক্রিয় প্রযুক্তিগত বেঞ্চমার্কের মাধ্যমে মূল্যায়ন করা হয়েছে (ক্লিনিক্যাল ভ্যালিডেশন নয়), এমন একটি রুব্রিকের বিরুদ্ধে যা V11 প্রাথমিক রান-এর আগে সোর্স কোডে স্থির করা হয়েছিল এবং V11 দ্বিতীয় আপডেটের জন্য বাইট-একই রাখা হয়েছিল। মূল্যায়নটি 127টি দেশ-লেবেল থেকে সংগৃহীত হেমাটোলজি, এন্ডোক্রিনোলজি, মেটাবলিক মেডিসিন, হেপাটোলজি, নেফ্রোলজি, কার্ডিওলজি, রিউমাটোলজি এবং অভ্যন্তরীণ চিকিৎসা (internal medicine) জুড়ে 100,000টি কৃত্রিম রক্ত-পরীক্ষার কেসে করা হয়েছে। ক্লিনিক্যাল তত্ত্বাবধান প্রদান করেছিলেন ড. থমাস ক্লেইন, MD (ORCID 0009-0009-1490-1321), বোর্ড-সার্টিফাইড ক্লিনিক্যাল হেমাটোলজিস্ট এবং Kantesti AI-এর চিফ মেডিক্যাল অফিসার।.

হাইপারডায়াগনোসিস ট্র্যাপ কেস কী?

একটি হাইপারডায়াগনোসিস ট্র্যাপ কেস হলো এমন একটি ক্লিনিক্যাল পরিস্থিতি, যা বিশেষভাবে তৈরি করা হয় AI ইঞ্জিনে অতিরিক্ত রোগনির্ণয় (over-diagnosis) আচরণ শনাক্ত করার জন্য। V11 প্রাথমিক বেঞ্চমার্কে এমন দুইটি কেসকে পদ্ধতিগত প্রুফ-অফ-কনসেপ্ট হিসেবে ব্যবহার করা হয়: গিলবার্টস সিনড্রোমের সাথে সামঞ্জস্যপূর্ণ একটি বিচ্ছিন্ন (isolated) পরোক্ষ হাইপারবিলিরুবিনেমিয়া (যেখানে সঠিক ব্যাখ্যা হলো হেপাটাইটিস বা হিমোলাইসিস নয়, বরং UGT1A1 পলিমরফিজমের সৌম্য রূপ) এবং একটি সম্পূর্ণ স্বাভাবিক প্রাপ্তবয়স্ক স্ক্রিনিং প্যানেল (যেখানে সঠিক আউটপুট হলো আশ্বস্তকরণ, কোনো কৃত্রিমভাবে তৈরি সীমান্তবর্তী প্যাথলজি নয়)। V11 দ্বিতীয় আপডেট এই ট্র্যাপ-কেস পদ্ধতিটিকে 8,723 কেসের একটি নির্দিষ্ট সাবসেটে স্কেল করে, যার ফলে 87,412টি পর্যবেক্ষিত হাইপারডায়াগনোসিস ফ্ল্যাগের সুযোগ তৈরি হয়—এবং ইঞ্জিনের false-positive হার শূন্যই থাকে।.

Kantesti এআই ইঞ্জিনের মূল্যায়ন কি পুনরুত্পাদনযোগ্য?

পূর্ণ মূল্যায়ন (evaluation) হ্যারনেসটি MIT লাইসেন্সের অধীনে একটি একক, স্বয়ংসম্পূর্ণ Python মডিউল হিসেবে প্রকাশ করা হয়েছে। V11 প্রাথমিক রান চালাতে কেবল Kantesti API credential pair এবং Python 3.10 বা পরবর্তী সংস্করণ প্রয়োজন। V11 দ্বিতীয় আপডেট একটি প্যারামিটারাইজড, রিড-অনলি SQL কেস লোডার যোগ করে, যা Kantesti ক্লিনিক্যাল-রিপোজিটরি credential প্রয়োজন (একটি bench_reader এমন ভূমিকা (role) যার টেবিল শনাক্তকরণে কোনো সুবিধা (privileges) নেই)। কোড, কেস লোডারের SQL, রুব্রিক (রিলিজগুলোর মধ্যে বাইট-একই), এবং V11 প্রাথমিক ও দ্বিতীয় আপডেট—দুই রেফারেন্স রান থেকেই নেওয়া একটি স্তরভিত্তিক (stratified) র‍্যান্ডম নমুনা কাঁচা ইঞ্জিন রেসপন্স github.com/emirhanai/kantesti-blood-test-benchmark-এ পাওয়া যায় এবং Figshare, ResearchGate, ও Academia.edu-তেও মিরর করা আছে।.

Kantesti এআই ইঞ্জিন কীভাবে আয়রনের ঘাটতি থেকে বিটা-থ্যালাসেমিয়া বাহকের বৈশিষ্ট্য আলাদা করে?

ইঞ্জিনটি Mentzer index প্রয়োগ করে, যা গণনা করা হয় mean corpuscular volume কে red blood cell count দিয়ে ভাগ করে। Mentzer index 13-এর বেশি হলে আয়রন ডেফিসিয়েন্সি অ্যানিমিয়া সমর্থন করে, আর 13-এর নিচে হলে beta-thalassaemia trait সমর্থন করে। V11 প্রাথমিক বেঞ্চমার্কে উভয় উপস্থাপনাই (presentations) স্পষ্ট Mentzer index গণনার মাধ্যমে সঠিকভাবে শ্রেণিবদ্ধ করা হয়, যা ferritin, RDW, এবং HbA2 প্রসঙ্গ দ্বারা সমর্থিত। V11 দ্বিতীয় আপডেটের 100,000-কেস কোহর্ট জুড়ে একই ধরনের পার্থক্যমূলক আচরণ (differential behaviour) জনসংখ্যা-স্কেলেও বজায় থাকে।.

আমি কোথায় কাঁচা বেঞ্চমার্ক ডেটা এবং সোর্স কোড খুঁজে পেতে পারি?

টেকনিক্যাল রিপোর্টটি Figshare-এ DOI 10.6084/m9.figshare.32095435-এর অধীনে জমা দেওয়া হয়েছে (যা V11 প্রাথমিক রিলিজ এবং V11 দ্বিতীয় আপডেট—দুইটিকেই কভার করে), ResearchGate publication 404175463 এবং Academia.edu paper 165956808-এ মিরর করা হয়েছে—উভয়ই V11 দ্বিতীয় আপডেটের শিরোনাম এবং 100,000-কেস ফলাফলসহ আপডেট করা—এবং MIT-লাইসেন্সড Python হ্যারনেসটি, যেখানে সব রেফারেন্স রান ফলাফল আছে, সেটি github.com/emirhanai/kantesti-blood-test-benchmark-এ পাওয়া যাবে। চার-প্ল্যাটফর্ম মিরর নেটওয়ার্ক দীর্ঘমেয়াদি প্রাপ্যতা এবং উদ্ধৃতি (citation) নমনীয়তা নিশ্চিত করে।.

AI মেডিক্যাল বেঞ্চমার্কে প্রি-রেজিস্ট্রেশন কেন গুরুত্বপূর্ণ?

প্রি-রেজিস্ট্রেশন পোস্ট-হক রুব্রিক টিউনিং ঠেকায়—যা কোম্পানি-চালিত বেঞ্চমার্কগুলো নিজেদের সংখ্যা বাড়িয়ে দেখানোর সবচেয়ে সাধারণ একক উপায়। কোনো ইঞ্জিন কলের আগে রুব্রিককে সোর্স কোডে কমিট করে এবং হ্যারনেসটি প্রকাশ্যে প্রকাশ করে, রুব্রিক লেখকের তারিখগুলো ভার্সন কন্ট্রোলে যাচাইযোগ্য (inspectable) হয়ে যায়, এবং ইঞ্জিনের ফলাফল স্কোরিং মানদণ্ডকে প্রভাবিত করতে পারে না।.

এই বেঞ্চমার্ক কি অন্য AI ইঞ্জিনের সাথে তুলনা অন্তর্ভুক্ত করে?

না। V11 রিপোর্ট—প্রাথমিক রিলিজ এবং দ্বিতীয় আপডেট—ইচ্ছাকৃতভাবে একটি নির্দিষ্ট (fixed) রুব্রিকের বিপরীতে একক ইঞ্জিনকে বর্ণনা করে, বিকল্প কোনো বাণিজ্যিক সিস্টেমের বিপরীতে অবস্থান নির্ধারণ করে না। হ্যারনেসটি MIT লাইসেন্সের অধীনে ওপেন সোর্স (এখন SQL কেস লোডারসহ), তাই স্বাধীন গবেষকেরা যে কোনো ইঞ্জিন বেছে নিয়ে একই রুব্রিক এবং কেস লোডারের বিপরীতে মূল্যায়ন করতে পারে এবং তাদের ফলাফল প্রকাশ করতে পারে।.

রোগীর কেসগুলো কি বাস্তব নাকি কৃত্রিম (synthetic)?

সব কেসই কৃত্রিমভাবে তৈরি—V11 প্রাথমিক রিলিজে ১৫টি হাতে-তৈরি কেস এবং দ্বিতীয় আপডেটে ১০০,০০০টি। এগুলো কৃত্রিম কেস নয়: কোনো কৃত্রিম ডেটা, কোনো সম্মতি প্রক্রিয়া, এবং কোনো ডি-আইডেন্টিফিকেশন জড়িত নেই, কারণ কোহর্টে কোনো ব্যক্তিগত ডেটা নেই। প্রকাশিত হ্যারনেসে, প্রযুক্তিগত প্রতিবেদনে, বা প্রকাশিত ডেটাসেটগুলোতে কোনো ব্যক্তিগত ডেটা নেই।.

⚕️ মেডিক্যাল ডিসক্লেইমার ও স্বার্থের সংঘাত

এই বেঞ্চমার্ক প্রতিবেদনটি গবেষণা এবং পদ্ধতিগত স্বচ্ছতার উদ্দেশ্যে। এটি চিকিৎসা পরামর্শ নয়, কোনো রোগ নির্ণয় নয়, এবং পেশাদার চিকিৎসা সেবার বিকল্পও নয়; এখানে কোনো ফলাফল ব্যবহার করে ডাক্তার দেখানো বিলম্বিত বা এড়ানো উচিত নয়। রোগ নির্ণয় ও চিকিৎসা সংক্রান্ত সিদ্ধান্তের জন্য সর্বদা যোগ্য স্বাস্থ্যসেবা প্রদানকারীর সঙ্গে পরামর্শ করুন। এটি কোম্পানির নিজস্ব ইঞ্জিনের একটি স্ব-পরিচালিত অভ্যন্তরীণ বেঞ্চমার্ক এবং স্বাধীনভাবে যাচাই বা পিয়ার-রিভিউ করা হয়নি। যৌগিক স্কোরটি একটি নির্দিষ্ট রুব্রিকের সাথে সামঞ্জস্য (প্রতিবেদনের কাঠামো, কীওয়ার্ড এবং স্কোরিং-সিস্টেম রিকল, এবং লেটেন্সি) পরিমাপ করে; এটি বাস্তব-জগতের ডায়াগনস্টিক যথার্থতা বা ক্লিনিক্যাল নিরাপত্তার পরিমাপ নয়। উভয় লেখক Kantesti Ltd-এ কর্মরত এবং ইকুইটি ধারণ করেন, এবং মূল্যায়নাধীন ইঞ্জিনটি একই সংস্থার একটি বাণিজ্যিক পণ্য। স্বার্থের এই সংঘাতটি সোর্স কোডে রুব্রিক প্রি-রেজিস্টার করে, MIT লাইসেন্সের অধীনে হ্যারনেস প্রকাশ করে, এবং কাঁচা ইঞ্জিন প্রতিক্রিয়ার একটি স্তরভিত্তিক র‍্যান্ডম নমুনা প্রকাশের মাধ্যমে প্রশমিত করা হয়েছে।.

E-E-A-T বিশ্বাসযোগ্যতার সংকেত

⭐

অভিজ্ঞতা

কেস প্যানেল নির্বাচন তত্ত্বাবধানের জন্য ১৫+ বছর ক্লিনিক্যাল হেমাটোলজি ও ল্যাবরেটরি মেডিসিন অনুশীলন।.

📋

দক্ষতা

প্রি-রেজিস্টার্ড রুব্রিক ডিজাইন, যেখানে স্পষ্ট হাইপারডায়াগনোসিস পেনাল্টি এবং স্বীকৃত ক্লিনিক্যাল স্কোরিং সিস্টেম (Mentzer, FIB-4, EULAR/ACR, KDIGO) অন্তর্ভুক্ত।.

👤

কর্তৃত্ব

প্রধান লেখক ড. থমাস ক্লেইন, এমডি (ORCID 0009-0009-1490-1321)। বাস্তবায়ন করেছেন জুলিয়ান এমিরহান বুলুত, Kantesti Ltd-এর CEO।.

🛡️

বিশ্বাসযোগ্যতা

MIT-লাইসেন্সড পুনরুত্পাদনযোগ্য (reproducible) হ্যারনেস, কাঁচা ইঞ্জিন প্রতিক্রিয়া প্রকাশিত, উন্মুক্ত স্বার্থের সংঘাত (conflict-of-interest) প্রকাশ, চার-প্ল্যাটফর্ম গবেষণা প্রতিলিপি নেটওয়ার্ক।.

🏢 কান্তেস্টি লিমিটেড ইংল্যান্ড ও ওয়েলসে নিবন্ধিত · কোম্পানি নং।. 17090423 লন্ডন, যুক্তরাজ্য · কান্টেস্টি.নেট