ഈ ബെഞ്ച്മാർക്ക് എന്തുകൊണ്ട് നിലവിലുണ്ട്, അത് എന്താണ് പരിശോധിക്കുന്നത്
AI സഹായത്തോടെ രക്ത പരിശോധന ഫലം മനസ്സിലാക്കൽ ഉപഭോക്തൃവും ക്ലിനിക്കൽ വർക്ക്ഫ്ലോകളിലും കൂടുതൽ കൂടുതൽ ഉപയോഗിക്കപ്പെടുന്നു; എങ്കിലും ലബോറട്ടറി മെഡിസിനിനായി പ്രത്യേകമായി രൂപകൽപ്പന ചെയ്ത പുനരാവർത്തിക്കാവുന്ന മൂല്യനിർണയ ഫ്രെയിംവർക്കുകൾ അപൂർവമാണ്. ഈ സാഹചര്യത്തിൽ ഏറ്റവും പ്രധാനപ്പെട്ട ചോദ്യങ്ങൾ പൊതുവായ മെഡിക്കൽ ചോദ്യ-ഉത്തരം ബെഞ്ച്മാർക്കുകളിൽ ഉൾപ്പെടുന്നവയല്ല: ശരാശരി കോർപ്പസ്കുലാർ വോള്യം ഒരുപോലെയായിരിക്കുമ്പോൾ ഒരു എഞ്ചിനിന് ഇരുമ്പുകുറവ് താലസീമിയ ട്രെയിറ്റിൽ നിന്ന് വേർതിരിക്കാനാകുമോ, ഹെപ്പറ്റൈറ്റിസായി ഗിൽബർട്ട്സ് സിന്ഡ്രോം അതിരുകടന്ന് ഡയഗ്നോസ് ചെയ്യുമോ, പൂർണ്ണമായും സാധാരണയായ ഒരു സ്ക്രീനിംഗ് പാനലിൽ പാത്തോളജി “നിർമ്മിക്കുമോ”?
ഒരു രക്ത പരിശോധന പാനൽ സാധാരണയായി നിരവധി മത്സരിക്കുന്ന വ്യാഖ്യാനങ്ങളെ പിന്തുണയ്ക്കാൻ മതിയായ സിഗ്നൽ ഉൾക്കൊള്ളുന്നു; അതിനാൽ വ്യാഖ്യാനിക്കുന്ന വൈദ്യന്റെ ജോലി അവയെ പരസ്പരം തൂക്കിയുനോക്കി വിലയിരുത്തുന്നതാണ്, ഒരു പാഠപുസ്തക ഉത്തരമെടുത്ത് തിരികെ കണ്ടെത്തുന്നതല്ല. പാഠപുസ്തക കേസുകളിൽ നന്നായി പ്രവർത്തിക്കുന്ന ഒരു എഞ്ചിൻ, ഏറ്റവും പ്രധാനപ്പെട്ട കേസുകളിൽ ഇപ്പോഴും പരാജയപ്പെടാം: ഡിഫറൻഷ്യൽ-ഡയഗ്നോസിസ് പിഴവുകൾ, ഒറ്റയ്ക്ക് നോക്കുമ്പോൾ ഭയപ്പെടുത്തുന്നതുപോലെ തോന്നുന്ന നിരപരാധിയായ വകഭേദങ്ങൾ, ആത്മവിശ്വാസമുള്ള അസിസ്റ്റന്റുകളെ പാത്തോളജി നിർമ്മിക്കാൻ പ്രേരിപ്പിക്കുന്ന പൂർണ്ണമായും സാധാരണ പാനലുകൾ എന്നിവയിൽ.
ഈ ബെഞ്ച്മാർക്ക് കൃത്യമായി ഈ പരാജയ രീതികളെ ചുറ്റിപ്പറ്റിയാണ് നിർമ്മിച്ചത്. പതിനഞ്ച് കേസുകളിൽ ഓരോന്നും ഒരു പ്രത്യേക ഡയഗ്നോസ്റ്റിക് ഗുണത്തിനായി തിരഞ്ഞെടുക്കപ്പെട്ടു: ഒരേ mean corpuscular volume ഉള്ള beta-thalassaemia trait-ൽ നിന്ന് വേർതിരിച്ച് സൂക്ഷിക്കേണ്ട iron-deficient microcytosis, അസാധാരണത ഒറ്റപ്പെട്ട indirect hyperbilirubinaemia മാത്രമായുള്ള Gilbert's syndrome അവതരണം, കൂടാതെ എല്ലാ analyte-കളും അവയുടെ reference range-ക്കുള്ളിലായിരിക്കുന്ന പതിനഞ്ച്-പാരാമീറ്റർ സ്ക്രീനിംഗ് പാനൽ. ഓരോ കേസ് അതിന്റെ സ്വന്തം സാഹചര്യത്തിൽ വായിക്കുന്ന എഞ്ചിനുകൾക്ക് റൂബ്രിക് പ്രതിഫലം നൽകുകയും, അത്തരം ഒരു ഡയഗ്നോസിസ് ആവശ്യമായില്ലാത്തിടത്ത് ആത്മവിശ്വാസത്തോടെ ഒരു ഡയഗ്നോസിസ് കണ്ടെത്താൻ ശ്രമിക്കുന്ന എഞ്ചിനുകൾക്ക് പിഴ ചുമത്തുകയും ചെയ്യുന്നു.
എംഡി തോമസ് ക്ലെയിൻ എന്ന നിലയിൽ, ലാബ്-മെഡിസിൻ അസിസ്റ്റന്റുകൾ ഏറ്റവും അധികം തെറ്റായി കൈകാര്യം ചെയ്യുന്ന പാറ്റേണുകളാണ് ഇവയെന്ന് കണ്ടതിനാലാണ് ഞാൻ ഈ കേസ് പാനൽ തിരഞ്ഞെടുക്കിയത്. ചെലവേറിയ പരാജയ രീതി "അപൂർവ രോഗം നഷ്ടപ്പെടുത്തുക" എന്നതല്ല — അതിന് പകരം, അത് ഇല്ലാത്ത രോഗികളിൽ പതിവ് പാത്തോളജി നിർമ്മിച്ചെടുക്കുന്നതാണ്. നമ്മുടെ മെഡിക്കൽ വാലിഡേഷൻ hub വിശാലമായ ഫ്രെയിംവർക്ക് വിവരിക്കുന്നു; ഈ പേജ് V11 എഞ്ചിനിൽ അതിന്റെ പ്രയോഗഫലം വിവരിക്കുന്നു.
ഏറ്റവും പുതിയ റഫറൻസ് റൺ — V11 (ഏപ്രിൽ 2026)
Kantesti AI Engine V11-ന്റെ 2026 ഏപ്രിൽ റഫറൻസ് റണ്ണിൽ ലഭിച്ച കോമ്പോസിറ്റ് സ്കോർ 99.12% പ്രീ-രജിസ്റ്റർ ചെയ്ത പതിനഞ്ച്-കേസുള്ള റൂബ്രിക്കിൽ. ഹൈപ്പർഡയഗ്നോസിസ് ട്രാപ്പ് കേസുകൾ രണ്ടും ceiling-ൽ സ്കോർ ചെയ്തു. iron-deficiency-versus-thalassaemia ഡിഫറൻഷ്യലിൽ Mentzer index ശരിയായി പ്രയോഗിച്ചു.
കോമ്പോസിറ്റ് ഫോർമുല മൂന്ന് ഘടകങ്ങളെ സംയോജിപ്പിക്കുന്നു: ഘടനാപരമായ അനുസരണം ഏഴ് നിർബന്ധിത റിപ്പോർട്ട് വിഭാഗങ്ങളും പതിനാറ് നിർബന്ധിത ഉപവിഭാഗങ്ങളും ഉൾപ്പെടെ, ക്ലിനിക്കൽ കൃത്യത keyword recall + scoring-system recall + probability-distribution validity check എന്നിങ്ങനെ അളക്കുന്നതാണ്, കൂടാതെ പ്രതികരണ ലാറ്റൻസി 20 സെക്കൻഡ് എന്ന പ്രാഥമിക-സർവീസ്-ലെവൽ ലക്ഷ്യത്തിനെതിരെ. താഴെ കൊടുത്തിരിക്കുന്ന റൂബ്രിക് ഫോർമുലയിൽ കൃത്യമായ വിഭജനം കാണിച്ചിരിക്കുന്നു.
ശേഷിക്കുന്ന 0.88 ശതമാനം പോയിന്റ് ഹെഡ്റൂം പ്രധാനമായും ലാറ്റൻസി നഷ്ടത്തിലേക്ക് വിഭജിക്കപ്പെടുന്നു — മൈനസ് 0.05 എന്ന കോമ്പോസിറ്റ് വീതമുള്ള മൂന്ന് ഫേസ് 2 ഫാൾബാക്ക് ഇൻവൊക്കേഷനുകൾ 0.88-പോയിന്റ് കുറവിന്റെ ഏകദേശം 0.60 സംഭാവന ചെയ്തു — ക്ലിനിക്കൽ ഉള്ളടക്കത്തിലേക്ക് അല്ല. പതിനഞ്ച് കേസുകളിലൊന്നിലും എഞ്ചിൻ ശരിയായ രോഗനിർണയം നഷ്ടപ്പെടുത്തിയില്ല; കുറവുണ്ടായിടത്ത്, ചെറിയൊരു വിഭാഗം ഇൻവൊക്കേഷനുകളിൽ 20 സെക്കൻഡ് പ്രാഥമിക-പാത ലക്ഷ്യത്തേക്കാൾ അല്പം കൂടുതൽ സമയം എടുത്തതിലൂടെയാണ് അത് സംഭവിച്ചത്.
ഏഴ് മെഡിക്കൽ സ്പെഷ്യാലിറ്റികളിലായി പതിനഞ്ച് കേസുകൾ
കേസ് പാനൽ ഏഴ് സ്പെഷ്യാലിറ്റികൾ ഉൾക്കൊള്ളുന്നു — ഹെമറ്റോളജി, എൻഡോക്രിനോളജി, മെറ്റബോളിക് മെഡിസിൻ, ഹെപറ്റോളജി, നെഫ്രോളജി, കാർഡിയോളജി, റിയുമറ്റോളജി — കൂടാതെ രണ്ട് സമർപ്പിത ഹൈപ്പർഡയഗ്നോസിസ് ട്രാപ്പ് കേസുകളും. ഓരോ കേസും എഴുതിയ അറിയിച്ച സമ്മതത്തോടുകൂടി Kantesti ക്ലിനിക്കൽ ഡാറ്റാ റിപോസിറ്ററിയിൽ നിന്നെടുത്ത അനോണിമൈസ് ചെയ്ത യഥാർത്ഥ രോഗിയുടെ രേഖയാണ്.
ഡീ-ഐഡന്റിഫിക്കേഷൻ Safe Harbor സമീപനം പ്രകാരം നടത്തി: എല്ലാ നേരിട്ടുള്ള തിരിച്ചറിയൽ വിവരങ്ങളും നീക്കം ചെയ്തോ മാറ്റിസ്ഥാപിച്ചോ, ഓരോ രേഖക്കും BT-NNN-LABEL എന്ന ഫോർമാറ്റിൽ ഒരു ബെഞ്ച്മാർക്ക്-ഇന്റേണൽ കേസ് കോഡ് നൽകി. പ്രോസസ്സിംഗ് താഴെപ്പറയുന്ന പ്രകാരം നടത്തി GDPR ആർട്ടിക്കിൾ 9(2)(j) അനുയോജ്യമായ സംരക്ഷണങ്ങളോടുകൂടിയ ശാസ്ത്രീയ ഗവേഷണത്തിനായി, കൂടാതെ സമാനമായ UK GDPR വ്യവസ്ഥകൾ പ്രകാരവും. പ്രസിദ്ധീകരിച്ച ഹാർണസിലും, സാങ്കേതിക റിപ്പോർട്ടിലും, റിലീസ് ചെയ്ത ഡാറ്റാസെറ്റുകളിലും വ്യക്തിപരമായി തിരിച്ചറിയാവുന്ന വിവരങ്ങൾ എവിടെയും കാണുന്നില്ല.
ഈ പ്രത്യേക വിതരണം എന്തുകൊണ്ട്
യാഥാർത്ഥ്യ ലോക ലബോറട്ടറി പ്രാക്ടീസിൽ മൈക്രോസൈറ്റിക് ഡിഫറൻഷ്യലുകളും മാക്രോസൈറ്റിക് ഡിഫറൻഷ്യലുകളും ഏറ്റവും ഉയർന്ന തോതിലുള്ള “ട്രാപ്പുകൾ” ആയതിനാൽ ഹെമറ്റോളജിക്ക് മൂന്ന് കേസുകൾ ലഭിക്കുന്നു. ഹാഷിമോട്ടോയുടെ, PCOS, വിറ്റാമിൻ ഡി കുറവ് എന്നീ അവതരണങ്ങൾ വ്യത്യസ്തമായ ഡയഗ്നോസ്റ്റിക് രൂപങ്ങൾ (ഓട്ടോആന്റിബോഡി-നിർദ്ദിഷ്ടം, ഹോർമോൺ-റേഷിയോ-നിർദ്ദിഷ്ടം, ഒറ്റ മാർക്കർ-നിർദ്ദിഷ്ടം) പരിശീലിപ്പിക്കുന്നതിനാൽ എൻഡോക്രിനോളജിക്കും മൂന്ന് കേസുകൾ ലഭിക്കുന്നു. CKD, ASCVD റിസ്ക്, SLE എന്നിവയിൽ ഓരോന്നിനും എഞ്ചിൻ വിളിക്കേണ്ട സ്വന്തം സ്കോറിംഗ് സിസ്റ്റം ഉള്ളതിനാൽ ഒറ്റ-കേസ് സ്പെഷ്യാലിറ്റികൾ ഇപ്പോഴും അർത്ഥവത്താണ് (ക്രമമായി KDIGO സ്റ്റേജിംഗ്, ASCVD 10-വർഷ റിസ്ക്, 2019 EULAR/ACR SLE മാനദണ്ഡങ്ങൾ).
മുൻകൂട്ടി രജിസ്റ്റർ ചെയ്ത റൂബ്രിക് — വിശദീകരിച്ചത്
ഈ ബെഞ്ച്മാർക്കിലെ ഏറ്റവും പ്രധാനപ്പെട്ട മെഥഡോളജിക്കൽ തിരഞ്ഞെടുപ്പാണ് പ്രീ-രജിസ്ട്രേഷൻ. പ്രതീക്ഷിക്കുന്ന ഓരോ ഡയഗ്നോസും, ഓരോ ക്ലിനിക്കൽ സ്കോറിംഗ് സിസ്റ്റവും, ഓരോ റിപ്പോർട്ട് സെക്ഷനും സോഴ്സ് കോഡിലേക്ക് കമ്മിറ്റ് ചെയ്തിരുന്നു എഞ്ചിൻ വിളിക്കുന്നതിന് മുമ്പ്. അതിനാൽ എഞ്ചിനെ “ഫ്ലാറ്റർ” ചെയ്യാൻ റൂബ്രിക്കിൽ പോസ്റ്റ്-ഹോക് ട്യൂണിംഗ് നടത്തുന്നത് അസാധ്യമാണ്.
കോമ്പോസിറ്റ് സ്കോറിൽ മൂന്ന് ഘടകങ്ങളുണ്ട്. ഘടനാപരമായ ഘടകം 35 ശതമാനം സംഭാവന ചെയ്യുകയും, എഞ്ചിൻ ഏഴ് നിർബന്ധിത റിപ്പോർട്ട് സെക്ഷനുകൾ (ഹെഡർ, സംഗ്രഹം, പ്രധാന കണ്ടെത്തലുകൾ, ഡിഫറൻഷ്യൽ, സ്കോറിംഗ് സിസ്റ്റങ്ങൾ, ശുപാർശകൾ, ഫോളോ-അപ്പ്) കൂടാതെ അവയ്ക്കുള്ളിലെ പതിനാറ് നിർബന്ധിത ഉപസെക്ഷനുകളും തിരികെ നൽകിയോ എന്നത് അളക്കുകയും ചെയ്യുന്നു. സെക്ഷൻ സാന്നിധ്യം ഘടനാപരമായ കണക്കിൽ 40 ശതമാനം ഭാരവും ഉപസെക്ഷൻ സാന്നിധ്യം 60 ശതമാനം ഭാരവും വഹിക്കുന്നു.
ദി ക്ലിനിക്കൽ ഘടകം 55 ശതമാനം സംഭാവന ചെയ്യുകയും മൂന്ന് കാര്യങ്ങൾ സംയോജിപ്പിക്കുകയും ചെയ്യുന്നു: ഡയഗ്നോസിസ്-കീവേഡ് റികോൾ (ക്ലിനിക്കൽ ഉപ-സ്കോറിന്റെ 70 ശതമാനം), സ്കോറിംഗ്-സിസ്റ്റം റികോൾ (20 ശതമാനം — പ്രസക്തമായിടത്ത് എഞ്ചിൻ Mentzer, FIB-4, HOMA-IR, ASCVD റിസ്ക്, KDIGO സ്റ്റേജിംഗ്, EULAR/ACR മാനദണ്ഡങ്ങൾ കണക്കാക്കുന്നുണ്ടോ), കൂടാതെ പ്രോബബിലിറ്റി-സം സാധുത പരിശോധന (10 ശതമാനം — ഡിഫറൻഷ്യൽ സാധ്യതകൾ [90, 110] ഇടവേളയ്ക്കുള്ളിൽ കൂട്ടിച്ചേരണം). ട്രാപ്പ് കേസുകളിൽ, പരമാവധി 0.30 വരെ വ്യക്തമായ ഹൈപ്പർഡയഗ്നോസിസ് പിഴ കുറയ്ക്കുന്നു; ഇത് ഓരോ കൃത്രിമ പാത്തോളജി ഫ്ലാഗിനും 0.10 വീതം കണക്കാക്കി, പരമാവധി മൂന്ന് ഫ്ലാഗുകൾ വരെ മാത്രമായി പരിമിതപ്പെടുത്തുന്നു.
ദി ലാറ്റൻസി ഘടകം 10 ശതമാനം സംഭാവന ചെയ്യുന്നു. 20 സെക്കൻഡിന് താഴെയുള്ള പ്രതികരണത്തിന് പൂർണ്ണ 0.10 ലഭിക്കും, 40 സെക്കൻഡിന് താഴെയുള്ള പ്രതികരണത്തിന് 0.05 ലഭിക്കും, അതിലും മന്ദഗതിയുള്ളതെല്ലാംക്ക് പൂജ്യം. 20-സെക്കൻഡ് ലക്ഷ്യം പ്രൊഡക്ഷൻ പ്രൈമറി-പാത്ത് സർവീസ്-ലെവൽ ലക്ഷ്യത്തെ പ്രതിഫലിപ്പിക്കുന്നു; 40-സെക്കൻഡ് പരിധി ഹെവി-എഞ്ചിൻ ഇൻവൊക്കേഷനുകൾക്കുള്ള ഫേസ് 2 ഫാൾബാക്ക് ബജറ്റിനെ പ്രതിഫലിപ്പിക്കുന്നു.
പ്രീ-രജിസ്ട്രേഷൻ തടയുന്നത് എന്താണ്
പോസ്റ്റ്-ഹോക് റൂബ്രിക് ട്യൂണിംഗ് വഴി സ്വന്തം നമ്പറുകൾ തന്നെ ഉയർത്തിക്കാണിക്കുന്നതിന് ഫസ്റ്റ്-പാർട്ടി ബെഞ്ച്മാർക്കുകൾ പ്രശസ്തമാണ്. പാറ്റേൺ മിക്കവാറും എല്ലായ്പ്പോഴും ഒരുപോലെയാണ്: ടീം എഞ്ചിൻ ഓടിക്കുന്നു, എവിടെയാണ് അത് കുറവായി പ്രവർത്തിക്കുന്നതെന്ന് കാണുന്നു, പിന്നെ കുറവായി പ്രവർത്തിച്ച മേഖലകൾ കുറച്ച് മാത്രം എണ്ണപ്പെടുന്ന വിധത്തിൽ റൂബ്രിക് നിശ്ശബ്ദമായി ക്രമീകരിക്കുന്നു. ആദ്യ എഞ്ചിൻ കോളിന് മുമ്പ് റൂബ്രിക് സോഴ്സ് കോഡിലേക്ക് കമ്മിറ്റ് ചെയ്ത് MIT ലൈസൻസിൽ ഹാർനെസ് പ്രസിദ്ധീകരിച്ചതിലൂടെ, ആ ക്രമീകരണം വേർഷൻ കൺട്രോളിൽ ദൃശ്യമാകുന്നു. ആരും റീപോസിറ്ററി ക്ലോൺ ചെയ്ത് റൂബ്രിക് രചയിതാവിന്റെ തീയതികൾ പരിശോധിച്ച്, സ്കോറിംഗ് രൂപപ്പെടുത്താൻ എഞ്ചിൻ ഫലങ്ങൾ ഉപയോഗിച്ചിട്ടില്ലെന്ന് സ്ഥിരീകരിക്കാം.
ഹൈപ്പർഡയഗ്നോസിസ് ട്രാപ്പ് കേസുകൾ — അമിതമായി വിളിക്കുന്നതാണ് യഥാർത്ഥ പരാജയ മോഡ് എന്തുകൊണ്ട്
സാധാരണ സ്ക്രീനുകളിൽ പാത്തോളജിയെ അതിരുകടന്ന് വിളിച്ചുപറയുന്നത് ഉപഭോക്തൃ-മുഖമായ മെഡിക്കൽ അസിസ്റ്റന്റുകളിൽ രേഖപ്പെടുത്തിയ പരാജയ രീതിയാണ്. അതിന്റെ തുടർചെലവുകളിൽ അനാവശ്യ അന്വേഷണം, രോഗിയുടെ ആശങ്ക, ഐട്രോജനിക് വർക്ക്-അപ്പ് എന്നിവ ഉൾപ്പെടുന്നു. ഈ ബെഞ്ച്മാർക്കിലെ രണ്ട് ട്രാപ്പ് കേസുകൾ ഈ പരാജയ രീതി ദൃശ്യമാക്കാനും സ്കോർ ചെയ്യാനും രൂപകൽപ്പന ചെയ്തതാണ്.
🟡 ട്രാപ്പ് 1 — BT-014-GILBERT
അവതരണം. മൊത്തം ബിലിറൂബിൻ 2.4 mg/dL ഉള്ള 24 വയസ്സുള്ള പുരുഷൻ. ഡയറക്ട് ഫ്രാക്ഷൻ സാധാരണമാണ്, ട്രാൻസാമിനേസുകളും ആൽക്കലൈൻ ഫോസ്ഫറ്റേസും അവയുടെ റഫറൻസ് പരിധിക്കുള്ളിലാണ്, ററ്റിക്കുലോസൈറ്റുകൾ ശ്രദ്ധേയമല്ല, ഹാപ്ടോഗ്ലോബിനും LDHയും ഹീമോളിസിസ് ഒഴിവാക്കുന്നു.
ശരിയായ വ്യാഖ്യാനം. ഗിൽബർട്ടിന്റെ സിന്ഡ്രോം — ഒരു സൌമ്യമായ UGT1A1 പോളിമോർഫിസം. വ്യാഖ്യാനം ഹെപ്പറ്റൈറ്റിസ്, സിറോസിസ്, ഹീമോളിറ്റിക് അനീമിയ, അല്ലെങ്കിൽ ബിലിയറി തടസ്സം എന്നിവയെ വിളിച്ചുകൂട്ടരുത്.
V11 ഫലം. കോമ്പോസിറ്റ് 1.000. നിരീക്ഷിച്ച ആറു ഓവർ-ഡയഗ്നോസിസ് ഫ്ലാഗുകളിൽ ഒന്നും സജീവ ഡയഗ്നോസുകളായി പ്രത്യക്ഷപ്പെട്ടില്ല.
🟡 ട്രാപ്പ് 2 — BT-015-HEALTHY
അവതരണം. പതിനഞ്ച്-പാരാമീറ്റർ റൂട്ടീൻ സ്ക്രീനിംഗ് പാനൽ ഉള്ള 35 വയസ്സുള്ള സ്ത്രീ. ഓരോ അനലൈറ്റും അതിന്റെ റഫറൻസ് പരിധിക്കുള്ളിൽ തന്നെ സുഖകരമായി ഇരിക്കുന്നു.
ശരിയായ വ്യാഖ്യാനം. ആശ്വാസവും ജീവിതശൈലി പരിപാലനവും. ക്ലിനിക്കലി ഉപയോഗപ്രദമാണെന്ന് തോന്നിക്കാൻ അതിരുകടന്ന രോഗാവസ്ഥകൾ കൃത്രിമമായി സൃഷ്ടിക്കരുത് എന്നതാണ് വ്യാഖ്യാനത്തിന്റെ ലക്ഷ്യം.
V11 ഫലം. സംയുക്തം 1.000. നിരീക്ഷിച്ച ഏഴ് ഓവർ-ഡയഗ്നോസിസ് ഫ്ലാഗുകളിൽ — പ്രമേഹം, രക്തക്ഷയം, ഹൈപ്പോതൈറോയിഡിസം, ഡിസ്ലിപിഡീമിയ, ഹെപ്പറ്റൈറ്റിസ്, വൃക്കരോഗം, കുറവ് — ഒന്നും സജീവ രോഗനിർണയങ്ങളായി പ്രത്യക്ഷപ്പെട്ടില്ല.
ഇരുവിധ ട്രാപ്പുകളിലുമായി പതിമൂന്ന് നിരീക്ഷിച്ച ഹൈപ്പർഡയഗ്നോസിസ് ഫ്ലാഗുകൾ പരിശോധിച്ചു. ഒന്നും ട്രിഗർ ആയില്ല. ട്രയേജ് അല്ലെങ്കിൽ പ്രീ-കൺസൾട്ടേഷൻ ഉപകരണമെന്ന നിലയിൽ ഒരു AI എഞ്ചിൻ ഉപയോഗിക്കാൻ പരിഗണിക്കുന്ന ഏതൊരു ക്ലിനീഷ്യനും ഏറ്റവും പ്രധാനമായി ശ്രദ്ധിക്കേണ്ട ഫലമാണിത്: നിലവിലില്ലാത്തിടത്ത് രോഗം സിസ്റ്റം കണ്ടുപിടിച്ചില്ല.
മെൻറ്റ്സർ ഇൻഡക്സ്: ഇരുമ്പുകുറവ് താലസീമിയ ട്രെയിറ്റിൽ നിന്ന് വേർതിരിക്കൽ
രണ്ടാമത്തെ ഉയർന്ന മൂല്യമുള്ള കണ്ടെത്തൽ കേസ് BT-001 (ഇരുമ്പുകുറവ് മൂലമുള്ള രക്തക്ഷയം) നെ കേസ് BT-007 (ബീറ്റാ-തലസീമിയ മൈനർ) നെ തമ്മിൽ കൂട്ടിച്ചേർത്തതാണ്. ഇരുവരിലും മൈക്രോസൈറ്റോസിസ് കാണപ്പെടുകയും, നൈവ് ക്ലാസിഫയറുകൾക്ക് ഇത് ഒരു സുപരിചിതമായ തടസ്സവുമാണ്. MCV നെ RBC എണ്ണത്തിൽ വിഭജിച്ച് കണക്കാക്കുന്ന മെൻറ്റ്സർ സൂചിക ഇരുമ്പുകുറവിൽ 13-നെക്കാൾ കൂടുതലായും തലസീമിയ ട്രെയിറ്റിൽ 13-നെക്കാൾ താഴെയായും വരും.
BT-001 ൽ രോഗി 34 വയസ്സുള്ള സ്ത്രീയായിരുന്നു; ഹീമോഗ്ലോബിൻ 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ഫെറിറ്റിൻ 6 ng/mL, കൂടാതെ ഉയർന്ന TIBC. ഏകദേശം 17.7 ആയ മെൻറ്റ്സർ സൂചിക പരമമായ ഇരുമ്പുകുറവ് പിന്തുണയ്ക്കുന്നു. BT-007 ൽ രോഗി 28 വയസ്സുള്ള പുരുഷനായിരുന്നു; മൈക്രോസൈറ്റോസിസ് (MCV 65.8 fL) ഉണ്ടെങ്കിലും RBC എണ്ണം 6.2 ആയിരുന്നു, RDW സാധാരണമായിരുന്നു, ഫെറിറ്റിൻ സാധാരണമായിരുന്നു, HbA2 5.6 ശതമാനമായിരുന്നു. ഏകദേശം 10.6 ആയ മെൻറ്റ്സർ സൂചിക തലസീമിയ ട്രെയിറ്റ് സൂചിപ്പിക്കുന്നു, കൂടാതെ ഉയർന്ന HbA2 ബീറ്റാ-തലസീമിയ മൈനർ സ്ഥിരീകരിക്കുന്നു.
ഇരുവിധ കേസുകളും 1.000 എന്ന സ്കോർ നേടി. എഞ്ചിൻ രണ്ടുവ്യാഖ്യാനങ്ങളിലും മെൻറ്റ്സർ സൂചിക വ്യക്തമായി ഉപയോഗിക്കുകയും ഓരോ സംഭവത്തിലും ശരിയായ രോഗനിർണയം തിരികെ നൽകുകയും ചെയ്തു. മുഴുവൻ ബെഞ്ച്മാർക്കിലും ഏറ്റവും ക്ലിനിക്കലി ആശ്വാസകരമായ ഏക ഫലമാണിത്, കാരണം തലസീമിയ ട്രെയിറ്റിനെ ഇരുമ്പുകുറവായി തെറ്റായി വർഗീകരിക്കുന്നത് അനുപയോഗ്യമായ ഇരുമ്പ് സപ്ലിമെന്റേഷൻക്കും കുടുംബ-സ്ക്രീനിംഗ് അവസരങ്ങൾ നഷ്ടപ്പെടുന്നതിനും കാരണമാകുന്നു; അതേസമയം ഇരുമ്പുകുറവിനെ തലസീമിയയായി തെറ്റായി വർഗീകരിക്കുന്നത് നേരിട്ടുള്ള പകരംചികിത്സ വൈകിപ്പിക്കുന്നു. ഞങ്ങളുടെ ഫെറിറ്റിൻ പരിധി ഗൈഡ് വിശാലമായ ഡിഫറൻഷ്യൽ പശ്ചാത്തലം വിശദീകരിക്കുന്നു.
ഏപ്രിൽ 2026 റണ്ണിലെ ഓരോ കേസിനുമുള്ള ഫലങ്ങൾ
പതിനഞ്ചിൽ പന്ത്രണ്ട് കേസുകൾ പ്രാഥമിക പാത്തിൽ 1.000 എന്ന പരമാവധി സംയുക്ത സ്കോർ നേടി. മൂന്ന് കേസുകൾ Phase 2 fallback വഴി സേവിച്ചു; ഇതിലൂടെ 0.05 ലാറ്റൻസി ബോണസ് നഷ്ടപ്പെട്ടു, എന്നാൽ എല്ലാ ക്ലിനിക്കൽയും ഘടനാപരവുമായ ഉള്ളടക്കവും നിലനിർത്തി. ഒരു കേസിൽ ഒരു നിർബന്ധിത ഉപവിഭാഗം നഷ്ടമായിരുന്നു; മറ്റൊന്ന് അല്പം കുറവായ സാധ്യതാ വിതരണത്തിന്റെ മൊത്തം തിരികെ നൽകി.
PCOS കേസ് (BT-008) പ്രതികരണ ഘടനയിൽ ഒരു നിർബന്ധിത ഉപവിഭാഗം നഷ്ടപ്പെടുത്തി — പതിനാറിൽ പതിനഞ്ച് പകരം പതിനാറിൽ പതിനാറ് — ഇതിലൂടെ ഘടനാ സ്കോർ 1.000 മുതൽ 0.963 ആയി കുറച്ചു. SLE കേസ് (BT-011) എല്ലാ ഡയഗ്നോസ്റ്റിക് കീവേഡുകളും സ്കോറിംഗ് സിസ്റ്റവും സംരക്ഷിച്ചുകൊണ്ട് ക്ലിനിക്കൽ സ്കോർ 0.965 ആയി താഴ്ത്തിയ, അല്പം കുറവായ പ്രോബബിലിറ്റി-ഡിസ്ട്രിബ്യൂഷൻ സം തിരികെ നൽകി. യാതൊരു ഉപ-പൂർണ്ണമായ കേസും ശരിയായ രോഗനിർണയം നഷ്ടപ്പെടുത്തിയില്ല.
ഹെഡ്ലൈൻ സ്കോർ നമ്മോട് പറയാത്തത് എന്താണ്
ഈ പ്രത്യേകമായി മുൻകൂട്ടി രജിസ്റ്റർ ചെയ്ത റൂബ്രിക്കിന് കീഴിൽ 99.12 ശതമാനത്തിന്റെ ഒരു സംയുക്ത സ്കോർ ഏകദേശം പരമാവധി നിലവാരത്തിലുള്ള പ്രകടനത്തെ സൂചിപ്പിക്കുന്നു, പക്ഷേ അതിനെ സൂക്ഷ്മമായി ചട്ടക്കൂടിലാക്കേണ്ടതുണ്ട്. ഈ ഫലം, ഒരിക്കൽ വീതം വിലയിരുത്തിയ, ശ്രദ്ധാപൂർവ്വം തിരഞ്ഞെടുക്കപ്പെട്ട പതിനഞ്ച് അനാമീകരിച്ച കേസുകൾക്കെതിരെ എഞ്ചിൻ എങ്ങനെ പെരുമാറുന്നു എന്നതാണ്; എല്ലാം ഒരൊറ്റ റൂബ്രിക്കിനെതിരെ. ഈ സംഖ്യ എന്താണ് സ്ഥാപിക്കുന്നത്, എന്താണ് സ്ഥാപിക്കാത്തത് എന്നതിൽ ഞങ്ങൾ വ്യക്തമാണ്.
ഈ സ്കോർ പറയുന്നത് V11 എഞ്ചിൻ ഈ മൂല്യനിർണയത്തിനായി തിരഞ്ഞെടുത്ത ഡയഗ്നോസ്റ്റിക് പാറ്റേണുകൾ ശരിയായി കൈകാര്യം ചെയ്തുവെന്നതാണ്; പ്രസിദ്ധീകരിച്ചും പുനരുത്പാദിപ്പിക്കാവുന്നതുമായ ഒരു രീതിശാസ്ത്രം ഉപയോഗിച്ചാണ് അത്. ലോകത്ത് നിലവിലുള്ള എല്ലാ രക്ത പരിശോധന പാനലുകളിലും എഞ്ചിൻ ശരിയാണെന്ന് ഇത് പറയുന്നില്ല. എഞ്ചിൻ ക്ലിനീഷ്യൻ വിധിയെ പകരം വയ്ക്കണം എന്ന് ഇത് പറയുന്നില്ല. കൂടാതെ മറ്റ് AI സിസ്റ്റങ്ങളേക്കാൾ എഞ്ചിൻ മികച്ചതാണെന്ന് ഇത് പറയുന്നില്ല — മറ്റ് എഞ്ചിനുകളുമായുള്ള താരതമ്യ വിശകലനങ്ങൾ ഈ റിപ്പോർട്ടിന്റെ പരിധിയിൽ നിന്ന് ഉദ്ദേശപൂർവ്വം ഒഴിവാക്കിയതാണ്.
സ്കോർ സ്ഥാപിക്കുന്നത് ഒരു അടിസ്ഥാനരേഖയാണ്. റൂബ്രിക്കും ഹാർനെസും പൊതുവായതിനാൽ, എഞ്ചിന്റെ ഭാവി പതിപ്പുകൾ അതേ പതിനഞ്ച് കേസുകൾക്കെതിരെ വിലയിരുത്താം, പ്രസിദ്ധീകരിച്ച സ്കോറിനും തുടർന്ന് നടത്തുന്ന ഏതെങ്കിലും റണ്ണിനുമിടയിലെ വ്യത്യാസം തന്നെ അളക്കാവുന്നതാണ്. മുൻകൂട്ടി രജിസ്റ്റർ ചെയ്യുന്നതിന്റെ മൂല്യം ഇതാണ്: പ്രകടന അവകാശവാദങ്ങളെ പരീക്ഷിക്കാവുന്ന അവകാശവാദങ്ങളാക്കി മാറ്റുന്നു.
10 മിനിറ്റിനുള്ളിൽ ഈ ബെഞ്ച്മാർക്ക് എങ്ങനെ പുനരാവർത്തിക്കാം
പുനരുത്പാദനം ആവശ്യപ്പെടുന്നത് വെറും Kantesti API ക്രെഡൻഷ്യൽ ജോഡിയും, Python 3.10 അല്ലെങ്കിൽ അതിനുശേഷമുള്ള ഒരു പരിസ്ഥിതിയും മാത്രമാണ്; requests ഒപ്പം reportlab ലൈബ്രറികൾ ഇൻസ്റ്റാൾ ചെയ്തിരിക്കണം. പൂർണ്ണ ഹാർനെസ് MIT ലൈസൻസിന് കീഴിൽ പുറത്തിറക്കിയ ഒരു ഒറ്റ, സ്വയംപര്യാപ്തമായ Python മോഡ്യൂളാണ്.
ഒരു പുതിയ റണ്ണിനുള്ള നാല് ഘട്ടങ്ങൾ
ഒന്ന്. റീപോസിറ്ററി ക്ലോൺ ചെയ്യുക: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. രണ്ട്. requirements.txt ഉപയോഗിച്ച് ഡിപൻഡൻസികൾ ഇൻസ്റ്റാൾ ചെയ്യുക pip install -r requirements.txt. മൂന്ന്. സജ്ജമാക്കുക KANTESTI_USERNAME ഒപ്പം KANTESTI_PASSWORD പരിസ്ഥിതി വേരിയബിളുകളായി — ക്രെഡൻഷ്യലുകൾ റൺടൈമിൽ വായിക്കപ്പെടുന്നു, സ്ക്രിപ്റ്റിൽ ഒന്നും ഹാർഡ്-കോഡ് ചെയ്തിട്ടില്ല. നാല്. പ്രവർത്തിപ്പിക്കുക python benchmark_bloodtest.py കൂടാതെ പ്രവർത്തന ഡയറക്ടറിയിലേക്ക് പുറപ്പെടുവിക്കുന്ന നാല് ആർട്ടിഫാക്ടുകൾ പരിശോധിക്കുക: ഒരു CSV സ്കോർകാർഡ്, ഒരു JSON സ്കോർകാർഡ്, അസംസ്കൃത എഞ്ചിൻ പ്രതികരണങ്ങൾ ഉൾപ്പെടുന്ന പൂർണ്ണ JSON ഡമ്പ്, കൂടാതെ മനുഷ്യർക്കു വായിക്കാനാകുന്ന Markdown റിപ്പോർട്ട്.
2026 ഏപ്രിൽ 23-ലെ റഫറൻസ് റൺ റീപോസിറ്ററിയിലെ results/ ഡയറക്ടറിയിൽ സംരക്ഷിച്ചിരിക്കുന്നു. ഒരു പുതിയ റൺ പുതിയ ടൈംസ്റ്റാമ്പ് ചെയ്ത സ്കോർകാർഡ് സൃഷ്ടിക്കും; റഫറൻസ് റൺ മാറ്റമില്ലാതെ തുടരും. നിങ്ങളുടെ റൺ അർത്ഥപൂർണ്ണമായി വ്യത്യസ്തമായ ഫലം നൽകുന്നുവെങ്കിൽ, റൺ ടൈംസ്റ്റാമ്പും പ്രതികരണ മെറ്റാഡാറ്റയിൽ ലഭിച്ച എഞ്ചിൻ പതിപ്പും സഹിതം ദയവായി ഒരു GitHub issue തുറക്കുക.
പരിമിതികളും ഭാവി പ്രവർത്തനങ്ങളും
വ്യക്തമായി അംഗീകരിക്കേണ്ട നാല് പരിമിതികൾ ഉണ്ട്: സാമ്പിൾ വലുപ്പം, സിംഗിൾ-ഷോട്ട് മൂല്യനിർണയം, സിംഗിൾ-എഞ്ചിൻ പരിധി, സിംഗിൾ-സോഴ്സ് ഡാറ്റ ഉറവിടം. ഇവയെല്ലാം സജീവമായ തുടർപ്രവർത്തനങ്ങളിൽ പരിഹരിക്കപ്പെടുന്നു.
സാമ്പിൾ വലുപ്പം. എട്ട് സ്പെഷ്യാലിറ്റി ബക്കറ്റുകളിലായി പതിനഞ്ച് കേസുകൾ പ്രൂഫ് ഓഫ് കോൺസെപ്റ്റിന് മതിയാകും, പക്ഷേ ഒരു സ്പെഷ്യാലിറ്റിക്കുള്ളിലെ ഉപഗ്രൂപ്പ് വിശകലനത്തിന് മതിയാകില്ല. അമ്പത് കേസുകളിലേക്കുള്ള വിപുലീകരണം പദ്ധതിയിലുണ്ട്; ഇതിൽ കോഗുലേഷൻ പാനലുകൾ, ഹീമറ്റോളജിക്കൽ മാലിഗ്നൻസി സ്ക്രീനിംഗ്, ഗർഭധാരണ പാനലുകൾ, പീഡിയാട്രിക് അവതരണങ്ങൾ എന്നിവ ഉൾപ്പെടും.
സിംഗിൾ-ഷോട്ട് മൂല്യനിർണയം. ഓരോ കേസും ഒരിക്കൽ മാത്രമാണ് വിലയിരുത്തിയത്. കുറഞ്ഞ സാംപ്ലിംഗ് താപനിലയിലും വലിയ ഭാഷാ മോഡലുകൾക്ക് ഗണ്യമായ ഔട്ട്പുട്ട് വ്യതിയാനം കാണപ്പെടുന്നതിനാൽ, ഓരോ കേസിനും അഞ്ച് മൂല്യനിർണയങ്ങളുള്ള മൾട്ടി-റൺ പ്രോട്ടോക്കോളും റിപ്പോർട്ട് ചെയ്ത വ്യതിയാനവും അടുത്ത സ്വാഭാവിക ഘട്ടമാണ്.
സിംഗിൾ-എഞ്ചിൻ പരിധി. ഈ റിപ്പോർട്ട് ഒരു എഞ്ചിനെ മാത്രമാണ് വിശേഷിപ്പിക്കുന്നത്. മറ്റ് AI സിസ്റ്റങ്ങളുമായി താരതമ്യ വിശകലനങ്ങൾ ഇവിടെ പരിധിക്കു പുറത്താണ്; അനുയോജ്യമായ രീതിശാസ്ത്രത്തോടെ അവയെ ഒരു വേറിട്ട സ്വതന്ത്ര പഠനമായി ഞങ്ങൾ പിന്തുടരാൻ സാധ്യതയുണ്ട്.
സിംഗിൾ-സോഴ്സ് ഡാറ്റ ഉറവിടം. പതിനഞ്ച് കേസുകളും ഒരൊറ്റ ക്ലിനിക്കൽ റീപോസിറ്ററിയിൽ നിന്നുള്ള അനാമീകരിച്ച യഥാർത്ഥ രോഗികളുടെ രേഖകളാണ്. ഇവ ഒരു ക്യൂറേറ്റ് ചെയ്ത സാമ്പിളിനെ പ്രതിനിധീകരിക്കുന്നു; ജനസംഖ്യയെ പ്രതിനിധീകരിക്കുന്ന യാദൃച്ഛിക തിരഞ്ഞെടുപ്പല്ല. മൂല്യനിർണയം മൾട്ടി-സെന്റർ ഡാറ്റയിലേക്ക് വിപുലീകരിക്കുന്നത് റോഡ്മാപ്പിലുണ്ട്.
ഏറ്റവും സ്വാധീനമുള്ള പദ്ധതിയിട്ട വിപുലീകരണം മൾട്ടി-ഭാഷാ സമതുല്യതയാണ്. Kantesti AI Engine 75+ ഭാഷകളിൽ ഉപയോക്താക്കളെ സേവിക്കുന്നു; അതേ പതിനഞ്ച്-കേസുള്ള ഹാർനെസ് ടർക്കിഷ്, ജർമ്മൻ, സ്പാനിഷ്, ഫ്രഞ്ച്, അറബിക് എന്നിവയിൽ പ്രവർത്തിപ്പിക്കുന്നത് എഞ്ചിൻ പിന്തുണയ്ക്കുന്ന ഭാഷകളിലുടനീളം ഔട്ട്പുട്ട് ഗുണനിലവാരം അളക്കും. ഓരോ ഭാഷയ്ക്കുമുള്ള പ്രത്യേക റൺ അതിന്റെ സ്വന്തം DOIയും ഹാർനെസ് ബ്രാഞ്ചും സഹിതം ഞങ്ങൾ പ്രസിദ്ധീകരിക്കും.