ഈ ബെഞ്ച്മാർക്ക് എന്തുകൊണ്ട് നിലവിലുണ്ട്, അത് എന്താണ് പരിശോധിക്കുന്നത്
AI സഹായത്തോടെ രക്ത പരിശോധന ഫലം മനസ്സിലാക്കൽ ഉപഭോക്തൃവും ക്ലിനിക്കൽ വർക്ക്ഫ്ലോകളിലും കൂടുതൽ കൂടുതൽ ഉപയോഗിക്കപ്പെടുന്നു; എങ്കിലും ലബോറട്ടറി മെഡിസിനിനായി പ്രത്യേകമായി രൂപകൽപ്പന ചെയ്ത പുനരാവർത്തിക്കാവുന്ന മൂല്യനിർണയ ഫ്രെയിംവർക്കുകൾ അപൂർവമാണ്. ഈ സാഹചര്യത്തിൽ ഏറ്റവും പ്രധാനപ്പെട്ട ചോദ്യങ്ങൾ പൊതുവായ മെഡിക്കൽ ചോദ്യ-ഉത്തരം ബെഞ്ച്മാർക്കുകളിൽ ഉൾപ്പെടുന്നവയല്ല: ശരാശരി കോർപ്പസ്കുലാർ വോള്യം ഒരുപോലെയായിരിക്കുമ്പോൾ ഒരു എഞ്ചിനിന് ഇരുമ്പുകുറവ് താലസീമിയ ട്രെയിറ്റിൽ നിന്ന് വേർതിരിക്കാനാകുമോ, ഹെപ്പറ്റൈറ്റിസായി ഗിൽബർട്ട്സ് സിന്ഡ്രോം അതിരുകടന്ന് ഡയഗ്നോസ് ചെയ്യുമോ, പൂർണ്ണമായും സാധാരണയായ ഒരു സ്ക്രീനിംഗ് പാനലിൽ പാത്തോളജി “നിർമ്മിക്കുമോ”?
ഒരു രക്ത പരിശോധന പാനൽ സാധാരണയായി നിരവധി മത്സരിക്കുന്ന വ്യാഖ്യാനങ്ങളെ പിന്തുണയ്ക്കാൻ മതിയായ സിഗ്നൽ ഉൾക്കൊള്ളുന്നു; അതിനാൽ വ്യാഖ്യാനിക്കുന്ന വൈദ്യന്റെ ജോലി അവയെ പരസ്പരം തൂക്കിയുനോക്കി വിലയിരുത്തുന്നതാണ്, ഒരു പാഠപുസ്തക ഉത്തരമെടുത്ത് തിരികെ കണ്ടെത്തുന്നതല്ല. പാഠപുസ്തക കേസുകളിൽ നന്നായി പ്രവർത്തിക്കുന്ന ഒരു എഞ്ചിൻ, ഏറ്റവും പ്രധാനപ്പെട്ട കേസുകളിൽ ഇപ്പോഴും പരാജയപ്പെടാം: ഡിഫറൻഷ്യൽ-ഡയഗ്നോസിസ് പിഴവുകൾ, ഒറ്റയ്ക്ക് നോക്കുമ്പോൾ ഭയപ്പെടുത്തുന്നതുപോലെ തോന്നുന്ന നിരപരാധിയായ വകഭേദങ്ങൾ, ആത്മവിശ്വാസമുള്ള അസിസ്റ്റന്റുകളെ പാത്തോളജി നിർമ്മിക്കാൻ പ്രേരിപ്പിക്കുന്ന പൂർണ്ണമായും സാധാരണ പാനലുകൾ എന്നിവയിൽ.
ഈ ബെഞ്ച്മാർക്ക് കൃത്യമായി ഈ പരാജയ രീതികളെ ചുറ്റിപ്പറ്റിയാണ് നിർമ്മിച്ചത്. പതിനഞ്ച് കേസുകളിൽ ഓരോന്നും ഒരു പ്രത്യേക ഡയഗ്നോസ്റ്റിക് ഗുണത്തിനായി തിരഞ്ഞെടുക്കപ്പെട്ടു: ഒരേ mean corpuscular volume ഉള്ള beta-thalassaemia trait-ൽ നിന്ന് വേർതിരിച്ച് സൂക്ഷിക്കേണ്ട iron-deficient microcytosis, അസാധാരണത ഒറ്റപ്പെട്ട indirect hyperbilirubinaemia മാത്രമായുള്ള Gilbert's syndrome അവതരണം, കൂടാതെ എല്ലാ analyte-കളും അവയുടെ reference range-ക്കുള്ളിലായിരിക്കുന്ന പതിനഞ്ച്-പാരാമീറ്റർ സ്ക്രീനിംഗ് പാനൽ. ഓരോ കേസ് അതിന്റെ സ്വന്തം സാഹചര്യത്തിൽ വായിക്കുന്ന എഞ്ചിനുകൾക്ക് റൂബ്രിക് പ്രതിഫലം നൽകുകയും, അത്തരം ഒരു ഡയഗ്നോസിസ് ആവശ്യമായില്ലാത്തിടത്ത് ആത്മവിശ്വാസത്തോടെ ഒരു ഡയഗ്നോസിസ് കണ്ടെത്താൻ ശ്രമിക്കുന്ന എഞ്ചിനുകൾക്ക് പിഴ ചുമത്തുകയും ചെയ്യുന്നു.
എംഡി തോമസ് ക്ലെയിൻ എന്ന നിലയിൽ, ലാബ്-മെഡിസിൻ അസിസ്റ്റന്റുകൾ ഏറ്റവും അധികം തെറ്റായി കൈകാര്യം ചെയ്യുന്ന പാറ്റേണുകളാണ് ഇവയെന്ന് കണ്ടതിനാലാണ് ഞാൻ ഈ കേസ് പാനൽ തിരഞ്ഞെടുക്കിയത്. ചെലവേറിയ പരാജയ രീതി "അപൂർവ രോഗം നഷ്ടപ്പെടുത്തുക" എന്നതല്ല — അതിന് പകരം, അത് ഇല്ലാത്ത രോഗികളിൽ പതിവ് പാത്തോളജി നിർമ്മിച്ചെടുക്കുന്നതാണ്. നമ്മുടെ മെഡിക്കൽ വാലിഡേഷൻ ഹബ് വിശാലമായ ഫ്രെയിംവർക്കിനെ വിവരിക്കുന്നു; ഈ പേജ് V11 ആദ്യ പ്രൂഫ്-ഓഫ്-കോൺസെപ്റ്റും, അതിനെ 127 രാജ്യ ലേബലുകൾ ഉൾക്കൊള്ളുന്ന ഒരു സിന്തറ്റിക് കേസ് സെറ്റിൽ നിന്ന് എടുത്ത 100,000 സിന്തറ്റിക് കേസുകളിലേക്ക് സ്കെയിൽ ചെയ്ത V11 രണ്ടാം അപ്ഡേറ്റും വിവരിക്കുന്നു — അതേ സ്കോറിംഗ് റൂബ്രിക് ഉപയോഗിച്ച്, ബൈറ്റ്-ഐഡന്റിക്കൽ ആയി, പോസ്റ്റ്-ഹോക് ട്യൂണിംഗ് അനുവദിക്കാതെ.
ഏറ്റവും പുതിയ റഫറൻസ് റൺ — V11 രണ്ടാം അപ്ഡേറ്റ് (2026 ഏപ്രിൽ 26)
2026 ഏപ്രിൽ 26-ലെ V11 രണ്ടാം അപ്ഡേറ്റ് റഫറൻസ് റൺ ഒരു കോമ്പോസിറ്റ് സ്കോർ സൃഷ്ടിച്ചു 99.80% V11 ആദ്യ റിലീസിൽ ഉപയോഗിച്ച അതേ പ്രീ-രജിസ്റ്റർ ചെയ്ത റൂബ്രിക് ഉപയോഗിച്ച് വിലയിരുത്തിയത് 100,000 സിന്തറ്റിക് കേസുകൾ Kantesti സിന്തറ്റിക് കേസ് സെറ്റിൽ നിന്ന് എടുത്തതും 127 രാജ്യ ലേബലുകൾ വ്യാപിക്കുന്നതുമാണ് കൂടാതെ 75+ ഭാഷകളിലുമാണ്. ഓരോ കേസും എഞ്ചിന്റെ പ്രാഥമിക പാതയിൽ പൂർത്തിയായി; ട്രാപ്പ്-കേസ് ഹൈപ്പർഡയഗ്നോസിസ് ഫ്ലാഗ് ആക്ടിവേഷനുകൾ നിലനിന്നത് 0 / 87,412. 2026 ഏപ്രിൽ 23-ലെ യഥാർത്ഥ V11 റൺ 15 കൈകൊണ്ട് തിരഞ്ഞെടുത്ത കേസുകൾ (കോമ്പോസിറ്റ് 99.12%) ഉൾപ്പെടുത്തി റൂബ്രിക് സാധൂകരിച്ചു; രണ്ടാം അപ്ഡേറ്റ് ആ റൂബ്രിക് ബൈറ്റ്-ഐഡന്റിക്കൽ ആയി നിലനിർത്തുകയും മൂല്യനിർണയം ജനസംഖ്യ-തല കോഹോർട്ടിലേക്ക് വിപുലീകരിക്കുകയും ചെയ്യുന്നു.
കോമ്പോസിറ്റ് ഫോർമുല മൂന്ന് ഘടകങ്ങളെ സംയോജിപ്പിക്കുന്നു: ഘടനാപരമായ അനുസരണം ഏഴ് നിർബന്ധിത റിപ്പോർട്ട് വിഭാഗങ്ങളും പതിനാറ് നിർബന്ധിത ഉപവിഭാഗങ്ങളും ഉൾപ്പെടെ, ഉള്ളടക്ക കൃത്യത keyword recall + scoring-system recall + probability-distribution validity check എന്നിങ്ങനെ അളക്കുന്നതാണ്, കൂടാതെ പ്രതികരണ ലാറ്റൻസി പ്രാഥമിക-പാത സർവീസ്-ലെവൽ ലക്ഷ്യത്തിനെതിരെ. കൃത്യമായ വിഭജനം താഴെയുള്ള റൂബ്രിക് ഫോർമുലയിൽ കാണിച്ചിരിക്കുന്നു — രണ്ടാം അപ്ഡേറ്റിനായി ഈ ഭാരങ്ങളിലോ ഉപ-റൂബ്രിക്കുകളിലോ ഒന്നും മാറ്റിയിട്ടില്ല.
ശേഷിക്കുന്ന 0.20 ശതമാനം പോയിന്റ് ഹെഡ്റൂം ഏകദേശം മുഴുവനും ക്ലിനിക്കൽ ഉപ-സ്കോറിലേക്ക് വിഭജിക്കുന്നു — ചെറിയൊരു വിഭാഗം കേസുകളിൽ (പ്രധാനമായും ഹെപറ്റോളജി, റിയുമറ്റോളജി) ഡയഗ്നോസ്റ്റിക് ഉള്ളടക്കം ശരിയായിരുന്നിട്ടും എഞ്ചിന്റെ വ്യാഖ്യാനത്തിൽ നിന്ന് ഒരു പ്രതീക്ഷിച്ച സ്കോറിംഗ്-സിസ്റ്റം കീവേഡ് കാണാനായില്ല. 100,000-കേസ് രണ്ടാം-അപ്ഡേറ്റ് കോഹോർട്ടിലെ ഒരു കേസും ഡയഗ്നോസിസ് തന്നെ നഷ്ടപ്പെടുത്തിയില്ല. V11 ആദ്യ റിലീസിലെ ശരാശരി 20.17 s-ൽ നിന്ന് രണ്ടാം അപ്ഡേറ്റിൽ 13.26 s ആയി ലാറ്റൻസി മെച്ചപ്പെട്ടു; രണ്ട് റൺസുകൾക്കിടയിലെ പ്രൊഡക്ഷൻ എഞ്ചിൻ ഓപ്റ്റിമൈസേഷനുകളെയാണ് ഇത് പ്രതിഫലിപ്പിക്കുന്നത്. റൂബ്രിക്, സ്കോറിംഗ് കോഡ്, API എൻഡ്പോയിന്റ് എന്നിവ മാറ്റമില്ലാതെ തുടരുന്നു.
ഏറ്റവും കൂടുതൽ പ്രതിനിധീകരിച്ച 30 രാജ്യ ലേബലുകളിലുടനീളം ലേബൽ-പ്രതി കോംപോസിറ്റ് സ്കോറുകൾ 0.9971 മുതൽ 0.9985 വരെ ആയിരുന്നു. ശേഷിക്കുന്ന 97 അധിക ലേബലുകളുടെ നീണ്ട ടെയിൽ (ഏകദേശം 7,300 കേസുകൾ ചേർന്ന്) യാതൊരു സിസ്റ്റമാറ്റിക് തകരാറും കാണിച്ചില്ല. കേസ് എണ്ണപ്രകാരം ഏറ്റവും പതിവുള്ള ലേബലുകൾ: യുണൈറ്റഡ് സ്റ്റേറ്റ്സ് (10,500), ബ്രസീൽ (9,500), സ്പെയിൻ (9,000), ഇറ്റലി (8,000), ജർമ്മനി (7,800), ഫ്രാൻസ് (7,400), പോർച്ചുഗൽ (5,800), Türkiye (3,400), യുണൈറ്റഡ് കിംഗ്ഡം (2,900), മെക്സിക്കോ (2,500).
15 കേസുകളിൽ നിന്ന് 100,000 വരെ: 127 രാജ്യ ലേബലുകളിലുടനീളമുള്ള കോഹോർട്ട് പരിണാമം
യഥാർത്ഥ V11 കേസ് പാനൽ ഏഴ് സ്പെഷ്യാലിറ്റികൾ — ഹെമറ്റോളജി, എൻഡോക്രിനോളജി, മെറ്റബോളിക് മെഡിസിൻ, ഹെപറ്റോളജി, നെഫ്രോളജി, കാർഡിയോളജി, റ്യൂമറ്റോളജി — കൂടാതെ രണ്ട് സമർപ്പിത ഹൈപ്പർഡയഗ്നോസിസ് ട്രാപ്പ് കേസുകളും ഉൾക്കൊള്ളുകയായിരുന്നു; ഓരോ കേസും സിന്തറ്റിക്കായി സൃഷ്ടിച്ച ഒരു രക്തപരിശോധന പാനലായിരുന്നു. V11 രണ്ടാം അപ്ഡേറ്റ് മൂല്യനിർണയം 127 രാജ്യ ലേബലുകളിലുടനീളമുള്ള 100,000 സിന്തറ്റിക് കേസുകളിലേക്ക് വിപുലീകരിക്കുന്നു, എട്ട് സ്പെഷ്യാലിറ്റികളിലായി (യഥാർത്ഥ ഏഴ് കൂടാതെ ട്രാപ്പ് ഉപസെറ്റ് ഉൾക്കൊള്ളുന്ന ഒരു സമർപ്പിത ഇൻറേണൽ-മെഡിസിൻ ബക്കറ്റ്). അതേ സ്കോറിംഗ് റൂബ്രിക് രണ്ട് റൺസുകളിലും ബൈറ്റ്-ഐഡന്റിക്കൽ ആയി പ്രയോഗിക്കുന്നു.
എല്ലാ കേസുകളും സിന്തറ്റിക്കായി സൃഷ്ടിച്ചതിനാൽ നീക്കം ചെയ്യാനുള്ള യഥാർത്ഥ ഐഡന്റിഫയറുകൾ ഇല്ല, വ്യക്തിഗത ഡാറ്റയും ഉൾപ്പെടുന്നില്ല. ഓരോ സിന്തറ്റിക് കേസിനും ഒരു ബെഞ്ച്മാർക്ക്-ആന്തരിക കേസ് കോഡ് ഉണ്ട് (V11 ആദ്യ സെറ്റിൽ BT-NNN-LABEL, രണ്ടാം അപ്ഡേറ്റിൽ സ്ഥിരമായത്). പ്രസിദ്ധീകരിച്ച ഹാർണസിലും സാങ്കേതിക റിപ്പോർട്ടിലും റിലീസ് ചെയ്ത ഡാറ്റാസെറ്റുകളിലും എവിടെയും വ്യക്തിഗത ഡാറ്റ പ്രത്യക്ഷപ്പെടുന്നില്ല. case_uid V11 രണ്ടാം അപ്ഡേറ്റ് — 127 രാജ്യ ലേബലുകളിലുടനീളമുള്ള 100,000 സിന്തറ്റിക് കേസുകൾ.
V11 ആദ്യ റിലീസ് അനുസരിച്ച് — 15 കൈകൊണ്ട് തിരഞ്ഞെടുത്ത കേസുകൾ
യഥാർത്ഥ V11 കേസ് പാനൽ ഡോ. തോമസ് ക്ലൈൻ കൈകൊണ്ട് തിരഞ്ഞെടുത്തതാണ്; ലബോറട്ടറി-മെഡിസിൻ അസിസ്റ്റന്റുമാർ ഏറ്റവും അധികം തെറ്റായി കൈകാര്യം ചെയ്യുന്ന ഡയഗ്നോസ്റ്റിക് പാറ്റേണുകൾ അഭ്യസിപ്പിക്കാനാണ് ഇത് രൂപകൽപ്പന ചെയ്തത്. താഴെപ്പറയുന്ന പ്രത്യേക ഡയഗ്നോസ്റ്റിക് ഗുണധർമ്മത്തിനായി പതിനഞ്ച് കേസുകളിൽ ഓരോന്നും തിരഞ്ഞെടുക്കപ്പെട്ടതാണ്.
ഈ പ്രത്യേക വിതരണം എന്തുകൊണ്ട്
യാഥാർത്ഥ്യ ലോക ലബോറട്ടറി പ്രാക്ടീസിൽ മൈക്രോസൈറ്റിക് ഡിഫറൻഷ്യലുകളും മാക്രോസൈറ്റിക് ഡിഫറൻഷ്യലുകളും ഏറ്റവും ഉയർന്ന തോതിലുള്ള “ട്രാപ്പുകൾ” ആയതിനാൽ ഹെമറ്റോളജിക്ക് മൂന്ന് കേസുകൾ ലഭിക്കുന്നു. ഹാഷിമോട്ടോയുടെ, PCOS, വിറ്റാമിൻ ഡി കുറവ് എന്നീ അവതരണങ്ങൾ വ്യത്യസ്തമായ ഡയഗ്നോസ്റ്റിക് രൂപങ്ങൾ (ഓട്ടോആന്റിബോഡി-നിർദ്ദിഷ്ടം, ഹോർമോൺ-റേഷിയോ-നിർദ്ദിഷ്ടം, ഒറ്റ മാർക്കർ-നിർദ്ദിഷ്ടം) പരിശീലിപ്പിക്കുന്നതിനാൽ എൻഡോക്രിനോളജിക്കും മൂന്ന് കേസുകൾ ലഭിക്കുന്നു. CKD, ASCVD റിസ്ക്, SLE എന്നിവയിൽ ഓരോന്നിനും എഞ്ചിൻ വിളിക്കേണ്ട സ്വന്തം സ്കോറിംഗ് സിസ്റ്റം ഉള്ളതിനാൽ ഒറ്റ-കേസ് സ്പെഷ്യാലിറ്റികൾ ഇപ്പോഴും അർത്ഥവത്താണ് (ക്രമമായി KDIGO സ്റ്റേജിംഗ്, ASCVD 10-വർഷ റിസ്ക്, 2019 EULAR/ACR SLE മാനദണ്ഡങ്ങൾ).
യഥാർത്ഥ V11 ഹാർഡ്-കോഡഡ് 15-കേസ് Python ലിറ്ററൽ ഒരു വലിയ, പ്രോഗ്രാമാറ്റിക്കായി സൃഷ്ടിച്ച സിന്തറ്റിക് കേസ് സെറ്റായി രണ്ടാം അപ്ഡേറ്റ് മാറ്റിസ്ഥാപിക്കുന്നു. ഓരോ റണ്ണിന്റെയും തുടക്കത്തിൽ കേസ് സെറ്റ് ലോഡ് ചെയ്യുകയും സുതാര്യതയ്ക്കായി കോൺഫിഗറേഷൻ ലോഗ് ചെയ്യുകയും ചെയ്യുന്നു. ഉള്ളടക്ക മേഖലയനുസരിച്ചുള്ള കോഹോർട്ട് വിതരണം താഴെ കാണിച്ചിരിക്കുന്നു.
സിന്തറ്റിക് രാജ്യ-ലേബൽ വിതരണം — മുൻനിര 10 ലേബലുകൾ.
100,000 സിന്തറ്റിക് കേസുകൾക്ക് 127 രാജ്യ ലേബലുകൾ (ISO 3166-1 alpha-2) ഉണ്ട്; ലോക്കെയിൽ കൈകാര്യം ചെയ്യൽ പരീക്ഷിക്കാൻ. ലേബൽ നിയോഗം: യൂറോപ്പ് 57.7%, അമേരിക്കാസ് 25.4%, ഏഷ്യ-പസഫിക് 6.2%, നാമകരണം ചെയ്ത മിഡിൽ-ഈസ്റ്റ്/ആഫ്രിക്ക ലേബലുകൾ 3.4%, കൂടാതെ ഏകദേശം 7.3% ചേർന്ന് വരുന്ന 97 അധിക ലേബലുകളുടെ ഒരു നീണ്ട ടെയിൽ. കേസ് എണ്ണപ്രകാരം ഏറ്റവും പതിവുള്ള പത്ത് ലേബലുകൾ: യുണൈറ്റഡ് സ്റ്റേറ്റ്സ് (10,500), ബ്രസീൽ (9,500), സ്പെയിൻ (9,000), ഇറ്റലി (8,000), ജർമ്മനി (7,800), ഫ്രാൻസ് (7,400), പോർച്ചുഗൽ (5,800), Türkiye (3,400), യുണൈറ്റഡ് കിംഗ്ഡം (2,900), മെക്സിക്കോ (2,500). ലേബൽ-പ്രതി കോംപോസിറ്റ് സ്കോറുകൾ 0.9971 മുതൽ 0.9985 വരെ ആയിരുന്നു. ഈ ലേബൽ എണ്ണങ്ങൾ ലോക്കെയിൽ കൈകാര്യം ചെയ്യൽ പരീക്ഷിക്കാൻ ഉപയോഗിച്ച സൃഷ്ടിച്ച കേസുകളുടെ ഗുണങ്ങളാണ് — ഇവ യഥാർത്ഥ ഉപയോക്താക്കളും യഥാർത്ഥ ലോകത്തിലെ ഭൂമിശാസ്ത്ര കവറേജും അല്ല.
ജനസംഖ്യാ തോതിൽ, വ്യക്തിഗത കേസ് നിരകൾ മനുഷ്യർക്കു വായിക്കാനാകില്ല; അതിനാൽ രണ്ടാം അപ്ഡേറ്റ് 100,000-നിര പട്ടികയ്ക്ക് പകരം സമാഹരിച്ച മെട്രിക്കുകൾ റിപ്പോർട്ട് ചെയ്യുന്നു. പ്രധാന സമാഹാരം താഴെ കാണിച്ചിരിക്കുന്നു; സ്പെഷ്യാലിറ്റി-പ്രതി, രാജ്യ-ലേബൽ-പ്രതി വിഭജനങ്ങൾ സാങ്കേതിക റിപ്പോർട്ടിലും Figshare ഡെപ്പോസിറ്റിലും പ്രസിദ്ധീകരിച്ചിരിക്കുന്നു. ഒരു സ്ട്രാറ്റിഫൈഡ് റാൻഡം സാമ്പിൾ ഓഫ്.
മുൻകൂട്ടി രജിസ്റ്റർ ചെയ്ത റൂബ്രിക് — വിശദീകരിച്ചത്
ഈ ബെഞ്ച്മാർക്കിലെ ഏറ്റവും പ്രധാനപ്പെട്ട മെഥഡോളജിക്കൽ തിരഞ്ഞെടുപ്പാണ് പ്രീ-രജിസ്ട്രേഷൻ. പ്രതീക്ഷിക്കുന്ന ഓരോ ഡയഗ്നോസും, ഓരോ ക്ലിനിക്കൽ സ്കോറിംഗ് സിസ്റ്റവും, ഓരോ റിപ്പോർട്ട് സെക്ഷനും സോഴ്സ് കോഡിലേക്ക് കമ്മിറ്റ് ചെയ്തിരുന്നു എഞ്ചിൻ വിളിക്കുന്നതിന് മുമ്പ്. അതിനാൽ എഞ്ചിനെ “ഫ്ലാറ്റർ” ചെയ്യാൻ റൂബ്രിക്കിൽ പോസ്റ്റ്-ഹോക് ട്യൂണിംഗ് നടത്തുന്നത് അസാധ്യമാണ്.
കോമ്പോസിറ്റ് സ്കോറിൽ മൂന്ന് ഘടകങ്ങളുണ്ട്. ഘടനാപരമായ ഘടകം 35 ശതമാനം സംഭാവന ചെയ്യുകയും, എഞ്ചിൻ ഏഴ് നിർബന്ധിത റിപ്പോർട്ട് സെക്ഷനുകൾ (ഹെഡർ, സംഗ്രഹം, പ്രധാന കണ്ടെത്തലുകൾ, ഡിഫറൻഷ്യൽ, സ്കോറിംഗ് സിസ്റ്റങ്ങൾ, ശുപാർശകൾ, ഫോളോ-അപ്പ്) കൂടാതെ അവയ്ക്കുള്ളിലെ പതിനാറ് നിർബന്ധിത ഉപസെക്ഷനുകളും തിരികെ നൽകിയോ എന്നത് അളക്കുകയും ചെയ്യുന്നു. സെക്ഷൻ സാന്നിധ്യം ഘടനാപരമായ കണക്കിൽ 40 ശതമാനം ഭാരവും ഉപസെക്ഷൻ സാന്നിധ്യം 60 ശതമാനം ഭാരവും വഹിക്കുന്നു.
ദി ക്ലിനിക്കൽ ഘടകം 55 ശതമാനം സംഭാവന ചെയ്യുകയും മൂന്ന് കാര്യങ്ങൾ സംയോജിപ്പിക്കുകയും ചെയ്യുന്നു: ഡയഗ്നോസിസ്-കീവേഡ് റികോൾ (ക്ലിനിക്കൽ ഉപ-സ്കോറിന്റെ 70 ശതമാനം), സ്കോറിംഗ്-സിസ്റ്റം റികോൾ (20 ശതമാനം — പ്രസക്തമായിടത്ത് എഞ്ചിൻ Mentzer, FIB-4, HOMA-IR, ASCVD റിസ്ക്, KDIGO സ്റ്റേജിംഗ്, EULAR/ACR മാനദണ്ഡങ്ങൾ കണക്കാക്കുന്നുണ്ടോ), കൂടാതെ പ്രോബബിലിറ്റി-സം സാധുത പരിശോധന (10 ശതമാനം — ഡിഫറൻഷ്യൽ സാധ്യതകൾ [90, 110] ഇടവേളയ്ക്കുള്ളിൽ കൂട്ടിച്ചേരണം). ട്രാപ്പ് കേസുകളിൽ, പരമാവധി 0.30 വരെ വ്യക്തമായ ഹൈപ്പർഡയഗ്നോസിസ് പിഴ കുറയ്ക്കുന്നു; ഇത് ഓരോ കൃത്രിമ പാത്തോളജി ഫ്ലാഗിനും 0.10 വീതം കണക്കാക്കി, പരമാവധി മൂന്ന് ഫ്ലാഗുകൾ വരെ മാത്രമായി പരിമിതപ്പെടുത്തുന്നു.
ദി ലാറ്റൻസി ഘടകം 10 ശതമാനം സംഭാവന ചെയ്യുന്നു. 20 സെക്കൻഡിന് താഴെയുള്ള പ്രതികരണത്തിന് പൂർണ്ണ 0.10 ലഭിക്കും, 40 സെക്കൻഡിന് താഴെയുള്ള പ്രതികരണത്തിന് 0.05 ലഭിക്കും, അതിലും മന്ദഗതിയുള്ളതെല്ലാംക്ക് പൂജ്യം. 20-സെക്കൻഡ് ലക്ഷ്യം പ്രൊഡക്ഷൻ പ്രൈമറി-പാത്ത് സർവീസ്-ലെവൽ ലക്ഷ്യത്തെ പ്രതിഫലിപ്പിക്കുന്നു; 40-സെക്കൻഡ് പരിധി ഹെവി-എഞ്ചിൻ ഇൻവൊക്കേഷനുകൾക്കുള്ള ഫേസ് 2 ഫാൾബാക്ക് ബജറ്റിനെ പ്രതിഫലിപ്പിക്കുന്നു.
പ്രീ-രജിസ്ട്രേഷൻ തടയുന്നത് എന്താണ്
പോസ്റ്റ്-ഹോക് റൂബ്രിക് ട്യൂണിംഗ് വഴി സ്വന്തം നമ്പറുകൾ തന്നെ ഉയർത്തിക്കാണിക്കുന്നതിന് ഫസ്റ്റ്-പാർട്ടി ബെഞ്ച്മാർക്കുകൾ പ്രശസ്തമാണ്. പാറ്റേൺ മിക്കവാറും എല്ലായ്പ്പോഴും ഒരുപോലെയാണ്: ടീം എഞ്ചിൻ ഓടിക്കുന്നു, എവിടെയാണ് അത് കുറവായി പ്രവർത്തിക്കുന്നതെന്ന് കാണുന്നു, പിന്നെ കുറവായി പ്രവർത്തിച്ച മേഖലകൾ കുറച്ച് മാത്രം എണ്ണപ്പെടുന്ന വിധത്തിൽ റൂബ്രിക് നിശ്ശബ്ദമായി ക്രമീകരിക്കുന്നു. ആദ്യ എഞ്ചിൻ കോളിന് മുമ്പ് റൂബ്രിക് സോഴ്സ് കോഡിലേക്ക് കമ്മിറ്റ് ചെയ്ത് MIT ലൈസൻസിൽ ഹാർനെസ് പ്രസിദ്ധീകരിച്ചതിലൂടെ, ആ ക്രമീകരണം വേർഷൻ കൺട്രോളിൽ ദൃശ്യമാകുന്നു. ആരും റീപോസിറ്ററി ക്ലോൺ ചെയ്ത് റൂബ്രിക് രചയിതാവിന്റെ തീയതികൾ പരിശോധിച്ച്, സ്കോറിംഗ് രൂപപ്പെടുത്താൻ എഞ്ചിൻ ഫലങ്ങൾ ഉപയോഗിച്ചിട്ടില്ലെന്ന് സ്ഥിരീകരിക്കാം.
ഹൈപ്പർഡയഗ്നോസിസ് ട്രാപ്പ് കേസുകൾ — അമിതമായി വിളിക്കുന്നതാണ് യഥാർത്ഥ പരാജയ മോഡ് എന്തുകൊണ്ട്
സാധാരണ സ്ക്രീനുകളിൽ പാത്തോളജിയെ അതിരുകടന്ന് വിളിച്ചുപറയുന്നത് ഉപഭോക്തൃ-മുഖമായ മെഡിക്കൽ അസിസ്റ്റന്റുകളിൽ രേഖപ്പെടുത്തിയ പരാജയ രീതിയാണ്. അതിന്റെ തുടർചെലവുകളിൽ അനാവശ്യ അന്വേഷണം, രോഗിയുടെ ആശങ്ക, ഐട്രോജനിക് വർക്ക്-അപ്പ് എന്നിവ ഉൾപ്പെടുന്നു. ഈ ബെഞ്ച്മാർക്കിലെ രണ്ട് ട്രാപ്പ് കേസുകൾ ഈ പരാജയ രീതി ദൃശ്യമാക്കാനും സ്കോർ ചെയ്യാനും രൂപകൽപ്പന ചെയ്തതാണ്.
🟡 ട്രാപ്പ് 1 — BT-014-GILBERT
അവതരണം. മൊത്തം ബിലിറൂബിൻ 2.4 mg/dL ഉള്ള 24 വയസ്സുള്ള പുരുഷൻ. ഡയറക്ട് ഫ്രാക്ഷൻ സാധാരണമാണ്, ട്രാൻസാമിനേസുകളും ആൽക്കലൈൻ ഫോസ്ഫറ്റേസും അവയുടെ റഫറൻസ് പരിധിക്കുള്ളിലാണ്, ററ്റിക്കുലോസൈറ്റുകൾ ശ്രദ്ധേയമല്ല, ഹാപ്ടോഗ്ലോബിനും LDHയും ഹീമോളിസിസ് ഒഴിവാക്കുന്നു.
ശരിയായ വ്യാഖ്യാനം. ഗിൽബർട്ടിന്റെ സിന്ഡ്രോം — ഒരു സൌമ്യമായ UGT1A1 പോളിമോർഫിസം. വ്യാഖ്യാനം ഹെപ്പറ്റൈറ്റിസ്, സിറോസിസ്, ഹീമോളിറ്റിക് അനീമിയ, അല്ലെങ്കിൽ ബിലിയറി തടസ്സം എന്നിവയെ വിളിച്ചുകൂട്ടരുത്.
V11 ഫലം. കോമ്പോസിറ്റ് 1.000. നിരീക്ഷിച്ച ആറു ഓവർ-ഡയഗ്നോസിസ് ഫ്ലാഗുകളിൽ ഒന്നും സജീവ ഡയഗ്നോസുകളായി പ്രത്യക്ഷപ്പെട്ടില്ല.
🟡 ട്രാപ്പ് 2 — BT-015-HEALTHY
അവതരണം. പതിനഞ്ച്-പാരാമീറ്റർ റൂട്ടീൻ സ്ക്രീനിംഗ് പാനൽ ഉള്ള 35 വയസ്സുള്ള സ്ത്രീ. ഓരോ അനലൈറ്റും അതിന്റെ റഫറൻസ് പരിധിക്കുള്ളിൽ തന്നെ സുഖകരമായി ഇരിക്കുന്നു.
ശരിയായ വ്യാഖ്യാനം. ആശ്വാസവും ജീവിതശൈലി പരിപാലനവും. ക്ലിനിക്കലി ഉപയോഗപ്രദമാണെന്ന് തോന്നിക്കാൻ അതിരുകടന്ന രോഗാവസ്ഥകൾ കൃത്രിമമായി സൃഷ്ടിക്കരുത് എന്നതാണ് വ്യാഖ്യാനത്തിന്റെ ലക്ഷ്യം.
V11 ഫലം. സംയുക്തം 1.000. നിരീക്ഷിച്ച ഏഴ് ഓവർ-ഡയഗ്നോസിസ് ഫ്ലാഗുകളിൽ — പ്രമേഹം, രക്തക്ഷയം, ഹൈപ്പോതൈറോയിഡിസം, ഡിസ്ലിപിഡീമിയ, ഹെപ്പറ്റൈറ്റിസ്, വൃക്കരോഗം, കുറവ് — ഒന്നും സജീവ രോഗനിർണയങ്ങളായി പ്രത്യക്ഷപ്പെട്ടില്ല.
ഇരുവിധ ട്രാപ്പുകളിലുമായി പതിമൂന്ന് നിരീക്ഷിച്ച ഹൈപ്പർഡയഗ്നോസിസ് ഫ്ലാഗുകൾ പരിശോധിച്ചു. ഒന്നും ട്രിഗർ ആയില്ല. ട്രയേജ് അല്ലെങ്കിൽ പ്രീ-കൺസൾട്ടേഷൻ ഉപകരണമെന്ന നിലയിൽ ഒരു AI എഞ്ചിൻ ഉപയോഗിക്കാൻ പരിഗണിക്കുന്ന ഏതൊരു ക്ലിനീഷ്യനും ഏറ്റവും പ്രധാനമായി ശ്രദ്ധിക്കേണ്ട ഫലമാണിത്: നിലവിലില്ലാത്തിടത്ത് രോഗം സിസ്റ്റം കണ്ടുപിടിച്ചില്ല.
മെൻറ്റ്സർ ഇൻഡക്സ്: ഇരുമ്പുകുറവ് താലസീമിയ ട്രെയിറ്റിൽ നിന്ന് വേർതിരിക്കൽ
രണ്ടാമത്തെ ഉയർന്ന മൂല്യമുള്ള കണ്ടെത്തൽ കേസ് BT-001 (ഇരുമ്പുകുറവ് മൂലമുള്ള രക്തക്ഷയം) നെ കേസ് BT-007 (ബീറ്റാ-തലസീമിയ മൈനർ) നെ തമ്മിൽ കൂട്ടിച്ചേർത്തതാണ്. ഇരുവരിലും മൈക്രോസൈറ്റോസിസ് കാണപ്പെടുകയും, നൈവ് ക്ലാസിഫയറുകൾക്ക് ഇത് ഒരു സുപരിചിതമായ തടസ്സവുമാണ്. MCV നെ RBC എണ്ണത്തിൽ വിഭജിച്ച് കണക്കാക്കുന്ന മെൻറ്റ്സർ സൂചിക ഇരുമ്പുകുറവിൽ 13-നെക്കാൾ കൂടുതലായും തലസീമിയ ട്രെയിറ്റിൽ 13-നെക്കാൾ താഴെയായും വരും.
BT-001 ൽ രോഗി 34 വയസ്സുള്ള സ്ത്രീയായിരുന്നു; ഹീമോഗ്ലോബിൻ 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ഫെറിറ്റിൻ 6 ng/mL, കൂടാതെ ഉയർന്ന TIBC. ഏകദേശം 17.7 ആയ മെൻറ്റ്സർ സൂചിക പരമമായ ഇരുമ്പുകുറവ് പിന്തുണയ്ക്കുന്നു. BT-007 ൽ രോഗി 28 വയസ്സുള്ള പുരുഷനായിരുന്നു; മൈക്രോസൈറ്റോസിസ് (MCV 65.8 fL) ഉണ്ടെങ്കിലും RBC എണ്ണം 6.2 ആയിരുന്നു, RDW സാധാരണമായിരുന്നു, ഫെറിറ്റിൻ സാധാരണമായിരുന്നു, HbA2 5.6 ശതമാനമായിരുന്നു. ഏകദേശം 10.6 ആയ മെൻറ്റ്സർ സൂചിക തലസീമിയ ട്രെയിറ്റ് സൂചിപ്പിക്കുന്നു, കൂടാതെ ഉയർന്ന HbA2 ബീറ്റാ-തലസീമിയ മൈനർ സ്ഥിരീകരിക്കുന്നു.
ഇരുവിധ കേസുകളും 1.000 എന്ന സ്കോർ നേടി. എഞ്ചിൻ രണ്ടുവ്യാഖ്യാനങ്ങളിലും മെൻറ്റ്സർ സൂചിക വ്യക്തമായി ഉപയോഗിക്കുകയും ഓരോ സംഭവത്തിലും ശരിയായ രോഗനിർണയം തിരികെ നൽകുകയും ചെയ്തു. മുഴുവൻ ബെഞ്ച്മാർക്കിലും ഏറ്റവും ക്ലിനിക്കലി ആശ്വാസകരമായ ഏക ഫലമാണിത്, കാരണം തലസീമിയ ട്രെയിറ്റിനെ ഇരുമ്പുകുറവായി തെറ്റായി വർഗീകരിക്കുന്നത് അനുപയോഗ്യമായ ഇരുമ്പ് സപ്ലിമെന്റേഷൻക്കും കുടുംബ-സ്ക്രീനിംഗ് അവസരങ്ങൾ നഷ്ടപ്പെടുന്നതിനും കാരണമാകുന്നു; അതേസമയം ഇരുമ്പുകുറവിനെ തലസീമിയയായി തെറ്റായി വർഗീകരിക്കുന്നത് നേരിട്ടുള്ള പകരംചികിത്സ വൈകിപ്പിക്കുന്നു. ഞങ്ങളുടെ ഫെറിറ്റിൻ പരിധി ഗൈഡ് വിശാലമായ ഡിഫറൻഷ്യൽ പശ്ചാത്തലം വിശദീകരിക്കുന്നു.
V11 പ്രാരംഭ റഫറൻസ് റണ്ണിൽ നിന്നുള്ള ഓരോ-കേസിന്റെയും ഫലങ്ങൾ (ഏപ്രിൽ 23, 2026)
15-കേസ് പ്രൂഫ്-ഓഫ്-കോൺസെപ്റ്റ് കോഹോർട്ടിലെ യഥാർത്ഥ V11 റഫറൻസ് റൺ, രണ്ടാം അപ്ഡേറ്റിന്റെ രീതിശാസ്ത്ര അടിസ്ഥാനം ആയി പ്രവർത്തിക്കുന്നു : താഴെ കാണുന്ന ഓരോ-കേസിന്റെയും വിശദാംശങ്ങൾ റൂബ്രിക്ക് ഒരു യഥാർത്ഥ എഞ്ചിൻ പ്രതികരണത്തെ എങ്ങനെ കൈകാര്യം ചെയ്യുന്നു എന്ന് വ്യക്തമാക്കുന്നു. പതിനഞ്ചിൽ പന്ത്രണ്ടു കേസുകൾ പ്രൈമറി പാതയിൽ 1.000 എന്ന പരമാവധി സംയുക്ത സ്കോർ നേടി; മൂന്ന് കേസുകൾ Phase 2 ഫallback വഴി സേവിച്ചു, 0.05 ലാറ്റൻസി ബോണസ് നഷ്ടപ്പെട്ടെങ്കിലും എല്ലാ ക്ലിനിക്കൽയും ഘടനാപരവുമായ ഉള്ളടക്കവും നിലനിർത്തി. ഒരു കേസ് ഒരു നിർബന്ധിത ഉപവിഭാഗം നഷ്ടപ്പെട്ടു; മറ്റൊന്ന് അല്പം കുറവായ പ്രോബബിലിറ്റി വിതരണത്തിന്റെ മൊത്തം തിരികെ നൽകി.
PCOS കേസ് (BT-008) പ്രതികരണ ഘടനയിൽ ഒരു നിർബന്ധിത ഉപവിഭാഗം നഷ്ടപ്പെടുത്തി — പതിനാറിൽ പതിനഞ്ച് പകരം പതിനാറിൽ പതിനാറ് — ഇതിലൂടെ ഘടനാ സ്കോർ 1.000 മുതൽ 0.963 ആയി കുറച്ചു. SLE കേസ് (BT-011) എല്ലാ ഡയഗ്നോസ്റ്റിക് കീവേഡുകളും സ്കോറിംഗ് സിസ്റ്റവും സംരക്ഷിച്ചുകൊണ്ട് ക്ലിനിക്കൽ സ്കോർ 0.965 ആയി താഴ്ത്തിയ, അല്പം കുറവായ പ്രോബബിലിറ്റി-ഡിസ്ട്രിബ്യൂഷൻ സം തിരികെ നൽകി. യാതൊരു ഉപ-പൂർണ്ണമായ കേസും ശരിയായ രോഗനിർണയം നഷ്ടപ്പെടുത്തിയില്ല.
V11 രണ്ടാം അപ്ഡേറ്റ് സംയുക്തം — 100,000 കേസുകൾ
ഈ പ്രത്യേക പ്രീ-രജിസ്റ്റർ ചെയ്ത റൂബ്രിക്കിന് കീഴിൽ 99.80 ശതമാനം എന്ന ഒരു കോംപോസിറ്റ് സ്കോർ, 127 രാജ്യ ലേബലുകൾ വ്യാപിക്കുന്ന 100,000-കേസ് സിന്തറ്റിക് കോഹോർട്ടിൽ, സീലിംഗ്-നോട് അടുത്ത പ്രകടനമാണ് — പക്ഷേ അതിനെ സൂക്ഷ്മമായി ഫ്രെയിം ചെയ്യേണ്ടതുണ്ട്. V11-ൽ ഞങ്ങൾ സോഴ്സ് കോഡിൽ പ്രതിജ്ഞാബദ്ധമായ റൂബ്രിക്കിനെതിരെ എഞ്ചിന്റെ പെരുമാറ്റത്തെ ഈ ഫലം വിവരിക്കുന്നു; വന്യമായി നിലനിൽക്കുന്ന എല്ലാ രക്തപരിശോധന പാനലുകളിലും എഞ്ചിന്റെ ശരിതന്മയെക്കുറിച്ചുള്ള ഒരു സർവസാധാരണ അവകാശവാദമല്ല ഇത്. n = 201 റോ എഞ്ചിൻ പ്രതികരണങ്ങൾ (നിർണായക സീഡ് 20260426) പരിശോധനയ്ക്കായി GitHub results/ ഡയറക്ടറിയിൽ പ്രസിദ്ധീകരിച്ചിരിക്കുന്നു.
ഹെഡ്ലൈൻ സ്കോർ നമ്മോട് പറയാത്തത് എന്താണ്
127 രാജ്യ ലേബലുകളിലുടനീളമുള്ള 100,000 കേസുകളിൽ 99.80% കോംപോസിറ്റ് സ്കോർ.
ഈ സ്കോർ പറയുന്നത്, ഈ മൂല്യനിർണയത്തിനായി തിരഞ്ഞെടുത്ത ഡയഗ്നോസ്റ്റിക് പാറ്റേണുകൾ ജനസംഖ്യാ തോതിലുള്ള കോഹോർട്ടിൽ എഞ്ചിൻ ശരിയായി കൈകാര്യം ചെയ്തുവെന്നതാണ്; പ്രസിദ്ധീകരിച്ചും പുനരുത്പാദിപ്പിക്കാവുന്നതുമായ ഒരു രീതിശാസ്ത്രത്തിലാണ് ഇത്. കാട്ടിൽ നിലവിലുള്ള എല്ലാ രക്ത പരിശോധന പാനലുകളിലും എഞ്ചിൻ ശരിയാണെന്ന് ഇത് പറയുന്നില്ല. എഞ്ചിൻ ക്ലിനീഷ്യൻ വിധിയെ പകരം വയ്ക്കണം എന്ന് ഇത് പറയുന്നില്ല. കൂടാതെ മറ്റ് AI സിസ്റ്റങ്ങളേക്കാൾ എഞ്ചിൻ മികച്ചതാണെന്ന് ഇത് പറയുന്നില്ല — മറ്റ് എഞ്ചിനുകളുമായുള്ള താരതമ്യ വിശകലനങ്ങൾ ഈ റിപ്പോർട്ടിന്റെ പരിധിയിൽ നിന്ന് ഉദ്ദേശപൂർവ്വം ഒഴിവാക്കിയതാണ്.
സ്കോർ സ്ഥാപിക്കുന്നത് ഒരു അടിസ്ഥാനരേഖയാണ്. റൂബ്രിക്കും ഹാർണസും പൊതുവായതിനാൽ, എഞ്ചിന്റെ ഭാവി പതിപ്പുകൾ അതേ റൂബ്രിക്കിനെതിരെ വിലയിരുത്താം — V11 പ്രാരംഭത്തിലെ 15 കേസുകൾക്ക്, രണ്ടാം അപ്ഡേറ്റിലെ 100,000-കേസ് കോഹോർട്ടിന്, അല്ലെങ്കിൽ തുടർന്നുള്ള ഏതെങ്കിലും വിപുലീകരണത്തിനും പ്രയോഗിച്ച് — പ്രസിദ്ധീകരിച്ച സ്കോറിനും തുടർന്ന് നടക്കുന്ന ഏതെങ്കിലും റണ്ണിനുമിടയിലെ വിടവ് തന്നെ അളക്കാവുന്നതാണ്. മുൻകൂട്ടി രജിസ്ട്രേഷൻ നൽകുന്ന മൂല്യം ഇതാണ്: പ്രകടന അവകാശവാദങ്ങളെ പരീക്ഷിക്കാവുന്ന അവകാശവാദങ്ങളാക്കി മാറ്റുന്നു.
10 മിനിറ്റിനുള്ളിൽ ഈ ബെഞ്ച്മാർക്ക് എങ്ങനെ പുനരാവർത്തിക്കാം
പുനരുത്പാദനം ആവശ്യപ്പെടുന്നത് വെറും Kantesti API ക്രെഡൻഷ്യൽ ജോഡിയും, Python 3.10 അല്ലെങ്കിൽ അതിനുശേഷമുള്ള ഒരു പരിസ്ഥിതിയും മാത്രമാണ്; requests ഒപ്പം reportlab ലൈബ്രറികൾ ഇൻസ്റ്റാൾ ചെയ്തിരിക്കണം. പൂർണ്ണ ഹാർനെസ് MIT ലൈസൻസിന് കീഴിൽ പുറത്തിറക്കിയ ഒരു ഒറ്റ, സ്വയംപര്യാപ്തമായ Python മോഡ്യൂളാണ്.
ഒരു പുതിയ റണ്ണിനുള്ള നാല് ഘട്ടങ്ങൾ
ഒന്ന്. റീപോസിറ്ററി ക്ലോൺ ചെയ്യുക: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. രണ്ട്. requirements.txt ഉപയോഗിച്ച് ഡിപൻഡൻസികൾ ഇൻസ്റ്റാൾ ചെയ്യുക pip install -r requirements.txt (Second Update ചേർക്കുന്നത് mysql-connector-python ≥ 8.0 SQL case loader-നായി). മൂന്ന്. സജ്ജമാക്കുക KANTESTI_USERNAME ഒപ്പം KANTESTI_PASSWORD എഞ്ചിൻ API-ക്കുള്ള environment variables ആയി. രണ്ടാം അപ്ഡേറ്റ് SQL case loader-നായി കൂടാതെ സജ്ജമാക്കുക: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, കൂടാതെ KANTESTI_DB_PASSWORD — റീഡ്-ഓൺലി റോൾ വഴി ലോഡർ കണക്റ്റ് ചെയ്യുന്നു (bench_reader) തിരിച്ചറിയൽ പട്ടികകളിൽ യാതൊരു അധികാരവും ഇല്ലാത്തത്. നാല്. പ്രവർത്തിപ്പിക്കുക python benchmark_bloodtest.py --limit 100000 പൂർണ്ണമായ Second-Update റൺക്കായി, അല്ലെങ്കിൽ python benchmark_bloodtest.py --limit 1000 വേഗത്തിലുള്ള ആവർത്തനത്തിനായി. ഔട്ട്പുട്ടുകൾ എത്തുന്നത് ./benchmark_results/: രാജ്യ-ലേബൽ, വിശേഷത എന്നീ കോളങ്ങളുള്ള ഒരു CSV സ്കോർകാർഡ്, ഒരു JSON അഗ്രിഗേറ്റ്, ഒരു സ്ട്രാറ്റിഫൈഡ്-റാൻഡം അസംസ്കൃത-പ്രതികരണ സാമ്പിൾ, ഒരു Markdown റിപ്പോർട്ട്.
2026 ഏപ്രിൽ 23-ലെ റഫറൻസ് റൺ (V11 പ്രാരംഭം, 15 കേസുകൾ)യും 2026 ഏപ്രിൽ 26-ലെ റഫറൻസ് റൺ (V11 Second Update, 100,000 കേസുകൾ)യും റീപോസിറ്ററിയിലെ results/ ഡയറക്ടറിയിൽ സംരക്ഷിച്ചിരിക്കുന്നു. പുതിയ ഒരു റൺ പുതിയ ടൈംസ്റ്റാമ്പ് ചെയ്ത സ്കോർകാർഡ് സൃഷ്ടിക്കും; റഫറൻസ് റൺകൾ മാറ്റമില്ലാതെ തുടരും. നിങ്ങളുടെ റൺ അർത്ഥപൂർണ്ണമായി വ്യത്യസ്തമായ ഫലം നൽകുന്നുവെങ്കിൽ, റൺ ടൈംസ്റ്റാമ്പും പ്രതികരണ മെറ്റാഡാറ്റയിൽ ലഭിച്ച എഞ്ചിൻ പതിപ്പും ഉൾപ്പെടുത്തി ദയവായി ഒരു GitHub issue തുറക്കുക.
പരിമിതികളും ഭാവി പ്രവർത്തനങ്ങളും
127 രാജ്യ ലേബലുകളിലായി 100,000 കേസുകൾ വരെ ഉണ്ടായാലും, നാല് പരിമിതികൾ വ്യക്തമായി അംഗീകരിക്കേണ്ടതുണ്ട്: ലോങ്-ടെയിൽ ലേബൽ അണ്ടർസാമ്പ്ലിംഗ്, സിംഗിൾ-ഷോട്ട് മൂല്യനിർണയം, സിംഗിൾ-എഞ്ചിൻ പരിധി, സിംഗിൾ-സോഴ്സ് ഡാറ്റ ഉത്ഭവം. ഇവയെല്ലാം സജീവമായ ഫോളോ-അപ്പ് പ്രവർത്തനങ്ങളിൽ പരിഹരിച്ചുകൊണ്ടിരിക്കുന്നു.
ലോങ്-ടെയിൽ ലേബൽ കവറേജ്. Second Update 127 രാജ്യ ലേബലുകൾ ഉൾക്കൊള്ളുന്നു, പക്ഷേ വിതരണം അസമതുലിതമാണ് — മുൻനിര 10 ലേബലുകൾ കേസുകളുടെ ≈66.4% ആണ്, കൂടാതെ 97 അധിക ലേബലുകളുടെ ലോങ് ടെയിൽ ഒരുമിച്ച് ≈7.3% (ഏകദേശം 7,300 കേസുകൾ ചേർന്ന്, ശരാശരി ~75 കേസുകൾ പ്രതി ലേബൽ) സംഭാവന ചെയ്യുന്നു. അതിനാൽ ഈ ലോങ് ടെയിലിലെ ഓരോ-ലേബൽ കോമ്പോസിറ്റുകൾ തലക്കെട്ട് കണക്കുകൾ സൂചിപ്പിക്കുന്നതിനെക്കാൾ കൂടുതൽ ശബ്ദമുള്ളവയാണ്. ഓരോ-ലേബൽ എസ്റ്റിമേറ്റുകൾ ഉറപ്പിക്കാൻ ഭാവിയിലെ റൺസുകളിൽ ലേബൽ അസൈൻമെന്റ് പുനഃസമതുലിതമാക്കും.
സിംഗിൾ-ഷോട്ട് മൂല്യനിർണയം. കോഹോർട്ടിലെ ഓരോ കേസും ഒരിക്കൽ മാത്രമാണ് വിലയിരുത്തിയത്. കുറഞ്ഞ സാമ്പ്ലിംഗ് താപനിലയിലും വലിയ ഭാഷാ മോഡലുകൾക്ക് ഗണ്യമായ ഔട്ട്പുട്ട് വ്യതിയാനം കാണപ്പെടുന്നതിനാൽ, ഓരോ കേസിനും അഞ്ച് മൂല്യനിർണയങ്ങളുള്ള മൾട്ടി-റൺ പ്രോട്ടോക്കോളും റിപ്പോർട്ട് ചെയ്ത വ്യതിയാനവും അടുത്ത സ്വാഭാവിക ഘട്ടമാണ് — പ്രത്യേകിച്ച് ട്രാപ്പ്-കേസ് ഉപസെറ്റിൽ, സാമ്പ്ലിംഗ് ജിറ്ററിനിടയിലും സ്ഥിരത നിലനിൽക്കുന്നത് സുരക്ഷാ അവകാശവാദത്തിന്റെ ഭാഗമാണ്.
സിംഗിൾ-എഞ്ചിൻ പരിധി. ഈ റിപ്പോർട്ട് ഒരു എഞ്ചിനെ മാത്രമാണ് സ്വഭാവീകരിക്കുന്നത്. മറ്റ് AI സിസ്റ്റങ്ങളുമായുള്ള താരതമ്യ വിശകലനങ്ങൾ ഇവിടെ പരിധിക്കു പുറത്താണ്; അതേ MIT-ലൈസൻസ്ഡ് ഹാർനെസിനെതിരെ അനുയോജ്യമായ രീതിശാസ്ത്രത്തോടെ ഒരു വേറിട്ട സ്വതന്ത്ര പഠനമായി അവ പിന്തുടരാൻ സാധ്യതയുണ്ട്.
സിന്തറ്റിക് ഡാറ്റ. 100,000 കേസുകൾ സിന്തറ്റിക്കായി സൃഷ്ടിച്ചതാണ്—സിന്തറ്റിക് കേസുകൾ അല്ല—ഫലങ്ങൾ യഥാർത്ഥ ലോക ക്ലിനിക്കൽ പ്രകടനത്തിലേക്ക് കൈമാറാനാവില്ല. യഥാർത്ഥ, സമ്മതം ലഭിച്ച, ബാഹ്യമായി ലഭിച്ച ഡാറ്റയിൽ മൂല്യനിർണയം നടത്താൻ അനുയോജ്യമായ നൈതിക മേൽനോട്ടം ആവശ്യമാണ്, ഇത് ഈ സിന്തറ്റിക് ബെഞ്ച്മാർക്കിന്റെ പരിധിക്കു പുറത്താണ്.
ഈ നാല് പരിമിതികൾക്കപ്പുറം, ഏറ്റവും സ്വാധീനമുള്ള പദ്ധതിയിട്ട വിപുലീകരണം ജൂറിസ്ഡിക്ഷൻപ്രകാരം മൾട്ടി-ഭാഷാ സമതുല്യതയാണ്. Kantesti AI Engine 75+ ഭാഷകളിൽ ഉപയോക്താക്കൾക്ക് സേവനം നൽകുന്നു; ഭാഷ-സ്ട്രാറ്റിഫൈഡ് Second-Update ഉപ-കോഹോർട്ടുകൾ (ടർക്കിഷ്, ജർമ്മൻ, സ്പാനിഷ്, ഫ്രഞ്ച്, ഇറ്റാലിയൻ, പോർച്ചുഗീസ്, അറബിക്, മാൻഡറിൻ) പ്രവർത്തിപ്പിക്കുന്നത് എഞ്ചിൻ പിന്തുണയ്ക്കുന്ന ഭാഷകളിലുടനീളം ഔട്ട്പുട്ട് ഗുണനിലവാരം അളക്കും. ഓരോ ഭാഷ-സ്ട്രാറ്റിഫൈഡ് വിശകലനവും അതിന്റെ സ്വന്തം DOIയും ഹാർനെസ് ബ്രാഞ്ചും സഹിതം പ്രസിദ്ധീകരിക്കും.