આ બેન્ચમાર્ક શા માટે અસ્તિત્વમાં છે અને તે શું ચકાસે છે
AI-સહાયિત બ્લડ ટેસ્ટ રિપોર્ટ સમજો ગ્રાહક અને ક્લિનિકલ વર્કફ્લોમાં વધતી જતી રીતે વપરાય છે, છતાં પ્રયોગશાળા દવાખાનાની દૃષ્ટિએ અનુકૂળ, પુનઃઉત્પાદિત મૂલ્યાંકન ફ્રેમવર્ક્સ દુર્લભ રહે છે. આ પરિસ્થિતિમાં સૌથી મહત્વના પ્રશ્નો સામાન્ય મેડિકલ પ્રશ્ન-ઉત્તર બેન્ચમાર્ક્સમાં આવતાં નથી: જ્યારે મીન કોર્પસ્ક્યુલર વોલ્યુમ સમાન હોય ત્યારે શું એન્જિન આયર્ન ડિફિશિયન્સી ને થેલેસેમિયા ટ્રેઇટથી અલગ કરી શકે છે, શું તે ગિલ્બર્ટ્સ સિન્ડ્રોમને હેપેટાઇટિસ તરીકે વધુ નિદાન કરે છે, અને શું તે સંપૂર્ણ રીતે સામાન્ય સ્ક્રીનિંગ પેનલમાં પેથોલોજી “બનાવે” છે?
એક જ બ્લડ ટેસ્ટ પેનલ સામાન્ય રીતે અનેક સ્પર્ધાત્મક વ્યાખ્યાઓને ટેકો આપવા માટે પૂરતો સંકેત ધરાવે છે, અને વ્યાખ્યા આપતા ક્લિનિશિયનનું કામ એ છે કે તે વ્યાખ્યાઓને એકબીજા સામે તોલે, પુસ્તકના જવાબને શોધી કાઢવાને બદલે. જે એન્જિન પાઠ્યપુસ્તકના કેસોમાં સારું કરે છે તે પણ સૌથી વધુ મહત્વના કેસોમાં નિષ્ફળ જઈ શકે છે: ડિફરેનશિયલ-ડાયગ્નોસિસની ખામીઓ, એકલા જોવામાં ચિંતાજનક લાગતા નિર્દોષ વેરિઅન્ટ્સ, અને સંપૂર્ણ રીતે સામાન્ય પેનલ્સ જે આત્મવિશ્વાસી સહાયકોને પેથોલોજી બનાવવામાં લલચાવે છે.
આ બેન્ચમાર્ક ખાસ કરીને આ જ નિષ્ફળતા-રીતિઓને ધ્યાનમાં રાખીને બનાવવામાં આવ્યો હતો. પંદરેય કેસમાંથી દરેકને ચોક્કસ નિદાનાત્મક ગુણધર્મ માટે પસંદ કરવામાં આવ્યો હતો: આયર્નની ઉણપથી થતી માઇક્રોસાઇટોસિસને એવી બીટા-થેલેસેમિયા ટ્રેઇટથી અલગ રાખવી જ પડે જેમાં સમાન મીન કોર્પસ્ક્યુલર વોલ્યુમ હોય; ગિલ્બર્ટ્સ સિન્ડ્રોમનું પ્રસ્તુતિરૂપ જ્યાં એકમાત્ર અસામાન્યતા અલગ પડેલી ઇન્ડાયરેક્ટ હાઇપરબિલિરુબિનેમિયા હોય; અને પંદર-પરિમાણી સ્ક્રીનિંગ પેનલ જેમાં દરેક એનાલાઇટ તેના રેફરન્સ રેન્જની અંદર જ હોય. રૂબ્રિક એવા એન્જિનોને ઇનામ આપે છે જે દરેક કેસને તેના પોતાના સંદર્ભમાં વાંચે છે અને એવા એન્જિનોને દંડ આપે છે જે ત્યાં કોઈ એવી નિદાન-યોગ્યતા ન હોય છતાં આત્મવિશ્વાસભર્યું નિદાન સુધી પહોંચી જાય.
એમ.ડી. થોમસ ક્લાઇન તરીકે, મેં કેસ પેનલ પસંદ કરી કારણ કે આ જ એવા પેટર્ન્સ છે જે લેબોરેટરી-મેડિસિન સહાયકો સૌથી વધુ વાર ખોટા કરે છે. મોંઘી નિષ્ફળતા-રીતિ "દુર્લભ રોગ ચૂકી જવું" નથી — તે એવા દર્દીઓમાં નિયમિત (રૂટીન) પેથોલોજી ઘડી કાઢવી છે જેમને તે નથી. અમારા તબીબી માન્યતા હબ વ્યાપક ફ્રેમવર્ક વર્ણવે છે; આ પેજ V11 પ્રારંભિક પ્રૂફ-ઓફ-કોન્સેપ્ટ અને V11 સેકન્ડ અપડેટ વર્ણવે છે, જેણે તેને 127 દેશોમાં ફેલાયેલા SQL-બેકડ ક્લિનિકલ રિપોઝિટરીમાંથી લેવામાં આવેલા 100,000 અનામીકૃત કેસ સુધી સ્કેલ કર્યું — એ જ સ્કોરિંગ રૂબ્રિક, બાઇટ-સમાન, અને કોઈ પોસ્ટ-હોક ટ્યુનિંગની મંજૂરી વગર.
તાજેતરનું રેફરન્સ રન — V11 સેકન્ડ અપડેટ (26 એપ્રિલ, 2026)
26 એપ્રિલ, 2026ના V11 સેકન્ડ અપડેટ રેફરન્સ રને સંયુક્ત સ્કોર (કમ્પોઝિટ સ્કોર) ઉત્પન્ન કર્યો 99.80% V11 પ્રારંભિક રિલીઝમાં ઉપયોગમાં લેવાયેલા એ જ પૂર્વ-નોંધાયેલા રૂબ્રિક પર, મૂલ્યાંકન કરવામાં આવ્યું 100,000 અનામીકૃત કેસો પર Kantesti SQL-બેકડ ક્લિનિકલ રિપોઝિટરીમાંથી લેવામાં આવેલા અને 127 દેશોમાં અને 75+ ભાષાઓમાં ફેલાયેલા. દરેક કેસ એન્જિનના મુખ્ય પાથ પર પૂર્ણ થયો; ટ્રેપ-કેસ હાઇપરડાયગ્નોસિસ ફ્લેગ સક્રિયતાઓ 0 / 87,412. પર જ રહી. 23 એપ્રિલ, 2026ના મૂળ V11 રનમાં 15 હેન્ડ-ક્યુરેટેડ કેસો (કમ્પોઝિટ 99.12%) આવરી લેવાયા હતા અને રૂબ્રિકને માન્ય કરાયો હતો; સેકન્ડ અપડેટ એ જ રૂબ્રિકને બાઇટ-સમાન રાખે છે અને મૂલ્યાંકનને વસ્તી-સ્તરના કોહોર્ટ સુધી વિસ્તારે છે.
સંયુક્ત સૂત્ર ત્રણ ઘટકોને જોડે છે: સ્ટ્રક્ચરલ અનુરૂપતા સાત ફરજિયાત રિપોર્ટ વિભાગો અને સોળ ફરજિયાત ઉપવિભાગો સાથે, ક્લિનિકલ ચોકસાઈ જે કીવર્ડ રિકોલ + સ્કોરિંગ-સિસ્ટમ રિકોલ + પ્રોબેબિલિટી-ડિસ્ટ્રિબ્યુશન માન્યતા ચેક તરીકે માપવામાં આવે છે, અને પ્રતિભાવ લેટન્સી મુખ્ય-પાથ સર્વિસ-લેવલ લક્ષ્ય સામે. ચોક્કસ વિભાજન નીચેના રૂબ્રિક ફોર્મ્યુલામાં દર્શાવ્યું છે — સેકન્ડ અપડેટ માટે આ વજન કે ઉપ-રૂબ્રિક્સમાંથી કોઈપણ બદલાયા નથી.
બાકી રહેલા 0.20 ટકા પોઈન્ટ્સ જેટલું હેડરૂમ લગભગ સંપૂર્ણપણે ક્લિનિકલ ઉપ-સ્કોરમાં વિભાજિત થાય છે — કેસોના એક નાના ભાગમાં (મુખ્યત્વે હેપેટોલોજી અને ર્યુમેટોલોજીમાં) એક અપેક્ષિત સ્કોરિંગ-સિસ્ટમ કીવર્ડ એન્જિનની વ્યાખ્યામાં ગેરહાજર હતો, છતાં નિદાન સંબંધિત સામગ્રી સાચી હતી. 100,000-કેસ સેકન્ડ-અપડેટ કોહોર્ટમાં કોઈપણ કેસે પોતે નિદાન ચૂકી ન દીધું. લેટન્સી V11 પ્રારંભિક રિલીઝમાં સરેરાશ 20.17 s થી સેકન્ડ અપડેટમાં 13.26 s સુધી સુધરી; બે રન વચ્ચે પ્રોડક્શન એન્જિન ઑપ્ટિમાઇઝેશન્સને પ્રતિબિંબિત કરે છે. રૂબ્રિક, સ્કોરિંગ કોડ, અને API એન્ડપોઈન્ટ અપરિવર્તિત છે.
દેશ મુજબના સંયુક્ત સ્કોર 30 સૌથી વધુ પ્રતિનિધિત્વ ધરાવતા દેશોમાં 0.9971 (ભારત) થી 0.9985 (સ્વિટ્ઝર્લૅન્ડ) વચ્ચે રહ્યા. વધારાના 97 દેશોની લાંબી પૂંછડી (≈7,300 કેસો કુલ મળીને)માં કોઈ વ્યવસ્થિત ઘટાડો જોવા મળ્યો નહીં. કેસ-ગણતરી મુજબના ટોચના યોગદાનકર્તાઓ હતા: યુનાઇટેડ સ્ટેટ્સ (10,500), બ્રાઝિલ (9,500), સ્પેન (9,000), ઇટાલી (8,000), જર્મની (7,800), ફ્રાન્સ (7,400), પોર્ટુગલ (5,800), Türkiye (3,400), યુનાઇટેડ કિંગડમ (2,900), અને મેક્સિકો (2,500).
15 કેસથી 100,000 સુધી: 127 દેશોમાં કોહોર્ટનું વિકાસ
મૂળ V11 કેસ પેનલમાં સાત વિશેષતાઓ આવરી લેવાઈ હતી — હેમેટોલોજી, એન્ડોક્રિનોલોજી, મેટાબોલિક મેડિસિન, હેપેટોલોજી, નેફ્રોલોજી, કાર્ડિયોલોજી, ર્યુમેટોલોજી — ઉપરાંત બે સમર્પિત હાઇપરડાયગ્નોસિસ ટ્રેપ કેસો; દરેક કેસ Kantesti ક્લિનિકલ ડેટા રિપોઝિટરીમાંથી લખિત જાણકારીપૂર્વકની સંમતિ હેઠળ લેવામાં આવેલ એક અનામીકૃત વાસ્તવિક દર્દી રેકોર્ડ હતો. V11 સેકન્ડ અપડેટ મૂલ્યાંકનને 127 દેશોમાં ફેલાયેલા 100,000 અનામીકૃત કેસો સુધી વિસ્તારે છે, આઠ વિશેષતાઓમાં વિતરિત (મૂળ સાત ઉપરાંત એક સમર્પિત આંતરિક-ચિકિત્સા બકેટ જે ટ્રેપ સબસેટને શોષે છે). એ જ સ્કોરિંગ રૂબ્રિક બંને રન દરમિયાન બાઇટ-સમાન રીતે લાગુ કરવામાં આવે છે.
ડી-આઇડેન્ટિફિકેશન Safe Harbor અભિગમ હેઠળ કરવામાં આવ્યું: તમામ સીધા ઓળખકર્તાઓ દૂર કરવામાં આવ્યા અથવા બદલવામાં આવ્યા, અને દરેક રેકોર્ડને BT-NNN-LABEL ફોર્મેટમાં બેન્ચમાર્ક-આંતરિક કેસ કોડ આપવામાં આવ્યો (V11 પ્રારંભિક) અથવા સેકન્ડ અપડેટ માટે સ્થિર અનામીકૃત case_uid . પ્રોસેસિંગ V11 પ્રારંભિક રિલીઝ મુજબ કરવામાં આવ્યું — 15 હેન્ડ-ક્યુરેટેડ કેસો GDPR કલમ 9(2)(j) યોગ્ય સુરક્ષાત્મક પગલાં સાથે વૈજ્ઞાનિક સંશોધન માટે, અને સમકક્ષ UK GDPR જોગવાઈઓ મુજબ. પ્રકાશિત હાર્નેસ, તકનીકી અહેવાલ, અથવા રિલીઝ થયેલા ડેટાસેટ્સમાં ક્યાંય પણ કોઈપણ વ્યક્તિગત ઓળખ માહિતી દેખાતી નથી.
V11 initial release — 15 hand-curated cases
મૂળ V11 કેસ પેનલનું હસ્તચાલિત પસંદગીકરણ ડૉ. થોમસ ક્લાઇન દ્વારા કરવામાં આવ્યું હતું, જેથી લેબોરેટરી-મેડિસિન સહાયકો સૌથી વધુ વાર જે નિદાનના પેટર્ન ખોટા સમજે છે તેને કસરતરૂપે ચકાસી શકાય. નીચે સૂચિબદ્ધ દરેક પંદર કેસને કોઈ ચોક્કસ નિદાન-ગુણધર્મ માટે પસંદ કરવામાં આવ્યો હતો.
આ ખાસ વિતરણ શા માટે
હેમેટોલોજીને ત્રણ કેસ મળે છે કારણ કે માઇક્રોસાઇટિક ડિફરેનશિયલ્સ અને મેક્રોસાઇટિક ડિફરેનશિયલ્સ વાસ્તવિક દુનિયાની લેબોરેટરી પ્રેક્ટિસમાં સૌથી વધુ વોલ્યુમ ધરાવતા ટ્રેપ્સ છે. એન્ડોક્રિનોલોજીને ત્રણ મળે છે કારણ કે હાશિમોટોનું, PCOS, અને વિટામિન ડી ની ઉણપની પ્રસ્તુતિઓ અલગ-અલગ નિદાનાત્મક આકારોનો અભ્યાસ કરે છે (ઓટોએન્ટિબોડી દ્વારા સંચાલિત, હોર્મોન-અનુપાત દ્વારા સંચાલિત, એકલ-માર્કર દ્વારા સંચાલિત). એકલ-કેસ વિશેષતાઓ હજી પણ અર્થપૂર્ણ છે કારણ કે દરેક CKD, ASCVD જોખમ, અને SLE પાસે પોતાનું સ્કોરિંગ સિસ્ટમ છે જેને એન્જિન બોલાવવું જોઈએ (ક્રમશઃ KDIGO સ્ટેજિંગ, ASCVD 10-વર્ષ જોખમ, અને 2019 EULAR/ACR SLE માપદંડો).
V11 બીજું અપડેટ — 127 દેશોમાં 100,000 અનામીકૃત કેસો
બીજું અપડેટ મૂળ V11 હાર્ડ-કોડેડ 15-કેસ Python literal ને Kantesti ક્લિનિકલ રિપોઝિટરી સામે પેરામીટરાઇઝ્ડ, રીડ-ઓનલી SQL ક્વેરીથી બદલે છે (anonymised_blood_panels). પારદર્શિતાના હેતુ માટે ક્વેરી દરેક બેન્ચમાર્ક રનના ઉપરના ભાગે છાપવામાં આવે છે. ક્વેરી નીચે મુજબ ફિલ્ટર કરે છે: consent_research = 1 AND released_for_benchmark = 1 અને પારદર્શિતાના માટે દરેક બેન્ચમાર્ક રનના ટોચે પ્રિન્ટ થાય છે. વિશેષતા મુજબ કોહોર્ટનું વિતરણ નીચે દર્શાવ્યું છે.
ભૌગોલિક વિતરણ — ટોચના 10 દેશો
આ કોહોર્ટ 127 દેશોમાં ફેલાયેલો છે (ISO 3166-1 alpha-2). યુરોપનું યોગદાન 57.7% છે, અમેરિકા 25.4%, એશિયા-પેસિફિક 6.2%, નામિત મધ્ય પૂર્વ/આફ્રિકા એન્ટ્રીઓ 3.4%, અને વધારાના 97 દેશોની લાંબી પૂંછડી કુલ મળીને લગભગ 7.3% આપે છે. દસ સૌથી મોટા યોગદાનકર્તાઓ છે: યુનાઇટેડ સ્ટેટ્સ (10,500), બ્રાઝિલ (9,500), સ્પેન (9,000), ઇટાલી (8,000), જર્મની (7,800), ફ્રાન્સ (7,400), પોર્ટુગલ (5,800), Türkiye (3,400), યુનાઇટેડ કિંગડમ (2,900), અને મેક્સિકો (2,500). પ્રતિ-દેશ સંયુક્ત સ્કોર 0.9971 (ભારત) થી 0.9985 (સ્વિટ્ઝર્લૅન્ડ) સુધી રહ્યા.
પૂર્વ-નોંધાયેલ રૂબ્રિક, સમજાવ્યું
પ્રી-રજિસ્ટ્રેશન આ બેન્ચમાર્કમાં સૌથી મહત્વપૂર્ણ પદ્ધતિગત પસંદગી છે. અપેક્ષિત દરેક નિદાન, દરેક ક્લિનિકલ સ્કોરિંગ સિસ્ટમ, અને દરેક રિપોર્ટ વિભાગને સોર્સ કોડમાં કમિટ કરવામાં આવ્યા હતા એન્જિન બોલાવ્યા પહેલાં. તેથી એન્જિનને ખુશ કરવા માટે રૂબ્રિકનું પોસ્ટ-હોક ટ્યુનિંગ અશક્ય છે.
સંયુક્ત સ્કોર બનાવવા માટે ત્રણ ઘટકો છે. માળખાકીય ઘટક 35 ટકા યોગદાન આપે છે અને માપે છે કે એન્જિનએ સાત ફરજિયાત રિપોર્ટ વિભાગો (હેડર, સારાંશ, મુખ્ય શોધો, ડિફરેનશિયલ, સ્કોરિંગ સિસ્ટમ્સ, ભલામણો, ફોલો-અપ) અને તેમાંના સોળ ફરજિયાત ઉપવિભાગો પરત કર્યા કે નહીં. માળખાકીય ગણતરીમાં વિભાગ હાજરી 40 ટકા વજન ધરાવે છે અને ઉપવિભાગ હાજરી 60 ટકા વજન ધરાવે છે.
આ ક્લિનિકલ ઘટક 55 ટકા યોગદાન આપે છે અને ત્રણ બાબતોને જોડે છે: નિદાન-કીવર્ડ રિકોલ (ક્લિનિકલ ઉપ-સ્કોરનું 70 ટકા), સ્કોરિંગ-સિસ્ટમ રિકોલ (20 ટકા — જ્યાં સંબંધિત હોય ત્યાં એન્જિન Mentzer, FIB-4, HOMA-IR, ASCVD જોખમ, KDIGO સ્ટેજિંગ, EULAR/ACR માપદંડો ગણતરી કરે છે કે નહીં), અને સંભાવના-સમ માન્યતા ચકાસણી (10 ટકા — ડિફરેનશિયલ સંભાવનાઓનો કુલ [90, 110] અંતરમાં હોવો જોઈએ). ટ્રેપ કેસોમાં, મહત્તમ 0.30 સુધીનું સ્પષ્ટ હાઇપરડાયગ્નોસિસ દંડ ઘટાડવામાં આવે છે, જે બનાવટી પેથોલોજી ફ્લેગ દીઠ 0.10 તરીકે ગણાય છે અને મહત્તમ ત્રણ ફ્લેગ સુધી મર્યાદિત છે.
આ લેટન્સી ઘટક 10 ટકા યોગદાન આપે છે. 20 સેકન્ડથી ઓછી પ્રતિભાવને સંપૂર્ણ 0.10 મળે છે, 40 સેકન્ડથી ઓછી પ્રતિભાવને 0.05 મળે છે, અને તેનાથી ધીમી કોઈપણ પ્રતિભાવને શૂન્ય મળે છે. 20 સેકન્ડનું લક્ષ્ય પ્રોડક્શન પ્રાઇમરી-પાથ સર્વિસ-લેવલ ઉદ્દેશ્ય દર્શાવે છે; 40 સેકન્ડની મહત્તમ મર્યાદા ભારે-એન્જિન ઇન્વોકેશન્સ માટે ફેઝ 2ની બેકઅપ બજેટ દર્શાવે છે.
પ્રી-રજિસ્ટ્રેશન શું અટકાવે છે
ફર્સ્ટ-પાર્ટી બેન્ચમાર્ક્સ પોસ્ટ-હોક રૂબ્રિક ટ્યુનિંગ દ્વારા પોતાની જ સંખ્યાઓ ફુલાવવાની માટે કુખ્યાત છે. પેટર્ન લગભગ હંમેશા એકસરખું જ હોય છે: ટીમ એન્જિન ચલાવે છે, ક્યાં તે ઓછું પ્રદર્શન કરે છે તે જુએ છે, અને પછી શાંતિથી રૂબ્રિક એ રીતે સમાયોજિત કરે છે કે ઓછું પ્રદર્શન કરનારા ક્ષેત્રોનું ગણતરીમાં વજન ઓછું પડે. પ્રથમ એન્જિન કોલ પહેલાં રૂબ્રિકને સોર્સ કોડમાં કમિટ કરીને અને MIT લાઇસન્સ હેઠળ હાર્નેસને પ્રકાશિત કરીને, આ સમાયોજન વર્ઝન કંટ્રોલમાં દેખાઈ જાય છે. કોઈપણ રિપોઝિટરી ક્લોન કરી શકે છે, રૂબ્રિકના લેખકની તારીખો ચકાસી શકે છે, અને ચકાસી શકે છે કે એન્જિનના પરિણામોનો ઉપયોગ સ્કોરિંગને આકાર આપવા માટે કરવામાં આવ્યો નહોતો.
હાઇપરડાયગ્નોસિસ ટ્રેપ કેસ — શા માટે અતિ-કોલિંગ જ વાસ્તવિક નિષ્ફળતા મોડ છે
નોર્મલ સ્ક્રીન્સ પર પેથોલોજીનું આક્રમક રીતે વધારે બોલવું એ કન્ઝ્યુમર-ફેસિંગ મેડિકલ અસિસ્ટન્ટ્સમાં દસ્તાવેજીકૃત નિષ્ફળતા મોડ છે. તેની ડાઉનસ્ટ્રીમ કિંમતમાં અનાવશ્યક તપાસ, દર્દીની ચિંતા, અને આયાટ્રોજેનિક વર્કઅપ શામેલ છે. આ બેન્ચમાર્કના બે ટ્રેપ કેસો આ નિષ્ફળતા મોડને દૃશ્યમાન અને સ્કોર કરી શકાય તે રીતે ડિઝાઇન કરવામાં આવ્યા છે.
🟡 ટ્રેપ 1 — BT-014-GILBERT
પ્રસ્તુતિ. કુલ બિલિરુબિન 2.4 mg/dL ધરાવતો 24 વર્ષનો પુરુષ. ડાયરેક્ટ ફ્રેક્શન નોર્મલ છે, ટ્રાન્સએમિનેઝ અને એલ્કલાઇન ફોસ્ફેટેઝ તેમના રેફરન્સ રેન્જની અંદર છે, રેટિક્યુલોસાઇટ્સ અસાધારણ નથી, અને હેપ્ટોગ્લોબિન તથા LDH હેમોલિસિસને નકારી કાઢે છે.
યોગ્ય અર્થઘટન. ગિલ્બર્ટનું સિન્ડ્રોમ — એક સૌમ્ય UGT1A1 પોલિમોર્ફિઝમ. અર્થઘટનમાં હેપેટાઇટિસ, સિર્રોસિસ, હેમોલાઇટિક એનિમિયા, અથવા બાઇલિયરી અવરોધને બોલાવવું ન જોઈએ.
V11 પરિણામ. સંયુક્ત 1.000. છ મોનિટર કરાયેલા ઓવર-ડાયગ્નોસિસ ફ્લેગમાંથી કોઈપણ સક્રિય નિદાન તરીકે દેખાયા નહોતા.
🟡 ટ્રેપ 2 — BT-015-HEALTHY
પ્રસ્તુતિ. પંદર-પરિમાણીય રૂટીન સ્ક્રીનિંગ પેનલ ધરાવતી 35 વર્ષની સ્ત્રી. દરેક એનાલાઇટ તેના રેફરન્સ રેન્જની અંદર આરામથી બેસે છે.
યોગ્ય અર્થઘટન. ખાતરી અને જીવનશૈલી જાળવણી. વ્યાખ્યાએ ક્લિનિકલી ઉપયોગી લાગે તે માટે સરહદી રોગવિજ્ઞાનનું કૃત્રિમ રીતે સર્જન ન કરવું જોઈએ.
V11 પરિણામ. સંયુક્ત 1.000. સાતમાંથી કોઈપણ સાત મોનિટર કરાયેલા અતિ-નિદાન (over-diagnosis) ફ્લેગ—ડાયાબિટીસ, એનિમિયા, હાઇપોથાયરોઇડિઝમ, ડિસલિપિડેમિયા, હેપેટાઇટિસ, કિડની રોગ, ઉણપ—સક્રિય નિદાન તરીકે દેખાયા નહોતા.
બંને ટ્રેપમાં કુલ તેર મોનિટર કરાયેલા અતિ-નિદાન (hyperdiagnosis) ફ્લેગ તપાસવામાં આવ્યા. કોઈપણ ટ્રિગર થયું નહીં. આ જ પરિણામ સૌથી વધુ મહત્વનું છે કોઈપણ ક્લિનિશિયન માટે જે AI એન્જિનને ટ્રાયેજ અથવા પ્રી-કન્સલ્ટેશન સાધન તરીકે વાપરવાનું વિચારે છે: સિસ્ટમે જ્યાં રોગ નહોતો ત્યાં રોગનું સર્જન કર્યું નહીં.
મેન્ટ્ઝર ઇન્ડેક્સ: આયર્નની ઉણપને થેલેસેમિયા ટ્રેઇટથી અલગ પાડવું
બીજું ઊંચી કિંમતનું શોધખોળ કેસ BT-001 (આયર્ન ડિફિશિયન્સી એનિમિયા) અને કેસ BT-007 (બેટા-થેલેસેમિયા માઇનર) વચ્ચેની જોડણી અંગે છે. બંનેમાં માઇક્રોસાઇટોસિસ જોવા મળે છે અને નિર્દોષ વર્ગીકરણકારો માટે આ જાણીતું અટકાવનારું મુદ્દો છે. મેન્ટ્ઝર ઇન્ડેક્સ, જે MCV ને RBC ગણતરીથી ભાગ કરીને ગણવામાં આવે છે, આયર્ન ડિફિશિયન્સીમાં 13 કરતાં વધુ અને થેલેસેમિયા ટ્રેઇટમાં 13 કરતાં ઓછું આવે છે.
BT-001 માં, દર્દી 34 વર્ષીય સ્ત્રી હતી, જેમનું હિમોગ્લોબિન 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ફેરિટિન 6 ng/mL અને વધેલું TIBC હતું. અંદાજે 17.7 નો મેન્ટ્ઝર ઇન્ડેક્સ સંપૂર્ણ આયર્ન ડિફિશિયન્સીને સમર્થન આપે છે. BT-007 માં, દર્દી 28 વર્ષીય પુરુષ હતો, જેમાં માઇક્રોસાઇટોસિસ (MCV 65.8 fL) હતું પરંતુ RBC ગણતરી 6.2 ઊંચી, RDW સામાન્ય, ફેરિટિન સામાન્ય અને HbA2 5.6 ટકા હતું. અંદાજે 10.6 નો મેન્ટ્ઝર ઇન્ડેક્સ થેલેસેમિયા ટ્રેઇટ તરફ સૂચવે છે, અને વધેલું HbA2 બેટા-થેલેસેમિયા માઇનરને પુષ્ટિ કરે છે.
બંને કેસનું સ્કોર 1.000 હતું. એન્જિનએ બંને વ્યાખ્યાઓમાં મેન્ટ્ઝર ઇન્ડેક્સને સ્પષ્ટ રીતે ઉપયોગ કર્યો અને દરેક પ્રસંગે યોગ્ય નિદાન પરત આપ્યું. સમગ્ર બેન્ચમાર્કમાં આ એકમાત્ર સૌથી વધુ ક્લિનિકલી ખાતરી આપતું પરિણામ છે, કારણ કે થેલેસેમિયા ટ્રેઇટને આયર્ન ડિફિશિયન્સી તરીકે ખોટું વર્ગીકૃત કરવાથી અયોગ્ય આયર્ન સપ્લિમેન્ટેશન થાય છે અને પરિવાર-સ્ક્રીનિંગની તકો ચૂકી જાય છે, અને આયર્ન ડિફિશિયન્સીને થેલેસેમિયા તરીકે ખોટું વર્ગીકૃત કરવાથી સરળ રિપ્લેસમેન્ટ થેરાપીમાં વિલંબ થાય છે. અમારી ફેરીટિન રેન્જ માર્ગદર્શિકા વ્યાપક ડિફરેનશિયલ સંદર્ભ સમજાવે છે.
V11 પ્રારંભિક રેફરન્સ રનમાંથી પ્રતિ-કેસ પરિણામો (23 એપ્રિલ, 2026)
15-કેસ પ્રૂફ-ઓફ-કોન્સેપ્ટ કોહોર્ટ પરનું મૂળ V11 રેફરન્સ રન એ પદ્ધતિશાસ્ત્રીય આધાર છે Second Update માટે: નીચેનો દરેક પ્રતિ-કેસ વિગતવાર ભાગ દર્શાવે છે કે રૂબ્રિક વાસ્તવિક એન્જિન પ્રતિસાદને કેવી રીતે હેન્ડલ કરે છે. પંદર પૈકી બાર કેસોએ પ્રાથમિક પાથ પર 1.000 ની મહત્તમ (ceiling) સંયુક્ત સ્કોર હાંસલ કરી; ત્રણ કેસો Phase 2 ફૉલબેક દ્વારા સર્વ કરવામાં આવ્યા, જેમાં 0.05 લેટન્સી બોનસ ગુમાયો પરંતુ તમામ ક્લિનિકલ અને માળખાકીય સામગ્રી જાળવાઈ. એક કેસમાં એક જ ફરજિયાત સબસેક્શન ગાયબ હતું; એક કેસે થોડું ઘટેલું probability distribution sum પરત કર્યું.
PCOS કેસ (BT-008) એ પ્રતિભાવની રચનામાં એક ફરજિયાત ઉપવિભાગ ગુમાવ્યો — સોળમાંથી પંદર બદલે સોળમાંથી સોળ — જેના કારણે રચનાત્મક સ્કોર 1.000 થી 0.963 થયો. SLE કેસ (BT-011) એ થોડું ઘટેલું સંભાવના-વિતરણનું કુલ પરત કર્યું, જેના કારણે ક્લિનિકલ સ્કોર 0.965 થયો, અને દરેક નિદાન સંબંધિત કીવર્ડ તથા સ્કોરિંગ સિસ્ટમ જાળવી રાખી. કોઈપણ ઉપ-પરફેક્ટ કેસે યોગ્ય નિદાન ચૂકી દીધું નહીં.
V11 Second Update સંયુક્ત — 100,000 કેસ
વસ્તી સ્તરે, વ્યક્તિગત કેસની પંક્તિઓ માનવ-વાંચનીય નથી, તેથી Second Update 100,000-પંક્તિની ટેબલની બદલે સંયુક્ત મેટ્રિક્સ રિપોર્ટ કરે છે. મુખ્ય સંયુક્ત નીચે દર્શાવવામાં આવ્યું છે; વિશેષતા (specialty) અને દેશ મુજબનું વિભાજન ટેકનિકલ રિપોર્ટ અને Figshare ડિપોઝિટમાં પ્રકાશિત કરવામાં આવે છે. સ્તરીકૃત રૅન્ડમ નમૂનો n = 201 કાચા એન્જિન પ્રતિસાદો (નિર્ધારિત seed 20260426) નિરીક્ષણ માટે GitHub results/ ડિરેક્ટરીમાં પ્રકાશિત કરવામાં આવે છે.
હેડલાઇન સ્કોર અમને શું નથી જણાવતો
આ ખાસ પ્રી-રજિસ્ટર્ડ રૂબ્રિક હેઠળ 99.80 ટકા નો સંયુક્ત સ્કોર, 127 દેશોમાં ફેલાયેલા 100,000 કેસના અનામી કોહોર્ટ પર, લગભગ-છત સ્તરની કામગીરી દર્શાવે છે — પરંતુ તેને કાળજીપૂર્વક સંદર્ભમાં મૂકવું જોઈએ. પરિણામ એન્જિનની વર્તણૂકનું વર્ણન કરે છે સામે તે રૂબ્રિક જે માટે અમે V11 માં સોર્સ કોડ કમિટ કર્યો હતો; તે જંગલમાં અસ્તિત્વમાં રહેલા દરેક બ્લડ ટેસ્ટ પેનલ પર એન્જિનની ચોકસાઈ વિશે સર્વવ્યાપી દાવો નથી.
સ્કોર કહે છે કે એન્જિને આ મૂલ્યાંકન માટે પસંદ કરાયેલા ડાયગ્નોસ્ટિક પેટર્ન્સને વસ્તી-સ્તરના કોહોર્ટમાં યોગ્ય રીતે સંભાળ્યા, એવી પદ્ધતિશાસ્ત્ર સાથે જે પ્રકાશિત અને પુનરુત્પાદ્ય છે. તે કહેતું નથી કે એન્જિન જંગલમાં અસ્તિત્વમાં રહેલા દરેક બ્લડ ટેસ્ટ પેનલ પર સાચું છે. તે કહેતું નથી કે એન્જિનને ક્લિનિશિયનના નિર્ણયને બદલેવું જોઈએ. અને તે કહેતું નથી કે એન્જિન વૈકલ્પિક AI સિસ્ટમ્સ કરતાં વધુ સારું છે — અન્ય એન્જિન્સ સામે તુલનાત્મક વિશ્લેષણો આ રિપોર્ટની વ્યાપ્તિ બહાર રાખવામાં આવ્યા હતા.
સ્કોર જે સ્થાપિત કરે છે તે એક બેઝલાઇન છે. રૂબ્રિક અને હાર્નેસ જાહેર હોવાથી, એન્જિનના ભવિષ્યના વર્ઝન્સને એ જ રૂબ્રિક સામે મૂલ્યાંકિત કરી શકાય છે — V11 પ્રારંભિક 15 કેસ પર, બીજું અપડેટ 100,000-કેસ કોહોર્ટ પર, અથવા કોઈપણ આગળના વિસ્તરણ પર — અને પ્રકાશિત સ્કોર અને કોઈપણ અનુગામી રન વચ્ચેનું અંતર પોતે જ માપી શકાય એવું છે. પ્રી-રજિસ્ટ્રેશનનું આ જ મૂલ્ય છે: તે કામગીરીના દાવાઓને પરીક્ષણયોગ્ય દાવાઓમાં રૂપાંતરિત કરે છે.
10 મિનિટમાં આ બેન્ચમાર્ક કેવી રીતે પુનઃઉત્પાદિત કરવો
પુનરુત્પાદન માટે માત્ર Kantesti API ક્રેડેન્શિયલ જોડી અને Python 3.10 અથવા પછીનું પર્યાવરણ જરૂરી છે, જેમાં requests અને reportlab લાઇબ્રેરીઓ ઇન્સ્ટોલ થયેલી હોય. સંપૂર્ણ હાર્નેસ MIT લાઇસન્સ હેઠળ પ્રકાશિત એક જ સ્વ-સમાવેશિત Python મોડ્યુલ છે.
તાજા રન માટે ચાર પગલાં
એક. રિપોઝિટરી ક્લોન કરો: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. બે. requirements.txt સાથે નિર્ભરતાઓ ઇન્સ્ટોલ કરો pip install -r requirements.txt (બીજું અપડેટ ઉમેરે છે mysql-connector-python ≥ 8.0 SQL કેસ લોડર માટે). ત્રણ. સેટ કરો KANTESTI_USERNAME અને KANTESTI_PASSWORD એન્જિન API માટે પર્યાવરણ ચલ (environment variables) તરીકે. બીજું અપડેટ SQL કેસ લોડર માટે, આ પણ સેટ કરો KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, અને KANTESTI_DB_PASSWORD — લોડર રીડ-ઓનલિ ભૂમિકા દ્વારા કનેક્ટ થાય છે (bench_reader) જેને ઓળખતી ટેબલ્સ પર કોઈ અધિકાર નથી. ચાર. ચલાવો python benchmark_bloodtest.py --limit 100000 સંપૂર્ણ Second-Update રન માટે, અથવા python benchmark_bloodtest.py --limit 1000 ઝડપી ઇટરેશન માટે. આઉટપુટ્સ અહીં જાય છે ./benchmark_results/: એક CSV સ્કોરકાર્ડ જેમાં દેશ-વાર અને વિશેષતા-વાર કૉલમ્સ, એક JSON એગ્રિગેટ, સ્તરિત-રેન્ડમ રો-રિસ્પોન્સ નમૂનો, અને એક Markdown રિપોર્ટ હોય છે.
23 એપ્રિલ 2026 (V11 પ્રારંભિક, 15 કેસ) અને 26 એપ્રિલ 2026 (V11 Second Update, 100,000 કેસ) ના રેફરન્સ રન રિપોઝિટરીની અંદરના results/ ડિરેક્ટરીમાં જાળવવામાં આવ્યા છે. નવો રન નવો ટાઈમસ્ટેમ્પ્ડ સ્કોરકાર્ડ બનાવશે જ્યારે રેફરન્સ રન અસ્પર્શિત રહેશે. જો તમારા રનનું પરિણામ અર્થપૂર્ણ રીતે અલગ આવે, તો કૃપા કરીને રન ટાઈમસ્ટેમ્પ અને રિસ્પોન્સ મેટાડેટામાં પરત મળેલ એન્જિન વર્ઝન સાથે GitHub ઇશ્યૂ ખોલો.
મર્યાદાઓ અને ભાવિ કાર્ય
127 દેશોમાં 100,000 કેસ હોવા છતાં, ચાર મર્યાદાઓને સ્પષ્ટ રીતે સ્વીકારવાની જરૂર છે: લાંબી-પૂંછવાળા દેશોની ઓછી નમૂનાકીયતા, એકવારનું મૂલ્યાંકન, એક જ એન્જિનનો વ્યાપ, અને એક જ સ્ત્રોતમાંથી ડેટાની ઉત્પત્તિ. આમાંથી દરેકને સક્રિય અનુસરણ કાર્ય દ્વારા સંબોધવામાં આવી રહ્યું છે.
લાંબી-પૂંછવાળા દેશોની આવરી. Second Update 127 દેશોમાં ફેલાય છે, પરંતુ વિતરણ અસંતુલિત છે — ટોચના 10 યોગદાનકર્તાઓ કેસોના ≈66.4% માટે જવાબદાર છે, અને વધારાના 97 દેશોની લાંબી પૂંછવાળું ભાગ સાથે મળીને ≈7.3% યોગદાન આપે છે (કુલ મળીને લગભગ 7,300 કેસ, સરેરાશ ~75 કેસ પ્રતિ દેશ). તેથી આ લાંબી પૂંછવાળામાં દેશ-વાર કોમ્પોઝિટ્સ હેડલાઇન આંકડાઓ કરતાં વધુ અવાજવાળા (noisier) હોય છે. ભવિષ્યના રન ઓછી નમૂનાકીયતા ધરાવતા દેશોમાંથી પ્રાથમિક રીતે ભરતી કરશે જેથી પ્રતિ-જ્યુરિસ્ડિક્શન અંદાજોને મજબૂત કરી શકાય.
સિંગલ-શોટ મૂલ્યાંકન. કોહોર્ટના દરેક કેસનું મૂલ્યાંકન એક જ વખત કરવામાં આવ્યું હતું. મોટા ભાષા મોડલ્સ ઓછા સેમ્પલિંગ ટેમ્પરેચર પર પણ નોંધપાત્ર આઉટપુટ વેરિઅન્સ દર્શાવે છે, તેથી પ્રતિ કેસ પાંચ મૂલ્યાંકનો સાથે અને નોંધાયેલ વેરિઅન્સ ધરાવતો મલ્ટી-રન પ્રોટોકોલ સ્વાભાવિક આગળનું પગલું છે — ખાસ કરીને ટ્રેપ-કેસ સબસેટ પર, જ્યાં સેમ્પલિંગ જિટર હેઠળની સુસંગતતા સલામતી દાવાનો ભાગ છે.
સિંગલ-એન્જિન વ્યાપ. આ રિપોર્ટ એક જ એન્જિનનું વર્ણન કરે છે. વૈકલ્પિક AI સિસ્ટમ્સ સામે તુલનાત્મક વિશ્લેષણ અહીંના વ્યાપની બહાર છે; અમે સમાન MIT-લાઇસન્સ્ડ હાર્નેસ સામે યોગ્ય પદ્ધતિશાસ્ત્ર સાથે તેને અલગ સ્વતંત્ર અભ્યાસ તરીકે આગળ ધપાવી શકીએ છીએ.
સિંગલ-સોર્સ ડેટા મૂળ. 100,000 કેસો એક જ ક્લિનિકલ રિપોઝિટરીમાંથી લેવામાં આવેલા અનામિક વાસ્તવિક દર્દી રેકોર્ડ્સ છે (Kantesti SQL-બેક્ડ ક્લિનિકલ ડેટા વેરહાઉસ). તેઓ ક્યુરેટેડ પ્રોડક્શન સ્ટ્રીમનું પ્રતિનિધિત્વ કરે છે અને વૈશ્વિક સ્તરે વસ્તી-પ્રતિનિધિ રેન્ડમ ડ્રો નથી. મૂલ્યાંકનને બહારથી મેળવાયેલા બહુ-કેન્દ્ર ડેટા સુધી વિસ્તૃત કરવું રોડમેપ પર છે.
આ ચારની બહાર, સૌથી વધુ અસરકારક આયોજન કરાયેલ વિસ્તરણ પ્રતિ-જ્યુરિસ્ડિક્શન બહુભાષીય સમાનતા છે. Kantesti AI એન્જિન 75+ ભાષાઓમાં વપરાશકર્તાઓને સેવા આપે છે, અને ભાષા-સ્તરિત Second-Update સબ-કોહોર્ટ્સ (તુર્કિશ, જર્મન, સ્પેનિશ, ફ્રેન્ચ, ઇટાલિયન, પોર્ટુગીઝ, અરબી, મૅન્ડેરિન) ચલાવવાથી એન્જિન દ્વારા સમર્થિત ભાષાઓમાં આઉટપુટ ગુણવત્તા માપવામાં આવશે. દરેક ભાષા-સ્તરિત વિશ્લેષણ પોતાનો DOI અને હાર્નેસ બ્રાંચ સાથે પ્રકાશિત કરવામાં આવશે.