આ બેન્ચમાર્ક શા માટે અસ્તિત્વમાં છે અને તે શું ચકાસે છે
AI-સહાયિત બ્લડ ટેસ્ટ રિપોર્ટ સમજો ગ્રાહક અને ક્લિનિકલ વર્કફ્લોમાં વધતી જતી રીતે વપરાય છે, છતાં પ્રયોગશાળા દવાખાનાની દૃષ્ટિએ અનુકૂળ, પુનઃઉત્પાદિત મૂલ્યાંકન ફ્રેમવર્ક્સ દુર્લભ રહે છે. આ પરિસ્થિતિમાં સૌથી મહત્વના પ્રશ્નો સામાન્ય મેડિકલ પ્રશ્ન-ઉત્તર બેન્ચમાર્ક્સમાં આવતાં નથી: જ્યારે મીન કોર્પસ્ક્યુલર વોલ્યુમ સમાન હોય ત્યારે શું એન્જિન આયર્ન ડિફિશિયન્સી ને થેલેસેમિયા ટ્રેઇટથી અલગ કરી શકે છે, શું તે ગિલ્બર્ટ્સ સિન્ડ્રોમને હેપેટાઇટિસ તરીકે વધુ નિદાન કરે છે, અને શું તે સંપૂર્ણ રીતે સામાન્ય સ્ક્રીનિંગ પેનલમાં પેથોલોજી “બનાવે” છે?
એક જ બ્લડ ટેસ્ટ પેનલ સામાન્ય રીતે અનેક સ્પર્ધાત્મક વ્યાખ્યાઓને ટેકો આપવા માટે પૂરતો સંકેત ધરાવે છે, અને વ્યાખ્યા આપતા ક્લિનિશિયનનું કામ એ છે કે તે વ્યાખ્યાઓને એકબીજા સામે તોલે, પુસ્તકના જવાબને શોધી કાઢવાને બદલે. જે એન્જિન પાઠ્યપુસ્તકના કેસોમાં સારું કરે છે તે પણ સૌથી વધુ મહત્વના કેસોમાં નિષ્ફળ જઈ શકે છે: ડિફરેનશિયલ-ડાયગ્નોસિસની ખામીઓ, એકલા જોવામાં ચિંતાજનક લાગતા નિર્દોષ વેરિઅન્ટ્સ, અને સંપૂર્ણ રીતે સામાન્ય પેનલ્સ જે આત્મવિશ્વાસી સહાયકોને પેથોલોજી બનાવવામાં લલચાવે છે.
આ બેન્ચમાર્ક ખાસ કરીને આ જ નિષ્ફળતા-રીતિઓને ધ્યાનમાં રાખીને બનાવવામાં આવ્યો હતો. પંદરેય કેસમાંથી દરેકને ચોક્કસ નિદાનાત્મક ગુણધર્મ માટે પસંદ કરવામાં આવ્યો હતો: આયર્નની ઉણપથી થતી માઇક્રોસાઇટોસિસને એવી બીટા-થેલેસેમિયા ટ્રેઇટથી અલગ રાખવી જ પડે જેમાં સમાન મીન કોર્પસ્ક્યુલર વોલ્યુમ હોય; ગિલ્બર્ટ્સ સિન્ડ્રોમનું પ્રસ્તુતિરૂપ જ્યાં એકમાત્ર અસામાન્યતા અલગ પડેલી ઇન્ડાયરેક્ટ હાઇપરબિલિરુબિનેમિયા હોય; અને પંદર-પરિમાણી સ્ક્રીનિંગ પેનલ જેમાં દરેક એનાલાઇટ તેના રેફરન્સ રેન્જની અંદર જ હોય. રૂબ્રિક એવા એન્જિનોને ઇનામ આપે છે જે દરેક કેસને તેના પોતાના સંદર્ભમાં વાંચે છે અને એવા એન્જિનોને દંડ આપે છે જે ત્યાં કોઈ એવી નિદાન-યોગ્યતા ન હોય છતાં આત્મવિશ્વાસભર્યું નિદાન સુધી પહોંચી જાય.
એમ.ડી. થોમસ ક્લાઇન તરીકે, મેં કેસ પેનલ પસંદ કરી કારણ કે આ જ એવા પેટર્ન્સ છે જે લેબોરેટરી-મેડિસિન સહાયકો સૌથી વધુ વાર ખોટા કરે છે. મોંઘી નિષ્ફળતા-રીતિ "દુર્લભ રોગ ચૂકી જવું" નથી — તે એવા દર્દીઓમાં નિયમિત (રૂટીન) પેથોલોજી ઘડી કાઢવી છે જેમને તે નથી. અમારા તબીબી માન્યતા hub વ્યાપક માળખું વર્ણવે છે; આ પેજ V11 એન્જિન પર તેના લાગુ પડતા પરિણામનું વર્ણન કરે છે.
તાજેતરનો રેફરન્સ રન — V11 (એપ્રિલ 2026)
Kantesti AI Engine V11નું એપ્રિલ 2026 રેફરન્સ રન પેદા થયું એક સંયુક્ત સ્કોર તરીકે 99.12% પૂર્વ-નોંધાયેલ પંદર-કેસ રૂબ્રિક પર. બંને હાઇપરડાયગ્નોસિસ ટ્રેપ કેસોએ મહત્તમ સીમા (ceiling) સુધી સ્કોર કર્યો. આયર્ન-ડિફિશિયન્સી સામે થેલેસેમિયા ડિફરેનશિયલમાં Mentzer ઇન્ડેક્સ યોગ્ય રીતે લાગુ કરવામાં આવ્યો હતો.
સંયુક્ત સૂત્ર ત્રણ ઘટકોને જોડે છે: સ્ટ્રક્ચરલ અનુરૂપતા સાત ફરજિયાત રિપોર્ટ વિભાગો અને સોળ ફરજિયાત ઉપવિભાગો સાથે, ક્લિનિકલ ચોકસાઈ જે કીવર્ડ રિકોલ + સ્કોરિંગ-સિસ્ટમ રિકોલ + પ્રોબેબિલિટી-ડિસ્ટ્રિબ્યુશન માન્યતા ચેક તરીકે માપવામાં આવે છે, અને પ્રતિભાવ લેટન્સી 20-સેકન્ડની પ્રાથમિક-સર્વિસ-લેવલ લક્ષ્ય સામે. ચોક્કસ વિભાજન નીચેના રૂબ્રિક સૂત્રમાં દર્શાવ્યું છે.
હેડરૂમના બાકી રહેલા 0.88 ટકા પોઈન્ટ્સ લગભગ સંપૂર્ણપણે લેટન્સી નુકસાનમાં વિઘટિત થાય છે—માઇનસ 0.05ના ત્રણ ફેઝ 2 ફોલબેક ઇન્વોકેશનમાં દરેકે 0.88-પોઈન્ટની ખામીનાં લગભગ 0.60 જેટલું યોગદાન આપ્યું—ક્લિનિકલ સામગ્રીમાં નહીં. એન્જિને પંદરેય કેસોમાં કોઈપણમાં યોગ્ય નિદાન ચૂકી નથી; જ્યાં તે ઓછું પડ્યું, ત્યાં તે થોડા અલ્પ સંખ્યક ઇન્વોકેશનોમાં 20 સેકન્ડના પ્રાથમિક-પાથ લક્ષ્ય કરતાં થોડું વધુ સમય લઈને થયું હતું.
સાત તબીબી વિશેષતાઓમાં પંદર કેસ
કેસ પેનલ સાત વિશેષતાઓને આવરી લે છે—હેમેટોલોજી, એન્ડોક્રિનોલોજી, મેટાબોલિક મેડિસિન, હેપેટોલોજી, નેફ્રોલોજી, કાર્ડિયોલોજી, ર્યુમેટોલોજી—અને ઉપરાંત બે સમર્પિત હાઇપરડાયગ્નોસિસ ટ્રેપ કેસ. દરેક કેસ લખિત જાણકારીપૂર્વકની સંમતિ હેઠળ Kantesti ક્લિનિકલ ડેટા રિપોઝિટરીમાંથી લેવામાં આવેલ એક અનામી વાસ્તવિક દર્દી રેકોર્ડ છે.
ડી-આઈડેન્ટિફિકેશન Safe Harbor અભિગમ હેઠળ કરવામાં આવ્યું હતું: તમામ સીધા ઓળખકર્તાઓ દૂર કરવામાં આવ્યા અથવા બદલવામાં આવ્યા, અને દરેક રેકોર્ડને BT-NNN-LABEL ફોર્મેટમાં એક બેન્ચમાર્ક-આંતરિક કેસ કોડ સોંપવામાં આવ્યો. પ્રક્રિયા નીચે મુજબ કરવામાં આવી હતી GDPR કલમ 9(2)(j) યોગ્ય સુરક્ષાત્મક પગલાં સાથે વૈજ્ઞાનિક સંશોધન માટે, અને સમકક્ષ UK GDPR જોગવાઈઓ મુજબ. પ્રકાશિત હાર્નેસ, તકનીકી અહેવાલ, અથવા રિલીઝ થયેલા ડેટાસેટ્સમાં ક્યાંય પણ કોઈપણ વ્યક્તિગત ઓળખ માહિતી દેખાતી નથી.
આ ખાસ વિતરણ શા માટે
હેમેટોલોજીને ત્રણ કેસ મળે છે કારણ કે માઇક્રોસાઇટિક ડિફરેનશિયલ્સ અને મેક્રોસાઇટિક ડિફરેનશિયલ્સ વાસ્તવિક દુનિયાની લેબોરેટરી પ્રેક્ટિસમાં સૌથી વધુ વોલ્યુમ ધરાવતા ટ્રેપ્સ છે. એન્ડોક્રિનોલોજીને ત્રણ મળે છે કારણ કે હાશિમોટોનું, PCOS, અને વિટામિન ડી ની ઉણપની પ્રસ્તુતિઓ અલગ-અલગ નિદાનાત્મક આકારોનો અભ્યાસ કરે છે (ઓટોએન્ટિબોડી દ્વારા સંચાલિત, હોર્મોન-અનુપાત દ્વારા સંચાલિત, એકલ-માર્કર દ્વારા સંચાલિત). એકલ-કેસ વિશેષતાઓ હજી પણ અર્થપૂર્ણ છે કારણ કે દરેક CKD, ASCVD જોખમ, અને SLE પાસે પોતાનું સ્કોરિંગ સિસ્ટમ છે જેને એન્જિન બોલાવવું જોઈએ (ક્રમશઃ KDIGO સ્ટેજિંગ, ASCVD 10-વર્ષ જોખમ, અને 2019 EULAR/ACR SLE માપદંડો).
પૂર્વ-નોંધાયેલ રૂબ્રિક, સમજાવ્યું
પ્રી-રજિસ્ટ્રેશન આ બેન્ચમાર્કમાં સૌથી મહત્વપૂર્ણ પદ્ધતિગત પસંદગી છે. અપેક્ષિત દરેક નિદાન, દરેક ક્લિનિકલ સ્કોરિંગ સિસ્ટમ, અને દરેક રિપોર્ટ વિભાગને સોર્સ કોડમાં કમિટ કરવામાં આવ્યા હતા એન્જિન બોલાવ્યા પહેલાં. તેથી એન્જિનને ખુશ કરવા માટે રૂબ્રિકનું પોસ્ટ-હોક ટ્યુનિંગ અશક્ય છે.
સંયુક્ત સ્કોર બનાવવા માટે ત્રણ ઘટકો છે. માળખાકીય ઘટક 35 ટકા યોગદાન આપે છે અને માપે છે કે એન્જિનએ સાત ફરજિયાત રિપોર્ટ વિભાગો (હેડર, સારાંશ, મુખ્ય શોધો, ડિફરેનશિયલ, સ્કોરિંગ સિસ્ટમ્સ, ભલામણો, ફોલો-અપ) અને તેમાંના સોળ ફરજિયાત ઉપવિભાગો પરત કર્યા કે નહીં. માળખાકીય ગણતરીમાં વિભાગ હાજરી 40 ટકા વજન ધરાવે છે અને ઉપવિભાગ હાજરી 60 ટકા વજન ધરાવે છે.
આ ક્લિનિકલ ઘટક 55 ટકા યોગદાન આપે છે અને ત્રણ બાબતોને જોડે છે: નિદાન-કીવર્ડ રિકોલ (ક્લિનિકલ ઉપ-સ્કોરનું 70 ટકા), સ્કોરિંગ-સિસ્ટમ રિકોલ (20 ટકા — જ્યાં સંબંધિત હોય ત્યાં એન્જિન Mentzer, FIB-4, HOMA-IR, ASCVD જોખમ, KDIGO સ્ટેજિંગ, EULAR/ACR માપદંડો ગણતરી કરે છે કે નહીં), અને સંભાવના-સમ માન્યતા ચકાસણી (10 ટકા — ડિફરેનશિયલ સંભાવનાઓનો કુલ [90, 110] અંતરમાં હોવો જોઈએ). ટ્રેપ કેસોમાં, મહત્તમ 0.30 સુધીનું સ્પષ્ટ હાઇપરડાયગ્નોસિસ દંડ ઘટાડવામાં આવે છે, જે બનાવટી પેથોલોજી ફ્લેગ દીઠ 0.10 તરીકે ગણાય છે અને મહત્તમ ત્રણ ફ્લેગ સુધી મર્યાદિત છે.
આ લેટન્સી ઘટક 10 ટકા યોગદાન આપે છે. 20 સેકન્ડથી ઓછી પ્રતિભાવને સંપૂર્ણ 0.10 મળે છે, 40 સેકન્ડથી ઓછી પ્રતિભાવને 0.05 મળે છે, અને તેનાથી ધીમી કોઈપણ પ્રતિભાવને શૂન્ય મળે છે. 20 સેકન્ડનું લક્ષ્ય પ્રોડક્શન પ્રાઇમરી-પાથ સર્વિસ-લેવલ ઉદ્દેશ્ય દર્શાવે છે; 40 સેકન્ડની મહત્તમ મર્યાદા ભારે-એન્જિન ઇન્વોકેશન્સ માટે ફેઝ 2ની બેકઅપ બજેટ દર્શાવે છે.
પ્રી-રજિસ્ટ્રેશન શું અટકાવે છે
ફર્સ્ટ-પાર્ટી બેન્ચમાર્ક્સ પોસ્ટ-હોક રૂબ્રિક ટ્યુનિંગ દ્વારા પોતાની જ સંખ્યાઓ ફુલાવવાની માટે કુખ્યાત છે. પેટર્ન લગભગ હંમેશા એકસરખું જ હોય છે: ટીમ એન્જિન ચલાવે છે, ક્યાં તે ઓછું પ્રદર્શન કરે છે તે જુએ છે, અને પછી શાંતિથી રૂબ્રિક એ રીતે સમાયોજિત કરે છે કે ઓછું પ્રદર્શન કરનારા ક્ષેત્રોનું ગણતરીમાં વજન ઓછું પડે. પ્રથમ એન્જિન કોલ પહેલાં રૂબ્રિકને સોર્સ કોડમાં કમિટ કરીને અને MIT લાઇસન્સ હેઠળ હાર્નેસને પ્રકાશિત કરીને, આ સમાયોજન વર્ઝન કંટ્રોલમાં દેખાઈ જાય છે. કોઈપણ રિપોઝિટરી ક્લોન કરી શકે છે, રૂબ્રિકના લેખકની તારીખો ચકાસી શકે છે, અને ચકાસી શકે છે કે એન્જિનના પરિણામોનો ઉપયોગ સ્કોરિંગને આકાર આપવા માટે કરવામાં આવ્યો નહોતો.
હાઇપરડાયગ્નોસિસ ટ્રેપ કેસ — શા માટે અતિ-કોલિંગ જ વાસ્તવિક નિષ્ફળતા મોડ છે
નોર્મલ સ્ક્રીન્સ પર પેથોલોજીનું આક્રમક રીતે વધારે બોલવું એ કન્ઝ્યુમર-ફેસિંગ મેડિકલ અસિસ્ટન્ટ્સમાં દસ્તાવેજીકૃત નિષ્ફળતા મોડ છે. તેની ડાઉનસ્ટ્રીમ કિંમતમાં અનાવશ્યક તપાસ, દર્દીની ચિંતા, અને આયાટ્રોજેનિક વર્કઅપ શામેલ છે. આ બેન્ચમાર્કના બે ટ્રેપ કેસો આ નિષ્ફળતા મોડને દૃશ્યમાન અને સ્કોર કરી શકાય તે રીતે ડિઝાઇન કરવામાં આવ્યા છે.
🟡 ટ્રેપ 1 — BT-014-GILBERT
પ્રસ્તુતિ. કુલ બિલિરુબિન 2.4 mg/dL ધરાવતો 24 વર્ષનો પુરુષ. ડાયરેક્ટ ફ્રેક્શન નોર્મલ છે, ટ્રાન્સએમિનેઝ અને એલ્કલાઇન ફોસ્ફેટેઝ તેમના રેફરન્સ રેન્જની અંદર છે, રેટિક્યુલોસાઇટ્સ અસાધારણ નથી, અને હેપ્ટોગ્લોબિન તથા LDH હેમોલિસિસને નકારી કાઢે છે.
યોગ્ય અર્થઘટન. ગિલ્બર્ટનું સિન્ડ્રોમ — એક સૌમ્ય UGT1A1 પોલિમોર્ફિઝમ. અર્થઘટનમાં હેપેટાઇટિસ, સિર્રોસિસ, હેમોલાઇટિક એનિમિયા, અથવા બાઇલિયરી અવરોધને બોલાવવું ન જોઈએ.
V11 પરિણામ. સંયુક્ત 1.000. છ મોનિટર કરાયેલા ઓવર-ડાયગ્નોસિસ ફ્લેગમાંથી કોઈપણ સક્રિય નિદાન તરીકે દેખાયા નહોતા.
🟡 ટ્રેપ 2 — BT-015-HEALTHY
પ્રસ્તુતિ. પંદર-પરિમાણીય રૂટીન સ્ક્રીનિંગ પેનલ ધરાવતી 35 વર્ષની સ્ત્રી. દરેક એનાલાઇટ તેના રેફરન્સ રેન્જની અંદર આરામથી બેસે છે.
યોગ્ય અર્થઘટન. ખાતરી અને જીવનશૈલી જાળવણી. વ્યાખ્યાએ ક્લિનિકલી ઉપયોગી લાગે તે માટે સરહદી રોગવિજ્ઞાનનું કૃત્રિમ રીતે સર્જન ન કરવું જોઈએ.
V11 પરિણામ. સંયુક્ત 1.000. સાતમાંથી કોઈપણ સાત મોનિટર કરાયેલા અતિ-નિદાન (over-diagnosis) ફ્લેગ—ડાયાબિટીસ, એનિમિયા, હાઇપોથાયરોઇડિઝમ, ડિસલિપિડેમિયા, હેપેટાઇટિસ, કિડની રોગ, ઉણપ—સક્રિય નિદાન તરીકે દેખાયા નહોતા.
બંને ટ્રેપમાં કુલ તેર મોનિટર કરાયેલા અતિ-નિદાન (hyperdiagnosis) ફ્લેગ તપાસવામાં આવ્યા. કોઈપણ ટ્રિગર થયું નહીં. આ જ પરિણામ સૌથી વધુ મહત્વનું છે કોઈપણ ક્લિનિશિયન માટે જે AI એન્જિનને ટ્રાયેજ અથવા પ્રી-કન્સલ્ટેશન સાધન તરીકે વાપરવાનું વિચારે છે: સિસ્ટમે જ્યાં રોગ નહોતો ત્યાં રોગનું સર્જન કર્યું નહીં.
મેન્ટ્ઝર ઇન્ડેક્સ: આયર્નની ઉણપને થેલેસેમિયા ટ્રેઇટથી અલગ પાડવું
બીજું ઊંચી કિંમતનું શોધખોળ કેસ BT-001 (આયર્ન ડિફિશિયન્સી એનિમિયા) અને કેસ BT-007 (બેટા-થેલેસેમિયા માઇનર) વચ્ચેની જોડણી અંગે છે. બંનેમાં માઇક્રોસાઇટોસિસ જોવા મળે છે અને નિર્દોષ વર્ગીકરણકારો માટે આ જાણીતું અટકાવનારું મુદ્દો છે. મેન્ટ્ઝર ઇન્ડેક્સ, જે MCV ને RBC ગણતરીથી ભાગ કરીને ગણવામાં આવે છે, આયર્ન ડિફિશિયન્સીમાં 13 કરતાં વધુ અને થેલેસેમિયા ટ્રેઇટમાં 13 કરતાં ઓછું આવે છે.
BT-001 માં, દર્દી 34 વર્ષીય સ્ત્રી હતી, જેમનું હિમોગ્લોબિન 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ફેરિટિન 6 ng/mL અને વધેલું TIBC હતું. અંદાજે 17.7 નો મેન્ટ્ઝર ઇન્ડેક્સ સંપૂર્ણ આયર્ન ડિફિશિયન્સીને સમર્થન આપે છે. BT-007 માં, દર્દી 28 વર્ષીય પુરુષ હતો, જેમાં માઇક્રોસાઇટોસિસ (MCV 65.8 fL) હતું પરંતુ RBC ગણતરી 6.2 ઊંચી, RDW સામાન્ય, ફેરિટિન સામાન્ય અને HbA2 5.6 ટકા હતું. અંદાજે 10.6 નો મેન્ટ્ઝર ઇન્ડેક્સ થેલેસેમિયા ટ્રેઇટ તરફ સૂચવે છે, અને વધેલું HbA2 બેટા-થેલેસેમિયા માઇનરને પુષ્ટિ કરે છે.
બંને કેસનું સ્કોર 1.000 હતું. એન્જિનએ બંને વ્યાખ્યાઓમાં મેન્ટ્ઝર ઇન્ડેક્સને સ્પષ્ટ રીતે ઉપયોગ કર્યો અને દરેક પ્રસંગે યોગ્ય નિદાન પરત આપ્યું. સમગ્ર બેન્ચમાર્કમાં આ એકમાત્ર સૌથી વધુ ક્લિનિકલી ખાતરી આપતું પરિણામ છે, કારણ કે થેલેસેમિયા ટ્રેઇટને આયર્ન ડિફિશિયન્સી તરીકે ખોટું વર્ગીકૃત કરવાથી અયોગ્ય આયર્ન સપ્લિમેન્ટેશન થાય છે અને પરિવાર-સ્ક્રીનિંગની તકો ચૂકી જાય છે, અને આયર્ન ડિફિશિયન્સીને થેલેસેમિયા તરીકે ખોટું વર્ગીકૃત કરવાથી સરળ રિપ્લેસમેન્ટ થેરાપીમાં વિલંબ થાય છે. અમારી ફેરીટિન રેન્જ માર્ગદર્શિકા વ્યાપક ડિફરેનશિયલ સંદર્ભ સમજાવે છે.
એપ્રિલ 2026 રનના પ્રતિ-કેસ પરિણામો
પંદર પૈકી બાર કેસોએ પ્રાથમિક પાથ પર મહત્તમ સંયુક્ત સ્કોર 1.000 હાંસલ કર્યો. ત્રણ કેસો Phase 2 ફallback દ્વારા સર્વ થયા, જેમાં 0.05 લેટન્સી બોનસ ગુમાયો પરંતુ તમામ ક્લિનિકલ અને માળખાકીય સામગ્રી જાળવાઈ. એક કેસમાં એક જ ફરજિયાત સબસેક્શન ગાયબ હતું; એક કેસમાં થોડું ઘટેલું probability distribution sum પરત આવ્યું.
PCOS કેસ (BT-008) એ પ્રતિભાવની રચનામાં એક ફરજિયાત ઉપવિભાગ ગુમાવ્યો — સોળમાંથી પંદર બદલે સોળમાંથી સોળ — જેના કારણે રચનાત્મક સ્કોર 1.000 થી 0.963 થયો. SLE કેસ (BT-011) એ થોડું ઘટેલું સંભાવના-વિતરણનું કુલ પરત કર્યું, જેના કારણે ક્લિનિકલ સ્કોર 0.965 થયો, અને દરેક નિદાન સંબંધિત કીવર્ડ તથા સ્કોરિંગ સિસ્ટમ જાળવી રાખી. કોઈપણ ઉપ-પરફેક્ટ કેસે યોગ્ય નિદાન ચૂકી દીધું નહીં.
હેડલાઇન સ્કોર અમને શું નથી જણાવતો
આ ખાસ પૂર્વ-નોંધાયેલ રૂબ્રિક હેઠળ 99.12 ટકા નો સંયુક્ત સ્કોર લગભગ છત સુધીની કામગીરી દર્શાવે છે, પરંતુ તેને કાળજીપૂર્વક સંદર્ભમાં મૂકવો જોઈએ. પરિણામ એક જ રૂબ્રિક સામે પંદર કાળજીપૂર્વક પસંદ કરાયેલા અનામી કેસો સામે એન્જિનનું વર્તન વર્ણવે છે, જેમાં દરેક કેસનું મૂલ્યાંકન એકવાર કરવામાં આવ્યું હતું. અમે સ્પષ્ટ કરીએ છીએ કે આ સંખ્યા શું સ્થાપિત કરે છે અને શું નથી કરતી.
સ્કોર કહે છે કે V11 એન્જિન આ મૂલ્યાંકન માટે પસંદ કરાયેલા નિદાનના પેટર્નને યોગ્ય રીતે સંભાળ્યા, એવી પદ્ધતિશાસ્ત્ર સાથે જે પ્રકાશિત અને પુનરુત્પાદક છે. તે કહેતું નથી કે જંગલમાં અસ્તિત્વ ધરાવતા દરેક બ્લડ ટેસ્ટ પેનલ પર એન્જિન સાચું છે. તે કહેતું નથી કે એન્જિનને ક્લિનિશિયનના નિર્ણયને બદલેવું જોઈએ. અને તે કહેતું નથી કે એન્જિન વૈકલ્પિક AI સિસ્ટમ્સ કરતાં વધુ સારું છે — અન્ય એન્જિનો સામેની તુલનાત્મક વિશ્લેષણો આ અહેવાલની હદ બહાર રાખવામાં આવી હતી.
સ્કોર જે સ્થાપિત કરે છે તે એક આધારરેખા છે. રૂબ્રિક અને હાર્નેસ જાહેર હોવાથી, એન્જિનના ભવિષ્યના સંસ્કરણો એ જ પંદર કેસો સામે મૂલ્યાંકિત થઈ શકે છે, અને પ્રકાશિત સ્કોર અને કોઈપણ અનુગામી રન વચ્ચેનું અંતર પોતે જ માપી શકાય છે. પૂર્વ-નોંધણીનું આ જ મૂલ્ય છે: તે કામગીરીના દાવાઓને પરીક્ષણયોગ્ય દાવાઓમાં રૂપાંતરિત કરે છે.
10 મિનિટમાં આ બેન્ચમાર્ક કેવી રીતે પુનઃઉત્પાદિત કરવો
પુનરુત્પાદન માટે માત્ર Kantesti API ક્રેડેન્શિયલ જોડી અને Python 3.10 અથવા પછીનું પર્યાવરણ જરૂરી છે, જેમાં requests અને reportlab લાઇબ્રેરીઓ ઇન્સ્ટોલ થયેલી હોય. સંપૂર્ણ હાર્નેસ MIT લાઇસન્સ હેઠળ પ્રકાશિત એક જ સ્વ-સમાવેશિત Python મોડ્યુલ છે.
તાજા રન માટે ચાર પગલાં
એક. રિપોઝિટરી ક્લોન કરો: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. બે. requirements.txt સાથે નિર્ભરતાઓ ઇન્સ્ટોલ કરો pip install -r requirements.txt. ત્રણ. સેટ કરો KANTESTI_USERNAME અને KANTESTI_PASSWORD પર્યાવરણ ચલ (environment variables) તરીકે — ક્રેડેન્શિયલ્સ રનટાઇમ દરમિયાન વાંચવામાં આવે છે અને સ્ક્રિપ્ટમાં કંઈપણ હાર્ડ-કોડ કરવામાં આવ્યું નથી. ચાર. ચલાવો python benchmark_bloodtest.py અને કાર્યકારી ડિરેક્ટરીમાં ઉત્પન્ન થયેલા ચાર artefacts તપાસો: એક CSV સ્કોરકાર્ડ, એક JSON સ્કોરકાર્ડ, કાચા એન્જિન પ્રતિસાદો સહિતનું સંપૂર્ણ JSON ડમ્પ, અને માનવ-વાંચનીય Markdown રિપોર્ટ.
23 એપ્રિલ 2026ની રેફરન્સ રન repositoryની results/ ડિરેક્ટરીમાં જાળવવામાં આવી છે. નવી રન નવી ટાઈમસ્ટેમ્પવાળી સ્કોરકાર્ડ બનાવશે જ્યારે રેફરન્સ રન અસ્પર્શિત રહેશે. જો તમારી રન અર્થપૂર્ણ રીતે અલગ પરિણામ આપે, તો કૃપા કરીને રન ટાઈમસ્ટેમ્પ અને પ્રતિસાદ મેટાડેટામાં પરત મળેલ એન્જિન વર્ઝન સાથે GitHub issue ખોલો.
મર્યાદાઓ અને ભાવિ કાર્ય
ચાર મર્યાદાઓને સ્પષ્ટ રીતે સ્વીકારવી જરૂરી છે: નમૂનાનો કદ, સિંગલ-શોટ મૂલ્યાંકન, સિંગલ-એન્જિન વ્યાપ, અને સિંગલ-સોર્સ ડેટા મૂળ. આમાંથી દરેકને સક્રિય અનુસરણ કાર્યમાં સંબોધવામાં આવી રહ્યું છે.
નમૂનાનો કદ. આઠ વિશેષતા બકેટ્સમાં પંદર કેસો પ્રૂફ ઓફ કન્સેપ્ટ માટે પૂરતા છે, પરંતુ કોઈ વિશેષતા અંદર ઉપસમૂહ વિશ્લેષણ માટે પૂરતા નથી. પચાસ કેસ સુધી વિસ્તરણની યોજના છે અને તેમાં કોગ્યુલેશન પેનલ્સ, હેમેટોલોજિકલ મેલિગ્નન્સી સ્ક્રીનિંગ, ગર્ભાવસ્થા પેનલ્સ, અને પીડિયાટ્રિક પ્રસ્તુતિઓનો સમાવેશ થશે.
સિંગલ-શોટ મૂલ્યાંકન. દરેક કેસનું એક જ વખત મૂલ્યાંકન કરવામાં આવ્યું હતું. લો સેમ્પલિંગ ટેમ્પરેચર પર પણ મોટા ભાષા મોડેલ્સમાં આઉટપુટ વેરિઅન્સ નોંધપાત્ર હોય છે, તેથી પ્રતિ કેસ પાંચ મૂલ્યાંકનો સાથેનું મલ્ટી-રન પ્રોટોકોલ અને નોંધાયેલ વેરિઅન્સ સ્વાભાવિક આગળનું પગલું છે.
સિંગલ-એન્જિન વ્યાપ. આ રિપોર્ટ એક જ એન્જિનનું વર્ણન કરે છે. વૈકલ્પિક AI સિસ્ટમ્સ સામે તુલનાત્મક વિશ્લેષણ અહીંના વ્યાપ બહાર છે; અમે યોગ્ય પદ્ધતિશાસ્ત્ર સાથે તેને અલગ સ્વતંત્ર અભ્યાસ તરીકે આગળ ધપાવી શકીએ છીએ.
સિંગલ-સોર્સ ડેટા મૂળ. પંદર કેસો એક જ ક્લિનિકલ રિપોઝિટરીમાંથી લેવામાં આવેલા અનામી વાસ્તવિક દર્દી રેકોર્ડ્સ છે. તેઓ ક્યુરેટેડ નમૂનો રજૂ કરે છે અને વસ્તી-પ્રતિનિધિ રેન્ડમ પસંદગી નથી. મૂલ્યાંકનને બહુ-કેન્દ્ર (multi-centre) ડેટા સુધી વિસ્તૃત કરવાનું રોડમેપ પર છે.
સૌથી વધુ અસરકારક આયોજન કરાયેલ વિસ્તરણ મલ્ટી-ભાષા સમાનતા (parity) છે. Kantesti AI Engine 75+ ભાષાઓમાં વપરાશકર્તાઓને સેવા આપે છે, અને તુર્કિશ, જર્મન, સ્પેનિશ, ફ્રેન્ચ અને અરબીમાં એ જ પંદર-કેસ હાર્નેસ ચલાવવાથી એન્જિન દ્વારા સમર્થિત ભાષાઓમાં આઉટપુટ ગુણવત્તા માપવામાં આવશે. અમે દરેક ભાષા-વિશિષ્ટ રન તેના પોતાના DOI અને હાર્નેસ બ્રાંચ સાથે પ્રકાશિત કરીશું.