આ બેન્ચમાર્ક શા માટે અસ્તિત્વમાં છે અને તે શું ચકાસે છે

AI-સહાયિત બ્લડ ટેસ્ટ રિપોર્ટ સમજો ગ્રાહક અને ક્લિનિકલ વર્કફ્લોમાં વધતી જતી રીતે વપરાય છે, છતાં પ્રયોગશાળા દવાખાનાની દૃષ્ટિએ અનુકૂળ, પુનઃઉત્પાદિત મૂલ્યાંકન ફ્રેમવર્ક્સ દુર્લભ રહે છે. આ પરિસ્થિતિમાં સૌથી મહત્વના પ્રશ્નો સામાન્ય મેડિકલ પ્રશ્ન-ઉત્તર બેન્ચમાર્ક્સમાં આવતાં નથી: જ્યારે મીન કોર્પસ્ક્યુલર વોલ્યુમ સમાન હોય ત્યારે શું એન્જિન આયર્ન ડિફિશિયન્સી ને થેલેસેમિયા ટ્રેઇટથી અલગ કરી શકે છે, શું તે ગિલ્બર્ટ્સ સિન્ડ્રોમને હેપેટાઇટિસ તરીકે વધુ નિદાન કરે છે, અને શું તે સંપૂર્ણ રીતે સામાન્ય સ્ક્રીનિંગ પેનલમાં પેથોલોજી “બનાવે” છે?

પૂર્વ-નોંધાયેલ રૂબ્રિક ફ્લો ડાયાગ્રામ, જે દર્શાવે છે કે Kantesti AI એન્જિનને સ્થિર સ્કોરિંગ માપદંડો સામે કેવી રીતે મૂલ્યાંકિત કરવામાં આવે છે
આકૃતિ 1: બેન્ચમાર્ક આર્કિટેક્ચર — દરેક કેસ, દરેક કીવર્ડ, દરેક સ્કોરિંગ સિસ્ટમ એન્જિન એક પણ PDF જુએ તે પહેલાં જ સોર્સ કોડમાં સ્થિર છે. પોસ્ટ-હોક રૂબ્રિક ટ્યુનિંગ ડિઝાઇન મુજબ શક્ય નથી.

એક જ બ્લડ ટેસ્ટ પેનલ સામાન્ય રીતે અનેક સ્પર્ધાત્મક વ્યાખ્યાઓને ટેકો આપવા માટે પૂરતો સંકેત ધરાવે છે, અને વ્યાખ્યા આપતા ક્લિનિશિયનનું કામ એ છે કે તે વ્યાખ્યાઓને એકબીજા સામે તોલે, પુસ્તકના જવાબને શોધી કાઢવાને બદલે. જે એન્જિન પાઠ્યપુસ્તકના કેસોમાં સારું કરે છે તે પણ સૌથી વધુ મહત્વના કેસોમાં નિષ્ફળ જઈ શકે છે: ડિફરેનશિયલ-ડાયગ્નોસિસની ખામીઓ, એકલા જોવામાં ચિંતાજનક લાગતા નિર્દોષ વેરિઅન્ટ્સ, અને સંપૂર્ણ રીતે સામાન્ય પેનલ્સ જે આત્મવિશ્વાસી સહાયકોને પેથોલોજી બનાવવામાં લલચાવે છે.

આ બેન્ચમાર્ક ખાસ કરીને આ જ નિષ્ફળતા-રીતિઓને ધ્યાનમાં રાખીને બનાવવામાં આવ્યો હતો. પંદરેય કેસમાંથી દરેકને ચોક્કસ નિદાનાત્મક ગુણધર્મ માટે પસંદ કરવામાં આવ્યો હતો: આયર્નની ઉણપથી થતી માઇક્રોસાઇટોસિસને એવી બીટા-થેલેસેમિયા ટ્રેઇટથી અલગ રાખવી જ પડે જેમાં સમાન મીન કોર્પસ્ક્યુલર વોલ્યુમ હોય; ગિલ્બર્ટ્સ સિન્ડ્રોમનું પ્રસ્તુતિરૂપ જ્યાં એકમાત્ર અસામાન્યતા અલગ પડેલી ઇન્ડાયરેક્ટ હાઇપરબિલિરુબિનેમિયા હોય; અને પંદર-પરિમાણી સ્ક્રીનિંગ પેનલ જેમાં દરેક એનાલાઇટ તેના રેફરન્સ રેન્જની અંદર જ હોય. રૂબ્રિક એવા એન્જિનોને ઇનામ આપે છે જે દરેક કેસને તેના પોતાના સંદર્ભમાં વાંચે છે અને એવા એન્જિનોને દંડ આપે છે જે ત્યાં કોઈ એવી નિદાન-યોગ્યતા ન હોય છતાં આત્મવિશ્વાસભર્યું નિદાન સુધી પહોંચી જાય.

એમ.ડી. થોમસ ક્લાઇન તરીકે, મેં કેસ પેનલ પસંદ કરી કારણ કે આ જ એવા પેટર્ન્સ છે જે લેબોરેટરી-મેડિસિન સહાયકો સૌથી વધુ વાર ખોટા કરે છે. મોંઘી નિષ્ફળતા-રીતિ "દુર્લભ રોગ ચૂકી જવું" નથી — તે એવા દર્દીઓમાં નિયમિત (રૂટીન) પેથોલોજી ઘડી કાઢવી છે જેમને તે નથી. અમારા તબીબી માન્યતા hub વ્યાપક માળખું વર્ણવે છે; આ પેજ V11 એન્જિન પર તેના લાગુ પડતા પરિણામનું વર્ણન કરે છે.

તાજેતરનો રેફરન્સ રન — V11 (એપ્રિલ 2026)

Kantesti AI Engine V11નું એપ્રિલ 2026 રેફરન્સ રન પેદા થયું એક સંયુક્ત સ્કોર તરીકે 99.12% પૂર્વ-નોંધાયેલ પંદર-કેસ રૂબ્રિક પર. બંને હાઇપરડાયગ્નોસિસ ટ્રેપ કેસોએ મહત્તમ સીમા (ceiling) સુધી સ્કોર કર્યો. આયર્ન-ડિફિશિયન્સી સામે થેલેસેમિયા ડિફરેનશિયલમાં Mentzer ઇન્ડેક્સ યોગ્ય રીતે લાગુ કરવામાં આવ્યો હતો.

સંયુક્ત 99.12% 15 માંથી 15 કેસ સ્કોર થયા
0.998 સ્ટ્રક્ચરલ સ્કોર
0.998 ક્લિનિકલ સ્કોર
20.17 s સરેરાશ લેટન્સી
0 / 13 ટ્રેપ ફોલ્સ-પોઝિટિવ્સ

સંયુક્ત સૂત્ર ત્રણ ઘટકોને જોડે છે: સ્ટ્રક્ચરલ અનુરૂપતા સાત ફરજિયાત રિપોર્ટ વિભાગો અને સોળ ફરજિયાત ઉપવિભાગો સાથે, ક્લિનિકલ ચોકસાઈ જે કીવર્ડ રિકોલ + સ્કોરિંગ-સિસ્ટમ રિકોલ + પ્રોબેબિલિટી-ડિસ્ટ્રિબ્યુશન માન્યતા ચેક તરીકે માપવામાં આવે છે, અને પ્રતિભાવ લેટન્સી 20-સેકન્ડની પ્રાથમિક-સર્વિસ-લેવલ લક્ષ્ય સામે. ચોક્કસ વિભાજન નીચેના રૂબ્રિક સૂત્રમાં દર્શાવ્યું છે.

સંયુક્ત = 0.35 × સ્ટ્રક્ચરલ + 0.55 × ક્લિનિકલ + 0.10 × લેટન્સી

હેડરૂમના બાકી રહેલા 0.88 ટકા પોઈન્ટ્સ લગભગ સંપૂર્ણપણે લેટન્સી નુકસાનમાં વિઘટિત થાય છે—માઇનસ 0.05ના ત્રણ ફેઝ 2 ફોલબેક ઇન્વોકેશનમાં દરેકે 0.88-પોઈન્ટની ખામીનાં લગભગ 0.60 જેટલું યોગદાન આપ્યું—ક્લિનિકલ સામગ્રીમાં નહીં. એન્જિને પંદરેય કેસોમાં કોઈપણમાં યોગ્ય નિદાન ચૂકી નથી; જ્યાં તે ઓછું પડ્યું, ત્યાં તે થોડા અલ્પ સંખ્યક ઇન્વોકેશનોમાં 20 સેકન્ડના પ્રાથમિક-પાથ લક્ષ્ય કરતાં થોડું વધુ સમય લઈને થયું હતું.

સાત તબીબી વિશેષતાઓમાં પંદર કેસ

કેસ પેનલ સાત વિશેષતાઓને આવરી લે છે—હેમેટોલોજી, એન્ડોક્રિનોલોજી, મેટાબોલિક મેડિસિન, હેપેટોલોજી, નેફ્રોલોજી, કાર્ડિયોલોજી, ર્યુમેટોલોજી—અને ઉપરાંત બે સમર્પિત હાઇપરડાયગ્નોસિસ ટ્રેપ કેસ. દરેક કેસ લખિત જાણકારીપૂર્વકની સંમતિ હેઠળ Kantesti ક્લિનિકલ ડેટા રિપોઝિટરીમાંથી લેવામાં આવેલ એક અનામી વાસ્તવિક દર્દી રેકોર્ડ છે.

પંદર અનામી કરાયેલા બ્લડ ટેસ્ટ કેસનો કવરેજ નકશો, જે સાત ચિકિત્સા વિશેષતાઓમાં વિતરિત છે, સાથે હાઇપરડાયગ્નોસિસ ટ્રેપ કેસો
આકૃતિ 2: હેમેટોલોજી, એન્ડોક્રિનોલોજી, મેટાબોલિક મેડિસિન, હેપેટોલોજી, નેફ્રોલોજી, કાર્ડિયોલોજી, ર્યુમેટોલોજી વચ્ચે કેસનું વિતરણ—અને ઉપરાંત બે ટ્રેપ કેસ: ગિલ્બર્ટ્સ સિન્ડ્રોમ અને સંપૂર્ણપણે સામાન્ય સ્ક્રીનિંગ પેનલ.

ડી-આઈડેન્ટિફિકેશન Safe Harbor અભિગમ હેઠળ કરવામાં આવ્યું હતું: તમામ સીધા ઓળખકર્તાઓ દૂર કરવામાં આવ્યા અથવા બદલવામાં આવ્યા, અને દરેક રેકોર્ડને BT-NNN-LABEL ફોર્મેટમાં એક બેન્ચમાર્ક-આંતરિક કેસ કોડ સોંપવામાં આવ્યો. પ્રક્રિયા નીચે મુજબ કરવામાં આવી હતી GDPR કલમ 9(2)(j) યોગ્ય સુરક્ષાત્મક પગલાં સાથે વૈજ્ઞાનિક સંશોધન માટે, અને સમકક્ષ UK GDPR જોગવાઈઓ મુજબ. પ્રકાશિત હાર્નેસ, તકનીકી અહેવાલ, અથવા રિલીઝ થયેલા ડેટાસેટ્સમાં ક્યાંય પણ કોઈપણ વ્યક્તિગત ઓળખ માહિતી દેખાતી નથી.

હેમેટોલોજી (3) BT-001, BT-006, BT-007 આયર્ન ડિફિશિયન્સી એનિમિયા · B12 ની ઉણપ · બેટા-થેલેસેમિયા માઇનર
એન્ડોક્રિનોલોજી (3) BT-002, BT-008, BT-012 હાશિમોટોઝ થાયરોઇડાઇટિસ · ઇન્સુલિન રેઝિસ્ટન્સ સાથે PCOS · ગંભીર વિટામિન ડી ની ઉણપ
મેટાબોલિક (2) BT-003, BT-013 મેટાબોલિક સિન્ડ્રોમ સાથે T2DM · ગાઉટના જોખમ સાથે હાયપરયુરિસેમિયા
હેપેટોલોજી (2) BT-004, BT-009 NAFLD / NASH · તીવ્ર વાયરસ હેપેટાઇટિસ
નેફ્રોલોજી · કાર્ડિયોલોજી · ર્યુમેટોલોજી (3) BT-005, BT-010, BT-011 CKD સ્ટેજ 3 · એથેરોજેનિક ડિસલિપિડેમિયા · સિસ્ટમિક લ્યુપસ એરિથેમેટોસસ
ટ્રેપ કેસ (2) BT-014, BT-015 ગિલ્બર્ટ્સ સિન્ડ્રોમ (અલગ પડેલી ઇન્ડાયરેક્ટ હાઇપરબિલિરુબિનેમિયા) · સંપૂર્ણપણે સામાન્ય પુખ્ત સ્ક્રીન

આ ખાસ વિતરણ શા માટે

હેમેટોલોજીને ત્રણ કેસ મળે છે કારણ કે માઇક્રોસાઇટિક ડિફરેનશિયલ્સ અને મેક્રોસાઇટિક ડિફરેનશિયલ્સ વાસ્તવિક દુનિયાની લેબોરેટરી પ્રેક્ટિસમાં સૌથી વધુ વોલ્યુમ ધરાવતા ટ્રેપ્સ છે. એન્ડોક્રિનોલોજીને ત્રણ મળે છે કારણ કે હાશિમોટોનું, PCOS, અને વિટામિન ડી ની ઉણપની પ્રસ્તુતિઓ અલગ-અલગ નિદાનાત્મક આકારોનો અભ્યાસ કરે છે (ઓટોએન્ટિબોડી દ્વારા સંચાલિત, હોર્મોન-અનુપાત દ્વારા સંચાલિત, એકલ-માર્કર દ્વારા સંચાલિત). એકલ-કેસ વિશેષતાઓ હજી પણ અર્થપૂર્ણ છે કારણ કે દરેક CKD, ASCVD જોખમ, અને SLE પાસે પોતાનું સ્કોરિંગ સિસ્ટમ છે જેને એન્જિન બોલાવવું જોઈએ (ક્રમશઃ KDIGO સ્ટેજિંગ, ASCVD 10-વર્ષ જોખમ, અને 2019 EULAR/ACR SLE માપદંડો).

પૂર્વ-નોંધાયેલ રૂબ્રિક, સમજાવ્યું

પ્રી-રજિસ્ટ્રેશન આ બેન્ચમાર્કમાં સૌથી મહત્વપૂર્ણ પદ્ધતિગત પસંદગી છે. અપેક્ષિત દરેક નિદાન, દરેક ક્લિનિકલ સ્કોરિંગ સિસ્ટમ, અને દરેક રિપોર્ટ વિભાગને સોર્સ કોડમાં કમિટ કરવામાં આવ્યા હતા એન્જિન બોલાવ્યા પહેલાં. તેથી એન્જિનને ખુશ કરવા માટે રૂબ્રિકનું પોસ્ટ-હોક ટ્યુનિંગ અશક્ય છે.

સંયુક્ત સ્કોર બનાવવા માટે ત્રણ ઘટકો છે. માળખાકીય ઘટક 35 ટકા યોગદાન આપે છે અને માપે છે કે એન્જિનએ સાત ફરજિયાત રિપોર્ટ વિભાગો (હેડર, સારાંશ, મુખ્ય શોધો, ડિફરેનશિયલ, સ્કોરિંગ સિસ્ટમ્સ, ભલામણો, ફોલો-અપ) અને તેમાંના સોળ ફરજિયાત ઉપવિભાગો પરત કર્યા કે નહીં. માળખાકીય ગણતરીમાં વિભાગ હાજરી 40 ટકા વજન ધરાવે છે અને ઉપવિભાગ હાજરી 60 ટકા વજન ધરાવે છે.

ક્લિનિકલ ઘટક 55 ટકા યોગદાન આપે છે અને ત્રણ બાબતોને જોડે છે: નિદાન-કીવર્ડ રિકોલ (ક્લિનિકલ ઉપ-સ્કોરનું 70 ટકા), સ્કોરિંગ-સિસ્ટમ રિકોલ (20 ટકા — જ્યાં સંબંધિત હોય ત્યાં એન્જિન Mentzer, FIB-4, HOMA-IR, ASCVD જોખમ, KDIGO સ્ટેજિંગ, EULAR/ACR માપદંડો ગણતરી કરે છે કે નહીં), અને સંભાવના-સમ માન્યતા ચકાસણી (10 ટકા — ડિફરેનશિયલ સંભાવનાઓનો કુલ [90, 110] અંતરમાં હોવો જોઈએ). ટ્રેપ કેસોમાં, મહત્તમ 0.30 સુધીનું સ્પષ્ટ હાઇપરડાયગ્નોસિસ દંડ ઘટાડવામાં આવે છે, જે બનાવટી પેથોલોજી ફ્લેગ દીઠ 0.10 તરીકે ગણાય છે અને મહત્તમ ત્રણ ફ્લેગ સુધી મર્યાદિત છે.

લેટન્સી ઘટક 10 ટકા યોગદાન આપે છે. 20 સેકન્ડથી ઓછી પ્રતિભાવને સંપૂર્ણ 0.10 મળે છે, 40 સેકન્ડથી ઓછી પ્રતિભાવને 0.05 મળે છે, અને તેનાથી ધીમી કોઈપણ પ્રતિભાવને શૂન્ય મળે છે. 20 સેકન્ડનું લક્ષ્ય પ્રોડક્શન પ્રાઇમરી-પાથ સર્વિસ-લેવલ ઉદ્દેશ્ય દર્શાવે છે; 40 સેકન્ડની મહત્તમ મર્યાદા ભારે-એન્જિન ઇન્વોકેશન્સ માટે ફેઝ 2ની બેકઅપ બજેટ દર્શાવે છે.

MIT લાઇસન્સ ધરાવતા Kantesti બેન્ચમાર્ક હાર્નેસનું ટર્મિનલ સ્ક્રીનશોટ, જે ચલાવવામાં આવી રહ્યું છે અને પ્રતિ-કેસ સ્કોર બહાર પાડી રહ્યું છે
આકૃતિ 3: એક્ઝિક્યુશનમાં હાર્નેસ. દરેક કેસને A4 PDF તરીકે રેન્ડર કરવામાં આવે છે, પ્રોડક્શન v11 એન્ડપોઈન્ટ પર પોસ્ટ કરવામાં આવે છે, અને સ્થિર (ફ્રોઝન) રૂબ્રિક સામે સ્કોર કરવામાં આવે છે. દરેક કાચો પ્રતિભાવ એકત્રિત સ્કોરકાર્ડની સાથે જ સંગ્રહિત કરવામાં આવે છે.

પ્રી-રજિસ્ટ્રેશન શું અટકાવે છે

ફર્સ્ટ-પાર્ટી બેન્ચમાર્ક્સ પોસ્ટ-હોક રૂબ્રિક ટ્યુનિંગ દ્વારા પોતાની જ સંખ્યાઓ ફુલાવવાની માટે કુખ્યાત છે. પેટર્ન લગભગ હંમેશા એકસરખું જ હોય છે: ટીમ એન્જિન ચલાવે છે, ક્યાં તે ઓછું પ્રદર્શન કરે છે તે જુએ છે, અને પછી શાંતિથી રૂબ્રિક એ રીતે સમાયોજિત કરે છે કે ઓછું પ્રદર્શન કરનારા ક્ષેત્રોનું ગણતરીમાં વજન ઓછું પડે. પ્રથમ એન્જિન કોલ પહેલાં રૂબ્રિકને સોર્સ કોડમાં કમિટ કરીને અને MIT લાઇસન્સ હેઠળ હાર્નેસને પ્રકાશિત કરીને, આ સમાયોજન વર્ઝન કંટ્રોલમાં દેખાઈ જાય છે. કોઈપણ રિપોઝિટરી ક્લોન કરી શકે છે, રૂબ્રિકના લેખકની તારીખો ચકાસી શકે છે, અને ચકાસી શકે છે કે એન્જિનના પરિણામોનો ઉપયોગ સ્કોરિંગને આકાર આપવા માટે કરવામાં આવ્યો નહોતો.

હાઇપરડાયગ્નોસિસ ટ્રેપ કેસ — શા માટે અતિ-કોલિંગ જ વાસ્તવિક નિષ્ફળતા મોડ છે

નોર્મલ સ્ક્રીન્સ પર પેથોલોજીનું આક્રમક રીતે વધારે બોલવું એ કન્ઝ્યુમર-ફેસિંગ મેડિકલ અસિસ્ટન્ટ્સમાં દસ્તાવેજીકૃત નિષ્ફળતા મોડ છે. તેની ડાઉનસ્ટ્રીમ કિંમતમાં અનાવશ્યક તપાસ, દર્દીની ચિંતા, અને આયાટ્રોજેનિક વર્કઅપ શામેલ છે. આ બેન્ચમાર્કના બે ટ્રેપ કેસો આ નિષ્ફળતા મોડને દૃશ્યમાન અને સ્કોર કરી શકાય તે રીતે ડિઝાઇન કરવામાં આવ્યા છે.

બાજુ-બાજુ તુલના: ગિલ્બર્ટ્સ સિન્ડ્રોમ પેનલ પર એક નિષ્કાળજી AI હેપેટાઇટિસ બનાવે છે સામે Kantesti એન્જિન જે નિર્દોષ UGT1A1 પોલિમોર્ફિઝમને યોગ્ય રીતે ઓળખે છે
આકૃતિ 4: ટ્રેપ-કેસ ડિઝાઇન. જે એન્જિન ગિલ્બર્ટના સિન્ડ્રોમને આત્મવિશ્વાસથી હેપેટાઇટિસ તરીકે લેબલ કરે, અથવા જે સંપૂર્ણપણે નોર્મલ સ્ક્રીન પર બોર્ડરલાઇન પેથોલોજી બનાવે, તેને દંડ મળે છે — ક્લિનિકલ લાગતું બોલવા માટે ઇનામ મળતું નથી.

🟡 ટ્રેપ 1 — BT-014-GILBERT

પ્રસ્તુતિ. કુલ બિલિરુબિન 2.4 mg/dL ધરાવતો 24 વર્ષનો પુરુષ. ડાયરેક્ટ ફ્રેક્શન નોર્મલ છે, ટ્રાન્સએમિનેઝ અને એલ્કલાઇન ફોસ્ફેટેઝ તેમના રેફરન્સ રેન્જની અંદર છે, રેટિક્યુલોસાઇટ્સ અસાધારણ નથી, અને હેપ્ટોગ્લોબિન તથા LDH હેમોલિસિસને નકારી કાઢે છે.

યોગ્ય અર્થઘટન. ગિલ્બર્ટનું સિન્ડ્રોમ — એક સૌમ્ય UGT1A1 પોલિમોર્ફિઝમ. અર્થઘટનમાં હેપેટાઇટિસ, સિર્રોસિસ, હેમોલાઇટિક એનિમિયા, અથવા બાઇલિયરી અવરોધને બોલાવવું ન જોઈએ.

V11 પરિણામ. સંયુક્ત 1.000. છ મોનિટર કરાયેલા ઓવર-ડાયગ્નોસિસ ફ્લેગમાંથી કોઈપણ સક્રિય નિદાન તરીકે દેખાયા નહોતા.

🟡 ટ્રેપ 2 — BT-015-HEALTHY

પ્રસ્તુતિ. પંદર-પરિમાણીય રૂટીન સ્ક્રીનિંગ પેનલ ધરાવતી 35 વર્ષની સ્ત્રી. દરેક એનાલાઇટ તેના રેફરન્સ રેન્જની અંદર આરામથી બેસે છે.

યોગ્ય અર્થઘટન. ખાતરી અને જીવનશૈલી જાળવણી. વ્યાખ્યાએ ક્લિનિકલી ઉપયોગી લાગે તે માટે સરહદી રોગવિજ્ઞાનનું કૃત્રિમ રીતે સર્જન ન કરવું જોઈએ.

V11 પરિણામ. સંયુક્ત 1.000. સાતમાંથી કોઈપણ સાત મોનિટર કરાયેલા અતિ-નિદાન (over-diagnosis) ફ્લેગ—ડાયાબિટીસ, એનિમિયા, હાઇપોથાયરોઇડિઝમ, ડિસલિપિડેમિયા, હેપેટાઇટિસ, કિડની રોગ, ઉણપ—સક્રિય નિદાન તરીકે દેખાયા નહોતા.

બંને ટ્રેપમાં કુલ તેર મોનિટર કરાયેલા અતિ-નિદાન (hyperdiagnosis) ફ્લેગ તપાસવામાં આવ્યા. કોઈપણ ટ્રિગર થયું નહીં. આ જ પરિણામ સૌથી વધુ મહત્વનું છે કોઈપણ ક્લિનિશિયન માટે જે AI એન્જિનને ટ્રાયેજ અથવા પ્રી-કન્સલ્ટેશન સાધન તરીકે વાપરવાનું વિચારે છે: સિસ્ટમે જ્યાં રોગ નહોતો ત્યાં રોગનું સર્જન કર્યું નહીં.

મેન્ટ્ઝર ઇન્ડેક્સ: આયર્નની ઉણપને થેલેસેમિયા ટ્રેઇટથી અલગ પાડવું

બીજું ઊંચી કિંમતનું શોધખોળ કેસ BT-001 (આયર્ન ડિફિશિયન્સી એનિમિયા) અને કેસ BT-007 (બેટા-થેલેસેમિયા માઇનર) વચ્ચેની જોડણી અંગે છે. બંનેમાં માઇક્રોસાઇટોસિસ જોવા મળે છે અને નિર્દોષ વર્ગીકરણકારો માટે આ જાણીતું અટકાવનારું મુદ્દો છે. મેન્ટ્ઝર ઇન્ડેક્સ, જે MCV ને RBC ગણતરીથી ભાગ કરીને ગણવામાં આવે છે, આયર્ન ડિફિશિયન્સીમાં 13 કરતાં વધુ અને થેલેસેમિયા ટ્રેઇટમાં 13 કરતાં ઓછું આવે છે.

BT-001 માં, દર્દી 34 વર્ષીય સ્ત્રી હતી, જેમનું હિમોગ્લોબિન 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ફેરિટિન 6 ng/mL અને વધેલું TIBC હતું. અંદાજે 17.7 નો મેન્ટ્ઝર ઇન્ડેક્સ સંપૂર્ણ આયર્ન ડિફિશિયન્સીને સમર્થન આપે છે. BT-007 માં, દર્દી 28 વર્ષીય પુરુષ હતો, જેમાં માઇક્રોસાઇટોસિસ (MCV 65.8 fL) હતું પરંતુ RBC ગણતરી 6.2 ઊંચી, RDW સામાન્ય, ફેરિટિન સામાન્ય અને HbA2 5.6 ટકા હતું. અંદાજે 10.6 નો મેન્ટ્ઝર ઇન્ડેક્સ થેલેસેમિયા ટ્રેઇટ તરફ સૂચવે છે, અને વધેલું HbA2 બેટા-થેલેસેમિયા માઇનરને પુષ્ટિ કરે છે.

આયર્ન ડિફિશિયન્સી એનિમિયા મેન્ટ્ઝર > 13 નીચું ફેરિટિન, નીચું TSAT, ઊંચું TIBC, વધેલું RDW
બેટા-થેલેસેમિયા ટ્રેઇટ મેન્ટ્ઝર < 13 સામાન્ય ફેરિટિન, સામાન્ય RDW, વધેલું HbA2 (>3.5%), ઊંચી RBC ગણતરી

બંને કેસનું સ્કોર 1.000 હતું. એન્જિનએ બંને વ્યાખ્યાઓમાં મેન્ટ્ઝર ઇન્ડેક્સને સ્પષ્ટ રીતે ઉપયોગ કર્યો અને દરેક પ્રસંગે યોગ્ય નિદાન પરત આપ્યું. સમગ્ર બેન્ચમાર્કમાં આ એકમાત્ર સૌથી વધુ ક્લિનિકલી ખાતરી આપતું પરિણામ છે, કારણ કે થેલેસેમિયા ટ્રેઇટને આયર્ન ડિફિશિયન્સી તરીકે ખોટું વર્ગીકૃત કરવાથી અયોગ્ય આયર્ન સપ્લિમેન્ટેશન થાય છે અને પરિવાર-સ્ક્રીનિંગની તકો ચૂકી જાય છે, અને આયર્ન ડિફિશિયન્સીને થેલેસેમિયા તરીકે ખોટું વર્ગીકૃત કરવાથી સરળ રિપ્લેસમેન્ટ થેરાપીમાં વિલંબ થાય છે. અમારી ફેરીટિન રેન્જ માર્ગદર્શિકા વ્યાપક ડિફરેનશિયલ સંદર્ભ સમજાવે છે.

એપ્રિલ 2026 રનના પ્રતિ-કેસ પરિણામો

પંદર પૈકી બાર કેસોએ પ્રાથમિક પાથ પર મહત્તમ સંયુક્ત સ્કોર 1.000 હાંસલ કર્યો. ત્રણ કેસો Phase 2 ફallback દ્વારા સર્વ થયા, જેમાં 0.05 લેટન્સી બોનસ ગુમાયો પરંતુ તમામ ક્લિનિકલ અને માળખાકીય સામગ્રી જાળવાઈ. એક કેસમાં એક જ ફરજિયાત સબસેક્શન ગાયબ હતું; એક કેસમાં થોડું ઘટેલું probability distribution sum પરત આવ્યું.

કેસ ID સ્પેશિયાલિટી સંયુક્ત લેટન્સી પાથ
BT-001-IDAહિમેટોલોજી1.00017.8 sપ્રાથમિક
BT-006-B12હિમેટોલોજી1.00018.4 સેપ્રાથમિક
BT-007-થેલહિમેટોલોજી1.00017.0 સેપ્રાથમિક
BT-002-હેશએન્ડોક્રિનોલોજી0.95037.0 સેફૉલબૅક
BT-008-PCOSએન્ડોક્રિનોલોજી0.98718.6 સેપ્રાથમિક
BT-003-T2DMમેટાબોલિક1.00019.1 સેપ્રાથમિક
BT-013-ગાઉટમેટાબોલિક1.00019.4 સેપ્રાથમિક
BT-004-NAFLDહેપેટોલોજી1.00019.6 સેપ્રાથમિક
BT-009-વાયરહેપહેપેટોલોજી0.95023.4 સેફૉલબૅક
BT-014-ગિલબર્ટટ્રૅપ1.00018.9 સેપ્રાથમિક
BT-005-CKDનેફ્રોલોજી1.00017.4 સેપ્રાથમિક
BT-010-ASCVDકાર્ડિયોલોજી1.00019.7 સેપ્રાથમિક
BT-011-SLEર્યુમેટોલોજી0.98118.2 સેકન્ડપ્રાથમિક
BT-012-VITDએન્ડોક્રિનોલોજી1.00019.3 સેકન્ડપ્રાથમિક
BT-015-HEALTHYટ્રૅપ1.00018.7 સેકન્ડફૉલબૅક

PCOS કેસ (BT-008) એ પ્રતિભાવની રચનામાં એક ફરજિયાત ઉપવિભાગ ગુમાવ્યો — સોળમાંથી પંદર બદલે સોળમાંથી સોળ — જેના કારણે રચનાત્મક સ્કોર 1.000 થી 0.963 થયો. SLE કેસ (BT-011) એ થોડું ઘટેલું સંભાવના-વિતરણનું કુલ પરત કર્યું, જેના કારણે ક્લિનિકલ સ્કોર 0.965 થયો, અને દરેક નિદાન સંબંધિત કીવર્ડ તથા સ્કોરિંગ સિસ્ટમ જાળવી રાખી. કોઈપણ ઉપ-પરફેક્ટ કેસે યોગ્ય નિદાન ચૂકી દીધું નહીં.

હેડલાઇન સ્કોર અમને શું નથી જણાવતો

આ ખાસ પૂર્વ-નોંધાયેલ રૂબ્રિક હેઠળ 99.12 ટકા નો સંયુક્ત સ્કોર લગભગ છત સુધીની કામગીરી દર્શાવે છે, પરંતુ તેને કાળજીપૂર્વક સંદર્ભમાં મૂકવો જોઈએ. પરિણામ એક જ રૂબ્રિક સામે પંદર કાળજીપૂર્વક પસંદ કરાયેલા અનામી કેસો સામે એન્જિનનું વર્તન વર્ણવે છે, જેમાં દરેક કેસનું મૂલ્યાંકન એકવાર કરવામાં આવ્યું હતું. અમે સ્પષ્ટ કરીએ છીએ કે આ સંખ્યા શું સ્થાપિત કરે છે અને શું નથી કરતી.

સ્કોર કહે છે કે V11 એન્જિન આ મૂલ્યાંકન માટે પસંદ કરાયેલા નિદાનના પેટર્નને યોગ્ય રીતે સંભાળ્યા, એવી પદ્ધતિશાસ્ત્ર સાથે જે પ્રકાશિત અને પુનરુત્પાદક છે. તે કહેતું નથી કે જંગલમાં અસ્તિત્વ ધરાવતા દરેક બ્લડ ટેસ્ટ પેનલ પર એન્જિન સાચું છે. તે કહેતું નથી કે એન્જિનને ક્લિનિશિયનના નિર્ણયને બદલેવું જોઈએ. અને તે કહેતું નથી કે એન્જિન વૈકલ્પિક AI સિસ્ટમ્સ કરતાં વધુ સારું છે — અન્ય એન્જિનો સામેની તુલનાત્મક વિશ્લેષણો આ અહેવાલની હદ બહાર રાખવામાં આવી હતી.

સ્કોર જે સ્થાપિત કરે છે તે એક આધારરેખા છે. રૂબ્રિક અને હાર્નેસ જાહેર હોવાથી, એન્જિનના ભવિષ્યના સંસ્કરણો એ જ પંદર કેસો સામે મૂલ્યાંકિત થઈ શકે છે, અને પ્રકાશિત સ્કોર અને કોઈપણ અનુગામી રન વચ્ચેનું અંતર પોતે જ માપી શકાય છે. પૂર્વ-નોંધણીનું આ જ મૂલ્ય છે: તે કામગીરીના દાવાઓને પરીક્ષણયોગ્ય દાવાઓમાં રૂપાંતરિત કરે છે.

10 મિનિટમાં આ બેન્ચમાર્ક કેવી રીતે પુનઃઉત્પાદિત કરવો

પુનરુત્પાદન માટે માત્ર Kantesti API ક્રેડેન્શિયલ જોડી અને Python 3.10 અથવા પછીનું પર્યાવરણ જરૂરી છે, જેમાં requests અને reportlab લાઇબ્રેરીઓ ઇન્સ્ટોલ થયેલી હોય. સંપૂર્ણ હાર્નેસ MIT લાઇસન્સ હેઠળ પ્રકાશિત એક જ સ્વ-સમાવેશિત Python મોડ્યુલ છે.

પુનરુત્પાદકતા નેટવર્ક ડાયાગ્રામ, જેમાં બેન્ચમાર્ક Figshare, ResearchGate, Academia.edu અને GitHub પર મિરર કરવામાં આવ્યો છે, અને Figshare DOI ને કેનોનિકલ એન્કર તરીકે દર્શાવવામાં આવ્યો છે
આકૃતિ 5: બેન્ચમાર્ક ચાર સંશોધન પ્લેટફોર્મ્સમાં પ્રતિબિંબિત કરવામાં આવ્યો છે. Figshare DOI એ પ્રમાણભૂત શૈક્ષણિક ઓળખકર્તા છે; ResearchGate, Academia.edu, અને GitHub કોડ અને કાચા ડેટા સાથે સમાન નકલો હોસ્ટ કરે છે.

તાજા રન માટે ચાર પગલાં

એક. રિપોઝિટરી ક્લોન કરો: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. બે. requirements.txt સાથે નિર્ભરતાઓ ઇન્સ્ટોલ કરો pip install -r requirements.txt. ત્રણ. સેટ કરો KANTESTI_USERNAME અને KANTESTI_PASSWORD પર્યાવરણ ચલ (environment variables) તરીકે — ક્રેડેન્શિયલ્સ રનટાઇમ દરમિયાન વાંચવામાં આવે છે અને સ્ક્રિપ્ટમાં કંઈપણ હાર્ડ-કોડ કરવામાં આવ્યું નથી. ચાર. ચલાવો python benchmark_bloodtest.py અને કાર્યકારી ડિરેક્ટરીમાં ઉત્પન્ન થયેલા ચાર artefacts તપાસો: એક CSV સ્કોરકાર્ડ, એક JSON સ્કોરકાર્ડ, કાચા એન્જિન પ્રતિસાદો સહિતનું સંપૂર્ણ JSON ડમ્પ, અને માનવ-વાંચનીય Markdown રિપોર્ટ.

23 એપ્રિલ 2026ની રેફરન્સ રન repositoryની results/ ડિરેક્ટરીમાં જાળવવામાં આવી છે. નવી રન નવી ટાઈમસ્ટેમ્પવાળી સ્કોરકાર્ડ બનાવશે જ્યારે રેફરન્સ રન અસ્પર્શિત રહેશે. જો તમારી રન અર્થપૂર્ણ રીતે અલગ પરિણામ આપે, તો કૃપા કરીને રન ટાઈમસ્ટેમ્પ અને પ્રતિસાદ મેટાડેટામાં પરત મળેલ એન્જિન વર્ઝન સાથે GitHub issue ખોલો.

મર્યાદાઓ અને ભાવિ કાર્ય

ચાર મર્યાદાઓને સ્પષ્ટ રીતે સ્વીકારવી જરૂરી છે: નમૂનાનો કદ, સિંગલ-શોટ મૂલ્યાંકન, સિંગલ-એન્જિન વ્યાપ, અને સિંગલ-સોર્સ ડેટા મૂળ. આમાંથી દરેકને સક્રિય અનુસરણ કાર્યમાં સંબોધવામાં આવી રહ્યું છે.

નમૂનાનો કદ. આઠ વિશેષતા બકેટ્સમાં પંદર કેસો પ્રૂફ ઓફ કન્સેપ્ટ માટે પૂરતા છે, પરંતુ કોઈ વિશેષતા અંદર ઉપસમૂહ વિશ્લેષણ માટે પૂરતા નથી. પચાસ કેસ સુધી વિસ્તરણની યોજના છે અને તેમાં કોગ્યુલેશન પેનલ્સ, હેમેટોલોજિકલ મેલિગ્નન્સી સ્ક્રીનિંગ, ગર્ભાવસ્થા પેનલ્સ, અને પીડિયાટ્રિક પ્રસ્તુતિઓનો સમાવેશ થશે.

સિંગલ-શોટ મૂલ્યાંકન. દરેક કેસનું એક જ વખત મૂલ્યાંકન કરવામાં આવ્યું હતું. લો સેમ્પલિંગ ટેમ્પરેચર પર પણ મોટા ભાષા મોડેલ્સમાં આઉટપુટ વેરિઅન્સ નોંધપાત્ર હોય છે, તેથી પ્રતિ કેસ પાંચ મૂલ્યાંકનો સાથેનું મલ્ટી-રન પ્રોટોકોલ અને નોંધાયેલ વેરિઅન્સ સ્વાભાવિક આગળનું પગલું છે.

સિંગલ-એન્જિન વ્યાપ. આ રિપોર્ટ એક જ એન્જિનનું વર્ણન કરે છે. વૈકલ્પિક AI સિસ્ટમ્સ સામે તુલનાત્મક વિશ્લેષણ અહીંના વ્યાપ બહાર છે; અમે યોગ્ય પદ્ધતિશાસ્ત્ર સાથે તેને અલગ સ્વતંત્ર અભ્યાસ તરીકે આગળ ધપાવી શકીએ છીએ.

સિંગલ-સોર્સ ડેટા મૂળ. પંદર કેસો એક જ ક્લિનિકલ રિપોઝિટરીમાંથી લેવામાં આવેલા અનામી વાસ્તવિક દર્દી રેકોર્ડ્સ છે. તેઓ ક્યુરેટેડ નમૂનો રજૂ કરે છે અને વસ્તી-પ્રતિનિધિ રેન્ડમ પસંદગી નથી. મૂલ્યાંકનને બહુ-કેન્દ્ર (multi-centre) ડેટા સુધી વિસ્તૃત કરવાનું રોડમેપ પર છે.

સૌથી વધુ અસરકારક આયોજન કરાયેલ વિસ્તરણ મલ્ટી-ભાષા સમાનતા (parity) છે. Kantesti AI Engine 75+ ભાષાઓમાં વપરાશકર્તાઓને સેવા આપે છે, અને તુર્કિશ, જર્મન, સ્પેનિશ, ફ્રેન્ચ અને અરબીમાં એ જ પંદર-કેસ હાર્નેસ ચલાવવાથી એન્જિન દ્વારા સમર્થિત ભાષાઓમાં આઉટપુટ ગુણવત્તા માપવામાં આવશે. અમે દરેક ભાષા-વિશિષ્ટ રન તેના પોતાના DOI અને હાર્નેસ બ્રાંચ સાથે પ્રકાશિત કરીશું.