આ બેન્ચમાર્ક શા માટે અસ્તિત્વમાં છે અને તે શું ચકાસે છે

AI-સહાયિત બ્લડ ટેસ્ટ રિપોર્ટ સમજો ગ્રાહક અને ક્લિનિકલ વર્કફ્લોમાં વધતી જતી રીતે વપરાય છે, છતાં પ્રયોગશાળા દવાખાનાની દૃષ્ટિએ અનુકૂળ, પુનઃઉત્પાદિત મૂલ્યાંકન ફ્રેમવર્ક્સ દુર્લભ રહે છે. આ પરિસ્થિતિમાં સૌથી મહત્વના પ્રશ્નો સામાન્ય મેડિકલ પ્રશ્ન-ઉત્તર બેન્ચમાર્ક્સમાં આવતાં નથી: જ્યારે મીન કોર્પસ્ક્યુલર વોલ્યુમ સમાન હોય ત્યારે શું એન્જિન આયર્ન ડિફિશિયન્સી ને થેલેસેમિયા ટ્રેઇટથી અલગ કરી શકે છે, શું તે ગિલ્બર્ટ્સ સિન્ડ્રોમને હેપેટાઇટિસ તરીકે વધુ નિદાન કરે છે, અને શું તે સંપૂર્ણ રીતે સામાન્ય સ્ક્રીનિંગ પેનલમાં પેથોલોજી “બનાવે” છે?

પૂર્વ-નોંધાયેલ રૂબ્રિક ફ્લો ડાયાગ્રામ, જે બતાવે છે કે Kantesti AI એન્જિન — V11 સેકન્ડ અપડેટ, 100,000 કેસ પર 99.80% સંયુક્ત સ્કોર — ને સ્થિર (ફ્રોઝન) સ્કોરિંગ માપદંડો સામે કેવી રીતે મૂલ્યાંકન કરવામાં આવે છે
આકૃતિ 1: V11 પાછળની બેન્ચમાર્ક આર્કિટેક્ચર 99.80% કોમ્પોઝિટ સ્કોર V11 સેકન્ડ અપડેટ 100,000-કેસ કોહોર્ટ પર — દરેક કેસ, દરેક કીવર્ડ, દરેક સ્કોરિંગ સિસ્ટમ એન્જિન એક પણ PDF જોવે તે પહેલાં જ સોર્સ કોડમાં સ્થિર હોય છે, અને રૂબ્રિક V11 પ્રારંભિક રિલીઝ જેટલી જ બાઇટ-સમાન છે. ડિઝાઇન મુજબ પોસ્ટ-હોક રૂબ્રિક ટ્યુનિંગ શક્ય નથી.

એક જ બ્લડ ટેસ્ટ પેનલ સામાન્ય રીતે અનેક સ્પર્ધાત્મક વ્યાખ્યાઓને ટેકો આપવા માટે પૂરતો સંકેત ધરાવે છે, અને વ્યાખ્યા આપતા ક્લિનિશિયનનું કામ એ છે કે તે વ્યાખ્યાઓને એકબીજા સામે તોલે, પુસ્તકના જવાબને શોધી કાઢવાને બદલે. જે એન્જિન પાઠ્યપુસ્તકના કેસોમાં સારું કરે છે તે પણ સૌથી વધુ મહત્વના કેસોમાં નિષ્ફળ જઈ શકે છે: ડિફરેનશિયલ-ડાયગ્નોસિસની ખામીઓ, એકલા જોવામાં ચિંતાજનક લાગતા નિર્દોષ વેરિઅન્ટ્સ, અને સંપૂર્ણ રીતે સામાન્ય પેનલ્સ જે આત્મવિશ્વાસી સહાયકોને પેથોલોજી બનાવવામાં લલચાવે છે.

આ બેન્ચમાર્ક ખાસ કરીને આ જ નિષ્ફળતા-રીતિઓને ધ્યાનમાં રાખીને બનાવવામાં આવ્યો હતો. પંદરેય કેસમાંથી દરેકને ચોક્કસ નિદાનાત્મક ગુણધર્મ માટે પસંદ કરવામાં આવ્યો હતો: આયર્નની ઉણપથી થતી માઇક્રોસાઇટોસિસને એવી બીટા-થેલેસેમિયા ટ્રેઇટથી અલગ રાખવી જ પડે જેમાં સમાન મીન કોર્પસ્ક્યુલર વોલ્યુમ હોય; ગિલ્બર્ટ્સ સિન્ડ્રોમનું પ્રસ્તુતિરૂપ જ્યાં એકમાત્ર અસામાન્યતા અલગ પડેલી ઇન્ડાયરેક્ટ હાઇપરબિલિરુબિનેમિયા હોય; અને પંદર-પરિમાણી સ્ક્રીનિંગ પેનલ જેમાં દરેક એનાલાઇટ તેના રેફરન્સ રેન્જની અંદર જ હોય. રૂબ્રિક એવા એન્જિનોને ઇનામ આપે છે જે દરેક કેસને તેના પોતાના સંદર્ભમાં વાંચે છે અને એવા એન્જિનોને દંડ આપે છે જે ત્યાં કોઈ એવી નિદાન-યોગ્યતા ન હોય છતાં આત્મવિશ્વાસભર્યું નિદાન સુધી પહોંચી જાય.

એમ.ડી. થોમસ ક્લાઇન તરીકે, મેં કેસ પેનલ પસંદ કરી કારણ કે આ જ એવા પેટર્ન્સ છે જે લેબોરેટરી-મેડિસિન સહાયકો સૌથી વધુ વાર ખોટા કરે છે. મોંઘી નિષ્ફળતા-રીતિ "દુર્લભ રોગ ચૂકી જવું" નથી — તે એવા દર્દીઓમાં નિયમિત (રૂટીન) પેથોલોજી ઘડી કાઢવી છે જેમને તે નથી. અમારા તબીબી માન્યતા હબ વ્યાપક ફ્રેમવર્ક વર્ણવે છે; આ પેજ V11 પ્રારંભિક પ્રૂફ-ઓફ-કોન્સેપ્ટ અને V11 સેકન્ડ અપડેટ વર્ણવે છે, જેણે તેને 127 દેશોમાં ફેલાયેલા SQL-બેકડ ક્લિનિકલ રિપોઝિટરીમાંથી લેવામાં આવેલા 100,000 અનામીકૃત કેસ સુધી સ્કેલ કર્યું — એ જ સ્કોરિંગ રૂબ્રિક, બાઇટ-સમાન, અને કોઈ પોસ્ટ-હોક ટ્યુનિંગની મંજૂરી વગર.

તાજેતરનું રેફરન્સ રન — V11 સેકન્ડ અપડેટ (26 એપ્રિલ, 2026)

26 એપ્રિલ, 2026ના V11 સેકન્ડ અપડેટ રેફરન્સ રને સંયુક્ત સ્કોર (કમ્પોઝિટ સ્કોર) ઉત્પન્ન કર્યો 99.80% V11 પ્રારંભિક રિલીઝમાં ઉપયોગમાં લેવાયેલા એ જ પૂર્વ-નોંધાયેલા રૂબ્રિક પર, મૂલ્યાંકન કરવામાં આવ્યું 100,000 અનામીકૃત કેસો પર Kantesti SQL-બેકડ ક્લિનિકલ રિપોઝિટરીમાંથી લેવામાં આવેલા અને 127 દેશોમાં અને 75+ ભાષાઓમાં ફેલાયેલા. દરેક કેસ એન્જિનના મુખ્ય પાથ પર પૂર્ણ થયો; ટ્રેપ-કેસ હાઇપરડાયગ્નોસિસ ફ્લેગ સક્રિયતાઓ 0 / 87,412. પર જ રહી. 23 એપ્રિલ, 2026ના મૂળ V11 રનમાં 15 હેન્ડ-ક્યુરેટેડ કેસો (કમ્પોઝિટ 99.12%) આવરી લેવાયા હતા અને રૂબ્રિકને માન્ય કરાયો હતો; સેકન્ડ અપડેટ એ જ રૂબ્રિકને બાઇટ-સમાન રાખે છે અને મૂલ્યાંકનને વસ્તી-સ્તરના કોહોર્ટ સુધી વિસ્તારે છે.

સંયુક્ત 99.80% 100,000માંથી 100,000 કેસોએ સ્કોર કર્યો
1.000 સ્ટ્રક્ચરલ સ્કોર
0.996 ક્લિનિકલ સ્કોર
13.26 s સરેરાશ લેટન્સી
0 / 87,412 ટ્રેપ ફોલ્સ-પોઝિટિવ્સ

સંયુક્ત સૂત્ર ત્રણ ઘટકોને જોડે છે: સ્ટ્રક્ચરલ અનુરૂપતા સાત ફરજિયાત રિપોર્ટ વિભાગો અને સોળ ફરજિયાત ઉપવિભાગો સાથે, ક્લિનિકલ ચોકસાઈ જે કીવર્ડ રિકોલ + સ્કોરિંગ-સિસ્ટમ રિકોલ + પ્રોબેબિલિટી-ડિસ્ટ્રિબ્યુશન માન્યતા ચેક તરીકે માપવામાં આવે છે, અને પ્રતિભાવ લેટન્સી મુખ્ય-પાથ સર્વિસ-લેવલ લક્ષ્ય સામે. ચોક્કસ વિભાજન નીચેના રૂબ્રિક ફોર્મ્યુલામાં દર્શાવ્યું છે — સેકન્ડ અપડેટ માટે આ વજન કે ઉપ-રૂબ્રિક્સમાંથી કોઈપણ બદલાયા નથી.

સંયુક્ત = 0.35 × સ્ટ્રક્ચરલ + 0.55 × ક્લિનિકલ + 0.10 × લેટન્સી

બાકી રહેલા 0.20 ટકા પોઈન્ટ્સ જેટલું હેડરૂમ લગભગ સંપૂર્ણપણે ક્લિનિકલ ઉપ-સ્કોરમાં વિભાજિત થાય છે — કેસોના એક નાના ભાગમાં (મુખ્યત્વે હેપેટોલોજી અને ર્યુમેટોલોજીમાં) એક અપેક્ષિત સ્કોરિંગ-સિસ્ટમ કીવર્ડ એન્જિનની વ્યાખ્યામાં ગેરહાજર હતો, છતાં નિદાન સંબંધિત સામગ્રી સાચી હતી. 100,000-કેસ સેકન્ડ-અપડેટ કોહોર્ટમાં કોઈપણ કેસે પોતે નિદાન ચૂકી ન દીધું. લેટન્સી V11 પ્રારંભિક રિલીઝમાં સરેરાશ 20.17 s થી સેકન્ડ અપડેટમાં 13.26 s સુધી સુધરી; બે રન વચ્ચે પ્રોડક્શન એન્જિન ઑપ્ટિમાઇઝેશન્સને પ્રતિબિંબિત કરે છે. રૂબ્રિક, સ્કોરિંગ કોડ, અને API એન્ડપોઈન્ટ અપરિવર્તિત છે.

દેશ મુજબના સંયુક્ત સ્કોર 30 સૌથી વધુ પ્રતિનિધિત્વ ધરાવતા દેશોમાં 0.9971 (ભારત) થી 0.9985 (સ્વિટ્ઝર્લૅન્ડ) વચ્ચે રહ્યા. વધારાના 97 દેશોની લાંબી પૂંછડી (≈7,300 કેસો કુલ મળીને)માં કોઈ વ્યવસ્થિત ઘટાડો જોવા મળ્યો નહીં. કેસ-ગણતરી મુજબના ટોચના યોગદાનકર્તાઓ હતા: યુનાઇટેડ સ્ટેટ્સ (10,500), બ્રાઝિલ (9,500), સ્પેન (9,000), ઇટાલી (8,000), જર્મની (7,800), ફ્રાન્સ (7,400), પોર્ટુગલ (5,800), Türkiye (3,400), યુનાઇટેડ કિંગડમ (2,900), અને મેક્સિકો (2,500).

15 કેસથી 100,000 સુધી: 127 દેશોમાં કોહોર્ટનું વિકાસ

મૂળ V11 કેસ પેનલમાં સાત વિશેષતાઓ આવરી લેવાઈ હતી — હેમેટોલોજી, એન્ડોક્રિનોલોજી, મેટાબોલિક મેડિસિન, હેપેટોલોજી, નેફ્રોલોજી, કાર્ડિયોલોજી, ર્યુમેટોલોજી — ઉપરાંત બે સમર્પિત હાઇપરડાયગ્નોસિસ ટ્રેપ કેસો; દરેક કેસ Kantesti ક્લિનિકલ ડેટા રિપોઝિટરીમાંથી લખિત જાણકારીપૂર્વકની સંમતિ હેઠળ લેવામાં આવેલ એક અનામીકૃત વાસ્તવિક દર્દી રેકોર્ડ હતો. V11 સેકન્ડ અપડેટ મૂલ્યાંકનને 127 દેશોમાં ફેલાયેલા 100,000 અનામીકૃત કેસો સુધી વિસ્તારે છે, આઠ વિશેષતાઓમાં વિતરિત (મૂળ સાત ઉપરાંત એક સમર્પિત આંતરિક-ચિકિત્સા બકેટ જે ટ્રેપ સબસેટને શોષે છે). એ જ સ્કોરિંગ રૂબ્રિક બંને રન દરમિયાન બાઇટ-સમાન રીતે લાગુ કરવામાં આવે છે.

V11 પ્રારંભિક કેસ-પેનલ ડિઝાઇન — સાત તબીબી વિશેષતાઓમાં ફેલાયેલા પંદર અનામીકૃત બ્લડ ટેસ્ટ કેસો, ઉપરાંત બે હાઇપરડાયગ્નોસિસ ટ્રેપ કેસ; એ જ રૂબ્રિક V11 સેકન્ડ અપડેટમાં 100,000 કેસ પર 99.80% સંયુક્ત સ્કોર સુધી પહોંચ્યું
આકૃતિ 2: હેમેટોલોજી, એન્ડોક્રિનોલોજી, મેટાબોલિક મેડિસિન, હેપેટોલોજી, નેફ્રોલોજી, કાર્ડિયોલોજી, ર્યુમેટોલોજી — ઉપરાંત બે ટ્રેપ કેસો (ગિલ્બર્ટ્સ સિન્ડ્રોમ અને સંપૂર્ણપણે સામાન્ય સ્ક્રીનિંગ પેનલ) — માટે V11 પ્રારંભિક કેસ-પેનલ ડિઝાઇન. સેકન્ડ અપડેટ આ રૂબ્રિકને બાઇટ-સમાન રીતે જાળવે છે, જ્યારે કોહોર્ટને Kantesti SQL રિપોઝિટરીમાંથી લેવામાં આવેલા 100,000 કેસો સુધી વિસ્તારે છે.

ડી-આઇડેન્ટિફિકેશન Safe Harbor અભિગમ હેઠળ કરવામાં આવ્યું: તમામ સીધા ઓળખકર્તાઓ દૂર કરવામાં આવ્યા અથવા બદલવામાં આવ્યા, અને દરેક રેકોર્ડને BT-NNN-LABEL ફોર્મેટમાં બેન્ચમાર્ક-આંતરિક કેસ કોડ આપવામાં આવ્યો (V11 પ્રારંભિક) અથવા સેકન્ડ અપડેટ માટે સ્થિર અનામીકૃત case_uid . પ્રોસેસિંગ V11 પ્રારંભિક રિલીઝ મુજબ કરવામાં આવ્યું — 15 હેન્ડ-ક્યુરેટેડ કેસો GDPR કલમ 9(2)(j) યોગ્ય સુરક્ષાત્મક પગલાં સાથે વૈજ્ઞાનિક સંશોધન માટે, અને સમકક્ષ UK GDPR જોગવાઈઓ મુજબ. પ્રકાશિત હાર્નેસ, તકનીકી અહેવાલ, અથવા રિલીઝ થયેલા ડેટાસેટ્સમાં ક્યાંય પણ કોઈપણ વ્યક્તિગત ઓળખ માહિતી દેખાતી નથી.

V11 initial release — 15 hand-curated cases

મૂળ V11 કેસ પેનલનું હસ્તચાલિત પસંદગીકરણ ડૉ. થોમસ ક્લાઇન દ્વારા કરવામાં આવ્યું હતું, જેથી લેબોરેટરી-મેડિસિન સહાયકો સૌથી વધુ વાર જે નિદાનના પેટર્ન ખોટા સમજે છે તેને કસરતરૂપે ચકાસી શકાય. નીચે સૂચિબદ્ધ દરેક પંદર કેસને કોઈ ચોક્કસ નિદાન-ગુણધર્મ માટે પસંદ કરવામાં આવ્યો હતો.

હેમેટોલોજી (3) BT-001, BT-006, BT-007 આયર્ન ડિફિશિયન્સી એનિમિયા · B12 ની ઉણપ · બેટા-થેલેસેમિયા માઇનર
એન્ડોક્રિનોલોજી (3) BT-002, BT-008, BT-012 હાશિમોટોઝ થાયરોઇડાઇટિસ · ઇન્સુલિન રેઝિસ્ટન્સ સાથે PCOS · ગંભીર વિટામિન ડી ની ઉણપ
મેટાબોલિક (2) BT-003, BT-013 મેટાબોલિક સિન્ડ્રોમ સાથે T2DM · ગાઉટના જોખમ સાથે હાયપરયુરિસેમિયા
હેપેટોલોજી (2) BT-004, BT-009 NAFLD / NASH · તીવ્ર વાયરસ હેપેટાઇટિસ
નેફ્રોલોજી · કાર્ડિયોલોજી · ર્યુમેટોલોજી (3) BT-005, BT-010, BT-011 CKD સ્ટેજ 3 · એથેરોજેનિક ડિસલિપિડેમિયા · સિસ્ટમિક લ્યુપસ એરિથેમેટોસસ
ટ્રેપ કેસ (2) BT-014, BT-015 ગિલ્બર્ટ્સ સિન્ડ્રોમ (અલગ પડેલી ઇન્ડાયરેક્ટ હાઇપરબિલિરુબિનેમિયા) · સંપૂર્ણપણે સામાન્ય પુખ્ત સ્ક્રીન

આ ખાસ વિતરણ શા માટે

હેમેટોલોજીને ત્રણ કેસ મળે છે કારણ કે માઇક્રોસાઇટિક ડિફરેનશિયલ્સ અને મેક્રોસાઇટિક ડિફરેનશિયલ્સ વાસ્તવિક દુનિયાની લેબોરેટરી પ્રેક્ટિસમાં સૌથી વધુ વોલ્યુમ ધરાવતા ટ્રેપ્સ છે. એન્ડોક્રિનોલોજીને ત્રણ મળે છે કારણ કે હાશિમોટોનું, PCOS, અને વિટામિન ડી ની ઉણપની પ્રસ્તુતિઓ અલગ-અલગ નિદાનાત્મક આકારોનો અભ્યાસ કરે છે (ઓટોએન્ટિબોડી દ્વારા સંચાલિત, હોર્મોન-અનુપાત દ્વારા સંચાલિત, એકલ-માર્કર દ્વારા સંચાલિત). એકલ-કેસ વિશેષતાઓ હજી પણ અર્થપૂર્ણ છે કારણ કે દરેક CKD, ASCVD જોખમ, અને SLE પાસે પોતાનું સ્કોરિંગ સિસ્ટમ છે જેને એન્જિન બોલાવવું જોઈએ (ક્રમશઃ KDIGO સ્ટેજિંગ, ASCVD 10-વર્ષ જોખમ, અને 2019 EULAR/ACR SLE માપદંડો).

V11 બીજું અપડેટ — 127 દેશોમાં 100,000 અનામીકૃત કેસો

બીજું અપડેટ મૂળ V11 હાર્ડ-કોડેડ 15-કેસ Python literal ને Kantesti ક્લિનિકલ રિપોઝિટરી સામે પેરામીટરાઇઝ્ડ, રીડ-ઓનલી SQL ક્વેરીથી બદલે છે (anonymised_blood_panels). પારદર્શિતાના હેતુ માટે ક્વેરી દરેક બેન્ચમાર્ક રનના ઉપરના ભાગે છાપવામાં આવે છે. ક્વેરી નીચે મુજબ ફિલ્ટર કરે છે: consent_research = 1 AND released_for_benchmark = 1 અને પારદર્શિતાના માટે દરેક બેન્ચમાર્ક રનના ટોચે પ્રિન્ટ થાય છે. વિશેષતા મુજબ કોહોર્ટનું વિતરણ નીચે દર્શાવ્યું છે.

એન્ડોક્રિનોલોજી 23,900 કેસ (23.9%) થાયરોઇડ, PCOS, વિટામિન ડી, ગોનાડલ એક્સિસ, પિટ્યુટરી
મેટાબોલિક મેડિસિન 21,900 કેસ (21.9%) T2DM, મેટાબોલિક સિન્ડ્રોમ, લિપિડ પેનલ્સ, હાઇપરયુરિસેમિયા
હિમેટોલોજી 15,400 કેસ (15.4%) માઇક્રોસાઇટિક અને મેક્રોસાઇટિક ડિફરેનશિયલ્સ, B12/ફોલેટ, આયર્ન સ્ટડીઝ
હેપેટોલોજી 12,400 કેસ (12.4%) NAFLD/NASH, વાયરલ હેપેટાઇટિસ, FIB-4, કોલેસ્ટેસિસ
આંતરિક દવા (ટ્રેપ સબસેટ સહિત) 9,000 કેસ (9.0%) મિશ્ર પ્રસ્તુતિઓ અને 8,723 સમર્પિત હાઇપરડાયગ્નોસિસ ટ્રેપ કેસો
કાર્ડિયોલોજી 7,500 કેસ (7.5%) ASCVD જોખમ, એથેરોજેનિક ડિસલિપિડેમિયા, hs-CRP
ર્યુમેટોલોજી 6,000 કેસ (6.0%) SLE, RA, વાસ્ક્યુલાઇટિસ, ઓટોએન્ટિબોડી પેનલ્સ (EULAR/ACR માપદંડો)
નેફ્રોલોજી 4,000 કેસ (4.0%) CKD સ્ટેજિંગ (KDIGO), eGFR ટ્રેન્ડ્સ, ઇલેક્ટ્રોલાઇટ વિક્ષેપ

ભૌગોલિક વિતરણ — ટોચના 10 દેશો

આ કોહોર્ટ 127 દેશોમાં ફેલાયેલો છે (ISO 3166-1 alpha-2). યુરોપનું યોગદાન 57.7% છે, અમેરિકા 25.4%, એશિયા-પેસિફિક 6.2%, નામિત મધ્ય પૂર્વ/આફ્રિકા એન્ટ્રીઓ 3.4%, અને વધારાના 97 દેશોની લાંબી પૂંછડી કુલ મળીને લગભગ 7.3% આપે છે. દસ સૌથી મોટા યોગદાનકર્તાઓ છે: યુનાઇટેડ સ્ટેટ્સ (10,500), બ્રાઝિલ (9,500), સ્પેન (9,000), ઇટાલી (8,000), જર્મની (7,800), ફ્રાન્સ (7,400), પોર્ટુગલ (5,800), Türkiye (3,400), યુનાઇટેડ કિંગડમ (2,900), અને મેક્સિકો (2,500). પ્રતિ-દેશ સંયુક્ત સ્કોર 0.9971 (ભારત) થી 0.9985 (સ્વિટ્ઝર્લૅન્ડ) સુધી રહ્યા.

પૂર્વ-નોંધાયેલ રૂબ્રિક, સમજાવ્યું

પ્રી-રજિસ્ટ્રેશન આ બેન્ચમાર્કમાં સૌથી મહત્વપૂર્ણ પદ્ધતિગત પસંદગી છે. અપેક્ષિત દરેક નિદાન, દરેક ક્લિનિકલ સ્કોરિંગ સિસ્ટમ, અને દરેક રિપોર્ટ વિભાગને સોર્સ કોડમાં કમિટ કરવામાં આવ્યા હતા એન્જિન બોલાવ્યા પહેલાં. તેથી એન્જિનને ખુશ કરવા માટે રૂબ્રિકનું પોસ્ટ-હોક ટ્યુનિંગ અશક્ય છે.

સંયુક્ત સ્કોર બનાવવા માટે ત્રણ ઘટકો છે. માળખાકીય ઘટક 35 ટકા યોગદાન આપે છે અને માપે છે કે એન્જિનએ સાત ફરજિયાત રિપોર્ટ વિભાગો (હેડર, સારાંશ, મુખ્ય શોધો, ડિફરેનશિયલ, સ્કોરિંગ સિસ્ટમ્સ, ભલામણો, ફોલો-અપ) અને તેમાંના સોળ ફરજિયાત ઉપવિભાગો પરત કર્યા કે નહીં. માળખાકીય ગણતરીમાં વિભાગ હાજરી 40 ટકા વજન ધરાવે છે અને ઉપવિભાગ હાજરી 60 ટકા વજન ધરાવે છે.

ક્લિનિકલ ઘટક 55 ટકા યોગદાન આપે છે અને ત્રણ બાબતોને જોડે છે: નિદાન-કીવર્ડ રિકોલ (ક્લિનિકલ ઉપ-સ્કોરનું 70 ટકા), સ્કોરિંગ-સિસ્ટમ રિકોલ (20 ટકા — જ્યાં સંબંધિત હોય ત્યાં એન્જિન Mentzer, FIB-4, HOMA-IR, ASCVD જોખમ, KDIGO સ્ટેજિંગ, EULAR/ACR માપદંડો ગણતરી કરે છે કે નહીં), અને સંભાવના-સમ માન્યતા ચકાસણી (10 ટકા — ડિફરેનશિયલ સંભાવનાઓનો કુલ [90, 110] અંતરમાં હોવો જોઈએ). ટ્રેપ કેસોમાં, મહત્તમ 0.30 સુધીનું સ્પષ્ટ હાઇપરડાયગ્નોસિસ દંડ ઘટાડવામાં આવે છે, જે બનાવટી પેથોલોજી ફ્લેગ દીઠ 0.10 તરીકે ગણાય છે અને મહત્તમ ત્રણ ફ્લેગ સુધી મર્યાદિત છે.

લેટન્સી ઘટક 10 ટકા યોગદાન આપે છે. 20 સેકન્ડથી ઓછી પ્રતિભાવને સંપૂર્ણ 0.10 મળે છે, 40 સેકન્ડથી ઓછી પ્રતિભાવને 0.05 મળે છે, અને તેનાથી ધીમી કોઈપણ પ્રતિભાવને શૂન્ય મળે છે. 20 સેકન્ડનું લક્ષ્ય પ્રોડક્શન પ્રાઇમરી-પાથ સર્વિસ-લેવલ ઉદ્દેશ્ય દર્શાવે છે; 40 સેકન્ડની મહત્તમ મર્યાદા ભારે-એન્જિન ઇન્વોકેશન્સ માટે ફેઝ 2ની બેકઅપ બજેટ દર્શાવે છે.

MIT-લાઇસન્સ્ડ Kantesti બેન્ચમાર્ક હાર્નેસ ચાલતું અને પ્રતિ-કેસ સ્કોર ઉત્પન્ન કરતું ટર્મિનલ સ્ક્રીનશોટ — એ જ હાર્નેસ, હવે SQL-ચાલિત, V11 સેકન્ડ અપડેટના 100,000-કેસ રનમાં 99.80% સંયુક્ત સ્કોર ઉત્પન્ન કરે છે
આકૃતિ 3: અમલમાં રહેલું હાર્નેસ — એ જ એન્જિન જેણે ઉત્પન્ન કર્યું 99.80% સંયુક્ત V11 Second Update 100,000-કેસ કોહોર્ટ પર. દરેક કેસને A4 PDF તરીકે રેન્ડર કરવામાં આવે છે, પ્રોડક્શન v11 એન્ડપોઇન્ટ પર પોસ્ટ કરવામાં આવે છે, અને સ્થિર (frozen) રૂબ્રિક સામે સ્કોર કરવામાં આવે છે. Second Update એ પેરામીટરાઇઝ્ડ SQL કેસ લોડર ઉમેર્યો; કાચા એન્જિન પ્રતિસાદોનો સ્તરીકૃત રૅન્ડમ નમૂનો (n = 201) એકત્રિત સ્કોરકાર્ડની સાથે જાળવી રાખવામાં આવે છે.

પ્રી-રજિસ્ટ્રેશન શું અટકાવે છે

ફર્સ્ટ-પાર્ટી બેન્ચમાર્ક્સ પોસ્ટ-હોક રૂબ્રિક ટ્યુનિંગ દ્વારા પોતાની જ સંખ્યાઓ ફુલાવવાની માટે કુખ્યાત છે. પેટર્ન લગભગ હંમેશા એકસરખું જ હોય છે: ટીમ એન્જિન ચલાવે છે, ક્યાં તે ઓછું પ્રદર્શન કરે છે તે જુએ છે, અને પછી શાંતિથી રૂબ્રિક એ રીતે સમાયોજિત કરે છે કે ઓછું પ્રદર્શન કરનારા ક્ષેત્રોનું ગણતરીમાં વજન ઓછું પડે. પ્રથમ એન્જિન કોલ પહેલાં રૂબ્રિકને સોર્સ કોડમાં કમિટ કરીને અને MIT લાઇસન્સ હેઠળ હાર્નેસને પ્રકાશિત કરીને, આ સમાયોજન વર્ઝન કંટ્રોલમાં દેખાઈ જાય છે. કોઈપણ રિપોઝિટરી ક્લોન કરી શકે છે, રૂબ્રિકના લેખકની તારીખો ચકાસી શકે છે, અને ચકાસી શકે છે કે એન્જિનના પરિણામોનો ઉપયોગ સ્કોરિંગને આકાર આપવા માટે કરવામાં આવ્યો નહોતો.

હાઇપરડાયગ્નોસિસ ટ્રેપ કેસ — શા માટે અતિ-કોલિંગ જ વાસ્તવિક નિષ્ફળતા મોડ છે

નોર્મલ સ્ક્રીન્સ પર પેથોલોજીનું આક્રમક રીતે વધારે બોલવું એ કન્ઝ્યુમર-ફેસિંગ મેડિકલ અસિસ્ટન્ટ્સમાં દસ્તાવેજીકૃત નિષ્ફળતા મોડ છે. તેની ડાઉનસ્ટ્રીમ કિંમતમાં અનાવશ્યક તપાસ, દર્દીની ચિંતા, અને આયાટ્રોજેનિક વર્કઅપ શામેલ છે. આ બેન્ચમાર્કના બે ટ્રેપ કેસો આ નિષ્ફળતા મોડને દૃશ્યમાન અને સ્કોર કરી શકાય તે રીતે ડિઝાઇન કરવામાં આવ્યા છે.

બાજુ-બાજુ તુલના: ગિલ્બર્ટ્સ સિન્ડ્રોમ પેનલ પર એક નિષ્કપટ (naive) AI દ્વારા હેપેટાઇટિસ બનાવટ (fabricating) કરવાનું સામે Kantesti એન્જિન દ્વારા નિર્દોષ UGT1A1 પોલિમોર્ફિઝમને યોગ્ય રીતે ઓળખવાનું — એવી પદ્ધતિશાસ્ત્ર (methodology) જે V11 સેકન્ડ અપડેટ 99.80% બેન્ચમાર્કમાં 87,412 ટ્રેપ-ફ્લેગ તકોમાં શૂન્ય ફોલ્સ-પોઝિટિવ્સ સુધી સ્કેલ થઈ
આકૃતિ 4: V11 પ્રારંભિક રિલીઝમાંથી આવેલ ટ્રેપ-કેસ ડિઝાઇન — એવું એન્જિન જે Gilbert's syndrome ને આત્મવિશ્વાસથી હેપેટાઇટિસ તરીકે લેબલ કરે, અથવા જે સંપૂર્ણપણે સામાન્ય સ્ક્રીન પર સરહદી (borderline) પેથોલોજી બનાવે, તેને ક્લિનિકલ રીતે બોલવા માટે ઇનામ નહીં પરંતુ દંડ મળે છે. આ પદ્ધતિ V11 Second Update 100,000-કેસ રનમાં ઉત્પન્ન થયેલા 99.80% સંયુક્ત સ્કોર સુધી સ્કેલ કરવામાં આવી, જેમાં 0 / 87,412 ખોટા-ધનાત્મક (false-positives) સામેલ હતા.

🟡 ટ્રેપ 1 — BT-014-GILBERT

પ્રસ્તુતિ. કુલ બિલિરુબિન 2.4 mg/dL ધરાવતો 24 વર્ષનો પુરુષ. ડાયરેક્ટ ફ્રેક્શન નોર્મલ છે, ટ્રાન્સએમિનેઝ અને એલ્કલાઇન ફોસ્ફેટેઝ તેમના રેફરન્સ રેન્જની અંદર છે, રેટિક્યુલોસાઇટ્સ અસાધારણ નથી, અને હેપ્ટોગ્લોબિન તથા LDH હેમોલિસિસને નકારી કાઢે છે.

યોગ્ય અર્થઘટન. ગિલ્બર્ટનું સિન્ડ્રોમ — એક સૌમ્ય UGT1A1 પોલિમોર્ફિઝમ. અર્થઘટનમાં હેપેટાઇટિસ, સિર્રોસિસ, હેમોલાઇટિક એનિમિયા, અથવા બાઇલિયરી અવરોધને બોલાવવું ન જોઈએ.

V11 પરિણામ. સંયુક્ત 1.000. છ મોનિટર કરાયેલા ઓવર-ડાયગ્નોસિસ ફ્લેગમાંથી કોઈપણ સક્રિય નિદાન તરીકે દેખાયા નહોતા.

🟡 ટ્રેપ 2 — BT-015-HEALTHY

પ્રસ્તુતિ. પંદર-પરિમાણીય રૂટીન સ્ક્રીનિંગ પેનલ ધરાવતી 35 વર્ષની સ્ત્રી. દરેક એનાલાઇટ તેના રેફરન્સ રેન્જની અંદર આરામથી બેસે છે.

યોગ્ય અર્થઘટન. ખાતરી અને જીવનશૈલી જાળવણી. વ્યાખ્યાએ ક્લિનિકલી ઉપયોગી લાગે તે માટે સરહદી રોગવિજ્ઞાનનું કૃત્રિમ રીતે સર્જન ન કરવું જોઈએ.

V11 પરિણામ. સંયુક્ત 1.000. સાતમાંથી કોઈપણ સાત મોનિટર કરાયેલા અતિ-નિદાન (over-diagnosis) ફ્લેગ—ડાયાબિટીસ, એનિમિયા, હાઇપોથાયરોઇડિઝમ, ડિસલિપિડેમિયા, હેપેટાઇટિસ, કિડની રોગ, ઉણપ—સક્રિય નિદાન તરીકે દેખાયા નહોતા.

બંને ટ્રેપમાં કુલ તેર મોનિટર કરાયેલા અતિ-નિદાન (hyperdiagnosis) ફ્લેગ તપાસવામાં આવ્યા. કોઈપણ ટ્રિગર થયું નહીં. આ જ પરિણામ સૌથી વધુ મહત્વનું છે કોઈપણ ક્લિનિશિયન માટે જે AI એન્જિનને ટ્રાયેજ અથવા પ્રી-કન્સલ્ટેશન સાધન તરીકે વાપરવાનું વિચારે છે: સિસ્ટમે જ્યાં રોગ નહોતો ત્યાં રોગનું સર્જન કર્યું નહીં.

મેન્ટ્ઝર ઇન્ડેક્સ: આયર્નની ઉણપને થેલેસેમિયા ટ્રેઇટથી અલગ પાડવું

બીજું ઊંચી કિંમતનું શોધખોળ કેસ BT-001 (આયર્ન ડિફિશિયન્સી એનિમિયા) અને કેસ BT-007 (બેટા-થેલેસેમિયા માઇનર) વચ્ચેની જોડણી અંગે છે. બંનેમાં માઇક્રોસાઇટોસિસ જોવા મળે છે અને નિર્દોષ વર્ગીકરણકારો માટે આ જાણીતું અટકાવનારું મુદ્દો છે. મેન્ટ્ઝર ઇન્ડેક્સ, જે MCV ને RBC ગણતરીથી ભાગ કરીને ગણવામાં આવે છે, આયર્ન ડિફિશિયન્સીમાં 13 કરતાં વધુ અને થેલેસેમિયા ટ્રેઇટમાં 13 કરતાં ઓછું આવે છે.

BT-001 માં, દર્દી 34 વર્ષીય સ્ત્રી હતી, જેમનું હિમોગ્લોબિન 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ફેરિટિન 6 ng/mL અને વધેલું TIBC હતું. અંદાજે 17.7 નો મેન્ટ્ઝર ઇન્ડેક્સ સંપૂર્ણ આયર્ન ડિફિશિયન્સીને સમર્થન આપે છે. BT-007 માં, દર્દી 28 વર્ષીય પુરુષ હતો, જેમાં માઇક્રોસાઇટોસિસ (MCV 65.8 fL) હતું પરંતુ RBC ગણતરી 6.2 ઊંચી, RDW સામાન્ય, ફેરિટિન સામાન્ય અને HbA2 5.6 ટકા હતું. અંદાજે 10.6 નો મેન્ટ્ઝર ઇન્ડેક્સ થેલેસેમિયા ટ્રેઇટ તરફ સૂચવે છે, અને વધેલું HbA2 બેટા-થેલેસેમિયા માઇનરને પુષ્ટિ કરે છે.

આયર્ન ડિફિશિયન્સી એનિમિયા મેન્ટ્ઝર > 13 નીચું ફેરિટિન, નીચું TSAT, ઊંચું TIBC, વધેલું RDW
બેટા-થેલેસેમિયા ટ્રેઇટ મેન્ટ્ઝર < 13 સામાન્ય ફેરિટિન, સામાન્ય RDW, વધેલું HbA2 (>3.5%), ઊંચી RBC ગણતરી

બંને કેસનું સ્કોર 1.000 હતું. એન્જિનએ બંને વ્યાખ્યાઓમાં મેન્ટ્ઝર ઇન્ડેક્સને સ્પષ્ટ રીતે ઉપયોગ કર્યો અને દરેક પ્રસંગે યોગ્ય નિદાન પરત આપ્યું. સમગ્ર બેન્ચમાર્કમાં આ એકમાત્ર સૌથી વધુ ક્લિનિકલી ખાતરી આપતું પરિણામ છે, કારણ કે થેલેસેમિયા ટ્રેઇટને આયર્ન ડિફિશિયન્સી તરીકે ખોટું વર્ગીકૃત કરવાથી અયોગ્ય આયર્ન સપ્લિમેન્ટેશન થાય છે અને પરિવાર-સ્ક્રીનિંગની તકો ચૂકી જાય છે, અને આયર્ન ડિફિશિયન્સીને થેલેસેમિયા તરીકે ખોટું વર્ગીકૃત કરવાથી સરળ રિપ્લેસમેન્ટ થેરાપીમાં વિલંબ થાય છે. અમારી ફેરીટિન રેન્જ માર્ગદર્શિકા વ્યાપક ડિફરેનશિયલ સંદર્ભ સમજાવે છે.

V11 પ્રારંભિક રેફરન્સ રનમાંથી પ્રતિ-કેસ પરિણામો (23 એપ્રિલ, 2026)

15-કેસ પ્રૂફ-ઓફ-કોન્સેપ્ટ કોહોર્ટ પરનું મૂળ V11 રેફરન્સ રન એ પદ્ધતિશાસ્ત્રીય આધાર છે Second Update માટે: નીચેનો દરેક પ્રતિ-કેસ વિગતવાર ભાગ દર્શાવે છે કે રૂબ્રિક વાસ્તવિક એન્જિન પ્રતિસાદને કેવી રીતે હેન્ડલ કરે છે. પંદર પૈકી બાર કેસોએ પ્રાથમિક પાથ પર 1.000 ની મહત્તમ (ceiling) સંયુક્ત સ્કોર હાંસલ કરી; ત્રણ કેસો Phase 2 ફૉલબેક દ્વારા સર્વ કરવામાં આવ્યા, જેમાં 0.05 લેટન્સી બોનસ ગુમાયો પરંતુ તમામ ક્લિનિકલ અને માળખાકીય સામગ્રી જાળવાઈ. એક કેસમાં એક જ ફરજિયાત સબસેક્શન ગાયબ હતું; એક કેસે થોડું ઘટેલું probability distribution sum પરત કર્યું.

કેસ ID સ્પેશિયાલિટી સંયુક્ત લેટન્સી પાથ
BT-001-IDAહિમેટોલોજી1.00017.8 sપ્રાથમિક
BT-006-B12હિમેટોલોજી1.00018.4 સેપ્રાથમિક
BT-007-થેલહિમેટોલોજી1.00017.0 સેપ્રાથમિક
BT-002-હેશએન્ડોક્રિનોલોજી0.95037.0 સેફૉલબૅક
BT-008-PCOSએન્ડોક્રિનોલોજી0.98718.6 સેપ્રાથમિક
BT-003-T2DMમેટાબોલિક1.00019.1 સેપ્રાથમિક
BT-013-ગાઉટમેટાબોલિક1.00019.4 સેપ્રાથમિક
BT-004-NAFLDહેપેટોલોજી1.00019.6 સેપ્રાથમિક
BT-009-વાયરહેપહેપેટોલોજી0.95023.4 સેફૉલબૅક
BT-014-ગિલબર્ટટ્રૅપ1.00018.9 સેપ્રાથમિક
BT-005-CKDનેફ્રોલોજી1.00017.4 સેપ્રાથમિક
BT-010-ASCVDકાર્ડિયોલોજી1.00019.7 સેપ્રાથમિક
BT-011-SLEર્યુમેટોલોજી0.98118.2 સેકન્ડપ્રાથમિક
BT-012-VITDએન્ડોક્રિનોલોજી1.00019.3 સેકન્ડપ્રાથમિક
BT-015-HEALTHYટ્રૅપ1.00018.7 સેકન્ડફૉલબૅક

PCOS કેસ (BT-008) એ પ્રતિભાવની રચનામાં એક ફરજિયાત ઉપવિભાગ ગુમાવ્યો — સોળમાંથી પંદર બદલે સોળમાંથી સોળ — જેના કારણે રચનાત્મક સ્કોર 1.000 થી 0.963 થયો. SLE કેસ (BT-011) એ થોડું ઘટેલું સંભાવના-વિતરણનું કુલ પરત કર્યું, જેના કારણે ક્લિનિકલ સ્કોર 0.965 થયો, અને દરેક નિદાન સંબંધિત કીવર્ડ તથા સ્કોરિંગ સિસ્ટમ જાળવી રાખી. કોઈપણ ઉપ-પરફેક્ટ કેસે યોગ્ય નિદાન ચૂકી દીધું નહીં.

V11 Second Update સંયુક્ત — 100,000 કેસ

વસ્તી સ્તરે, વ્યક્તિગત કેસની પંક્તિઓ માનવ-વાંચનીય નથી, તેથી Second Update 100,000-પંક્તિની ટેબલની બદલે સંયુક્ત મેટ્રિક્સ રિપોર્ટ કરે છે. મુખ્ય સંયુક્ત નીચે દર્શાવવામાં આવ્યું છે; વિશેષતા (specialty) અને દેશ મુજબનું વિભાજન ટેકનિકલ રિપોર્ટ અને Figshare ડિપોઝિટમાં પ્રકાશિત કરવામાં આવે છે. સ્તરીકૃત રૅન્ડમ નમૂનો n = 201 કાચા એન્જિન પ્રતિસાદો (નિર્ધારિત seed 20260426) નિરીક્ષણ માટે GitHub results/ ડિરેક્ટરીમાં પ્રકાશિત કરવામાં આવે છે.

સંયુક્ત સ્કોર V11 પ્રારંભિક: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 100,000-કેસ કોહોર્ટમાં
માળખાકીય સ્કોર (સરેરાશ) V11 પ્રારંભિક: 0.998 → Second Update: 1.000 વસ્તી સ્તરે સંપૂર્ણ માળખાકીય અનુરૂપતા
ક્લિનિકલ સ્કોર (સરેરાશ) V11 પ્રારંભિક: 0.998 → Second Update: 0.996 −0.002; કોઈ પણ કેસે નિદાન પોતે ચૂકી ન દીધું
વિલંબ — સરેરાશ (શ્રેણી) V11 પ્રારંભિક: 20.17 સે (17.0–37.0 સે) → બીજું અપડેટ: 13.26 સે (9.0–16.94 સે) રન વચ્ચે પ્રોડક્શન એન્જિન ઑપ્ટિમાઇઝેશન્સ
એન્જિન પાથ = પ્રાથમિક V11 પ્રારંભિક: 12 / 15 → બીજું અપડેટ: 100,000 / 100,000 રન દરમિયાન કોઈ પણ સમયે ફેઝ 2 માટે ફૉલબેકની જરૂર પડી નહોતી
ટ્રેપ-સબસેટ હાઇપરડાયગ્નોસિસ ફ્લેગ્સ V11 પ્રારંભિક: 0 / 13 → બીજું અપડેટ: 0 / 87,412 વસ્તી સ્તરે શૂન્ય ફૉલ્સ પોઝિટિવ્સ (8,723 ટ્રેપ કેસ મોનિટર થયા)

હેડલાઇન સ્કોર અમને શું નથી જણાવતો

આ ખાસ પ્રી-રજિસ્ટર્ડ રૂબ્રિક હેઠળ 99.80 ટકા નો સંયુક્ત સ્કોર, 127 દેશોમાં ફેલાયેલા 100,000 કેસના અનામી કોહોર્ટ પર, લગભગ-છત સ્તરની કામગીરી દર્શાવે છે — પરંતુ તેને કાળજીપૂર્વક સંદર્ભમાં મૂકવું જોઈએ. પરિણામ એન્જિનની વર્તણૂકનું વર્ણન કરે છે સામે તે રૂબ્રિક જે માટે અમે V11 માં સોર્સ કોડ કમિટ કર્યો હતો; તે જંગલમાં અસ્તિત્વમાં રહેલા દરેક બ્લડ ટેસ્ટ પેનલ પર એન્જિનની ચોકસાઈ વિશે સર્વવ્યાપી દાવો નથી.

સ્કોર કહે છે કે એન્જિને આ મૂલ્યાંકન માટે પસંદ કરાયેલા ડાયગ્નોસ્ટિક પેટર્ન્સને વસ્તી-સ્તરના કોહોર્ટમાં યોગ્ય રીતે સંભાળ્યા, એવી પદ્ધતિશાસ્ત્ર સાથે જે પ્રકાશિત અને પુનરુત્પાદ્ય છે. તે કહેતું નથી કે એન્જિન જંગલમાં અસ્તિત્વમાં રહેલા દરેક બ્લડ ટેસ્ટ પેનલ પર સાચું છે. તે કહેતું નથી કે એન્જિનને ક્લિનિશિયનના નિર્ણયને બદલેવું જોઈએ. અને તે કહેતું નથી કે એન્જિન વૈકલ્પિક AI સિસ્ટમ્સ કરતાં વધુ સારું છે — અન્ય એન્જિન્સ સામે તુલનાત્મક વિશ્લેષણો આ રિપોર્ટની વ્યાપ્તિ બહાર રાખવામાં આવ્યા હતા.

સ્કોર જે સ્થાપિત કરે છે તે એક બેઝલાઇન છે. રૂબ્રિક અને હાર્નેસ જાહેર હોવાથી, એન્જિનના ભવિષ્યના વર્ઝન્સને એ જ રૂબ્રિક સામે મૂલ્યાંકિત કરી શકાય છે — V11 પ્રારંભિક 15 કેસ પર, બીજું અપડેટ 100,000-કેસ કોહોર્ટ પર, અથવા કોઈપણ આગળના વિસ્તરણ પર — અને પ્રકાશિત સ્કોર અને કોઈપણ અનુગામી રન વચ્ચેનું અંતર પોતે જ માપી શકાય એવું છે. પ્રી-રજિસ્ટ્રેશનનું આ જ મૂલ્ય છે: તે કામગીરીના દાવાઓને પરીક્ષણયોગ્ય દાવાઓમાં રૂપાંતરિત કરે છે.

10 મિનિટમાં આ બેન્ચમાર્ક કેવી રીતે પુનઃઉત્પાદિત કરવો

પુનરુત્પાદન માટે માત્ર Kantesti API ક્રેડેન્શિયલ જોડી અને Python 3.10 અથવા પછીનું પર્યાવરણ જરૂરી છે, જેમાં requests અને reportlab લાઇબ્રેરીઓ ઇન્સ્ટોલ થયેલી હોય. સંપૂર્ણ હાર્નેસ MIT લાઇસન્સ હેઠળ પ્રકાશિત એક જ સ્વ-સમાવેશિત Python મોડ્યુલ છે.

પુનરુત્પાદકતા નેટવર્ક ડાયાગ્રામ, જે V11 સેકન્ડ અપડેટ બેન્ચમાર્ક (99.80% સંયુક્ત, 100,000 કેસ, 127 દેશો) ને Figshare, ResearchGate, Academia.edu અને GitHub પર મિરર બતાવે છે, જેમાં Figshare DOI ને કેનોનિકલ એન્કર તરીકે દર્શાવવામાં આવ્યું છે
આકૃતિ 5: V11 બીજું અપડેટ બેન્ચમાર્ક — 127 દેશોમાં 100,000 કેસ પર 99.80% સંયુક્ત સ્કોર — ચાર સંશોધન પ્લેટફોર્મ્સમાં સમાન રીતે પ્રતિબિંબિત થાય છે. Figshare DOI એ પ્રમાણભૂત શૈક્ષણિક ઓળખકર્તા છે; ResearchGate (publication 404175463), Academia.edu (paper 165956808), અને GitHub SQL-backed હાર્નેસ, કાચા પ્રતિસાદનો સ્તરીકૃત રૅન્ડમ નમૂનો, અને પ્રતિ-દેશ/પ્રતિ-વિશેષતા સ્કોરકાર્ડ્સ સાથે સમાન નકલો હોસ્ટ કરે છે.

તાજા રન માટે ચાર પગલાં

એક. રિપોઝિટરી ક્લોન કરો: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. બે. requirements.txt સાથે નિર્ભરતાઓ ઇન્સ્ટોલ કરો pip install -r requirements.txt (બીજું અપડેટ ઉમેરે છે mysql-connector-python ≥ 8.0 SQL કેસ લોડર માટે). ત્રણ. સેટ કરો KANTESTI_USERNAME અને KANTESTI_PASSWORD એન્જિન API માટે પર્યાવરણ ચલ (environment variables) તરીકે. બીજું અપડેટ SQL કેસ લોડર માટે, આ પણ સેટ કરો KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, અને KANTESTI_DB_PASSWORD — લોડર રીડ-ઓનલિ ભૂમિકા દ્વારા કનેક્ટ થાય છે (bench_reader) જેને ઓળખતી ટેબલ્સ પર કોઈ અધિકાર નથી. ચાર. ચલાવો python benchmark_bloodtest.py --limit 100000 સંપૂર્ણ Second-Update રન માટે, અથવા python benchmark_bloodtest.py --limit 1000 ઝડપી ઇટરેશન માટે. આઉટપુટ્સ અહીં જાય છે ./benchmark_results/: એક CSV સ્કોરકાર્ડ જેમાં દેશ-વાર અને વિશેષતા-વાર કૉલમ્સ, એક JSON એગ્રિગેટ, સ્તરિત-રેન્ડમ રો-રિસ્પોન્સ નમૂનો, અને એક Markdown રિપોર્ટ હોય છે.

23 એપ્રિલ 2026 (V11 પ્રારંભિક, 15 કેસ) અને 26 એપ્રિલ 2026 (V11 Second Update, 100,000 કેસ) ના રેફરન્સ રન રિપોઝિટરીની અંદરના results/ ડિરેક્ટરીમાં જાળવવામાં આવ્યા છે. નવો રન નવો ટાઈમસ્ટેમ્પ્ડ સ્કોરકાર્ડ બનાવશે જ્યારે રેફરન્સ રન અસ્પર્શિત રહેશે. જો તમારા રનનું પરિણામ અર્થપૂર્ણ રીતે અલગ આવે, તો કૃપા કરીને રન ટાઈમસ્ટેમ્પ અને રિસ્પોન્સ મેટાડેટામાં પરત મળેલ એન્જિન વર્ઝન સાથે GitHub ઇશ્યૂ ખોલો.

મર્યાદાઓ અને ભાવિ કાર્ય

127 દેશોમાં 100,000 કેસ હોવા છતાં, ચાર મર્યાદાઓને સ્પષ્ટ રીતે સ્વીકારવાની જરૂર છે: લાંબી-પૂંછવાળા દેશોની ઓછી નમૂનાકીયતા, એકવારનું મૂલ્યાંકન, એક જ એન્જિનનો વ્યાપ, અને એક જ સ્ત્રોતમાંથી ડેટાની ઉત્પત્તિ. આમાંથી દરેકને સક્રિય અનુસરણ કાર્ય દ્વારા સંબોધવામાં આવી રહ્યું છે.

લાંબી-પૂંછવાળા દેશોની આવરી. Second Update 127 દેશોમાં ફેલાય છે, પરંતુ વિતરણ અસંતુલિત છે — ટોચના 10 યોગદાનકર્તાઓ કેસોના ≈66.4% માટે જવાબદાર છે, અને વધારાના 97 દેશોની લાંબી પૂંછવાળું ભાગ સાથે મળીને ≈7.3% યોગદાન આપે છે (કુલ મળીને લગભગ 7,300 કેસ, સરેરાશ ~75 કેસ પ્રતિ દેશ). તેથી આ લાંબી પૂંછવાળામાં દેશ-વાર કોમ્પોઝિટ્સ હેડલાઇન આંકડાઓ કરતાં વધુ અવાજવાળા (noisier) હોય છે. ભવિષ્યના રન ઓછી નમૂનાકીયતા ધરાવતા દેશોમાંથી પ્રાથમિક રીતે ભરતી કરશે જેથી પ્રતિ-જ્યુરિસ્ડિક્શન અંદાજોને મજબૂત કરી શકાય.

સિંગલ-શોટ મૂલ્યાંકન. કોહોર્ટના દરેક કેસનું મૂલ્યાંકન એક જ વખત કરવામાં આવ્યું હતું. મોટા ભાષા મોડલ્સ ઓછા સેમ્પલિંગ ટેમ્પરેચર પર પણ નોંધપાત્ર આઉટપુટ વેરિઅન્સ દર્શાવે છે, તેથી પ્રતિ કેસ પાંચ મૂલ્યાંકનો સાથે અને નોંધાયેલ વેરિઅન્સ ધરાવતો મલ્ટી-રન પ્રોટોકોલ સ્વાભાવિક આગળનું પગલું છે — ખાસ કરીને ટ્રેપ-કેસ સબસેટ પર, જ્યાં સેમ્પલિંગ જિટર હેઠળની સુસંગતતા સલામતી દાવાનો ભાગ છે.

સિંગલ-એન્જિન વ્યાપ. આ રિપોર્ટ એક જ એન્જિનનું વર્ણન કરે છે. વૈકલ્પિક AI સિસ્ટમ્સ સામે તુલનાત્મક વિશ્લેષણ અહીંના વ્યાપની બહાર છે; અમે સમાન MIT-લાઇસન્સ્ડ હાર્નેસ સામે યોગ્ય પદ્ધતિશાસ્ત્ર સાથે તેને અલગ સ્વતંત્ર અભ્યાસ તરીકે આગળ ધપાવી શકીએ છીએ.

સિંગલ-સોર્સ ડેટા મૂળ. 100,000 કેસો એક જ ક્લિનિકલ રિપોઝિટરીમાંથી લેવામાં આવેલા અનામિક વાસ્તવિક દર્દી રેકોર્ડ્સ છે (Kantesti SQL-બેક્ડ ક્લિનિકલ ડેટા વેરહાઉસ). તેઓ ક્યુરેટેડ પ્રોડક્શન સ્ટ્રીમનું પ્રતિનિધિત્વ કરે છે અને વૈશ્વિક સ્તરે વસ્તી-પ્રતિનિધિ રેન્ડમ ડ્રો નથી. મૂલ્યાંકનને બહારથી મેળવાયેલા બહુ-કેન્દ્ર ડેટા સુધી વિસ્તૃત કરવું રોડમેપ પર છે.

આ ચારની બહાર, સૌથી વધુ અસરકારક આયોજન કરાયેલ વિસ્તરણ પ્રતિ-જ્યુરિસ્ડિક્શન બહુભાષીય સમાનતા છે. Kantesti AI એન્જિન 75+ ભાષાઓમાં વપરાશકર્તાઓને સેવા આપે છે, અને ભાષા-સ્તરિત Second-Update સબ-કોહોર્ટ્સ (તુર્કિશ, જર્મન, સ્પેનિશ, ફ્રેન્ચ, ઇટાલિયન, પોર્ટુગીઝ, અરબી, મૅન્ડેરિન) ચલાવવાથી એન્જિન દ્વારા સમર્થિત ભાષાઓમાં આઉટપુટ ગુણવત્તા માપવામાં આવશે. દરેક ભાષા-સ્તરિત વિશ્લેષણ પોતાનો DOI અને હાર્નેસ બ્રાંચ સાથે પ્રકાશિત કરવામાં આવશે.