આ બેન્ચમાર્ક શા માટે અસ્તિત્વમાં છે અને તે શું ચકાસે છે

AI-સહાયિત બ્લડ ટેસ્ટ રિપોર્ટ સમજો ગ્રાહક અને ક્લિનિકલ વર્કફ્લોમાં વધતી જતી રીતે વપરાય છે, છતાં પ્રયોગશાળા દવાખાનાની દૃષ્ટિએ અનુકૂળ, પુનઃઉત્પાદિત મૂલ્યાંકન ફ્રેમવર્ક્સ દુર્લભ રહે છે. આ પરિસ્થિતિમાં સૌથી મહત્વના પ્રશ્નો સામાન્ય મેડિકલ પ્રશ્ન-ઉત્તર બેન્ચમાર્ક્સમાં આવતાં નથી: જ્યારે મીન કોર્પસ્ક્યુલર વોલ્યુમ સમાન હોય ત્યારે શું એન્જિન આયર્ન ડિફિશિયન્સી ને થેલેસેમિયા ટ્રેઇટથી અલગ કરી શકે છે, શું તે ગિલ્બર્ટ્સ સિન્ડ્રોમને હેપેટાઇટિસ તરીકે વધુ નિદાન કરે છે, અને શું તે સંપૂર્ણ રીતે સામાન્ય સ્ક્રીનિંગ પેનલમાં પેથોલોજી “બનાવે” છે?

પૂર્વ-નોંધાયેલ રૂબ્રિક ફ્લો ડાયાગ્રામ, જે બતાવે છે કે Kantesti AI એન્જિન — V11 સેકન્ડ અપડેટ, 100,000 કેસ પર 99.80% સંયુક્ત સ્કોર — ને સ્થિર (ફ્રોઝન) સ્કોરિંગ માપદંડો સામે કેવી રીતે મૂલ્યાંકન કરવામાં આવે છે
આકૃતિ 1: V11 પાછળની બેન્ચમાર્ક આર્કિટેક્ચર 99.80% કોમ્પોઝિટ સ્કોર V11 સેકન્ડ અપડેટ 100,000-કેસ કોહોર્ટ પર — દરેક કેસ, દરેક કીવર્ડ, દરેક સ્કોરિંગ સિસ્ટમ એન્જિન એક પણ PDF જોવે તે પહેલાં જ સોર્સ કોડમાં સ્થિર હોય છે, અને રૂબ્રિક V11 પ્રારંભિક રિલીઝ જેટલી જ બાઇટ-સમાન છે. ડિઝાઇન મુજબ પોસ્ટ-હોક રૂબ્રિક ટ્યુનિંગ શક્ય નથી.

એક જ બ્લડ ટેસ્ટ પેનલ સામાન્ય રીતે અનેક સ્પર્ધાત્મક વ્યાખ્યાઓને ટેકો આપવા માટે પૂરતો સંકેત ધરાવે છે, અને વ્યાખ્યા આપતા ક્લિનિશિયનનું કામ એ છે કે તે વ્યાખ્યાઓને એકબીજા સામે તોલે, પુસ્તકના જવાબને શોધી કાઢવાને બદલે. જે એન્જિન પાઠ્યપુસ્તકના કેસોમાં સારું કરે છે તે પણ સૌથી વધુ મહત્વના કેસોમાં નિષ્ફળ જઈ શકે છે: ડિફરેનશિયલ-ડાયગ્નોસિસની ખામીઓ, એકલા જોવામાં ચિંતાજનક લાગતા નિર્દોષ વેરિઅન્ટ્સ, અને સંપૂર્ણ રીતે સામાન્ય પેનલ્સ જે આત્મવિશ્વાસી સહાયકોને પેથોલોજી બનાવવામાં લલચાવે છે.

આ બેન્ચમાર્ક ખાસ કરીને આ જ નિષ્ફળતા-રીતિઓને ધ્યાનમાં રાખીને બનાવવામાં આવ્યો હતો. પંદરેય કેસમાંથી દરેકને ચોક્કસ નિદાનાત્મક ગુણધર્મ માટે પસંદ કરવામાં આવ્યો હતો: આયર્નની ઉણપથી થતી માઇક્રોસાઇટોસિસને એવી બીટા-થેલેસેમિયા ટ્રેઇટથી અલગ રાખવી જ પડે જેમાં સમાન મીન કોર્પસ્ક્યુલર વોલ્યુમ હોય; ગિલ્બર્ટ્સ સિન્ડ્રોમનું પ્રસ્તુતિરૂપ જ્યાં એકમાત્ર અસામાન્યતા અલગ પડેલી ઇન્ડાયરેક્ટ હાઇપરબિલિરુબિનેમિયા હોય; અને પંદર-પરિમાણી સ્ક્રીનિંગ પેનલ જેમાં દરેક એનાલાઇટ તેના રેફરન્સ રેન્જની અંદર જ હોય. રૂબ્રિક એવા એન્જિનોને ઇનામ આપે છે જે દરેક કેસને તેના પોતાના સંદર્ભમાં વાંચે છે અને એવા એન્જિનોને દંડ આપે છે જે ત્યાં કોઈ એવી નિદાન-યોગ્યતા ન હોય છતાં આત્મવિશ્વાસભર્યું નિદાન સુધી પહોંચી જાય.

એમ.ડી. થોમસ ક્લાઇન તરીકે, મેં કેસ પેનલ પસંદ કરી કારણ કે આ જ એવા પેટર્ન્સ છે જે લેબોરેટરી-મેડિસિન સહાયકો સૌથી વધુ વાર ખોટા કરે છે. મોંઘી નિષ્ફળતા-રીતિ "દુર્લભ રોગ ચૂકી જવું" નથી — તે એવા દર્દીઓમાં નિયમિત (રૂટીન) પેથોલોજી ઘડી કાઢવી છે જેમને તે નથી. અમારા તબીબી માન્યતા hub વિશાળ ફ્રેમવર્કનું વર્ણન કરે છે; આ પેજ V11 પ્રારંભિક પ્રૂફ-ઓફ-કોન્સેપ્ટ અને V11 બીજું અપડેટ વર્ણવે છે, જેમાં તેને 127 દેશ-લેબલ્સને આવરી લેતા એક કૃત્રિમ કેસ સેટમાંથી લેવામાં આવેલા 100,000 કૃત્રિમ કેસો સુધી સ્કેલ કરવામાં આવ્યું — એ જ સ્કોરિંગ રૂબ્રિકનો ઉપયોગ કરીને, બાઇટ-સમાન, અને કોઈ પોસ્ટ-હોક ટ્યુનિંગની મંજૂરી વગર.

તાજેતરનું રેફરન્સ રન — V11 સેકન્ડ અપડેટ (26 એપ્રિલ, 2026)

26 એપ્રિલ, 2026ના V11 સેકન્ડ અપડેટ રેફરન્સ રને સંયુક્ત સ્કોર (કમ્પોઝિટ સ્કોર) ઉત્પન્ન કર્યો 99.80% V11 પ્રારંભિક રિલીઝમાં ઉપયોગમાં લેવાયેલા એ જ પૂર્વ-નોંધાયેલા રૂબ્રિક પર, મૂલ્યાંકન કરવામાં આવ્યું 100,000 કૃત્રિમ કેસો Kantesti કૃત્રિમ કેસ સેટમાંથી લેવામાં આવેલા અને તેમાં ફેલાયેલા 127 દેશ-લેબલ્સ અને 75+ ભાષાઓમાં ફેલાયેલા. દરેક કેસ એન્જિનના મુખ્ય પાથ પર પૂર્ણ થયો; ટ્રેપ-કેસ હાઇપરડાયગ્નોસિસ ફ્લેગ સક્રિયતાઓ 0 / 87,412. પર જ રહી. 23 એપ્રિલ, 2026ના મૂળ V11 રનમાં 15 હેન્ડ-ક્યુરેટેડ કેસો (કમ્પોઝિટ 99.12%) આવરી લેવાયા હતા અને રૂબ્રિકને માન્ય કરાયો હતો; સેકન્ડ અપડેટ એ જ રૂબ્રિકને બાઇટ-સમાન રાખે છે અને મૂલ્યાંકનને વસ્તી-સ્તરના કોહોર્ટ સુધી વિસ્તારે છે.

સંયુક્ત 99.80% 100,000માંથી 100,000 કેસોએ સ્કોર કર્યો
1.000 સ્ટ્રક્ચરલ સ્કોર
0.996 ક્લિનિકલ સ્કોર
13.26 s સરેરાશ લેટન્સી
0 / 87,412 ટ્રેપ ફોલ્સ-પોઝિટિવ્સ

સંયુક્ત સૂત્ર ત્રણ ઘટકોને જોડે છે: સ્ટ્રક્ચરલ અનુરૂપતા સાત ફરજિયાત રિપોર્ટ વિભાગો અને સોળ ફરજિયાત ઉપવિભાગો સાથે, સામગ્રીની ચોકસાઈ જે કીવર્ડ રિકોલ + સ્કોરિંગ-સિસ્ટમ રિકોલ + પ્રોબેબિલિટી-ડિસ્ટ્રિબ્યુશન માન્યતા ચેક તરીકે માપવામાં આવે છે, અને પ્રતિભાવ લેટન્સી મુખ્ય-પાથ સર્વિસ-લેવલ લક્ષ્ય સામે. ચોક્કસ વિભાજન નીચેના રૂબ્રિક ફોર્મ્યુલામાં દર્શાવ્યું છે — સેકન્ડ અપડેટ માટે આ વજન કે ઉપ-રૂબ્રિક્સમાંથી કોઈપણ બદલાયા નથી.

સંયુક્ત = 0.35 × સ્ટ્રક્ચરલ + 0.55 × ક્લિનિકલ + 0.10 × લેટન્સી

બાકી રહેલા 0.20 ટકા પોઈન્ટ્સ જેટલું હેડરૂમ લગભગ સંપૂર્ણપણે ક્લિનિકલ ઉપ-સ્કોરમાં વિભાજિત થાય છે — કેસોના એક નાના ભાગમાં (મુખ્યત્વે હેપેટોલોજી અને ર્યુમેટોલોજીમાં) એક અપેક્ષિત સ્કોરિંગ-સિસ્ટમ કીવર્ડ એન્જિનની વ્યાખ્યામાં ગેરહાજર હતો, છતાં નિદાન સંબંધિત સામગ્રી સાચી હતી. 100,000-કેસ સેકન્ડ-અપડેટ કોહોર્ટમાં કોઈપણ કેસે પોતે નિદાન ચૂકી ન દીધું. લેટન્સી V11 પ્રારંભિક રિલીઝમાં સરેરાશ 20.17 s થી સેકન્ડ અપડેટમાં 13.26 s સુધી સુધરી; બે રન વચ્ચે પ્રોડક્શન એન્જિન ઑપ્ટિમાઇઝેશન્સને પ્રતિબિંબિત કરે છે. રૂબ્રિક, સ્કોરિંગ કોડ, અને API એન્ડપોઈન્ટ અપરિવર્તિત છે.

સૌથી વધુ પ્રતિનિધિત્વ ધરાવતા 30 દેશ-લેબલ્સમાં પ્રતિ-લેબલ સંયુક્ત સ્કોર 0.9971 થી 0.9985 વચ્ચે હતા. બાકીના 97 વધારાના લેબલ્સની લાંબી પૂંછડી (કુલ મળીને ≈7,300 કેસો)માં કોઈ વ્યવસ્થિત ઘટાડો જોવા મળ્યો નહીં. કેસ ગણતરી મુજબ સૌથી વધુ આવનારા લેબલ્સ હતા: યુનાઇટેડ સ્ટેટ્સ (10,500), બ્રાઝિલ (9,500), સ્પેન (9,000), ઇટાલી (8,000), જર્મની (7,800), ફ્રાન્સ (7,400), પોર્ટુગલ (5,800), Türkiye (3,400), યુનાઇટેડ કિંગડમ (2,900), અને મેક્સિકો (2,500).

15 કેસોથી 100,000 સુધી: 127 દેશ-લેબલ્સમાં કોહોર્ટનું વિકાસ

મૂળ V11 કેસ પેનલમાં સાત વિશેષતાઓ આવરી લેવાઈ હતી — હેમેટોલોજી, એન્ડોક્રિનોલોજી, મેટાબોલિક મેડિસિન, હેપેટોલોજી, નેફ્રોલોજી, કાર્ડિયોલોજી, ર્યુમેટોલોજી — ઉપરાંત બે સમર્પિત હાઇપરડાયગ્નોસિસ ટ્રેપ કેસો; દરેક કેસ કૃત્રિમ રીતે જનરેટ કરાયેલ બ્લડ-ટેસ્ટ પેનલ હતો. V11 બીજું અપડેટ મૂલ્યાંકનને 127 દેશ-લેબલ્સમાં ફેલાયેલા 100,000 કૃત્રિમ કેસો સુધી વિસ્તારે છે, આઠ વિશેષતાઓમાં વિતરિત (મૂળ સાત ઉપરાંત એક સમર્પિત આંતરિક-ચિકિત્સા બકેટ જે ટ્રેપ સબસેટને શોષે છે). એ જ સ્કોરિંગ રૂબ્રિક બંને રન દરમિયાન બાઇટ-સમાન રીતે લાગુ કરવામાં આવે છે.

V11 પ્રારંભિક કેસ-પેનલ ડિઝાઇન — સાત મેડિકલ વિશેષતાઓમાં ફેલાયેલા પંદર કૃત્રિમ બ્લડ-ટેસ્ટ કેસો તથા બે હાયપરડાયગ્નોસિસ ટ્રૅપ કેસો; એ જ રૂબ્રિક V11 Second Updateમાં 100,000 કેસો પર 99.80% કોમ્પોઝિટ સ્કોર સુધી પહોંચ્યું
આકૃતિ 2: હેમેટોલોજી, એન્ડોક્રિનોલોજી, મેટાબોલિક મેડિસિન, હેપેટોલોજી, નેફ્રોલોજી, કાર્ડિયોલોજી, ર્યુમેટોલોજી — ઉપરાંત બે ટ્રેપ કેસો (ગિલ્બર્ટ્સ સિન્ડ્રોમ અને સંપૂર્ણપણે સામાન્ય સ્ક્રીનિંગ પેનલ) — માટે V11 પ્રારંભિક કેસ-પેનલ ડિઝાઇન. સેકન્ડ અપડેટ આ રૂબ્રિકને બાઇટ-સમાન રીતે જાળવે છે, જ્યારે કોહોર્ટને Kantesti SQL રિપોઝિટરીમાંથી લેવામાં આવેલા 100,000 કેસો સુધી વિસ્તારે છે.

કારણ કે બધા કેસો કૃત્રિમ રીતે જનરેટ થયેલા છે, દૂર કરવા માટે કોઈ વાસ્તવિક ઓળખકર્તાઓ નથી અને કોઈ વ્યક્તિગત ડેટા સામેલ નથી. દરેક કૃત્રિમ કેસમાં બેન્ચમાર્ક-આંતરિક કેસ કોડ હોય છે (V11 પ્રારંભિક સેટમાં BT-NNN-LABEL, બીજાં અપડેટમાં સ્થિર case_uid ). પ્રકાશિત હાર્નેસ, ટેકનિકલ રિપોર્ટ, અથવા રિલીઝ થયેલા ડેટાસેટ્સમાં ક્યાંય પણ વ્યક્તિગત ડેટા દેખાતું નથી.

V11 initial release — 15 hand-curated cases

મૂળ V11 કેસ પેનલનું હસ્તચાલિત પસંદગીકરણ ડૉ. થોમસ ક્લાઇન દ્વારા કરવામાં આવ્યું હતું, જેથી લેબોરેટરી-મેડિસિન સહાયકો સૌથી વધુ વાર જે નિદાનના પેટર્ન ખોટા સમજે છે તેને કસરતરૂપે ચકાસી શકાય. નીચે સૂચિબદ્ધ દરેક પંદર કેસને કોઈ ચોક્કસ નિદાન-ગુણધર્મ માટે પસંદ કરવામાં આવ્યો હતો.

હેમેટોલોજી (3) BT-001, BT-006, BT-007 આયર્ન ડિફિશિયન્સી એનિમિયા · B12 ની ઉણપ · બેટા-થેલેસેમિયા માઇનર
એન્ડોક્રિનોલોજી (3) BT-002, BT-008, BT-012 હાશિમોટોઝ થાયરોઇડાઇટિસ · ઇન્સુલિન રેઝિસ્ટન્સ સાથે PCOS · ગંભીર વિટામિન ડી ની ઉણપ
મેટાબોલિક (2) BT-003, BT-013 મેટાબોલિક સિન્ડ્રોમ સાથે T2DM · ગાઉટના જોખમ સાથે હાયપરયુરિસેમિયા
હેપેટોલોજી (2) BT-004, BT-009 NAFLD / NASH · તીવ્ર વાયરસ હેપેટાઇટિસ
નેફ્રોલોજી · કાર્ડિયોલોજી · ર્યુમેટોલોજી (3) BT-005, BT-010, BT-011 CKD સ્ટેજ 3 · એથેરોજેનિક ડિસલિપિડેમિયા · સિસ્ટમિક લ્યુપસ એરિથેમેટોસસ
ટ્રેપ કેસ (2) BT-014, BT-015 ગિલ્બર્ટ્સ સિન્ડ્રોમ (અલગ પડેલી ઇન્ડાયરેક્ટ હાઇપરબિલિરુબિનેમિયા) · સંપૂર્ણપણે સામાન્ય પુખ્ત સ્ક્રીન

આ ખાસ વિતરણ શા માટે

હેમેટોલોજીને ત્રણ કેસ મળે છે કારણ કે માઇક્રોસાઇટિક ડિફરેનશિયલ્સ અને મેક્રોસાઇટિક ડિફરેનશિયલ્સ વાસ્તવિક દુનિયાની લેબોરેટરી પ્રેક્ટિસમાં સૌથી વધુ વોલ્યુમ ધરાવતા ટ્રેપ્સ છે. એન્ડોક્રિનોલોજીને ત્રણ મળે છે કારણ કે હાશિમોટોનું, PCOS, અને વિટામિન ડી ની ઉણપની પ્રસ્તુતિઓ અલગ-અલગ નિદાનાત્મક આકારોનો અભ્યાસ કરે છે (ઓટોએન્ટિબોડી દ્વારા સંચાલિત, હોર્મોન-અનુપાત દ્વારા સંચાલિત, એકલ-માર્કર દ્વારા સંચાલિત). એકલ-કેસ વિશેષતાઓ હજી પણ અર્થપૂર્ણ છે કારણ કે દરેક CKD, ASCVD જોખમ, અને SLE પાસે પોતાનું સ્કોરિંગ સિસ્ટમ છે જેને એન્જિન બોલાવવું જોઈએ (ક્રમશઃ KDIGO સ્ટેજિંગ, ASCVD 10-વર્ષ જોખમ, અને 2019 EULAR/ACR SLE માપદંડો).

V11 બીજું અપડેટ — 127 દેશ-લેબલ્સમાં ફેલાયેલા 100,000 કૃત્રિમ કેસો

બીજું અપડેટ મૂળ V11 હાર્ડ-કોડેડ 15-કેસ Python literalને મોટા, પ્રોગ્રામેટિક રીતે જનરેટ કરાયેલા કૃત્રિમ કેસ સેટથી બદલે છે. કેસ સેટ દરેક રનની શરૂઆતમાં લોડ થાય છે અને પારદર્શિતાના માટે કન્ફિગરેશન લોગ કરવામાં આવે છે. સામગ્રી ક્ષેત્ર મુજબ કોહોર્ટનું વિતરણ નીચે દર્શાવ્યું છે.

એન્ડોક્રિનોલોજી 23,900 કેસ (23.9%) થાયરોઇડ, PCOS, વિટામિન ડી, ગોનાડલ એક્સિસ, પિટ્યુટરી
મેટાબોલિક મેડિસિન 21,900 કેસ (21.9%) T2DM, મેટાબોલિક સિન્ડ્રોમ, લિપિડ પેનલ્સ, હાઇપરયુરિસેમિયા
હિમેટોલોજી 15,400 કેસ (15.4%) માઇક્રોસાઇટિક અને મેક્રોસાઇટિક ડિફરેનશિયલ્સ, B12/ફોલેટ, આયર્ન સ્ટડીઝ
હેપેટોલોજી 12,400 કેસ (12.4%) NAFLD/NASH, વાયરલ હેપેટાઇટિસ, FIB-4, કોલેસ્ટેસિસ
આંતરિક દવા (ટ્રેપ સબસેટ સહિત) 9,000 કેસ (9.0%) મિશ્ર પ્રસ્તુતિઓ અને 8,723 સમર્પિત હાઇપરડાયગ્નોસિસ ટ્રેપ કેસો
કાર્ડિયોલોજી 7,500 કેસ (7.5%) ASCVD જોખમ, એથેરોજેનિક ડિસલિપિડેમિયા, hs-CRP
ર્યુમેટોલોજી 6,000 કેસ (6.0%) SLE, RA, વાસ્ક્યુલાઇટિસ, ઓટોએન્ટિબોડી પેનલ્સ (EULAR/ACR માપદંડો)
નેફ્રોલોજી 4,000 કેસ (4.0%) CKD સ્ટેજિંગ (KDIGO), eGFR ટ્રેન્ડ્સ, ઇલેક્ટ્રોલાઇટ વિક્ષેપ

કૃત્રિમ દેશ-લેબલ વિતરણ — ટોચના 10 લેબલ્સ

100,000 કૃત્રિમ કેસોમાં 127 દેશ-લેબલ્સ (ISO 3166-1 alpha-2) છે જેથી locale હેન્ડલિંગને ચકાસી શકાય. લેબલ નિમણૂક: યુરોપ 57.7%, અમેરિકા 25.4%, એશિયા-પેસિફિક 6.2%, નામિત મધ્ય-પૂર્વ/આફ્રિકા લેબલ્સ 3.4%, અને વધારાના 97 લેબલ્સની લાંબી પૂંછડી કુલ મળીને લગભગ 7.3%. કેસ ગણતરી મુજબ સૌથી વધુ આવનારા દસ લેબલ્સ હતા: યુનાઇટેડ સ્ટેટ્સ (10,500), બ્રાઝિલ (9,500), સ્પેન (9,000), ઇટાલી (8,000), જર્મની (7,800), ફ્રાન્સ (7,400), પોર્ટુગલ (5,800), Türkiye (3,400), યુનાઇટેડ કિંગડમ (2,900), અને મેક્સિકો (2,500). પ્રતિ-લેબલ સંયુક્ત સ્કોર 0.9971 થી 0.9985 વચ્ચે હતા. આ લેબલ ગણતરીઓ જનરેટ થયેલા કેસોની વિશેષતાઓ છે જે locale હેન્ડલિંગને ચકાસવા માટે વપરાય છે — તે વાસ્તવિક વપરાશકર્તાઓ નથી અને વાસ્તવિક-દુનિયાની ભૂગોળીય આવરણ નથી.

પૂર્વ-નોંધાયેલ રૂબ્રિક, સમજાવ્યું

પ્રી-રજિસ્ટ્રેશન આ બેન્ચમાર્કમાં સૌથી મહત્વપૂર્ણ પદ્ધતિગત પસંદગી છે. અપેક્ષિત દરેક નિદાન, દરેક ક્લિનિકલ સ્કોરિંગ સિસ્ટમ, અને દરેક રિપોર્ટ વિભાગને સોર્સ કોડમાં કમિટ કરવામાં આવ્યા હતા એન્જિન બોલાવ્યા પહેલાં. તેથી એન્જિનને ખુશ કરવા માટે રૂબ્રિકનું પોસ્ટ-હોક ટ્યુનિંગ અશક્ય છે.

સંયુક્ત સ્કોર બનાવવા માટે ત્રણ ઘટકો છે. માળખાકીય ઘટક 35 ટકા યોગદાન આપે છે અને માપે છે કે એન્જિનએ સાત ફરજિયાત રિપોર્ટ વિભાગો (હેડર, સારાંશ, મુખ્ય શોધો, ડિફરેનશિયલ, સ્કોરિંગ સિસ્ટમ્સ, ભલામણો, ફોલો-અપ) અને તેમાંના સોળ ફરજિયાત ઉપવિભાગો પરત કર્યા કે નહીં. માળખાકીય ગણતરીમાં વિભાગ હાજરી 40 ટકા વજન ધરાવે છે અને ઉપવિભાગ હાજરી 60 ટકા વજન ધરાવે છે.

ક્લિનિકલ ઘટક 55 ટકા યોગદાન આપે છે અને ત્રણ બાબતોને જોડે છે: નિદાન-કીવર્ડ રિકોલ (ક્લિનિકલ ઉપ-સ્કોરનું 70 ટકા), સ્કોરિંગ-સિસ્ટમ રિકોલ (20 ટકા — જ્યાં સંબંધિત હોય ત્યાં એન્જિન Mentzer, FIB-4, HOMA-IR, ASCVD જોખમ, KDIGO સ્ટેજિંગ, EULAR/ACR માપદંડો ગણતરી કરે છે કે નહીં), અને સંભાવના-સમ માન્યતા ચકાસણી (10 ટકા — ડિફરેનશિયલ સંભાવનાઓનો કુલ [90, 110] અંતરમાં હોવો જોઈએ). ટ્રેપ કેસોમાં, મહત્તમ 0.30 સુધીનું સ્પષ્ટ હાઇપરડાયગ્નોસિસ દંડ ઘટાડવામાં આવે છે, જે બનાવટી પેથોલોજી ફ્લેગ દીઠ 0.10 તરીકે ગણાય છે અને મહત્તમ ત્રણ ફ્લેગ સુધી મર્યાદિત છે.

લેટન્સી ઘટક 10 ટકા યોગદાન આપે છે. 20 સેકન્ડથી ઓછી પ્રતિભાવને સંપૂર્ણ 0.10 મળે છે, 40 સેકન્ડથી ઓછી પ્રતિભાવને 0.05 મળે છે, અને તેનાથી ધીમી કોઈપણ પ્રતિભાવને શૂન્ય મળે છે. 20 સેકન્ડનું લક્ષ્ય પ્રોડક્શન પ્રાઇમરી-પાથ સર્વિસ-લેવલ ઉદ્દેશ્ય દર્શાવે છે; 40 સેકન્ડની મહત્તમ મર્યાદા ભારે-એન્જિન ઇન્વોકેશન્સ માટે ફેઝ 2ની બેકઅપ બજેટ દર્શાવે છે.

MIT-લાઇસન્સ્ડ Kantesti બેન્ચમાર્ક હાર્નેસ ચાલતું અને પ્રતિ-કેસ સ્કોર ઉત્પન્ન કરતું ટર્મિનલ સ્ક્રીનશોટ — એ જ હાર્નેસ, હવે SQL-ચાલિત, V11 સેકન્ડ અપડેટના 100,000-કેસ રનમાં 99.80% સંયુક્ત સ્કોર ઉત્પન્ન કરે છે
આકૃતિ 3: અમલમાં રહેલું હાર્નેસ — એ જ એન્જિન જેણે ઉત્પન્ન કર્યું 99.80% સંયુક્ત V11 Second Update 100,000-કેસ કોહોર્ટ પર. દરેક કેસને A4 PDF તરીકે રેન્ડર કરવામાં આવે છે, પ્રોડક્શન v11 એન્ડપોઇન્ટ પર પોસ્ટ કરવામાં આવે છે, અને સ્થિર (frozen) રૂબ્રિક સામે સ્કોર કરવામાં આવે છે. Second Update એ પેરામીટરાઇઝ્ડ SQL કેસ લોડર ઉમેર્યો; કાચા એન્જિન પ્રતિસાદોનો સ્તરીકૃત રૅન્ડમ નમૂનો (n = 201) એકત્રિત સ્કોરકાર્ડની સાથે જાળવી રાખવામાં આવે છે.

પ્રી-રજિસ્ટ્રેશન શું અટકાવે છે

ફર્સ્ટ-પાર્ટી બેન્ચમાર્ક્સ પોસ્ટ-હોક રૂબ્રિક ટ્યુનિંગ દ્વારા પોતાની જ સંખ્યાઓ ફુલાવવાની માટે કુખ્યાત છે. પેટર્ન લગભગ હંમેશા એકસરખું જ હોય છે: ટીમ એન્જિન ચલાવે છે, ક્યાં તે ઓછું પ્રદર્શન કરે છે તે જુએ છે, અને પછી શાંતિથી રૂબ્રિક એ રીતે સમાયોજિત કરે છે કે ઓછું પ્રદર્શન કરનારા ક્ષેત્રોનું ગણતરીમાં વજન ઓછું પડે. પ્રથમ એન્જિન કોલ પહેલાં રૂબ્રિકને સોર્સ કોડમાં કમિટ કરીને અને MIT લાઇસન્સ હેઠળ હાર્નેસને પ્રકાશિત કરીને, આ સમાયોજન વર્ઝન કંટ્રોલમાં દેખાઈ જાય છે. કોઈપણ રિપોઝિટરી ક્લોન કરી શકે છે, રૂબ્રિકના લેખકની તારીખો ચકાસી શકે છે, અને ચકાસી શકે છે કે એન્જિનના પરિણામોનો ઉપયોગ સ્કોરિંગને આકાર આપવા માટે કરવામાં આવ્યો નહોતો.

હાઇપરડાયગ્નોસિસ ટ્રેપ કેસ — શા માટે અતિ-કોલિંગ જ વાસ્તવિક નિષ્ફળતા મોડ છે

નોર્મલ સ્ક્રીન્સ પર પેથોલોજીનું આક્રમક રીતે વધારે બોલવું એ કન્ઝ્યુમર-ફેસિંગ મેડિકલ અસિસ્ટન્ટ્સમાં દસ્તાવેજીકૃત નિષ્ફળતા મોડ છે. તેની ડાઉનસ્ટ્રીમ કિંમતમાં અનાવશ્યક તપાસ, દર્દીની ચિંતા, અને આયાટ્રોજેનિક વર્કઅપ શામેલ છે. આ બેન્ચમાર્કના બે ટ્રેપ કેસો આ નિષ્ફળતા મોડને દૃશ્યમાન અને સ્કોર કરી શકાય તે રીતે ડિઝાઇન કરવામાં આવ્યા છે.

બાજુ-બાજુ તુલના: ગિલ્બર્ટ્સ સિન્ડ્રોમ પેનલ પર એક નિષ્કપટ (naive) AI દ્વારા હેપેટાઇટિસ બનાવટ (fabricating) કરવાનું સામે Kantesti એન્જિન દ્વારા નિર્દોષ UGT1A1 પોલિમોર્ફિઝમને યોગ્ય રીતે ઓળખવાનું — એવી પદ્ધતિશાસ્ત્ર (methodology) જે V11 સેકન્ડ અપડેટ 99.80% બેન્ચમાર્કમાં 87,412 ટ્રેપ-ફ્લેગ તકોમાં શૂન્ય ફોલ્સ-પોઝિટિવ્સ સુધી સ્કેલ થઈ
આકૃતિ 4: V11 પ્રારંભિક રિલીઝમાંથી આવેલ ટ્રેપ-કેસ ડિઝાઇન — એવું એન્જિન જે Gilbert's syndrome ને આત્મવિશ્વાસથી હેપેટાઇટિસ તરીકે લેબલ કરે, અથવા જે સંપૂર્ણપણે સામાન્ય સ્ક્રીન પર સરહદી (borderline) પેથોલોજી બનાવે, તેને ક્લિનિકલ રીતે બોલવા માટે ઇનામ નહીં પરંતુ દંડ મળે છે. આ પદ્ધતિ V11 Second Update 100,000-કેસ રનમાં ઉત્પન્ન થયેલા 99.80% સંયુક્ત સ્કોર સુધી સ્કેલ કરવામાં આવી, જેમાં 0 / 87,412 ખોટા-ધનાત્મક (false-positives) સામેલ હતા.

🟡 ટ્રેપ 1 — BT-014-GILBERT

પ્રસ્તુતિ. કુલ બિલિરુબિન 2.4 mg/dL ધરાવતો 24 વર્ષનો પુરુષ. ડાયરેક્ટ ફ્રેક્શન નોર્મલ છે, ટ્રાન્સએમિનેઝ અને એલ્કલાઇન ફોસ્ફેટેઝ તેમના રેફરન્સ રેન્જની અંદર છે, રેટિક્યુલોસાઇટ્સ અસાધારણ નથી, અને હેપ્ટોગ્લોબિન તથા LDH હેમોલિસિસને નકારી કાઢે છે.

યોગ્ય અર્થઘટન. ગિલ્બર્ટનું સિન્ડ્રોમ — એક સૌમ્ય UGT1A1 પોલિમોર્ફિઝમ. અર્થઘટનમાં હેપેટાઇટિસ, સિર્રોસિસ, હેમોલાઇટિક એનિમિયા, અથવા બાઇલિયરી અવરોધને બોલાવવું ન જોઈએ.

V11 પરિણામ. સંયુક્ત 1.000. છ મોનિટર કરાયેલા ઓવર-ડાયગ્નોસિસ ફ્લેગમાંથી કોઈપણ સક્રિય નિદાન તરીકે દેખાયા નહોતા.

🟡 ટ્રેપ 2 — BT-015-HEALTHY

પ્રસ્તુતિ. પંદર-પરિમાણીય રૂટીન સ્ક્રીનિંગ પેનલ ધરાવતી 35 વર્ષની સ્ત્રી. દરેક એનાલાઇટ તેના રેફરન્સ રેન્જની અંદર આરામથી બેસે છે.

યોગ્ય અર્થઘટન. ખાતરી અને જીવનશૈલી જાળવણી. વ્યાખ્યાએ ક્લિનિકલી ઉપયોગી લાગે તે માટે સરહદી રોગવિજ્ઞાનનું કૃત્રિમ રીતે સર્જન ન કરવું જોઈએ.

V11 પરિણામ. સંયુક્ત 1.000. સાતમાંથી કોઈપણ સાત મોનિટર કરાયેલા અતિ-નિદાન (over-diagnosis) ફ્લેગ—ડાયાબિટીસ, એનિમિયા, હાઇપોથાયરોઇડિઝમ, ડિસલિપિડેમિયા, હેપેટાઇટિસ, કિડની રોગ, ઉણપ—સક્રિય નિદાન તરીકે દેખાયા નહોતા.

બંને ટ્રેપમાં કુલ તેર મોનિટર કરાયેલા અતિ-નિદાન (hyperdiagnosis) ફ્લેગ તપાસવામાં આવ્યા. કોઈપણ ટ્રિગર થયું નહીં. આ જ પરિણામ સૌથી વધુ મહત્વનું છે કોઈપણ ક્લિનિશિયન માટે જે AI એન્જિનને ટ્રાયેજ અથવા પ્રી-કન્સલ્ટેશન સાધન તરીકે વાપરવાનું વિચારે છે: સિસ્ટમે જ્યાં રોગ નહોતો ત્યાં રોગનું સર્જન કર્યું નહીં.

મેન્ટ્ઝર ઇન્ડેક્સ: આયર્નની ઉણપને થેલેસેમિયા ટ્રેઇટથી અલગ પાડવું

બીજું ઊંચી કિંમતનું શોધખોળ કેસ BT-001 (આયર્ન ડિફિશિયન્સી એનિમિયા) અને કેસ BT-007 (બેટા-થેલેસેમિયા માઇનર) વચ્ચેની જોડણી અંગે છે. બંનેમાં માઇક્રોસાઇટોસિસ જોવા મળે છે અને નિર્દોષ વર્ગીકરણકારો માટે આ જાણીતું અટકાવનારું મુદ્દો છે. મેન્ટ્ઝર ઇન્ડેક્સ, જે MCV ને RBC ગણતરીથી ભાગ કરીને ગણવામાં આવે છે, આયર્ન ડિફિશિયન્સીમાં 13 કરતાં વધુ અને થેલેસેમિયા ટ્રેઇટમાં 13 કરતાં ઓછું આવે છે.

BT-001 માં, દર્દી 34 વર્ષીય સ્ત્રી હતી, જેમનું હિમોગ્લોબિન 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ફેરિટિન 6 ng/mL અને વધેલું TIBC હતું. અંદાજે 17.7 નો મેન્ટ્ઝર ઇન્ડેક્સ સંપૂર્ણ આયર્ન ડિફિશિયન્સીને સમર્થન આપે છે. BT-007 માં, દર્દી 28 વર્ષીય પુરુષ હતો, જેમાં માઇક્રોસાઇટોસિસ (MCV 65.8 fL) હતું પરંતુ RBC ગણતરી 6.2 ઊંચી, RDW સામાન્ય, ફેરિટિન સામાન્ય અને HbA2 5.6 ટકા હતું. અંદાજે 10.6 નો મેન્ટ્ઝર ઇન્ડેક્સ થેલેસેમિયા ટ્રેઇટ તરફ સૂચવે છે, અને વધેલું HbA2 બેટા-થેલેસેમિયા માઇનરને પુષ્ટિ કરે છે.

આયર્ન ડિફિશિયન્સી એનિમિયા મેન્ટ્ઝર > 13 નીચું ફેરિટિન, નીચું TSAT, ઊંચું TIBC, વધેલું RDW
બેટા-થેલેસેમિયા ટ્રેઇટ મેન્ટ્ઝર < 13 સામાન્ય ફેરિટિન, સામાન્ય RDW, વધેલું HbA2 (>3.5%), ઊંચી RBC ગણતરી

બંને કેસનું સ્કોર 1.000 હતું. એન્જિનએ બંને વ્યાખ્યાઓમાં મેન્ટ્ઝર ઇન્ડેક્સને સ્પષ્ટ રીતે ઉપયોગ કર્યો અને દરેક પ્રસંગે યોગ્ય નિદાન પરત આપ્યું. સમગ્ર બેન્ચમાર્કમાં આ એકમાત્ર સૌથી વધુ ક્લિનિકલી ખાતરી આપતું પરિણામ છે, કારણ કે થેલેસેમિયા ટ્રેઇટને આયર્ન ડિફિશિયન્સી તરીકે ખોટું વર્ગીકૃત કરવાથી અયોગ્ય આયર્ન સપ્લિમેન્ટેશન થાય છે અને પરિવાર-સ્ક્રીનિંગની તકો ચૂકી જાય છે, અને આયર્ન ડિફિશિયન્સીને થેલેસેમિયા તરીકે ખોટું વર્ગીકૃત કરવાથી સરળ રિપ્લેસમેન્ટ થેરાપીમાં વિલંબ થાય છે. અમારી ફેરીટિન રેન્જ માર્ગદર્શિકા વ્યાપક ડિફરેનશિયલ સંદર્ભ સમજાવે છે.

V11 પ્રારંભિક રેફરન્સ રનમાંથી પ્રતિ-કેસ પરિણામો (23 એપ્રિલ, 2026)

15-કેસ પ્રૂફ-ઓફ-કોન્સેપ્ટ કોહોર્ટ પરનું મૂળ V11 રેફરન્સ રન એ પદ્ધતિશાસ્ત્રીય આધાર છે Second Update માટે: નીચેનો દરેક પ્રતિ-કેસ વિગતવાર ભાગ દર્શાવે છે કે રૂબ્રિક વાસ્તવિક એન્જિન પ્રતિસાદને કેવી રીતે હેન્ડલ કરે છે. પંદર પૈકી બાર કેસોએ પ્રાથમિક પાથ પર 1.000 ની મહત્તમ (ceiling) સંયુક્ત સ્કોર હાંસલ કરી; ત્રણ કેસો Phase 2 ફૉલબેક દ્વારા સર્વ કરવામાં આવ્યા, જેમાં 0.05 લેટન્સી બોનસ ગુમાયો પરંતુ તમામ ક્લિનિકલ અને માળખાકીય સામગ્રી જાળવાઈ. એક કેસમાં એક જ ફરજિયાત સબસેક્શન ગાયબ હતું; એક કેસે થોડું ઘટેલું probability distribution sum પરત કર્યું.

કેસ ID સ્પેશિયાલિટી સંયુક્ત લેટન્સી પાથ
BT-001-IDAહિમેટોલોજી1.00017.8 sપ્રાથમિક
BT-006-B12હિમેટોલોજી1.00018.4 સેપ્રાથમિક
BT-007-થેલહિમેટોલોજી1.00017.0 સેપ્રાથમિક
BT-002-હેશએન્ડોક્રિનોલોજી0.95037.0 સેફૉલબૅક
BT-008-PCOSએન્ડોક્રિનોલોજી0.98718.6 સેપ્રાથમિક
BT-003-T2DMમેટાબોલિક1.00019.1 સેપ્રાથમિક
BT-013-ગાઉટમેટાબોલિક1.00019.4 સેપ્રાથમિક
BT-004-NAFLDહેપેટોલોજી1.00019.6 સેપ્રાથમિક
BT-009-વાયરહેપહેપેટોલોજી0.95023.4 સેફૉલબૅક
BT-014-ગિલબર્ટટ્રૅપ1.00018.9 સેપ્રાથમિક
BT-005-CKDનેફ્રોલોજી1.00017.4 સેપ્રાથમિક
BT-010-ASCVDકાર્ડિયોલોજી1.00019.7 સેપ્રાથમિક
BT-011-SLEર્યુમેટોલોજી0.98118.2 સેકન્ડપ્રાથમિક
BT-012-VITDએન્ડોક્રિનોલોજી1.00019.3 સેકન્ડપ્રાથમિક
BT-015-HEALTHYટ્રૅપ1.00018.7 સેકન્ડફૉલબૅક

PCOS કેસ (BT-008) એ પ્રતિભાવની રચનામાં એક ફરજિયાત ઉપવિભાગ ગુમાવ્યો — સોળમાંથી પંદર બદલે સોળમાંથી સોળ — જેના કારણે રચનાત્મક સ્કોર 1.000 થી 0.963 થયો. SLE કેસ (BT-011) એ થોડું ઘટેલું સંભાવના-વિતરણનું કુલ પરત કર્યું, જેના કારણે ક્લિનિકલ સ્કોર 0.965 થયો, અને દરેક નિદાન સંબંધિત કીવર્ડ તથા સ્કોરિંગ સિસ્ટમ જાળવી રાખી. કોઈપણ ઉપ-પરફેક્ટ કેસે યોગ્ય નિદાન ચૂકી દીધું નહીં.

V11 Second Update સંયુક્ત — 100,000 કેસ

વસ્તી સ્તરે, વ્યક્તિગત કેસની પંક્તિઓ માનવ-વાંચનીય નથી, તેથી બીજું અપડેટ 100,000-પંક્તિની ટેબલ કરતાં સંકલિત (aggregated) મેટ્રિક્સ રજૂ કરે છે. મુખ્ય સંકલન નીચે બતાવવામાં આવ્યું છે; પ્રતિ-વિશેષતા અને પ્રતિ-દેશ-લેબલ વિભાજનો ટેકનિકલ રિપોર્ટ અને Figshare ડિપોઝિટમાં પ્રકાશિત કરવામાં આવ્યા છે. સ્તરીકૃત રૅન્ડમ નમૂનાનું n = 201 કાચા એન્જિન પ્રતિસાદો (નિર્ધારિત seed 20260426) નિરીક્ષણ માટે GitHub results/ ડિરેક્ટરીમાં પ્રકાશિત કરવામાં આવે છે.

સંયુક્ત સ્કોર V11 પ્રારંભિક: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 100,000-કેસ કોહોર્ટમાં
માળખાકીય સ્કોર (સરેરાશ) V11 પ્રારંભિક: 0.998 → Second Update: 1.000 વસ્તી સ્તરે સંપૂર્ણ માળખાકીય અનુરૂપતા
ક્લિનિકલ સ્કોર (સરેરાશ) V11 પ્રારંભિક: 0.998 → Second Update: 0.996 −0.002; કોઈ પણ કેસે નિદાન પોતે ચૂકી ન દીધું
વિલંબ — સરેરાશ (શ્રેણી) V11 પ્રારંભિક: 20.17 સે (17.0–37.0 સે) → બીજું અપડેટ: 13.26 સે (9.0–16.94 સે) રન વચ્ચે પ્રોડક્શન એન્જિન ઑપ્ટિમાઇઝેશન્સ
એન્જિન પાથ = પ્રાથમિક V11 પ્રારંભિક: 12 / 15 → બીજું અપડેટ: 100,000 / 100,000 રન દરમિયાન કોઈ પણ સમયે ફેઝ 2 માટે ફૉલબેકની જરૂર પડી નહોતી
ટ્રેપ-સબસેટ હાઇપરડાયગ્નોસિસ ફ્લેગ્સ V11 પ્રારંભિક: 0 / 13 → બીજું અપડેટ: 0 / 87,412 વસ્તી સ્તરે શૂન્ય ફૉલ્સ પોઝિટિવ્સ (8,723 ટ્રેપ કેસ મોનિટર થયા)

હેડલાઇન સ્કોર અમને શું નથી જણાવતો

આ ખાસ પ્રી-રજિસ્ટર્ડ રૂબ્રિક હેઠળ 99.80 ટકા નો સંયુક્ત સ્કોર, 127 દેશ-લેબલ્સને આવરી લેતા 100,000-કેસ કૃત્રિમ કોહોર્ટ પર, લગભગ-છત (near-ceiling) પ્રદર્શન દર્શાવે છે — પરંતુ તેને કાળજીપૂર્વક સંદર્ભમાં મૂકવું જોઈએ. પરિણામ V11માં અમે સોર્સ કોડમાં પ્રતિબદ્ધ કરેલા રૂબ્રિક સામે એન્જિનના વર્તનનું વર્ણન કરે છે; જંગલમાં અસ્તિત્વ ધરાવતા દરેક બ્લડ ટેસ્ટ પેનલ પર એન્જિનની ચોકસાઈ વિશે આ કોઈ સર્વવ્યાપી દાવો નથી.

સ્કોર કહે છે કે એન્જિને આ મૂલ્યાંકન માટે પસંદ કરાયેલા ડાયગ્નોસ્ટિક પેટર્ન્સને વસ્તી-સ્તરના કોહોર્ટમાં યોગ્ય રીતે સંભાળ્યા, એવી પદ્ધતિશાસ્ત્ર સાથે જે પ્રકાશિત અને પુનરુત્પાદ્ય છે. તે કહેતું નથી કે એન્જિન જંગલમાં અસ્તિત્વમાં રહેલા દરેક બ્લડ ટેસ્ટ પેનલ પર સાચું છે. તે કહેતું નથી કે એન્જિનને ક્લિનિશિયનના નિર્ણયને બદલેવું જોઈએ. અને તે કહેતું નથી કે એન્જિન વૈકલ્પિક AI સિસ્ટમ્સ કરતાં વધુ સારું છે — અન્ય એન્જિન્સ સામે તુલનાત્મક વિશ્લેષણો આ રિપોર્ટની વ્યાપ્તિ બહાર રાખવામાં આવ્યા હતા.

સ્કોર જે સ્થાપિત કરે છે તે એક બેઝલાઇન છે. રૂબ્રિક અને હાર્નેસ જાહેર હોવાથી, એન્જિનના ભવિષ્યના વર્ઝન્સને એ જ રૂબ્રિક સામે મૂલ્યાંકિત કરી શકાય છે — V11 પ્રારંભિક 15 કેસ પર, બીજું અપડેટ 100,000-કેસ કોહોર્ટ પર, અથવા કોઈપણ આગળના વિસ્તરણ પર — અને પ્રકાશિત સ્કોર અને કોઈપણ અનુગામી રન વચ્ચેનું અંતર પોતે જ માપી શકાય એવું છે. પ્રી-રજિસ્ટ્રેશનનું આ જ મૂલ્ય છે: તે કામગીરીના દાવાઓને પરીક્ષણયોગ્ય દાવાઓમાં રૂપાંતરિત કરે છે.

10 મિનિટમાં આ બેન્ચમાર્ક કેવી રીતે પુનઃઉત્પાદિત કરવો

પુનરુત્પાદન માટે માત્ર Kantesti API ક્રેડેન્શિયલ જોડી અને Python 3.10 અથવા પછીનું પર્યાવરણ જરૂરી છે, જેમાં requests અને reportlab લાઇબ્રેરીઓ ઇન્સ્ટોલ થયેલી હોય. સંપૂર્ણ હાર્નેસ MIT લાઇસન્સ હેઠળ પ્રકાશિત એક જ સ્વ-સમાવેશિત Python મોડ્યુલ છે.

V11 Second Update બેન્ચમાર્ક (99.80% કોમ્પોઝિટ, 100,000 કેસો, 127 દેશ-લેબલ્સ) દર્શાવતો રીપ્રોડ્યુસિબિલિટી નેટવર્ક ડાયાગ્રામ, Figshare, ResearchGate, Academia.edu અને GitHubમાં પ્રતિબિંબિત (mirrored) છે, જેમાં Figshare DOI ને કેનોનિકલ એન્કર તરીકે રાખવામાં આવ્યું છે
આકૃતિ 5: V11 બીજું અપડેટ બેન્ચમાર્ક — 127 દેશ-લેબલ્સમાં ફેલાયેલા 100,000 કેસો પર 99.80% સંયુક્ત સ્કોર — ચાર સંશોધન પ્લેટફોર્મ્સમાં પ્રતિબિંબિત (mirrored) કરવામાં આવ્યું છે. Figshare DOI એ કેનોનિકલ શૈક્ષણિક ઓળખકર્તા (identifier) છે; ResearchGate (publication 404175463), Academia.edu (paper 165956808), અને GitHub બેન્ચમાર્ક હાર્નેસ, કડક-સ્તરીય રૅન્ડમ કાચા પ્રતિભાવોના નમૂના (stratified random sample of raw responses), અને પ્રતિ-દેશ-લેબલ/પ્રતિ-વિશેષતા સ્કોરકાર્ડ્સની સમાન નકલો હોસ્ટ કરે છે.

તાજા રન માટે ચાર પગલાં

એક. રિપોઝિટરી ક્લોન કરો: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. બે. requirements.txt સાથે નિર્ભરતાઓ ઇન્સ્ટોલ કરો pip install -r requirements.txt (બીજું અપડેટ ઉમેરે છે mysql-connector-python ≥ 8.0 SQL કેસ લોડર માટે). ત્રણ. સેટ કરો KANTESTI_USERNAME અને KANTESTI_PASSWORD એન્જિન API માટે પર્યાવરણ ચલ (environment variables) તરીકે. બીજું અપડેટ SQL કેસ લોડર માટે, આ પણ સેટ કરો KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, અને KANTESTI_DB_PASSWORD — લોડર રીડ-ઓનલિ ભૂમિકા દ્વારા કનેક્ટ થાય છે (bench_reader) જેને ઓળખતી ટેબલ્સ પર કોઈ અધિકાર નથી. ચાર. ચલાવો python benchmark_bloodtest.py --limit 100000 સંપૂર્ણ Second-Update રન માટે, અથવા python benchmark_bloodtest.py --limit 1000 ઝડપી ઇટરેશન માટે. આઉટપુટ્સ અહીં જાય છે ./benchmark_results/: પ્રતિ-દેશ-લેબલ અને પ્રતિ-વિશેષતા કૉલમ્સ સાથેનું CSV સ્કોરકાર્ડ, એક JSON એગ્રિગેટ, કડક-સ્તરીય રૅન્ડમ કાચા-પ્રતિભાવનો નમૂનો, અને એક Markdown રિપોર્ટ.

23 એપ્રિલ 2026 (V11 પ્રારંભિક, 15 કેસ) અને 26 એપ્રિલ 2026 (V11 Second Update, 100,000 કેસ) ના રેફરન્સ રન રિપોઝિટરીની અંદરના results/ ડિરેક્ટરીમાં જાળવવામાં આવ્યા છે. નવો રન નવો ટાઈમસ્ટેમ્પ્ડ સ્કોરકાર્ડ બનાવશે જ્યારે રેફરન્સ રન અસ્પર્શિત રહેશે. જો તમારા રનનું પરિણામ અર્થપૂર્ણ રીતે અલગ આવે, તો કૃપા કરીને રન ટાઈમસ્ટેમ્પ અને રિસ્પોન્સ મેટાડેટામાં પરત મળેલ એન્જિન વર્ઝન સાથે GitHub ઇશ્યૂ ખોલો.

મર્યાદાઓ અને ભાવિ કાર્ય

127 દેશ-લેબલ્સમાં 100,000 કેસ હોવા છતાં, ચાર મર્યાદાઓને સ્પષ્ટ રીતે સ્વીકારવાની જરૂર છે: લાંબા-પૂંછ (long-tail) લેબલનું ઓછું નમૂનાકરણ (undersampling), એક-માત્ર મૂલ્યાંકન (single-shot evaluation), એક-માત્ર એન્જિનનો વ્યાપ (single-engine scope), અને એક-માત્ર સ્ત્રોત ડેટા મૂળ (single-source data origin). આમાંથી દરેકને સક્રિય અનુગામી કાર્યમાં સંબોધવામાં આવી રહ્યું છે.

લાંબા-પૂંછ લેબલ આવરણ (coverage). Second Updateમાં 127 દેશ-લેબલ્સ આવરી લેવાય છે, પરંતુ વિતરણ અસંતુલિત છે — ટોચના 10 લેબલ્સ કુલ કેસોમાંથી ≈66.4% ભાગ ધરાવે છે, અને બાકીના 97 વધારાના લેબલ્સની લાંબી પૂંછ સાથે મળીને ≈7.3% યોગદાન આપે છે (લગભગ 7,300 કેસો કુલ, સરેરાશ ~75 કેસ પ્રતિ લેબલ). તેથી આ લાંબી પૂંછમાં પ્રતિ-લેબલ કોમ્પોઝિટ્સ headline આંકડાઓ કરતાં વધુ અવાજવાળા (noisier) છે. ભવિષ્યના રન લેબલ નિમણૂક (label assignment)ને ફરી સંતુલિત કરશે જેથી પ્રતિ-લેબલ અંદાજો મજબૂત બને.

સિંગલ-શોટ મૂલ્યાંકન. કોહોર્ટના દરેક કેસનું મૂલ્યાંકન એક જ વખત કરવામાં આવ્યું હતું. મોટા ભાષા મોડલ્સ ઓછા સેમ્પલિંગ ટેમ્પરેચર પર પણ નોંધપાત્ર આઉટપુટ વેરિઅન્સ દર્શાવે છે, તેથી પ્રતિ કેસ પાંચ મૂલ્યાંકનો સાથે અને નોંધાયેલ વેરિઅન્સ ધરાવતો મલ્ટી-રન પ્રોટોકોલ સ્વાભાવિક આગળનું પગલું છે — ખાસ કરીને ટ્રેપ-કેસ સબસેટ પર, જ્યાં સેમ્પલિંગ જિટર હેઠળની સુસંગતતા સલામતી દાવાનો ભાગ છે.

સિંગલ-એન્જિન વ્યાપ. આ રિપોર્ટ એક જ એન્જિનનું વર્ણન કરે છે. વૈકલ્પિક AI સિસ્ટમ્સ સામે તુલનાત્મક વિશ્લેષણ અહીંના વ્યાપની બહાર છે; અમે સમાન MIT-લાઇસન્સ્ડ હાર્નેસ સામે યોગ્ય પદ્ધતિશાસ્ત્ર સાથે તેને અલગ સ્વતંત્ર અભ્યાસ તરીકે આગળ ધપાવી શકીએ છીએ.

કૃત્રિમ ડેટા (Synthetic data). 100,000 કેસો કૃત્રિમ રીતે જનરેટ થયેલા છે—કૃત્રિમ કેસો (synthetic cases) નહીં—અને પરિણામો વાસ્તવિક દુનિયાની ક્લિનિકલ કામગીરીમાં લાગુ પડતા નથી. વાસ્તવિક, સંમતિ આપેલ, બાહ્ય-સ્ત્રોત ડેટા પર મૂલ્યાંકન માટે યોગ્ય નૈતિક દેખરેખ (ethical oversight) જરૂરી પડશે અને આ કૃત્રિમ બેન્ચમાર્કની વ્યાપ્તિ (scope) બહાર છે.

આ ચારની બહાર, સૌથી વધુ અસરકારક આયોજન કરાયેલ વિસ્તરણ પ્રતિ-જ્યુરિસ્ડિક્શન બહુભાષીય સમાનતા છે. Kantesti AI એન્જિન 75+ ભાષાઓમાં વપરાશકર્તાઓને સેવા આપે છે, અને ભાષા-સ્તરિત Second-Update સબ-કોહોર્ટ્સ (તુર્કિશ, જર્મન, સ્પેનિશ, ફ્રેન્ચ, ઇટાલિયન, પોર્ટુગીઝ, અરબી, મૅન્ડેરિન) ચલાવવાથી એન્જિન દ્વારા સમર્થિત ભાષાઓમાં આઉટપુટ ગુણવત્તા માપવામાં આવશે. દરેક ભાષા-સ્તરિત વિશ્લેષણ પોતાનો DOI અને હાર્નેસ બ્રાંચ સાથે પ્રકાશિત કરવામાં આવશે.