આ બેન્ચમાર્ક શા માટે અસ્તિત્વમાં છે અને તે શું ચકાસે છે
AI-સહાયિત બ્લડ ટેસ્ટ રિપોર્ટ સમજો ગ્રાહક અને ક્લિનિકલ વર્કફ્લોમાં વધતી જતી રીતે વપરાય છે, છતાં પ્રયોગશાળા દવાખાનાની દૃષ્ટિએ અનુકૂળ, પુનઃઉત્પાદિત મૂલ્યાંકન ફ્રેમવર્ક્સ દુર્લભ રહે છે. આ પરિસ્થિતિમાં સૌથી મહત્વના પ્રશ્નો સામાન્ય મેડિકલ પ્રશ્ન-ઉત્તર બેન્ચમાર્ક્સમાં આવતાં નથી: જ્યારે મીન કોર્પસ્ક્યુલર વોલ્યુમ સમાન હોય ત્યારે શું એન્જિન આયર્ન ડિફિશિયન્સી ને થેલેસેમિયા ટ્રેઇટથી અલગ કરી શકે છે, શું તે ગિલ્બર્ટ્સ સિન્ડ્રોમને હેપેટાઇટિસ તરીકે વધુ નિદાન કરે છે, અને શું તે સંપૂર્ણ રીતે સામાન્ય સ્ક્રીનિંગ પેનલમાં પેથોલોજી “બનાવે” છે?
એક જ બ્લડ ટેસ્ટ પેનલ સામાન્ય રીતે અનેક સ્પર્ધાત્મક વ્યાખ્યાઓને ટેકો આપવા માટે પૂરતો સંકેત ધરાવે છે, અને વ્યાખ્યા આપતા ક્લિનિશિયનનું કામ એ છે કે તે વ્યાખ્યાઓને એકબીજા સામે તોલે, પુસ્તકના જવાબને શોધી કાઢવાને બદલે. જે એન્જિન પાઠ્યપુસ્તકના કેસોમાં સારું કરે છે તે પણ સૌથી વધુ મહત્વના કેસોમાં નિષ્ફળ જઈ શકે છે: ડિફરેનશિયલ-ડાયગ્નોસિસની ખામીઓ, એકલા જોવામાં ચિંતાજનક લાગતા નિર્દોષ વેરિઅન્ટ્સ, અને સંપૂર્ણ રીતે સામાન્ય પેનલ્સ જે આત્મવિશ્વાસી સહાયકોને પેથોલોજી બનાવવામાં લલચાવે છે.
આ બેન્ચમાર્ક ખાસ કરીને આ જ નિષ્ફળતા-રીતિઓને ધ્યાનમાં રાખીને બનાવવામાં આવ્યો હતો. પંદરેય કેસમાંથી દરેકને ચોક્કસ નિદાનાત્મક ગુણધર્મ માટે પસંદ કરવામાં આવ્યો હતો: આયર્નની ઉણપથી થતી માઇક્રોસાઇટોસિસને એવી બીટા-થેલેસેમિયા ટ્રેઇટથી અલગ રાખવી જ પડે જેમાં સમાન મીન કોર્પસ્ક્યુલર વોલ્યુમ હોય; ગિલ્બર્ટ્સ સિન્ડ્રોમનું પ્રસ્તુતિરૂપ જ્યાં એકમાત્ર અસામાન્યતા અલગ પડેલી ઇન્ડાયરેક્ટ હાઇપરબિલિરુબિનેમિયા હોય; અને પંદર-પરિમાણી સ્ક્રીનિંગ પેનલ જેમાં દરેક એનાલાઇટ તેના રેફરન્સ રેન્જની અંદર જ હોય. રૂબ્રિક એવા એન્જિનોને ઇનામ આપે છે જે દરેક કેસને તેના પોતાના સંદર્ભમાં વાંચે છે અને એવા એન્જિનોને દંડ આપે છે જે ત્યાં કોઈ એવી નિદાન-યોગ્યતા ન હોય છતાં આત્મવિશ્વાસભર્યું નિદાન સુધી પહોંચી જાય.
એમ.ડી. થોમસ ક્લાઇન તરીકે, મેં કેસ પેનલ પસંદ કરી કારણ કે આ જ એવા પેટર્ન્સ છે જે લેબોરેટરી-મેડિસિન સહાયકો સૌથી વધુ વાર ખોટા કરે છે. મોંઘી નિષ્ફળતા-રીતિ "દુર્લભ રોગ ચૂકી જવું" નથી — તે એવા દર્દીઓમાં નિયમિત (રૂટીન) પેથોલોજી ઘડી કાઢવી છે જેમને તે નથી. અમારા તબીબી માન્યતા hub વિશાળ ફ્રેમવર્કનું વર્ણન કરે છે; આ પેજ V11 પ્રારંભિક પ્રૂફ-ઓફ-કોન્સેપ્ટ અને V11 બીજું અપડેટ વર્ણવે છે, જેમાં તેને 127 દેશ-લેબલ્સને આવરી લેતા એક કૃત્રિમ કેસ સેટમાંથી લેવામાં આવેલા 100,000 કૃત્રિમ કેસો સુધી સ્કેલ કરવામાં આવ્યું — એ જ સ્કોરિંગ રૂબ્રિકનો ઉપયોગ કરીને, બાઇટ-સમાન, અને કોઈ પોસ્ટ-હોક ટ્યુનિંગની મંજૂરી વગર.
તાજેતરનું રેફરન્સ રન — V11 સેકન્ડ અપડેટ (26 એપ્રિલ, 2026)
26 એપ્રિલ, 2026ના V11 સેકન્ડ અપડેટ રેફરન્સ રને સંયુક્ત સ્કોર (કમ્પોઝિટ સ્કોર) ઉત્પન્ન કર્યો 99.80% V11 પ્રારંભિક રિલીઝમાં ઉપયોગમાં લેવાયેલા એ જ પૂર્વ-નોંધાયેલા રૂબ્રિક પર, મૂલ્યાંકન કરવામાં આવ્યું 100,000 કૃત્રિમ કેસો Kantesti કૃત્રિમ કેસ સેટમાંથી લેવામાં આવેલા અને તેમાં ફેલાયેલા 127 દેશ-લેબલ્સ અને 75+ ભાષાઓમાં ફેલાયેલા. દરેક કેસ એન્જિનના મુખ્ય પાથ પર પૂર્ણ થયો; ટ્રેપ-કેસ હાઇપરડાયગ્નોસિસ ફ્લેગ સક્રિયતાઓ 0 / 87,412. પર જ રહી. 23 એપ્રિલ, 2026ના મૂળ V11 રનમાં 15 હેન્ડ-ક્યુરેટેડ કેસો (કમ્પોઝિટ 99.12%) આવરી લેવાયા હતા અને રૂબ્રિકને માન્ય કરાયો હતો; સેકન્ડ અપડેટ એ જ રૂબ્રિકને બાઇટ-સમાન રાખે છે અને મૂલ્યાંકનને વસ્તી-સ્તરના કોહોર્ટ સુધી વિસ્તારે છે.
સંયુક્ત સૂત્ર ત્રણ ઘટકોને જોડે છે: સ્ટ્રક્ચરલ અનુરૂપતા સાત ફરજિયાત રિપોર્ટ વિભાગો અને સોળ ફરજિયાત ઉપવિભાગો સાથે, સામગ્રીની ચોકસાઈ જે કીવર્ડ રિકોલ + સ્કોરિંગ-સિસ્ટમ રિકોલ + પ્રોબેબિલિટી-ડિસ્ટ્રિબ્યુશન માન્યતા ચેક તરીકે માપવામાં આવે છે, અને પ્રતિભાવ લેટન્સી મુખ્ય-પાથ સર્વિસ-લેવલ લક્ષ્ય સામે. ચોક્કસ વિભાજન નીચેના રૂબ્રિક ફોર્મ્યુલામાં દર્શાવ્યું છે — સેકન્ડ અપડેટ માટે આ વજન કે ઉપ-રૂબ્રિક્સમાંથી કોઈપણ બદલાયા નથી.
બાકી રહેલા 0.20 ટકા પોઈન્ટ્સ જેટલું હેડરૂમ લગભગ સંપૂર્ણપણે ક્લિનિકલ ઉપ-સ્કોરમાં વિભાજિત થાય છે — કેસોના એક નાના ભાગમાં (મુખ્યત્વે હેપેટોલોજી અને ર્યુમેટોલોજીમાં) એક અપેક્ષિત સ્કોરિંગ-સિસ્ટમ કીવર્ડ એન્જિનની વ્યાખ્યામાં ગેરહાજર હતો, છતાં નિદાન સંબંધિત સામગ્રી સાચી હતી. 100,000-કેસ સેકન્ડ-અપડેટ કોહોર્ટમાં કોઈપણ કેસે પોતે નિદાન ચૂકી ન દીધું. લેટન્સી V11 પ્રારંભિક રિલીઝમાં સરેરાશ 20.17 s થી સેકન્ડ અપડેટમાં 13.26 s સુધી સુધરી; બે રન વચ્ચે પ્રોડક્શન એન્જિન ઑપ્ટિમાઇઝેશન્સને પ્રતિબિંબિત કરે છે. રૂબ્રિક, સ્કોરિંગ કોડ, અને API એન્ડપોઈન્ટ અપરિવર્તિત છે.
સૌથી વધુ પ્રતિનિધિત્વ ધરાવતા 30 દેશ-લેબલ્સમાં પ્રતિ-લેબલ સંયુક્ત સ્કોર 0.9971 થી 0.9985 વચ્ચે હતા. બાકીના 97 વધારાના લેબલ્સની લાંબી પૂંછડી (કુલ મળીને ≈7,300 કેસો)માં કોઈ વ્યવસ્થિત ઘટાડો જોવા મળ્યો નહીં. કેસ ગણતરી મુજબ સૌથી વધુ આવનારા લેબલ્સ હતા: યુનાઇટેડ સ્ટેટ્સ (10,500), બ્રાઝિલ (9,500), સ્પેન (9,000), ઇટાલી (8,000), જર્મની (7,800), ફ્રાન્સ (7,400), પોર્ટુગલ (5,800), Türkiye (3,400), યુનાઇટેડ કિંગડમ (2,900), અને મેક્સિકો (2,500).
15 કેસોથી 100,000 સુધી: 127 દેશ-લેબલ્સમાં કોહોર્ટનું વિકાસ
મૂળ V11 કેસ પેનલમાં સાત વિશેષતાઓ આવરી લેવાઈ હતી — હેમેટોલોજી, એન્ડોક્રિનોલોજી, મેટાબોલિક મેડિસિન, હેપેટોલોજી, નેફ્રોલોજી, કાર્ડિયોલોજી, ર્યુમેટોલોજી — ઉપરાંત બે સમર્પિત હાઇપરડાયગ્નોસિસ ટ્રેપ કેસો; દરેક કેસ કૃત્રિમ રીતે જનરેટ કરાયેલ બ્લડ-ટેસ્ટ પેનલ હતો. V11 બીજું અપડેટ મૂલ્યાંકનને 127 દેશ-લેબલ્સમાં ફેલાયેલા 100,000 કૃત્રિમ કેસો સુધી વિસ્તારે છે, આઠ વિશેષતાઓમાં વિતરિત (મૂળ સાત ઉપરાંત એક સમર્પિત આંતરિક-ચિકિત્સા બકેટ જે ટ્રેપ સબસેટને શોષે છે). એ જ સ્કોરિંગ રૂબ્રિક બંને રન દરમિયાન બાઇટ-સમાન રીતે લાગુ કરવામાં આવે છે.
કારણ કે બધા કેસો કૃત્રિમ રીતે જનરેટ થયેલા છે, દૂર કરવા માટે કોઈ વાસ્તવિક ઓળખકર્તાઓ નથી અને કોઈ વ્યક્તિગત ડેટા સામેલ નથી. દરેક કૃત્રિમ કેસમાં બેન્ચમાર્ક-આંતરિક કેસ કોડ હોય છે (V11 પ્રારંભિક સેટમાં BT-NNN-LABEL, બીજાં અપડેટમાં સ્થિર case_uid ). પ્રકાશિત હાર્નેસ, ટેકનિકલ રિપોર્ટ, અથવા રિલીઝ થયેલા ડેટાસેટ્સમાં ક્યાંય પણ વ્યક્તિગત ડેટા દેખાતું નથી.
V11 initial release — 15 hand-curated cases
મૂળ V11 કેસ પેનલનું હસ્તચાલિત પસંદગીકરણ ડૉ. થોમસ ક્લાઇન દ્વારા કરવામાં આવ્યું હતું, જેથી લેબોરેટરી-મેડિસિન સહાયકો સૌથી વધુ વાર જે નિદાનના પેટર્ન ખોટા સમજે છે તેને કસરતરૂપે ચકાસી શકાય. નીચે સૂચિબદ્ધ દરેક પંદર કેસને કોઈ ચોક્કસ નિદાન-ગુણધર્મ માટે પસંદ કરવામાં આવ્યો હતો.
આ ખાસ વિતરણ શા માટે
હેમેટોલોજીને ત્રણ કેસ મળે છે કારણ કે માઇક્રોસાઇટિક ડિફરેનશિયલ્સ અને મેક્રોસાઇટિક ડિફરેનશિયલ્સ વાસ્તવિક દુનિયાની લેબોરેટરી પ્રેક્ટિસમાં સૌથી વધુ વોલ્યુમ ધરાવતા ટ્રેપ્સ છે. એન્ડોક્રિનોલોજીને ત્રણ મળે છે કારણ કે હાશિમોટોનું, PCOS, અને વિટામિન ડી ની ઉણપની પ્રસ્તુતિઓ અલગ-અલગ નિદાનાત્મક આકારોનો અભ્યાસ કરે છે (ઓટોએન્ટિબોડી દ્વારા સંચાલિત, હોર્મોન-અનુપાત દ્વારા સંચાલિત, એકલ-માર્કર દ્વારા સંચાલિત). એકલ-કેસ વિશેષતાઓ હજી પણ અર્થપૂર્ણ છે કારણ કે દરેક CKD, ASCVD જોખમ, અને SLE પાસે પોતાનું સ્કોરિંગ સિસ્ટમ છે જેને એન્જિન બોલાવવું જોઈએ (ક્રમશઃ KDIGO સ્ટેજિંગ, ASCVD 10-વર્ષ જોખમ, અને 2019 EULAR/ACR SLE માપદંડો).
V11 બીજું અપડેટ — 127 દેશ-લેબલ્સમાં ફેલાયેલા 100,000 કૃત્રિમ કેસો
બીજું અપડેટ મૂળ V11 હાર્ડ-કોડેડ 15-કેસ Python literalને મોટા, પ્રોગ્રામેટિક રીતે જનરેટ કરાયેલા કૃત્રિમ કેસ સેટથી બદલે છે. કેસ સેટ દરેક રનની શરૂઆતમાં લોડ થાય છે અને પારદર્શિતાના માટે કન્ફિગરેશન લોગ કરવામાં આવે છે. સામગ્રી ક્ષેત્ર મુજબ કોહોર્ટનું વિતરણ નીચે દર્શાવ્યું છે.
કૃત્રિમ દેશ-લેબલ વિતરણ — ટોચના 10 લેબલ્સ
100,000 કૃત્રિમ કેસોમાં 127 દેશ-લેબલ્સ (ISO 3166-1 alpha-2) છે જેથી locale હેન્ડલિંગને ચકાસી શકાય. લેબલ નિમણૂક: યુરોપ 57.7%, અમેરિકા 25.4%, એશિયા-પેસિફિક 6.2%, નામિત મધ્ય-પૂર્વ/આફ્રિકા લેબલ્સ 3.4%, અને વધારાના 97 લેબલ્સની લાંબી પૂંછડી કુલ મળીને લગભગ 7.3%. કેસ ગણતરી મુજબ સૌથી વધુ આવનારા દસ લેબલ્સ હતા: યુનાઇટેડ સ્ટેટ્સ (10,500), બ્રાઝિલ (9,500), સ્પેન (9,000), ઇટાલી (8,000), જર્મની (7,800), ફ્રાન્સ (7,400), પોર્ટુગલ (5,800), Türkiye (3,400), યુનાઇટેડ કિંગડમ (2,900), અને મેક્સિકો (2,500). પ્રતિ-લેબલ સંયુક્ત સ્કોર 0.9971 થી 0.9985 વચ્ચે હતા. આ લેબલ ગણતરીઓ જનરેટ થયેલા કેસોની વિશેષતાઓ છે જે locale હેન્ડલિંગને ચકાસવા માટે વપરાય છે — તે વાસ્તવિક વપરાશકર્તાઓ નથી અને વાસ્તવિક-દુનિયાની ભૂગોળીય આવરણ નથી.
પૂર્વ-નોંધાયેલ રૂબ્રિક, સમજાવ્યું
પ્રી-રજિસ્ટ્રેશન આ બેન્ચમાર્કમાં સૌથી મહત્વપૂર્ણ પદ્ધતિગત પસંદગી છે. અપેક્ષિત દરેક નિદાન, દરેક ક્લિનિકલ સ્કોરિંગ સિસ્ટમ, અને દરેક રિપોર્ટ વિભાગને સોર્સ કોડમાં કમિટ કરવામાં આવ્યા હતા એન્જિન બોલાવ્યા પહેલાં. તેથી એન્જિનને ખુશ કરવા માટે રૂબ્રિકનું પોસ્ટ-હોક ટ્યુનિંગ અશક્ય છે.
સંયુક્ત સ્કોર બનાવવા માટે ત્રણ ઘટકો છે. માળખાકીય ઘટક 35 ટકા યોગદાન આપે છે અને માપે છે કે એન્જિનએ સાત ફરજિયાત રિપોર્ટ વિભાગો (હેડર, સારાંશ, મુખ્ય શોધો, ડિફરેનશિયલ, સ્કોરિંગ સિસ્ટમ્સ, ભલામણો, ફોલો-અપ) અને તેમાંના સોળ ફરજિયાત ઉપવિભાગો પરત કર્યા કે નહીં. માળખાકીય ગણતરીમાં વિભાગ હાજરી 40 ટકા વજન ધરાવે છે અને ઉપવિભાગ હાજરી 60 ટકા વજન ધરાવે છે.
આ ક્લિનિકલ ઘટક 55 ટકા યોગદાન આપે છે અને ત્રણ બાબતોને જોડે છે: નિદાન-કીવર્ડ રિકોલ (ક્લિનિકલ ઉપ-સ્કોરનું 70 ટકા), સ્કોરિંગ-સિસ્ટમ રિકોલ (20 ટકા — જ્યાં સંબંધિત હોય ત્યાં એન્જિન Mentzer, FIB-4, HOMA-IR, ASCVD જોખમ, KDIGO સ્ટેજિંગ, EULAR/ACR માપદંડો ગણતરી કરે છે કે નહીં), અને સંભાવના-સમ માન્યતા ચકાસણી (10 ટકા — ડિફરેનશિયલ સંભાવનાઓનો કુલ [90, 110] અંતરમાં હોવો જોઈએ). ટ્રેપ કેસોમાં, મહત્તમ 0.30 સુધીનું સ્પષ્ટ હાઇપરડાયગ્નોસિસ દંડ ઘટાડવામાં આવે છે, જે બનાવટી પેથોલોજી ફ્લેગ દીઠ 0.10 તરીકે ગણાય છે અને મહત્તમ ત્રણ ફ્લેગ સુધી મર્યાદિત છે.
આ લેટન્સી ઘટક 10 ટકા યોગદાન આપે છે. 20 સેકન્ડથી ઓછી પ્રતિભાવને સંપૂર્ણ 0.10 મળે છે, 40 સેકન્ડથી ઓછી પ્રતિભાવને 0.05 મળે છે, અને તેનાથી ધીમી કોઈપણ પ્રતિભાવને શૂન્ય મળે છે. 20 સેકન્ડનું લક્ષ્ય પ્રોડક્શન પ્રાઇમરી-પાથ સર્વિસ-લેવલ ઉદ્દેશ્ય દર્શાવે છે; 40 સેકન્ડની મહત્તમ મર્યાદા ભારે-એન્જિન ઇન્વોકેશન્સ માટે ફેઝ 2ની બેકઅપ બજેટ દર્શાવે છે.
પ્રી-રજિસ્ટ્રેશન શું અટકાવે છે
ફર્સ્ટ-પાર્ટી બેન્ચમાર્ક્સ પોસ્ટ-હોક રૂબ્રિક ટ્યુનિંગ દ્વારા પોતાની જ સંખ્યાઓ ફુલાવવાની માટે કુખ્યાત છે. પેટર્ન લગભગ હંમેશા એકસરખું જ હોય છે: ટીમ એન્જિન ચલાવે છે, ક્યાં તે ઓછું પ્રદર્શન કરે છે તે જુએ છે, અને પછી શાંતિથી રૂબ્રિક એ રીતે સમાયોજિત કરે છે કે ઓછું પ્રદર્શન કરનારા ક્ષેત્રોનું ગણતરીમાં વજન ઓછું પડે. પ્રથમ એન્જિન કોલ પહેલાં રૂબ્રિકને સોર્સ કોડમાં કમિટ કરીને અને MIT લાઇસન્સ હેઠળ હાર્નેસને પ્રકાશિત કરીને, આ સમાયોજન વર્ઝન કંટ્રોલમાં દેખાઈ જાય છે. કોઈપણ રિપોઝિટરી ક્લોન કરી શકે છે, રૂબ્રિકના લેખકની તારીખો ચકાસી શકે છે, અને ચકાસી શકે છે કે એન્જિનના પરિણામોનો ઉપયોગ સ્કોરિંગને આકાર આપવા માટે કરવામાં આવ્યો નહોતો.
હાઇપરડાયગ્નોસિસ ટ્રેપ કેસ — શા માટે અતિ-કોલિંગ જ વાસ્તવિક નિષ્ફળતા મોડ છે
નોર્મલ સ્ક્રીન્સ પર પેથોલોજીનું આક્રમક રીતે વધારે બોલવું એ કન્ઝ્યુમર-ફેસિંગ મેડિકલ અસિસ્ટન્ટ્સમાં દસ્તાવેજીકૃત નિષ્ફળતા મોડ છે. તેની ડાઉનસ્ટ્રીમ કિંમતમાં અનાવશ્યક તપાસ, દર્દીની ચિંતા, અને આયાટ્રોજેનિક વર્કઅપ શામેલ છે. આ બેન્ચમાર્કના બે ટ્રેપ કેસો આ નિષ્ફળતા મોડને દૃશ્યમાન અને સ્કોર કરી શકાય તે રીતે ડિઝાઇન કરવામાં આવ્યા છે.
🟡 ટ્રેપ 1 — BT-014-GILBERT
પ્રસ્તુતિ. કુલ બિલિરુબિન 2.4 mg/dL ધરાવતો 24 વર્ષનો પુરુષ. ડાયરેક્ટ ફ્રેક્શન નોર્મલ છે, ટ્રાન્સએમિનેઝ અને એલ્કલાઇન ફોસ્ફેટેઝ તેમના રેફરન્સ રેન્જની અંદર છે, રેટિક્યુલોસાઇટ્સ અસાધારણ નથી, અને હેપ્ટોગ્લોબિન તથા LDH હેમોલિસિસને નકારી કાઢે છે.
યોગ્ય અર્થઘટન. ગિલ્બર્ટનું સિન્ડ્રોમ — એક સૌમ્ય UGT1A1 પોલિમોર્ફિઝમ. અર્થઘટનમાં હેપેટાઇટિસ, સિર્રોસિસ, હેમોલાઇટિક એનિમિયા, અથવા બાઇલિયરી અવરોધને બોલાવવું ન જોઈએ.
V11 પરિણામ. સંયુક્ત 1.000. છ મોનિટર કરાયેલા ઓવર-ડાયગ્નોસિસ ફ્લેગમાંથી કોઈપણ સક્રિય નિદાન તરીકે દેખાયા નહોતા.
🟡 ટ્રેપ 2 — BT-015-HEALTHY
પ્રસ્તુતિ. પંદર-પરિમાણીય રૂટીન સ્ક્રીનિંગ પેનલ ધરાવતી 35 વર્ષની સ્ત્રી. દરેક એનાલાઇટ તેના રેફરન્સ રેન્જની અંદર આરામથી બેસે છે.
યોગ્ય અર્થઘટન. ખાતરી અને જીવનશૈલી જાળવણી. વ્યાખ્યાએ ક્લિનિકલી ઉપયોગી લાગે તે માટે સરહદી રોગવિજ્ઞાનનું કૃત્રિમ રીતે સર્જન ન કરવું જોઈએ.
V11 પરિણામ. સંયુક્ત 1.000. સાતમાંથી કોઈપણ સાત મોનિટર કરાયેલા અતિ-નિદાન (over-diagnosis) ફ્લેગ—ડાયાબિટીસ, એનિમિયા, હાઇપોથાયરોઇડિઝમ, ડિસલિપિડેમિયા, હેપેટાઇટિસ, કિડની રોગ, ઉણપ—સક્રિય નિદાન તરીકે દેખાયા નહોતા.
બંને ટ્રેપમાં કુલ તેર મોનિટર કરાયેલા અતિ-નિદાન (hyperdiagnosis) ફ્લેગ તપાસવામાં આવ્યા. કોઈપણ ટ્રિગર થયું નહીં. આ જ પરિણામ સૌથી વધુ મહત્વનું છે કોઈપણ ક્લિનિશિયન માટે જે AI એન્જિનને ટ્રાયેજ અથવા પ્રી-કન્સલ્ટેશન સાધન તરીકે વાપરવાનું વિચારે છે: સિસ્ટમે જ્યાં રોગ નહોતો ત્યાં રોગનું સર્જન કર્યું નહીં.
મેન્ટ્ઝર ઇન્ડેક્સ: આયર્નની ઉણપને થેલેસેમિયા ટ્રેઇટથી અલગ પાડવું
બીજું ઊંચી કિંમતનું શોધખોળ કેસ BT-001 (આયર્ન ડિફિશિયન્સી એનિમિયા) અને કેસ BT-007 (બેટા-થેલેસેમિયા માઇનર) વચ્ચેની જોડણી અંગે છે. બંનેમાં માઇક્રોસાઇટોસિસ જોવા મળે છે અને નિર્દોષ વર્ગીકરણકારો માટે આ જાણીતું અટકાવનારું મુદ્દો છે. મેન્ટ્ઝર ઇન્ડેક્સ, જે MCV ને RBC ગણતરીથી ભાગ કરીને ગણવામાં આવે છે, આયર્ન ડિફિશિયન્સીમાં 13 કરતાં વધુ અને થેલેસેમિયા ટ્રેઇટમાં 13 કરતાં ઓછું આવે છે.
BT-001 માં, દર્દી 34 વર્ષીય સ્ત્રી હતી, જેમનું હિમોગ્લોબિન 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ફેરિટિન 6 ng/mL અને વધેલું TIBC હતું. અંદાજે 17.7 નો મેન્ટ્ઝર ઇન્ડેક્સ સંપૂર્ણ આયર્ન ડિફિશિયન્સીને સમર્થન આપે છે. BT-007 માં, દર્દી 28 વર્ષીય પુરુષ હતો, જેમાં માઇક્રોસાઇટોસિસ (MCV 65.8 fL) હતું પરંતુ RBC ગણતરી 6.2 ઊંચી, RDW સામાન્ય, ફેરિટિન સામાન્ય અને HbA2 5.6 ટકા હતું. અંદાજે 10.6 નો મેન્ટ્ઝર ઇન્ડેક્સ થેલેસેમિયા ટ્રેઇટ તરફ સૂચવે છે, અને વધેલું HbA2 બેટા-થેલેસેમિયા માઇનરને પુષ્ટિ કરે છે.
બંને કેસનું સ્કોર 1.000 હતું. એન્જિનએ બંને વ્યાખ્યાઓમાં મેન્ટ્ઝર ઇન્ડેક્સને સ્પષ્ટ રીતે ઉપયોગ કર્યો અને દરેક પ્રસંગે યોગ્ય નિદાન પરત આપ્યું. સમગ્ર બેન્ચમાર્કમાં આ એકમાત્ર સૌથી વધુ ક્લિનિકલી ખાતરી આપતું પરિણામ છે, કારણ કે થેલેસેમિયા ટ્રેઇટને આયર્ન ડિફિશિયન્સી તરીકે ખોટું વર્ગીકૃત કરવાથી અયોગ્ય આયર્ન સપ્લિમેન્ટેશન થાય છે અને પરિવાર-સ્ક્રીનિંગની તકો ચૂકી જાય છે, અને આયર્ન ડિફિશિયન્સીને થેલેસેમિયા તરીકે ખોટું વર્ગીકૃત કરવાથી સરળ રિપ્લેસમેન્ટ થેરાપીમાં વિલંબ થાય છે. અમારી ફેરીટિન રેન્જ માર્ગદર્શિકા વ્યાપક ડિફરેનશિયલ સંદર્ભ સમજાવે છે.
V11 પ્રારંભિક રેફરન્સ રનમાંથી પ્રતિ-કેસ પરિણામો (23 એપ્રિલ, 2026)
15-કેસ પ્રૂફ-ઓફ-કોન્સેપ્ટ કોહોર્ટ પરનું મૂળ V11 રેફરન્સ રન એ પદ્ધતિશાસ્ત્રીય આધાર છે Second Update માટે: નીચેનો દરેક પ્રતિ-કેસ વિગતવાર ભાગ દર્શાવે છે કે રૂબ્રિક વાસ્તવિક એન્જિન પ્રતિસાદને કેવી રીતે હેન્ડલ કરે છે. પંદર પૈકી બાર કેસોએ પ્રાથમિક પાથ પર 1.000 ની મહત્તમ (ceiling) સંયુક્ત સ્કોર હાંસલ કરી; ત્રણ કેસો Phase 2 ફૉલબેક દ્વારા સર્વ કરવામાં આવ્યા, જેમાં 0.05 લેટન્સી બોનસ ગુમાયો પરંતુ તમામ ક્લિનિકલ અને માળખાકીય સામગ્રી જાળવાઈ. એક કેસમાં એક જ ફરજિયાત સબસેક્શન ગાયબ હતું; એક કેસે થોડું ઘટેલું probability distribution sum પરત કર્યું.
PCOS કેસ (BT-008) એ પ્રતિભાવની રચનામાં એક ફરજિયાત ઉપવિભાગ ગુમાવ્યો — સોળમાંથી પંદર બદલે સોળમાંથી સોળ — જેના કારણે રચનાત્મક સ્કોર 1.000 થી 0.963 થયો. SLE કેસ (BT-011) એ થોડું ઘટેલું સંભાવના-વિતરણનું કુલ પરત કર્યું, જેના કારણે ક્લિનિકલ સ્કોર 0.965 થયો, અને દરેક નિદાન સંબંધિત કીવર્ડ તથા સ્કોરિંગ સિસ્ટમ જાળવી રાખી. કોઈપણ ઉપ-પરફેક્ટ કેસે યોગ્ય નિદાન ચૂકી દીધું નહીં.
V11 Second Update સંયુક્ત — 100,000 કેસ
વસ્તી સ્તરે, વ્યક્તિગત કેસની પંક્તિઓ માનવ-વાંચનીય નથી, તેથી બીજું અપડેટ 100,000-પંક્તિની ટેબલ કરતાં સંકલિત (aggregated) મેટ્રિક્સ રજૂ કરે છે. મુખ્ય સંકલન નીચે બતાવવામાં આવ્યું છે; પ્રતિ-વિશેષતા અને પ્રતિ-દેશ-લેબલ વિભાજનો ટેકનિકલ રિપોર્ટ અને Figshare ડિપોઝિટમાં પ્રકાશિત કરવામાં આવ્યા છે. સ્તરીકૃત રૅન્ડમ નમૂનાનું n = 201 કાચા એન્જિન પ્રતિસાદો (નિર્ધારિત seed 20260426) નિરીક્ષણ માટે GitHub results/ ડિરેક્ટરીમાં પ્રકાશિત કરવામાં આવે છે.
હેડલાઇન સ્કોર અમને શું નથી જણાવતો
આ ખાસ પ્રી-રજિસ્ટર્ડ રૂબ્રિક હેઠળ 99.80 ટકા નો સંયુક્ત સ્કોર, 127 દેશ-લેબલ્સને આવરી લેતા 100,000-કેસ કૃત્રિમ કોહોર્ટ પર, લગભગ-છત (near-ceiling) પ્રદર્શન દર્શાવે છે — પરંતુ તેને કાળજીપૂર્વક સંદર્ભમાં મૂકવું જોઈએ. પરિણામ V11માં અમે સોર્સ કોડમાં પ્રતિબદ્ધ કરેલા રૂબ્રિક સામે એન્જિનના વર્તનનું વર્ણન કરે છે; જંગલમાં અસ્તિત્વ ધરાવતા દરેક બ્લડ ટેસ્ટ પેનલ પર એન્જિનની ચોકસાઈ વિશે આ કોઈ સર્વવ્યાપી દાવો નથી.
સ્કોર કહે છે કે એન્જિને આ મૂલ્યાંકન માટે પસંદ કરાયેલા ડાયગ્નોસ્ટિક પેટર્ન્સને વસ્તી-સ્તરના કોહોર્ટમાં યોગ્ય રીતે સંભાળ્યા, એવી પદ્ધતિશાસ્ત્ર સાથે જે પ્રકાશિત અને પુનરુત્પાદ્ય છે. તે કહેતું નથી કે એન્જિન જંગલમાં અસ્તિત્વમાં રહેલા દરેક બ્લડ ટેસ્ટ પેનલ પર સાચું છે. તે કહેતું નથી કે એન્જિનને ક્લિનિશિયનના નિર્ણયને બદલેવું જોઈએ. અને તે કહેતું નથી કે એન્જિન વૈકલ્પિક AI સિસ્ટમ્સ કરતાં વધુ સારું છે — અન્ય એન્જિન્સ સામે તુલનાત્મક વિશ્લેષણો આ રિપોર્ટની વ્યાપ્તિ બહાર રાખવામાં આવ્યા હતા.
સ્કોર જે સ્થાપિત કરે છે તે એક બેઝલાઇન છે. રૂબ્રિક અને હાર્નેસ જાહેર હોવાથી, એન્જિનના ભવિષ્યના વર્ઝન્સને એ જ રૂબ્રિક સામે મૂલ્યાંકિત કરી શકાય છે — V11 પ્રારંભિક 15 કેસ પર, બીજું અપડેટ 100,000-કેસ કોહોર્ટ પર, અથવા કોઈપણ આગળના વિસ્તરણ પર — અને પ્રકાશિત સ્કોર અને કોઈપણ અનુગામી રન વચ્ચેનું અંતર પોતે જ માપી શકાય એવું છે. પ્રી-રજિસ્ટ્રેશનનું આ જ મૂલ્ય છે: તે કામગીરીના દાવાઓને પરીક્ષણયોગ્ય દાવાઓમાં રૂપાંતરિત કરે છે.
10 મિનિટમાં આ બેન્ચમાર્ક કેવી રીતે પુનઃઉત્પાદિત કરવો
પુનરુત્પાદન માટે માત્ર Kantesti API ક્રેડેન્શિયલ જોડી અને Python 3.10 અથવા પછીનું પર્યાવરણ જરૂરી છે, જેમાં requests અને reportlab લાઇબ્રેરીઓ ઇન્સ્ટોલ થયેલી હોય. સંપૂર્ણ હાર્નેસ MIT લાઇસન્સ હેઠળ પ્રકાશિત એક જ સ્વ-સમાવેશિત Python મોડ્યુલ છે.
તાજા રન માટે ચાર પગલાં
એક. રિપોઝિટરી ક્લોન કરો: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. બે. requirements.txt સાથે નિર્ભરતાઓ ઇન્સ્ટોલ કરો pip install -r requirements.txt (બીજું અપડેટ ઉમેરે છે mysql-connector-python ≥ 8.0 SQL કેસ લોડર માટે). ત્રણ. સેટ કરો KANTESTI_USERNAME અને KANTESTI_PASSWORD એન્જિન API માટે પર્યાવરણ ચલ (environment variables) તરીકે. બીજું અપડેટ SQL કેસ લોડર માટે, આ પણ સેટ કરો KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, અને KANTESTI_DB_PASSWORD — લોડર રીડ-ઓનલિ ભૂમિકા દ્વારા કનેક્ટ થાય છે (bench_reader) જેને ઓળખતી ટેબલ્સ પર કોઈ અધિકાર નથી. ચાર. ચલાવો python benchmark_bloodtest.py --limit 100000 સંપૂર્ણ Second-Update રન માટે, અથવા python benchmark_bloodtest.py --limit 1000 ઝડપી ઇટરેશન માટે. આઉટપુટ્સ અહીં જાય છે ./benchmark_results/: પ્રતિ-દેશ-લેબલ અને પ્રતિ-વિશેષતા કૉલમ્સ સાથેનું CSV સ્કોરકાર્ડ, એક JSON એગ્રિગેટ, કડક-સ્તરીય રૅન્ડમ કાચા-પ્રતિભાવનો નમૂનો, અને એક Markdown રિપોર્ટ.
23 એપ્રિલ 2026 (V11 પ્રારંભિક, 15 કેસ) અને 26 એપ્રિલ 2026 (V11 Second Update, 100,000 કેસ) ના રેફરન્સ રન રિપોઝિટરીની અંદરના results/ ડિરેક્ટરીમાં જાળવવામાં આવ્યા છે. નવો રન નવો ટાઈમસ્ટેમ્પ્ડ સ્કોરકાર્ડ બનાવશે જ્યારે રેફરન્સ રન અસ્પર્શિત રહેશે. જો તમારા રનનું પરિણામ અર્થપૂર્ણ રીતે અલગ આવે, તો કૃપા કરીને રન ટાઈમસ્ટેમ્પ અને રિસ્પોન્સ મેટાડેટામાં પરત મળેલ એન્જિન વર્ઝન સાથે GitHub ઇશ્યૂ ખોલો.
મર્યાદાઓ અને ભાવિ કાર્ય
127 દેશ-લેબલ્સમાં 100,000 કેસ હોવા છતાં, ચાર મર્યાદાઓને સ્પષ્ટ રીતે સ્વીકારવાની જરૂર છે: લાંબા-પૂંછ (long-tail) લેબલનું ઓછું નમૂનાકરણ (undersampling), એક-માત્ર મૂલ્યાંકન (single-shot evaluation), એક-માત્ર એન્જિનનો વ્યાપ (single-engine scope), અને એક-માત્ર સ્ત્રોત ડેટા મૂળ (single-source data origin). આમાંથી દરેકને સક્રિય અનુગામી કાર્યમાં સંબોધવામાં આવી રહ્યું છે.
લાંબા-પૂંછ લેબલ આવરણ (coverage). Second Updateમાં 127 દેશ-લેબલ્સ આવરી લેવાય છે, પરંતુ વિતરણ અસંતુલિત છે — ટોચના 10 લેબલ્સ કુલ કેસોમાંથી ≈66.4% ભાગ ધરાવે છે, અને બાકીના 97 વધારાના લેબલ્સની લાંબી પૂંછ સાથે મળીને ≈7.3% યોગદાન આપે છે (લગભગ 7,300 કેસો કુલ, સરેરાશ ~75 કેસ પ્રતિ લેબલ). તેથી આ લાંબી પૂંછમાં પ્રતિ-લેબલ કોમ્પોઝિટ્સ headline આંકડાઓ કરતાં વધુ અવાજવાળા (noisier) છે. ભવિષ્યના રન લેબલ નિમણૂક (label assignment)ને ફરી સંતુલિત કરશે જેથી પ્રતિ-લેબલ અંદાજો મજબૂત બને.
સિંગલ-શોટ મૂલ્યાંકન. કોહોર્ટના દરેક કેસનું મૂલ્યાંકન એક જ વખત કરવામાં આવ્યું હતું. મોટા ભાષા મોડલ્સ ઓછા સેમ્પલિંગ ટેમ્પરેચર પર પણ નોંધપાત્ર આઉટપુટ વેરિઅન્સ દર્શાવે છે, તેથી પ્રતિ કેસ પાંચ મૂલ્યાંકનો સાથે અને નોંધાયેલ વેરિઅન્સ ધરાવતો મલ્ટી-રન પ્રોટોકોલ સ્વાભાવિક આગળનું પગલું છે — ખાસ કરીને ટ્રેપ-કેસ સબસેટ પર, જ્યાં સેમ્પલિંગ જિટર હેઠળની સુસંગતતા સલામતી દાવાનો ભાગ છે.
સિંગલ-એન્જિન વ્યાપ. આ રિપોર્ટ એક જ એન્જિનનું વર્ણન કરે છે. વૈકલ્પિક AI સિસ્ટમ્સ સામે તુલનાત્મક વિશ્લેષણ અહીંના વ્યાપની બહાર છે; અમે સમાન MIT-લાઇસન્સ્ડ હાર્નેસ સામે યોગ્ય પદ્ધતિશાસ્ત્ર સાથે તેને અલગ સ્વતંત્ર અભ્યાસ તરીકે આગળ ધપાવી શકીએ છીએ.
કૃત્રિમ ડેટા (Synthetic data). 100,000 કેસો કૃત્રિમ રીતે જનરેટ થયેલા છે—કૃત્રિમ કેસો (synthetic cases) નહીં—અને પરિણામો વાસ્તવિક દુનિયાની ક્લિનિકલ કામગીરીમાં લાગુ પડતા નથી. વાસ્તવિક, સંમતિ આપેલ, બાહ્ય-સ્ત્રોત ડેટા પર મૂલ્યાંકન માટે યોગ્ય નૈતિક દેખરેખ (ethical oversight) જરૂરી પડશે અને આ કૃત્રિમ બેન્ચમાર્કની વ્યાપ્તિ (scope) બહાર છે.
આ ચારની બહાર, સૌથી વધુ અસરકારક આયોજન કરાયેલ વિસ્તરણ પ્રતિ-જ્યુરિસ્ડિક્શન બહુભાષીય સમાનતા છે. Kantesti AI એન્જિન 75+ ભાષાઓમાં વપરાશકર્તાઓને સેવા આપે છે, અને ભાષા-સ્તરિત Second-Update સબ-કોહોર્ટ્સ (તુર્કિશ, જર્મન, સ્પેનિશ, ફ્રેન્ચ, ઇટાલિયન, પોર્ટુગીઝ, અરબી, મૅન્ડેરિન) ચલાવવાથી એન્જિન દ્વારા સમર્થિત ભાષાઓમાં આઉટપુટ ગુણવત્તા માપવામાં આવશે. દરેક ભાષા-સ્તરિત વિશ્લેષણ પોતાનો DOI અને હાર્નેસ બ્રાંચ સાથે પ્રકાશિત કરવામાં આવશે.