Kantesti AI બ્લડ ટેસ્ટ બેન્ચમાર્ક — ક્લિનિકલ વેલિડેશન

સ્વચાલિત બેન્ચમાર્ક પૂર્વ-નોંધાયેલ બેન્ચમાર્ક V11 બીજું અપડેટ — એપ્રિલ 2026 MIT લાઇસન્સ્ડ પુનરુત્પાદ્ય · ખુલ્લા ડેટા 100K કૃત્રિમ કોહોર્ટ · 127 દેશ-લેબલ્સ

99.80% પ્રી-રજિસ્ટર્ડ રૂબ્રિક પર સંયુક્ત સ્કોર — V11 બીજું અપડેટ, 100,000-કેસ કોહોર્ટ 127 દેશ-લેબલ્સમાં

Kantesti એન્જિનના માટે 100,000 કૃત્રિમ રીતે જનરેટ કરાયેલા બ્લડ-ટેસ્ટ કેસો પર 127 દેશ-લેબલ્સ સાથે પ્રી-રજિસ્ટર્ડ, રૂબ્રિક-આધારિત સ્વચાલિત ટેકનિકલ બેન્ચમાર્ક. તે નિદાનની ચોકસાઈ નહીં, પરંતુ આઉટપુટ અનુરૂપતા માપે છે. રૂબ્રિક V11ના પ્રારંભિક રિલીઝ પહેલાં સોર્સ કોડમાં સ્થિર (ફ્રોઝન) કરવામાં આવ્યું હતું અને આ બીજાં અપડેટ માટે બાઇટ-સમાન રાખવામાં આવ્યું હતું; મૂલ્યાંકન હાર્નેસ MIT-લાઇસન્સ્ડ છે; નિરીક્ષણ માટે કાચા એન્જિન પ્રતિસાદોના સ્તરીકૃત રૅન્ડમ નમૂનાનું પ્રકાશન કરવામાં આવ્યું છે. બધા કેસો કૃત્રિમ છે; કોઈ વ્યક્તિગત માહિતીનો ઉપયોગ થતો નથી.

📖 ~14 મિનિટ 📅 23 એપ્રિલ, 2026ના રોજ પ્રકાશિત · 26 એપ્રિલ, 2026ના રોજ અપડેટ (V11 બીજું અપડેટ) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 પ્રકાશિત: 23 એપ્રિલ, 2026 🔄 V11 બીજું અપડેટ: એપ્રિલ 26, 2026 🩺 તબીબી રીતે સમીક્ષિત: એપ્રિલ 26, 2026 ✅ પ્રી-રજિસ્ટર્ડ રૂબ્રિક (બાઇટ-સમાન) 🔓 ખુલ્લો કોડ અને ડેટા

આ સ્વચાલિત બેન્ચમાર્કનું ડિઝાઇન અને સંચાલન દ્વારા કરવામાં આવ્યું હતું જુલિયન એમિરહાન બુલુટ, સિનિયર AI એન્જિનિયર અને Kantesti Ltdના CEO. સ્કોરિંગ સંપૂર્ણપણે સોર્સ કોડમાં સ્વચાલિત છે; સ્કોરિંગ રૂબ્રિક અને કેસ પેનલનું વિકાસ ક્લિનિકલ ઇનપુટ સાથે કરવામાં આવ્યું હતું ડૉ. થોમસ ક્લેઈન, એમડી, Kantesti AI ખાતેના ચીફ મેડિકલ ઓફિસર દ્વારા, અને તેની સમીક્ષા દ્વારા કરવામાં આવી હતી કાન્ટેસ્ટી એઆઈ મેડિકલ એડવાઇઝરી બોર્ડ. આ એક સ્વ-ચાલિત આંતરિક બેન્ચમાર્ક છે, સ્વતંત્ર અથવા પિયર-રિવ્યુડ સ્વચાલિત ટેકનિકલ બેન્ચમાર્ક નથી.

લીડ ઓથર અને ક્લિનિકલ ઓવરસાઇટ

થોમસ ક્લેઈન, એમડી

મુખ્ય તબીબી અધિકારી, કાન્ટેસ્ટી એઆઈ

ડૉ. થોમસ ક્લાઇન બોર્ડ-સર્ટિફાઇડ ક્લિનિકલ હેમેટોલોજિસ્ટ અને ઇન્ટર્નિસ્ટ છે, જેમને લેબોરેટરી મેડિસિનમાં 15 વર્ષથી વધુનો અનુભવ છે. Kantesti AI ખાતે ચીફ મેડિકલ ઓફિસર તરીકે, તેમણે આ બેન્ચમાર્ક માટે કેસ પેનલ પસંદ કરી, કૃત્રિમ કેસોની ક્લિનિકલ સામગ્રી અને અપેક્ષિત જવાબોની સમીક્ષા કરી, અને પ્રથમ એન્જિન ઇન્વોકેશન પહેલાં પ્રી-રજિસ્ટર્ડ રૂબ્રિકને મંજૂરી આપી.

ORCID 0009-0009-1490-1321 રિસર્ચગેટ ગુગલ સ્કોલર

સહ-લેખક & અમલીકરણ

જુલિયન એમિરહાન બુલુટ

સિનિયર AI એન્જિનિયર & CEO, Kantesti Ltd

જુલિયન એમિરહાન બુલુટ Kantesti Ltdના સ્થાપક અને CEO છે. તેમણે મૂલ્યાંકન હાર્નેસ ડિઝાઇન અને અમલમાં મૂક્યું — જેમાં V11 બીજાં અપડેટ માટે ઉમેરાયેલ SQL કેસ લોડર પણ શામેલ છે — API ઇન્ટિગ્રેશન કર્યું, V11 પ્રારંભિક રેફરન્સ રન અને V11 બીજું અપડેટ 100,000-કેસ રન બંને ચલાવ્યા, અને આંકડાકીય એકત્રીકરણ તૈયાર કર્યું. 2019થી પ્લેટફોર્મના સ્થાપક.

GitHub કાન્ટેસ્ટી વિશે

⚡ ઝડપી સારાંશ V11 બીજું અપડેટ — એપ્રિલ 26, 2026

99.80% કોમ્પોઝિટ સ્કોર આઠ ચિકિત્સા વિશેષતાઓ અને 127 દેશ-લેબલ્સમાં ફેલાયેલા 100,000 કૃત્રિમ બ્લડ-ટેસ્ટ કેસો પર (V11 બીજું અપડેટ).
શૂન્ય હાઇપરડાયગ્નોસિસ ફોલ્સ-પોઝિટિવ્સ 87,412 મોનિટર કરેલી ટ્રેપ-કેસ ફ્લેગ તકોમાં — V11 પ્રારંભિક જેવી જ ટ્રેપ-કેસ પદ્ધતિ, વસ્તી સ્તર સુધી સ્કેલ કરેલી.
પૂર્વ-નોંધાયેલ રૂબ્રિક V11 પ્રારંભિક રન પહેલાં સોર્સ કોડમાં ફ્રોઝન કરવામાં આવ્યું હતું અને રાખવામાં આવ્યું બાઇટ-સમાન આ બીજાં અપડેટ માટે — કોઈ પોસ્ટ-હોક ટ્યુનિંગ શક્ય નહોતું.
મેન્ટ્ઝર ઇન્ડેક્સ યોગ્ય રીતે લાગુ કરાયો V11 પ્રારંભિક રિલીઝમાં આયર્ન ડિફિશિયન્સી એનિમિયા ને બેટા-થેલેસેમિયા માઇનરથી અલગ પાડવા માટે; વસ્તી સ્તરે ભિન્ન વર્તન જાળવાયું હતું.
માત્ર પ્રોડક્શન એન્ડપોઇન્ટ — કોઈ વિશેષાધિકૃત રૂટિંગ નહીં; તેનું મૂલ્યાંકન બિલકુલ એ રીતે કરવામાં આવ્યું જેમ ચૂકવણી કરતો ગ્રાહક તેને ઍક્સેસ કરે.
13.26 સેકન્ડ સરેરાશ લેટન્સી એન્ડ-ટુ-એન્ડ (રેન્જ 9.0–16.94 સેકન્ડ), અને તમામ 100,000 કેસ એન્જિનના પ્રાથમિક પાથ પર પૂર્ણ થયા.
કૃત્રિમ કોહોર્ટ. રન-ટાઇમ પર લોડ કરાયેલા 100,000 કૃત્રિમ રીતે જનરેટ કરાયેલા ટેસ્ટ કેસો. કોઈ કૃત્રિમ ડેટા અને કોઈ વ્યક્તિગત ડેટાનો ઉપયોગ થતો નથી.
MIT-લાઇસન્સ્ડ હાર્નેસ GitHub પર નિરીક્ષણ માટે સ્તરીકૃત રૅન્ડમ નમૂનો (n = 201) તરીકે સંપૂર્ણ કાચા એન્જિન પ્રતિસાદ સાથે રિલીઝ કરવામાં આવ્યું.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub પર મિરર કરેલું.

આ બેન્ચમાર્ક શા માટે અસ્તિત્વમાં છે અને તે શું ચકાસે છે

AI-સહાયિત બ્લડ ટેસ્ટ રિપોર્ટ સમજો ગ્રાહક અને ક્લિનિકલ વર્કફ્લોમાં વધતી જતી રીતે વપરાય છે, છતાં પ્રયોગશાળા દવાખાનાની દૃષ્ટિએ અનુકૂળ, પુનઃઉત્પાદિત મૂલ્યાંકન ફ્રેમવર્ક્સ દુર્લભ રહે છે. આ પરિસ્થિતિમાં સૌથી મહત્વના પ્રશ્નો સામાન્ય મેડિકલ પ્રશ્ન-ઉત્તર બેન્ચમાર્ક્સમાં આવતાં નથી: જ્યારે મીન કોર્પસ્ક્યુલર વોલ્યુમ સમાન હોય ત્યારે શું એન્જિન આયર્ન ડિફિશિયન્સી ને થેલેસેમિયા ટ્રેઇટથી અલગ કરી શકે છે, શું તે ગિલ્બર્ટ્સ સિન્ડ્રોમને હેપેટાઇટિસ તરીકે વધુ નિદાન કરે છે, અને શું તે સંપૂર્ણ રીતે સામાન્ય સ્ક્રીનિંગ પેનલમાં પેથોલોજી “બનાવે” છે?

એક જ બ્લડ ટેસ્ટ પેનલ સામાન્ય રીતે અનેક સ્પર્ધાત્મક વ્યાખ્યાઓને ટેકો આપવા માટે પૂરતો સંકેત ધરાવે છે, અને વ્યાખ્યા આપતા ક્લિનિશિયનનું કામ એ છે કે તે વ્યાખ્યાઓને એકબીજા સામે તોલે, પુસ્તકના જવાબને શોધી કાઢવાને બદલે. જે એન્જિન પાઠ્યપુસ્તકના કેસોમાં સારું કરે છે તે પણ સૌથી વધુ મહત્વના કેસોમાં નિષ્ફળ જઈ શકે છે: ડિફરેનશિયલ-ડાયગ્નોસિસની ખામીઓ, એકલા જોવામાં ચિંતાજનક લાગતા નિર્દોષ વેરિઅન્ટ્સ, અને સંપૂર્ણ રીતે સામાન્ય પેનલ્સ જે આત્મવિશ્વાસી સહાયકોને પેથોલોજી બનાવવામાં લલચાવે છે.

આ બેન્ચમાર્ક ખાસ કરીને આ જ નિષ્ફળતા-રીતિઓને ધ્યાનમાં રાખીને બનાવવામાં આવ્યો હતો. પંદરેય કેસમાંથી દરેકને ચોક્કસ નિદાનાત્મક ગુણધર્મ માટે પસંદ કરવામાં આવ્યો હતો: આયર્નની ઉણપથી થતી માઇક્રોસાઇટોસિસને એવી બીટા-થેલેસેમિયા ટ્રેઇટથી અલગ રાખવી જ પડે જેમાં સમાન મીન કોર્પસ્ક્યુલર વોલ્યુમ હોય; ગિલ્બર્ટ્સ સિન્ડ્રોમનું પ્રસ્તુતિરૂપ જ્યાં એકમાત્ર અસામાન્યતા અલગ પડેલી ઇન્ડાયરેક્ટ હાઇપરબિલિરુબિનેમિયા હોય; અને પંદર-પરિમાણી સ્ક્રીનિંગ પેનલ જેમાં દરેક એનાલાઇટ તેના રેફરન્સ રેન્જની અંદર જ હોય. રૂબ્રિક એવા એન્જિનોને ઇનામ આપે છે જે દરેક કેસને તેના પોતાના સંદર્ભમાં વાંચે છે અને એવા એન્જિનોને દંડ આપે છે જે ત્યાં કોઈ એવી નિદાન-યોગ્યતા ન હોય છતાં આત્મવિશ્વાસભર્યું નિદાન સુધી પહોંચી જાય.

એમ.ડી. થોમસ ક્લાઇન તરીકે, મેં કેસ પેનલ પસંદ કરી કારણ કે આ જ એવા પેટર્ન્સ છે જે લેબોરેટરી-મેડિસિન સહાયકો સૌથી વધુ વાર ખોટા કરે છે. મોંઘી નિષ્ફળતા-રીતિ "દુર્લભ રોગ ચૂકી જવું" નથી — તે એવા દર્દીઓમાં નિયમિત (રૂટીન) પેથોલોજી ઘડી કાઢવી છે જેમને તે નથી. અમારા તબીબી માન્યતા hub વિશાળ ફ્રેમવર્કનું વર્ણન કરે છે; આ પેજ V11 પ્રારંભિક પ્રૂફ-ઓફ-કોન્સેપ્ટ અને V11 બીજું અપડેટ વર્ણવે છે, જેમાં તેને 127 દેશ-લેબલ્સને આવરી લેતા એક કૃત્રિમ કેસ સેટમાંથી લેવામાં આવેલા 100,000 કૃત્રિમ કેસો સુધી સ્કેલ કરવામાં આવ્યું — એ જ સ્કોરિંગ રૂબ્રિકનો ઉપયોગ કરીને, બાઇટ-સમાન, અને કોઈ પોસ્ટ-હોક ટ્યુનિંગની મંજૂરી વગર.

તાજેતરનું રેફરન્સ રન — V11 સેકન્ડ અપડેટ (26 એપ્રિલ, 2026)

26 એપ્રિલ, 2026ના V11 સેકન્ડ અપડેટ રેફરન્સ રને સંયુક્ત સ્કોર (કમ્પોઝિટ સ્કોર) ઉત્પન્ન કર્યો 99.80% V11 પ્રારંભિક રિલીઝમાં ઉપયોગમાં લેવાયેલા એ જ પૂર્વ-નોંધાયેલા રૂબ્રિક પર, મૂલ્યાંકન કરવામાં આવ્યું 100,000 કૃત્રિમ કેસો Kantesti કૃત્રિમ કેસ સેટમાંથી લેવામાં આવેલા અને તેમાં ફેલાયેલા 127 દેશ-લેબલ્સ અને 75+ ભાષાઓમાં ફેલાયેલા. દરેક કેસ એન્જિનના મુખ્ય પાથ પર પૂર્ણ થયો; ટ્રેપ-કેસ હાઇપરડાયગ્નોસિસ ફ્લેગ સક્રિયતાઓ 0 / 87,412. પર જ રહી. 23 એપ્રિલ, 2026ના મૂળ V11 રનમાં 15 હેન્ડ-ક્યુરેટેડ કેસો (કમ્પોઝિટ 99.12%) આવરી લેવાયા હતા અને રૂબ્રિકને માન્ય કરાયો હતો; સેકન્ડ અપડેટ એ જ રૂબ્રિકને બાઇટ-સમાન રાખે છે અને મૂલ્યાંકનને વસ્તી-સ્તરના કોહોર્ટ સુધી વિસ્તારે છે.

સંયુક્ત 99.80% 100,000માંથી 100,000 કેસોએ સ્કોર કર્યો

1.000 સ્ટ્રક્ચરલ સ્કોર

0.996 ક્લિનિકલ સ્કોર

13.26 s સરેરાશ લેટન્સી

0 / 87,412 ટ્રેપ ફોલ્સ-પોઝિટિવ્સ

સંયુક્ત સૂત્ર ત્રણ ઘટકોને જોડે છે: સ્ટ્રક્ચરલ અનુરૂપતા સાત ફરજિયાત રિપોર્ટ વિભાગો અને સોળ ફરજિયાત ઉપવિભાગો સાથે, સામગ્રીની ચોકસાઈ જે કીવર્ડ રિકોલ + સ્કોરિંગ-સિસ્ટમ રિકોલ + પ્રોબેબિલિટી-ડિસ્ટ્રિબ્યુશન માન્યતા ચેક તરીકે માપવામાં આવે છે, અને પ્રતિભાવ લેટન્સી મુખ્ય-પાથ સર્વિસ-લેવલ લક્ષ્ય સામે. ચોક્કસ વિભાજન નીચેના રૂબ્રિક ફોર્મ્યુલામાં દર્શાવ્યું છે — સેકન્ડ અપડેટ માટે આ વજન કે ઉપ-રૂબ્રિક્સમાંથી કોઈપણ બદલાયા નથી.

સંયુક્ત = 0.35 × સ્ટ્રક્ચરલ + 0.55 × ક્લિનિકલ + 0.10 × લેટન્સી

બાકી રહેલા 0.20 ટકા પોઈન્ટ્સ જેટલું હેડરૂમ લગભગ સંપૂર્ણપણે ક્લિનિકલ ઉપ-સ્કોરમાં વિભાજિત થાય છે — કેસોના એક નાના ભાગમાં (મુખ્યત્વે હેપેટોલોજી અને ર્યુમેટોલોજીમાં) એક અપેક્ષિત સ્કોરિંગ-સિસ્ટમ કીવર્ડ એન્જિનની વ્યાખ્યામાં ગેરહાજર હતો, છતાં નિદાન સંબંધિત સામગ્રી સાચી હતી. 100,000-કેસ સેકન્ડ-અપડેટ કોહોર્ટમાં કોઈપણ કેસે પોતે નિદાન ચૂકી ન દીધું. લેટન્સી V11 પ્રારંભિક રિલીઝમાં સરેરાશ 20.17 s થી સેકન્ડ અપડેટમાં 13.26 s સુધી સુધરી; બે રન વચ્ચે પ્રોડક્શન એન્જિન ઑપ્ટિમાઇઝેશન્સને પ્રતિબિંબિત કરે છે. રૂબ્રિક, સ્કોરિંગ કોડ, અને API એન્ડપોઈન્ટ અપરિવર્તિત છે.

સૌથી વધુ પ્રતિનિધિત્વ ધરાવતા 30 દેશ-લેબલ્સમાં પ્રતિ-લેબલ સંયુક્ત સ્કોર 0.9971 થી 0.9985 વચ્ચે હતા. બાકીના 97 વધારાના લેબલ્સની લાંબી પૂંછડી (કુલ મળીને ≈7,300 કેસો)માં કોઈ વ્યવસ્થિત ઘટાડો જોવા મળ્યો નહીં. કેસ ગણતરી મુજબ સૌથી વધુ આવનારા લેબલ્સ હતા: યુનાઇટેડ સ્ટેટ્સ (10,500), બ્રાઝિલ (9,500), સ્પેન (9,000), ઇટાલી (8,000), જર્મની (7,800), ફ્રાન્સ (7,400), પોર્ટુગલ (5,800), Türkiye (3,400), યુનાઇટેડ કિંગડમ (2,900), અને મેક્સિકો (2,500).

15 કેસોથી 100,000 સુધી: 127 દેશ-લેબલ્સમાં કોહોર્ટનું વિકાસ

મૂળ V11 કેસ પેનલમાં સાત વિશેષતાઓ આવરી લેવાઈ હતી — હેમેટોલોજી, એન્ડોક્રિનોલોજી, મેટાબોલિક મેડિસિન, હેપેટોલોજી, નેફ્રોલોજી, કાર્ડિયોલોજી, ર્યુમેટોલોજી — ઉપરાંત બે સમર્પિત હાઇપરડાયગ્નોસિસ ટ્રેપ કેસો; દરેક કેસ કૃત્રિમ રીતે જનરેટ કરાયેલ બ્લડ-ટેસ્ટ પેનલ હતો. V11 બીજું અપડેટ મૂલ્યાંકનને 127 દેશ-લેબલ્સમાં ફેલાયેલા 100,000 કૃત્રિમ કેસો સુધી વિસ્તારે છે, આઠ વિશેષતાઓમાં વિતરિત (મૂળ સાત ઉપરાંત એક સમર્પિત આંતરિક-ચિકિત્સા બકેટ જે ટ્રેપ સબસેટને શોષે છે). એ જ સ્કોરિંગ રૂબ્રિક બંને રન દરમિયાન બાઇટ-સમાન રીતે લાગુ કરવામાં આવે છે.

કારણ કે બધા કેસો કૃત્રિમ રીતે જનરેટ થયેલા છે, દૂર કરવા માટે કોઈ વાસ્તવિક ઓળખકર્તાઓ નથી અને કોઈ વ્યક્તિગત ડેટા સામેલ નથી. દરેક કૃત્રિમ કેસમાં બેન્ચમાર્ક-આંતરિક કેસ કોડ હોય છે (V11 પ્રારંભિક સેટમાં BT-NNN-LABEL, બીજાં અપડેટમાં સ્થિર case_uid ). પ્રકાશિત હાર્નેસ, ટેકનિકલ રિપોર્ટ, અથવા રિલીઝ થયેલા ડેટાસેટ્સમાં ક્યાંય પણ વ્યક્તિગત ડેટા દેખાતું નથી.

V11 initial release — 15 hand-curated cases

મૂળ V11 કેસ પેનલનું હસ્તચાલિત પસંદગીકરણ ડૉ. થોમસ ક્લાઇન દ્વારા કરવામાં આવ્યું હતું, જેથી લેબોરેટરી-મેડિસિન સહાયકો સૌથી વધુ વાર જે નિદાનના પેટર્ન ખોટા સમજે છે તેને કસરતરૂપે ચકાસી શકાય. નીચે સૂચિબદ્ધ દરેક પંદર કેસને કોઈ ચોક્કસ નિદાન-ગુણધર્મ માટે પસંદ કરવામાં આવ્યો હતો.

હેમેટોલોજી (3) BT-001, BT-006, BT-007 આયર્ન ડિફિશિયન્સી એનિમિયા · B12 ની ઉણપ · બેટા-થેલેસેમિયા માઇનર

એન્ડોક્રિનોલોજી (3) BT-002, BT-008, BT-012 હાશિમોટોઝ થાયરોઇડાઇટિસ · ઇન્સુલિન રેઝિસ્ટન્સ સાથે PCOS · ગંભીર વિટામિન ડી ની ઉણપ

મેટાબોલિક (2) BT-003, BT-013 મેટાબોલિક સિન્ડ્રોમ સાથે T2DM · ગાઉટના જોખમ સાથે હાયપરયુરિસેમિયા

હેપેટોલોજી (2) BT-004, BT-009 NAFLD / NASH · તીવ્ર વાયરસ હેપેટાઇટિસ

નેફ્રોલોજી · કાર્ડિયોલોજી · ર્યુમેટોલોજી (3) BT-005, BT-010, BT-011 CKD સ્ટેજ 3 · એથેરોજેનિક ડિસલિપિડેમિયા · સિસ્ટમિક લ્યુપસ એરિથેમેટોસસ

ટ્રેપ કેસ (2) BT-014, BT-015 ગિલ્બર્ટ્સ સિન્ડ્રોમ (અલગ પડેલી ઇન્ડાયરેક્ટ હાઇપરબિલિરુબિનેમિયા) · સંપૂર્ણપણે સામાન્ય પુખ્ત સ્ક્રીન

આ ખાસ વિતરણ શા માટે

હેમેટોલોજીને ત્રણ કેસ મળે છે કારણ કે માઇક્રોસાઇટિક ડિફરેનશિયલ્સ અને મેક્રોસાઇટિક ડિફરેનશિયલ્સ વાસ્તવિક દુનિયાની લેબોરેટરી પ્રેક્ટિસમાં સૌથી વધુ વોલ્યુમ ધરાવતા ટ્રેપ્સ છે. એન્ડોક્રિનોલોજીને ત્રણ મળે છે કારણ કે હાશિમોટોનું, PCOS, અને વિટામિન ડી ની ઉણપની પ્રસ્તુતિઓ અલગ-અલગ નિદાનાત્મક આકારોનો અભ્યાસ કરે છે (ઓટોએન્ટિબોડી દ્વારા સંચાલિત, હોર્મોન-અનુપાત દ્વારા સંચાલિત, એકલ-માર્કર દ્વારા સંચાલિત). એકલ-કેસ વિશેષતાઓ હજી પણ અર્થપૂર્ણ છે કારણ કે દરેક CKD, ASCVD જોખમ, અને SLE પાસે પોતાનું સ્કોરિંગ સિસ્ટમ છે જેને એન્જિન બોલાવવું જોઈએ (ક્રમશઃ KDIGO સ્ટેજિંગ, ASCVD 10-વર્ષ જોખમ, અને 2019 EULAR/ACR SLE માપદંડો).

V11 બીજું અપડેટ — 127 દેશ-લેબલ્સમાં ફેલાયેલા 100,000 કૃત્રિમ કેસો

બીજું અપડેટ મૂળ V11 હાર્ડ-કોડેડ 15-કેસ Python literalને મોટા, પ્રોગ્રામેટિક રીતે જનરેટ કરાયેલા કૃત્રિમ કેસ સેટથી બદલે છે. કેસ સેટ દરેક રનની શરૂઆતમાં લોડ થાય છે અને પારદર્શિતાના માટે કન્ફિગરેશન લોગ કરવામાં આવે છે. સામગ્રી ક્ષેત્ર મુજબ કોહોર્ટનું વિતરણ નીચે દર્શાવ્યું છે.

એન્ડોક્રિનોલોજી 23,900 કેસ (23.9%) થાયરોઇડ, PCOS, વિટામિન ડી, ગોનાડલ એક્સિસ, પિટ્યુટરી

મેટાબોલિક મેડિસિન 21,900 કેસ (21.9%) T2DM, મેટાબોલિક સિન્ડ્રોમ, લિપિડ પેનલ્સ, હાઇપરયુરિસેમિયા

હિમેટોલોજી 15,400 કેસ (15.4%) માઇક્રોસાઇટિક અને મેક્રોસાઇટિક ડિફરેનશિયલ્સ, B12/ફોલેટ, આયર્ન સ્ટડીઝ

હેપેટોલોજી 12,400 કેસ (12.4%) NAFLD/NASH, વાયરલ હેપેટાઇટિસ, FIB-4, કોલેસ્ટેસિસ

આંતરિક દવા (ટ્રેપ સબસેટ સહિત) 9,000 કેસ (9.0%) મિશ્ર પ્રસ્તુતિઓ અને 8,723 સમર્પિત હાઇપરડાયગ્નોસિસ ટ્રેપ કેસો

કાર્ડિયોલોજી 7,500 કેસ (7.5%) ASCVD જોખમ, એથેરોજેનિક ડિસલિપિડેમિયા, hs-CRP

ર્યુમેટોલોજી 6,000 કેસ (6.0%) SLE, RA, વાસ્ક્યુલાઇટિસ, ઓટોએન્ટિબોડી પેનલ્સ (EULAR/ACR માપદંડો)

નેફ્રોલોજી 4,000 કેસ (4.0%) CKD સ્ટેજિંગ (KDIGO), eGFR ટ્રેન્ડ્સ, ઇલેક્ટ્રોલાઇટ વિક્ષેપ

કૃત્રિમ દેશ-લેબલ વિતરણ — ટોચના 10 લેબલ્સ

100,000 કૃત્રિમ કેસોમાં 127 દેશ-લેબલ્સ (ISO 3166-1 alpha-2) છે જેથી locale હેન્ડલિંગને ચકાસી શકાય. લેબલ નિમણૂક: યુરોપ 57.7%, અમેરિકા 25.4%, એશિયા-પેસિફિક 6.2%, નામિત મધ્ય-પૂર્વ/આફ્રિકા લેબલ્સ 3.4%, અને વધારાના 97 લેબલ્સની લાંબી પૂંછડી કુલ મળીને લગભગ 7.3%. કેસ ગણતરી મુજબ સૌથી વધુ આવનારા દસ લેબલ્સ હતા: યુનાઇટેડ સ્ટેટ્સ (10,500), બ્રાઝિલ (9,500), સ્પેન (9,000), ઇટાલી (8,000), જર્મની (7,800), ફ્રાન્સ (7,400), પોર્ટુગલ (5,800), Türkiye (3,400), યુનાઇટેડ કિંગડમ (2,900), અને મેક્સિકો (2,500). પ્રતિ-લેબલ સંયુક્ત સ્કોર 0.9971 થી 0.9985 વચ્ચે હતા. આ લેબલ ગણતરીઓ જનરેટ થયેલા કેસોની વિશેષતાઓ છે જે locale હેન્ડલિંગને ચકાસવા માટે વપરાય છે — તે વાસ્તવિક વપરાશકર્તાઓ નથી અને વાસ્તવિક-દુનિયાની ભૂગોળીય આવરણ નથી.

પૂર્વ-નોંધાયેલ રૂબ્રિક, સમજાવ્યું

પ્રી-રજિસ્ટ્રેશન આ બેન્ચમાર્કમાં સૌથી મહત્વપૂર્ણ પદ્ધતિગત પસંદગી છે. અપેક્ષિત દરેક નિદાન, દરેક ક્લિનિકલ સ્કોરિંગ સિસ્ટમ, અને દરેક રિપોર્ટ વિભાગને સોર્સ કોડમાં કમિટ કરવામાં આવ્યા હતા એન્જિન બોલાવ્યા પહેલાં. તેથી એન્જિનને ખુશ કરવા માટે રૂબ્રિકનું પોસ્ટ-હોક ટ્યુનિંગ અશક્ય છે.

સંયુક્ત સ્કોર બનાવવા માટે ત્રણ ઘટકો છે. માળખાકીય ઘટક 35 ટકા યોગદાન આપે છે અને માપે છે કે એન્જિનએ સાત ફરજિયાત રિપોર્ટ વિભાગો (હેડર, સારાંશ, મુખ્ય શોધો, ડિફરેનશિયલ, સ્કોરિંગ સિસ્ટમ્સ, ભલામણો, ફોલો-અપ) અને તેમાંના સોળ ફરજિયાત ઉપવિભાગો પરત કર્યા કે નહીં. માળખાકીય ગણતરીમાં વિભાગ હાજરી 40 ટકા વજન ધરાવે છે અને ઉપવિભાગ હાજરી 60 ટકા વજન ધરાવે છે.

આ ક્લિનિકલ ઘટક 55 ટકા યોગદાન આપે છે અને ત્રણ બાબતોને જોડે છે: નિદાન-કીવર્ડ રિકોલ (ક્લિનિકલ ઉપ-સ્કોરનું 70 ટકા), સ્કોરિંગ-સિસ્ટમ રિકોલ (20 ટકા — જ્યાં સંબંધિત હોય ત્યાં એન્જિન Mentzer, FIB-4, HOMA-IR, ASCVD જોખમ, KDIGO સ્ટેજિંગ, EULAR/ACR માપદંડો ગણતરી કરે છે કે નહીં), અને સંભાવના-સમ માન્યતા ચકાસણી (10 ટકા — ડિફરેનશિયલ સંભાવનાઓનો કુલ [90, 110] અંતરમાં હોવો જોઈએ). ટ્રેપ કેસોમાં, મહત્તમ 0.30 સુધીનું સ્પષ્ટ હાઇપરડાયગ્નોસિસ દંડ ઘટાડવામાં આવે છે, જે બનાવટી પેથોલોજી ફ્લેગ દીઠ 0.10 તરીકે ગણાય છે અને મહત્તમ ત્રણ ફ્લેગ સુધી મર્યાદિત છે.

આ લેટન્સી ઘટક 10 ટકા યોગદાન આપે છે. 20 સેકન્ડથી ઓછી પ્રતિભાવને સંપૂર્ણ 0.10 મળે છે, 40 સેકન્ડથી ઓછી પ્રતિભાવને 0.05 મળે છે, અને તેનાથી ધીમી કોઈપણ પ્રતિભાવને શૂન્ય મળે છે. 20 સેકન્ડનું લક્ષ્ય પ્રોડક્શન પ્રાઇમરી-પાથ સર્વિસ-લેવલ ઉદ્દેશ્ય દર્શાવે છે; 40 સેકન્ડની મહત્તમ મર્યાદા ભારે-એન્જિન ઇન્વોકેશન્સ માટે ફેઝ 2ની બેકઅપ બજેટ દર્શાવે છે.

પ્રી-રજિસ્ટ્રેશન શું અટકાવે છે

ફર્સ્ટ-પાર્ટી બેન્ચમાર્ક્સ પોસ્ટ-હોક રૂબ્રિક ટ્યુનિંગ દ્વારા પોતાની જ સંખ્યાઓ ફુલાવવાની માટે કુખ્યાત છે. પેટર્ન લગભગ હંમેશા એકસરખું જ હોય છે: ટીમ એન્જિન ચલાવે છે, ક્યાં તે ઓછું પ્રદર્શન કરે છે તે જુએ છે, અને પછી શાંતિથી રૂબ્રિક એ રીતે સમાયોજિત કરે છે કે ઓછું પ્રદર્શન કરનારા ક્ષેત્રોનું ગણતરીમાં વજન ઓછું પડે. પ્રથમ એન્જિન કોલ પહેલાં રૂબ્રિકને સોર્સ કોડમાં કમિટ કરીને અને MIT લાઇસન્સ હેઠળ હાર્નેસને પ્રકાશિત કરીને, આ સમાયોજન વર્ઝન કંટ્રોલમાં દેખાઈ જાય છે. કોઈપણ રિપોઝિટરી ક્લોન કરી શકે છે, રૂબ્રિકના લેખકની તારીખો ચકાસી શકે છે, અને ચકાસી શકે છે કે એન્જિનના પરિણામોનો ઉપયોગ સ્કોરિંગને આકાર આપવા માટે કરવામાં આવ્યો નહોતો.

હાઇપરડાયગ્નોસિસ ટ્રેપ કેસ — શા માટે અતિ-કોલિંગ જ વાસ્તવિક નિષ્ફળતા મોડ છે

નોર્મલ સ્ક્રીન્સ પર પેથોલોજીનું આક્રમક રીતે વધારે બોલવું એ કન્ઝ્યુમર-ફેસિંગ મેડિકલ અસિસ્ટન્ટ્સમાં દસ્તાવેજીકૃત નિષ્ફળતા મોડ છે. તેની ડાઉનસ્ટ્રીમ કિંમતમાં અનાવશ્યક તપાસ, દર્દીની ચિંતા, અને આયાટ્રોજેનિક વર્કઅપ શામેલ છે. આ બેન્ચમાર્કના બે ટ્રેપ કેસો આ નિષ્ફળતા મોડને દૃશ્યમાન અને સ્કોર કરી શકાય તે રીતે ડિઝાઇન કરવામાં આવ્યા છે.

🟡 ટ્રેપ 1 — BT-014-GILBERT

પ્રસ્તુતિ. કુલ બિલિરુબિન 2.4 mg/dL ધરાવતો 24 વર્ષનો પુરુષ. ડાયરેક્ટ ફ્રેક્શન નોર્મલ છે, ટ્રાન્સએમિનેઝ અને એલ્કલાઇન ફોસ્ફેટેઝ તેમના રેફરન્સ રેન્જની અંદર છે, રેટિક્યુલોસાઇટ્સ અસાધારણ નથી, અને હેપ્ટોગ્લોબિન તથા LDH હેમોલિસિસને નકારી કાઢે છે.

યોગ્ય અર્થઘટન. ગિલ્બર્ટનું સિન્ડ્રોમ — એક સૌમ્ય UGT1A1 પોલિમોર્ફિઝમ. અર્થઘટનમાં હેપેટાઇટિસ, સિર્રોસિસ, હેમોલાઇટિક એનિમિયા, અથવા બાઇલિયરી અવરોધને બોલાવવું ન જોઈએ.

V11 પરિણામ. સંયુક્ત 1.000. છ મોનિટર કરાયેલા ઓવર-ડાયગ્નોસિસ ફ્લેગમાંથી કોઈપણ સક્રિય નિદાન તરીકે દેખાયા નહોતા.

🟡 ટ્રેપ 2 — BT-015-HEALTHY

પ્રસ્તુતિ. પંદર-પરિમાણીય રૂટીન સ્ક્રીનિંગ પેનલ ધરાવતી 35 વર્ષની સ્ત્રી. દરેક એનાલાઇટ તેના રેફરન્સ રેન્જની અંદર આરામથી બેસે છે.

યોગ્ય અર્થઘટન. ખાતરી અને જીવનશૈલી જાળવણી. વ્યાખ્યાએ ક્લિનિકલી ઉપયોગી લાગે તે માટે સરહદી રોગવિજ્ઞાનનું કૃત્રિમ રીતે સર્જન ન કરવું જોઈએ.

V11 પરિણામ. સંયુક્ત 1.000. સાતમાંથી કોઈપણ સાત મોનિટર કરાયેલા અતિ-નિદાન (over-diagnosis) ફ્લેગ—ડાયાબિટીસ, એનિમિયા, હાઇપોથાયરોઇડિઝમ, ડિસલિપિડેમિયા, હેપેટાઇટિસ, કિડની રોગ, ઉણપ—સક્રિય નિદાન તરીકે દેખાયા નહોતા.

બંને ટ્રેપમાં કુલ તેર મોનિટર કરાયેલા અતિ-નિદાન (hyperdiagnosis) ફ્લેગ તપાસવામાં આવ્યા. કોઈપણ ટ્રિગર થયું નહીં. આ જ પરિણામ સૌથી વધુ મહત્વનું છે કોઈપણ ક્લિનિશિયન માટે જે AI એન્જિનને ટ્રાયેજ અથવા પ્રી-કન્સલ્ટેશન સાધન તરીકે વાપરવાનું વિચારે છે: સિસ્ટમે જ્યાં રોગ નહોતો ત્યાં રોગનું સર્જન કર્યું નહીં.

મેન્ટ્ઝર ઇન્ડેક્સ: આયર્નની ઉણપને થેલેસેમિયા ટ્રેઇટથી અલગ પાડવું

બીજું ઊંચી કિંમતનું શોધખોળ કેસ BT-001 (આયર્ન ડિફિશિયન્સી એનિમિયા) અને કેસ BT-007 (બેટા-થેલેસેમિયા માઇનર) વચ્ચેની જોડણી અંગે છે. બંનેમાં માઇક્રોસાઇટોસિસ જોવા મળે છે અને નિર્દોષ વર્ગીકરણકારો માટે આ જાણીતું અટકાવનારું મુદ્દો છે. મેન્ટ્ઝર ઇન્ડેક્સ, જે MCV ને RBC ગણતરીથી ભાગ કરીને ગણવામાં આવે છે, આયર્ન ડિફિશિયન્સીમાં 13 કરતાં વધુ અને થેલેસેમિયા ટ્રેઇટમાં 13 કરતાં ઓછું આવે છે.

BT-001 માં, દર્દી 34 વર્ષીય સ્ત્રી હતી, જેમનું હિમોગ્લોબિન 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ફેરિટિન 6 ng/mL અને વધેલું TIBC હતું. અંદાજે 17.7 નો મેન્ટ્ઝર ઇન્ડેક્સ સંપૂર્ણ આયર્ન ડિફિશિયન્સીને સમર્થન આપે છે. BT-007 માં, દર્દી 28 વર્ષીય પુરુષ હતો, જેમાં માઇક્રોસાઇટોસિસ (MCV 65.8 fL) હતું પરંતુ RBC ગણતરી 6.2 ઊંચી, RDW સામાન્ય, ફેરિટિન સામાન્ય અને HbA2 5.6 ટકા હતું. અંદાજે 10.6 નો મેન્ટ્ઝર ઇન્ડેક્સ થેલેસેમિયા ટ્રેઇટ તરફ સૂચવે છે, અને વધેલું HbA2 બેટા-થેલેસેમિયા માઇનરને પુષ્ટિ કરે છે.

આયર્ન ડિફિશિયન્સી એનિમિયા મેન્ટ્ઝર > 13 નીચું ફેરિટિન, નીચું TSAT, ઊંચું TIBC, વધેલું RDW

બેટા-થેલેસેમિયા ટ્રેઇટ મેન્ટ્ઝર < 13 સામાન્ય ફેરિટિન, સામાન્ય RDW, વધેલું HbA2 (>3.5%), ઊંચી RBC ગણતરી

બંને કેસનું સ્કોર 1.000 હતું. એન્જિનએ બંને વ્યાખ્યાઓમાં મેન્ટ્ઝર ઇન્ડેક્સને સ્પષ્ટ રીતે ઉપયોગ કર્યો અને દરેક પ્રસંગે યોગ્ય નિદાન પરત આપ્યું. સમગ્ર બેન્ચમાર્કમાં આ એકમાત્ર સૌથી વધુ ક્લિનિકલી ખાતરી આપતું પરિણામ છે, કારણ કે થેલેસેમિયા ટ્રેઇટને આયર્ન ડિફિશિયન્સી તરીકે ખોટું વર્ગીકૃત કરવાથી અયોગ્ય આયર્ન સપ્લિમેન્ટેશન થાય છે અને પરિવાર-સ્ક્રીનિંગની તકો ચૂકી જાય છે, અને આયર્ન ડિફિશિયન્સીને થેલેસેમિયા તરીકે ખોટું વર્ગીકૃત કરવાથી સરળ રિપ્લેસમેન્ટ થેરાપીમાં વિલંબ થાય છે. અમારી ફેરીટિન રેન્જ માર્ગદર્શિકા વ્યાપક ડિફરેનશિયલ સંદર્ભ સમજાવે છે.

V11 પ્રારંભિક રેફરન્સ રનમાંથી પ્રતિ-કેસ પરિણામો (23 એપ્રિલ, 2026)

15-કેસ પ્રૂફ-ઓફ-કોન્સેપ્ટ કોહોર્ટ પરનું મૂળ V11 રેફરન્સ રન એ પદ્ધતિશાસ્ત્રીય આધાર છે Second Update માટે: નીચેનો દરેક પ્રતિ-કેસ વિગતવાર ભાગ દર્શાવે છે કે રૂબ્રિક વાસ્તવિક એન્જિન પ્રતિસાદને કેવી રીતે હેન્ડલ કરે છે. પંદર પૈકી બાર કેસોએ પ્રાથમિક પાથ પર 1.000 ની મહત્તમ (ceiling) સંયુક્ત સ્કોર હાંસલ કરી; ત્રણ કેસો Phase 2 ફૉલબેક દ્વારા સર્વ કરવામાં આવ્યા, જેમાં 0.05 લેટન્સી બોનસ ગુમાયો પરંતુ તમામ ક્લિનિકલ અને માળખાકીય સામગ્રી જાળવાઈ. એક કેસમાં એક જ ફરજિયાત સબસેક્શન ગાયબ હતું; એક કેસે થોડું ઘટેલું probability distribution sum પરત કર્યું.

કેસ ID સ્પેશિયાલિટી સંયુક્ત લેટન્સી પાથ

BT-001-IDAહિમેટોલોજી1.00017.8 sપ્રાથમિક

BT-006-B12હિમેટોલોજી1.00018.4 સેપ્રાથમિક

BT-007-થેલહિમેટોલોજી1.00017.0 સેપ્રાથમિક

BT-002-હેશએન્ડોક્રિનોલોજી0.95037.0 સેફૉલબૅક

BT-008-PCOSએન્ડોક્રિનોલોજી0.98718.6 સેપ્રાથમિક

BT-003-T2DMમેટાબોલિક1.00019.1 સેપ્રાથમિક

BT-013-ગાઉટમેટાબોલિક1.00019.4 સેપ્રાથમિક

BT-004-NAFLDહેપેટોલોજી1.00019.6 સેપ્રાથમિક

BT-009-વાયરહેપહેપેટોલોજી0.95023.4 સેફૉલબૅક

BT-014-ગિલબર્ટટ્રૅપ1.00018.9 સેપ્રાથમિક

BT-005-CKDનેફ્રોલોજી1.00017.4 સેપ્રાથમિક

BT-010-ASCVDકાર્ડિયોલોજી1.00019.7 સેપ્રાથમિક

BT-011-SLEર્યુમેટોલોજી0.98118.2 સેકન્ડપ્રાથમિક

BT-012-VITDએન્ડોક્રિનોલોજી1.00019.3 સેકન્ડપ્રાથમિક

BT-015-HEALTHYટ્રૅપ1.00018.7 સેકન્ડફૉલબૅક

PCOS કેસ (BT-008) એ પ્રતિભાવની રચનામાં એક ફરજિયાત ઉપવિભાગ ગુમાવ્યો — સોળમાંથી પંદર બદલે સોળમાંથી સોળ — જેના કારણે રચનાત્મક સ્કોર 1.000 થી 0.963 થયો. SLE કેસ (BT-011) એ થોડું ઘટેલું સંભાવના-વિતરણનું કુલ પરત કર્યું, જેના કારણે ક્લિનિકલ સ્કોર 0.965 થયો, અને દરેક નિદાન સંબંધિત કીવર્ડ તથા સ્કોરિંગ સિસ્ટમ જાળવી રાખી. કોઈપણ ઉપ-પરફેક્ટ કેસે યોગ્ય નિદાન ચૂકી દીધું નહીં.

V11 Second Update સંયુક્ત — 100,000 કેસ

વસ્તી સ્તરે, વ્યક્તિગત કેસની પંક્તિઓ માનવ-વાંચનીય નથી, તેથી બીજું અપડેટ 100,000-પંક્તિની ટેબલ કરતાં સંકલિત (aggregated) મેટ્રિક્સ રજૂ કરે છે. મુખ્ય સંકલન નીચે બતાવવામાં આવ્યું છે; પ્રતિ-વિશેષતા અને પ્રતિ-દેશ-લેબલ વિભાજનો ટેકનિકલ રિપોર્ટ અને Figshare ડિપોઝિટમાં પ્રકાશિત કરવામાં આવ્યા છે. સ્તરીકૃત રૅન્ડમ નમૂનાનું n = 201 કાચા એન્જિન પ્રતિસાદો (નિર્ધારિત seed 20260426) નિરીક્ષણ માટે GitHub results/ ડિરેક્ટરીમાં પ્રકાશિત કરવામાં આવે છે.

સંયુક્ત સ્કોર V11 પ્રારંભિક: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 100,000-કેસ કોહોર્ટમાં

માળખાકીય સ્કોર (સરેરાશ) V11 પ્રારંભિક: 0.998 → Second Update: 1.000 વસ્તી સ્તરે સંપૂર્ણ માળખાકીય અનુરૂપતા

ક્લિનિકલ સ્કોર (સરેરાશ) V11 પ્રારંભિક: 0.998 → Second Update: 0.996 −0.002; કોઈ પણ કેસે નિદાન પોતે ચૂકી ન દીધું

વિલંબ — સરેરાશ (શ્રેણી) V11 પ્રારંભિક: 20.17 સે (17.0–37.0 સે) → બીજું અપડેટ: 13.26 સે (9.0–16.94 સે) રન વચ્ચે પ્રોડક્શન એન્જિન ઑપ્ટિમાઇઝેશન્સ

એન્જિન પાથ = પ્રાથમિક V11 પ્રારંભિક: 12 / 15 → બીજું અપડેટ: 100,000 / 100,000 રન દરમિયાન કોઈ પણ સમયે ફેઝ 2 માટે ફૉલબેકની જરૂર પડી નહોતી

ટ્રેપ-સબસેટ હાઇપરડાયગ્નોસિસ ફ્લેગ્સ V11 પ્રારંભિક: 0 / 13 → બીજું અપડેટ: 0 / 87,412 વસ્તી સ્તરે શૂન્ય ફૉલ્સ પોઝિટિવ્સ (8,723 ટ્રેપ કેસ મોનિટર થયા)

હેડલાઇન સ્કોર અમને શું નથી જણાવતો

આ ખાસ પ્રી-રજિસ્ટર્ડ રૂબ્રિક હેઠળ 99.80 ટકા નો સંયુક્ત સ્કોર, 127 દેશ-લેબલ્સને આવરી લેતા 100,000-કેસ કૃત્રિમ કોહોર્ટ પર, લગભગ-છત (near-ceiling) પ્રદર્શન દર્શાવે છે — પરંતુ તેને કાળજીપૂર્વક સંદર્ભમાં મૂકવું જોઈએ. પરિણામ V11માં અમે સોર્સ કોડમાં પ્રતિબદ્ધ કરેલા રૂબ્રિક સામે એન્જિનના વર્તનનું વર્ણન કરે છે; જંગલમાં અસ્તિત્વ ધરાવતા દરેક બ્લડ ટેસ્ટ પેનલ પર એન્જિનની ચોકસાઈ વિશે આ કોઈ સર્વવ્યાપી દાવો નથી.

સ્કોર કહે છે કે એન્જિને આ મૂલ્યાંકન માટે પસંદ કરાયેલા ડાયગ્નોસ્ટિક પેટર્ન્સને વસ્તી-સ્તરના કોહોર્ટમાં યોગ્ય રીતે સંભાળ્યા, એવી પદ્ધતિશાસ્ત્ર સાથે જે પ્રકાશિત અને પુનરુત્પાદ્ય છે. તે કહેતું નથી કે એન્જિન જંગલમાં અસ્તિત્વમાં રહેલા દરેક બ્લડ ટેસ્ટ પેનલ પર સાચું છે. તે કહેતું નથી કે એન્જિનને ક્લિનિશિયનના નિર્ણયને બદલેવું જોઈએ. અને તે કહેતું નથી કે એન્જિન વૈકલ્પિક AI સિસ્ટમ્સ કરતાં વધુ સારું છે — અન્ય એન્જિન્સ સામે તુલનાત્મક વિશ્લેષણો આ રિપોર્ટની વ્યાપ્તિ બહાર રાખવામાં આવ્યા હતા.

સ્કોર જે સ્થાપિત કરે છે તે એક બેઝલાઇન છે. રૂબ્રિક અને હાર્નેસ જાહેર હોવાથી, એન્જિનના ભવિષ્યના વર્ઝન્સને એ જ રૂબ્રિક સામે મૂલ્યાંકિત કરી શકાય છે — V11 પ્રારંભિક 15 કેસ પર, બીજું અપડેટ 100,000-કેસ કોહોર્ટ પર, અથવા કોઈપણ આગળના વિસ્તરણ પર — અને પ્રકાશિત સ્કોર અને કોઈપણ અનુગામી રન વચ્ચેનું અંતર પોતે જ માપી શકાય એવું છે. પ્રી-રજિસ્ટ્રેશનનું આ જ મૂલ્ય છે: તે કામગીરીના દાવાઓને પરીક્ષણયોગ્ય દાવાઓમાં રૂપાંતરિત કરે છે.

10 મિનિટમાં આ બેન્ચમાર્ક કેવી રીતે પુનઃઉત્પાદિત કરવો

પુનરુત્પાદન માટે માત્ર Kantesti API ક્રેડેન્શિયલ જોડી અને Python 3.10 અથવા પછીનું પર્યાવરણ જરૂરી છે, જેમાં requests અને reportlab લાઇબ્રેરીઓ ઇન્સ્ટોલ થયેલી હોય. સંપૂર્ણ હાર્નેસ MIT લાઇસન્સ હેઠળ પ્રકાશિત એક જ સ્વ-સમાવેશિત Python મોડ્યુલ છે.

💻 GitHub MIT-લાઇસન્સ્ડ હાર્નેસ · કાચા પ્રતિભાવો · રેફરન્સ રન 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · પ્રમાણભૂત શૈક્ષણિક રેકોર્ડ 🎓 રિસર્ચગેટ Publication 404175463 · V11 બીજું અપડેટ · શૈક્ષણિક શોધ સ્તર 📄 એકેડેમિયા.એડુ Paper 165956808 · V11 બીજું અપડેટ · શૈક્ષણિક શોધ સ્તર

તાજા રન માટે ચાર પગલાં

એક. રિપોઝિટરી ક્લોન કરો: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. બે. requirements.txt સાથે નિર્ભરતાઓ ઇન્સ્ટોલ કરો pip install -r requirements.txt (બીજું અપડેટ ઉમેરે છે mysql-connector-python ≥ 8.0 SQL કેસ લોડર માટે). ત્રણ. સેટ કરો KANTESTI_USERNAME અને KANTESTI_PASSWORD એન્જિન API માટે પર્યાવરણ ચલ (environment variables) તરીકે. બીજું અપડેટ SQL કેસ લોડર માટે, આ પણ સેટ કરો KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, અને KANTESTI_DB_PASSWORD — લોડર રીડ-ઓનલિ ભૂમિકા દ્વારા કનેક્ટ થાય છે (bench_reader) જેને ઓળખતી ટેબલ્સ પર કોઈ અધિકાર નથી. ચાર. ચલાવો python benchmark_bloodtest.py --limit 100000 સંપૂર્ણ Second-Update રન માટે, અથવા python benchmark_bloodtest.py --limit 1000 ઝડપી ઇટરેશન માટે. આઉટપુટ્સ અહીં જાય છે ./benchmark_results/: પ્રતિ-દેશ-લેબલ અને પ્રતિ-વિશેષતા કૉલમ્સ સાથેનું CSV સ્કોરકાર્ડ, એક JSON એગ્રિગેટ, કડક-સ્તરીય રૅન્ડમ કાચા-પ્રતિભાવનો નમૂનો, અને એક Markdown રિપોર્ટ.

23 એપ્રિલ 2026 (V11 પ્રારંભિક, 15 કેસ) અને 26 એપ્રિલ 2026 (V11 Second Update, 100,000 કેસ) ના રેફરન્સ રન રિપોઝિટરીની અંદરના results/ ડિરેક્ટરીમાં જાળવવામાં આવ્યા છે. નવો રન નવો ટાઈમસ્ટેમ્પ્ડ સ્કોરકાર્ડ બનાવશે જ્યારે રેફરન્સ રન અસ્પર્શિત રહેશે. જો તમારા રનનું પરિણામ અર્થપૂર્ણ રીતે અલગ આવે, તો કૃપા કરીને રન ટાઈમસ્ટેમ્પ અને રિસ્પોન્સ મેટાડેટામાં પરત મળેલ એન્જિન વર્ઝન સાથે GitHub ઇશ્યૂ ખોલો.

મર્યાદાઓ અને ભાવિ કાર્ય

127 દેશ-લેબલ્સમાં 100,000 કેસ હોવા છતાં, ચાર મર્યાદાઓને સ્પષ્ટ રીતે સ્વીકારવાની જરૂર છે: લાંબા-પૂંછ (long-tail) લેબલનું ઓછું નમૂનાકરણ (undersampling), એક-માત્ર મૂલ્યાંકન (single-shot evaluation), એક-માત્ર એન્જિનનો વ્યાપ (single-engine scope), અને એક-માત્ર સ્ત્રોત ડેટા મૂળ (single-source data origin). આમાંથી દરેકને સક્રિય અનુગામી કાર્યમાં સંબોધવામાં આવી રહ્યું છે.

લાંબા-પૂંછ લેબલ આવરણ (coverage). Second Updateમાં 127 દેશ-લેબલ્સ આવરી લેવાય છે, પરંતુ વિતરણ અસંતુલિત છે — ટોચના 10 લેબલ્સ કુલ કેસોમાંથી ≈66.4% ભાગ ધરાવે છે, અને બાકીના 97 વધારાના લેબલ્સની લાંબી પૂંછ સાથે મળીને ≈7.3% યોગદાન આપે છે (લગભગ 7,300 કેસો કુલ, સરેરાશ ~75 કેસ પ્રતિ લેબલ). તેથી આ લાંબી પૂંછમાં પ્રતિ-લેબલ કોમ્પોઝિટ્સ headline આંકડાઓ કરતાં વધુ અવાજવાળા (noisier) છે. ભવિષ્યના રન લેબલ નિમણૂક (label assignment)ને ફરી સંતુલિત કરશે જેથી પ્રતિ-લેબલ અંદાજો મજબૂત બને.

સિંગલ-શોટ મૂલ્યાંકન. કોહોર્ટના દરેક કેસનું મૂલ્યાંકન એક જ વખત કરવામાં આવ્યું હતું. મોટા ભાષા મોડલ્સ ઓછા સેમ્પલિંગ ટેમ્પરેચર પર પણ નોંધપાત્ર આઉટપુટ વેરિઅન્સ દર્શાવે છે, તેથી પ્રતિ કેસ પાંચ મૂલ્યાંકનો સાથે અને નોંધાયેલ વેરિઅન્સ ધરાવતો મલ્ટી-રન પ્રોટોકોલ સ્વાભાવિક આગળનું પગલું છે — ખાસ કરીને ટ્રેપ-કેસ સબસેટ પર, જ્યાં સેમ્પલિંગ જિટર હેઠળની સુસંગતતા સલામતી દાવાનો ભાગ છે.

સિંગલ-એન્જિન વ્યાપ. આ રિપોર્ટ એક જ એન્જિનનું વર્ણન કરે છે. વૈકલ્પિક AI સિસ્ટમ્સ સામે તુલનાત્મક વિશ્લેષણ અહીંના વ્યાપની બહાર છે; અમે સમાન MIT-લાઇસન્સ્ડ હાર્નેસ સામે યોગ્ય પદ્ધતિશાસ્ત્ર સાથે તેને અલગ સ્વતંત્ર અભ્યાસ તરીકે આગળ ધપાવી શકીએ છીએ.

કૃત્રિમ ડેટા (Synthetic data). 100,000 કેસો કૃત્રિમ રીતે જનરેટ થયેલા છે—કૃત્રિમ કેસો (synthetic cases) નહીં—અને પરિણામો વાસ્તવિક દુનિયાની ક્લિનિકલ કામગીરીમાં લાગુ પડતા નથી. વાસ્તવિક, સંમતિ આપેલ, બાહ્ય-સ્ત્રોત ડેટા પર મૂલ્યાંકન માટે યોગ્ય નૈતિક દેખરેખ (ethical oversight) જરૂરી પડશે અને આ કૃત્રિમ બેન્ચમાર્કની વ્યાપ્તિ (scope) બહાર છે.

આ ચારની બહાર, સૌથી વધુ અસરકારક આયોજન કરાયેલ વિસ્તરણ પ્રતિ-જ્યુરિસ્ડિક્શન બહુભાષીય સમાનતા છે. Kantesti AI એન્જિન 75+ ભાષાઓમાં વપરાશકર્તાઓને સેવા આપે છે, અને ભાષા-સ્તરિત Second-Update સબ-કોહોર્ટ્સ (તુર્કિશ, જર્મન, સ્પેનિશ, ફ્રેન્ચ, ઇટાલિયન, પોર્ટુગીઝ, અરબી, મૅન્ડેરિન) ચલાવવાથી એન્જિન દ્વારા સમર્થિત ભાષાઓમાં આઉટપુટ ગુણવત્તા માપવામાં આવશે. દરેક ભાષા-સ્તરિત વિશ્લેષણ પોતાનો DOI અને હાર્નેસ બ્રાંચ સાથે પ્રકાશિત કરવામાં આવશે.

એ જ એન્જિન અજમાવો જેણે 100,000 કેસ પર 99.80% કોમ્પોઝિટ સ્કોર હાંસલ કર્યો

તમારા પોતાના બ્લડ ટેસ્ટ પેનલને એ જ પ્રોડક્શન એન્ડપોઇન્ટ પર અપલોડ કરો જેનું આ બેન્ચમાર્કમાં મૂલ્યાંકન કરવામાં આવ્યું હતું. વિશ્વભરમાં 2 મિલિયનથી વધુ વપરાશકર્તાઓ Kantesti AI એન્જિનનો ઉપયોગ કરીને 75+ ભાષાઓમાં 15,000થી વધુ બાયોમાર્કર્સનું અર્થઘટન કરે છે.

🔬 ફ્રી ડેમો અજમાવો

ક્રોમ એક્સટેન્શન એપ સ્ટોર ગૂગલ પ્લે

📚 આ બેન્ચમાર્કને કેવી રીતે સાઇટ કરવું

BibTeX

@techreport{klein2026kantesti_v11_second_update,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {A Pre-Registered, Rubric-Based Automated Technical  
                 Benchmark of the Kantesti Blood-Test Interpretation  
                 Engine on 100,000 Synthetic Test Cases  
                 --- V11 Second Update},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11 (Second Update)},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti Blood-Test Interpretation Engine માટે 100,000 કૃત્રિમ ટેસ્ટ કેસો પર A Pre-Registered, Rubric-Based Automated Technical Benchmark — V11 Second Update (ટેકનિકલ રિપોર્ટ V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 બાહ્ય પદ્ધતિશાસ્ત્રીય સંદર્ભો

Mentzer, W. C. (1973). થેલેસેમિયા ટ્રેઇટમાંથી આયર્નની ઉણપનું ભેદકરણ. The Lancet, 301(7808), 882.

🏥 પબમેડ

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 યુરોપિયન લીગ અગેન્સ્ટ ર્યુમેટિઝમ / અમેરિકન કોલેજ ઓફ ર્યુમેટોલોજી સિસ્ટમિક લુપસ એરિથેમેટોસસ માટે વર્ગીકરણ માપદંડો. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 ડીઓઆઈ 🏥 પબમેડ

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: મોટા ભાષા મોડેલ્સ માટે મેડિકલ ડોમેન હેલ્યુસિનેશન ટેસ્ટ. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%સંયુક્ત સ્કોર

100,000સ્કોર કરાયેલા કેસિસ

127આવરી લેવાયેલા દેશ-લેબલ્સ (Country Labels Covered)

0 / 87,412ટ્રેપ ફોલ્સ-પોઝિટિવ્સ

વારંવાર પૂછાતા પ્રશ્નો

કૃત્રિમ ટેસ્ટ કેસ પર Kantesti AI એન્જિન કેટલી ચોકસાઈ ધરાવે છે?

પૂર્વ-રજીસ્ટર્ડ રૂબ્રિક (pre-registered rubric) પર, આઠ સામગ્રી ક્ષેત્રો (content areas) અને 127 દેશ-લેબલ્સમાં 100,000 કૃત્રિમ રીતે જનરેટ થયેલા ટેસ્ટ કેસો પર ચલાવતાં (V11 Second Update), એન્જિન 99.80 ટકા નો કોમ્પોઝિટ સ્કોર સુધી પહોંચ્યું; 87,412 મોનિટર કરાયેલા ટ્રૅપ-કેસ તકો (trap-case opportunities)માં હાયપરડાયગ્નોસિસ (hyperdiagnosis) માટે શૂન્ય ફ્લેગ્સ હતા અને સરેરાશ પ્રતિભાવ વિલંબ (mean response latency) 13.26 સેકન્ડ હતો. આ કોમ્પોઝિટ કૃત્રિમ ઇનપુટ્સ પર આઉટપુટ કોનફોર્મન્સ માપે છે, નિદાનની ચોકસાઈ (diagnostic accuracy) નહીં. મૂળ V11 રિલીઝે એ જ રૂબ્રિક 15 હાથથી બનાવેલા કેસો (composite 99.12%) પર લાગુ કર્યો હતો; Second Update રૂબ્રિકને બાઇટ-આઇડેન્ટિકલ રાખે છે અને તેને વધુ મોટા કૃત્રિમ કોહોર્ટ સુધી વિસ્તારે છે. સંપૂર્ણ સ્કોરકાર્ડ Figshare પર DOI 10.6084/m9.figshare.32095435 હેઠળ અને GitHub પર MIT લાઇસન્સ હેઠળ પ્રકાશિત છે.

શું Kantesti AI એન્જિનનું ક્લિનિકલ રીતે પ્રમાણન કરવામાં આવ્યું છે?

ના. એન્જિનનું મૂલ્યાંકન સ્વચાલિત તકનીકી બેન્ચમાર્ક (automated technical benchmark) દ્વારા કરવામાં આવ્યું છે (ક્લિનિકલ વેલિડેશન નહીં), એવી રૂબ્રિક સામે જે V11 પ્રારંભિક રન પહેલાં સોર્સ કોડમાં ફ્રીઝ કરવામાં આવી હતી અને V11 Second Update માટે બાઇટ-આઇડેન્ટિકલ રાખવામાં આવી હતી; 127 દેશ-લેબલ્સમાંથી લેવામાં આવેલા હેમેટોલોજી, એન્ડોક્રિનોલોજી, મેટાબોલિક મેડિસિન, હેપેટોલોજી, નેફ્રોલોજી, કાર્ડિયોલોજી, ર્યુમેટોલોજી, અને ઇન્ટર્નલ મેડિસિનમાં ફેલાયેલા 100,000 કૃત્રિમ બ્લડ-ટેસ્ટ કેસો પર મૂલ્યાંકન કરવામાં આવ્યું હતું. ક્લિનિકલ દેખરેખ Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) દ્વારા આપવામાં આવી હતી—Kantesti AI ખાતે બોર્ડ-સર્ટિફાઇડ ક્લિનિકલ હેમેટોલોજિસ્ટ અને ચીફ મેડિકલ ઓફિસર.

હાઇપરડાયગ્નોસિસ ટ્રેપ કેસ શું છે?

હાઇપરડાયગ્નોસિસ ટ્રેપ કેસ એ એવી ક્લિનિકલ પરિસ્થિતિ છે જે ખાસ કરીને AI એન્જિનોમાં અતિ-નિદાન (ઓવર-ડાયગ્નોસિસ) વર્તન શોધવા માટે રચાયેલી હોય છે. V11 પ્રારંભિક બેન્ચમાર્કે પદ્ધતિશાસ્ત્રીય પ્રૂફ-ઓફ-કોન્સેપ્ટ તરીકે આવા બે કેસોનો ઉપયોગ કર્યો હતો: ગિલ્બર્ટ્સ સિન્ડ્રોમ સાથે સુસંગત એકલ (આઇસોલેટેડ) ઇન્ડાયરેક્ટ હાઇપરબિલિરુબિનેમિયા (જ્યાં યોગ્ય અર્થઘટન હેપેટાઇટિસ અથવા હેમોલિસિસ નહીં પરંતુ નિર્દોષ UGT1A1 પોલિમોર્ફિઝમ છે) અને સંપૂર્ણ રીતે સામાન્ય પુખ્ત સ્ક્રીનિંગ પેનલ (જ્યાં યોગ્ય આઉટપુટ આશ્વાસન છે, બનાવટી સરહદી પેથોલોજી નહીં). V11 સેકન્ડ અપડેટે આ ટ્રેપ-કેસ પદ્ધતિને 8,723 કેસોના સમર્પિત ઉપસેટ સુધી વિસ્તારીને 87,412 મોનિટર કરાયેલા હાઇપરડાયગ્નોસિસ ફ્લેગ તકો ઉત્પન્ન કરી — અને એન્જિનનો ફોલ્સ-પોઝિટિવ દર શૂન્ય જ રહ્યો.

શું Kantesti AI એન્જિનનું મૂલ્યાંકન પુનરુત્પાદક (reproducible) છે?

સંપૂર્ણ મૂલ્યાંકન હાર્નેસ MIT લાઇસન્સ હેઠળ એક જ સ્વ-સમાવેશિત (self-contained) Python મોડ્યુલ તરીકે પ્રકાશિત કરવામાં આવ્યું છે. V11 પ્રારંભિક રન માટે માત્ર Kantesti API ક્રેડેન્શિયલ્સની જોડી અને Python 3.10 અથવા તેથી વધુ આવૃત્તિ જરૂરી છે. V11 સેકન્ડ અપડેટમાં પેરામીટરાઇઝ્ડ, રીડ-ઓનલી SQL કેસ લોડર ઉમેરાય છે, જેને Kantesti ક્લિનિકલ-રિપોઝિટરી ક્રેડેન્શિયલ્સની જરૂર પડે છે (a bench_reader એવી ભૂમિકા (role) જેમાં ટેબલો ઓળખવા માટે કોઈ અધિકાર (privileges) નથી). કોડ, કેસ લોડર SQL, રૂબ્રિક (રિલીઝ વચ્ચે બાઇટ-સમાન), અને V11 પ્રારંભિક તથા સેકન્ડ અપડેટ રેફરન્સ રનમાંથી લેવાયેલા રો એન્જિન પ્રતિસાદોના સ્તરીકૃત રેન્ડમ નમૂના github.com/emirhanai/kantesti-blood-test-benchmark પર ઉપલબ્ધ છે અને Figshare, ResearchGate, અને Academia.edu પર પણ મિરર કરવામાં આવ્યા છે.

Kantesti AI એન્જિન આયર્નની ઉણપને બીટા-થેલેસેમિયા ટ્રેઇટથી કેવી રીતે અલગ પાડે છે?

એન્જિન Mentzer ઇન્ડેક્સ લાગુ કરે છે, જે સરેરાશ કોર્પસ્ક્યુલર વોલ્યુમને લાલ રક્તકણોની સંખ્યા (red blood cell count) વડે ભાગાકાર કરીને ગણવામાં આવે છે. Mentzer ઇન્ડેક્સ 13 કરતાં વધુ હોય તો આયર્ન ડિફિશિયન્સી એનિમિયા સમર્થિત થાય છે, જ્યારે 13 કરતાં ઓછું મૂલ્ય બેટા-થેલેસેમિયા ટ્રેઇટને સમર્થન આપે છે. V11 પ્રારંભિક બેન્ચમાર્કમાં બંને રજૂઆતોને સ્પષ્ટ Mentzer ઇન્ડેક્સ ગણતરી સાથે યોગ્ય રીતે વર્ગીકૃત કરવામાં આવી હતી, જેમાં ફેરીટિન, RDW અને HbA2નો સંદર્ભ આધારરૂપ હતો. V11 સેકન્ડ અપડેટમાં 100,000-કેસ કોહોર્ટ દરમિયાન પણ એ જ ભેદક (differential) વર્તન વસ્તી સ્તરે જાળવાયું હતું.

હું કાચા બેન્ચમાર્ક ડેટા અને સોર્સ કોડ ક્યાં શોધી શકું?

ટેકનિકલ રિપોર્ટ Figshare પર DOI 10.6084/m9.figshare.32095435 હેઠળ જમા કરવામાં આવ્યો છે (જેમાં V11 પ્રારંભિક રિલીઝ અને V11 સેકન્ડ અપડેટ બંને આવરી લેવાયા છે), ResearchGate publication 404175463 અને Academia.edu paper 165956808 પર મિરર કરવામાં આવ્યો છે — બંનેને V11 સેકન્ડ અપડેટ શીર્ષક અને 100,000-કેસ પરિણામો સાથે અપડેટ કરવામાં આવ્યા છે — અને MIT-લાઇસન્સ્ડ Python હાર્નેસ જેમાં તમામ રેફરન્સ રન પરિણામો સામેલ છે તે github.com/emirhanai/kantesti-blood-test-benchmark પર ઉપલબ્ધ છે. ચાર-પ્લેટફોર્મ મિરર નેટવર્ક લાંબા ગાળાની ઉપલબ્ધતા અને ઉલ્લેખ (citation) લવચીકતા સુનિશ્ચિત કરે છે.

AI મેડિકલ બેન્ચમાર્ક માટે પ્રી-રજિસ્ટ્રેશન શા માટે મહત્વપૂર્ણ છે?

પ્રી-રજિસ્ટ્રેશન પોસ્ટ-હોક રૂબ્રિક ટ્યુનિંગને અટકાવે છે—જે કંપની-ચાલિત બેન્ચમાર્ક્સ પોતાના આંકડાઓને ફુલાવવાની સૌથી સામાન્ય રીત છે. કોઈપણ એન્જિન કોલ પહેલાં રૂબ્રિકને સોર્સ કોડમાં કમિટ કરીને અને હાર્નેસને જાહેર કરીને, રૂબ્રિક લેખકની તારીખો વર્ઝન કંટ્રોલમાં ચકાસી શકાય તેવી બને છે, અને એન્જિનના પરિણામો સ્કોરિંગ માપદંડોને આકાર આપી શકતા નથી.

શું આ બેન્ચમાર્કમાં અન્ય AI એન્જિનો સાથેની તુલનાઓ સામેલ છે?

ના. V11 રિપોર્ટ — પ્રારંભિક રિલીઝ અને સેકન્ડ અપડેટ બંને — ઇચ્છાપૂર્વક એક જ એન્જિનને નિશ્ચિત (ફિક્સ્ડ) રૂબ્રિક સામે વર્ણવે છે, તેને વિકલ્પરૂપ વ્યાવસાયિક સિસ્ટમો સામે સ્થાન આપ્યા વિના. હાર્નેસ MIT લાઇસન્સ હેઠળ ઓપન સોર્સ છે (હવે SQL કેસ લોડર સહિત), તેથી સ્વતંત્ર સંશોધકો પોતાની પસંદગીના કોઈપણ એન્જિનને એ જ રૂબ્રિક અને કેસ લોડર સામે મૂલ્યાંકન કરી શકે છે અને પોતાના પરિણામો પ્રકાશિત કરી શકે છે.

શું દર્દીના કેસો વાસ્તવિક છે કે કૃત્રિમ (synthetic)?

બધા કેસો કૃત્રિમ રીતે જનરેટ થયેલા છે — V11 પ્રારંભિક રિલીઝમાં 15 હાથથી બનાવેલા કેસો અને Second Updateમાં 100,000. તેઓ કૃત્રિમ કેસો નથી: કોઈ કૃત્રિમ ડેટા (synthetic data) નથી, કોઈ સંમતિ પ્રક્રિયા (consent process) નથી, અને કોઈ ડી-આઇડેન્ટિફિકેશન (de-identification) સામેલ નથી, કારણ કે કોહોર્ટમાં કોઈ વ્યક્તિગત ડેટા અસ્તિત્વમાં નથી. પ્રકાશિત હાર્નેસ (harness), તકનીકી રિપોર્ટ, અથવા રિલીઝ થયેલા ડેટાસેટ્સમાં કોઈ વ્યક્તિગત ડેટા દેખાતો નથી.

⚕️ મેડિકલ ડિસ્ક્લેમર & હિતસંઘર્ષ (Conflict of Interest)

આ બેન્ચમાર્ક રિપોર્ટ સંશોધન અને પદ્ધતિશાસ્ત્રીય પારદર્શિતાના હેતુ માટે છે. તે તબીબી સલાહનું પ્રતિનિધિત્વ કરતું નથી, નિદાન નથી, અને વ્યાવસાયિક તબીબી કાળજીનો વિકલ્પ નથી; અહીંનો કોઈપણ પરિણામ ડૉક્ટરને મળવામાં વિલંબ કરવા અથવા ટાળવા માટે ઉપયોગમાં લેવો જોઈએ નહીં. નિદાન અને સારવાર સંબંધિત નિર્ણયો માટે હંમેશા લાયકાતપ્રાપ્ત આરોગ્યસેવા પ્રદાતા સાથે પરામર્શ કરો. આ કંપનીના પોતાના એન્જિનનો સ્વ-સંચાલિત આંતરિક બેન્ચમાર્ક છે અને તેને સ્વતંત્ર રીતે વેલિડેટ અથવા પિયર-રિવ્યુ કરવામાં આવ્યો નથી. સંયુક્ત સ્કોર નિશ્ચિત રૂબ્રિક (રિપોર્ટ રચના, કીવર્ડ અને સ્કોરિંગ-સિસ્ટમ રીકોલ, અને લેટન્સી) સાથેના અનુરૂપતાને માપે છે; તે વાસ્તવિક દુનિયાની નિદાન ચોકસાઈ અથવા ક્લિનિકલ સલામતીનું માપ નથી. બંને લેખકો Kantesti Ltdમાં નોકરી કરે છે અને તેમાં ઇક્વિટી ધરાવે છે, અને મૂલ્યાંકન હેઠળનું એન્જિન એ જ સંસ્થાનું વ્યાવસાયિક ઉત્પાદન છે. હિતસંઘર્ષને સોર્સ કોડમાં રૂબ્રિકનું પ્રી-રજિસ્ટ્રેશન કરીને, MIT લાઇસન્સ હેઠળ હાર્નેસ રિલીઝ કરીને, અને કાચા એન્જિન પ્રતિસાદોના સ્તરીકૃત રૅન્ડમ નમૂનાનું પ્રકાશન કરીને ઘટાડવામાં આવ્યો છે.

E-E-A-T વિશ્વાસ સંકેતો

⭐

અનુભવ

કેસ પેનલ પસંદગીનું નિરીક્ષણ કરતી 15+ વર્ષોની ક્લિનિકલ હેમેટોલોજી અને લેબોરેટરી મેડિસિન પ્રેક્ટિસ.

📋

કુશળતા

પ્રી-રજિસ્ટર્ડ રૂબ્રિક ડિઝાઇન જેમાં સ્પષ્ટ હાઇપરડાયગ્નોસિસ દંડ (penalties) અને માન્ય ક્લિનિકલ સ્કોરિંગ સિસ્ટમો (Mentzer, FIB-4, EULAR/ACR, KDIGO) સામેલ છે.

👤

સત્તાવાદ

મુખ્ય લેખક ડૉ. થોમસ ક્લાઇન, MD (ORCID 0009-0009-1490-1321). અમલીકરણ (Implementation) જુલિયન એમિરહાન બુલુટ, Kantesti Ltdના CEO દ્વારા.

🛡️

વિશ્વસનીયતા

MIT-લાઇસન્સ ધરાવતું પુનરુત્પાદ્ય (reproducible) હાર્નેસ, કાચા એન્જિન પ્રતિભાવ પ્રકાશિત, ખુલ્લો હિતસંઘર્ષ (conflict-of-interest) ખુલાસો, ચાર-પ્લેટફોર્મ સંશોધન મિરર નેટવર્ક.

🏢 કાન્ટેસ્ટી લિમિટેડ ઇંગ્લેન્ડ અને વેલ્સમાં નોંધાયેલ · કંપની નં. 17090423 લંડન, યુનાઇટેડ કિંગડમ · કાન્ટેસ્ટી.નેટ