ఈ బెంచ్‌మార్క్ ఎందుకు ఉంది మరియు ఇది ఏమి పరీక్షిస్తుంది

AI-సహాయంతో రక్త పరీక్ష ఫలితాలు అర్థం వినియోగదారుల మరియు క్లినికల్ వర్క్‌ఫ్లోలలో పెరుగుతున్న స్థాయిలో ఉపయోగించబడుతోంది; అయినప్పటికీ, ప్రయోగశాల వైద్యానికి అనుకూలంగా పునరుత్పత్తి చేయగల మూల్యాంకన ఫ్రేమ్‌వర్క్‌లు ఇప్పటికీ అరుదుగా ఉన్నాయి. ఈ సందర్భంలో అత్యంత ముఖ్యమైన ప్రశ్నలు సాధారణ వైద్య ప్రశ్న-సమాధాన బెంచ్‌మార్క్‌లలో కవర్ చేయబడేవి కావు: సగటు కార్పస్కులర్ వాల్యూమ్ ఒకేలా ఉన్నప్పుడు ఇంజిన్ ఐరన్ లోపాన్ని థాలస్సీమియా ట్రైట్ నుండి వేరు చేయగలదా, హెపటైటిస్‌గా గిల్బర్ట్ సిండ్రోమ్‌ను అధికంగా నిర్ధారిస్తుందా, మరియు పూర్తిగా సాధారణ స్క్రీనింగ్ ప్యానెల్‌లో పాథాలజీని తయారు చేస్తుందా?

ముందస్తుగా నమోదు చేసిన రూబ్రిక్ ఫ్లో డయాగ్రామ్ — Kantesti AI Engine — V11 Second Update, 100,000 కేసులపై 99.80% కంపోజిట్ స్కోర్ — ఎలా ఫ్రీజ్ చేసిన స్కోరింగ్ ప్రమాణాలతో మూల్యాంకనం చేయబడుతుందో చూపిస్తుంది
చిత్రం 1: V11 రెండవ అప్‌డేట్ 100,000-కేసుల కోహోర్ట్‌కు వెనుక ఉన్న బెంచ్‌మార్క్ ఆర్కిటెక్చర్ — ఇంజిన్ ఒకే PDF‌ను చూడకముందే ప్రతి కేసు, ప్రతి కీవర్డ్, ప్రతి స్కోరింగ్ సిస్టమ్ సోర్స్ కోడ్‌లో స్థిరంగా నిర్ణయించబడతాయి, మరియు రూబ్రిక్ V11 ప్రారంభ విడుదలతో బైట్-ఐడెంటికల్‌గా ఉంటుంది. డిజైన్ ప్రకారం పోస్ట్-హాక్ రూబ్రిక్ ట్యూనింగ్ సాధ్యం కాదు. 99.80% కాంపోజిట్ స్కోర్ hub విస్తృత ఫ్రేమ్‌వర్క్‌ను వివరిస్తుంది; ఈ పేజీ V11 ప్రారంభ ప్రూఫ్-ఆఫ్-కాన్సెప్ట్‌ను మరియు దాన్ని 127 దేశాలపై విస్తరించిన SQL-బ్యాక్డ్ క్లినికల్ రిపోజిటరీ నుంచి తీసుకున్న 100,000 అనానిమైజ్డ్ కేసులకు స్కేల్ చేసిన V11 రెండవ అప్‌డేట్‌ను వివరిస్తుంది — అదే స్కోరింగ్ రూబ్రిక్‌తో, బైట్-ఐడెంటికల్‌గా, మరియు పోస్ట్-హాక్ ట్యూనింగ్ అనుమతించబడలేదు.

ఒకే రక్త పరీక్ష ప్యానెల్ సాధారణంగా అనేక పోటీ వివరణలకు మద్దతు ఇచ్చేంత సంకేతాన్ని కలిగి ఉంటుంది; అందువల్ల ఫలితాలను అర్థం చేసేవైద్యుడి పని, పాఠ్యపుస్తక సమాధానాన్ని వెతకడం కంటే, ఆ వివరణలను పరస్పరం తూకం వేసి చూడడం. పాఠ్యపుస్తక కేసుల్లో బాగా పనిచేసే ఇంజిన్, అత్యంత ప్రాముఖ్యమైన కేసుల్లో మాత్రం విఫలమవచ్చు: డిఫరెన్షియల్-డయాగ్నోసిస్ లోపాల పిట్ఫాల్స్, ఒంటరిగా చూసినప్పుడు భయంకరంగా కనిపించే నిర్దోష వేరియంట్లు, మరియు పూర్తిగా సాధారణ ప్యానెల్లు—ఇవి నమ్మకంగా ఉన్న సహాయకులను పాథాలజీని తయారు చేయడానికి ప్రేరేపిస్తాయి.

ఈ బెంచ్‌మార్క్ ప్రత్యేకంగా ఈ వైఫల్య రీతుల చుట్టూ నిర్మించబడింది. పదిహేను కేసుల్లో ప్రతి ఒక్కదాన్ని ఒక నిర్దిష్ట నిర్ధారణ లక్షణం కోసం ఎంపిక చేశారు: ఒక ఐరన్-లోప మైక్రోసైటోసిస్‌ను, అదే mean corpuscular volume ఉన్న బీటా-థాలస్సీమియా ట్రైట్ నుండి వేరుగా ఉంచాల్సిన అవసరం; గిల్బర్ట్ సిండ్రోమ్ ప్రదర్శన—ఇందులో ఏకైక అసాధారణత ఒంటరిగా ఉన్న indirect hyperbilirubinaemia; మరియు పదిహేను-పారామీటర్ స్క్రీనింగ్ ప్యానెల్‌లో ప్రతి అనలైట్ తన సూచన పరిధిలోనే ఉండే పరిస్థితి. ఈ రూబ్రిక్, ప్రతి కేసును దాని స్వంత సందర్భంలో చదివే ఇంజిన్‌లకు బహుమతి ఇస్తుంది; అటువంటి నిర్ధారణ అవసరం లేని చోట కూడా నమ్మకంగా ఒక నిర్ధారణకు చేరుకునే ఇంజిన్‌లను శిక్షిస్తుంది.

డాక్టర్ థామస్ క్లైన్‌గా, నేను ఈ కేస్ ప్యానెల్‌ను ఎంచుకున్నాను, ఎందుకంటే ల్యాబొరేటరీ-మెడిసిన్ సహాయకులు ఎక్కువగా తప్పుగా అర్థం చేసుకునే నమూనాలు ఇవే. ఖరీదైన వైఫల్య రీతి "అరుదైన వ్యాధిని మిస్ చేయడం" కాదు—అది దానిని కలిగి లేని రోగుల్లో సాధారణ పాథాలజీని తయారు చేయడం. మా వైద్య ధ్రువీకరణ హబ్ విస్తృత ఫ్రేమ్‌వర్క్‌ను వివరిస్తుంది; ఈ పేజీ V11 ప్రారంభ ప్రూఫ్-ఆఫ్-కాన్సెప్ట్‌ను మరియు దాన్ని 127 దేశ లేబుళ్లను కవర్ చేసే సింథటిక్ కేస్ సెట్ నుంచి తీసుకున్న 100,000 సింథటిక్ కేసులకు స్కేల్ చేసిన V11 రెండో అప్‌డేట్‌ను వివరిస్తుంది — అదే స్కోరింగ్ రూబ్రిక్‌ను ఉపయోగించి, బైట్-ఐడెంటికల్‌గా, మరియు పోస్ట్-హాక్ ట్యూనింగ్‌కు అనుమతి లేకుండా.

26 ఏప్రిల్ 2026 నాటి V11 రెండవ అప్‌డేట్ రిఫరెన్స్ రన్ ఒక కాంపోజిట్ స్కోర్‌ను ఉత్పత్తి చేసింది

V11 ప్రారంభ విడుదలలో ఉపయోగించిన అదే ప్రీ-రిజిస్టర్డ్ రూబ్రిక్‌పై, 99.80% 100,000 అనానిమైజ్డ్ కేసులపై మూల్యాంకనం చేయబడింది 100,000 సింథటిక్ కేసులు Kantesti సింథటిక్ కేస్ సెట్ నుంచి తీసుకుని, విస్తరించిన 127 దేశ లేబుళ్లు . 23 ఏప్రిల్ 2026 నాటి అసలు V11 రన్ 15 చేతితో ఎంపిక చేసిన కేసులను (కాంపోజిట్ 99.12%) కవర్ చేసి రూబ్రిక్‌ను ధృవీకరించింది; రెండవ అప్‌డేట్ ఆ రూబ్రిక్‌ను బైట్-ఐడెంటికల్‌గా ఉంచి, మూల్యాంకనాన్ని జనాభా-స్థాయి కోహోర్ట్‌కు విస్తరిస్తుంది. 0 / 87,412. 100,000 లో 100,000 కేసులకు స్కోర్ వచ్చింది.

సమ్మిళిత 99.80% 13.26 s
1.000 నిర్మాణాత్మక స్కోరు
0.996 క్లినికల్ స్కోరు
ప్రాథమిక-పాత్ సర్వీస్-లెవల్ లక్ష్యానికి వ్యతిరేకంగా. ఖచ్చితమైన విభజన క్రింద ఉన్న రూబ్రిక్ ఫార్ములాలో చూపబడింది — రెండవ అప్‌డేట్ కోసం ఈ వెయిట్లు లేదా సబ్-రూబ్రిక్‌లలో ఏదీ మార్చలేదు. సగటు లేటెన్సీ
0 / 87,412 ట్రాప్ ఫాల్స్-పాజిటివ్‌లు

సమ్మిళిత ఫార్ములా మూడు భాగాలను కలుపుతుంది: నిర్మాణ అనుగుణత ఏడు తప్పనిసరి రిపోర్ట్ విభాగాలు మరియు పదహారు తప్పనిసరి ఉపవిభాగాలతో, కంటెంట్ ఖచ్చితత్వం కీవర్డ్ రీకాల్ + స్కోరింగ్-సిస్టమ్ రీకాల్ + ప్రాబబిలిటీ-డిస్ట్రిబ్యూషన్ చెల్లుబాటు తనిఖీగా కొలవబడింది, మరియు ప్రతిస్పందన లేటెన్సీ హెడ్‌రూమ్‌లో మిగిలిన 0.20 శాతం పాయింట్లు దాదాపు పూర్తిగా క్లినికల్ సబ్-స్కోర్‌లోకి విడిపోతాయి — కేసులలో చిన్న భాగం (ప్రధానంగా హెపటాలజీ మరియు రుమటాలజీ) లో, డయాగ్నోస్టిక్ కంటెంట్ సరైనప్పటికీ, ఇంజిన్ యొక్క అర్థంలో ఒక ఆశించిన స్కోరింగ్-సిస్టమ్ కీవర్డ్ లేనట్లు కనిపించింది.

సమ్మిళిత = 0.35 × నిర్మాణాత్మక + 0.55 × క్లినికల్ + 0.10 × లేటెన్సీ

100,000-కేసుల రెండవ-అప్‌డేట్ కోహోర్ట్‌లో ఏ కేసూ స్వయంగా డయాగ్నోసిస్‌ను మిస్ చేయలేదు. లేటెన్సీ V11 ప్రారంభ విడుదలలో సగటు 20.17 s నుంచి రెండవ అప్‌డేట్‌లో 13.26 s కు మెరుగైంది; ఈ రెండు రన్స్ మధ్య ప్రొడక్షన్ ఇంజిన్ ఆప్టిమైజేషన్లను ఇది ప్రతిబింబిస్తుంది. రూబ్రిక్, స్కోరింగ్ కోడ్, మరియు API ఎండ్‌పాయింట్ మారలేదు. దేశాల వారీ కాంపోజిట్ స్కోర్లు అత్యధికంగా 0.9971 (భారతదేశం) నుంచి 0.9985 (స్విట్జర్లాండ్) వరకు, అత్యధికంగా ప్రాతినిధ్యం ఉన్న 30 దేశాలలో ఉన్నాయి. అదనంగా ఉన్న 97 దేశాల పొడవైన టెయిల్ (మొత్తం ≈7,300 కేసులు) లో ఎలాంటి వ్యవస్థాత్మక క్షీణత కనిపించలేదు. కేసుల సంఖ్య ఆధారంగా ప్రధాన సహకారులు యునైటెడ్ స్టేట్స్ (10,500), బ్రెజిల్ (9,500), స్పెయిన్ (9,000), ఇటలీ (8,000), జర్మనీ (7,800), ఫ్రాన్స్ (7,400), పోర్చుగల్ (5,800), ట్యూర్కియే (3,400), యునైటెడ్ కింగ్‌డమ్ (2,900), మరియు మెక్సికో (2,500).

అత్యధికంగా ప్రాతినిధ్యం ఉన్న 30 దేశ లేబుళ్లలో, లేబుల్-ప్రతి కంపోజిట్ స్కోర్లు 0.9971 నుంచి 0.9985 వరకు ఉన్నాయి. మిగిలిన 97 అదనపు లేబుళ్ల దీర్ఘ తోక (≈7,300 కేసులు కలిపి) ఎలాంటి వ్యవస్థాత్మక క్షీణతను చూపలేదు. కేసుల సంఖ్య ఆధారంగా అత్యంత తరచుగా కనిపించిన లేబుళ్లు: యునైటెడ్ స్టేట్స్ (10,500), బ్రెజిల్ (9,500), స్పెయిన్ (9,000), ఇటలీ (8,000), జర్మనీ (7,800), ఫ్రాన్స్ (7,400), పోర్చుగల్ (5,800), Türkiye (3,400), యునైటెడ్ కింగ్‌డమ్ (2,900), మరియు మెక్సికో (2,500).

15 కేసుల నుంచి 100,000 వరకు: 127 దేశ లేబుళ్లలో కోహోర్ట్ పరిణామం

అసలు V11 కేస్ ప్యానెల్‌లో ఏడు ప్రత్యేకతలు — హీమటాలజీ, ఎండోక్రినాలజీ, మెటబాలిక్ మెడిసిన్, హెపటాలజీ, నెఫ్రాలజీ, కార్డియాలజీ, రుమటాలజీ — అలాగే రెండు ప్రత్యేక హైపర్‌డయాగ్నోసిస్ ట్రాప్ కేసులు ఉన్నాయి; ప్రతి కేసు సింథటిక్‌గా రూపొందించిన రక్త పరీక్ష ప్యానెల్. V11 రెండో అప్‌డేట్ మూల్యాంకనాన్ని 127 దేశ లేబుళ్లలో విస్తరించిన 100,000 సింథటిక్ కేసులకు విస్తరిస్తుంది, హీమటాలజీ, ఎండోక్రైనాలజీ, మెటబాలిక్ మెడిసిన్, హెపటాలజీ, నెఫ్రాలజీ, కార్డియాలజీ, రుమటాలజీ — అలాగే రెండు ట్రాప్ కేసులు — గిల్బర్ట్ సిండ్రోమ్ మరియు పూర్తిగా సాధారణ స్క్రీనింగ్ ప్యానెల్ — కోసం V11 ప్రారంభ కేస్-ప్యానెల్ డిజైన్. రెండవ అప్‌డేట్ ఈ రూబ్రిక్‌ను బైట్-ఐడెంటికల్‌గా నిలుపుకుంటూ, Kantesti SQL రిపోజిటరీ నుంచి తీసుకున్న 100,000 కేసులకు కోహోర్ట్‌ను విస్తరిస్తుంది.

V11 ప్రారంభ కేస్-ప్యానెల్ డిజైన్ — ఏడు వైద్య ప్రత్యేకతలలోని పదిహేను సింథటిక్ బ్లడ్-టెస్ట్ కేసులు మరియు రెండు హైపర్‌డయాగ్నోసిస్ ట్రాప్ కేసులు; అదే రుబ్రిక్ V11 Second Updateలో 100,000 కేసులపై 99.80% కంపోజిట్ స్కోర్‌ను సాధించింది
చిత్రం 2: డీ-ఐడెంటిఫికేషన్‌ను Safe Harbor విధానంలో నిర్వహించారు: అన్ని ప్రత్యక్ష గుర్తింపులను తొలగించారు లేదా ప్రత్యామ్నాయంగా మార్చారు, మరియు ప్రతి రికార్డ్‌కు BT-NNN-LABEL ఫార్మాట్‌లో ఒక బెంచ్‌మార్క్-ఇంటర్నల్ కేస్ కోడ్‌ను కేటాయించారు (V11 ప్రారంభం) లేదా రెండవ అప్‌డేట్ కోసం ఒక స్థిరమైన అనానిమైజ్డ్.

అన్ని కేసులు సింథటిక్‌గా రూపొందించబడినందున, తొలగించాల్సిన నిజమైన గుర్తింపులు లేవు మరియు వ్యక్తిగత డేటా ఏదీ ఉండదు. ప్రతి సింథటిక్ కేసుకు ఒక బెంచ్‌మార్క్-అంతర్గత కేస్ కోడ్ ఉంటుంది (V11 ప్రారంభ సెట్‌లో BT-NNN-LABEL, రెండో అప్‌డేట్‌లో స్థిరమైన . ప్రాసెసింగ్‌ను ). ప్రచురిత హార్నెస్‌లో, సాంకేతిక నివేదికలో, లేదా విడుదల చేసిన డేటాసెట్‌లలో ఎక్కడా వ్యక్తిగత డేటా కనిపించదు.

V11 initial release — 15 hand-curated cases

అసలు V11 కేస్ ప్యానెల్‌ను డాక్టర్ థామస్ క్లైన్ చేతితో ఎంపిక చేసి, ల్యాబొరేటరీ-మెడిసిన్ అసిస్టెంట్లు ఎక్కువగా తప్పుగా పొందే డయాగ్నస్టిక్ నమూనాలను సాధన చేయడానికి రూపొందించారు. క్రింద పేర్కొన్నట్లుగా, పదిహేను కేసులలో ప్రతి ఒక్కదాన్ని ఒక నిర్దిష్ట డయాగ్నస్టిక్ లక్షణం కోసం ఎంపిక చేశారు.

హీమటాలజీ (3) BT-001, BT-006, BT-007 ఐరన్ లోప రక్తహీనత · B12 లోపం · బీటా-థాలసీమియా మైనర్
ఎండోక్రైనాలజీ (3) BT-002, BT-008, BT-012 హషిమోటోస్ థైరాయిడిటిస్ · ఇన్సులిన్ రెసిస్టెన్స్‌తో PCOS · తీవ్రమైన విటమిన్ డి లోపం
మెటబాలిక్ (2) BT-003, BT-013 మెటబాలిక్ సిండ్రోమ్‌తో T2DM · గౌట్ ప్రమాదంతో హైపర్‌యూరిసీమియా
హెపాటాలజీ (2) BT-004, BT-009 NAFLD / NASH · ఆకస్మిక వైరల్ హెపటైటిస్
నెఫ్రాలజీ · కార్డియాలజీ · రుమటాలజీ (3) BT-005, BT-010, BT-011 CKD దశ 3 · అథెరోజెనిక్ డిస్లిపిడీమియా · సిస్టమిక్ లూపస్ ఎరిథీమాటోసస్
ట్రాప్ కేసులు (2) BT-014, BT-015 గిల్బర్ట్ సిండ్రోమ్ (ఒంటరి ఇండైరెక్ట్ హైపర్‌బిలిరుబినీమియా) · పూర్తిగా సాధారణ వయోజన స్క్రీన్

ఈ ప్రత్యేక పంపిణీ ఎందుకు

వాస్తవ ప్రపంచ ప్రయోగశాల ప్రాక్టీస్‌లో మైక్రోసైటిక్ డిఫరెన్షియల్స్ మరియు మాక్రోసైటిక్ డిఫరెన్షియల్స్ అత్యధిక-వాల్యూమ్ ట్రాప్‌లుగా ఉండటంతో హీమటాలజీకి మూడు కేసులు వస్తాయి. హాషిమోటోస్, PCOS, మరియు విటమిన్ డి లోపం ప్రదర్శనలు వేర్వేరు నిర్ధారణ ఆకృతులను (ఆటోఆంటీబాడీ-చోదిత, హార్మోన్-నిష్పత్తి-చోదిత, ఒకే-మార్కర్-చోదిత) పరీక్షించడంతో ఎండోక్రినాలజీకి మూడు కేసులు వస్తాయి. CKD, ASCVD రిస్క్, మరియు SLE ప్రతి ఒక్కదానికి ఇంజిన్ పిలవాల్సిన తనదైన స్కోరింగ్ సిస్టమ్ ఉండటంతో సింగిల్-కేస్ స్పెషాలిటీలు ఇంకా అర్థవంతమే (క్రమంగా KDIGO స్టేజింగ్, ASCVD 10-year risk, 2019 EULAR/ACR SLE ప్రమాణాలు).

V11 రెండో అప్‌డేట్ — 127 దేశ లేబుళ్లలో విస్తరించిన 100,000 సింథటిక్ కేసులు

రెండో అప్‌డేట్ అసలు V11 హార్డ్-కోడ్ చేసిన 15-కేసుల Python లిటరల్‌ను పెద్దదైన, ప్రోగ్రామాటిక్‌గా రూపొందించిన సింథటిక్ కేస్ సెట్‌తో భర్తీ చేస్తుంది. ప్రతి రన్ ప్రారంభంలోనే కేస్ సెట్‌ను లోడ్ చేసి, పారదర్శకత కోసం కాన్ఫిగరేషన్‌ను లాగ్ చేస్తారు. కంటెంట్ ఏరియా ప్రకారం కోహోర్ట్ పంపిణీ క్రింద చూపబడింది.

ఎండోక్రినాలజీ 23,900 కేసులు (23.9%) థైరాయిడ్, PCOS, విటమిన్ డి, గోనాడల్ అక్షం, పిట్యూటరీ
మెటబాలిక్ మెడిసిన్ 21,900 కేసులు (21.9%) T2DM, మెటబాలిక్ సిండ్రోమ్, లిపిడ్ ప్యానెల్స్, హైపర్‌యూరిసీమియా
హెమటాలజీ 15,400 కేసులు (15.4%) మైక్రోసైటిక్ మరియు మాక్రోసైటిక్ డిఫరెన్షియల్స్, B12/ఫోలేట్, ఐరన్ స్టడీస్
హెపటాలజీ 12,400 కేసులు (12.4%) NAFLD/NASH, వైరల్ హెపటైటిస్, FIB-4, కొలెస్టాసిస్
అంతర్గత వైద్యం (ట్రాప్ సబ్‌సెట్ సహా) 9,000 కేసులు (9.0%) మిశ్రమ ప్రదర్శనలు మరియు 8,723 ప్రత్యేక హైపర్‌డయాగ్నసిస్ ట్రాప్ కేసులు
కార్డియాలజీ 7,500 కేసులు (7.5%) ASCVD రిస్క్, అథెరోజెనిక్ డిస్లిపిడీమియా, hs-CRP
రుమటాలజీ 6,000 కేసులు (6.0%) SLE, RA, వాస్కులైటిస్, ఆటోఆంటీబాడీ ప్యానెల్స్ (EULAR/ACR ప్రమాణాలు)
నెఫ్రాలజీ 4,000 కేసులు (4.0%) CKD స్టేజింగ్ (KDIGO), eGFR ట్రెండ్స్, ఎలక్ట్రోలైట్ డిస్టర్బెన్స్

సింథటిక్ దేశ-లేబుల్ పంపిణీ — టాప్ 10 లేబుళ్లు

100,000 సింథటిక్ కేసులు లోకేల్ హ్యాండ్లింగ్‌ను పరీక్షించేందుకు 127 దేశ లేబుళ్లను (ISO 3166-1 alpha-2) కలిగి ఉంటాయి. లేబుల్ కేటాయింపు: యూరప్ 57.7%, అమెరికాస్ 25.4%, ఆసియా-పసిఫిక్ 6.2%, పేరు పెట్టిన మిడిల్-ఈస్ట్/ఆఫ్రికా లేబుళ్లు 3.4%, మరియు మిగిలిన 97 అదనపు లేబుళ్ల దీర్ఘ తోక మొత్తం సుమారు 7.3%. కేసుల సంఖ్య ఆధారంగా అత్యంత తరచుగా కనిపించే పది లేబుళ్లు: యునైటెడ్ స్టేట్స్ (10,500), బ్రెజిల్ (9,500), స్పెయిన్ (9,000), ఇటలీ (8,000), జర్మనీ (7,800), ఫ్రాన్స్ (7,400), పోర్చుగల్ (5,800), Türkiye (3,400), యునైటెడ్ కింగ్‌డమ్ (2,900), మరియు మెక్సికో (2,500). లేబుల్-ప్రతి కంపోజిట్ స్కోర్లు 0.9971 నుంచి 0.9985 వరకు ఉన్నాయి. ఈ లేబుల్ సంఖ్యలు లోకేల్ హ్యాండ్లింగ్‌ను పరీక్షించేందుకు ఉపయోగించిన రూపొందించిన కేసుల లక్షణాలు — ఇవి నిజమైన వినియోగదారులు కావు, నిజ-ప్రపంచ భౌగోళిక కవరేజ్ కూడా కాదు.

ముందస్తుగా నమోదు చేసిన రూబ్రిక్ — వివరణ

ప్రీ-రిజిస్ట్రేషన్ ఈ బెంచ్‌మార్క్‌లో అత్యంత ముఖ్యమైన విధానపరమైన ఎంపిక. ప్రతి ఊహించిన నిర్ధారణ, ప్రతి క్లినికల్ స్కోరింగ్ సిస్టమ్, మరియు ప్రతి రిపోర్ట్ విభాగం సోర్స్ కోడ్‌కు కట్టుబడి ఉంది ఇంజిన్‌ను పిలిచే ముందు. అందువల్ల ఇంజిన్‌ను మెప్పించేలా రుబ్రిక్‌పై పోస్ట్-హాక్ ట్యూనింగ్ చేయడం అసాధ్యం.

సమ్మిళిత స్కోర్‌ను రూపొందించే మూడు భాగాలు ఉన్నాయి. నిర్మాణాత్మక భాగం 35 శాతం వాటా కలిగి, ఇంజిన్ ఏడు తప్పనిసరి రిపోర్ట్ విభాగాలను (హెడర్, సమ్మరీ, కీలక ఫైండింగ్స్, డిఫరెన్షియల్, స్కోరింగ్ సిస్టమ్స్, సిఫార్సులు, ఫాలో-అప్) మరియు వాటిలోని పదహారు తప్పనిసరి ఉపవిభాగాలను తిరిగి ఇచ్చిందా అనే విషయాన్ని కొలుస్తుంది. విభాగం ఉనికి నిర్మాణాత్మక లెక్కింపులో 40 శాతం బరువు, ఉపవిభాగం ఉనికి 60 శాతం బరువు కలిగి ఉంటుంది.

ది క్లినికల్ భాగం 55 శాతం వాటా కలిగి, మూడు విషయాలను కలుపుతుంది: నిర్ధారణ-కీవర్డ్ రీకాల్ (క్లినికల్ ఉప-స్కోర్‌లో 70 శాతం), స్కోరింగ్-సిస్టమ్ రీకాల్ (20 శాతం — సంబంధిత చోట్ల ఇంజిన్ Mentzer, FIB-4, HOMA-IR, ASCVD రిస్క్, KDIGO స్టేజింగ్, EULAR/ACR ప్రమాణాలను లెక్కిస్తుందా), మరియు ప్రాబబిలిటీ-సమ్ చెల్లుబాటు తనిఖీ (10 శాతం — డిఫరెన్షియల్ ప్రాబబిలిటీలు [90, 110] అంతరంలో మొత్తం రావాలి). ట్రాప్ కేసుల కోసం, గరిష్ఠంగా 0.30 వరకు స్పష్టమైన హైపర్‌డయాగ్నోసిస్ పెనాల్టీ తీసివేస్తారు; ఇది తయారు చేసిన పాథాలజీ ఫ్లాగ్‌కు 0.10 చొప్పున లెక్కించి, గరిష్ఠంగా మూడు ఫ్లాగ్‌ల వరకు పరిమితం చేస్తారు.

ది లేటెన్సీ భాగం 10 శాతం వాటా కలిగి ఉంటుంది. 20 సెకన్లలోపు స్పందనకు పూర్తి 0.10, 40 సెకన్లలోపు స్పందనకు 0.05, అంతకంటే నెమ్మదిగా ఏదైనా అయితే సున్నా. 20 సెకన్ల లక్ష్యం ప్రొడక్షన్ ప్రైమరీ-పాత్ సర్వీస్-లెవల్ ఆబ్జెక్టివ్‌ను ప్రతిబింబిస్తుంది; 40 సెకన్ల గరిష్ఠ పరిమితి భారీ-ఇంజిన్ ఇన్వొకేషన్ల కోసం ఫేజ్ 2 ఫాల్బ్యాక్ బడ్జెట్‌ను ప్రతిబింబిస్తుంది.

MIT-లైసెన్స్ చేసిన Kantesti బెంచ్‌మార్క్ హార్నెస్ నడుస్తూ ప్రతి-కేసు స్కోర్లు విడుదల చేస్తున్న టెర్మినల్ స్క్రీన్‌షాట్ — అదే హార్నెస్, ఇప్పుడు SQL ఆధారితంగా, V11 రెండో అప్‌డేట్ 100,000-కేసుల రన్‌లో 99.80% కంపోజిట్ స్కోర్‌ను ఉత్పత్తి చేసింది
చిత్రం 3: అమలులో ఉన్న హార్నెస్ — అదే ఇంజిన్, ఇది ఉత్పత్తి చేసింది 99.80% సమ్మిళిత V11 రెండవ అప్‌డేట్‌లోని 100,000-కేస్ కోహోర్ట్‌ను. ప్రతి కేస్‌ను A4 PDF గా రెండర్ చేసి, ప్రొడక్షన్ v11 ఎండ్‌పాయింట్‌కు పోస్ట్ చేసి, ఫ్రోజెన్ రూబ్రిక్‌తో స్కోర్ చేస్తారు. రెండవ అప్‌డేట్ పరామితీకరించిన SQL కేస్ లోడర్‌ను జోడించింది; ముడి ఇంజిన్ ప్రతిస్పందనల యొక్క స్ట్రాటిఫైడ్ ర్యాండమ్ నమూనా (n = 201) సమీకృత స్కోర్‌కార్డ్‌తో పాటు నిల్వ చేయబడుతుంది.

ప్రీ-రిజిస్ట్రేషన్ ఏమి నివారిస్తుంది

ఫస్ట్-పార్టీ బెంచ్‌మార్క్‌లు పోస్ట్-హాక్ రుబ్రిక్ ట్యూనింగ్ ద్వారా తమ స్వంత సంఖ్యలను పెంచడం కోసం ప్రసిద్ధి. ఆ నమూనా దాదాపు ఎప్పుడూ ఇదే: టీమ్ ఇంజిన్‌ను నడిపి, ఎక్కడ తక్కువగా ఉందో చూసి, ఆ తర్వాత తక్కువగా ఉన్న ప్రాంతాలు తక్కువగా లెక్కపడేలా రుబ్రిక్‌ను నిశ్శబ్దంగా సర్దుతుంది. మొదటి ఇంజిన్ కాల్‌కు ముందు రుబ్రిక్‌ను సోర్స్ కోడ్‌కు కట్టుబట్టి, MIT లైసెన్స్‌తో హార్నెస్‌ను ప్రచురించడం ద్వారా, ఆ సర్దుబాటు వెర్షన్ కంట్రోల్‌లో కనిపిస్తుంది. ఎవరైనా రిపోజిటరీని క్లోన్ చేసి, రుబ్రిక్ రచయిత తేదీలను తనిఖీ చేసి, స్కోరింగ్‌ను ఆకృతీకరించడానికి ఇంజిన్ ఫలితాలను ఉపయోగించలేదని ధృవీకరించవచ్చు.

హైపర్‌డయాగ్నోసిస్ ట్రాప్ కేసులు — అధికంగా పిలవడం (over-calling) నిజమైన వైఫల్య విధానం ఎందుకు

సాధారణ స్క్రీన్‌లపై పాథాలజీని దూకుడుగా ఎక్కువగా పిలవడం అనేది కన్స్యూమర్-ఫేసింగ్ మెడికల్ అసిస్టెంట్లలో డాక్యుమెంట్ అయిన వైఫల్య మోడ్. దాని డౌన్‌స్ట్రీమ్ ఖర్చుల్లో అవసరం లేని పరిశోధన, రోగి ఆందోళన, మరియు ఐయాట్రోజెనిక్ వర్కప్ ఉన్నాయి. ఈ బెంచ్‌మార్క్‌లోని రెండు ట్రాప్ కేసులు ఆ వైఫల్య మోడ్‌ను కనిపించేలా చేసి, స్కోర్ చేయగలిగేలా రూపొందించబడ్డాయి.

గిల్బర్ట్ సిండ్రోమ్ ప్యానెల్‌పై ఒక నిర్లక్ష్య (naive) AI హెపటైటిస్‌ను తయారు చేయడం vs Kantesti ఇంజిన్ నిరపాయ UGT1A1 పాలిమార్ఫిజాన్ని సరిగ్గా గుర్తించడం — V11 రెండో అప్‌డేట్ 99.80% బెంచ్‌మార్క్‌లో 87,412 ట్రాప్-ఫ్లాగ్ అవకాశాలపై జీరో ఫాల్స్-పాజిటివ్‌లకు స్కేల్ అయిన విధానం
చిత్రం 4: V11 ప్రారంభ విడుదల నుండి వచ్చిన ట్రాప్-కేస్ డిజైన్ — గిల్బర్ట్ సిండ్రోమ్‌ను హెపటైటిస్‌గా ధైర్యంగా లేబుల్ చేసే ఇంజిన్, లేదా పూర్తిగా సాధారణ స్క్రీన్‌పై సరిహద్దు స్థాయి పాథాలజీని తయారు చేసే ఇంజిన్, క్లినికల్‌గా వినిపించడానికిగాను బహుమతి పొందకుండా శిక్షించబడుతుంది. ఈ విధానాన్ని 0 / 87,412 V11 రెండవ అప్‌డేట్ 100,000-కేస్ రన్‌లోని ఫాల్స్-పాజిటివ్‌లకు స్కేల్ చేశారు; అదే 99.80% సమ్మిళిత స్కోర్‌ను ఉత్పత్తి చేసింది.

🟡 ట్రాప్ 1 — BT-014-GILBERT

ప్రదర్శన. మొత్తం బిలిరుబిన్ 2.4 mg/dL ఉన్న 24 ఏళ్ల పురుషుడు. డైరెక్ట్ భాగం సాధారణం, ట్రాన్స్‌అమినేసులు మరియు ఆల్కలైన్ ఫాస్ఫటేస్ తమ రిఫరెన్స్ రేంజ్‌లలోనే ఉన్నాయి, రెటిక్యులోసైట్లు అసాధారణంగా లేవు, మరియు హాప్టోగ్లోబిన్, LDH హీమోలిసిస్‌ను తప్పుపడతాయి.

సరైన అర్థం చేసుకోవడం. గిల్బర్ట్ సిండ్రోమ్ — ఒక నిరపాయమైన UGT1A1 పాలిమార్ఫిజం. ఈ అర్థం చేసుకోవడంలో హెపటైటిస్, సిర్రోసిస్, హీమోలిటిక్ అనీమియా, లేదా బిలియరీ అడ్డంకి ఉండకూడదు.

V11 ఫలితం. సమ్మిళిత 1.000. ఆరు పర్యవేక్షించిన ఓవర్-డయాగ్నోసిస్ ఫ్లాగ్‌లలో ఏదీ యాక్టివ్ నిర్ధారణలుగా కనిపించలేదు.

🟡 ట్రాప్ 2 — BT-015-HEALTHY

ప్రదర్శన. 15-పారామీటర్ల రొటీన్ స్క్రీనింగ్ ప్యానెల్‌తో ఉన్న 35 ఏళ్ల మహిళ. ప్రతి అనలైట్ తన రిఫరెన్స్ రేంజ్‌లో సౌకర్యంగా ఉంది.

సరైన అర్థం చేసుకోవడం. భరోసా మరియు జీవనశైలి నిర్వహణ. ఈ అర్థం చేసుకోవడం క్లినికల్‌గా ఉపయోగకరంగా అనిపించేందుకు సరిహద్దు స్థాయి వ్యాధి ఉన్నట్లు కృత్రిమంగా తయారు చేయకూడదు.

V11 ఫలితం. సమ్మిళిత స్కోరు 1.000. పర్యవేక్షించిన ఏడు అధిక-నిర్ధారణ (over-diagnosis) ఫ్లాగ్‌లలో—డయాబెటిస్, రక్తహీనత (anaemia), హైపోథైరాయిడిజం, డిస్లిపిడీమియా, హెపటైటిస్, మూత్రపిండ వ్యాధి, లోపం—ఏదీ క్రియాశీల నిర్ధారణగా కనిపించలేదు.

రెండు ట్రాప్‌లలో కలిపి, పర్యవేక్షించిన పదమూడు హైపర్‌డయాగ్నోసిస్ ఫ్లాగ్‌లు తనిఖీ చేయబడ్డాయి. ఏదీ ట్రిగ్గర్ కాలేదు. ట్రయాజ్ లేదా ప్రీ-కన్సల్టేషన్ సాధనంగా AI ఇంజిన్‌ను ఉపయోగించాలనుకునే ఏ వైద్యుడికి అత్యంత ముఖ్యమైన ఫలితం ఇదే: ఎక్కడా వ్యాధి లేనప్పుడు వ్యవస్థ దాన్ని కనిపెట్టలేదు.

మెంట్జర్ ఇండెక్స్: ఇనుము లోపాన్ని థాలసీమియా ట్రైట్ నుండి వేరు చేయడం

రెండో అధిక విలువైన కనుగొనిక కేసు BT-001 (ఇనుము లోప రక్తహీనత) ను కేసు BT-007 (బీటా-థాలసీమియా మైనర్) తో జత చేయడమే. రెండింటిలోనూ మైక్రోసైటోసిస్ కనిపిస్తుంది, ఇది అమాయక క్లాసిఫైయర్‌లకు బాగా తెలిసిన అడ్డంకి. మెంట్జర్ సూచిక, అంటే MCV ను RBC కౌంట్‌తో భాగించగా, ఇనుము లోపంలో 13 కంటే ఎక్కువగా ఉంటుంది; థాలసీమియా ట్రైట్‌లో 13 కంటే తక్కువగా ఉంటుంది.

BT-001 లో, రోగి 34 ఏళ్ల మహిళ; హీమోగ్లోబిన్ 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ఫెరిటిన్ 6 ng/mL, మరియు పెరిగిన TIBC ఉన్నాయి. సుమారు 17.7 మెంట్జర్ సూచిక సంపూర్ణ ఇనుము లోపాన్ని సూచిస్తుంది. BT-007 లో, రోగి 28 ఏళ్ల పురుషుడు; మైక్రోసైటోసిస్ (MCV 65.8 fL) ఉన్నప్పటికీ RBC కౌంట్ 6.2 గా ఎక్కువగా ఉంది, RDW సాధారణం, ఫెరిటిన్ సాధారణం, మరియు HbA2 5.6 శాతం. సుమారు 10.6 మెంట్జర్ సూచిక థాలసీమియా ట్రైట్‌ను సూచిస్తుంది, మరియు పెరిగిన HbA2 బీటా-థాలసీమియా మైనర్‌ను నిర్ధారిస్తుంది.

ఇనుము లోప రక్తహీనత మెంట్జర్ > 13 తక్కువ ఫెరిటిన్, తక్కువ TSAT, అధిక TIBC, పెరిగిన RDW
బీటా-థాలసీమియా ట్రైట్ మెంట్జర్ < 13 సాధారణ ఫెరిటిన్, సాధారణ RDW, పెరిగిన HbA2 (>3.5%), అధిక RBC కౌంట్

రెండు కేసులూ 1.000 స్కోరు సాధించాయి. ఇంజిన్ రెండు అర్థాల్లోనూ మెంట్జర్ సూచికను స్పష్టంగా ఉపయోగించి, ప్రతి సందర్భంలో సరైన నిర్ధారణను తిరిగి ఇచ్చింది. మొత్తం బెంచ్‌మార్క్‌లో అత్యంత క్లినికల్‌గా భరోసా ఇచ్చే ఒక్క ఫలితం ఇదే, ఎందుకంటే థాలసీమియా ట్రైట్‌ను ఇనుము లోపంగా తప్పుగా వర్గీకరిస్తే అనుచిత ఇనుము సప్లిమెంటేషన్ జరుగుతుంది మరియు కుటుంబ-స్క్రీనింగ్ అవకాశాలు మిస్ అవుతాయి; అలాగే ఇనుము లోపాన్ని థాలసీమియాగా తప్పుగా వర్గీకరిస్తే సులభమైన రీప్లేస్‌మెంట్ థెరపీ ఆలస్యం అవుతుంది. మా ఫెరిటిన్ పరిధి మార్గదర్శకం విస్తృత డిఫరెన్షియల్ సందర్భాన్ని వివరిస్తుంది.

V11 ప్రారంభ రిఫరెన్స్ రన్ నుండి ప్రతి-కేస్ ఫలితాలు (ఏప్రిల్ 23, 2026)

15-కేస్ ప్రూఫ్-ఆఫ్-కాన్సెప్ట్ కోహోర్ట్‌పై ఉన్న అసలు V11 రిఫరెన్స్ రన్, రెండవ అప్‌డేట్‌కు విధానపరమైన పునాది: క్రింద ఉన్న ప్రతి-కేస్ వివరాలు రూబ్రిక్ ఒక నిజమైన ఇంజిన్ ప్రతిస్పందనను ఎలా నిర్వహిస్తుందో చూపిస్తాయి. పదిహేను కేసుల్లో పన్నెండు కేసులు ప్రాథమిక పాత్‌లో 1.000 అనే సీలింగ్ సమ్మిళిత స్కోర్‌ను సాధించాయి; మూడు కేసులు ఫేజ్ 2 ఫాల్బ్యాక్ ద్వారా సర్వ్ చేయబడ్డాయి, దీంతో 0.05 లేటెన్సీ బోనస్ కోల్పోయినా అన్ని క్లినికల్ మరియు నిర్మాణాత్మక కంటెంట్ అలాగే నిలిచింది. ఒక కేస్‌లో ఒకే ఒక్క తప్పనిసరి ఉపవిభాగం లేదు; ఒకటి స్వల్పంగా తగ్గిన ప్రాబబిలిటీ డిస్ట్రిబ్యూషన్ సమ్‌ను తిరిగి ఇచ్చింది. of the Second Update: every per-case detail below illustrates how the rubric handles a real engine response. Twelve of fifteen cases achieved the ceiling composite score of 1.000 on the primary path; three cases were served via the Phase 2 fallback, losing the 0.05 latency bonus while preserving all clinical and structural content. One case was missing a single mandatory subsection; one returned a marginally reduced probability distribution sum.

కేసు ID స్పెషాలిటీ సమ్మిళిత లేటెన్సీ పాథ్
BT-001-IDAహెమటాలజీ1.00017.8 sprimary
BT-006-B12హెమటాలజీ1.00018.4 సెకన్లుprimary
BT-007-THALహెమటాలజీ1.00017.0 సెకన్లుprimary
BT-002-HASHఎండోక్రినాలజీ0.95037.0 సెకన్లుఫాల్‌బ్యాక్
BT-008-PCOSఎండోక్రినాలజీ0.98718.6 సెకన్లుprimary
BT-003-T2DMజీవక్రియ1.00019.1 సెకన్లుprimary
BT-013-GOUTజీవక్రియ1.00019.4 సెకన్లుprimary
BT-004-NAFLDహెపటాలజీ1.00019.6 సెకన్లుprimary
BT-009-VIRHEPహెపటాలజీ0.95023.4 సెకన్లుఫాల్‌బ్యాక్
BT-014-GILBERTట్రాప్1.00018.9 సెకన్లుprimary
BT-005-CKDనెఫ్రాలజీ1.00017.4 సెకన్లుprimary
BT-010-ASCVDకార్డియాలజీ1.00019.7 సెకన్లుprimary
BT-011-SLEరుమటాలజీ0.98118.2 సెకన్లుprimary
BT-012-VITDఎండోక్రినాలజీ1.00019.3 సెకన్లుprimary
BT-015-HEALTHYట్రాప్1.00018.7 సెకన్లుఫాల్‌బ్యాక్

PCOS కేసు (BT-008) ప్రతిస్పందన నిర్మాణంలో ఒక తప్పనిసరి ఉపవిభాగాన్ని కోల్పోయింది — పదహారు లో పదహారు బదులు పదహారు లో పదహారు — దీని వల్ల నిర్మాణ స్కోరు 1.000 నుండి 0.963కి తగ్గింది. SLE కేసు (BT-011) క్లినికల్ స్కోరును 0.965కి తగ్గించిన స్వల్పంగా తగ్గిన probability-distribution సమ్‌ను తిరిగి ఇచ్చింది; అయితే ప్రతి డయాగ్నస్టిక్ కీవర్డ్ మరియు స్కోరింగ్ సిస్టమ్‌ను అలాగే ఉంచింది. ఏ ఉప-పర్ఫెక్ట్ కేసూ సరైన నిర్ధారణను మిస్ చేయలేదు.

V11 రెండవ అప్‌డేట్ సమ్మిళితం — 100,000 కేసులు

జనాభా స్థాయిలో, వ్యక్తిగత కేస్ రోలు మానవులకు చదవగలిగే విధంగా ఉండవు; అందువల్ల రెండో అప్‌డేట్ 100,000-రోల టేబుల్ కంటే సమీకృత (aggregated) మెట్రిక్స్‌ను నివేదిస్తుంది. ప్రధాన సమీకృత ఫలితం క్రింద చూపబడింది; ప్రత్యేకత-ప్రతి మరియు దేశ-లేబుల్-ప్రతి విభజనలు సాంకేతిక నివేదికలో మరియు Figshare డిపాజిట్‌లో ప్రచురించబడతాయి. ఒక స్ట్రాటిఫైడ్ ర్యాండమ్ నమూనా of n = 201 ముడి ఇంజిన్ ప్రతిస్పందనలు (నిర్దిష్ట సీడ్ 20260426) పరిశీలన కోసం GitHub results/ డైరెక్టరీలో ప్రచురించబడింది.

సమ్మిళిత స్కోర్ V11 ప్రారంభం: 0.9912 (99.12%) → రెండవ అప్‌డేట్: 0.9980 (99.80%) Δ = +0.0068 100,000-కేస్ కోహోర్ట్ అంతటా
నిర్మాణాత్మక స్కోర్ (సగటు) V11 ప్రారంభం: 0.998 → రెండవ అప్‌డేట్: 1.000 జనాభా స్థాయిలో పరిపూర్ణ నిర్మాణ అనుగుణత
క్లినికల్ స్కోర్ (సగటు) V11 ప్రారంభం: 0.998 → రెండవ అప్‌డేట్: 0.996 −0.002; ఏ కేస్ కూడా నిర్ధారణను తానే మిస్ చేయలేదు
లేటెన్సీ — సగటు (పరిధి) V11 ప్రారంభం: 20.17 సెక (17.0–37.0 సెక) → రెండో నవీకరణ: 13.26 సెక (9.0–16.94 సెక) రన్స్ మధ్య ప్రొడక్షన్ ఇంజిన్ ఆప్టిమైజేషన్లు
ఇంజిన్ పాత్ = ప్రైమరీ V11 ప్రారంభం: 12 / 15 → రెండో నవీకరణ: 100,000 / 100,000 రన్ సమయంలో ఏ దశలోనూ ఫేజ్ 2 ఫallback అవసరం లేదు
ట్రాప్-సబ్‌సెట్ హైపర్‌డయాగ్నోసిస్ ఫ్లాగ్స్ V11 ప్రారంభం: 0 / 13 → రెండో నవీకరణ: 0 / 87,412 జనాభా స్థాయిలో జీరో ఫాల్స్-పాజిటివ్స్ (8,723 ట్రాప్ కేసులు పర్యవేక్షించబడ్డాయి)

హెడ్‌లైన్ స్కోరు మనకు ఏమి చెప్పదు

ఈ నిర్దిష్ట ప్రీ-రిజిస్టర్డ్ రూబ్రిక్ కింద 99.80 శాతం కంపోజిట్ స్కోర్, 127 దేశ లేబుళ్లను కవర్ చేసే 100,000-కేసుల సింథటిక్ కోహోర్ట్‌పై, సీలింగ్‌కు సమీప పనితీరును సూచిస్తుంది — కానీ దాన్ని జాగ్రత్తగా సందర్భీకరించాలి. ఈ ఫలితం V11లో సోర్స్ కోడ్‌కు మేము కట్టుబడిన రూబ్రిక్‌కు వ్యతిరేకంగా ఇంజిన్ ప్రవర్తనను వివరిస్తుంది; అడవిలో ఉన్న ప్రతి రక్త పరీక్ష ప్యానెల్‌పై ఇంజిన్ యొక్క సరైనత గురించి ఇది సార్వత్రిక (యూనివర్సల్) వాదన కాదు.

ఈ స్కోరు ఏమి చెబుతుందంటే—ఈ మూల్యాంకనానికి ఎంపిక చేసిన డయాగ్నోస్టిక్ నమూనాలను, జనాభా-స్థాయి కోహోర్ట్‌లో, ప్రచురించబడిన మరియు పునరుత్పత్తి చేయగల విధానంతో, ఇంజిన్ సరిగ్గా నిర్వహించింది. అడవిలో ఉన్న ప్రతి రక్త పరీక్ష ప్యానెల్‌పై ఇంజిన్ సరిగా ఉందని ఇది చెప్పదు. ఇంజిన్ వైద్య నిపుణుల తీర్పును భర్తీ చేయాలని చెప్పదు. అలాగే ఇతర AI సిస్టమ్స్ కంటే ఇంజిన్ మెరుగ్గా ఉందని కూడా చెప్పదు—ఇతర ఇంజిన్లతో పోల్చిన విశ్లేషణలు ఈ నివేదిక పరిధికి ఉద్దేశపూర్వకంగా బయటే ఉన్నాయి.

స్కోరు స్థాపించేది ఒక బేస్‌లైన్. రూబ్రిక్ మరియు హార్నెస్ ప్రజలకు అందుబాటులో ఉన్నందున, ఇంజిన్ భవిష్యత్ వెర్షన్లను అదే రూబ్రిక్‌తో మూల్యాంకనం చేయవచ్చు—V11 ప్రారంభంలోని 15 కేసులకు, రెండో నవీకరణలోని 100,000 కేసుల కోహోర్ట్‌కు, లేదా తదుపరి ఏ విస్తరణకైనా—మరియు ప్రచురిత స్కోరు మరియు తదుపరి ఏ రన్ మధ్య గ్యాప్ స్వయంగా కొలవదగినదే. ప్రీ-రిజిస్ట్రేషన్ విలువ ఇదే: పనితీరు క్లెయిమ్‌లను పరీక్షించదగిన క్లెయిమ్‌లుగా మార్చుతుంది.

10 నిమిషాల్లో ఈ బెంచ్‌మార్క్‌ను ఎలా పునరుత్పత్తి చేయాలి

పునరుత్పత్తి చేయడానికి కేవలం Kantesti API క్రెడెన్షియల్ జత మరియు Python 3.10 లేదా అంతకంటే పై వాతావరణం అవసరం, అలాగే requests మరియు reportlab లైబ్రరీలు ఇన్‌స్టాల్ చేసి ఉండాలి. పూర్తి హార్నెస్ MIT లైసెన్స్ కింద విడుదలైన ఒకే స్వయం-నిర్వహణ (self-contained) Python మాడ్యూల్.

V11 Second Update బెంచ్‌మార్క్ (99.80% కంపోజిట్, 100,000 కేసులు, 127 దేశం లేబుల్‌లు) ను చూపించే రిప్రొడ్యూసిబిలిటీ నెట్‌వర్క్ డయాగ్రామ్; Figshare, ResearchGate, Academia.edu మరియు GitHubలపై Figshare DOIని కానానికల్ యాంకర్‌గా తీసుకుని ప్రతిబింబించబడింది
చిత్రం 5: V11 రెండో నవీకరణ బెంచ్‌మార్క్ — 127 దేశ లేబుళ్లలో విస్తరించిన 100,000 కేసులపై 99.80% కంపోజిట్ స్కోర్ — నాలుగు పరిశోధనా ప్లాట్‌ఫారమ్‌లపై ప్రతిబింబించబడింది. Figshare DOI అనేది కానానికల్ స్కాలర్లీ ఐడెంటిఫైయర్; ResearchGate (publication 404175463), Academia.edu (paper 165956808), మరియు GitHub బెంచ్‌మార్క్ హార్నెస్‌ను, ముడి ప్రతిస్పందనల యొక్క stratified random sample‌ను, మరియు దేశం-లేబుల్/ప్రత్యేకత-స్కోర్‌కార్డ్‌లను కలిగి సమాంతర కాపీలను హోస్ట్ చేస్తాయి.

కొత్త రన్ కోసం నాలుగు దశలు

ఒకటి. రిపోజిటరీని క్లోన్ చేయండి: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. రెండు. క్రింది విధంగా డిపెండెన్సీలను ఇన్‌స్టాల్ చేయండి pip install -r requirements.txt (Second Update జోడిస్తుంది mysql-connector-python ≥ 8.0 SQL కేస్ లోడర్ కోసం). మూడు. సెట్ చేయండి KANTESTI_USERNAME మరియు KANTESTI_PASSWORD ఇంజిన్ API కోసం ఎన్విరాన్‌మెంట్ వేరియబుల్స్‌గా. రెండో నవీకరణ SQL కేస్ లోడర్ కోసం కూడా సెట్ చేయండి KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, మరియు KANTESTI_DB_PASSWORD — గుర్తించే పట్టికలపై ఎలాంటి అధికారాలు లేని (read-only) పాత్ర ద్వారా లోడర్ కనెక్ట్ అవుతుంది.bench_reader). నాలుగు. నడపండి python benchmark_bloodtest.py --limit 100000 పూర్తి Second-Update రన్ కోసం, లేదా python benchmark_bloodtest.py --limit 1000 త్వరిత పునరావృతం కోసం. అవుట్‌పుట్‌లు ఇక్కడ నిల్వ అవుతాయి ./benchmark_results/: దేశం-లేబుల్ మరియు ప్రత్యేకత కాలమ్‌లతో కూడిన ఒక CSV స్కోర్‌కార్డ్, ఒక JSON aggregate, ఒక stratified-random ముడి-ప్రతిస్పందన నమూనా, మరియు ఒక Markdown నివేదిక.

23 ఏప్రిల్ 2026 (V11 ప్రారంభం, 15 కేసులు) మరియు 26 ఏప్రిల్ 2026 (V11 Second Update, 100,000 కేసులు) నుండి వచ్చిన రిఫరెన్స్ రన్‌లు రిపోజిటరీ డైరెక్టరీలో భద్రపరచబడ్డాయి. కొత్త రన్ ఒక కొత్త టైమ్‌స్టాంప్‌తో స్కోర్‌కార్డ్‌ను ఉత్పత్తి చేస్తుంది; రిఫరెన్స్ రన్‌లను మాత్రం మార్చదు. మీ రన్ ఫలితం గణనీయంగా భిన్నంగా ఉంటే, దయచేసి రన్ టైమ్‌స్టాంప్ మరియు ప్రతిస్పందన మెటాడేటాలో తిరిగి వచ్చిన ఇంజిన్ వెర్షన్‌తో GitHub ఇష్యూ తెరవండి. results/ directory of the repository. A fresh run will produce a new timestamped scorecard while leaving the reference runs untouched. If your run produces a meaningfully different result, please open a GitHub issue with the run timestamp and the engine version returned in the response metadata.

పరిమితులు మరియు భవిష్యత్ పని

127 దేశం లేబుల్‌లపై 100,000 కేసులు ఉన్నప్పటికీ, నాలుగు పరిమితులను స్పష్టంగా గుర్తించాలి: లాంగ్-టెయిల్ లేబుల్ అండర్‌సాంప్లింగ్, సింగిల్-షాట్ మూల్యాంకనం, సింగిల్-ఇంజిన్ పరిధి, మరియు సింగిల్-సోర్స్ డేటా మూలం. ఇవి అన్నీ క్రియాశీల ఫాలో-అప్ పనిలో పరిష్కరించబడుతున్నాయి.

లాంగ్-టెయిల్ లేబుల్ కవరేజ్. Second Update 127 దేశం లేబుల్‌లను కవర్ చేస్తుంది, కానీ పంపిణీ అసమతుల్యంగా ఉంది — అగ్ర 10 లేబుల్‌లు ≈66.4% కేసులను కలిగి ఉంటాయి, మరియు మిగిలిన 97 అదనపు లేబుల్‌ల లాంగ్ టెయిల్ కలిసి ≈7.3% (సుమారు 7,300 కేసులు మొత్తం, లేబుల్‌కు సగటున ~75 కేసులు) అందిస్తుంది. అందువల్ల ఈ లాంగ్ టెయిల్‌లోని ప్రతి-లేబుల్ కంపోజిట్‌లు హెడ్‌లైన్ గణాంకాలు సూచించినదానికంటే ఎక్కువ శబ్దంతో ఉంటాయి. భవిష్యత్ రన్‌లు ప్రతి-లేబుల్ అంచనాలను బలపరచడానికి లేబుల్ అసైన్‌మెంట్‌ను మళ్లీ బ్యాలెన్స్ చేస్తాయి.

సింగిల్-షాట్ మూల్యాంకనం. కోహోర్ట్‌లోని ప్రతి కేసును ఒక్కసారి మాత్రమే మూల్యాంకనం చేశారు. తక్కువ sampling temperature వద్ద కూడా పెద్ద భాషా మోడళ్లలో గణనీయమైన అవుట్‌పుట్ వైవిధ్యం కనిపిస్తుంది; అందువల్ల ప్రతి కేసుకు ఐదు మూల్యాంకనాలతో కూడిన multi-run ప్రోటోకాల్ మరియు నివేదించిన variance సహజమైన తదుపరి దశ — ముఖ్యంగా trap-case ఉపసెట్‌లో, sampling jitter కింద స్థిరత్వం భద్రతా క్లెయిమ్‌లో భాగం.

సింగిల్-ఇంజిన్ పరిధి. ఈ నివేదిక ఒకే ఇంజిన్‌ను వివరిస్తుంది. ప్రత్యామ్నాయ AI సిస్టమ్‌లతో పోల్చే విశ్లేషణలు ఇక్కడ పరిధికి వెలుపల; అదే MIT-లైసెన్స్ హార్నెస్‌తో, తగిన విధానంతో, వాటిని వేరే స్వతంత్ర అధ్యయనంగా చేపట్టవచ్చు.

సింథటిక్ డేటా. 100,000 కేసులు సింథటిక్‌గా రూపొందించబడ్డాయి — సింథటిక్ కేసులు కాదు — మరియు ఫలితాలు వాస్తవ ప్రపంచ క్లినికల్ పనితీరుకు బదిలీ కావు. సమ్మతి పొందిన, బాహ్యంగా-సోర్స్ చేసిన వాస్తవ డేటాపై మూల్యాంకనం చేయాలంటే తగిన నైతిక పర్యవేక్షణ అవసరం, మరియు ఈ సింథటిక్ బెంచ్‌మార్క్ పరిధికి వెలుపల ఉంది.

ఈ నాలుగు వాటికి మించి, అత్యంత ప్రభావవంతమైన ప్రణాళికాబద్ధమైన విస్తరణ ప్రతి జురిస్డిక్షన్‌కు బహుభాషా సమానత్వం. Kantesti AI Engine 75+ భాషల్లో వినియోగదారులకు సేవలందిస్తుంది, మరియు భాష-వర్గీకరించిన Second-Update ఉప-కోహోర్ట్‌లను (టర్కిష్, జర్మన్, స్పానిష్, ఫ్రెంచ్, ఇటాలియన్, పోర్చుగీస్, అరబిక్, మాండరిన్) నడపడం ద్వారా ఇంజిన్ మద్దతు ఇచ్చే భాషల అంతటా అవుట్‌పుట్ నాణ్యతను పరిమాణపరచబడుతుంది. ప్రతి భాష-వర్గీకరించిన విశ్లేషణ దాని స్వంత DOI మరియు హార్నెస్ బ్రాంచ్‌తో ప్రచురించబడుతుంది.