ఈ బెంచ్మార్క్ ఎందుకు ఉంది మరియు ఇది ఏమి పరీక్షిస్తుంది
AI-సహాయంతో రక్త పరీక్ష ఫలితాలు అర్థం వినియోగదారుల మరియు క్లినికల్ వర్క్ఫ్లోలలో పెరుగుతున్న స్థాయిలో ఉపయోగించబడుతోంది; అయినప్పటికీ, ప్రయోగశాల వైద్యానికి అనుకూలంగా పునరుత్పత్తి చేయగల మూల్యాంకన ఫ్రేమ్వర్క్లు ఇప్పటికీ అరుదుగా ఉన్నాయి. ఈ సందర్భంలో అత్యంత ముఖ్యమైన ప్రశ్నలు సాధారణ వైద్య ప్రశ్న-సమాధాన బెంచ్మార్క్లలో కవర్ చేయబడేవి కావు: సగటు కార్పస్కులర్ వాల్యూమ్ ఒకేలా ఉన్నప్పుడు ఇంజిన్ ఐరన్ లోపాన్ని థాలస్సీమియా ట్రైట్ నుండి వేరు చేయగలదా, హెపటైటిస్గా గిల్బర్ట్ సిండ్రోమ్ను అధికంగా నిర్ధారిస్తుందా, మరియు పూర్తిగా సాధారణ స్క్రీనింగ్ ప్యానెల్లో పాథాలజీని తయారు చేస్తుందా?
ఒకే రక్త పరీక్ష ప్యానెల్ సాధారణంగా అనేక పోటీ వివరణలకు మద్దతు ఇచ్చేంత సంకేతాన్ని కలిగి ఉంటుంది; అందువల్ల ఫలితాలను అర్థం చేసేవైద్యుడి పని, పాఠ్యపుస్తక సమాధానాన్ని వెతకడం కంటే, ఆ వివరణలను పరస్పరం తూకం వేసి చూడడం. పాఠ్యపుస్తక కేసుల్లో బాగా పనిచేసే ఇంజిన్, అత్యంత ప్రాముఖ్యమైన కేసుల్లో మాత్రం విఫలమవచ్చు: డిఫరెన్షియల్-డయాగ్నోసిస్ లోపాల పిట్ఫాల్స్, ఒంటరిగా చూసినప్పుడు భయంకరంగా కనిపించే నిర్దోష వేరియంట్లు, మరియు పూర్తిగా సాధారణ ప్యానెల్లు—ఇవి నమ్మకంగా ఉన్న సహాయకులను పాథాలజీని తయారు చేయడానికి ప్రేరేపిస్తాయి.
ఈ బెంచ్మార్క్ ప్రత్యేకంగా ఈ వైఫల్య రీతుల చుట్టూ నిర్మించబడింది. పదిహేను కేసుల్లో ప్రతి ఒక్కదాన్ని ఒక నిర్దిష్ట నిర్ధారణ లక్షణం కోసం ఎంపిక చేశారు: ఒక ఐరన్-లోప మైక్రోసైటోసిస్ను, అదే mean corpuscular volume ఉన్న బీటా-థాలస్సీమియా ట్రైట్ నుండి వేరుగా ఉంచాల్సిన అవసరం; గిల్బర్ట్ సిండ్రోమ్ ప్రదర్శన—ఇందులో ఏకైక అసాధారణత ఒంటరిగా ఉన్న indirect hyperbilirubinaemia; మరియు పదిహేను-పారామీటర్ స్క్రీనింగ్ ప్యానెల్లో ప్రతి అనలైట్ తన సూచన పరిధిలోనే ఉండే పరిస్థితి. ఈ రూబ్రిక్, ప్రతి కేసును దాని స్వంత సందర్భంలో చదివే ఇంజిన్లకు బహుమతి ఇస్తుంది; అటువంటి నిర్ధారణ అవసరం లేని చోట కూడా నమ్మకంగా ఒక నిర్ధారణకు చేరుకునే ఇంజిన్లను శిక్షిస్తుంది.
డాక్టర్ థామస్ క్లైన్గా, నేను ఈ కేస్ ప్యానెల్ను ఎంచుకున్నాను, ఎందుకంటే ల్యాబొరేటరీ-మెడిసిన్ సహాయకులు ఎక్కువగా తప్పుగా అర్థం చేసుకునే నమూనాలు ఇవే. ఖరీదైన వైఫల్య రీతి "అరుదైన వ్యాధిని మిస్ చేయడం" కాదు—అది దానిని కలిగి లేని రోగుల్లో సాధారణ పాథాలజీని తయారు చేయడం. మా వైద్య ధ్రువీకరణ హబ్ విస్తృత ఫ్రేమ్వర్క్ను వివరిస్తుంది; ఈ పేజీ V11 ప్రారంభ ప్రూఫ్-ఆఫ్-కాన్సెప్ట్ను మరియు దాన్ని 127 దేశ లేబుళ్లను కవర్ చేసే సింథటిక్ కేస్ సెట్ నుంచి తీసుకున్న 100,000 సింథటిక్ కేసులకు స్కేల్ చేసిన V11 రెండో అప్డేట్ను వివరిస్తుంది — అదే స్కోరింగ్ రూబ్రిక్ను ఉపయోగించి, బైట్-ఐడెంటికల్గా, మరియు పోస్ట్-హాక్ ట్యూనింగ్కు అనుమతి లేకుండా.
26 ఏప్రిల్ 2026 నాటి V11 రెండవ అప్డేట్ రిఫరెన్స్ రన్ ఒక కాంపోజిట్ స్కోర్ను ఉత్పత్తి చేసింది
V11 ప్రారంభ విడుదలలో ఉపయోగించిన అదే ప్రీ-రిజిస్టర్డ్ రూబ్రిక్పై, 99.80% 100,000 అనానిమైజ్డ్ కేసులపై మూల్యాంకనం చేయబడింది 100,000 సింథటిక్ కేసులు Kantesti సింథటిక్ కేస్ సెట్ నుంచి తీసుకుని, విస్తరించిన 127 దేశ లేబుళ్లు . 23 ఏప్రిల్ 2026 నాటి అసలు V11 రన్ 15 చేతితో ఎంపిక చేసిన కేసులను (కాంపోజిట్ 99.12%) కవర్ చేసి రూబ్రిక్ను ధృవీకరించింది; రెండవ అప్డేట్ ఆ రూబ్రిక్ను బైట్-ఐడెంటికల్గా ఉంచి, మూల్యాంకనాన్ని జనాభా-స్థాయి కోహోర్ట్కు విస్తరిస్తుంది. 0 / 87,412. 100,000 లో 100,000 కేసులకు స్కోర్ వచ్చింది.
సమ్మిళిత ఫార్ములా మూడు భాగాలను కలుపుతుంది: నిర్మాణ అనుగుణత ఏడు తప్పనిసరి రిపోర్ట్ విభాగాలు మరియు పదహారు తప్పనిసరి ఉపవిభాగాలతో, కంటెంట్ ఖచ్చితత్వం కీవర్డ్ రీకాల్ + స్కోరింగ్-సిస్టమ్ రీకాల్ + ప్రాబబిలిటీ-డిస్ట్రిబ్యూషన్ చెల్లుబాటు తనిఖీగా కొలవబడింది, మరియు ప్రతిస్పందన లేటెన్సీ హెడ్రూమ్లో మిగిలిన 0.20 శాతం పాయింట్లు దాదాపు పూర్తిగా క్లినికల్ సబ్-స్కోర్లోకి విడిపోతాయి — కేసులలో చిన్న భాగం (ప్రధానంగా హెపటాలజీ మరియు రుమటాలజీ) లో, డయాగ్నోస్టిక్ కంటెంట్ సరైనప్పటికీ, ఇంజిన్ యొక్క అర్థంలో ఒక ఆశించిన స్కోరింగ్-సిస్టమ్ కీవర్డ్ లేనట్లు కనిపించింది.
100,000-కేసుల రెండవ-అప్డేట్ కోహోర్ట్లో ఏ కేసూ స్వయంగా డయాగ్నోసిస్ను మిస్ చేయలేదు. లేటెన్సీ V11 ప్రారంభ విడుదలలో సగటు 20.17 s నుంచి రెండవ అప్డేట్లో 13.26 s కు మెరుగైంది; ఈ రెండు రన్స్ మధ్య ప్రొడక్షన్ ఇంజిన్ ఆప్టిమైజేషన్లను ఇది ప్రతిబింబిస్తుంది. రూబ్రిక్, స్కోరింగ్ కోడ్, మరియు API ఎండ్పాయింట్ మారలేదు. దేశాల వారీ కాంపోజిట్ స్కోర్లు అత్యధికంగా 0.9971 (భారతదేశం) నుంచి 0.9985 (స్విట్జర్లాండ్) వరకు, అత్యధికంగా ప్రాతినిధ్యం ఉన్న 30 దేశాలలో ఉన్నాయి. అదనంగా ఉన్న 97 దేశాల పొడవైన టెయిల్ (మొత్తం ≈7,300 కేసులు) లో ఎలాంటి వ్యవస్థాత్మక క్షీణత కనిపించలేదు. కేసుల సంఖ్య ఆధారంగా ప్రధాన సహకారులు యునైటెడ్ స్టేట్స్ (10,500), బ్రెజిల్ (9,500), స్పెయిన్ (9,000), ఇటలీ (8,000), జర్మనీ (7,800), ఫ్రాన్స్ (7,400), పోర్చుగల్ (5,800), ట్యూర్కియే (3,400), యునైటెడ్ కింగ్డమ్ (2,900), మరియు మెక్సికో (2,500).
అత్యధికంగా ప్రాతినిధ్యం ఉన్న 30 దేశ లేబుళ్లలో, లేబుల్-ప్రతి కంపోజిట్ స్కోర్లు 0.9971 నుంచి 0.9985 వరకు ఉన్నాయి. మిగిలిన 97 అదనపు లేబుళ్ల దీర్ఘ తోక (≈7,300 కేసులు కలిపి) ఎలాంటి వ్యవస్థాత్మక క్షీణతను చూపలేదు. కేసుల సంఖ్య ఆధారంగా అత్యంత తరచుగా కనిపించిన లేబుళ్లు: యునైటెడ్ స్టేట్స్ (10,500), బ్రెజిల్ (9,500), స్పెయిన్ (9,000), ఇటలీ (8,000), జర్మనీ (7,800), ఫ్రాన్స్ (7,400), పోర్చుగల్ (5,800), Türkiye (3,400), యునైటెడ్ కింగ్డమ్ (2,900), మరియు మెక్సికో (2,500).
15 కేసుల నుంచి 100,000 వరకు: 127 దేశ లేబుళ్లలో కోహోర్ట్ పరిణామం
అసలు V11 కేస్ ప్యానెల్లో ఏడు ప్రత్యేకతలు — హీమటాలజీ, ఎండోక్రినాలజీ, మెటబాలిక్ మెడిసిన్, హెపటాలజీ, నెఫ్రాలజీ, కార్డియాలజీ, రుమటాలజీ — అలాగే రెండు ప్రత్యేక హైపర్డయాగ్నోసిస్ ట్రాప్ కేసులు ఉన్నాయి; ప్రతి కేసు సింథటిక్గా రూపొందించిన రక్త పరీక్ష ప్యానెల్. V11 రెండో అప్డేట్ మూల్యాంకనాన్ని 127 దేశ లేబుళ్లలో విస్తరించిన 100,000 సింథటిక్ కేసులకు విస్తరిస్తుంది, హీమటాలజీ, ఎండోక్రైనాలజీ, మెటబాలిక్ మెడిసిన్, హెపటాలజీ, నెఫ్రాలజీ, కార్డియాలజీ, రుమటాలజీ — అలాగే రెండు ట్రాప్ కేసులు — గిల్బర్ట్ సిండ్రోమ్ మరియు పూర్తిగా సాధారణ స్క్రీనింగ్ ప్యానెల్ — కోసం V11 ప్రారంభ కేస్-ప్యానెల్ డిజైన్. రెండవ అప్డేట్ ఈ రూబ్రిక్ను బైట్-ఐడెంటికల్గా నిలుపుకుంటూ, Kantesti SQL రిపోజిటరీ నుంచి తీసుకున్న 100,000 కేసులకు కోహోర్ట్ను విస్తరిస్తుంది.
అన్ని కేసులు సింథటిక్గా రూపొందించబడినందున, తొలగించాల్సిన నిజమైన గుర్తింపులు లేవు మరియు వ్యక్తిగత డేటా ఏదీ ఉండదు. ప్రతి సింథటిక్ కేసుకు ఒక బెంచ్మార్క్-అంతర్గత కేస్ కోడ్ ఉంటుంది (V11 ప్రారంభ సెట్లో BT-NNN-LABEL, రెండో అప్డేట్లో స్థిరమైన . ప్రాసెసింగ్ను ). ప్రచురిత హార్నెస్లో, సాంకేతిక నివేదికలో, లేదా విడుదల చేసిన డేటాసెట్లలో ఎక్కడా వ్యక్తిగత డేటా కనిపించదు.
V11 initial release — 15 hand-curated cases
అసలు V11 కేస్ ప్యానెల్ను డాక్టర్ థామస్ క్లైన్ చేతితో ఎంపిక చేసి, ల్యాబొరేటరీ-మెడిసిన్ అసిస్టెంట్లు ఎక్కువగా తప్పుగా పొందే డయాగ్నస్టిక్ నమూనాలను సాధన చేయడానికి రూపొందించారు. క్రింద పేర్కొన్నట్లుగా, పదిహేను కేసులలో ప్రతి ఒక్కదాన్ని ఒక నిర్దిష్ట డయాగ్నస్టిక్ లక్షణం కోసం ఎంపిక చేశారు.
ఈ ప్రత్యేక పంపిణీ ఎందుకు
వాస్తవ ప్రపంచ ప్రయోగశాల ప్రాక్టీస్లో మైక్రోసైటిక్ డిఫరెన్షియల్స్ మరియు మాక్రోసైటిక్ డిఫరెన్షియల్స్ అత్యధిక-వాల్యూమ్ ట్రాప్లుగా ఉండటంతో హీమటాలజీకి మూడు కేసులు వస్తాయి. హాషిమోటోస్, PCOS, మరియు విటమిన్ డి లోపం ప్రదర్శనలు వేర్వేరు నిర్ధారణ ఆకృతులను (ఆటోఆంటీబాడీ-చోదిత, హార్మోన్-నిష్పత్తి-చోదిత, ఒకే-మార్కర్-చోదిత) పరీక్షించడంతో ఎండోక్రినాలజీకి మూడు కేసులు వస్తాయి. CKD, ASCVD రిస్క్, మరియు SLE ప్రతి ఒక్కదానికి ఇంజిన్ పిలవాల్సిన తనదైన స్కోరింగ్ సిస్టమ్ ఉండటంతో సింగిల్-కేస్ స్పెషాలిటీలు ఇంకా అర్థవంతమే (క్రమంగా KDIGO స్టేజింగ్, ASCVD 10-year risk, 2019 EULAR/ACR SLE ప్రమాణాలు).
V11 రెండో అప్డేట్ — 127 దేశ లేబుళ్లలో విస్తరించిన 100,000 సింథటిక్ కేసులు
రెండో అప్డేట్ అసలు V11 హార్డ్-కోడ్ చేసిన 15-కేసుల Python లిటరల్ను పెద్దదైన, ప్రోగ్రామాటిక్గా రూపొందించిన సింథటిక్ కేస్ సెట్తో భర్తీ చేస్తుంది. ప్రతి రన్ ప్రారంభంలోనే కేస్ సెట్ను లోడ్ చేసి, పారదర్శకత కోసం కాన్ఫిగరేషన్ను లాగ్ చేస్తారు. కంటెంట్ ఏరియా ప్రకారం కోహోర్ట్ పంపిణీ క్రింద చూపబడింది.
సింథటిక్ దేశ-లేబుల్ పంపిణీ — టాప్ 10 లేబుళ్లు
100,000 సింథటిక్ కేసులు లోకేల్ హ్యాండ్లింగ్ను పరీక్షించేందుకు 127 దేశ లేబుళ్లను (ISO 3166-1 alpha-2) కలిగి ఉంటాయి. లేబుల్ కేటాయింపు: యూరప్ 57.7%, అమెరికాస్ 25.4%, ఆసియా-పసిఫిక్ 6.2%, పేరు పెట్టిన మిడిల్-ఈస్ట్/ఆఫ్రికా లేబుళ్లు 3.4%, మరియు మిగిలిన 97 అదనపు లేబుళ్ల దీర్ఘ తోక మొత్తం సుమారు 7.3%. కేసుల సంఖ్య ఆధారంగా అత్యంత తరచుగా కనిపించే పది లేబుళ్లు: యునైటెడ్ స్టేట్స్ (10,500), బ్రెజిల్ (9,500), స్పెయిన్ (9,000), ఇటలీ (8,000), జర్మనీ (7,800), ఫ్రాన్స్ (7,400), పోర్చుగల్ (5,800), Türkiye (3,400), యునైటెడ్ కింగ్డమ్ (2,900), మరియు మెక్సికో (2,500). లేబుల్-ప్రతి కంపోజిట్ స్కోర్లు 0.9971 నుంచి 0.9985 వరకు ఉన్నాయి. ఈ లేబుల్ సంఖ్యలు లోకేల్ హ్యాండ్లింగ్ను పరీక్షించేందుకు ఉపయోగించిన రూపొందించిన కేసుల లక్షణాలు — ఇవి నిజమైన వినియోగదారులు కావు, నిజ-ప్రపంచ భౌగోళిక కవరేజ్ కూడా కాదు.
ముందస్తుగా నమోదు చేసిన రూబ్రిక్ — వివరణ
ప్రీ-రిజిస్ట్రేషన్ ఈ బెంచ్మార్క్లో అత్యంత ముఖ్యమైన విధానపరమైన ఎంపిక. ప్రతి ఊహించిన నిర్ధారణ, ప్రతి క్లినికల్ స్కోరింగ్ సిస్టమ్, మరియు ప్రతి రిపోర్ట్ విభాగం సోర్స్ కోడ్కు కట్టుబడి ఉంది ఇంజిన్ను పిలిచే ముందు. అందువల్ల ఇంజిన్ను మెప్పించేలా రుబ్రిక్పై పోస్ట్-హాక్ ట్యూనింగ్ చేయడం అసాధ్యం.
సమ్మిళిత స్కోర్ను రూపొందించే మూడు భాగాలు ఉన్నాయి. నిర్మాణాత్మక భాగం 35 శాతం వాటా కలిగి, ఇంజిన్ ఏడు తప్పనిసరి రిపోర్ట్ విభాగాలను (హెడర్, సమ్మరీ, కీలక ఫైండింగ్స్, డిఫరెన్షియల్, స్కోరింగ్ సిస్టమ్స్, సిఫార్సులు, ఫాలో-అప్) మరియు వాటిలోని పదహారు తప్పనిసరి ఉపవిభాగాలను తిరిగి ఇచ్చిందా అనే విషయాన్ని కొలుస్తుంది. విభాగం ఉనికి నిర్మాణాత్మక లెక్కింపులో 40 శాతం బరువు, ఉపవిభాగం ఉనికి 60 శాతం బరువు కలిగి ఉంటుంది.
ది క్లినికల్ భాగం 55 శాతం వాటా కలిగి, మూడు విషయాలను కలుపుతుంది: నిర్ధారణ-కీవర్డ్ రీకాల్ (క్లినికల్ ఉప-స్కోర్లో 70 శాతం), స్కోరింగ్-సిస్టమ్ రీకాల్ (20 శాతం — సంబంధిత చోట్ల ఇంజిన్ Mentzer, FIB-4, HOMA-IR, ASCVD రిస్క్, KDIGO స్టేజింగ్, EULAR/ACR ప్రమాణాలను లెక్కిస్తుందా), మరియు ప్రాబబిలిటీ-సమ్ చెల్లుబాటు తనిఖీ (10 శాతం — డిఫరెన్షియల్ ప్రాబబిలిటీలు [90, 110] అంతరంలో మొత్తం రావాలి). ట్రాప్ కేసుల కోసం, గరిష్ఠంగా 0.30 వరకు స్పష్టమైన హైపర్డయాగ్నోసిస్ పెనాల్టీ తీసివేస్తారు; ఇది తయారు చేసిన పాథాలజీ ఫ్లాగ్కు 0.10 చొప్పున లెక్కించి, గరిష్ఠంగా మూడు ఫ్లాగ్ల వరకు పరిమితం చేస్తారు.
ది లేటెన్సీ భాగం 10 శాతం వాటా కలిగి ఉంటుంది. 20 సెకన్లలోపు స్పందనకు పూర్తి 0.10, 40 సెకన్లలోపు స్పందనకు 0.05, అంతకంటే నెమ్మదిగా ఏదైనా అయితే సున్నా. 20 సెకన్ల లక్ష్యం ప్రొడక్షన్ ప్రైమరీ-పాత్ సర్వీస్-లెవల్ ఆబ్జెక్టివ్ను ప్రతిబింబిస్తుంది; 40 సెకన్ల గరిష్ఠ పరిమితి భారీ-ఇంజిన్ ఇన్వొకేషన్ల కోసం ఫేజ్ 2 ఫాల్బ్యాక్ బడ్జెట్ను ప్రతిబింబిస్తుంది.
ప్రీ-రిజిస్ట్రేషన్ ఏమి నివారిస్తుంది
ఫస్ట్-పార్టీ బెంచ్మార్క్లు పోస్ట్-హాక్ రుబ్రిక్ ట్యూనింగ్ ద్వారా తమ స్వంత సంఖ్యలను పెంచడం కోసం ప్రసిద్ధి. ఆ నమూనా దాదాపు ఎప్పుడూ ఇదే: టీమ్ ఇంజిన్ను నడిపి, ఎక్కడ తక్కువగా ఉందో చూసి, ఆ తర్వాత తక్కువగా ఉన్న ప్రాంతాలు తక్కువగా లెక్కపడేలా రుబ్రిక్ను నిశ్శబ్దంగా సర్దుతుంది. మొదటి ఇంజిన్ కాల్కు ముందు రుబ్రిక్ను సోర్స్ కోడ్కు కట్టుబట్టి, MIT లైసెన్స్తో హార్నెస్ను ప్రచురించడం ద్వారా, ఆ సర్దుబాటు వెర్షన్ కంట్రోల్లో కనిపిస్తుంది. ఎవరైనా రిపోజిటరీని క్లోన్ చేసి, రుబ్రిక్ రచయిత తేదీలను తనిఖీ చేసి, స్కోరింగ్ను ఆకృతీకరించడానికి ఇంజిన్ ఫలితాలను ఉపయోగించలేదని ధృవీకరించవచ్చు.
హైపర్డయాగ్నోసిస్ ట్రాప్ కేసులు — అధికంగా పిలవడం (over-calling) నిజమైన వైఫల్య విధానం ఎందుకు
సాధారణ స్క్రీన్లపై పాథాలజీని దూకుడుగా ఎక్కువగా పిలవడం అనేది కన్స్యూమర్-ఫేసింగ్ మెడికల్ అసిస్టెంట్లలో డాక్యుమెంట్ అయిన వైఫల్య మోడ్. దాని డౌన్స్ట్రీమ్ ఖర్చుల్లో అవసరం లేని పరిశోధన, రోగి ఆందోళన, మరియు ఐయాట్రోజెనిక్ వర్కప్ ఉన్నాయి. ఈ బెంచ్మార్క్లోని రెండు ట్రాప్ కేసులు ఆ వైఫల్య మోడ్ను కనిపించేలా చేసి, స్కోర్ చేయగలిగేలా రూపొందించబడ్డాయి.
🟡 ట్రాప్ 1 — BT-014-GILBERT
ప్రదర్శన. మొత్తం బిలిరుబిన్ 2.4 mg/dL ఉన్న 24 ఏళ్ల పురుషుడు. డైరెక్ట్ భాగం సాధారణం, ట్రాన్స్అమినేసులు మరియు ఆల్కలైన్ ఫాస్ఫటేస్ తమ రిఫరెన్స్ రేంజ్లలోనే ఉన్నాయి, రెటిక్యులోసైట్లు అసాధారణంగా లేవు, మరియు హాప్టోగ్లోబిన్, LDH హీమోలిసిస్ను తప్పుపడతాయి.
సరైన అర్థం చేసుకోవడం. గిల్బర్ట్ సిండ్రోమ్ — ఒక నిరపాయమైన UGT1A1 పాలిమార్ఫిజం. ఈ అర్థం చేసుకోవడంలో హెపటైటిస్, సిర్రోసిస్, హీమోలిటిక్ అనీమియా, లేదా బిలియరీ అడ్డంకి ఉండకూడదు.
V11 ఫలితం. సమ్మిళిత 1.000. ఆరు పర్యవేక్షించిన ఓవర్-డయాగ్నోసిస్ ఫ్లాగ్లలో ఏదీ యాక్టివ్ నిర్ధారణలుగా కనిపించలేదు.
🟡 ట్రాప్ 2 — BT-015-HEALTHY
ప్రదర్శన. 15-పారామీటర్ల రొటీన్ స్క్రీనింగ్ ప్యానెల్తో ఉన్న 35 ఏళ్ల మహిళ. ప్రతి అనలైట్ తన రిఫరెన్స్ రేంజ్లో సౌకర్యంగా ఉంది.
సరైన అర్థం చేసుకోవడం. భరోసా మరియు జీవనశైలి నిర్వహణ. ఈ అర్థం చేసుకోవడం క్లినికల్గా ఉపయోగకరంగా అనిపించేందుకు సరిహద్దు స్థాయి వ్యాధి ఉన్నట్లు కృత్రిమంగా తయారు చేయకూడదు.
V11 ఫలితం. సమ్మిళిత స్కోరు 1.000. పర్యవేక్షించిన ఏడు అధిక-నిర్ధారణ (over-diagnosis) ఫ్లాగ్లలో—డయాబెటిస్, రక్తహీనత (anaemia), హైపోథైరాయిడిజం, డిస్లిపిడీమియా, హెపటైటిస్, మూత్రపిండ వ్యాధి, లోపం—ఏదీ క్రియాశీల నిర్ధారణగా కనిపించలేదు.
రెండు ట్రాప్లలో కలిపి, పర్యవేక్షించిన పదమూడు హైపర్డయాగ్నోసిస్ ఫ్లాగ్లు తనిఖీ చేయబడ్డాయి. ఏదీ ట్రిగ్గర్ కాలేదు. ట్రయాజ్ లేదా ప్రీ-కన్సల్టేషన్ సాధనంగా AI ఇంజిన్ను ఉపయోగించాలనుకునే ఏ వైద్యుడికి అత్యంత ముఖ్యమైన ఫలితం ఇదే: ఎక్కడా వ్యాధి లేనప్పుడు వ్యవస్థ దాన్ని కనిపెట్టలేదు.
మెంట్జర్ ఇండెక్స్: ఇనుము లోపాన్ని థాలసీమియా ట్రైట్ నుండి వేరు చేయడం
రెండో అధిక విలువైన కనుగొనిక కేసు BT-001 (ఇనుము లోప రక్తహీనత) ను కేసు BT-007 (బీటా-థాలసీమియా మైనర్) తో జత చేయడమే. రెండింటిలోనూ మైక్రోసైటోసిస్ కనిపిస్తుంది, ఇది అమాయక క్లాసిఫైయర్లకు బాగా తెలిసిన అడ్డంకి. మెంట్జర్ సూచిక, అంటే MCV ను RBC కౌంట్తో భాగించగా, ఇనుము లోపంలో 13 కంటే ఎక్కువగా ఉంటుంది; థాలసీమియా ట్రైట్లో 13 కంటే తక్కువగా ఉంటుంది.
BT-001 లో, రోగి 34 ఏళ్ల మహిళ; హీమోగ్లోబిన్ 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ఫెరిటిన్ 6 ng/mL, మరియు పెరిగిన TIBC ఉన్నాయి. సుమారు 17.7 మెంట్జర్ సూచిక సంపూర్ణ ఇనుము లోపాన్ని సూచిస్తుంది. BT-007 లో, రోగి 28 ఏళ్ల పురుషుడు; మైక్రోసైటోసిస్ (MCV 65.8 fL) ఉన్నప్పటికీ RBC కౌంట్ 6.2 గా ఎక్కువగా ఉంది, RDW సాధారణం, ఫెరిటిన్ సాధారణం, మరియు HbA2 5.6 శాతం. సుమారు 10.6 మెంట్జర్ సూచిక థాలసీమియా ట్రైట్ను సూచిస్తుంది, మరియు పెరిగిన HbA2 బీటా-థాలసీమియా మైనర్ను నిర్ధారిస్తుంది.
రెండు కేసులూ 1.000 స్కోరు సాధించాయి. ఇంజిన్ రెండు అర్థాల్లోనూ మెంట్జర్ సూచికను స్పష్టంగా ఉపయోగించి, ప్రతి సందర్భంలో సరైన నిర్ధారణను తిరిగి ఇచ్చింది. మొత్తం బెంచ్మార్క్లో అత్యంత క్లినికల్గా భరోసా ఇచ్చే ఒక్క ఫలితం ఇదే, ఎందుకంటే థాలసీమియా ట్రైట్ను ఇనుము లోపంగా తప్పుగా వర్గీకరిస్తే అనుచిత ఇనుము సప్లిమెంటేషన్ జరుగుతుంది మరియు కుటుంబ-స్క్రీనింగ్ అవకాశాలు మిస్ అవుతాయి; అలాగే ఇనుము లోపాన్ని థాలసీమియాగా తప్పుగా వర్గీకరిస్తే సులభమైన రీప్లేస్మెంట్ థెరపీ ఆలస్యం అవుతుంది. మా ఫెరిటిన్ పరిధి మార్గదర్శకం విస్తృత డిఫరెన్షియల్ సందర్భాన్ని వివరిస్తుంది.
V11 ప్రారంభ రిఫరెన్స్ రన్ నుండి ప్రతి-కేస్ ఫలితాలు (ఏప్రిల్ 23, 2026)
15-కేస్ ప్రూఫ్-ఆఫ్-కాన్సెప్ట్ కోహోర్ట్పై ఉన్న అసలు V11 రిఫరెన్స్ రన్, రెండవ అప్డేట్కు విధానపరమైన పునాది: క్రింద ఉన్న ప్రతి-కేస్ వివరాలు రూబ్రిక్ ఒక నిజమైన ఇంజిన్ ప్రతిస్పందనను ఎలా నిర్వహిస్తుందో చూపిస్తాయి. పదిహేను కేసుల్లో పన్నెండు కేసులు ప్రాథమిక పాత్లో 1.000 అనే సీలింగ్ సమ్మిళిత స్కోర్ను సాధించాయి; మూడు కేసులు ఫేజ్ 2 ఫాల్బ్యాక్ ద్వారా సర్వ్ చేయబడ్డాయి, దీంతో 0.05 లేటెన్సీ బోనస్ కోల్పోయినా అన్ని క్లినికల్ మరియు నిర్మాణాత్మక కంటెంట్ అలాగే నిలిచింది. ఒక కేస్లో ఒకే ఒక్క తప్పనిసరి ఉపవిభాగం లేదు; ఒకటి స్వల్పంగా తగ్గిన ప్రాబబిలిటీ డిస్ట్రిబ్యూషన్ సమ్ను తిరిగి ఇచ్చింది. of the Second Update: every per-case detail below illustrates how the rubric handles a real engine response. Twelve of fifteen cases achieved the ceiling composite score of 1.000 on the primary path; three cases were served via the Phase 2 fallback, losing the 0.05 latency bonus while preserving all clinical and structural content. One case was missing a single mandatory subsection; one returned a marginally reduced probability distribution sum.
PCOS కేసు (BT-008) ప్రతిస్పందన నిర్మాణంలో ఒక తప్పనిసరి ఉపవిభాగాన్ని కోల్పోయింది — పదహారు లో పదహారు బదులు పదహారు లో పదహారు — దీని వల్ల నిర్మాణ స్కోరు 1.000 నుండి 0.963కి తగ్గింది. SLE కేసు (BT-011) క్లినికల్ స్కోరును 0.965కి తగ్గించిన స్వల్పంగా తగ్గిన probability-distribution సమ్ను తిరిగి ఇచ్చింది; అయితే ప్రతి డయాగ్నస్టిక్ కీవర్డ్ మరియు స్కోరింగ్ సిస్టమ్ను అలాగే ఉంచింది. ఏ ఉప-పర్ఫెక్ట్ కేసూ సరైన నిర్ధారణను మిస్ చేయలేదు.
V11 రెండవ అప్డేట్ సమ్మిళితం — 100,000 కేసులు
జనాభా స్థాయిలో, వ్యక్తిగత కేస్ రోలు మానవులకు చదవగలిగే విధంగా ఉండవు; అందువల్ల రెండో అప్డేట్ 100,000-రోల టేబుల్ కంటే సమీకృత (aggregated) మెట్రిక్స్ను నివేదిస్తుంది. ప్రధాన సమీకృత ఫలితం క్రింద చూపబడింది; ప్రత్యేకత-ప్రతి మరియు దేశ-లేబుల్-ప్రతి విభజనలు సాంకేతిక నివేదికలో మరియు Figshare డిపాజిట్లో ప్రచురించబడతాయి. ఒక స్ట్రాటిఫైడ్ ర్యాండమ్ నమూనా of n = 201 ముడి ఇంజిన్ ప్రతిస్పందనలు (నిర్దిష్ట సీడ్ 20260426) పరిశీలన కోసం GitHub results/ డైరెక్టరీలో ప్రచురించబడింది.
హెడ్లైన్ స్కోరు మనకు ఏమి చెప్పదు
ఈ నిర్దిష్ట ప్రీ-రిజిస్టర్డ్ రూబ్రిక్ కింద 99.80 శాతం కంపోజిట్ స్కోర్, 127 దేశ లేబుళ్లను కవర్ చేసే 100,000-కేసుల సింథటిక్ కోహోర్ట్పై, సీలింగ్కు సమీప పనితీరును సూచిస్తుంది — కానీ దాన్ని జాగ్రత్తగా సందర్భీకరించాలి. ఈ ఫలితం V11లో సోర్స్ కోడ్కు మేము కట్టుబడిన రూబ్రిక్కు వ్యతిరేకంగా ఇంజిన్ ప్రవర్తనను వివరిస్తుంది; అడవిలో ఉన్న ప్రతి రక్త పరీక్ష ప్యానెల్పై ఇంజిన్ యొక్క సరైనత గురించి ఇది సార్వత్రిక (యూనివర్సల్) వాదన కాదు.
ఈ స్కోరు ఏమి చెబుతుందంటే—ఈ మూల్యాంకనానికి ఎంపిక చేసిన డయాగ్నోస్టిక్ నమూనాలను, జనాభా-స్థాయి కోహోర్ట్లో, ప్రచురించబడిన మరియు పునరుత్పత్తి చేయగల విధానంతో, ఇంజిన్ సరిగ్గా నిర్వహించింది. అడవిలో ఉన్న ప్రతి రక్త పరీక్ష ప్యానెల్పై ఇంజిన్ సరిగా ఉందని ఇది చెప్పదు. ఇంజిన్ వైద్య నిపుణుల తీర్పును భర్తీ చేయాలని చెప్పదు. అలాగే ఇతర AI సిస్టమ్స్ కంటే ఇంజిన్ మెరుగ్గా ఉందని కూడా చెప్పదు—ఇతర ఇంజిన్లతో పోల్చిన విశ్లేషణలు ఈ నివేదిక పరిధికి ఉద్దేశపూర్వకంగా బయటే ఉన్నాయి.
స్కోరు స్థాపించేది ఒక బేస్లైన్. రూబ్రిక్ మరియు హార్నెస్ ప్రజలకు అందుబాటులో ఉన్నందున, ఇంజిన్ భవిష్యత్ వెర్షన్లను అదే రూబ్రిక్తో మూల్యాంకనం చేయవచ్చు—V11 ప్రారంభంలోని 15 కేసులకు, రెండో నవీకరణలోని 100,000 కేసుల కోహోర్ట్కు, లేదా తదుపరి ఏ విస్తరణకైనా—మరియు ప్రచురిత స్కోరు మరియు తదుపరి ఏ రన్ మధ్య గ్యాప్ స్వయంగా కొలవదగినదే. ప్రీ-రిజిస్ట్రేషన్ విలువ ఇదే: పనితీరు క్లెయిమ్లను పరీక్షించదగిన క్లెయిమ్లుగా మార్చుతుంది.
10 నిమిషాల్లో ఈ బెంచ్మార్క్ను ఎలా పునరుత్పత్తి చేయాలి
పునరుత్పత్తి చేయడానికి కేవలం Kantesti API క్రెడెన్షియల్ జత మరియు Python 3.10 లేదా అంతకంటే పై వాతావరణం అవసరం, అలాగే requests మరియు reportlab లైబ్రరీలు ఇన్స్టాల్ చేసి ఉండాలి. పూర్తి హార్నెస్ MIT లైసెన్స్ కింద విడుదలైన ఒకే స్వయం-నిర్వహణ (self-contained) Python మాడ్యూల్.
కొత్త రన్ కోసం నాలుగు దశలు
ఒకటి. రిపోజిటరీని క్లోన్ చేయండి: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. రెండు. క్రింది విధంగా డిపెండెన్సీలను ఇన్స్టాల్ చేయండి pip install -r requirements.txt (Second Update జోడిస్తుంది mysql-connector-python ≥ 8.0 SQL కేస్ లోడర్ కోసం). మూడు. సెట్ చేయండి KANTESTI_USERNAME మరియు KANTESTI_PASSWORD ఇంజిన్ API కోసం ఎన్విరాన్మెంట్ వేరియబుల్స్గా. రెండో నవీకరణ SQL కేస్ లోడర్ కోసం కూడా సెట్ చేయండి KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, మరియు KANTESTI_DB_PASSWORD — గుర్తించే పట్టికలపై ఎలాంటి అధికారాలు లేని (read-only) పాత్ర ద్వారా లోడర్ కనెక్ట్ అవుతుంది.bench_reader). నాలుగు. నడపండి python benchmark_bloodtest.py --limit 100000 పూర్తి Second-Update రన్ కోసం, లేదా python benchmark_bloodtest.py --limit 1000 త్వరిత పునరావృతం కోసం. అవుట్పుట్లు ఇక్కడ నిల్వ అవుతాయి ./benchmark_results/: దేశం-లేబుల్ మరియు ప్రత్యేకత కాలమ్లతో కూడిన ఒక CSV స్కోర్కార్డ్, ఒక JSON aggregate, ఒక stratified-random ముడి-ప్రతిస్పందన నమూనా, మరియు ఒక Markdown నివేదిక.
23 ఏప్రిల్ 2026 (V11 ప్రారంభం, 15 కేసులు) మరియు 26 ఏప్రిల్ 2026 (V11 Second Update, 100,000 కేసులు) నుండి వచ్చిన రిఫరెన్స్ రన్లు రిపోజిటరీ డైరెక్టరీలో భద్రపరచబడ్డాయి. కొత్త రన్ ఒక కొత్త టైమ్స్టాంప్తో స్కోర్కార్డ్ను ఉత్పత్తి చేస్తుంది; రిఫరెన్స్ రన్లను మాత్రం మార్చదు. మీ రన్ ఫలితం గణనీయంగా భిన్నంగా ఉంటే, దయచేసి రన్ టైమ్స్టాంప్ మరియు ప్రతిస్పందన మెటాడేటాలో తిరిగి వచ్చిన ఇంజిన్ వెర్షన్తో GitHub ఇష్యూ తెరవండి. results/ directory of the repository. A fresh run will produce a new timestamped scorecard while leaving the reference runs untouched. If your run produces a meaningfully different result, please open a GitHub issue with the run timestamp and the engine version returned in the response metadata.
పరిమితులు మరియు భవిష్యత్ పని
127 దేశం లేబుల్లపై 100,000 కేసులు ఉన్నప్పటికీ, నాలుగు పరిమితులను స్పష్టంగా గుర్తించాలి: లాంగ్-టెయిల్ లేబుల్ అండర్సాంప్లింగ్, సింగిల్-షాట్ మూల్యాంకనం, సింగిల్-ఇంజిన్ పరిధి, మరియు సింగిల్-సోర్స్ డేటా మూలం. ఇవి అన్నీ క్రియాశీల ఫాలో-అప్ పనిలో పరిష్కరించబడుతున్నాయి.
లాంగ్-టెయిల్ లేబుల్ కవరేజ్. Second Update 127 దేశం లేబుల్లను కవర్ చేస్తుంది, కానీ పంపిణీ అసమతుల్యంగా ఉంది — అగ్ర 10 లేబుల్లు ≈66.4% కేసులను కలిగి ఉంటాయి, మరియు మిగిలిన 97 అదనపు లేబుల్ల లాంగ్ టెయిల్ కలిసి ≈7.3% (సుమారు 7,300 కేసులు మొత్తం, లేబుల్కు సగటున ~75 కేసులు) అందిస్తుంది. అందువల్ల ఈ లాంగ్ టెయిల్లోని ప్రతి-లేబుల్ కంపోజిట్లు హెడ్లైన్ గణాంకాలు సూచించినదానికంటే ఎక్కువ శబ్దంతో ఉంటాయి. భవిష్యత్ రన్లు ప్రతి-లేబుల్ అంచనాలను బలపరచడానికి లేబుల్ అసైన్మెంట్ను మళ్లీ బ్యాలెన్స్ చేస్తాయి.
సింగిల్-షాట్ మూల్యాంకనం. కోహోర్ట్లోని ప్రతి కేసును ఒక్కసారి మాత్రమే మూల్యాంకనం చేశారు. తక్కువ sampling temperature వద్ద కూడా పెద్ద భాషా మోడళ్లలో గణనీయమైన అవుట్పుట్ వైవిధ్యం కనిపిస్తుంది; అందువల్ల ప్రతి కేసుకు ఐదు మూల్యాంకనాలతో కూడిన multi-run ప్రోటోకాల్ మరియు నివేదించిన variance సహజమైన తదుపరి దశ — ముఖ్యంగా trap-case ఉపసెట్లో, sampling jitter కింద స్థిరత్వం భద్రతా క్లెయిమ్లో భాగం.
సింగిల్-ఇంజిన్ పరిధి. ఈ నివేదిక ఒకే ఇంజిన్ను వివరిస్తుంది. ప్రత్యామ్నాయ AI సిస్టమ్లతో పోల్చే విశ్లేషణలు ఇక్కడ పరిధికి వెలుపల; అదే MIT-లైసెన్స్ హార్నెస్తో, తగిన విధానంతో, వాటిని వేరే స్వతంత్ర అధ్యయనంగా చేపట్టవచ్చు.
సింథటిక్ డేటా. 100,000 కేసులు సింథటిక్గా రూపొందించబడ్డాయి — సింథటిక్ కేసులు కాదు — మరియు ఫలితాలు వాస్తవ ప్రపంచ క్లినికల్ పనితీరుకు బదిలీ కావు. సమ్మతి పొందిన, బాహ్యంగా-సోర్స్ చేసిన వాస్తవ డేటాపై మూల్యాంకనం చేయాలంటే తగిన నైతిక పర్యవేక్షణ అవసరం, మరియు ఈ సింథటిక్ బెంచ్మార్క్ పరిధికి వెలుపల ఉంది.
ఈ నాలుగు వాటికి మించి, అత్యంత ప్రభావవంతమైన ప్రణాళికాబద్ధమైన విస్తరణ ప్రతి జురిస్డిక్షన్కు బహుభాషా సమానత్వం. Kantesti AI Engine 75+ భాషల్లో వినియోగదారులకు సేవలందిస్తుంది, మరియు భాష-వర్గీకరించిన Second-Update ఉప-కోహోర్ట్లను (టర్కిష్, జర్మన్, స్పానిష్, ఫ్రెంచ్, ఇటాలియన్, పోర్చుగీస్, అరబిక్, మాండరిన్) నడపడం ద్వారా ఇంజిన్ మద్దతు ఇచ్చే భాషల అంతటా అవుట్పుట్ నాణ్యతను పరిమాణపరచబడుతుంది. ప్రతి భాష-వర్గీకరించిన విశ్లేషణ దాని స్వంత DOI మరియు హార్నెస్ బ్రాంచ్తో ప్రచురించబడుతుంది.