Kantesti AI రక్త పరీక్ష బెంచ్‌మార్క్

ఆటోమేటెడ్ బెంచ్‌మార్క్ ముందస్తుగా నమోదు చేసిన బెంచ్‌మార్క్ V11 రెండవ నవీకరణ — ఏప్రిల్ 2026 MIT లైసెన్స్‌తో పునరుత్పాదనయోగ్యమైనది · ఓపెన్ డేటా 100K సింథటిక్ కోహోర్ట్ · 127 దేశ లేబుళ్లు

ప్రీ-రిజిస్టర్డ్ రూబ్రిక్‌పై 99.80% కంపోజిట్ స్కోర్ — V11 రెండో అప్‌డేట్, 127 దేశ లేబుళ్లలో 100,000 కేసుల కోహోర్ట్

127 దేశ లేబుళ్లతో ట్యాగ్ చేసిన 100,000 సింథటిక్‌గా రూపొందించిన రక్త పరీక్ష కేసులపై Kantesti ఇంజిన్‌కు సంబంధించిన ప్రీ-రిజిస్టర్డ్, రూబ్రిక్-ఆధారిత ఆటోమేటెడ్ సాంకేతిక బెంచ్‌మార్క్. ఇది నిర్ధారణ ఖచ్చితత్వాన్ని కాదు, అవుట్‌పుట్ అనుగుణతను (కాన్ఫార్మెన్స్) కొలుస్తుంది. V11 ప్రారంభ విడుదలకు ముందు సోర్స్ కోడ్‌లోనే రూబ్రిక్‌ను ఫ్రీజ్ చేసి, ఈ రెండో అప్‌డేట్‌లో బైట్-ఐడెంటికల్‌గా అలాగే ఉంచారు; మూల్యాంకన హార్నెస్ MIT-లైసెన్స్‌తో ఉంది; పరిశీలన కోసం ముడి ఇంజిన్ ప్రతిస్పందనల యొక్క స్ట్రాటిఫైడ్ ర్యాండమ్ నమూనా ప్రచురించబడింది. అన్ని కేసులు సింథటిక్; ఎలాంటి వ్యక్తిగత డేటా ఉపయోగించబడదు.

📖 ~14 నిమిషాలు 📅 ఏప్రిల్ 23, 2026న ప్రచురించబడింది · ఏప్రిల్ 26, 2026న నవీకరించబడింది (V11 రెండవ నవీకరణ) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 ప్రచురించబడింది: ఏప్రిల్ 23, 2026 🔄 V11 రెండవ నవీకరణ: ఏప్రిల్ 26, 2026 🩺 వైద్యపరంగా సమీక్షించబడింది: ఏప్రిల్ 26, 2026 ✅ ప్రీ-రిజిస్టర్డ్ రుబ్రిక్ (బైట్-ఐడెంటికల్) 🔓 ఓపెన్ కోడ్ & డేటా

ఈ ఆటోమేటెడ్ బెంచ్‌మార్క్‌ను రూపొందించి నిర్వహించింది జూలియన్ ఎమిర్హాన్ బులుట్, సీనియర్ AI ఇంజనీర్ మరియు Kantesti Ltd యొక్క CEO. స్కోరింగ్ పూర్తిగా సోర్స్ కోడ్‌లో ఆటోమేటెడ్‌గా ఉంటుంది; స్కోరింగ్ రూబ్రిక్ మరియు కేస్ ప్యానెల్‌ను డాక్టర్ థామస్ క్లెయిన్, MD, Kantesti AI వద్ద చీఫ్ మెడికల్ ఆఫీసర్, క్లినికల్ ఇన్‌పుట్‌తో అభివృద్ధి చేసి, కాంటెస్టి AI మెడికల్ అడ్వైజరీ బోర్డు. ఇది స్వయంగా నడిపే అంతర్గత బెంచ్‌మార్క్; స్వతంత్రం లేదా పీర్-రివ్యూడ్ ఆటోమేటెడ్ సాంకేతిక బెంచ్‌మార్క్ కాదు.

ప్రధాన రచయిత & క్లినికల్ పర్యవేక్షణ

థామస్ క్లీన్, MD

చీఫ్ మెడికల్ ఆఫీసర్, కాంటెస్టి AI

డాక్టర్ థామస్ క్లైన్ 15 ఏళ్లకు పైగా ప్రయోగశాల వైద్య అనుభవం కలిగిన, బోర్డ్-సర్టిఫైడ్ క్లినికల్ హీమటాలజిస్ట్ మరియు ఇంటర్నిస్ట్. Kantesti AI వద్ద చీఫ్ మెడికల్ ఆఫీసర్‌గా, ఈ బెంచ్‌మార్క్ కోసం కేస్ ప్యానెల్‌ను ఎంపిక చేశారు, సింథటిక్ కేసుల క్లినికల్ కంటెంట్ మరియు ఆశించిన సమాధానాలను సమీక్షించారు, మరియు మొదటి ఇంజిన్ ఆహ్వానం (ఇన్వొకేషన్)కు ముందు ప్రీ-రిజిస్టర్డ్ రూబ్రిక్‌ను ఆమోదించారు.

ORCID 0009-0009-1490-1321 రీసెర్చ్ గేట్ గూగుల్ స్కాలర్

సహ-రచయిత & అమలు

జూలియన్ ఎమిర్హాన్ బులుట్

సీనియర్ AI ఇంజనీర్ & CEO, Kantesti Ltd

జూలియన్ ఎమిర్హాన్ బులుట్ Kantesti Ltd యొక్క వ్యవస్థాపకుడు మరియు CEO. ఆయన మూల్యాంకన హార్నెస్‌ను రూపొందించి అమలు చేశారు — ఇందులో V11 రెండవ నవీకరణ కోసం జోడించిన SQL కేస్ లోడర్ కూడా ఉంది — API ఇంటిగ్రేషన్‌ను నిర్వహించారు, V11 ప్రారంభ రిఫరెన్స్ రన్ మరియు V11 రెండవ నవీకరణలో 100,000 కేసుల రన్ రెండింటినీ నిర్వహించారు, అలాగే గణాంక సమీకరణను సిద్ధం చేశారు. 2019 నుంచి ప్లాట్‌ఫారమ్ వ్యవస్థాపకుడు.

GitHub కాంటెస్టి గురించి

⚡ శీఘ్ర సారాంశం V11 రెండవ నవీకరణ — ఏప్రిల్ 26, 2026

99.80% కాంపోజిట్ స్కోర్ ఎనిమిది వైద్య ప్రత్యేకతలు మరియు 127 దేశ లేబుళ్లలో విస్తరించిన 100,000 సింథటిక్ రక్త పరీక్ష కేసులపై (V11 రెండో అప్‌డేట్).
జీరో హైపర్‌డయాగ్నోసిస్ ఫాల్స్-పాజిటివ్‌లు 87,412 పర్యవేక్షిత ట్రాప్-కేస్ ఫ్లాగ్ అవకాశాలపై — V11 ప్రారంభంలో ఉన్న అదే ట్రాప్-కేస్ విధానాన్ని జనాభా స్థాయికి స్కేల్ చేశారు.
ముందస్తుగా నమోదు చేసిన రుబ్రిక్ V11 ప్రారంభ రన్‌కు ముందు సోర్స్ కోడ్‌లో ఫ్రీజ్ చేసి, బైట్-ఐడెంటికల్‌గా ఉంచారు ఈ రెండవ నవీకరణ కోసం — పోస్ట్-హాక్ ట్యూనింగ్ సాధ్యం కాలేదు.
మెంట్జర్ సూచికను సరిగ్గా వర్తింపజేశారు V11 ప్రారంభ విడుదలలో ఐరన్ డెఫిషియెన్సీ అనీమియాను బీటా-థాలసీమియా మైనర్ నుంచి వేరు చేయడానికి; జనాభా స్థాయిలో ఆ భేదక ప్రవర్తనను అలాగే నిలుపుకున్నారు.
ప్రొడక్షన్ ఎండ్‌పాయింట్ మాత్రమే — ప్రత్యేక హక్కుల రూటింగ్ లేదు; చెల్లించే కస్టమర్ యాక్సెస్ చేసినట్లుగానే ఖచ్చితంగా మూల్యాంకనం చేయబడింది.
13.26 సెకన్ల సగటు లేటెన్సీ ఎండ్-టు-ఎండ్ (పరిధి 9.0–16.94 s), మరియు అన్ని 100,000 కేసులు ఇంజిన్ యొక్క ప్రాథమిక మార్గంలోనే పూర్తయ్యాయి.
సింథటిక్ కోహోర్ట్. రన్‌టైమ్‌లో లోడ్ చేసిన 100,000 సింథటిక్‌గా రూపొందించిన టెస్ట్ కేసులు. ఎలాంటి సింథటిక్ డేటా మరియు ఎలాంటి వ్యక్తిగత డేటా ఉపయోగించబడదు.
MIT-లైసెన్స్ హార్నెస్ పరిశీలన కోసం GitHubలో స్ట్రాటిఫైడ్ ర్యాండమ్ నమూనాతో (n = 201) పూర్తి రా ఇంజిన్ ప్రతిస్పందనలను విడుదల చేశారు.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHubలో మిర్రర్ చేయబడింది.

ఈ బెంచ్‌మార్క్ ఎందుకు ఉంది మరియు ఇది ఏమి పరీక్షిస్తుంది

AI-సహాయంతో రక్త పరీక్ష ఫలితాలు అర్థం వినియోగదారుల మరియు క్లినికల్ వర్క్‌ఫ్లోలలో పెరుగుతున్న స్థాయిలో ఉపయోగించబడుతోంది; అయినప్పటికీ, ప్రయోగశాల వైద్యానికి అనుకూలంగా పునరుత్పత్తి చేయగల మూల్యాంకన ఫ్రేమ్‌వర్క్‌లు ఇప్పటికీ అరుదుగా ఉన్నాయి. ఈ సందర్భంలో అత్యంత ముఖ్యమైన ప్రశ్నలు సాధారణ వైద్య ప్రశ్న-సమాధాన బెంచ్‌మార్క్‌లలో కవర్ చేయబడేవి కావు: సగటు కార్పస్కులర్ వాల్యూమ్ ఒకేలా ఉన్నప్పుడు ఇంజిన్ ఐరన్ లోపాన్ని థాలస్సీమియా ట్రైట్ నుండి వేరు చేయగలదా, హెపటైటిస్‌గా గిల్బర్ట్ సిండ్రోమ్‌ను అధికంగా నిర్ధారిస్తుందా, మరియు పూర్తిగా సాధారణ స్క్రీనింగ్ ప్యానెల్‌లో పాథాలజీని తయారు చేస్తుందా?

ఒకే రక్త పరీక్ష ప్యానెల్ సాధారణంగా అనేక పోటీ వివరణలకు మద్దతు ఇచ్చేంత సంకేతాన్ని కలిగి ఉంటుంది; అందువల్ల ఫలితాలను అర్థం చేసేవైద్యుడి పని, పాఠ్యపుస్తక సమాధానాన్ని వెతకడం కంటే, ఆ వివరణలను పరస్పరం తూకం వేసి చూడడం. పాఠ్యపుస్తక కేసుల్లో బాగా పనిచేసే ఇంజిన్, అత్యంత ప్రాముఖ్యమైన కేసుల్లో మాత్రం విఫలమవచ్చు: డిఫరెన్షియల్-డయాగ్నోసిస్ లోపాల పిట్ఫాల్స్, ఒంటరిగా చూసినప్పుడు భయంకరంగా కనిపించే నిర్దోష వేరియంట్లు, మరియు పూర్తిగా సాధారణ ప్యానెల్లు—ఇవి నమ్మకంగా ఉన్న సహాయకులను పాథాలజీని తయారు చేయడానికి ప్రేరేపిస్తాయి.

ఈ బెంచ్‌మార్క్ ప్రత్యేకంగా ఈ వైఫల్య రీతుల చుట్టూ నిర్మించబడింది. పదిహేను కేసుల్లో ప్రతి ఒక్కదాన్ని ఒక నిర్దిష్ట నిర్ధారణ లక్షణం కోసం ఎంపిక చేశారు: ఒక ఐరన్-లోప మైక్రోసైటోసిస్‌ను, అదే mean corpuscular volume ఉన్న బీటా-థాలస్సీమియా ట్రైట్ నుండి వేరుగా ఉంచాల్సిన అవసరం; గిల్బర్ట్ సిండ్రోమ్ ప్రదర్శన—ఇందులో ఏకైక అసాధారణత ఒంటరిగా ఉన్న indirect hyperbilirubinaemia; మరియు పదిహేను-పారామీటర్ స్క్రీనింగ్ ప్యానెల్‌లో ప్రతి అనలైట్ తన సూచన పరిధిలోనే ఉండే పరిస్థితి. ఈ రూబ్రిక్, ప్రతి కేసును దాని స్వంత సందర్భంలో చదివే ఇంజిన్‌లకు బహుమతి ఇస్తుంది; అటువంటి నిర్ధారణ అవసరం లేని చోట కూడా నమ్మకంగా ఒక నిర్ధారణకు చేరుకునే ఇంజిన్‌లను శిక్షిస్తుంది.

డాక్టర్ థామస్ క్లైన్‌గా, నేను ఈ కేస్ ప్యానెల్‌ను ఎంచుకున్నాను, ఎందుకంటే ల్యాబొరేటరీ-మెడిసిన్ సహాయకులు ఎక్కువగా తప్పుగా అర్థం చేసుకునే నమూనాలు ఇవే. ఖరీదైన వైఫల్య రీతి "అరుదైన వ్యాధిని మిస్ చేయడం" కాదు—అది దానిని కలిగి లేని రోగుల్లో సాధారణ పాథాలజీని తయారు చేయడం. మా వైద్య ధ్రువీకరణ హబ్ విస్తృత ఫ్రేమ్‌వర్క్‌ను వివరిస్తుంది; ఈ పేజీ V11 ప్రారంభ ప్రూఫ్-ఆఫ్-కాన్సెప్ట్‌ను మరియు దాన్ని 127 దేశ లేబుళ్లను కవర్ చేసే సింథటిక్ కేస్ సెట్ నుంచి తీసుకున్న 100,000 సింథటిక్ కేసులకు స్కేల్ చేసిన V11 రెండో అప్‌డేట్‌ను వివరిస్తుంది — అదే స్కోరింగ్ రూబ్రిక్‌ను ఉపయోగించి, బైట్-ఐడెంటికల్‌గా, మరియు పోస్ట్-హాక్ ట్యూనింగ్‌కు అనుమతి లేకుండా.

26 ఏప్రిల్ 2026 నాటి V11 రెండవ అప్‌డేట్ రిఫరెన్స్ రన్ ఒక కాంపోజిట్ స్కోర్‌ను ఉత్పత్తి చేసింది

V11 ప్రారంభ విడుదలలో ఉపయోగించిన అదే ప్రీ-రిజిస్టర్డ్ రూబ్రిక్‌పై, 99.80% 100,000 అనానిమైజ్డ్ కేసులపై మూల్యాంకనం చేయబడింది 100,000 సింథటిక్ కేసులు Kantesti సింథటిక్ కేస్ సెట్ నుంచి తీసుకుని, విస్తరించిన 127 దేశ లేబుళ్లు . 23 ఏప్రిల్ 2026 నాటి అసలు V11 రన్ 15 చేతితో ఎంపిక చేసిన కేసులను (కాంపోజిట్ 99.12%) కవర్ చేసి రూబ్రిక్‌ను ధృవీకరించింది; రెండవ అప్‌డేట్ ఆ రూబ్రిక్‌ను బైట్-ఐడెంటికల్‌గా ఉంచి, మూల్యాంకనాన్ని జనాభా-స్థాయి కోహోర్ట్‌కు విస్తరిస్తుంది. 0 / 87,412. 100,000 లో 100,000 కేసులకు స్కోర్ వచ్చింది.

సమ్మిళిత 99.80% 13.26 s

1.000 నిర్మాణాత్మక స్కోరు

0.996 క్లినికల్ స్కోరు

ప్రాథమిక-పాత్ సర్వీస్-లెవల్ లక్ష్యానికి వ్యతిరేకంగా. ఖచ్చితమైన విభజన క్రింద ఉన్న రూబ్రిక్ ఫార్ములాలో చూపబడింది — రెండవ అప్‌డేట్ కోసం ఈ వెయిట్లు లేదా సబ్-రూబ్రిక్‌లలో ఏదీ మార్చలేదు. సగటు లేటెన్సీ

0 / 87,412 ట్రాప్ ఫాల్స్-పాజిటివ్‌లు

సమ్మిళిత ఫార్ములా మూడు భాగాలను కలుపుతుంది: నిర్మాణ అనుగుణత ఏడు తప్పనిసరి రిపోర్ట్ విభాగాలు మరియు పదహారు తప్పనిసరి ఉపవిభాగాలతో, కంటెంట్ ఖచ్చితత్వం కీవర్డ్ రీకాల్ + స్కోరింగ్-సిస్టమ్ రీకాల్ + ప్రాబబిలిటీ-డిస్ట్రిబ్యూషన్ చెల్లుబాటు తనిఖీగా కొలవబడింది, మరియు ప్రతిస్పందన లేటెన్సీ హెడ్‌రూమ్‌లో మిగిలిన 0.20 శాతం పాయింట్లు దాదాపు పూర్తిగా క్లినికల్ సబ్-స్కోర్‌లోకి విడిపోతాయి — కేసులలో చిన్న భాగం (ప్రధానంగా హెపటాలజీ మరియు రుమటాలజీ) లో, డయాగ్నోస్టిక్ కంటెంట్ సరైనప్పటికీ, ఇంజిన్ యొక్క అర్థంలో ఒక ఆశించిన స్కోరింగ్-సిస్టమ్ కీవర్డ్ లేనట్లు కనిపించింది.

సమ్మిళిత = 0.35 × నిర్మాణాత్మక + 0.55 × క్లినికల్ + 0.10 × లేటెన్సీ

100,000-కేసుల రెండవ-అప్‌డేట్ కోహోర్ట్‌లో ఏ కేసూ స్వయంగా డయాగ్నోసిస్‌ను మిస్ చేయలేదు. లేటెన్సీ V11 ప్రారంభ విడుదలలో సగటు 20.17 s నుంచి రెండవ అప్‌డేట్‌లో 13.26 s కు మెరుగైంది; ఈ రెండు రన్స్ మధ్య ప్రొడక్షన్ ఇంజిన్ ఆప్టిమైజేషన్లను ఇది ప్రతిబింబిస్తుంది. రూబ్రిక్, స్కోరింగ్ కోడ్, మరియు API ఎండ్‌పాయింట్ మారలేదు. దేశాల వారీ కాంపోజిట్ స్కోర్లు అత్యధికంగా 0.9971 (భారతదేశం) నుంచి 0.9985 (స్విట్జర్లాండ్) వరకు, అత్యధికంగా ప్రాతినిధ్యం ఉన్న 30 దేశాలలో ఉన్నాయి. అదనంగా ఉన్న 97 దేశాల పొడవైన టెయిల్ (మొత్తం ≈7,300 కేసులు) లో ఎలాంటి వ్యవస్థాత్మక క్షీణత కనిపించలేదు. కేసుల సంఖ్య ఆధారంగా ప్రధాన సహకారులు యునైటెడ్ స్టేట్స్ (10,500), బ్రెజిల్ (9,500), స్పెయిన్ (9,000), ఇటలీ (8,000), జర్మనీ (7,800), ఫ్రాన్స్ (7,400), పోర్చుగల్ (5,800), ట్యూర్కియే (3,400), యునైటెడ్ కింగ్‌డమ్ (2,900), మరియు మెక్సికో (2,500).

అత్యధికంగా ప్రాతినిధ్యం ఉన్న 30 దేశ లేబుళ్లలో, లేబుల్-ప్రతి కంపోజిట్ స్కోర్లు 0.9971 నుంచి 0.9985 వరకు ఉన్నాయి. మిగిలిన 97 అదనపు లేబుళ్ల దీర్ఘ తోక (≈7,300 కేసులు కలిపి) ఎలాంటి వ్యవస్థాత్మక క్షీణతను చూపలేదు. కేసుల సంఖ్య ఆధారంగా అత్యంత తరచుగా కనిపించిన లేబుళ్లు: యునైటెడ్ స్టేట్స్ (10,500), బ్రెజిల్ (9,500), స్పెయిన్ (9,000), ఇటలీ (8,000), జర్మనీ (7,800), ఫ్రాన్స్ (7,400), పోర్చుగల్ (5,800), Türkiye (3,400), యునైటెడ్ కింగ్‌డమ్ (2,900), మరియు మెక్సికో (2,500).

15 కేసుల నుంచి 100,000 వరకు: 127 దేశ లేబుళ్లలో కోహోర్ట్ పరిణామం

అసలు V11 కేస్ ప్యానెల్‌లో ఏడు ప్రత్యేకతలు — హీమటాలజీ, ఎండోక్రినాలజీ, మెటబాలిక్ మెడిసిన్, హెపటాలజీ, నెఫ్రాలజీ, కార్డియాలజీ, రుమటాలజీ — అలాగే రెండు ప్రత్యేక హైపర్‌డయాగ్నోసిస్ ట్రాప్ కేసులు ఉన్నాయి; ప్రతి కేసు సింథటిక్‌గా రూపొందించిన రక్త పరీక్ష ప్యానెల్. V11 రెండో అప్‌డేట్ మూల్యాంకనాన్ని 127 దేశ లేబుళ్లలో విస్తరించిన 100,000 సింథటిక్ కేసులకు విస్తరిస్తుంది, హీమటాలజీ, ఎండోక్రైనాలజీ, మెటబాలిక్ మెడిసిన్, హెపటాలజీ, నెఫ్రాలజీ, కార్డియాలజీ, రుమటాలజీ — అలాగే రెండు ట్రాప్ కేసులు — గిల్బర్ట్ సిండ్రోమ్ మరియు పూర్తిగా సాధారణ స్క్రీనింగ్ ప్యానెల్ — కోసం V11 ప్రారంభ కేస్-ప్యానెల్ డిజైన్. రెండవ అప్‌డేట్ ఈ రూబ్రిక్‌ను బైట్-ఐడెంటికల్‌గా నిలుపుకుంటూ, Kantesti SQL రిపోజిటరీ నుంచి తీసుకున్న 100,000 కేసులకు కోహోర్ట్‌ను విస్తరిస్తుంది.

అన్ని కేసులు సింథటిక్‌గా రూపొందించబడినందున, తొలగించాల్సిన నిజమైన గుర్తింపులు లేవు మరియు వ్యక్తిగత డేటా ఏదీ ఉండదు. ప్రతి సింథటిక్ కేసుకు ఒక బెంచ్‌మార్క్-అంతర్గత కేస్ కోడ్ ఉంటుంది (V11 ప్రారంభ సెట్‌లో BT-NNN-LABEL, రెండో అప్‌డేట్‌లో స్థిరమైన . ప్రాసెసింగ్‌ను ). ప్రచురిత హార్నెస్‌లో, సాంకేతిక నివేదికలో, లేదా విడుదల చేసిన డేటాసెట్‌లలో ఎక్కడా వ్యక్తిగత డేటా కనిపించదు.

V11 initial release — 15 hand-curated cases

అసలు V11 కేస్ ప్యానెల్‌ను డాక్టర్ థామస్ క్లైన్ చేతితో ఎంపిక చేసి, ల్యాబొరేటరీ-మెడిసిన్ అసిస్టెంట్లు ఎక్కువగా తప్పుగా పొందే డయాగ్నస్టిక్ నమూనాలను సాధన చేయడానికి రూపొందించారు. క్రింద పేర్కొన్నట్లుగా, పదిహేను కేసులలో ప్రతి ఒక్కదాన్ని ఒక నిర్దిష్ట డయాగ్నస్టిక్ లక్షణం కోసం ఎంపిక చేశారు.

హీమటాలజీ (3) BT-001, BT-006, BT-007 ఐరన్ లోప రక్తహీనత · B12 లోపం · బీటా-థాలసీమియా మైనర్

ఎండోక్రైనాలజీ (3) BT-002, BT-008, BT-012 హషిమోటోస్ థైరాయిడిటిస్ · ఇన్సులిన్ రెసిస్టెన్స్‌తో PCOS · తీవ్రమైన విటమిన్ డి లోపం

మెటబాలిక్ (2) BT-003, BT-013 మెటబాలిక్ సిండ్రోమ్‌తో T2DM · గౌట్ ప్రమాదంతో హైపర్‌యూరిసీమియా

హెపాటాలజీ (2) BT-004, BT-009 NAFLD / NASH · ఆకస్మిక వైరల్ హెపటైటిస్

నెఫ్రాలజీ · కార్డియాలజీ · రుమటాలజీ (3) BT-005, BT-010, BT-011 CKD దశ 3 · అథెరోజెనిక్ డిస్లిపిడీమియా · సిస్టమిక్ లూపస్ ఎరిథీమాటోసస్

ట్రాప్ కేసులు (2) BT-014, BT-015 గిల్బర్ట్ సిండ్రోమ్ (ఒంటరి ఇండైరెక్ట్ హైపర్‌బిలిరుబినీమియా) · పూర్తిగా సాధారణ వయోజన స్క్రీన్

ఈ ప్రత్యేక పంపిణీ ఎందుకు

వాస్తవ ప్రపంచ ప్రయోగశాల ప్రాక్టీస్‌లో మైక్రోసైటిక్ డిఫరెన్షియల్స్ మరియు మాక్రోసైటిక్ డిఫరెన్షియల్స్ అత్యధిక-వాల్యూమ్ ట్రాప్‌లుగా ఉండటంతో హీమటాలజీకి మూడు కేసులు వస్తాయి. హాషిమోటోస్, PCOS, మరియు విటమిన్ డి లోపం ప్రదర్శనలు వేర్వేరు నిర్ధారణ ఆకృతులను (ఆటోఆంటీబాడీ-చోదిత, హార్మోన్-నిష్పత్తి-చోదిత, ఒకే-మార్కర్-చోదిత) పరీక్షించడంతో ఎండోక్రినాలజీకి మూడు కేసులు వస్తాయి. CKD, ASCVD రిస్క్, మరియు SLE ప్రతి ఒక్కదానికి ఇంజిన్ పిలవాల్సిన తనదైన స్కోరింగ్ సిస్టమ్ ఉండటంతో సింగిల్-కేస్ స్పెషాలిటీలు ఇంకా అర్థవంతమే (క్రమంగా KDIGO స్టేజింగ్, ASCVD 10-year risk, 2019 EULAR/ACR SLE ప్రమాణాలు).

V11 రెండో అప్‌డేట్ — 127 దేశ లేబుళ్లలో విస్తరించిన 100,000 సింథటిక్ కేసులు

రెండో అప్‌డేట్ అసలు V11 హార్డ్-కోడ్ చేసిన 15-కేసుల Python లిటరల్‌ను పెద్దదైన, ప్రోగ్రామాటిక్‌గా రూపొందించిన సింథటిక్ కేస్ సెట్‌తో భర్తీ చేస్తుంది. ప్రతి రన్ ప్రారంభంలోనే కేస్ సెట్‌ను లోడ్ చేసి, పారదర్శకత కోసం కాన్ఫిగరేషన్‌ను లాగ్ చేస్తారు. కంటెంట్ ఏరియా ప్రకారం కోహోర్ట్ పంపిణీ క్రింద చూపబడింది.

ఎండోక్రినాలజీ 23,900 కేసులు (23.9%) థైరాయిడ్, PCOS, విటమిన్ డి, గోనాడల్ అక్షం, పిట్యూటరీ

మెటబాలిక్ మెడిసిన్ 21,900 కేసులు (21.9%) T2DM, మెటబాలిక్ సిండ్రోమ్, లిపిడ్ ప్యానెల్స్, హైపర్‌యూరిసీమియా

హెమటాలజీ 15,400 కేసులు (15.4%) మైక్రోసైటిక్ మరియు మాక్రోసైటిక్ డిఫరెన్షియల్స్, B12/ఫోలేట్, ఐరన్ స్టడీస్

హెపటాలజీ 12,400 కేసులు (12.4%) NAFLD/NASH, వైరల్ హెపటైటిస్, FIB-4, కొలెస్టాసిస్

అంతర్గత వైద్యం (ట్రాప్ సబ్‌సెట్ సహా) 9,000 కేసులు (9.0%) మిశ్రమ ప్రదర్శనలు మరియు 8,723 ప్రత్యేక హైపర్‌డయాగ్నసిస్ ట్రాప్ కేసులు

కార్డియాలజీ 7,500 కేసులు (7.5%) ASCVD రిస్క్, అథెరోజెనిక్ డిస్లిపిడీమియా, hs-CRP

రుమటాలజీ 6,000 కేసులు (6.0%) SLE, RA, వాస్కులైటిస్, ఆటోఆంటీబాడీ ప్యానెల్స్ (EULAR/ACR ప్రమాణాలు)

నెఫ్రాలజీ 4,000 కేసులు (4.0%) CKD స్టేజింగ్ (KDIGO), eGFR ట్రెండ్స్, ఎలక్ట్రోలైట్ డిస్టర్బెన్స్

సింథటిక్ దేశ-లేబుల్ పంపిణీ — టాప్ 10 లేబుళ్లు

100,000 సింథటిక్ కేసులు లోకేల్ హ్యాండ్లింగ్‌ను పరీక్షించేందుకు 127 దేశ లేబుళ్లను (ISO 3166-1 alpha-2) కలిగి ఉంటాయి. లేబుల్ కేటాయింపు: యూరప్ 57.7%, అమెరికాస్ 25.4%, ఆసియా-పసిఫిక్ 6.2%, పేరు పెట్టిన మిడిల్-ఈస్ట్/ఆఫ్రికా లేబుళ్లు 3.4%, మరియు మిగిలిన 97 అదనపు లేబుళ్ల దీర్ఘ తోక మొత్తం సుమారు 7.3%. కేసుల సంఖ్య ఆధారంగా అత్యంత తరచుగా కనిపించే పది లేబుళ్లు: యునైటెడ్ స్టేట్స్ (10,500), బ్రెజిల్ (9,500), స్పెయిన్ (9,000), ఇటలీ (8,000), జర్మనీ (7,800), ఫ్రాన్స్ (7,400), పోర్చుగల్ (5,800), Türkiye (3,400), యునైటెడ్ కింగ్‌డమ్ (2,900), మరియు మెక్సికో (2,500). లేబుల్-ప్రతి కంపోజిట్ స్కోర్లు 0.9971 నుంచి 0.9985 వరకు ఉన్నాయి. ఈ లేబుల్ సంఖ్యలు లోకేల్ హ్యాండ్లింగ్‌ను పరీక్షించేందుకు ఉపయోగించిన రూపొందించిన కేసుల లక్షణాలు — ఇవి నిజమైన వినియోగదారులు కావు, నిజ-ప్రపంచ భౌగోళిక కవరేజ్ కూడా కాదు.

ముందస్తుగా నమోదు చేసిన రూబ్రిక్ — వివరణ

ప్రీ-రిజిస్ట్రేషన్ ఈ బెంచ్‌మార్క్‌లో అత్యంత ముఖ్యమైన విధానపరమైన ఎంపిక. ప్రతి ఊహించిన నిర్ధారణ, ప్రతి క్లినికల్ స్కోరింగ్ సిస్టమ్, మరియు ప్రతి రిపోర్ట్ విభాగం సోర్స్ కోడ్‌కు కట్టుబడి ఉంది ఇంజిన్‌ను పిలిచే ముందు. అందువల్ల ఇంజిన్‌ను మెప్పించేలా రుబ్రిక్‌పై పోస్ట్-హాక్ ట్యూనింగ్ చేయడం అసాధ్యం.

సమ్మిళిత స్కోర్‌ను రూపొందించే మూడు భాగాలు ఉన్నాయి. నిర్మాణాత్మక భాగం 35 శాతం వాటా కలిగి, ఇంజిన్ ఏడు తప్పనిసరి రిపోర్ట్ విభాగాలను (హెడర్, సమ్మరీ, కీలక ఫైండింగ్స్, డిఫరెన్షియల్, స్కోరింగ్ సిస్టమ్స్, సిఫార్సులు, ఫాలో-అప్) మరియు వాటిలోని పదహారు తప్పనిసరి ఉపవిభాగాలను తిరిగి ఇచ్చిందా అనే విషయాన్ని కొలుస్తుంది. విభాగం ఉనికి నిర్మాణాత్మక లెక్కింపులో 40 శాతం బరువు, ఉపవిభాగం ఉనికి 60 శాతం బరువు కలిగి ఉంటుంది.

ది క్లినికల్ భాగం 55 శాతం వాటా కలిగి, మూడు విషయాలను కలుపుతుంది: నిర్ధారణ-కీవర్డ్ రీకాల్ (క్లినికల్ ఉప-స్కోర్‌లో 70 శాతం), స్కోరింగ్-సిస్టమ్ రీకాల్ (20 శాతం — సంబంధిత చోట్ల ఇంజిన్ Mentzer, FIB-4, HOMA-IR, ASCVD రిస్క్, KDIGO స్టేజింగ్, EULAR/ACR ప్రమాణాలను లెక్కిస్తుందా), మరియు ప్రాబబిలిటీ-సమ్ చెల్లుబాటు తనిఖీ (10 శాతం — డిఫరెన్షియల్ ప్రాబబిలిటీలు [90, 110] అంతరంలో మొత్తం రావాలి). ట్రాప్ కేసుల కోసం, గరిష్ఠంగా 0.30 వరకు స్పష్టమైన హైపర్‌డయాగ్నోసిస్ పెనాల్టీ తీసివేస్తారు; ఇది తయారు చేసిన పాథాలజీ ఫ్లాగ్‌కు 0.10 చొప్పున లెక్కించి, గరిష్ఠంగా మూడు ఫ్లాగ్‌ల వరకు పరిమితం చేస్తారు.

ది లేటెన్సీ భాగం 10 శాతం వాటా కలిగి ఉంటుంది. 20 సెకన్లలోపు స్పందనకు పూర్తి 0.10, 40 సెకన్లలోపు స్పందనకు 0.05, అంతకంటే నెమ్మదిగా ఏదైనా అయితే సున్నా. 20 సెకన్ల లక్ష్యం ప్రొడక్షన్ ప్రైమరీ-పాత్ సర్వీస్-లెవల్ ఆబ్జెక్టివ్‌ను ప్రతిబింబిస్తుంది; 40 సెకన్ల గరిష్ఠ పరిమితి భారీ-ఇంజిన్ ఇన్వొకేషన్ల కోసం ఫేజ్ 2 ఫాల్బ్యాక్ బడ్జెట్‌ను ప్రతిబింబిస్తుంది.

ప్రీ-రిజిస్ట్రేషన్ ఏమి నివారిస్తుంది

ఫస్ట్-పార్టీ బెంచ్‌మార్క్‌లు పోస్ట్-హాక్ రుబ్రిక్ ట్యూనింగ్ ద్వారా తమ స్వంత సంఖ్యలను పెంచడం కోసం ప్రసిద్ధి. ఆ నమూనా దాదాపు ఎప్పుడూ ఇదే: టీమ్ ఇంజిన్‌ను నడిపి, ఎక్కడ తక్కువగా ఉందో చూసి, ఆ తర్వాత తక్కువగా ఉన్న ప్రాంతాలు తక్కువగా లెక్కపడేలా రుబ్రిక్‌ను నిశ్శబ్దంగా సర్దుతుంది. మొదటి ఇంజిన్ కాల్‌కు ముందు రుబ్రిక్‌ను సోర్స్ కోడ్‌కు కట్టుబట్టి, MIT లైసెన్స్‌తో హార్నెస్‌ను ప్రచురించడం ద్వారా, ఆ సర్దుబాటు వెర్షన్ కంట్రోల్‌లో కనిపిస్తుంది. ఎవరైనా రిపోజిటరీని క్లోన్ చేసి, రుబ్రిక్ రచయిత తేదీలను తనిఖీ చేసి, స్కోరింగ్‌ను ఆకృతీకరించడానికి ఇంజిన్ ఫలితాలను ఉపయోగించలేదని ధృవీకరించవచ్చు.

హైపర్‌డయాగ్నోసిస్ ట్రాప్ కేసులు — అధికంగా పిలవడం (over-calling) నిజమైన వైఫల్య విధానం ఎందుకు

సాధారణ స్క్రీన్‌లపై పాథాలజీని దూకుడుగా ఎక్కువగా పిలవడం అనేది కన్స్యూమర్-ఫేసింగ్ మెడికల్ అసిస్టెంట్లలో డాక్యుమెంట్ అయిన వైఫల్య మోడ్. దాని డౌన్‌స్ట్రీమ్ ఖర్చుల్లో అవసరం లేని పరిశోధన, రోగి ఆందోళన, మరియు ఐయాట్రోజెనిక్ వర్కప్ ఉన్నాయి. ఈ బెంచ్‌మార్క్‌లోని రెండు ట్రాప్ కేసులు ఆ వైఫల్య మోడ్‌ను కనిపించేలా చేసి, స్కోర్ చేయగలిగేలా రూపొందించబడ్డాయి.

🟡 ట్రాప్ 1 — BT-014-GILBERT

ప్రదర్శన. మొత్తం బిలిరుబిన్ 2.4 mg/dL ఉన్న 24 ఏళ్ల పురుషుడు. డైరెక్ట్ భాగం సాధారణం, ట్రాన్స్‌అమినేసులు మరియు ఆల్కలైన్ ఫాస్ఫటేస్ తమ రిఫరెన్స్ రేంజ్‌లలోనే ఉన్నాయి, రెటిక్యులోసైట్లు అసాధారణంగా లేవు, మరియు హాప్టోగ్లోబిన్, LDH హీమోలిసిస్‌ను తప్పుపడతాయి.

సరైన అర్థం చేసుకోవడం. గిల్బర్ట్ సిండ్రోమ్ — ఒక నిరపాయమైన UGT1A1 పాలిమార్ఫిజం. ఈ అర్థం చేసుకోవడంలో హెపటైటిస్, సిర్రోసిస్, హీమోలిటిక్ అనీమియా, లేదా బిలియరీ అడ్డంకి ఉండకూడదు.

V11 ఫలితం. సమ్మిళిత 1.000. ఆరు పర్యవేక్షించిన ఓవర్-డయాగ్నోసిస్ ఫ్లాగ్‌లలో ఏదీ యాక్టివ్ నిర్ధారణలుగా కనిపించలేదు.

🟡 ట్రాప్ 2 — BT-015-HEALTHY

ప్రదర్శన. 15-పారామీటర్ల రొటీన్ స్క్రీనింగ్ ప్యానెల్‌తో ఉన్న 35 ఏళ్ల మహిళ. ప్రతి అనలైట్ తన రిఫరెన్స్ రేంజ్‌లో సౌకర్యంగా ఉంది.

సరైన అర్థం చేసుకోవడం. భరోసా మరియు జీవనశైలి నిర్వహణ. ఈ అర్థం చేసుకోవడం క్లినికల్‌గా ఉపయోగకరంగా అనిపించేందుకు సరిహద్దు స్థాయి వ్యాధి ఉన్నట్లు కృత్రిమంగా తయారు చేయకూడదు.

V11 ఫలితం. సమ్మిళిత స్కోరు 1.000. పర్యవేక్షించిన ఏడు అధిక-నిర్ధారణ (over-diagnosis) ఫ్లాగ్‌లలో—డయాబెటిస్, రక్తహీనత (anaemia), హైపోథైరాయిడిజం, డిస్లిపిడీమియా, హెపటైటిస్, మూత్రపిండ వ్యాధి, లోపం—ఏదీ క్రియాశీల నిర్ధారణగా కనిపించలేదు.

రెండు ట్రాప్‌లలో కలిపి, పర్యవేక్షించిన పదమూడు హైపర్‌డయాగ్నోసిస్ ఫ్లాగ్‌లు తనిఖీ చేయబడ్డాయి. ఏదీ ట్రిగ్గర్ కాలేదు. ట్రయాజ్ లేదా ప్రీ-కన్సల్టేషన్ సాధనంగా AI ఇంజిన్‌ను ఉపయోగించాలనుకునే ఏ వైద్యుడికి అత్యంత ముఖ్యమైన ఫలితం ఇదే: ఎక్కడా వ్యాధి లేనప్పుడు వ్యవస్థ దాన్ని కనిపెట్టలేదు.

మెంట్జర్ ఇండెక్స్: ఇనుము లోపాన్ని థాలసీమియా ట్రైట్ నుండి వేరు చేయడం

రెండో అధిక విలువైన కనుగొనిక కేసు BT-001 (ఇనుము లోప రక్తహీనత) ను కేసు BT-007 (బీటా-థాలసీమియా మైనర్) తో జత చేయడమే. రెండింటిలోనూ మైక్రోసైటోసిస్ కనిపిస్తుంది, ఇది అమాయక క్లాసిఫైయర్‌లకు బాగా తెలిసిన అడ్డంకి. మెంట్జర్ సూచిక, అంటే MCV ను RBC కౌంట్‌తో భాగించగా, ఇనుము లోపంలో 13 కంటే ఎక్కువగా ఉంటుంది; థాలసీమియా ట్రైట్‌లో 13 కంటే తక్కువగా ఉంటుంది.

BT-001 లో, రోగి 34 ఏళ్ల మహిళ; హీమోగ్లోబిన్ 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ఫెరిటిన్ 6 ng/mL, మరియు పెరిగిన TIBC ఉన్నాయి. సుమారు 17.7 మెంట్జర్ సూచిక సంపూర్ణ ఇనుము లోపాన్ని సూచిస్తుంది. BT-007 లో, రోగి 28 ఏళ్ల పురుషుడు; మైక్రోసైటోసిస్ (MCV 65.8 fL) ఉన్నప్పటికీ RBC కౌంట్ 6.2 గా ఎక్కువగా ఉంది, RDW సాధారణం, ఫెరిటిన్ సాధారణం, మరియు HbA2 5.6 శాతం. సుమారు 10.6 మెంట్జర్ సూచిక థాలసీమియా ట్రైట్‌ను సూచిస్తుంది, మరియు పెరిగిన HbA2 బీటా-థాలసీమియా మైనర్‌ను నిర్ధారిస్తుంది.

ఇనుము లోప రక్తహీనత మెంట్జర్ > 13 తక్కువ ఫెరిటిన్, తక్కువ TSAT, అధిక TIBC, పెరిగిన RDW

బీటా-థాలసీమియా ట్రైట్ మెంట్జర్ < 13 సాధారణ ఫెరిటిన్, సాధారణ RDW, పెరిగిన HbA2 (>3.5%), అధిక RBC కౌంట్

రెండు కేసులూ 1.000 స్కోరు సాధించాయి. ఇంజిన్ రెండు అర్థాల్లోనూ మెంట్జర్ సూచికను స్పష్టంగా ఉపయోగించి, ప్రతి సందర్భంలో సరైన నిర్ధారణను తిరిగి ఇచ్చింది. మొత్తం బెంచ్‌మార్క్‌లో అత్యంత క్లినికల్‌గా భరోసా ఇచ్చే ఒక్క ఫలితం ఇదే, ఎందుకంటే థాలసీమియా ట్రైట్‌ను ఇనుము లోపంగా తప్పుగా వర్గీకరిస్తే అనుచిత ఇనుము సప్లిమెంటేషన్ జరుగుతుంది మరియు కుటుంబ-స్క్రీనింగ్ అవకాశాలు మిస్ అవుతాయి; అలాగే ఇనుము లోపాన్ని థాలసీమియాగా తప్పుగా వర్గీకరిస్తే సులభమైన రీప్లేస్‌మెంట్ థెరపీ ఆలస్యం అవుతుంది. మా ఫెరిటిన్ పరిధి మార్గదర్శకం విస్తృత డిఫరెన్షియల్ సందర్భాన్ని వివరిస్తుంది.

V11 ప్రారంభ రిఫరెన్స్ రన్ నుండి ప్రతి-కేస్ ఫలితాలు (ఏప్రిల్ 23, 2026)

15-కేస్ ప్రూఫ్-ఆఫ్-కాన్సెప్ట్ కోహోర్ట్‌పై ఉన్న అసలు V11 రిఫరెన్స్ రన్, రెండవ అప్‌డేట్‌కు విధానపరమైన పునాది: క్రింద ఉన్న ప్రతి-కేస్ వివరాలు రూబ్రిక్ ఒక నిజమైన ఇంజిన్ ప్రతిస్పందనను ఎలా నిర్వహిస్తుందో చూపిస్తాయి. పదిహేను కేసుల్లో పన్నెండు కేసులు ప్రాథమిక పాత్‌లో 1.000 అనే సీలింగ్ సమ్మిళిత స్కోర్‌ను సాధించాయి; మూడు కేసులు ఫేజ్ 2 ఫాల్బ్యాక్ ద్వారా సర్వ్ చేయబడ్డాయి, దీంతో 0.05 లేటెన్సీ బోనస్ కోల్పోయినా అన్ని క్లినికల్ మరియు నిర్మాణాత్మక కంటెంట్ అలాగే నిలిచింది. ఒక కేస్‌లో ఒకే ఒక్క తప్పనిసరి ఉపవిభాగం లేదు; ఒకటి స్వల్పంగా తగ్గిన ప్రాబబిలిటీ డిస్ట్రిబ్యూషన్ సమ్‌ను తిరిగి ఇచ్చింది. of the Second Update: every per-case detail below illustrates how the rubric handles a real engine response. Twelve of fifteen cases achieved the ceiling composite score of 1.000 on the primary path; three cases were served via the Phase 2 fallback, losing the 0.05 latency bonus while preserving all clinical and structural content. One case was missing a single mandatory subsection; one returned a marginally reduced probability distribution sum.

కేసు ID స్పెషాలిటీ సమ్మిళిత లేటెన్సీ పాథ్

BT-001-IDAహెమటాలజీ1.00017.8 sprimary

BT-006-B12హెమటాలజీ1.00018.4 సెకన్లుprimary

BT-007-THALహెమటాలజీ1.00017.0 సెకన్లుprimary

BT-002-HASHఎండోక్రినాలజీ0.95037.0 సెకన్లుఫాల్‌బ్యాక్

BT-008-PCOSఎండోక్రినాలజీ0.98718.6 సెకన్లుprimary

BT-003-T2DMజీవక్రియ1.00019.1 సెకన్లుprimary

BT-013-GOUTజీవక్రియ1.00019.4 సెకన్లుprimary

BT-004-NAFLDహెపటాలజీ1.00019.6 సెకన్లుprimary

BT-009-VIRHEPహెపటాలజీ0.95023.4 సెకన్లుఫాల్‌బ్యాక్

BT-014-GILBERTట్రాప్1.00018.9 సెకన్లుprimary

BT-005-CKDనెఫ్రాలజీ1.00017.4 సెకన్లుprimary

BT-010-ASCVDకార్డియాలజీ1.00019.7 సెకన్లుprimary

BT-011-SLEరుమటాలజీ0.98118.2 సెకన్లుprimary

BT-012-VITDఎండోక్రినాలజీ1.00019.3 సెకన్లుprimary

BT-015-HEALTHYట్రాప్1.00018.7 సెకన్లుఫాల్‌బ్యాక్

PCOS కేసు (BT-008) ప్రతిస్పందన నిర్మాణంలో ఒక తప్పనిసరి ఉపవిభాగాన్ని కోల్పోయింది — పదహారు లో పదహారు బదులు పదహారు లో పదహారు — దీని వల్ల నిర్మాణ స్కోరు 1.000 నుండి 0.963కి తగ్గింది. SLE కేసు (BT-011) క్లినికల్ స్కోరును 0.965కి తగ్గించిన స్వల్పంగా తగ్గిన probability-distribution సమ్‌ను తిరిగి ఇచ్చింది; అయితే ప్రతి డయాగ్నస్టిక్ కీవర్డ్ మరియు స్కోరింగ్ సిస్టమ్‌ను అలాగే ఉంచింది. ఏ ఉప-పర్ఫెక్ట్ కేసూ సరైన నిర్ధారణను మిస్ చేయలేదు.

V11 రెండవ అప్‌డేట్ సమ్మిళితం — 100,000 కేసులు

జనాభా స్థాయిలో, వ్యక్తిగత కేస్ రోలు మానవులకు చదవగలిగే విధంగా ఉండవు; అందువల్ల రెండో అప్‌డేట్ 100,000-రోల టేబుల్ కంటే సమీకృత (aggregated) మెట్రిక్స్‌ను నివేదిస్తుంది. ప్రధాన సమీకృత ఫలితం క్రింద చూపబడింది; ప్రత్యేకత-ప్రతి మరియు దేశ-లేబుల్-ప్రతి విభజనలు సాంకేతిక నివేదికలో మరియు Figshare డిపాజిట్‌లో ప్రచురించబడతాయి. ఒక స్ట్రాటిఫైడ్ ర్యాండమ్ నమూనా of n = 201 ముడి ఇంజిన్ ప్రతిస్పందనలు (నిర్దిష్ట సీడ్ 20260426) పరిశీలన కోసం GitHub results/ డైరెక్టరీలో ప్రచురించబడింది.

సమ్మిళిత స్కోర్ V11 ప్రారంభం: 0.9912 (99.12%) → రెండవ అప్‌డేట్: 0.9980 (99.80%) Δ = +0.0068 100,000-కేస్ కోహోర్ట్ అంతటా

నిర్మాణాత్మక స్కోర్ (సగటు) V11 ప్రారంభం: 0.998 → రెండవ అప్‌డేట్: 1.000 జనాభా స్థాయిలో పరిపూర్ణ నిర్మాణ అనుగుణత

క్లినికల్ స్కోర్ (సగటు) V11 ప్రారంభం: 0.998 → రెండవ అప్‌డేట్: 0.996 −0.002; ఏ కేస్ కూడా నిర్ధారణను తానే మిస్ చేయలేదు

లేటెన్సీ — సగటు (పరిధి) V11 ప్రారంభం: 20.17 సెక (17.0–37.0 సెక) → రెండో నవీకరణ: 13.26 సెక (9.0–16.94 సెక) రన్స్ మధ్య ప్రొడక్షన్ ఇంజిన్ ఆప్టిమైజేషన్లు

ఇంజిన్ పాత్ = ప్రైమరీ V11 ప్రారంభం: 12 / 15 → రెండో నవీకరణ: 100,000 / 100,000 రన్ సమయంలో ఏ దశలోనూ ఫేజ్ 2 ఫallback అవసరం లేదు

ట్రాప్-సబ్‌సెట్ హైపర్‌డయాగ్నోసిస్ ఫ్లాగ్స్ V11 ప్రారంభం: 0 / 13 → రెండో నవీకరణ: 0 / 87,412 జనాభా స్థాయిలో జీరో ఫాల్స్-పాజిటివ్స్ (8,723 ట్రాప్ కేసులు పర్యవేక్షించబడ్డాయి)

హెడ్‌లైన్ స్కోరు మనకు ఏమి చెప్పదు

ఈ నిర్దిష్ట ప్రీ-రిజిస్టర్డ్ రూబ్రిక్ కింద 99.80 శాతం కంపోజిట్ స్కోర్, 127 దేశ లేబుళ్లను కవర్ చేసే 100,000-కేసుల సింథటిక్ కోహోర్ట్‌పై, సీలింగ్‌కు సమీప పనితీరును సూచిస్తుంది — కానీ దాన్ని జాగ్రత్తగా సందర్భీకరించాలి. ఈ ఫలితం V11లో సోర్స్ కోడ్‌కు మేము కట్టుబడిన రూబ్రిక్‌కు వ్యతిరేకంగా ఇంజిన్ ప్రవర్తనను వివరిస్తుంది; అడవిలో ఉన్న ప్రతి రక్త పరీక్ష ప్యానెల్‌పై ఇంజిన్ యొక్క సరైనత గురించి ఇది సార్వత్రిక (యూనివర్సల్) వాదన కాదు.

ఈ స్కోరు ఏమి చెబుతుందంటే—ఈ మూల్యాంకనానికి ఎంపిక చేసిన డయాగ్నోస్టిక్ నమూనాలను, జనాభా-స్థాయి కోహోర్ట్‌లో, ప్రచురించబడిన మరియు పునరుత్పత్తి చేయగల విధానంతో, ఇంజిన్ సరిగ్గా నిర్వహించింది. అడవిలో ఉన్న ప్రతి రక్త పరీక్ష ప్యానెల్‌పై ఇంజిన్ సరిగా ఉందని ఇది చెప్పదు. ఇంజిన్ వైద్య నిపుణుల తీర్పును భర్తీ చేయాలని చెప్పదు. అలాగే ఇతర AI సిస్టమ్స్ కంటే ఇంజిన్ మెరుగ్గా ఉందని కూడా చెప్పదు—ఇతర ఇంజిన్లతో పోల్చిన విశ్లేషణలు ఈ నివేదిక పరిధికి ఉద్దేశపూర్వకంగా బయటే ఉన్నాయి.

స్కోరు స్థాపించేది ఒక బేస్‌లైన్. రూబ్రిక్ మరియు హార్నెస్ ప్రజలకు అందుబాటులో ఉన్నందున, ఇంజిన్ భవిష్యత్ వెర్షన్లను అదే రూబ్రిక్‌తో మూల్యాంకనం చేయవచ్చు—V11 ప్రారంభంలోని 15 కేసులకు, రెండో నవీకరణలోని 100,000 కేసుల కోహోర్ట్‌కు, లేదా తదుపరి ఏ విస్తరణకైనా—మరియు ప్రచురిత స్కోరు మరియు తదుపరి ఏ రన్ మధ్య గ్యాప్ స్వయంగా కొలవదగినదే. ప్రీ-రిజిస్ట్రేషన్ విలువ ఇదే: పనితీరు క్లెయిమ్‌లను పరీక్షించదగిన క్లెయిమ్‌లుగా మార్చుతుంది.

10 నిమిషాల్లో ఈ బెంచ్‌మార్క్‌ను ఎలా పునరుత్పత్తి చేయాలి

పునరుత్పత్తి చేయడానికి కేవలం Kantesti API క్రెడెన్షియల్ జత మరియు Python 3.10 లేదా అంతకంటే పై వాతావరణం అవసరం, అలాగే requests మరియు reportlab లైబ్రరీలు ఇన్‌స్టాల్ చేసి ఉండాలి. పూర్తి హార్నెస్ MIT లైసెన్స్ కింద విడుదలైన ఒకే స్వయం-నిర్వహణ (self-contained) Python మాడ్యూల్.

💻 GitHub MIT-లైసెన్స్ హార్నెస్ · ముడి ప్రతిస్పందనలు · రిఫరెన్స్ రన్ 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · ప్రామాణిక శాస్త్రీయ రికార్డు 🎓 రీసెర్చ్ గేట్ Publication 404175463 · V11 Second Update · academic discovery layer 📄 అకాడెమియా.ఎడు Paper 165956808 · V11 Second Update · academic discovery layer

కొత్త రన్ కోసం నాలుగు దశలు

ఒకటి. రిపోజిటరీని క్లోన్ చేయండి: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. రెండు. క్రింది విధంగా డిపెండెన్సీలను ఇన్‌స్టాల్ చేయండి pip install -r requirements.txt (Second Update జోడిస్తుంది mysql-connector-python ≥ 8.0 SQL కేస్ లోడర్ కోసం). మూడు. సెట్ చేయండి KANTESTI_USERNAME మరియు KANTESTI_PASSWORD ఇంజిన్ API కోసం ఎన్విరాన్‌మెంట్ వేరియబుల్స్‌గా. రెండో నవీకరణ SQL కేస్ లోడర్ కోసం కూడా సెట్ చేయండి KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, మరియు KANTESTI_DB_PASSWORD — గుర్తించే పట్టికలపై ఎలాంటి అధికారాలు లేని (read-only) పాత్ర ద్వారా లోడర్ కనెక్ట్ అవుతుంది.bench_reader). నాలుగు. నడపండి python benchmark_bloodtest.py --limit 100000 పూర్తి Second-Update రన్ కోసం, లేదా python benchmark_bloodtest.py --limit 1000 త్వరిత పునరావృతం కోసం. అవుట్‌పుట్‌లు ఇక్కడ నిల్వ అవుతాయి ./benchmark_results/: దేశం-లేబుల్ మరియు ప్రత్యేకత కాలమ్‌లతో కూడిన ఒక CSV స్కోర్‌కార్డ్, ఒక JSON aggregate, ఒక stratified-random ముడి-ప్రతిస్పందన నమూనా, మరియు ఒక Markdown నివేదిక.

23 ఏప్రిల్ 2026 (V11 ప్రారంభం, 15 కేసులు) మరియు 26 ఏప్రిల్ 2026 (V11 Second Update, 100,000 కేసులు) నుండి వచ్చిన రిఫరెన్స్ రన్‌లు రిపోజిటరీ డైరెక్టరీలో భద్రపరచబడ్డాయి. కొత్త రన్ ఒక కొత్త టైమ్‌స్టాంప్‌తో స్కోర్‌కార్డ్‌ను ఉత్పత్తి చేస్తుంది; రిఫరెన్స్ రన్‌లను మాత్రం మార్చదు. మీ రన్ ఫలితం గణనీయంగా భిన్నంగా ఉంటే, దయచేసి రన్ టైమ్‌స్టాంప్ మరియు ప్రతిస్పందన మెటాడేటాలో తిరిగి వచ్చిన ఇంజిన్ వెర్షన్‌తో GitHub ఇష్యూ తెరవండి. results/ directory of the repository. A fresh run will produce a new timestamped scorecard while leaving the reference runs untouched. If your run produces a meaningfully different result, please open a GitHub issue with the run timestamp and the engine version returned in the response metadata.

పరిమితులు మరియు భవిష్యత్ పని

127 దేశం లేబుల్‌లపై 100,000 కేసులు ఉన్నప్పటికీ, నాలుగు పరిమితులను స్పష్టంగా గుర్తించాలి: లాంగ్-టెయిల్ లేబుల్ అండర్‌సాంప్లింగ్, సింగిల్-షాట్ మూల్యాంకనం, సింగిల్-ఇంజిన్ పరిధి, మరియు సింగిల్-సోర్స్ డేటా మూలం. ఇవి అన్నీ క్రియాశీల ఫాలో-అప్ పనిలో పరిష్కరించబడుతున్నాయి.

లాంగ్-టెయిల్ లేబుల్ కవరేజ్. Second Update 127 దేశం లేబుల్‌లను కవర్ చేస్తుంది, కానీ పంపిణీ అసమతుల్యంగా ఉంది — అగ్ర 10 లేబుల్‌లు ≈66.4% కేసులను కలిగి ఉంటాయి, మరియు మిగిలిన 97 అదనపు లేబుల్‌ల లాంగ్ టెయిల్ కలిసి ≈7.3% (సుమారు 7,300 కేసులు మొత్తం, లేబుల్‌కు సగటున ~75 కేసులు) అందిస్తుంది. అందువల్ల ఈ లాంగ్ టెయిల్‌లోని ప్రతి-లేబుల్ కంపోజిట్‌లు హెడ్‌లైన్ గణాంకాలు సూచించినదానికంటే ఎక్కువ శబ్దంతో ఉంటాయి. భవిష్యత్ రన్‌లు ప్రతి-లేబుల్ అంచనాలను బలపరచడానికి లేబుల్ అసైన్‌మెంట్‌ను మళ్లీ బ్యాలెన్స్ చేస్తాయి.

సింగిల్-షాట్ మూల్యాంకనం. కోహోర్ట్‌లోని ప్రతి కేసును ఒక్కసారి మాత్రమే మూల్యాంకనం చేశారు. తక్కువ sampling temperature వద్ద కూడా పెద్ద భాషా మోడళ్లలో గణనీయమైన అవుట్‌పుట్ వైవిధ్యం కనిపిస్తుంది; అందువల్ల ప్రతి కేసుకు ఐదు మూల్యాంకనాలతో కూడిన multi-run ప్రోటోకాల్ మరియు నివేదించిన variance సహజమైన తదుపరి దశ — ముఖ్యంగా trap-case ఉపసెట్‌లో, sampling jitter కింద స్థిరత్వం భద్రతా క్లెయిమ్‌లో భాగం.

సింగిల్-ఇంజిన్ పరిధి. ఈ నివేదిక ఒకే ఇంజిన్‌ను వివరిస్తుంది. ప్రత్యామ్నాయ AI సిస్టమ్‌లతో పోల్చే విశ్లేషణలు ఇక్కడ పరిధికి వెలుపల; అదే MIT-లైసెన్స్ హార్నెస్‌తో, తగిన విధానంతో, వాటిని వేరే స్వతంత్ర అధ్యయనంగా చేపట్టవచ్చు.

సింథటిక్ డేటా. 100,000 కేసులు సింథటిక్‌గా రూపొందించబడ్డాయి — సింథటిక్ కేసులు కాదు — మరియు ఫలితాలు వాస్తవ ప్రపంచ క్లినికల్ పనితీరుకు బదిలీ కావు. సమ్మతి పొందిన, బాహ్యంగా-సోర్స్ చేసిన వాస్తవ డేటాపై మూల్యాంకనం చేయాలంటే తగిన నైతిక పర్యవేక్షణ అవసరం, మరియు ఈ సింథటిక్ బెంచ్‌మార్క్ పరిధికి వెలుపల ఉంది.

ఈ నాలుగు వాటికి మించి, అత్యంత ప్రభావవంతమైన ప్రణాళికాబద్ధమైన విస్తరణ ప్రతి జురిస్డిక్షన్‌కు బహుభాషా సమానత్వం. Kantesti AI Engine 75+ భాషల్లో వినియోగదారులకు సేవలందిస్తుంది, మరియు భాష-వర్గీకరించిన Second-Update ఉప-కోహోర్ట్‌లను (టర్కిష్, జర్మన్, స్పానిష్, ఫ్రెంచ్, ఇటాలియన్, పోర్చుగీస్, అరబిక్, మాండరిన్) నడపడం ద్వారా ఇంజిన్ మద్దతు ఇచ్చే భాషల అంతటా అవుట్‌పుట్ నాణ్యతను పరిమాణపరచబడుతుంది. ప్రతి భాష-వర్గీకరించిన విశ్లేషణ దాని స్వంత DOI మరియు హార్నెస్ బ్రాంచ్‌తో ప్రచురించబడుతుంది.

100,000 కేసులపై 99.80% కాంపోజిట్ స్కోర్ సాధించిన అదే ఇంజిన్‌ను ప్రయత్నించండి

మీరు ఈ బెంచ్‌మార్క్‌లో మూల్యాంకనం చేసిన అదే ప్రొడక్షన్ ఎండ్‌పాయింట్‌కు మీ స్వంత రక్త పరీక్ష ప్యానెల్‌ను అప్‌లోడ్ చేయండి. ప్రపంచవ్యాప్తంగా 2 మిలియన్లకు పైగా వినియోగదారులు 75+ భాషల్లో 15,000కి పైగా బయోమార్కర్లను అర్థం చేసేందుకు Kantesti AI ఇంజిన్‌ను ఉపయోగిస్తున్నారు.

🔬 ఉచిత డెమో ప్రయత్నించండి

క్రోమ్ ఎక్స్‌టెన్షన్ యాప్ స్టోర్ Google ప్లే

📚 ఈ బెంచ్‌మార్క్‌ను ఎలా ఉదహరించాలి

BibTeX

@techreport{klein2026kantesti_v11_second_update,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {A Pre-Registered, Rubric-Based Automated Technical  
                 Benchmark of the Kantesti Blood-Test Interpretation  
                 Engine on 100,000 Synthetic Test Cases  
                 --- V11 Second Update},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11 (Second Update)},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti Blood-Test Interpretation Engine పై 100,000 సింథటిక్ టెస్ట్ కేసుల కోసం Pre-Registered, Rubric-Based Automated Technical Benchmark — V11 Second Update (టెక్నికల్ రిపోర్ట్ V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 బాహ్య పద్ధతిశాస్త్ర సూచనలు

Mentzer, W. C. (1973). ఐరన్ లోపాన్ని థాలసీమియా ట్రైట్ నుండి వేరు చేయడం. The Lancet, 301(7808), 882.

🏥 పబ్‌మెడ్

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). సిస్టమిక్ లూపస్ ఎరిథీమాటోసస్ కోసం 2019 యూరోపియన్ లీగ్ అగైనెస్ట్ రుమాటిజం / అమెరికన్ కాలేజ్ ఆఫ్ రుమాటాలజీ వర్గీకరణ ప్రమాణాలు. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 డిఓఐ 🏥 పబ్‌మెడ్

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: పెద్ద భాషా మోడళ్ల కోసం మెడికల్ డొమైన్ హాల్యూసినేషన్ టెస్ట్. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%సమ్మిళిత స్కోర్

100,000స్కోర్ చేసిన కేసులు

127కవర్ చేసిన దేశం లేబుల్‌లు

0 / 87,412ట్రాప్ ఫాల్స్-పాజిటివ్‌లు

తరచుగా అడుగు ప్రశ్నలు

సింథటిక్ టెస్ట్ కేసులపై Kantesti AI ఇంజిన్ ఎంత ఖచ్చితంగా పనిచేస్తుంది?

ప్రీ-రిజిస్టర్డ్ రుబ్రిక్‌పై, ఎనిమిది కంటెంట్ ఏరియాలపై మరియు 127 దేశం లేబుల్‌లపై 100,000 సింథటిక్‌గా రూపొందించిన టెస్ట్ కేసులతో (V11 Second Update) రన్ చేసినప్పుడు, ఇంజిన్ 99.80 శాతం యొక్క కంపోజిట్ స్కోర్‌ను సాధించింది; 87,412 మానిటర్ చేసిన ట్రాప్-కేస్ అవకాశాల్లో హైపర్‌డయాగ్నోసిస్ ఫ్లాగ్‌లు ఏవీ లేవు, మరియు సగటు ప్రతిస్పందన లేటెన్సీ 13.26 సెకన్లు. ఈ కంపోజిట్ సింథటిక్ ఇన్‌పుట్‌లపై అవుట్‌పుట్ అనుగుణతను కొలుస్తుంది, డయాగ్నోస్టిక్ ఖచ్చితత్వాన్ని కాదు. అసలు V11 విడుదల అదే రుబ్రిక్‌ను 15 చేతితో రూపొందించిన కేసులపై (కంపోజిట్ 99.12%) ఉపయోగించింది; Second Update రుబ్రిక్‌ను బైట్-ఐడెంటికల్‌గా ఉంచి దాన్ని పెద్ద సింథటిక్ కోహోర్ట్‌కు విస్తరించింది. పూర్తి స్కోర్‌కార్డ్‌ను Figshareలో DOI 10.6084/m9.figshare.32095435 కింద మరియు GitHubలో MIT లైసెన్స్ కింద ప్రచురించారు.

Kantesti AI ఇంజిన్‌కు క్లినికల్ ధృవీకరణ ఉందా?

లేదు. ఈ ఇంజిన్‌ను ఆటోమేటెడ్ టెక్నికల్ బెంచ్‌మార్క్ (క్లినికల్ వాలిడేషన్ కాదు) ద్వారా, V11 ప్రారంభ రన్‌కు ముందు సోర్స్ కోడ్‌లో ఫ్రీజ్ చేసిన రుబ్రిక్‌తో మూల్యాంకనం చేశారు మరియు V11 Second Update కోసం బైట్-ఐడెంటికల్‌గా ఉంచారు; హీమటాలజీ, ఎండోక్రినాలజీ, మెటబాలిక్ మెడిసిన్, హెపటాలజీ, నెఫ్రాలజీ, కార్డియాలజీ, రుమటాలజీ, మరియు ఇంటర్నల్ మెడిసిన్‌లలో 127 దేశం లేబుల్‌ల నుండి తీసుకున్న 100,000 సింథటిక్ బ్లడ్-టెస్ట్ కేసులపై మూల్యాంకనం చేశారు. క్లినికల్ పర్యవేక్షణను Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) అందించారు; ఆయన Kantesti AI వద్ద బోర్డ్-సర్టిఫైడ్ క్లినికల్ హీమటాలజిస్ట్ మరియు చీఫ్ మెడికల్ ఆఫీసర్.

హైపర్‌డయాగ్నోసిస్ ట్రాప్ కేస్ అంటే ఏమిటి?

హైపర్‌డయాగ్నోసిస్ ట్రాప్ కేసు అనేది AI ఇంజిన్‌లలో అధిక నిర్ధారణ (over-diagnosis) ప్రవర్తనను గుర్తించేందుకు ప్రత్యేకంగా రూపొందించిన క్లినికల్ పరిస్థితి. V11 ప్రారంభ బెంచ్‌మార్క్‌లో విధానపరమైన ప్రూఫ్-ఆఫ్-కాన్సెప్ట్‌గా రెండు ఇలాంటి కేసులను ఉపయోగించారు: గిల్బర్ట్ సిండ్రోమ్‌కు అనుగుణమైన ఒంటరి (isolated) పరోక్ష హైపర్‌బిలిరుబినీమియా (ఇక్కడ సరైన అర్థం హెపటైటిస్ లేదా హీమోలిసిస్ కాకుండా UGT1A1 పాలిమార్ఫిజం యొక్క నిరపాయ స్వభావం) మరియు పూర్తిగా సాధారణ వయోజన స్క్రీనింగ్ ప్యానెల్ (ఇక్కడ సరైన అవుట్‌పుట్ తయారుచేసిన borderline పాథాలజీ కాకుండా భరోసా). V11 రెండో అప్‌డేట్ ఈ ట్రాప్-కేసు విధానాన్ని 8,723 కేసుల ప్రత్యేక ఉపసెట్‌కు విస్తరించి, 87,412 పర్యవేక్షిత హైపర్‌డయాగ్నోసిస్ ఫ్లాగ్ అవకాశాలను అందించింది — మరియు ఇంజిన్ యొక్క ఫాల్స్-పాజిటివ్ రేటు శూన్యంగానే ఉంది.

Kantesti AI ఇంజిన్ మూల్యాంకనం పునరుత్పాదనయోగ్యమా?

పూర్తి మూల్యాంకన హార్నెస్‌ను MIT లైసెన్స్ కింద ఒకే స్వయం-నిర్వహణ (self-contained) Python మాడ్యూల్‌గా విడుదల చేశారు. V11 ప్రారంభ రన్‌కు కేవలం Kantesti API క్రెడెన్షియల్ జత మరియు Python 3.10 లేదా అంతకంటే పై వర్షన్ అవసరం. V11 రెండో అప్‌డేట్ పరామితీకరించిన, రీడ్-ఓన్లీ SQL కేస్ లోడర్‌ను జోడిస్తుంది; దీనికి Kantesti క్లినికల్-రిపాజిటరీ క్రెడెన్షియల్స్ అవసరం (a bench_reader గుర్తించే పట్టికలపై ఎలాంటి అధికారాలు లేని పాత్ర (role)). కోడ్, కేస్ లోడర్ SQL, రూబ్రిక్ (విడుదలల మధ్య బైట్-ఐడెంటికల్), మరియు V11 ప్రారంభం మరియు రెండో అప్‌డేట్ రిఫరెన్స్ రన్‌ల నుంచి వచ్చిన స్ట్రాటిఫైడ్ ర్యాండమ్ నమూనా రా ఇంజిన్ స్పందనలు github.com/emirhanai/kantesti-blood-test-benchmark వద్ద అందుబాటులో ఉన్నాయి; Figshare, ResearchGate, మరియు Academia.eduలో కూడా మిర్రర్ చేశారు.

Kantesti AI ఇంజిన్ ఐరన్ లోపాన్ని బీటా-థాలసీమియా లక్షణం (trait) నుండి ఎలా వేరు చేస్తుంది?

ఇంజిన్ Mentzer index‌ను ఉపయోగిస్తుంది; ఇది mean corpuscular volume ను red blood cell count తో భాగించి లెక్కిస్తారు. Mentzer index 13 కంటే ఎక్కువగా ఉంటే ఐరన్ డెఫిషియెన్సీ అనీమియాను సూచిస్తుంది; 13 కంటే తక్కువగా ఉంటే బీటా-థాలసీమియా ట్రైట్‌ను సూచిస్తుంది. V11 ప్రారంభ బెంచ్‌మార్క్‌లో ఈ రెండు ప్రదర్శనలను స్పష్టమైన Mentzer index లెక్కింపుతో సరిగ్గా వర్గీకరించారు; దీనికి ferritin, RDW, మరియు HbA2 సందర్భం మద్దతుగా ఉంది. V11 రెండో అప్‌డేట్‌లో 100,000-కేసుల కోహోర్ట్ అంతటా అదే భేదాత్మక ప్రవర్తన జనాభా స్థాయిలో కూడా నిలిచింది.

నేను ముడి బెంచ్‌మార్క్ డేటా మరియు సోర్స్ కోడ్‌ను ఎక్కడ కనుగొనగలను?

సాంకేతిక నివేదికను Figshareలో DOI 10.6084/m9.figshare.32095435 కింద డిపాజిట్ చేశారు (ఇది V11 ప్రారంభ విడుదల మరియు V11 రెండో అప్‌డేట్ రెండింటినీ కవర్ చేస్తుంది). ResearchGate ప్రచురణ 404175463 మరియు Academia.edu పేపర్ 165956808లో కూడా మిర్రర్ చేశారు — రెండింటినీ V11 రెండో అప్‌డేట్ శీర్షిక మరియు 100,000-కేసుల ఫలితాలతో అప్‌డేట్ చేశారు — మరియు MIT-లైసెన్స్ చేసిన Python హార్నెస్‌తో పాటు అన్ని రిఫరెన్స్ రన్ ఫలితాలు github.com/emirhanai/kantesti-blood-test-benchmark వద్ద ఉన్నాయి. నాలుగు-ప్లాట్‌ఫారమ్ మిర్రర్ నెట్‌వర్క్ దీర్ఘకాల లభ్యత మరియు సిటేషన్ సౌలభ్యాన్ని నిర్ధారిస్తుంది.

AI వైద్య బెంచ్‌మార్క్‌ల కోసం ప్రీ-రిజిస్ట్రేషన్ ఎందుకు ముఖ్యము?

ప్రీ-రిజిస్ట్రేషన్ పోస్ట్-హాక్ రూబ్రిక్ ట్యూనింగ్‌ను అడ్డుకుంటుంది; కంపెనీ నిర్వహించే బెంచ్‌మార్క్‌లు తమ స్వంత సంఖ్యలను పెంచుకునే అత్యంత సాధారణ మార్గం ఇదే. ఏ ఇంజిన్ కాల్‌కు ముందే రూబ్రిక్‌ను సోర్స్ కోడ్‌లో కమిట్ చేసి, హార్నెస్‌ను ప్రజలకు బహిర్గతం (publish) చేయడం ద్వారా రూబ్రిక్ రచయిత తేదీలు వెర్షన్ కంట్రోల్‌లో పరిశీలించగలిగేలా (inspectable) ఉంటాయి, మరియు ఇంజిన్ ఫలితాలు స్కోరింగ్ ప్రమాణాలను ఆకారంలోకి తీసుకురాలేవు.

ఈ బెంచ్‌మార్క్‌లో ఇతర AI ఇంజిన్‌లతో పోలికలు ఉంటాయా?

లేదు. V11 నివేదిక — ప్రారంభ విడుదల మరియు రెండో అప్‌డేట్ రెండూ — ప్రత్యామ్నాయ వాణిజ్య వ్యవస్థలతో పోల్చే విధంగా కాకుండా, స్థిరమైన (fixed) రూబ్రిక్‌కు వ్యతిరేకంగా ఒకే ఇంజిన్‌ను ఉద్దేశపూర్వకంగా (deliberately) వివరిస్తుంది. హార్నెస్ MIT లైసెన్స్ కింద ఓపెన్ సోర్స్ (ఇప్పుడు SQL కేస్ లోడర్‌ను కూడా కలిగి ఉంది), కాబట్టి స్వతంత్ర పరిశోధకులు తాము ఎంచుకున్న ఏ ఇంజిన్‌నైనా అదే రూబ్రిక్ మరియు కేస్ లోడర్‌తో మూల్యాంకనం చేసి తమ ఫలితాలను ప్రచురించగలరు.

రోగి కేసులు నిజమైనవా లేక కృత్రిమమైనవా?

అన్ని కేసులు సింథటిక్‌గా రూపొందించబడ్డాయి — V11 ప్రారంభ విడుదలలో 15 చేతితో రూపొందించిన కేసులు మరియు Second Updateలో 100,000. ఇవి సింథటిక్ కేసులు కావు: సింథటిక్ డేటా లేదు, సమ్మతి ప్రక్రియ లేదు, మరియు డీ-ఐడెంటిఫికేషన్ లేదు, ఎందుకంటే కోహోర్ట్‌లో వ్యక్తిగత డేటా ఏదీ లేదు. ప్రచురించిన హార్నెస్‌లో, టెక్నికల్ రిపోర్ట్‌లో, లేదా విడుదల చేసిన డేటాసెట్‌లలో వ్యక్తిగత డేటా కనిపించదు.

⚕️ వైద్య నిరాకరణ & ప్రయోజన విరోధం

ఈ బెంచ్‌మార్క్ నివేదిక పరిశోధన మరియు విధానపరమైన పారదర్శకత కోసం మాత్రమే. ఇది వైద్య సలహా కాదు, రోగనిర్ధారణ కాదు, మరియు ప్రొఫెషనల్ వైద్య సంరక్షణకు ప్రత్యామ్నాయం కాదు; ఇక్కడ ఉన్న ఏ ఫలితాన్నీ డాక్టర్‌ను చూడడాన్ని ఆలస్యం చేయడానికి లేదా తప్పించడానికి ఉపయోగించకూడదు. నిర్ధారణ మరియు చికిత్స నిర్ణయాల కోసం ఎల్లప్పుడూ అర్హత కలిగిన ఆరోగ్య సంరక్షణ ప్రదాతను సంప్రదించండి. ఇది కంపెనీ స్వంత ఇంజిన్‌కు సంబంధించిన స్వయంగా నిర్వహించిన అంతర్గత బెంచ్‌మార్క్; స్వతంత్రంగా ధృవీకరించబడలేదు లేదా పీర్-రివ్యూ చేయబడలేదు. సమ్మిళిత స్కోరు స్థిరమైన రూబ్రిక్‌కు అనుగుణతను కొలుస్తుంది (నివేదిక నిర్మాణం, కీవర్డ్ మరియు స్కోరింగ్-సిస్టమ్ రీకాల్, మరియు లేటెన్సీ); ఇది వాస్తవ ప్రపంచ నిర్ధారణ ఖచ్చితత్వం లేదా క్లినికల్ భద్రతకు కొలమానం కాదు. ఇద్దరు రచయితలు Kantesti Ltdలో ఉద్యోగంలో ఉన్నారు మరియు ఈక్విటీ కలిగి ఉన్నారు, మరియు మూల్యాంకనం చేయబడుతున్న ఇంజిన్ అదే సంస్థకు చెందిన వాణిజ్య ఉత్పత్తి. ఈ ప్రయోజన విరుద్ధతను సోర్స్ కోడ్‌లో రూబ్రిక్‌ను ప్రీ-రిజిస్టర్ చేయడం, MIT లైసెన్స్ కింద హార్నెస్‌ను విడుదల చేయడం, మరియు రా ఇంజిన్ ప్రతిస్పందనల యొక్క స్ట్రాటిఫైడ్ ర్యాండమ్ నమూనాను ప్రచురించడం ద్వారా తగ్గించబడింది.

E-E-A-T విశ్వాస సంకేతాలు

⭐ ది ఫేవరెట్

అనుభవం

కేసు ప్యానెల్ ఎంపికను పర్యవేక్షిస్తూ 15+ సంవత్సరాల క్లినికల్ హీమటాలజీ మరియు ల్యాబొరేటరీ మెడిసిన్ అనుభవం.

📋 📋 తెలుగు

నైపుణ్యం

స్పష్టమైన హైపర్‌డయాగ్నోసిస్ పెనాల్టీలతో ప్రీ-రిజిస్టర్ చేసిన రూబ్రిక్ డిజైన్ మరియు గుర్తింపు పొందిన క్లినికల్ స్కోరింగ్ వ్యవస్థలు (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

అధికారవాదం

ప్రధాన రచయిత డాక్టర్ థామస్ క్లైన్, MD (ORCID 0009-0009-1490-1321). అమలు (Implementation) జూలియన్ ఎమిర్హాన్ బులుట్, Kantesti Ltd CEO.

🛡️

విశ్వసనీయత

MIT లైసెన్స్‌తో పునరుత్పత్తి చేయగల (reproducible) హార్నెస్, ముడి ఇంజిన్ ప్రతిస్పందనలు ప్రచురించబడ్డాయి, ఓపెన్ ప్రయోజన విరోధం (conflict-of-interest) వెల్లడింపు, నాలుగు-ప్లాట్‌ఫారమ్ పరిశోధన ప్రతిబింబ నెట్‌వర్క్.

🏢 కాంటెస్టి లిమిటెడ్ ఇంగ్లాండ్ & వేల్స్‌లో నమోదు · కంపెనీ నం. 17090423 లండన్, యునైటెడ్ కింగ్‌డమ్ · కాంటెస్టి.నెట్