ఈ బెంచ్మార్క్ ఎందుకు ఉంది మరియు ఇది ఏమి పరీక్షిస్తుంది
AI-సహాయంతో రక్త పరీక్ష ఫలితాలు అర్థం వినియోగదారుల మరియు క్లినికల్ వర్క్ఫ్లోలలో పెరుగుతున్న స్థాయిలో ఉపయోగించబడుతోంది; అయినప్పటికీ, ప్రయోగశాల వైద్యానికి అనుకూలంగా పునరుత్పత్తి చేయగల మూల్యాంకన ఫ్రేమ్వర్క్లు ఇప్పటికీ అరుదుగా ఉన్నాయి. ఈ సందర్భంలో అత్యంత ముఖ్యమైన ప్రశ్నలు సాధారణ వైద్య ప్రశ్న-సమాధాన బెంచ్మార్క్లలో కవర్ చేయబడేవి కావు: సగటు కార్పస్కులర్ వాల్యూమ్ ఒకేలా ఉన్నప్పుడు ఇంజిన్ ఐరన్ లోపాన్ని థాలస్సీమియా ట్రైట్ నుండి వేరు చేయగలదా, హెపటైటిస్గా గిల్బర్ట్ సిండ్రోమ్ను అధికంగా నిర్ధారిస్తుందా, మరియు పూర్తిగా సాధారణ స్క్రీనింగ్ ప్యానెల్లో పాథాలజీని తయారు చేస్తుందా?
ఒకే రక్త పరీక్ష ప్యానెల్ సాధారణంగా అనేక పోటీ వివరణలకు మద్దతు ఇచ్చేంత సంకేతాన్ని కలిగి ఉంటుంది; అందువల్ల ఫలితాలను అర్థం చేసేవైద్యుడి పని, పాఠ్యపుస్తక సమాధానాన్ని వెతకడం కంటే, ఆ వివరణలను పరస్పరం తూకం వేసి చూడడం. పాఠ్యపుస్తక కేసుల్లో బాగా పనిచేసే ఇంజిన్, అత్యంత ప్రాముఖ్యమైన కేసుల్లో మాత్రం విఫలమవచ్చు: డిఫరెన్షియల్-డయాగ్నోసిస్ లోపాల పిట్ఫాల్స్, ఒంటరిగా చూసినప్పుడు భయంకరంగా కనిపించే నిర్దోష వేరియంట్లు, మరియు పూర్తిగా సాధారణ ప్యానెల్లు—ఇవి నమ్మకంగా ఉన్న సహాయకులను పాథాలజీని తయారు చేయడానికి ప్రేరేపిస్తాయి.
ఈ బెంచ్మార్క్ ప్రత్యేకంగా ఈ వైఫల్య రీతుల చుట్టూ నిర్మించబడింది. పదిహేను కేసుల్లో ప్రతి ఒక్కదాన్ని ఒక నిర్దిష్ట నిర్ధారణ లక్షణం కోసం ఎంపిక చేశారు: ఒక ఐరన్-లోప మైక్రోసైటోసిస్ను, అదే mean corpuscular volume ఉన్న బీటా-థాలస్సీమియా ట్రైట్ నుండి వేరుగా ఉంచాల్సిన అవసరం; గిల్బర్ట్ సిండ్రోమ్ ప్రదర్శన—ఇందులో ఏకైక అసాధారణత ఒంటరిగా ఉన్న indirect hyperbilirubinaemia; మరియు పదిహేను-పారామీటర్ స్క్రీనింగ్ ప్యానెల్లో ప్రతి అనలైట్ తన సూచన పరిధిలోనే ఉండే పరిస్థితి. ఈ రూబ్రిక్, ప్రతి కేసును దాని స్వంత సందర్భంలో చదివే ఇంజిన్లకు బహుమతి ఇస్తుంది; అటువంటి నిర్ధారణ అవసరం లేని చోట కూడా నమ్మకంగా ఒక నిర్ధారణకు చేరుకునే ఇంజిన్లను శిక్షిస్తుంది.
డాక్టర్ థామస్ క్లైన్గా, నేను ఈ కేస్ ప్యానెల్ను ఎంచుకున్నాను, ఎందుకంటే ల్యాబొరేటరీ-మెడిసిన్ సహాయకులు ఎక్కువగా తప్పుగా అర్థం చేసుకునే నమూనాలు ఇవే. ఖరీదైన వైఫల్య రీతి "అరుదైన వ్యాధిని మిస్ చేయడం" కాదు—అది దానిని కలిగి లేని రోగుల్లో సాధారణ పాథాలజీని తయారు చేయడం. మా వైద్య ధ్రువీకరణ hub విస్తృత ఫ్రేమ్వర్క్ను వివరిస్తుంది; ఈ పేజీ V11 ఇంజిన్పై దాని అన్వయ ఫలితాన్ని వివరిస్తుంది.
తాజా రిఫరెన్స్ రన్ — V11 (ఏప్రిల్ 2026)
Kantesti AI Engine V11 యొక్క ఏప్రిల్ 2026 రిఫరెన్స్ రన్లో ఒక సమ్మిళిత స్కోరు వచ్చింది 99.12% ముందుగా నమోదు చేసిన పదిహేను-కేసుల రూబ్రిక్పై. హైపర్డయాగ్నోసిస్ ట్రాప్ కేసులు రెండూ గరిష్ఠ స్థాయిలో స్కోర్ చేశాయి. ఐరన్-డెఫిషియెన్సీ వర్సెస్ థాలస్సీమియా డిఫరెన్షియల్లో Mentzer index సరిగ్గా వర్తింపజేశారు.
సమ్మిళిత ఫార్ములా మూడు భాగాలను కలుపుతుంది: నిర్మాణ అనుగుణత ఏడు తప్పనిసరి రిపోర్ట్ విభాగాలు మరియు పదహారు తప్పనిసరి ఉపవిభాగాలతో, క్లినికల్ ఖచ్చితత్వం కీవర్డ్ రీకాల్ + స్కోరింగ్-సిస్టమ్ రీకాల్ + ప్రాబబిలిటీ-డిస్ట్రిబ్యూషన్ చెల్లుబాటు తనిఖీగా కొలవబడింది, మరియు ప్రతిస్పందన లేటెన్సీ 20-సెకన్ల ప్రధాన-సర్వీస్-లెవల్ లక్ష్యానికి వ్యతిరేకంగా. ఖచ్చితమైన విభజన క్రింది రూబ్రిక్ ఫార్ములాలో చూపబడింది.
మిగిలిన 0.88 శాతం “హెడ్రూమ్” దాదాపు పూర్తిగా లేటెన్సీ నష్టంగా విడిపోతుంది — ప్రతి ఒక్కటి సమ్మిళితంగా -0.05 ఉన్న మూడు Phase 2 ఫాల్బ్యాక్ ఇన్వొకేషన్లు, 0.88-పాయింట్ల లోటులో సుమారు 0.60 ను అందించాయి — క్లినికల్ కంటెంట్లోకి కాకుండా. ఇంజిన్ పదిహేను కేసుల్లో ఏదీ సరైన నిర్ధారణను మిస్ చేయలేదు; ఎక్కడ లోపం జరిగిందో, అది కొద్దిపాటి ఇన్వొకేషన్లలో 20-సెకన్ల ప్రాథమిక-పాత్ లక్ష్యానికి కాస్త ఎక్కువ సమయం తీసుకోవడం ద్వారా మాత్రమే జరిగింది.
ఏడు వైద్య ప్రత్యేకతలలో పదిహేను కేసులు
కేస్ ప్యానెల్లో ఏడు ప్రత్యేకతలు ఉన్నాయి — హీమటాలజీ, ఎండోక్రైనాలజీ, మెటబాలిక్ మెడిసిన్, హెపాటాలజీ, నెఫ్రాలజీ, కార్డియాలజీ, రుమటాలజీ — అలాగే రెండు ప్రత్యేక హైపర్డయాగ్నోసిస్ ట్రాప్ కేసులు. ప్రతి కేసు, వ్రాతపూర్వకంగా ఇచ్చిన అవగాహనతో కూడిన సమ్మతితో, Kantesti క్లినికల్ డేటా రిపాజిటరీ నుంచి తీసుకున్న అనామకీకరించిన నిజమైన రోగి రికార్డు.
డీ-ఐడెంటిఫికేషన్ Safe Harbor విధానంలో నిర్వహించబడింది: అన్ని ప్రత్యక్ష గుర్తింపులను తొలగించారు లేదా భర్తీ చేశారు, మరియు ప్రతి రికార్డుకు BT-NNN-LABEL ఆకృతిలో ఒక బెంచ్మార్క్-ఇంటర్నల్ కేస్ కోడ్ కేటాయించారు. ప్రాసెసింగ్ ఈ ప్రకారం నిర్వహించబడింది GDPR ఆర్టికల్ 9(2)(j) తగిన రక్షణ చర్యలతో శాస్త్రీయ పరిశోధన కోసం, అలాగే సమానమైన UK GDPR నిబంధనల ప్రకారం. ప్రచురిత హార్నెస్లో, సాంకేతిక నివేదికలో, లేదా విడుదల చేసిన డేటాసెట్లలో ఎక్కడా వ్యక్తిగతంగా గుర్తించగల సమాచారం కనిపించదు.
ఈ ప్రత్యేక పంపిణీ ఎందుకు
వాస్తవ ప్రపంచ ప్రయోగశాల ప్రాక్టీస్లో మైక్రోసైటిక్ డిఫరెన్షియల్స్ మరియు మాక్రోసైటిక్ డిఫరెన్షియల్స్ అత్యధిక-వాల్యూమ్ ట్రాప్లుగా ఉండటంతో హీమటాలజీకి మూడు కేసులు వస్తాయి. హాషిమోటోస్, PCOS, మరియు విటమిన్ డి లోపం ప్రదర్శనలు వేర్వేరు నిర్ధారణ ఆకృతులను (ఆటోఆంటీబాడీ-చోదిత, హార్మోన్-నిష్పత్తి-చోదిత, ఒకే-మార్కర్-చోదిత) పరీక్షించడంతో ఎండోక్రినాలజీకి మూడు కేసులు వస్తాయి. CKD, ASCVD రిస్క్, మరియు SLE ప్రతి ఒక్కదానికి ఇంజిన్ పిలవాల్సిన తనదైన స్కోరింగ్ సిస్టమ్ ఉండటంతో సింగిల్-కేస్ స్పెషాలిటీలు ఇంకా అర్థవంతమే (క్రమంగా KDIGO స్టేజింగ్, ASCVD 10-year risk, 2019 EULAR/ACR SLE ప్రమాణాలు).
ముందస్తుగా నమోదు చేసిన రూబ్రిక్ — వివరణ
ప్రీ-రిజిస్ట్రేషన్ ఈ బెంచ్మార్క్లో అత్యంత ముఖ్యమైన విధానపరమైన ఎంపిక. ప్రతి ఊహించిన నిర్ధారణ, ప్రతి క్లినికల్ స్కోరింగ్ సిస్టమ్, మరియు ప్రతి రిపోర్ట్ విభాగం సోర్స్ కోడ్కు కట్టుబడి ఉంది ఇంజిన్ను పిలిచే ముందు. అందువల్ల ఇంజిన్ను మెప్పించేలా రుబ్రిక్పై పోస్ట్-హాక్ ట్యూనింగ్ చేయడం అసాధ్యం.
సమ్మిళిత స్కోర్ను రూపొందించే మూడు భాగాలు ఉన్నాయి. నిర్మాణాత్మక భాగం 35 శాతం వాటా కలిగి, ఇంజిన్ ఏడు తప్పనిసరి రిపోర్ట్ విభాగాలను (హెడర్, సమ్మరీ, కీలక ఫైండింగ్స్, డిఫరెన్షియల్, స్కోరింగ్ సిస్టమ్స్, సిఫార్సులు, ఫాలో-అప్) మరియు వాటిలోని పదహారు తప్పనిసరి ఉపవిభాగాలను తిరిగి ఇచ్చిందా అనే విషయాన్ని కొలుస్తుంది. విభాగం ఉనికి నిర్మాణాత్మక లెక్కింపులో 40 శాతం బరువు, ఉపవిభాగం ఉనికి 60 శాతం బరువు కలిగి ఉంటుంది.
ది క్లినికల్ భాగం 55 శాతం వాటా కలిగి, మూడు విషయాలను కలుపుతుంది: నిర్ధారణ-కీవర్డ్ రీకాల్ (క్లినికల్ ఉప-స్కోర్లో 70 శాతం), స్కోరింగ్-సిస్టమ్ రీకాల్ (20 శాతం — సంబంధిత చోట్ల ఇంజిన్ Mentzer, FIB-4, HOMA-IR, ASCVD రిస్క్, KDIGO స్టేజింగ్, EULAR/ACR ప్రమాణాలను లెక్కిస్తుందా), మరియు ప్రాబబిలిటీ-సమ్ చెల్లుబాటు తనిఖీ (10 శాతం — డిఫరెన్షియల్ ప్రాబబిలిటీలు [90, 110] అంతరంలో మొత్తం రావాలి). ట్రాప్ కేసుల కోసం, గరిష్ఠంగా 0.30 వరకు స్పష్టమైన హైపర్డయాగ్నోసిస్ పెనాల్టీ తీసివేస్తారు; ఇది తయారు చేసిన పాథాలజీ ఫ్లాగ్కు 0.10 చొప్పున లెక్కించి, గరిష్ఠంగా మూడు ఫ్లాగ్ల వరకు పరిమితం చేస్తారు.
ది లేటెన్సీ భాగం 10 శాతం వాటా కలిగి ఉంటుంది. 20 సెకన్లలోపు స్పందనకు పూర్తి 0.10, 40 సెకన్లలోపు స్పందనకు 0.05, అంతకంటే నెమ్మదిగా ఏదైనా అయితే సున్నా. 20 సెకన్ల లక్ష్యం ప్రొడక్షన్ ప్రైమరీ-పాత్ సర్వీస్-లెవల్ ఆబ్జెక్టివ్ను ప్రతిబింబిస్తుంది; 40 సెకన్ల గరిష్ఠ పరిమితి భారీ-ఇంజిన్ ఇన్వొకేషన్ల కోసం ఫేజ్ 2 ఫాల్బ్యాక్ బడ్జెట్ను ప్రతిబింబిస్తుంది.
ప్రీ-రిజిస్ట్రేషన్ ఏమి నివారిస్తుంది
ఫస్ట్-పార్టీ బెంచ్మార్క్లు పోస్ట్-హాక్ రుబ్రిక్ ట్యూనింగ్ ద్వారా తమ స్వంత సంఖ్యలను పెంచడం కోసం ప్రసిద్ధి. ఆ నమూనా దాదాపు ఎప్పుడూ ఇదే: టీమ్ ఇంజిన్ను నడిపి, ఎక్కడ తక్కువగా ఉందో చూసి, ఆ తర్వాత తక్కువగా ఉన్న ప్రాంతాలు తక్కువగా లెక్కపడేలా రుబ్రిక్ను నిశ్శబ్దంగా సర్దుతుంది. మొదటి ఇంజిన్ కాల్కు ముందు రుబ్రిక్ను సోర్స్ కోడ్కు కట్టుబట్టి, MIT లైసెన్స్తో హార్నెస్ను ప్రచురించడం ద్వారా, ఆ సర్దుబాటు వెర్షన్ కంట్రోల్లో కనిపిస్తుంది. ఎవరైనా రిపోజిటరీని క్లోన్ చేసి, రుబ్రిక్ రచయిత తేదీలను తనిఖీ చేసి, స్కోరింగ్ను ఆకృతీకరించడానికి ఇంజిన్ ఫలితాలను ఉపయోగించలేదని ధృవీకరించవచ్చు.
హైపర్డయాగ్నోసిస్ ట్రాప్ కేసులు — అధికంగా పిలవడం (over-calling) నిజమైన వైఫల్య విధానం ఎందుకు
సాధారణ స్క్రీన్లపై పాథాలజీని దూకుడుగా ఎక్కువగా పిలవడం అనేది కన్స్యూమర్-ఫేసింగ్ మెడికల్ అసిస్టెంట్లలో డాక్యుమెంట్ అయిన వైఫల్య మోడ్. దాని డౌన్స్ట్రీమ్ ఖర్చుల్లో అవసరం లేని పరిశోధన, రోగి ఆందోళన, మరియు ఐయాట్రోజెనిక్ వర్కప్ ఉన్నాయి. ఈ బెంచ్మార్క్లోని రెండు ట్రాప్ కేసులు ఆ వైఫల్య మోడ్ను కనిపించేలా చేసి, స్కోర్ చేయగలిగేలా రూపొందించబడ్డాయి.
🟡 ట్రాప్ 1 — BT-014-GILBERT
ప్రదర్శన. మొత్తం బిలిరుబిన్ 2.4 mg/dL ఉన్న 24 ఏళ్ల పురుషుడు. డైరెక్ట్ భాగం సాధారణం, ట్రాన్స్అమినేసులు మరియు ఆల్కలైన్ ఫాస్ఫటేస్ తమ రిఫరెన్స్ రేంజ్లలోనే ఉన్నాయి, రెటిక్యులోసైట్లు అసాధారణంగా లేవు, మరియు హాప్టోగ్లోబిన్, LDH హీమోలిసిస్ను తప్పుపడతాయి.
సరైన అర్థం చేసుకోవడం. గిల్బర్ట్ సిండ్రోమ్ — ఒక నిరపాయమైన UGT1A1 పాలిమార్ఫిజం. ఈ అర్థం చేసుకోవడంలో హెపటైటిస్, సిర్రోసిస్, హీమోలిటిక్ అనీమియా, లేదా బిలియరీ అడ్డంకి ఉండకూడదు.
V11 ఫలితం. సమ్మిళిత 1.000. ఆరు పర్యవేక్షించిన ఓవర్-డయాగ్నోసిస్ ఫ్లాగ్లలో ఏదీ యాక్టివ్ నిర్ధారణలుగా కనిపించలేదు.
🟡 ట్రాప్ 2 — BT-015-HEALTHY
ప్రదర్శన. 15-పారామీటర్ల రొటీన్ స్క్రీనింగ్ ప్యానెల్తో ఉన్న 35 ఏళ్ల మహిళ. ప్రతి అనలైట్ తన రిఫరెన్స్ రేంజ్లో సౌకర్యంగా ఉంది.
సరైన అర్థం చేసుకోవడం. భరోసా మరియు జీవనశైలి నిర్వహణ. ఈ అర్థం చేసుకోవడం క్లినికల్గా ఉపయోగకరంగా అనిపించేందుకు సరిహద్దు స్థాయి వ్యాధి ఉన్నట్లు కృత్రిమంగా తయారు చేయకూడదు.
V11 ఫలితం. సమ్మిళిత స్కోరు 1.000. పర్యవేక్షించిన ఏడు అధిక-నిర్ధారణ (over-diagnosis) ఫ్లాగ్లలో—డయాబెటిస్, రక్తహీనత (anaemia), హైపోథైరాయిడిజం, డిస్లిపిడీమియా, హెపటైటిస్, మూత్రపిండ వ్యాధి, లోపం—ఏదీ క్రియాశీల నిర్ధారణగా కనిపించలేదు.
రెండు ట్రాప్లలో కలిపి, పర్యవేక్షించిన పదమూడు హైపర్డయాగ్నోసిస్ ఫ్లాగ్లు తనిఖీ చేయబడ్డాయి. ఏదీ ట్రిగ్గర్ కాలేదు. ట్రయాజ్ లేదా ప్రీ-కన్సల్టేషన్ సాధనంగా AI ఇంజిన్ను ఉపయోగించాలనుకునే ఏ వైద్యుడికి అత్యంత ముఖ్యమైన ఫలితం ఇదే: ఎక్కడా వ్యాధి లేనప్పుడు వ్యవస్థ దాన్ని కనిపెట్టలేదు.
మెంట్జర్ ఇండెక్స్: ఇనుము లోపాన్ని థాలసీమియా ట్రైట్ నుండి వేరు చేయడం
రెండో అధిక విలువైన కనుగొనిక కేసు BT-001 (ఇనుము లోప రక్తహీనత) ను కేసు BT-007 (బీటా-థాలసీమియా మైనర్) తో జత చేయడమే. రెండింటిలోనూ మైక్రోసైటోసిస్ కనిపిస్తుంది, ఇది అమాయక క్లాసిఫైయర్లకు బాగా తెలిసిన అడ్డంకి. మెంట్జర్ సూచిక, అంటే MCV ను RBC కౌంట్తో భాగించగా, ఇనుము లోపంలో 13 కంటే ఎక్కువగా ఉంటుంది; థాలసీమియా ట్రైట్లో 13 కంటే తక్కువగా ఉంటుంది.
BT-001 లో, రోగి 34 ఏళ్ల మహిళ; హీమోగ్లోబిన్ 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ఫెరిటిన్ 6 ng/mL, మరియు పెరిగిన TIBC ఉన్నాయి. సుమారు 17.7 మెంట్జర్ సూచిక సంపూర్ణ ఇనుము లోపాన్ని సూచిస్తుంది. BT-007 లో, రోగి 28 ఏళ్ల పురుషుడు; మైక్రోసైటోసిస్ (MCV 65.8 fL) ఉన్నప్పటికీ RBC కౌంట్ 6.2 గా ఎక్కువగా ఉంది, RDW సాధారణం, ఫెరిటిన్ సాధారణం, మరియు HbA2 5.6 శాతం. సుమారు 10.6 మెంట్జర్ సూచిక థాలసీమియా ట్రైట్ను సూచిస్తుంది, మరియు పెరిగిన HbA2 బీటా-థాలసీమియా మైనర్ను నిర్ధారిస్తుంది.
రెండు కేసులూ 1.000 స్కోరు సాధించాయి. ఇంజిన్ రెండు అర్థాల్లోనూ మెంట్జర్ సూచికను స్పష్టంగా ఉపయోగించి, ప్రతి సందర్భంలో సరైన నిర్ధారణను తిరిగి ఇచ్చింది. మొత్తం బెంచ్మార్క్లో అత్యంత క్లినికల్గా భరోసా ఇచ్చే ఒక్క ఫలితం ఇదే, ఎందుకంటే థాలసీమియా ట్రైట్ను ఇనుము లోపంగా తప్పుగా వర్గీకరిస్తే అనుచిత ఇనుము సప్లిమెంటేషన్ జరుగుతుంది మరియు కుటుంబ-స్క్రీనింగ్ అవకాశాలు మిస్ అవుతాయి; అలాగే ఇనుము లోపాన్ని థాలసీమియాగా తప్పుగా వర్గీకరిస్తే సులభమైన రీప్లేస్మెంట్ థెరపీ ఆలస్యం అవుతుంది. మా ఫెరిటిన్ పరిధి మార్గదర్శకం విస్తృత డిఫరెన్షియల్ సందర్భాన్ని వివరిస్తుంది.
ఏప్రిల్ 2026 రన్ నుండి ప్రతి-కేసు ఫలితాలు
పదిహేనులో పన్నెండు కేసులు ప్రాథమిక పాథ్పై 1.000 అనే గరిష్ఠ (ceiling) సమ్మిళిత స్కోరును సాధించాయి. మూడు కేసులు Phase 2 ఫallback ద్వారా సేవ్ చేయబడ్డాయి; ఇందులో 0.05 లేటెన్సీ బోనస్ కోల్పోయినా, అన్ని క్లినికల్ మరియు నిర్మాణాత్మక కంటెంట్ అలాగే నిలిచాయి. ఒక కేసులో ఒకే ఒక్క తప్పనిసరి ఉపవిభాగం లేదు; ఒకటి స్వల్పంగా తగ్గిన probability distribution సమ్ను తిరిగి ఇచ్చింది.
PCOS కేసు (BT-008) ప్రతిస్పందన నిర్మాణంలో ఒక తప్పనిసరి ఉపవిభాగాన్ని కోల్పోయింది — పదహారు లో పదహారు బదులు పదహారు లో పదహారు — దీని వల్ల నిర్మాణ స్కోరు 1.000 నుండి 0.963కి తగ్గింది. SLE కేసు (BT-011) క్లినికల్ స్కోరును 0.965కి తగ్గించిన స్వల్పంగా తగ్గిన probability-distribution సమ్ను తిరిగి ఇచ్చింది; అయితే ప్రతి డయాగ్నస్టిక్ కీవర్డ్ మరియు స్కోరింగ్ సిస్టమ్ను అలాగే ఉంచింది. ఏ ఉప-పర్ఫెక్ట్ కేసూ సరైన నిర్ధారణను మిస్ చేయలేదు.
హెడ్లైన్ స్కోరు మనకు ఏమి చెప్పదు
ఈ ప్రత్యేకంగా ముందస్తుగా నమోదు చేసిన రూబ్రిక్ కింద 99.12 శాతం యొక్క సమ్మిళిత స్కోరు దాదాపు ceiling పనితీరును సూచిస్తుంది, కానీ దాన్ని జాగ్రత్తగా సందర్భంలో ఉంచాలి. ఈ ఫలితం ఒకే రూబ్రిక్కు వ్యతిరేకంగా, ఒక్కోసారి మాత్రమే మూల్యాంకనం చేసిన, పదిహేను జాగ్రత్తగా ఎంపిక చేసిన అనామక కేసులపై ఇంజిన్ ప్రవర్తనను వివరిస్తుంది. ఆ సంఖ్య ఏమి స్థాపిస్తుందో, ఏమి స్థాపించదో మేము స్పష్టంగా చెబుతున్నాం.
ఈ స్కోరు చెబుతున్నది ఏమిటంటే, V11 ఇంజిన్ ఈ మూల్యాంకనానికి ఎంపిక చేసిన డయాగ్నస్టిక్ నమూనాలను సరైన విధంగా నిర్వహించింది—ప్రచురితమైన మరియు పునరుత్పత్తి చేయగల విధానంతో. అడవి పరిస్థితుల్లో ఉన్న ప్రతి రక్త పరీక్ష ప్యానెల్పై ఇంజిన్ సరైనదని ఇది చెప్పదు. ఇంజిన్ వైద్య నిపుణుల తీర్పును భర్తీ చేయాలని ఇది చెప్పదు. అలాగే ఇది ప్రత్యామ్నాయ AI సిస్టమ్లను మించి పనిచేస్తుందని కూడా చెప్పదు—ఇతర ఇంజిన్లతో పోల్చిన విశ్లేషణలు ఈ నివేదిక పరిధిలో ఉద్దేశపూర్వకంగా చేర్చలేదు.
ఈ స్కోరు స్థాపించేది ఒక బేస్లైన్. రూబ్రిక్ మరియు హార్నెస్ ప్రజలకు అందుబాటులో ఉన్నందున, ఇంజిన్ భవిష్యత్ వెర్షన్లను అదే పదిహేను కేసులపై మూల్యాంకనం చేయవచ్చు, మరియు ప్రచురిత స్కోరు మరియు తదుపరి ఏ రన్ మధ్య గ్యాప్ కూడా స్వయంగా కొలవదగినది. ముందస్తు నమోదు (pre-registration) యొక్క విలువ ఇదే: పనితీరు క్లెయిమ్లను పరీక్షించదగిన క్లెయిమ్లుగా మార్చుతుంది.
10 నిమిషాల్లో ఈ బెంచ్మార్క్ను ఎలా పునరుత్పత్తి చేయాలి
పునరుత్పత్తి చేయడానికి కేవలం Kantesti API క్రెడెన్షియల్ జత మరియు Python 3.10 లేదా అంతకంటే పై వాతావరణం అవసరం, అలాగే requests మరియు reportlab లైబ్రరీలు ఇన్స్టాల్ చేసి ఉండాలి. పూర్తి హార్నెస్ MIT లైసెన్స్ కింద విడుదలైన ఒకే స్వయం-నిర్వహణ (self-contained) Python మాడ్యూల్.
కొత్త రన్ కోసం నాలుగు దశలు
ఒకటి. రిపోజిటరీని క్లోన్ చేయండి: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. రెండు. క్రింది విధంగా డిపెండెన్సీలను ఇన్స్టాల్ చేయండి pip install -r requirements.txt. మూడు. సెట్ చేయండి KANTESTI_USERNAME మరియు KANTESTI_PASSWORD వాటిని ఎన్విరాన్మెంట్ వేరియబుల్స్గా — క్రెడెన్షియల్స్ రన్టైమ్లో చదవబడతాయి, స్క్రిప్ట్లో ఏదీ హార్డ్-కోడ్ చేయబడదు. నాలుగు. నడపండి python benchmark_bloodtest.py మరియు వర్కింగ్ డైరెక్టరీకి విడుదలైన నాలుగు ఆర్టిఫాక్ట్స్ను పరిశీలించండి: ఒక CSV స్కోర్కార్డ్, ఒక JSON స్కోర్కార్డ్, రా ఇంజిన్ స్పందనలను కలిగి ఉన్న పూర్తి JSON డంప్, మరియు మనుషులకు చదవడానికి వీలైన Markdown రిపోర్ట్.
23 ఏప్రిల్ 2026 నుండి వచ్చిన రిఫరెన్స్ రన్ను results/ రిపోజిటరీ డైరెక్టరీలో భద్రపరిచారు. కొత్త రన్ ఒక కొత్త టైమ్స్టాంప్తో స్కోర్కార్డ్ను ఉత్పత్తి చేస్తుంది, రిఫరెన్స్ రన్ను మాత్రం మార్చకుండా ఉంచుతుంది. మీ రన్ గణనీయంగా భిన్నమైన ఫలితాన్ని ఇస్తే, దయచేసి రన్ టైమ్స్టాంప్తో పాటు స్పందన మెటాడేటాలో తిరిగి వచ్చిన ఇంజిన్ వెర్షన్ను పేర్కొంటూ ఒక GitHub ఇష్యూ తెరవండి.
పరిమితులు మరియు భవిష్యత్ పని
నాలుగు పరిమితులను స్పష్టంగా గుర్తించాలి: నమూనా పరిమాణం, సింగిల్-షాట్ మూల్యాంకనం, సింగిల్-ఇంజిన్ పరిధి, మరియు సింగిల్-సోర్స్ డేటా మూలం. ఇవన్నీ యాక్టివ్ ఫాలో-అప్ పనిలో పరిష్కరించబడుతున్నాయి.
నమూనా పరిమాణం. ఎనిమిది ప్రత్యేకత బకెట్లలో పదిహేను కేసులు ప్రూఫ్ ఆఫ్ కాన్సెప్ట్కు సరిపోతాయి కానీ ఒక ప్రత్యేకతలో ఉపగుంపుల విశ్లేషణకు సరిపోవు. యాభై కేసులకు విస్తరించడం ప్రణాళికలో ఉంది; ఇందులో కోయగ్యులేషన్ ప్యానెల్స్, హీమటాలాజికల్ మాలిగ్నెన్సీ స్క్రీనింగ్, గర్భధారణ ప్యానెల్స్, మరియు పిల్లల ప్రదర్శనలు ఉంటాయి.
సింగిల్-షాట్ మూల్యాంకనం. ప్రతి కేసును ఒక్కసారి మాత్రమే మూల్యాంకనం చేశారు. తక్కువ శాంప్లింగ్ టెంపరేచర్లో కూడా పెద్ద భాషా మోడల్స్ గణనీయమైన అవుట్పుట్ వైవిధ్యాన్ని చూపుతాయి, కాబట్టి ప్రతి కేసుకు ఐదు మూల్యాంకనాలతో కూడిన మల్టీ-రన్ ప్రోటోకాల్ మరియు నివేదించిన వైవిధ్యం తదుపరి సహజమైన దశ.
సింగిల్-ఇంజిన్ పరిధి. ఈ రిపోర్ట్ ఒకే ఇంజిన్ను వివరిస్తుంది. ప్రత్యామ్నాయ AI సిస్టమ్స్తో పోలిక విశ్లేషణలు ఇక్కడ పరిధికి వెలుపల ఉన్నాయి; తగిన విధానంతో వాటిని వేరే స్వతంత్ర అధ్యయనంగా చేపట్టవచ్చు.
సింగిల్-సోర్స్ డేటా మూలం. ఆ పదిహేను కేసులు ఒకే క్లినికల్ రిపోజిటరీ నుండి తీసుకున్న అనామక నిజమైన రోగి రికార్డులు. ఇవి ఎంపిక చేసిన నమూనాను సూచిస్తాయి; జనాభాకు ప్రతినిధిగా యాదృచ్ఛికంగా తీసుకున్న నమూనా కాదు. మూల్యాంకనాన్ని బహుళ కేంద్రాల డేటాకు విస్తరించడం రోడ్మ్యాప్లో ఉంది.
అత్యంత ప్రభావవంతమైన ప్రణాళికాబద్ధమైన విస్తరణ బహుభాషా సమానత్వం. Kantesti AI Engine 75+ భాషల్లో వినియోగదారులకు సేవలందిస్తుంది, మరియు టర్కిష్, జర్మన్, స్పానిష్, ఫ్రెంచ్, అరబిక్లలో అదే పదిహేను-కేసుల హార్నెస్ను నడపడం ద్వారా ఇంజిన్ మద్దతు ఇచ్చే భాషల అంతటా అవుట్పుట్ నాణ్యతను పరిమాణపరచవచ్చు. ప్రతి భాషకు సంబంధించిన రన్ను దాని స్వంత DOI మరియు హార్నెస్ బ్రాంచ్తో కలిసి మేము ప్రచురిస్తాము.