ይህ መመዘኛ ለምን እንደሚኖር እና ምን እንደሚፈትሽ

በAI የደም ምርመራ ትንተና በተጠቃሚ እና በክሊኒካዊ ስራ ፍሰቶች ውስጥ በቀጣይነት እየተጠቀሰ ነው፣ ነገር ግን ለላቦራቶሪ ሕክምና የተበጁ የሚደጋገም የግምገማ መዋቅሮች አልተለመዱም። በዚህ ሁኔታ ውስጥ በጣም አስፈላጊ የሆኑት ጥያቄዎች በአጠቃላይ የሕክምና ጥያቄ-መልስ መመዘኛዎች የሚሸፈኑት አይደሉም፦ የሕዋስ መጠን መካከለኛ መጠን (MCV) እኩል ሲሆን አንድ ሞተር የብረት እጥረትን ከታላሴሚያ ባህሪ ሊለይ ይችላል? ጊልበርት ሲንድሮምን እንደ ሄፓታይተስ ያስተካክላል? እና በሙሉ በሙሉ መደበኛ የስክሪንግ ፓነል ውስጥ ፓቶሎጂ ይፈጥራል?

ቀድሞ የተመዘገበ የመመዘኛ ፍሰት ዲያግራም የሚያሳይ እንዴት የKantesti AI ሞተር — V11 ሁለተኛ ዝመና፣ 99.80% ውህድ ነጥብ በ100,000 ጉዳዮች — በተቀዘቀዘ የውጤት መመዘኛ መስፈርቶች ላይ እንደሚገመገም
ምስል 1፡ በስርዓቱ ጀርባ ያለው የመመዘኛ መዋቅር ከ 99.80% ውህድ ነጥብ በV11 ሁለተኛ ዝመና 100,000-ጉዳይ ቡድን — እያንዳንዱ ጉዳይ፣ እያንዳንዱ ቃል ቁልፍ፣ እያንዳንዱ የነጥብ ስርዓት በሞተሩ አንድ ነጠላ PDF ከመታየቱ በፊት በምንጭ ኮድ ውስጥ ተስተካክሎ ይቀመጣል፣ እና የመመዘኛ መመሪያው ከV11 መጀመሪያ ልቀት ጋር በባይት-ተመሳሳይ ነው። በንድፍ መሠረት የኋላ-ተከታታይ መመዘኛ ማስተካከያ አይቻልም።.

አንድ ነጠላ የደም ምርመራ ፓነል ብዙ ተፎካካሪ ትርጓሜዎችን ለመደገፍ በተለምዶ በቂ ምልክት ይይዛል፣ የትርጓሜ ሐኪሙ ሥራም እነዚያን ትርጓሜዎች ከእርስ በርስ ማመዛዘን ነው እንጂ የመጽሐፍ መልስ ማውጣት አይደለም። በመጽሐፍ ጉዳዮች ላይ ጥሩ የሚሠራ አንድ ሞተር እጅግ በጣም አስፈላጊ በሆኑ ጉዳዮች ላይ ሊያልፍ ይችላል፦ የልዩ ምርመራ መወዳደር ወጥመዶች፣ በብቻው ሲታይ አስጨናቂ የሚመስሉ ጤናማ ልዩነቶች፣ እና ሙሉ በሙሉ መደበኛ ፓነሎች የሚያስተማምኑ አጋዦችን ወደ ፓቶሎጂ መፍጠር የሚገፉ።.

ይህ መመዘኛ በትክክል እነዚህን የመውደቅ ሁኔታዎች ላይ ተመስርቶ ተገንብቷል። ከአስራ አምስቱ ጉዳዮች እያንዳንዱ ለተወሰነ የምርመራ ባህሪ ተመርጧል፦ ከተመሳሳይ የአማካይ የኤሪትሮሳይት መጠን (mean corpuscular volume) ጋር የሚመጣ ቤታ-ታላሴሚያ ባህሪ (trait) ከሚመስል የብረት እጥረት ማይክሮሳይቶሲስ በግልጽ መለየት ያለበት፣ የጊልበርት ሲንድሮም አቀራረብ የሚሆነው ብቸኛው መዛባት የተነጠለ የተዘዋዋሪ ሃይፐርቢሊሩቢኒሚያ መሆኑ ብቻ ነው፣ እና የአስራ አምስት መለኪያ ማጣሪያ ፓነል ውስጥ ሁሉም አናላይት በራሱ የማጣቀሻ ክልል ውስጥ ይገኛል። መመዘኛው እያንዳንዱን ጉዳይ በራሱ መሠረት የሚያነብ ሞተሮችን ይሸልማል እና እንዲህ ያለ ምርመራ አያስፈልግም በሚሆንበት ጊዜ እርግጠኛ ምርመራ ለመድረስ የሚሞክሩ ሞተሮችን ይቀጣል።.

ዶ/ር ቶማስ ክላይን እንደሆንኩ እኔ የጉዳይ ፓነሉን የመረጥኩት እነዚህ የላቦራቶሪ-ሕክምና አጋዦች በጣም ብዙ ጊዜ የሚያደርጉት ስህተቶች የሚታዩት ንድፎች ስለሆኑ ነው።. ውድ የሆነው የመውደቅ ሁኔታ እንደ "አልፎ አልፎ የሚገኝ በሽታ መደበቅ" አይደለም— በሽተኞቹ ውስጥ የሌለ መደበኛ ፓቶሎጂ መፍጠር ነው።. የእኛ የሕክምና ማረጋገጫ hub ስፋታዊውን መዋቅር ይገልጻል፤ ይህ ገጽ የV11 መጀመሪያ የማስረጃ-ጥንቃቄ (proof-of-concept) እና የV11 ሁለተኛ ማሻሻያ ወደ 100,000 ሲንቴቲክ ጉዳዮች ያስፋፋውን ይገልጻል—ከ127 የአገር መለያዎች የተወሰነ ሲንቴቲክ ጉዳይ ስብስብ (case set) በመውሰድ—ተመሳሳይ የነጥብ መመዘኛ (scoring rubric) በመጠቀም፣ ባይት-ተመሳሳይ (byte-identical)፣ እና ከኋላ የተደረገ ማስተካከያ (post-hoc tuning) አልተፈቀደም።.

የቅርብ ጊዜ የማጣቀሻ ሩጫ — V11 ሁለተኛ ዝመና (ኤፕሪል 26, 2026)

የ26 ኤፕሪል 2026 የV11 ሁለተኛ ዝመና የማጣቀሻ ሩጫ የ 99.80% በተመሳሳይ ቅድመ-መመዝገብ መመዘኛ መመሪያ ላይ ተገምግሟል ከV11 መጀመሪያ ልቀት ጋር የተጠቀሰው፣ በ 100,000 ሲንቴቲክ ጉዳዮች ከKantesti ሲንቴቲክ ጉዳይ ስብስብ የተወሰዱ እና በስፋት የሚያካትቱ 127 የአገር መለያዎች እና 75+ ቋንቋዎች ውስጥ ይዘልቃሉ። እያንዳንዱ ጉዳይ በሞተሩ ዋና መንገድ ላይ ተጠናቋል፤ የትራፕ-ጉዳይ ሃይፐርዳያግኖስ ባንዲራ ንቁነቶች በ 0 / 87,412. ላይ ቆይተዋል። በ23 ኤፕሪል 2026 የተካሄደው የመጀመሪያው V11 ሩጫ 15 በእጅ የተመረጡ ጉዳዮችን (የተዋሃደ 99.12%) ሸፍኖ መመዘኛውን አረጋግጧል፤ ሁለተኛው ዝመና ይህን መመዘኛ በባይት-ተመሳሳይ ይዞ የግምገማውን ስፋት ወደ ህዝብ-መጠን ቡድን ያስፋፋል።.

የተዋሃደ 99.80% ከ100,000 ውስጥ 100,000 ጉዳዮች የተመዘኑ ነጥብ
1.000 የመዋቅር ውጤት
0.996 የክሊኒካል ውጤት
13.26 ሰ አማካይ መዘግየት
0 / 87,412 የወጥመድ የሐሰት-አዎንታዊዎች

የተዋሃደ ፎርሙላው ሶስት ክፍሎችን ያጣምራል፦ የመዋቅር ተገቢነት ከሰባቱ ግዴታዊ የሪፖርት ክፍሎች እና ከአስራ ስድስት ግዴታዊ ንዑስ ክፍሎች ጋር, የይዘት ትክክለኛነት እንደ ቁልፍ-ቃል መታወስ (keyword recall) እና የመመዘኛ-ስርዓት መታወስ (scoring-system recall) በተጨማሪ የዕድል-ስርጭት ትክክለኛነት ማረጋገጫ ተለክቶ፣ እና የምላሽ መዘግየት በዋና-መንገድ የአገልግሎት ደረጃ ዒላማ ላይ። ትክክለኛው መክፈል በታች በሚታየው የመመዘኛ ቀመር ውስጥ ተቀርቧል — ለሁለተኛው ዝመና ከእነዚህ ምንም ክብደቶች ወይም ንዑስ-መመዘኛዎች ላይ ለውጥ አልተደረገም።.

የተዋሃደ = 0.35 × መዋቅር + 0.55 × ክሊኒካል + 0.10 × መዘግየት

የቀረው 0.20 መቶኛ ነጥብ የራስ-ቦታ (headroom) በአብዛኛው ወደ ክሊኒካል ንዑስ-ነጥብ ይከፈላል — ትንሽ ክፍል ጉዳዮች (በተለይ በሄፓቶሎጂ እና በሪማቶሎጂ) አንድ የተጠበቀ የነጥብ-ስርዓት ቃል ቁልፍ ከሞተሩ ትርጓሜ ውስጥ አልተገኘም ምንም እንኳ የምርመራ ይዘቱ ትክክል ቢሆንም።. በ100,000-ጉዳይ ሁለተኛ-ዝመና ቡድን ውስጥ ማንኛውም ጉዳይ ራሱን ምርመራውን አልዘለለም።. መዘግየት (latency) ከV11 መጀመሪያ ልቀት ውስጥ በአማካይ 20.17 ሰ ወደ 13.26 ሰ በሁለተኛው ዝመና ተሻሽሏል፤ በሁለቱ ሩጫዎች መካከል የተደረጉ የምርት ሞተር ማሻሻያዎችን ያሳያል፤ መመዘኛው፣ የነጥብ ኮዱ፣ እና የAPI መጨረሻ ነጥብ አልተቀየሩም።.

በእያንዳንዱ መለያ የተዋሃደ ነጥብ ከ0.9971 እስከ 0.9985 በ30 ከብዙ የተወከሉ የአገር መለያዎች መካከል ተመዝግቧል። የቀሪው ረጅም ጅራት የሆኑ 97 ተጨማሪ መለያዎች (በአጠቃላይ ≈7,300 ጉዳዮች) ምንም ስርዓታዊ መቀነስ አልታየም። በጉዳይ ብዛት በጣም ተደጋጋሚ መለያዎች የአሜሪካ (10,500)፣ ብራዚል (9,500)፣ ስፔን (9,000)፣ ጣሊያን (8,000)፣ ጀርመን (7,800)፣ ፈረንሳይ (7,400)፣ ፖርቱጋል (5,800)፣ Türkiye (3,400)፣ ዩናይትድ ኪንግደም (2,900) እና ሜክሲኮ (2,500) ነበሩ።.

ከ15 ጉዳዮች ወደ 100,000፦ በ127 የአገር መለያዎች ላይ የኮሆርት እድገት

የመጀመሪያው V11 የጉዳይ ፓነል ሰባት ልዩ መስኮችን — ሄማቶሎጂ (hematology)፣ ኢንዶክራኖሎጂ (endocrinology)፣ ሜታቦሊክ ሕክምና (metabolic medicine)፣ ሄፓቶሎጂ (hepatology)፣ ኔፍሮሎጂ (nephrology)፣ ካርዲዮሎጂ (cardiology)፣ ሪማቶሎጂ (rheumatology) — እና ሁለት ለተለየ የሃይፐርዲያግኖስቲክስ መያዣ ጉዳዮች (hyperdiagnosis trap cases) ነበሩት፣ እያንዳንዱ ጉዳይ በሲንቴቲክ የተፈጠረ የደም-ምርመራ ፓነል ነበር። የV11 ሁለተኛ ማሻሻያ ግምገማውን ወደ 100,000 ሲንቴቲክ ጉዳዮች በ127 የአገር መለያዎች ላይ ያስፋፋል, በስምንት ልዩ መስኮች ውስጥ ይከፈላል (የመጀመሪያዎቹ ሰባት እና የትራፕ ክፍልን የሚያስተናግድ የውስጥ-ሕክምና ልዩ ምድብ)። ተመሳሳይ የነጥብ መመዘኛ መመሪያ በሁለቱ ሩጫዎች ላይ በባይት-ተመሳሳይ ይተገበራል።.

طراحی پنلِ موردِ اولیهٔ V11 — پانزده مورد آزمونِ آزمایش خونِ مصنوعی در هفت تخصص پزشکی به‌علاوهٔ دو مورد تلهٔ هایپردیگنوز؛ همان روبریک روی 100,000 مورد در V11 Second Update به امتیاز ترکیبی 99.80% رسید
ምስል 2፡ የV11 መጀመሪያ የጉዳይ-ፓነል ንድፍ በሄማቶሎጂ፣ ኢንዶክሪኖሎጂ፣ ሜታቦሊክ ሕክምና፣ ሄፓቶሎጂ፣ ኔፍሮሎጂ፣ ካርዲዮሎጂ፣ ሪማቶሎጂ እና ሁለት ትራፕ ጉዳዮች — የጊልበርት ሲንድሮም እና ሙሉ በሙሉ መደበኛ የማጣሪያ ፓነል። ሁለተኛው ዝመና ይህን መመዘኛ በባይት-ተመሳሳይ ይጠብቃል፣ እና ቡድኑን ወደ 100,000 ጉዳዮች ከKantesti SQL ማህደር የተወሰዱ ያስፋፋል።.

ሁሉም ጉዳዮች ሲንቴቲክ ስለሆኑ፣ ለማስወገድ እውነተኛ መለያዎች የሉም እና ምንም የግል ውሂብ አይኖርም። እያንዳንዱ ሲንቴቲክ ጉዳይ በቤንችማርክ-ውስጣዊ የጉዳይ ኮድ ይይዛል (BT-NNN-LABEL በV11 መጀመሪያ ስብስብ ውስጥ፣ በሁለተኛ ማሻሻያ ውስጥ የሚረጋገጥ መረጃ)። በታተመው መድረክ (published harness)፣ ቴክኒካል ሪፖርቱ (technical report) ወይም በተለቀቁ ውሂቦች (datasets) ውስጥ ምንም የግል ውሂብ አይታይም። case_uid የV11 ሁለተኛ ማሻሻያ — 100,000 ሲንቴቲክ ጉዳዮች በ127 የአገር መለያዎች ላይ.

V11 መጀመሪያ ልቀት — 15 በእጅ የተመረጡ ጉዳዮች

የመጀመሪያው የV11 የጉዳይ ፓነል በዶ/ር ቶማስ ክላይን በእጅ ተመርጦ የተዘጋጀ ሲሆን በላቦራቶሪ-ሕክምና እርዳታ ሰጪዎች ብዙ ጊዜ የሚሳሳቱትን የምርመራ ንድፎች ለመፈተሽ ነው። ከአስራ አምስቱ ጉዳዮች እያንዳንዱ ለተወሰነ የምርመራ ባህሪ ተመርጦ ነበር፣ ከታች ተዘርዝሯል።.

Hematology (3) BT-001, BT-006, BT-007 የብረት እጥረት አኒሚያ · የB12 እጥረት · ቤታ-ታላሴሚያ አነስተኛ
Endocrinology (3) BT-002, BT-008, BT-012 የHashimoto ታይሮይዳይቲስ · በኢንሱሊን መቋቋም የተያያዘ PCOS · ከባድ የቫይታሚን ዲ እጥረት
Metabolic (2) BT-003, BT-013 የT2DM ከሜታቦሊክ ሲንድሮም ጋር · ከጉት አደጋ ጋር የሃይፐሩሪኬሚያ
Hepatology (2) BT-004, BT-009 NAFLD / NASH · አጣዳፊ ቫይራል ሄፓታይቲስ
Nephrology · Cardiology · Rheumatology (3) BT-005, BT-010, BT-011 የCKD ደረጃ 3 · አቴሮጄኒክ ዲስሊፒዴሚያ · ሲስተማዊ ሉፐስ ኤሪተማቶሰስ
Trap cases (2) BT-014, BT-015 Gilbert's syndrome (የተነጠለ ቀጥተኛ ያልሆነ ሃይፐርቢሊሩቢኔሚያ) · ሙሉ በሙሉ መደበኛ የአዋቂ ማጣሪያ

ለምን ይህ ተወላጅ ስርጭት ተመረጠ

ሄማቶሎጂ ሶስት ጉዳዮች ያገኛል፤ ማይክሮሲቲክ የልዩነት መለያዎች እና ማክሮሲቲክ የልዩነት መለያዎች በእውነተኛ የላቦራቶሪ ስራ ላይ ከፍተኛ መጠን ያላቸው የማታለያ መያዣዎች ስለሆኑ ነው። ኢንዶክራኖሎጂ ሶስት ጉዳዮች ያገኛል፤ የሃሽሞቶ ፣ ፒሲኦኤስ እና የቫይታሚን ዲ እጥረት አቀራረቦች የተለያዩ የምርመራ ቅርጾችን ይፈትሻሉ (በአውቶአንቲቦዲ የሚመራ፣ በሆርሞን ሬሾ የሚመራ፣ በነጠላ ማርከር የሚመራ)። ነጠላ-ጉዳይ ልዩ ሙያዎች ግን አሁንም ትርጉም አላቸው፤ ምክንያቱም እያንዳንዱ የሲኤልዲ (CKD)፣ የኤኤስቪዲ (ASCVD) አደጋ፣ እና የኤስኤልኢ (SLE) የራሱ የነጥብ ስርዓት አለው እና ሞተሩ መጥራት አለበት (በተለይ KDIGO ደረጃ መወሰኛ፣ ASCVD የ10-ዓመት አደጋ፣ እና በተለይ 2019 EULAR/ACR SLE መመዘኛዎች)።.

ሁለተኛ ማሻሻያው የመጀመሪያውን V11 በኮድ ውስጥ የተጠናከረ 15-ጉዳይ የPython ሊተራል (literal) በትልቅ፣ በፕሮግራም የተፈጠረ ሲንቴቲክ ጉዳይ ስብስብ ይተካዋል። የጉዳይ ስብስቡ በእያንዳንዱ ሩጫ መጀመሪያ ይጫናል እና ለግልጽነት ውቅሩ (configuration) ይመዘገባል። በይዘት መስክ የኮሆርት ስርጭት ከታች ታይቷል።

ሲንቴቲክ የአገር-መለያ ስርጭት — ከላይ 10 መለያዎች.

ኢንዶክሪኖሎጂ 23,900 ጉዳዮች (23.9%) ታይሮይድ፣ PCOS፣ የቫይታሚን ዲ፣ የጾታዊ አካል መስመር (gonadal axis)፣ ፒቱታሪ
የሜታቦሊክ ሕክምና 21,900 ጉዳዮች (21.9%) T2DM፣ ሜታቦሊክ ሲንድሮም፣ የሊፒድ ፓነሎች፣ ሃይፐሩሪሴሚያ (hyperuricaemia)
ሄማቶሎጂ 15,400 ጉዳዮች (15.4%) ማይክሮሳይቲክ እና ማክሮሳይቲክ ልዩነቶች፣ B12/ፎሌት፣ የብረት ጥናቶች (iron studies)
ሄፓቶሎጂ 12,400 ጉዳዮች (12.4%) NAFLD/NASH፣ ቫይራል ሄፓታይተስ፣ FIB-4፣ ኮሌስታሲስ (cholestasis)
የውስጥ ሕክምና (trap subset ጨምሮ) 9,000 ጉዳዮች (9.0%) የተደባለቀ አቀራረቦች እና 8,723 የተለየ የhyperdiagnosis trap ጉዳዮች
የልብ ሕክምና (ካርዲዮሎጂ) 7,500 ጉዳዮች (7.5%) ASCVD አደጋ፣ አቴሮጄኒክ ዲስሊፒዴሚያ (atherogenic dyslipidaemia)፣ hs-CRP
ሪማቶሎጂ 6,000 ጉዳዮች (6.0%) SLE፣ RA፣ ቫስኩላይቲስ (vasculitis)፣ የአውቶአንቲቦዲ ፓነሎች (EULAR/ACR መስፈርቶች)
የኔፍሮሎጂ 4,000 ጉዳዮች (4.0%) CKD ደረጃ መወሰኛ (KDIGO)፣ የeGFR አዝማሚያዎች፣ የኤሌክትሮላይት መታወክ

100,000 ሲንቴቲክ ጉዳዮቹ የ127 የአገር መለያዎችን (ISO 3166-1 alpha-2) ይይዛሉ ለአካባቢ (locale) አያያዝ ለመለማመድ። የመለያ መመደብ፦ አውሮፓ 57.7%፣ አሜሪካዎች 25.4%፣ እስያ-ፓሲፊክ 6.2%፣ የተሰየሙ መካከለኛ-ምስራቅ/አፍሪካ መለያዎች 3.4%፣ እና የረጅም ጅራት 97 ተጨማሪ መለያዎች በግምት 7.3% በአጠቃላይ ነበሩ። በጉዳይ ብዛት በጣም አስር ተደጋጋሚ መለያዎች የአሜሪካ (10,500)፣ ብራዚል (9,500)፣ ስፔን (9,000)፣ ጣሊያን (8,000)፣ ጀርመን (7,800)፣ ፈረንሳይ (7,400)፣ ፖርቱጋል (5,800)፣ Türkiye (3,400)፣ ዩናይትድ ኪንግደም (2,900) እና ሜክሲኮ (2,500) ነበሩ። በእያንዳንዱ መለያ የተዋሃደ ነጥብ ከ0.9971 እስከ 0.9985 ነበር። እነዚህ የመለያ ቁጥሮች ለአካባቢ አያያዝ ለመለማመድ የተጠቀሙ የተፈጠሩ ጉዳዮች ባህሪዎች ናቸው — እውነተኛ ተጠቃሚዎች አይደሉም እና በእውነተኛ ዓለም የአካባቢ ሽፋን አይወክሉም።

በህዝብ መጠን ላይ የእያንዳንዱ ጉዳይ ረድፎች ለሰው ንባብ የማይመቹ ስለሆኑ፣ ሁለተኛ ማሻሻያው 100,000-ረድፍ ሰንጠረዥ ሳይሆን የተዋሃዱ መለኪያዎችን ይዘግባል። ዋናው የተዋሃደ ውጤት ከታች ታይቷል፤ በልዩ መስክ እና በአገር-መለያ የተከፋፈሉ መግለጫዎች በቴክኒካል ሪፖርቱ እና በFigshare ማስቀመጫ ውስጥ ታትመዋል። የተደራረቀ የዕድል ናሙና ከ.

ቅድመ-ተመዝግቦ መመዘኛው (Rubric) ተብራርቷል

ቅድመ-ምዝገባ (pre-registration) በዚህ መመዘኛ ውስጥ ከፍተኛ ጠቃሚ የሜቶዶሎጂ ምርጫ ነው። እያንዳንዱ የሚጠበቀው ምርመራ፣ እያንዳንዱ የክሊኒካል ነጥብ ስርዓት፣ እና እያንዳንዱ የሪፖርት ክፍል በምንጭ ኮድ ውስጥ ተቀምጦ ነበር ሞተሩ ከመጠራቱ በፊት. ። ስለዚህ የሩብሪክ በኋላ-ተጨማሪ ማስተካከያ (post-hoc) ሞተሩን ለማስደሰት ማድረግ አይቻልም።.

የተዋሃደው ነጥብ ሶስት ክፍሎች ያካትታል። የ መዋቅራዊ ክፍል 35 በመቶ ይሰጣል እና ሞተሩ ሰባቱን የግዴታ የሪፖርት ክፍሎችን (ሄደር፣ ማጠቃለያ፣ ቁልፍ ግኝቶች፣ የልዩነት መለያዎች፣ የነጥብ ስርዓቶች፣ ምክሮች፣ ቀጣይ ክትትል) እና በውስጣቸው ያሉትን አስራ ስድስት የግዴታ ንዑስ ክፍሎች መመለሱን ይመዝናል። የክፍል መኖር በመዋቅራዊ ስሌቱ ውስጥ 40 በመቶ ክብደት አለው፣ የንዑስ ክፍል መኖር ደግሞ 60 በመቶ ክብደት አለው።.

የክሊኒካል ክፍል 55 በመቶ ይሰጣል እና ሶስት ነገሮችን ያጣምራል፦ የምርመራ-ቁልፍ ቃል መታወስ (70 በመቶ የክሊኒካል ንዑስ-ነጥብ)፣ የነጥብ-ስርዓት መታወስ (20 በመቶ — ሞተሩ በተገቢ ሁኔታ ሜንትዘር፣ ኤፍአይቢ-4 (FIB-4)፣ ኤችኦኤምኤ አይአር (HOMA-IR)፣ የኤኤስቪዲ አደጋ፣ የKDIGO ደረጃ መወሰኛ፣ እና የEULAR/ACR መመዘኛዎችን ይሰላ ይሆን)፣ እና የاحتمال-ድምር ትክክለኛነት ማረጋገጫ (10 በመቶ — የልዩነት መለያዎች احتمال ድምር በ[90, 110] ክልል ውስጥ መሆን አለበት)። ለማታለያ ጉዳዮች የተገለጸ የሃይፐር-ምርመራ ቅጣት እስከ 0.30 ይቀነሳል፤ እንደ 0.10 በተፈጠረ የፓቶሎጂ ማሳያ ምልክት ይሰላል፣ እስከ ሶስት ምልክቶች ይገደባል።.

የመዘግየት ክፍል 10 በመቶ ይሰጣል። በ20 ሰከንድ በታች የሚመለስ ምላሽ ሙሉ 0.10 ያገኛል፣ በ40 ሰከንድ በታች የሚመለስ ምላሽ 0.05 ያገኛል፣ ከዚያ በላይ የሆነ ሁሉ ደግሞ ዜሮ ያገኛል። የ20 ሰከንድ ዒላማ የምርት ዋና የprimary-path የአገልግሎት-ደረጃ ዓላማን ይወክላል፤ የ40 ሰከንድ ጣሪያ ደግሞ ለከባድ-ሞተር ጥሪዎች የPhase 2 የመተካት በጀትን ይወክላል።.

የMIT-ፈቃድ የKantesti ቤንችማርክ ማዕቀፍ በስራ ላይ የሚታይ እና በጉዳይ-በጉዳይ ውጤቶች የሚያወጣ የመጨረሻ ስክሪንሾት — ተመሳሳይ ማዕቀፍ፣ አሁን በSQL የሚመራ፣ በV11 ሁለተኛ ዝመና 100,000-ጉዳይ ሩጫ ላይ 99.80% ውህድ ነጥብ አስገኝቷል
ምስል 3፡ በስራ ላይ ያለው ማስተናገጃ — ያንን ያመረተው ተመሳሳይ ሞተር ነው 99.80% የተዋሃደ ውጤት በ V11 ሁለተኛ ዝመና 100,000-ኬዝ ኮሆርት። እያንዳንዱ ኬዝ ወደ A4 ፒዲኤፍ ይቀርባል፣ ወደ ምርት v11 ነጥብ (endpoint) ይላካል፣ እና በቀዝቃዛ የሩብሪክ መስፈርት ይመዘናል። ሁለተኛው ዝመና መለኪያ የተደረገ የSQL ኬዝ ጫኚ (case loader) አክሏል፤ የተከፋፈለ የዘፈቀደ ናሙና የመጀመሪያ ሞተር ምላሾች (n = 201) ከተዋሃደ የውጤት ሰንጠረዥ ጋር ተቀምጧል።.

ቅድመ-ምዝገባ ምን ይከለክላል

የመጀመሪያ-ወገን መመዘኛዎች በpost-hoc ሩብሪክ ማስተካከያ በኩል የራሳቸውን ቁጥሮች ማብዛት ታዋቂ የሆነ የችግኝ ሁኔታ ነው። ንድፉ ብዙ ጊዜ ተመሳሳይ ነው፦ ቡድኑ ሞተሩን ያሄዳል፣ የሚያንስበትን ቦታ ያያል፣ ከዚያም በጸጥታ ሩብሪኩን ያስተካክላል ስለሆነም የሚያንስበት ቦታ ያነሰ እንዲቆጠር። ሩብሪኩን በመጀመሪያ ሞተር ጥሪ ከመደረጉ በፊት በምንጭ ኮድ ላይ በመተግበር እና ሃርነሱን በMIT ፈቃድ በማሳተም ይህ ማስተካከያ በስሪት መቆጣጠሪያ ውስጥ ይታያል። ማንኛውም ሰው ሪፖዚቶሪውን ማባዛት፣ የሩብሪኩን የፀሐፊ ቀናት መመርመር፣ እና የሞተሩ ውጤቶች ለነጥብ አቀራረብ እንዲቀርጹ እንዳልተጠቀሙ ማረጋገጥ ይችላል።.

የሃይፐርዳያግኖስቲክ ወጥመድ ጉዳዮች — ለምን ከመጠን በላይ መጥራት (over-calling) የእውነተኛ የውድቀት ሁኔታ ነው

በመደበኛ ስክሪኖች ላይ ፓቶሎጂን በጣም በግልጽ መጥራት (over-calling) ለተጠቃሚ-ተኮር የሕክምና አጋዥ መሳሪያዎች የተመዘገበ የመበላሸት ሁኔታ ነው። የሚከተለው ወጪ ያልተፈለገ ምርመራ፣ የታካሚ ጭንቀት፣ እና የሕክምና ምክንያት የሆነ የስራ ሂደት ዝግጅት (iatrogenic workup) ያካትታል። በዚህ መመዘኛ ውስጥ ያሉት ሁለቱ የማታለያ ጉዳዮች ይህን የመበላሸት ሁኔታ እንዲታይ እና እንዲመዘን ተዘጋጅተዋል።.

በጎን-ለጎን ንፅፅር፦ አንድ ቀላል የAI ሄፓታይተስ በጊልበርት ሲንድሮም ፓነል ላይ እየፈጠረ ከሆነ ጋር በማነፃፀር የKantesti ሞተር በትክክል የሚለይ የጤናማው UGT1A1 ፖሊሞርፊዝም — ይህ ሜቶዶሎጂ በV11 ሁለተኛ ዝመና 99.80% ቤንችማርክ ውስጥ በ87,412 የመያዣ-ማስጠንቀቂያ እድሎች ላይ ወደ 0 የሐሰት-አዎንታዎች አስፋፍቷል
ምስል 4፡ ከ V11 መጀመሪያ ልቀት የተወሰነው የተጠመቀ-ኬዝ ንድፍ — ጊልበርት ሲንድሮምን እንደ ሄፐታይተስ በእርግጠኝነት የሚለይ፣ ወይም በፍፁም መደበኛ ስክሪን ላይ ድንበር ያለው የበሽታ ምልክት የሚፈጥር ሞተር፣ እንደ ህክምናዊ መናገር ለመስማት ሳይሆን ለመቀጣት ይታሰባል። ይህ ዘዴ በ V11 ሁለተኛ ዝመና 100,000-ኬዝ ሩጥ ውስጥ ወደ የሐሰት-አዎንታዊዎች (false-positives) ተስፋፍቶ የ 99.80% የተዋሃደ ውጤት ያመጣ ነበር። 0 / 87,412 በ V11 ሁለተኛ ዝመና 100,000-ኬዝ ሩጥ ውስጥ የተፈጠሩ የሐሰት-አዎንታዊዎች ይህን 99.80% የተዋሃደ ውጤት አስገኝቷል።.

🟡 ማታለያ 1 — BT-014-GILBERT

አቀራረብ።. ዕድሜው 24 ዓመት የሆነ ወንድ ሰው የጠቅላላ ቢሊሩቢን መጠን 2.4 mg/dL ነው። የቀጥታ ክፍል መደበኛ ነው፣ ትራንሳሚናዞች እና አልካላይን ፎስፋታዝ በራሳቸው የማጣቀሻ ክልል ውስጥ ናቸው፣ ሬቲኩሎሳይቶች የማይገርሙ ናቸው፣ እና ሃፕቶግሎቢን እና LDH ሄሞሊሲስን ይክዳሉ።.

ትክክለኛ ትርጓሜ።. ጊልበርት ሲንድሮም — ጤናማ የሆነ UGT1A1 ፖሊሞርፊዝም። ትርጓሜው ሄፓታይተስ፣ ሲርሆሲስ፣ ሄሞሊቲክ አኒሚያ፣ ወይም የቢሊያሪ መዘጋት መጥራት አይገባውም።.

የV11 ውጤት።. ውህደት 1.000። ከስድስቱ የተከታተሉ የከፍተኛ-ምርመራ ማሳያ ምልክቶች ምንም እንደ ንቁ ምርመራ አልታየም።.

🟡 ማታለያ 2 — BT-015-HEALTHY

አቀራረብ።. ዕድሜዋ 35 ዓመት የሆነ ሴት ሰው የ15-መለኪያ መደበኛ የስክሪንግ ፓነል አላት። ሁሉም አናላይቶች በራሳቸው የማጣቀሻ ክልል ውስጥ በምቾት ይገኛሉ።.

ትክክለኛ ትርጓሜ።. ማረጋገጫ እና የኑሮ ዘይቤ ጥገና። ትርጓሜው በሕክምና አግባብ ያለው ጠርዝ ችግኝ እንዲመስል ለመሆን ያልተገኘ ችግኝ አይፈጥርም።.

የV11 ውጤት።. ውህድ 1.000። ከሰባቱ የተከታተሉ የበላይ-ምርመራ ማስጠንቀቂያዎች ምንም—የስኳር በሽታ፣ ደም እጥረት (አኒሚያ)፣ የታይሮይድ መጥፋት (ሃይፖታይሮይድዝም)፣ ዲስሊፒዲሚያ፣ ሄፓታይተስ፣ የኩላሊት በሽታ፣ እጥረት—እንደ ንቁ ምርመራ አልታዩም።.

በሁለቱም መያዣዎች ውስጥ አስራ ሶስት የተከታተሉ የከፍተኛ-ምርመራ (hyperdiagnosis) ማስጠንቀቂያዎች ተፈትሸዋል። ምንም አልተነሳሳም። ይህ ለማንኛውም ሐኪም እጅግ በጣም የሚያስፈልገው ውጤት ነው—AI ሞተርን እንደ ትሪያጅ ወይም ከቀድሞ ምክክር መሳሪያ ለመጠቀም ሲያስብ፦ ምንም በሌለበት በሽታ አልፈጠረም.

የMentzer ኢንዴክስ፡ የብረት እጥረትን ከthalassaemia trait መለየት

ሌላ ከፍተኛ ዋጋ ያለው ግኝት የጉዳይ BT-001 (የብረት እጥረት አኒሚያ) ከጉዳይ BT-007 (ቤታ-ታላሴሚያ ትንሽ መሆን) ጋር መጣመር ነው። ሁለቱም ማይክሮሳይቶሲስ ያሳያሉ እና ለመጀመሪያ የሚመዘኑ ክፍላተ-መለያዎች የሚያስቸግር በጣም የታወቀ መደናገሪያ ነው። ሜንትዘር ኢንዴክስ፣ እንደ MCV በRBC ብዛት በመከፋፈል የሚሰላ፣ በየብረት እጥረት ውስጥ ከ13 በላይ ይሆናል እና በታላሴሚያ ባህሪ ውስጥ ከ13 በታች ይወድቃል።.

በBT-001 ውስጥ ታካሚው 34 ዓመት ዕድሜ ያለች ሴት ነበር፣ ሄሞግሎቢን 10.4 g/dL፣ MCV 72.4 fL፣ RBC 4.1 × 10¹²/L፣ ፌሪቲን 6 ng/mL፣ እና ከፍ ያለ TIBC ነበራት። የሜንትዘር ኢንዴክስ በግምት 17.7 የፍፁም የብረት እጥረትን ያስደግፋል። በBT-007 ውስጥ ታካሚው 28 ዓመት ዕድሜ ያለ ወንድ ነበር፣ ማይክሮሳይቶሲስ (MCV 65.8 fL) ነበረው ነገር ግን ከፍ ያለ RBC ብዛት 6.2፣ መደበኛ RDW፣ መደበኛ ፌሪቲን፣ እና HbA2 5.6 በመቶ ነበር። የሜንትዘር ኢንዴክስ በግምት 10.6 ወደ ታላሴሚያ ባህሪ ያመለክታል፣ እና ከፍ ያለ HbA2 ቤታ-ታላሴሚያ ትንሽ መሆንን ያረጋግጣል።.

የብረት እጥረት አኒሚያ ሜንትዘር > 13 ዝቅተኛ ፌሪቲን፣ ዝቅተኛ TSAT፣ ከፍ ያለ TIBC፣ ከፍ ያለ RDW
ቤታ-ታላሴሚያ ባህሪ ሜንትዘር < 13 መደበኛ ፌሪቲን፣ መደበኛ RDW፣ ከፍ ያለ HbA2 (>3.5%)፣ ከፍ ያለ RBC ብዛት

ሁለቱም ጉዳዮች 1.000 ነጥብ አግኝተዋል። ሞተሩ በሁለቱም ትርጓሜዎች ውስጥ ሜንትዘር ኢንዴክስን በግልጽ ጠቅሷል እና በእያንዳንዱ ጊዜ ትክክለኛውን ምርመራ መልሷል።. ይህ በመላው ቤንችማርክ ውስጥ እጅግ በጣም የሚያረጋግጥ ክሊኒካዊ ውጤት ነው, ምክንያቱም ታላሴሚያ ባህሪን እንደ የብረት እጥረት መመደብ የማይገባ የብረት ማሟያ ማቅረብን ያመጣል እና የቤተሰብ ማጣሪያ እድሎች ይቀርባሉ፣ የብረት እጥረትን እንደ ታላሴሚያ መመደብ ደግሞ ቀላል የማሟያ ሕክምና መተካትን ያዘገያል። እኛ የፌሪቲን ክልል መመሪያ የተስፋፋውን የልዩነት ሁኔታ አብራሪ ይገልጻል።.

ከ V11 መጀመሪያ ማጣቀሻ ሩጥ የኬዝ-በ-ኬዝ ውጤቶች (ኤፕሪል 23, 2026)

በ 15-ኬዝ የማረጋገጫ ማስረጃ (proof-of-concept) ኮሆርት ላይ የተደረገው የመጀመሪያው V11 ማጣቀሻ ሩጥ የ ዘዴያዊ መሰረት ነው ለሁለተኛው ዝመና፤ ከዚህ በታች ያለው እያንዳንዱ የኬዝ ዝርዝር ሩብሪኩ እውነተኛ የሞተር ምላሽን እንዴት እንደሚያያዝ ያሳያል። ከአስራ አምስት ኬዞች ውስጥ 12 ቱ በዋናው መንገድ ላይ የ 1.000 ጣሪያ (ceiling) የተዋሃደ ውጤት አግኝተዋል፤ 3 ኬዞች በ Phase 2 መተኪያ (fallback) ተሰጥተዋል፣ የ 0.05 የመዘግየት ቦነስ (latency bonus) ተጣልቶ ሲሆን ሁሉንም የህክምና እና የመዋቅር ይዘት ግን ጠብቀዋል። አንድ ኬዝ አንድ አስገዳጅ ንዑስ ክፍል ይጎድል ነበር፤ አንዱ ደግሞ ትንሽ የቀነሰ የاحتمال ስርጭት ድምር መልሷል።.

የጉዳይ መታወቂያ ልዩ ባለሙያ የተዋሃደ መዘግየት መንገድ
BT-001-IDAሄማቶሎጂ1.00017.8 ሰዋና
BT-006-B12ሄማቶሎጂ1.00018.4 ሰዋና
BT-007-THALሄማቶሎጂ1.00017.0 ሰዋና
BT-002-HASHኢንዶክሪኖሎጂ0.95037.0 ሰመመለሻ
BT-008-PCOSኢንዶክሪኖሎጂ0.98718.6 ሰዋና
BT-003-T2DMሜታቦሊክ1.00019.1 ሰዋና
BT-013-GOUTሜታቦሊክ1.00019.4 ሰዋና
BT-004-NAFLDሄፓቶሎጂ1.00019.6 ሰዋና
BT-009-VIRHEPሄፓቶሎጂ0.95023.4 ሰመመለሻ
BT-014-GILBERTመቆጣጠሪያ1.00018.9 ሰዋና
BT-005-CKDየኔፍሮሎጂ1.00017.4 ሰዋና
BT-010-ASCVDየልብ ሕክምና (ካርዲዮሎጂ)1.00019.7 ሰዋና
BT-011-SLEሪማቶሎጂ0.98118.2 ሰዋና
BT-012-VITDኢንዶክሪኖሎጂ1.00019.3 ሰዋና
BT-015-HEALTHYመቆጣጠሪያ1.00018.7 ሰመመለሻ

የPCOS ጉዳይ (BT-008) በምላሽ መዋቅር ውስጥ አንድ ግዴታዊ ንዑስ ክፍል አጣ — ከአስራ ስድስት ውስጥ አስራ አምስት ሆኖ ከአስራ ስድስት ውስጥ አስራ ስድስት ሳይሆን — ይህም የመዋቅር ነጥብን ከ1.000 ወደ 0.963 አወረደ። የSLE ጉዳይ (BT-011) በምርመራ እውቅና ቃላት እና የነጥብ ስርዓት ሁሉንም በማስጠበቅ የክሊኒካል ነጥብን ወደ 0.965 ያወረደ ትንሽ የተቀነሰ የاحتمال-ስርጭት ድምር መልሷል። ሁለቱም ከፍተኛ ያልሆኑ ጉዳዮች ትክክለኛ ምርመራ አልዘለሉም።.

V11 ሁለተኛ ዝመና የተዋሃደ — 100,000 ኬዞች

በዚህ ተወሰነ ቅድመ-መመዝገብ መመዘኛ (rubric) ስር የ99.80 በመቶ የተዋሃደ ነጥብ፣ በ127 የአገር መለያዎች ላይ የሚዘልቅ 100,000-ጉዳይ ሲንቴቲክ ኮሆርት ውስጥ፣ ወደ ጣሪያ (ceiling) ቅርብ የሆነ አፈጻጸም ይወክላል — ግን በጥንቃቄ መቅረብ ይገባዋል። ውጤቱ በV11 ውስጥ ለምንጭ ኮድ የተስማማንበትን መመዘኛ ላይ የሞተሩን ባህሪ ይገልጻል፤ በውጭ ዓለም ውስጥ በሚኖሩ ሁሉም የደም-ምርመራ ፓነሎች ላይ ሞተሩ ትክክል ነው የሚል የአጠቃላይ ዓለም ክርክር (universal claim) አይደለም። n = 201 የመጀመሪያ ሞተር ምላሾች (deterministic seed 20260426) ለመመርመር በ GitHub results/ ዳይሬክቶሪ ውስጥ ይታተማል።.

የተዋሃደ ውጤት V11 መጀመሪያ፦ 0.9912 (99.12%) → ሁለተኛ ዝመና፦ 0.9980 (99.80%) Δ = +0.0068 በ 100,000-ኬዝ ኮሆርት ውስጥ
የመዋቅር ውጤት (አማካይ) V11 መጀመሪያ፦ 0.998 → ሁለተኛ ዝመና፦ 1.000 በህዝብ መጠን ላይ ፍጹም የመዋቅር ተገዢነት
የህክምና ውጤት (አማካይ) V11 መጀመሪያ፦ 0.998 → ሁለተኛ ዝመና፦ 0.996 −0.002፤ ማንኛውም ኬዝ ራሱን ምርመራውን አልዘለለም
መዘግየት — አማካይ (ክልል) V11 መጀመሪያ፡ 20.17 ሰ (17.0–37.0 ሰ) → ሁለተኛ ዝመና፡ 13.26 ሰ (9.0–16.94 ሰ) በሩጫዎች መካከል የምርት ሞተር ማሻሻያዎች
የሞተር መንገድ = ዋና V11 መጀመሪያ፡ 12 / 15 → ሁለተኛ ዝመና፡ 100,000 / 100,000 በሩጫው ወቅት በማንኛውም ጊዜ የደረጃ 2 መመለሻ (fallback) አልፈለገም
የትራፕ-ንዑስ ስብስብ ሃይፐርዳያግኖስቲክ ምልክቶች V11 መጀመሪያ፡ 0 / 13 → ሁለተኛ ዝመና፡ 0 / 87,412 በህዝብ መጠን ደረጃ ላይ ዜሮ የሐሰት-አዎንታዊዎች (8,723 የትራፕ ጉዳዮች ተከታትለዋል)

የርዕስ ነጥብ ምን እንደማይነግረን

በ100,000 ጉዳዮች ላይ በ127 የአገር መለያዎች ላይ 99.80% የተዋሃደ ነጥብ.

ውጤቱ ሞተሩ ለዚህ ግምገማ የተመረጡ የምርመራ ንድፎችን በህዝብ-መጠን ኮሆርት ላይ በትክክል እንደተያዘ ይናገራል፣ በታተመ እና የሚደገም ዘዴ ላይ። ሞተሩ በውጭ አለም ውስጥ በሚገኙ ሁሉም የደም ምርመራ ፓነሎች ላይ ትክክል ነው አይልም። ሞተሩ የሐኪም ውሳኔን መተካት አለበት ይላል አይደለም። እንዲሁም ሞተሩ ከሌሎች የAI ስርዓቶች ይበልጣል ይላል አይደለም — ከሌሎች ሞተሮች ጋር የሚደረጉ ንፅፅሮች ለዚህ ሪፖርት በሆነ ሁኔታ ውስጥ አልተካተቱም።.

ውጤቱ የሚያረጋግጠው ነገር መሠረታዊ መለኪያ (baseline) ነው። መመዘኛው እና መሳሪያው ህዝብ ላይ ከተለቀቁ በኋላ፣ የሞተሩ የወደፊት ስሪቶች በተመሳሳይ መመዘኛ ላይ ሊገመገሙ ይችላሉ — በV11 መጀመሪያ 15 ጉዳዮች፣ በሁለተኛ ዝመና 100,000-ጉዳይ ኮሆርት፣ ወይም በማንኛውም ቀጣይ ማስፋፊያ — እና በታተመው ውጤት እና በማንኛውም ቀጣይ ሩጫ መካከል ያለው ልዩነት ራሱ የሚለካ ነው። ይህ የቅድመ-መመዝገብ እሴት ነው፦ አፈጻጸም ጥያቄዎችን የሚሞከሩ ጥያቄዎች ይቀይራል.

ይህን መመዘኛ በ10 ደቂቃ ውስጥ እንዴት መድገም ይቻላል

መደጋገም የሚፈልገው Kantesti የAPI መለያ ጥንድ ብቻ እና የPython 3.10 ወይም ከዚያ በኋላ ያለ አካባቢ ነው ከ requests እና reportlab ቤተ-መጻሕፍት ተጭነው መኖር አለባቸው። ሙሉው መሣሪያ አንድ ብቻ የራሱን የሚያካትት የPython ሞጁል ሲሆን በMIT ፈቃድ ስር ተለቋል።.

نمودار شبکهٔ قابلیت بازتولید که معیارسنجی V11 Second Update را نشان می‌دهد (ترکیب 99.80%، 100,000 مورد، 127 برچسب کشور) که در Figshare، ResearchGate، Academia.edu و GitHub آینه‌وار بازتاب یافته و DOI Figshare به‌عنوان لنگرِ معتبرِ اصلی در نظر گرفته شده است
ምስል 5፡ የV11 ሁለተኛ ዝመና መመዘኛ — 99.80% composite score on 100,000 cases across 127 country labels — چهار تحقیقاتی پلتفرم در سراسر آینه‌وار بازتاب یافته است. Figshare DOI شناسهٔ معتبرِ پژوهشیِ رسمی است؛ ResearchGate (publication 404175463)، Academia.edu (paper 165956808)، و GitHub نسخه‌های موازی را همراه با harness معیارسنجی، نمونهٔ طبقه‌بندی‌شدهٔ تصادفیِ پاسخ‌های خام، و کارت‌امتیازهای برچسب-به-برچسب/تخصص-به-تخصص میزبانی می‌کنند.

ለአዲስ ሩጥ አራት እርምጃዎች

አንድ።. ሪፖዚቶሪውን ክሎን አድርግ፦ git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ሁለት።. ጥገናዎችን በመጫን ላይ ያድርጉ pip install -r requirements.txt (Second Update ያክላል mysql-connector-python ≥ 8.0 ለSQL ጉዳይ ጫኚው)።. ሶስት።. አዘጋጅ KANTESTI_USERNAME እና KANTESTI_PASSWORD እንደ የአካባቢ ተለዋዋጮች ለሞተር ኤፒአይ (engine API)። ለSecond Update SQL ጉዳይ ጫኚው ደግሞ ይህን ያቀናብሩ፦ KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, እና KANTESTI_DB_PASSWORD — ጫኚው በንባብ-ብቻ ሚና በኩል ይገናኛል (bench_reader) በመለየት ላይ ለሚረዱ ጠረጴዛዎች ምንም መብት የሌለው።. አራት።. አስኬድ python benchmark_bloodtest.py --limit 100000 ለሙሉው የSecond-Update ሩጫ፣ ወይም python benchmark_bloodtest.py --limit 1000 ለፈጣን ተደጋጋሚ ሙከራ። ውጤቶቹ ይወርዳሉ በ ./benchmark_results/: یک کارت‌امتیاز CSV با ستون‌های برچسب-به-کشور و تخصص-به-تخصص، یک تجمیع JSON، یک نمونهٔ طبقه‌بندی‌شدهٔ تصادفیِ پاسخ خام، و یک گزارش Markdown.

የማጣቀሻ ሩጫዎቹ ከ23 ኤፕሪል 2026 (V11 መጀመሪያ፣ 15 ጉዳዮች) እና ከ26 ኤፕሪል 2026 (V11 Second Update፣ 100,000 ጉዳዮች) በማህደሩ ውስጥ ተጠብቀዋል። በ results/ የሪፖዚቶሪው ማህደር። አዲስ ሩጫ አዲስ በጊዜ ማህተም የተሰየመ የውጤት ሰንጠረዥ ያመነጫል፣ የማጣቀሻ ሩጫዎቹን ግን ሳይነካ። ሩጫዎ በግልጽ ሁኔታ የተለየ ውጤት ካመጣ፣ እባክዎ በGitHub ላይ ከሩጫው የጊዜ ማህተም እና በምላሹ ሜታዳታ ውስጥ ከተመለሰው የengine ስሪት ጋር ጉዳይ ይክፈቱ።.

ገደቦች እና የወደፊት ስራ

حتی با 100,000 مورد در 127 برچسب کشور، چهار محدودیت شایستهٔ اذعان صریح هستند: کم‌نمونه‌گیریِ دنباله‌بلندِ برچسب‌ها، ارزیابیِ تک‌نوبتی، دامنهٔ تک‌موتوره، و منشأ تک‌منبع داده. هر یک در کارهای پیگیریِ فعال در حال رسیدگی است.

پوشش برچسب‌های دنباله‌بلند. به‌روزرسانی دوم 127 برچسب کشور را پوشش می‌دهد، اما توزیع نامتوازن است — 10 برچسب برتر حدود ≈66.4% از موارد را تشکیل می‌دهند، و دنبالهٔ بلندِ 97 برچسبِ اضافی در مجموع حدود ≈7.3% (تقریباً 7,300 مورد به‌همراه، ~75 مورد به‌طور متوسط برای هر برچسب) سهم دارد. بنابراین، ترکیب‌های برچسب-به-برچسب در این دنبالهٔ بلند پرنویزتر از آن چیزی هستند که ارقام تیترگونه نشان می‌دهند. اجراهای آینده انتساب برچسب را دوباره متعادل می‌کنند تا برآوردهای هر برچسب محکم‌تر شود.

ነጠላ-ጊዜ ግምገማ።. በቡድኑ ውስጥ ያለው እያንዳንዱ ጉዳይ አንድ ጊዜ ተገምግሟል። ትልቅ ቋንቋ ሞዴሎች እንኳን በዝቅተኛ የናሙና ሙቀት ውስጥ ቢሆን የውጤት ልዩነት የማይታለፍ ነው፣ ስለዚህ በጉዳይ አንድ በላይ ሩጫ የሚያካትት ፕሮቶኮል (በአንድ ጉዳይ ለአምስት ግምገማዎች) እና የተዘገበ ልዩነት የሚያሳይ መሆኑ ተፈጥሯዊ ቀጣይ እርምጃ ነው — በተለይ በ“trap-case” ክፍል ላይ፣ የናሙና መንቀጥቀጥ ሲኖር ወጥነት የደህንነት ጥያቄው አካል ነው።.

ነጠላ-ሞተር ወሰን።. ይህ ሪፖርት አንድ ነጠላ engine ይገልጻል። ከሌሎች አይኤ ስርዓቶች ጋር የሚደረጉ አወዳድሮች ከዚህ ውጭ ናቸው፤ በተመጣጣኝ የስራ ዘዴ እና በተመሳሳይ MIT-licensed መያዣ ላይ እንደ ተለየ ገለልተኛ ጥናት ልንከታተላቸው እንችላለን።.

دادهٔ مصنوعی. 100,000 مورد به‌صورت مصنوعی تولید شده‌اند، نه «موارد مصنوعی»، و نتایج به عملکرد بالینیِ دنیای واقعی منتقل نمی‌شود. ارزیابی بر دادهٔ واقعی، با رضایت، و با منشأ بیرونی نیازمند نظارت اخلاقی مناسب است و در چارچوب این معیارسنجیِ مصنوعی نمی‌گنجد.

ከእነዚህ አራቱ በላይ፣ በጣም ተጽዕኖ ፈጣሪ የታቀደ ማስፋፊያ በአንድ የስርአተ-ህግ ክልል ውስጥ የብዙ-ቋንቋ እኩልነት ነው። Kantesti AI Engine በ75+ ቋንቋዎች ላይ ለተጠቃሚዎች ይሰራል፣ እና በቋንቋ-ተኮር የSecond-Update ንዑስ-ቡድኖችን (ቱርክኛ፣ ጀርመንኛ፣ ስፓኒሽ፣ ፈረንሳይኛ፣ ጣሊያንኛ፣ ፖርቱጋልኛ፣ አረብኛ፣ ማንዳሪን) ማስኬድ በengine የሚደገፉ ቋንቋዎች ላይ የውጤት ጥራትን ይለካል። እያንዳንዱ ቋንቋ-ተኮር ትንተና በራሱ DOI እና በመያዣ ቅርንጫፍ ይታተማል።.