Kwa nini kiwango hiki cha kulinganisha kipo na kinachojaribu

Tafsiri ya vipimo vya damu kwa usaidizi wa AI inatumika zaidi na zaidi katika mazingira ya watumiaji na ya kliniki, hata hivyo mifumo ya tathmini inayoweza kurudiwa inayolengwa kwa tiba ya maabara bado ni nadra. Maswali muhimu zaidi katika mazingira haya si yale yanayofunikwa na viwango vya jumla vya kujibu maswali ya matibabu: je, injini inaweza kutenganisha upungufu wa madini ya chuma na sifa ya thalassaemia wakati kiasi cha wastani cha chembe nyekundu za damu (MCV) ni sawa, je, inaweka utambuzi wa ugonjwa wa Gilbert kupita kiasi kama hepatitis, na je, inatengeneza ugonjwa kwenye paneli ya uchunguzi iliyo ya kawaida kabisa?

Mchoro wa mtiririko wa rubric uliosajiliwa mapema unaoonyesha jinsi Kantesti AI Engine — Sasisho la Pili la V11, alama ya 99.80% composite kwenye visa 100,000 — inavyotathminiwa dhidi ya vigezo vya upimaji vilivyogandishwa
Mchoro 1: Usanifu wa kielelezo (benchmark) unaoendesha Alama ya pamoja 99.80% kwenye kundi la kesi 100,000 la V11 Second Update — kila kesi, kila neno muhimu, kila mfumo wa kuhesabu (scoring system) umewekwa kwenye msimbo wa chanzo kabla ya injini kuona hata PDF moja, na rubriki (rubric) ni sawa kabisa kwa biti (byte-identical) na toleo la awali la V11. Kurekebisha rubriki baada ya tukio (post-hoc) haiwezekani kwa muundo.

Kundi moja la vipimo vya damu kwa kawaida huwa na taarifa za kutosha kusaidia tafsiri kadhaa zinazoshindana, na kazi ya daktari anayezitafsiri ni kupima tafsiri hizo dhidi ya kila nyingine badala ya kutafuta jibu la kitabu. Injini inayofanya vizuri kwenye visa vya kitabu bado inaweza kushindwa kwenye visa vinavyohusu zaidi: mitego ya utambuzi tofauti, tofauti zisizo na madhara ambazo huonekana za kutisha zikisimama peke yake, na paneli zilizo kawaida kabisa zinazowajaribu wasaidizi wenye kujiamini kutengeneza ugonjwa.

Kiwango hiki cha tathmini kilijengwa hasa kuzunguka njia hizo za kushindwa. Kila kati ya visa kumi na tano ilichaguliwa kwa sifa maalum ya uchunguzi: microcytosis inayotokana na upungufu wa chuma ambayo lazima ibaki tofauti na sifa ya beta-thalassaemia yenye mean corpuscular volume inayofanana, hali ya ugonjwa wa Gilbert ambapo kasoro pekee ni ongezeko la pekee la bilirubina ya moja kwa moja, na paneli ya uchunguzi ya vigezo kumi na tano ambamo kila kipimo kiko ndani ya kiwango chake cha rejea. Kanuni hiyo huipa tuzo injini zinazosomea kila kisa kwa masharti yake, na huipunguzia alama injini zinazofikia utambuzi wa kujiamini pale ambapo hakuna utambuzi kama huo unaostahili.

Kama Thomas Klein, MD, nilichagua paneli ya visa kwa sababu hizi ndizo mifumo ninayoona wasaidizi wa tiba ya maabara wakikosea mara nyingi zaidi. Njia ya kushindwa yenye gharama kubwa si "kukosa ugonjwa adimu"—ni kutengeneza ugonjwa wa kawaida kwa wagonjwa ambao hawana. Yetu Uthibitishaji wa Matibabu hub inaeleza mfumo mpana; ukurasa huu unaeleza uthibitisho wa awali wa V11 na Sasisho la Pili la V11 lililolipanua hadi kesi 100,000 za kielelezo zilizochukuliwa kutoka kwenye seti ya kesi ya kielelezo inayojumuisha lebo 127 za nchi — kwa kutumia rubriki ile ile ya kuhesabu, sawa kabisa kwa biti, bila kuruhusiwa marekebisho ya baadae (post-hoc).

Uendeshaji wa rejea wa hivi karibuni — V11 Second Update (Aprili 26, 2026)

Uendeshaji wa rejea wa V11 Second Update wa tarehe 26 Aprili 2026 ulitoa alama ya jumla (composite score) ya 99.80% kwenye rubriki ile ile iliyosajiliwa mapema (pre-registered) iliyotumika katika toleo la awali la V11, iliyotathminiwa kwenye Kesi za kielelezo 100,000 zilizochukuliwa kutoka kwenye seti ya kesi ya kielelezo ya Kantesti na zinazojumuisha lebo 127 za nchi na lugha za 75+. Kila kesi ilikamilika kwenye njia kuu ya injini; uanzishaji wa bendera ya hyperutambuzi (trap-case hyperdiagnosis) ulibaki 0 / 87,412. Uendeshaji wa awali wa V11 wa tarehe 23 Aprili 2026 ulihusisha kesi 15 zilizochaguliwa kwa uangalifu (hand-curated) (alama ya jumla 99.12%) na kuthibitisha rubriki; Second Update inaweka rubriki hiyo hiyo iwe byte-identical na inaongeza tathmini hadi kundi la ukubwa wa idadi ya watu (population-scale cohort).

Jumla 99.80% Kesi 100,000 kati ya 100,000 zilipata alama
1.000 Alama ya muundo
0.996 Alama ya kliniki
13.26 s Wastani wa muda wa kusubiri
0 / 87,412 Mitego ya chanya ya uongo

Mfumo wa jumla huchanganya vipengele vitatu: ulinganifu wa muundo na sehemu saba za lazima za ripoti na sehemu ndogo kumi na sita za lazima, usahihi wa maudhui unaopimwa kama kumbukumbu ya maneno (keyword recall) pamoja na kumbukumbu ya mfumo wa alama (scoring-system recall) pamoja na ukaguzi wa uhalali wa usambazaji wa uwezekano, na muda wa majibu dhidi ya lengo la kiwango cha huduma (service-level target) la njia kuu. Uchanganuzi halisi (exact decomposition) unaonyeshwa kwenye fomula ya rubriki hapa chini — hakuna uzito (weights) wala rubriki ndogo (sub-rubrics) uliobadilishwa kwa Second Update.

Jumla = 0.35 × Muundo + 0.55 × Kliniki + 0.10 × Muda wa kusubiri

Sehemu iliyobaki ya pointi 0.20 za asilimia za nafasi (headroom) hutengana karibu kabisa hadi kwenye alama ndogo ya kimatibabu (clinical sub-score) — sehemu ndogo ya kesi (hasa katika Hepatology na Rheumatology) ilikuwa na neno muhimu la mfumo wa kuhesabu (scoring-system keyword) lililokosekana kwenye tafsiri ya injini, ingawa maudhui ya uchunguzi (diagnostic content) yalikuwa sahihi. Hakuna kesi hata moja katika kundi la kesi 100,000 la Second Update iliyokosa utambuzi yenyewe. Muda wa kusubiri (latency) uliimarika kutoka wastani wa 20.17 s katika toleo la awali la V11 hadi 13.26 s katika Second Update, ikionyesha uboreshaji wa injini ya uzalishaji (production engine optimisations) kati ya uendeshaji huo; rubriki, msimbo wa kuhesabu, na mwisho wa API (API endpoint) havijabadilika.

Alama za muunganiko kwa kila lebo zilianzia 0.9971 hadi 0.9985 katika lebo 30 zilizoonekana zaidi. Mkia mrefu wa lebo 97 za ziada (≈ kesi 7,300 kwa pamoja) haukuonyesha kupungua kwa utaratibu. Lebo zilizoonekana mara nyingi zaidi kwa idadi ya kesi zilikuwa Marekani (10,500), Brazil (9,500), Hispania (9,000), Italia (8,000), Ujerumani (7,800), Ufaransa (7,400), Ureno (5,800), Türkiye (3,400), Uingereza (2,900), na Mexico (2,500).

Kutoka kesi 15 hadi kesi 100,000: mabadiliko ya kundi katika lebo 127 za nchi

Jopo la awali la kesi la V11 lilifunika taaluma saba — hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — pamoja na kesi mbili maalum za mtego wa hyperdiagnosis, huku kila kesi ikiwa paneli ya vipimo vya damu iliyotengenezwa kwa kielelezo. Sasisho la Pili la V11 linaongeza tathmini hadi kesi 100,000 za kielelezo katika lebo 127 za nchi, zikiwa zimegawanywa katika taaluma nane (saba za awali pamoja na kundi maalum la tiba ya ndani ya ndani (internal medicine) linalochukua sehemu ya trap). Rubriki ile ile ya kuhesabu inatumika kwa byte-identical katika uendeshaji wote.

Muundo wa paneli ya kesi ya awali ya V11 — kesi kumi na tano za damu zilizotengenezwa kwa kubuni (synthetic blood-test cases) katika taaluma saba za matibabu pamoja na kesi mbili za mtego wa hyperdiagnosis; rubriki ileile ilifikia alama ya jumla ya 99.80% kwenye kesi 100,000 katika Sasisho la Pili la V11
Mchoro 2: Muundo wa awali wa jopo la kesi la V11 katika hematolojia, endokrinolojia, tiba ya kimetaboliki, hepatolojia, nefrologia, kardiolojia, réumatolojia, pamoja na kesi mbili za trap — ugonjwa wa Gilbert (Gilbert's syndrome) na jopo la uchunguzi lililo la kawaida kabisa (fully normal screening panel). Second Update huhifadhi rubriki hii kwa byte-identical huku ikiendelea kuongeza kundi hadi kesi 100,000 zilizochukuliwa kutoka kwenye hazina ya Kantesti ya SQL.

Kwa kuwa kesi zote zimetengenezwa kwa kielelezo, hakuna vitambulisho halisi vya kuondoa na hakuna data binafsi inayohusika. Kila kesi ya kielelezo hubeba msimbo wa kesi wa ndani wa kipimo (BT-NNN-LABEL katika seti ya awali ya V11, thabiti case_uid katika Sasisho la Pili). Hakuna data binafsi inayoonekana popote kwenye mfumo uliowekwa hadharani, ripoti ya kiufundi, au seti za data zilizotolewa.

toleo la awali la V11 — kesi 15 zilizochaguliwa kwa uangalifu (hand-curated)

Jopo la awali la kesi la V11 liliandaliwa kwa uangalifu kwa mkono na Dk. Thomas Klein ili kuonyesha mifumo ya utambuzi ambayo wasaidizi wa tiba ya maabara huikosea mara nyingi. Kila mojawapo ya kesi kumi na tano ilichaguliwa kwa sifa mahususi ya utambuzi, kama ilivyoorodheshwa hapa chini.

Hematolojia (3) BT-001, BT-006, BT-007 Upungufu wa damu unaosababishwa na upungufu wa madini ya chuma · Upungufu wa B12 · Beta-thalassemia ndogo
Endocrinolojia (3) BT-002, BT-008, BT-012 Thyroiditis ya Hashimoto · PCOS yenye upinzani wa insulini · Upungufu mkubwa wa vitamini D
Kimetaboli (2) BT-003, BT-013 T2DM yenye ugonjwa wa kimetaboli · Hyperuricaemia yenye hatari ya gout
Hepatolojia (2) BT-004, BT-009 NAFLD / NASH · Hepatitis ya papo hapo ya virusi
Nefrologia · Kardiolojia · Rhematolojia (3) BT-005, BT-010, BT-011 Hatua ya 3 ya CKD · Dyslipidaemia ya atherogenic · Lupus erythematosus ya mfumo mzima
Kesi za mtego (2) BT-014, BT-015 Ugonjwa wa Gilbert (hyperbilirubinaemia ya pekee isiyo ya moja kwa moja) · Uchunguzi wa watu wazima ulio wa kawaida kabisa

Kwa nini usambazaji huu mahususi

Hematolojia hupata kesi tatu kwa sababu tofauti za microcytic na tofauti za macrocytic ndizo mitego yenye kiasi kikubwa zaidi katika mazoezi ya kawaida ya maabara. Endokrinolojia hupata kesi tatu kwa sababu mawasilisho ya Hashimoto, PCOS, na upungufu wa vitamini D huonyesha maumbo tofauti ya uchunguzi (yanayoendeshwa na kingamwili, yanayoendeshwa na uwiano wa homoni, yanayoendeshwa na alama moja). Kitaaluma za kesi ya mara moja bado zina maana kwa sababu kila moja ya CKD, hatari ya ASCVD, na SLE ina mfumo wake wa kuhesabu ambao injini inapaswa kuuita (kwa mtiririko huo: hatua za KDIGO, hatari ya miaka 10 ya ASCVD, na vigezo vya 2019 vya EULAR/ACR vya SLE).

Sasisho la Pili V11 — kesi 100,000 za kielelezo katika lebo 127 za nchi

Sasisho la Pili linachukua nafasi ya literal ya awali ya V11 iliyowekwa kwa ngumu ya kesi 15 ya Python kwa seti kubwa ya kesi za kielelezo zinazozalishwa kwa njia ya programu. Seti ya kesi hupakiwa mwanzoni mwa kila uendeshaji na usanidi unarekodiwa kwa uwazi. Usambazaji wa kundi kwa eneo la maudhui unaonyeshwa hapa chini.

Endocrinology kesi 23,900 (23.9%) Tezi ya shingo, PCOS, vitamini D, mhimili wa gonadi, tezi ya pituitari
Tiba ya kimetaboliki kesi 21,900 (21.9%) T2DM, ugonjwa wa kimetaboliki, paneli za lipidi, hyperuricaemia
Hematolojia kesi 15,400 (15.4%) Tofauti za microcytic na macrocytic, B12/folate, vipimo vya madini ya chuma
Hepatolojia kesi 12,400 (12.4%) NAFLD/NASH, hepatitis ya virusi, FIB-4, cholestasis
Tiba ya ndani (ikiwemo sehemu ya trap) kesi 9,000 (9.0%) Maonyesho mchanganyiko na kesi 8,723 maalum za hyperdiagnosis trap
Tiba ya moyo (Kardiolojia) kesi 7,500 (7.5%) hatari ya ASCVD, dyslipidaemia ya atherogenic, hs-CRP
Rheumatology kesi 6,000 (6.0%) SLE, RA, vasculitis, paneli za kingamwili za mwili (vigezo vya EULAR/ACR)
Nefrolojia kesi 4,000 (4.0%) Upangaji wa CKD (KDIGO), mwelekeo wa eGFR, usumbufu wa elektrolaiti

Usambazaji wa kielelezo wa lebo za nchi — lebo 10 za juu

Kesi za kielelezo 100,000 hubeba lebo 127 za nchi (ISO 3166-1 alpha-2) ili kujaribu ushughulikiaji wa eneo (locale). Ugawaji wa lebo: Ulaya 57.7%, Amerika 25.4%, Asia-Pasifiki 6.2%, lebo zilizotajwa za Mashariki ya Kati/Afrika 3.4%, na mkia mrefu wa lebo 97 za ziada kwa pamoja takriban 7.3%. Lebo kumi za mara nyingi zaidi kwa idadi ya kesi ni Marekani (10,500), Brazil (9,500), Hispania (9,000), Italia (8,000), Ujerumani (7,800), Ufaransa (7,400), Ureno (5,800), Türkiye (3,400), Uingereza (2,900), na Mexico (2,500). Alama za muunganiko kwa kila lebo zilianzia 0.9971 hadi 0.9985. Hesabu hizi za lebo ni sifa za kesi zilizozalishwa zinazotumika kujaribu ushughulikiaji wa eneo — si watumiaji halisi na si chanjo halisi ya kijiografia.

Rubric iliyosajiliwa mapema, imefafanuliwa

Usajili wa kabla ya kuanza (pre-registration) ndio chaguo muhimu zaidi la mbinu katika kipimo hiki. Kila utambuzi unaotarajiwa, kila mfumo wa kuhesabu wa kimatibabu, na kila sehemu ya ripoti iliahidiwa kwenye msimbo wa chanzo kabla ya injini kuanzishwa. Kwa hiyo, kurekebisha kwa baadae (post-hoc) kwa rubriki ili kuipendelea injini haiwezekani.

Vipengele vitatu vinaunda alama ya jumla (composite). K kipengele cha kimuundo huchangia asilimia 35 na hupima kama injini ilirudisha sehemu saba za lazima za ripoti (kichwa, muhtasari, mambo muhimu yaliyopatikana, tofauti, mifumo ya kuhesabu, mapendekezo, ufuatiliaji) na sehemu ndogo kumi na sita za lazima ndani yake. Uwepo wa sehemu hupima asilimia 40 na uwepo wa sehemu ndogo hupima asilimia 60 ndani ya hesabu ya kimuundo.

The kipengele cha kimatibabu (clinical) huchangia asilimia 55 na kuchanganya mambo matatu: kukumbuka maneno muhimu ya utambuzi (asilimia 70 ya sehemu ndogo ya kimatibabu), kukumbuka mfumo wa kuhesabu (asilimia 20 — je, injini huhesabu Mentzer, FIB-4, HOMA-IR, hatari ya ASCVD, hatua za KDIGO, vigezo vya EULAR/ACR inapohitajika), na ukaguzi wa uhalali wa jumla ya uwezekano (asilimia 10 — uwezekano wa tofauti unapaswa kujumlishwa ndani ya muda wa [90, 110]). Kwa kesi za mitego, adhabu ya wazi ya hyperdiagnosis hadi 0.30 hutolewa, ikihesabiwa kama 0.10 kwa kila bendera ya ugonjwa iliyotengenezwa, ikikomezwa kwa bendera tatu.

The kipengele cha muda wa majibu (latency) huchangia asilimia 10. Jibu chini ya sekunde 20 hupata 0.10 kamili, jibu chini ya sekunde 40 hupata 0.05, na lolote linalochelewa zaidi hupata sifuri. Lengo la sekunde 20 linaakisi lengo la kiwango cha huduma (service-level objective) la uzalishaji wa huduma ya msingi ya path; kikomo cha sekunde 40 kinaakisi bajeti ya kurudi nyuma ya Awamu ya 2 kwa uanzishaji mzito wa injini.

Picha ya mwisho (terminal screenshot) ya harness ya kiwango cha Kantesti iliyo chini ya leseni ya MIT ikiendeshwa na kutoa alama kwa kila kisa — harness hiyo hiyo, sasa ikiwa inayoendeshwa na SQL, ilitoa alama ya 99.80% composite kwenye uendeshaji wa visa 100,000 wa Sasisho la Pili la V11
Mchoro 3: Mfumo unaoendesha — injini ileile iliyozalisha 99.80% alama ya pamoja kwenye kundi la kesi 100,000 la V11 Second Update. Kila kesi huonyeshwa kama PDF ya A4, kupakiwa kwenye kiungo cha uzalishaji cha v11, na kupigwa alama dhidi ya rubriki iliyogandishwa. Second Update iliongeza kipakiaji cha kesi cha SQL chenye vigezo; sampuli iliyopangwa kwa nasibu ya majibu ghafi ya injini (n = 201) huhifadhiwa pamoja na jedwali la alama lililojumlishwa.

Kinachozuiwa na usajili wa kabla ya kuanza

Vipimo vya kwanza (first-party benchmarks) vinajulikana kwa kuongeza namba zao wenyewe kupitia kurekebisha rubriki kwa baadae. Muundo huo karibu kila mara ni ule ule: timu huendesha injini, kuona wapi inashindwa, kisha kwa utulivu kurekebisha rubriki ili maeneo yanayoshindwa yahesabiwe kidogo. Kwa kuahidi rubriki kwenye msimbo wa chanzo kabla ya simu ya kwanza ya injini na kuchapisha harness chini ya leseni ya MIT, marekebisho hayo yanaonekana kwenye udhibiti wa toleo (version control). Mtu yeyote anaweza kunakili (clone) hazina, kuangalia tarehe za mwandishi wa rubriki, na kuthibitisha kuwa matokeo ya injini hayakutumiwa kuunda mpangilio wa alama.

Kesi za mtego wa hyperdiagnosis — kwa nini kuita kupita kiasi ndicho chanzo halisi cha kushindwa

Kuita kwa nguvu sana ugonjwa wa patholojia kwenye skrini za kawaida ni hali ya kushindwa iliyorekodiwa kwa wasaidizi wa kimatibabu wanaolenga watumiaji (consumer-facing). Gharama zake za baadaye ni pamoja na uchunguzi usio wa lazima, wasiwasi wa mgonjwa, na uchunguzi wa kimatibabu unaosababishwa na daktari (iatrogenic workup). Kesi mbili za mitego katika kipimo hiki zimeundwa kufanya hali hiyo ya kushindwa iwe wazi na iweze kupimika kwa alama.

Linganisho la karibu (side-by-side) la AI ya kijinga inayotengeneza hepatitis kwenye paneli ya ugonjwa wa Gilbert dhidi ya injini ya Kantesti inayotambua kwa usahihi mabadiliko ya kijeni ya UGT1A1 yasiyo na madhara — mbinu iliyopanuliwa hadi kufikia sifuri chanya-isiyo-sahihi kwenye fursa 87,412 za bendera za mtego (trap-flag) katika kiwango cha V11 Second Update 99.80% benchmark
Mchoro 4: Muundo wa kesi ya mtego kutoka toleo la awali la V11 — injini inayoweka kwa ujasiri ugonjwa wa Gilbert kama hepatitis, au inayotengeneza ugonjwa wa mpaka kwenye skrini iliyo kawaida kabisa, hutozwa adhabu badala ya kupewa tuzo kwa kusikika kwa kimatibabu. Mbinu hii ilipanuliwa hadi 0 / 87,412 chanya za uongo katika uendeshaji wa V11 Second Update wa kesi 100,000 uliotoa alama ya pamoja ya 99.80%.

🟡 Mtego 1 — BT-014-GILBERT

Mawasilisho. Mwanaume mwenye umri wa miaka 24 aliye na bilirubini ya jumla ya 2.4 mg/dL. Sehemu ya moja kwa moja ni ya kawaida, transaminasi na fosfati ya alkali ziko ndani ya viwango vya rejea, retikulosaiti hazina jambo la ajabu, na haptoglobini pamoja na LDH huondoa uwezekano wa hemolysis.

Tafsiri sahihi. Ugonjwa wa Gilbert — mabadiliko ya kijeni (polymorphism) ya kijenetiki ya UGT1A1 yasiyo na madhara. Tafsiri haipaswi kuhusisha hepatitis, cirrhosis, upungufu wa damu wa hemolytic, au kizuizi cha njia ya nyongo.

Matokeo ya V11. Jumla 1.000. Hakuna hata moja ya bendera sita za uainishaji kupita kiasi (over-diagnosis) zilizofuatiliwa ilionekana kama utambuzi hai.

🟡 Mtego 2 — BT-015-HEALTHY

Mawasilisho. Mwanamke mwenye umri wa miaka 35 mwenye paneli ya kawaida ya uchunguzi wa vigezo kumi na tano. Kila kipimo (analyte) kiko vizuri ndani ya kiwango chake cha rejea.

Tafsiri sahihi. Uhakikisho na uendelezaji wa mtindo wa maisha. Tafsiri haipaswi kutengeneza ugonjwa wa mpaka ili kuonekana kuwa na manufaa ya kiafya kiafya.

Matokeo ya V11. Mchanganyiko 1.000. Hakuna hata moja ya alama saba za uainishaji kupita kiasi zilizofuatiliwa—kisukari, upungufu wa damu (anemia), hypothyroidism, dyslipidaemia, hepatitis, ugonjwa wa figo, upungufu—zilionekana kama utambuzi hai.

Katika mitego yote miwili, alama kumi na tatu za uainishaji kupita kiasi (hyperdiagnosis) zilizofuatiliwa zilichunguzwa. Hakuna hata moja iliyowashwa. Hii ndiyo matokeo muhimu zaidi kwa daktari yeyote anayezingatia kutumia injini ya AI kama zana ya triage au kabla ya kushauriana: mfumo haukuvumbua ugonjwa pale ambapo haukuwepo.

Fahirisi ya Mentzer: kutenganisha upungufu wa madini ya chuma na sifa ya thalassemia

Ugunduzi wa pili wenye thamani kubwa unahusu ulinganisho wa kesi BT-001 (upungufu wa damu kutokana na upungufu wa chuma) na kesi BT-007 (beta-thalassaemia ndogo). Zote mbili hujitokeza kwa microcytosis na ni kikwazo kinachojulikana sana kwa vichanganuzi visivyo na uzoefu. Fahirisi ya Mentzer, inayokokotolewa kama MCV ikigawanywa kwa idadi ya RBC, huzidi 13 katika upungufu wa chuma na hushuka chini ya 13 katika sifa ya thalassaemia.

Katika BT-001, mgonjwa alikuwa mwanamke mwenye umri wa miaka 34 mwenye hemoglobini 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, na TIBC iliyoongezeka. Fahirisi ya Mentzer ya takriban 17.7 inaunga mkono upungufu wa chuma wa kweli. Katika BT-007, mgonjwa alikuwa mwanaume mwenye umri wa miaka 28 mwenye microcytosis (MCV 65.8 fL) lakini idadi ya juu ya RBC ya 6.2, RDW ya kawaida, ferritin ya kawaida, na HbA2 ya asilimia 5.6. Fahirisi ya Mentzer ya takriban 10.6 inaashiria sifa ya thalassaemia, na HbA2 iliyoongezeka inathibitisha beta-thalassaemia ndogo.

Upungufu wa damu kutokana na upungufu wa chuma Mentzer > 13 Ferritin ya chini, TSAT ya chini, TIBC ya juu, RDW iliyoongezeka
Sifa ya beta-thalassaemia Mentzer < 13 Ferritin ya kawaida, RDW ya kawaida, HbA2 iliyoongezeka (>3.5%), idadi ya juu ya RBC

Kesi zote mbili zilipata alama 1.000. Injini ilitumia fahirisi ya Mentzer kwa uwazi katika tafsiri zote mbili na kurudisha utambuzi sahihi katika kila tukio. Hili ndilo jibu linalotoa uhakikisho mkubwa zaidi kiafya katika tathmini nzima, kwa sababu kukosea kuainisha sifa ya thalassaemia kama upungufu wa chuma husababisha kuongezewa chuma bila sababu na kukosa fursa za uchunguzi wa familia, na kukosea kuainisha upungufu wa chuma kama thalassaemia huchelewesha tiba rahisi ya kubadilisha. Yetu kiwango cha ferritin inaeleza muktadha mpana wa tofauti.

Matokeo kwa kila kesi kutoka kwenye uendeshaji wa rejea wa awali wa V11 (Aprili 23, 2026)

Uendeshaji wa awali wa V11 wa kundi la uthibitisho la kesi 15 hutumika kama msingi wa kimbinu wa Second Update: kila maelezo ya kila kesi yaliyo hapa chini yanaonyesha jinsi rubriki inavyoshughulikia jibu halisi la injini. Kesi kumi na mbili kati ya kumi na tano zilifikia kikomo cha alama ya pamoja cha 1.000 kwenye njia kuu; kesi tatu zilitolewa kupitia njia ya kurudi ya Phase 2, zikipoteza bonasi ya muda wa kusubiri ya 0.05 huku zikihifadhi maudhui yote ya kimatibabu na ya kimuundo. Kesi moja ilikuwa ikikosa sehemu ndogo moja ya lazima; moja ilirudisha jumla ya usambazaji wa uwezekano uliopunguzwa kidogo.

Kitambulisho cha kesi Utaalamu Jumla Latency Njia (Path)
BT-001-IDAHematolojia1.00017.8 sprimary
BT-006-B12Hematolojia1.000sekunde 18.4primary
BT-007-THALHematolojia1.000sekunde 17.0primary
BT-002-HASHEndocrinology0.950sekunde 37.0kurudi nyuma
BT-008-PCOSEndocrinology0.987sekunde 18.6primary
BT-003-T2DMKimetaboliki1.000sekunde 19.1primary
BT-013-GOUTKimetaboliki1.000sekunde 19.4primary
BT-004-NAFLDHepatolojia1.000sekunde 19.6primary
BT-009-VIRHEPHepatolojia0.950sekunde 23.4kurudi nyuma
BT-014-GILBERTMtego1.000sekunde 18.9primary
BT-005-CKDNefrolojia1.000sekunde 17.4primary
BT-010-ASCVDTiba ya moyo (Kardiolojia)1.000sekunde 19.7primary
BT-011-SLERheumatology0.98118.2 sprimary
BT-012-VITDEndocrinology1.00019.3 sprimary
BT-015-HEALTHYMtego1.00018.7 skurudi nyuma

Kesi ya PCOS (BT-008) ilipoteza sehemu ndogo ya lazima moja katika muundo wa jibu — kumi na tano kati ya kumi na sita badala ya kumi na sita kati ya kumi na sita — jambo lililopunguza alama ya muundo kutoka 1.000 hadi 0.963. Kesi ya SLE (BT-011) ilirudisha jumla ya uwezekano iliyopungua kidogo ambayo ilishusha alama ya kliniki hadi 0.965 huku ikihifadhi kila neno muhimu la uchunguzi na mfumo wa upimaji. Kesi zote mbili ambazo hazikuwa kamili hazikosa utambuzi sahihi.

Jumla ya V11 Second Update — kesi 100,000

Kwa kiwango cha idadi ya watu, safu za kesi binafsi hazisomeki kwa binadamu, hivyo Sasisho la Pili huripoti vipimo vilivyokusanywa badala ya jedwali la safu 100,000. Muhtasari mkuu unaonyeshwa hapa chini; mgawanyo kwa kila taaluma na kwa kila lebo ya nchi unachapishwa kwenye ripoti ya kiufundi na amana ya Figshare. Sampuli iliyopangwa kwa nasibu ya n = 201 majibu ghafi ya injini (mbegu ya kubainisha 20260426) huchapishwa kwenye GitHub results/ kwa ukaguzi.

Alama ya pamoja V11 ya awali: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 katika kundi la kesi 100,000
Alama ya kimuundo (wastani) V11 ya awali: 0.998 → Second Update: 1.000 Ulinganifu kamili wa kimuundo kwa kiwango cha idadi ya watu
Alama ya kimatibabu (wastani) V11 ya awali: 0.998 → Second Update: 0.996 −0.002; hakuna kesi iliyokosa utambuzi wenyewe
Latency — wastani (masafa) V11 ya awali: 20.17 s (17.0–37.0 s) → Sasisho la Pili: 13.26 s (9.0–16.94 s) Uboreshaji wa injini ya uzalishaji kati ya majaribio
Njia ya injini = msingi V11 ya awali: 12 / 15 → Sasisho la Pili: 100,000 / 100,000 Hakuhitajika kurudi nyuma kwa Awamu ya 2 wakati wowote wakati wa majaribio
Bendera za hyperdiagnosis za sehemu-ya-kundi (trap-subset) V11 ya awali: 0 / 13 → Sasisho la Pili: 0 / 87,412 Hakuna chanya za uongo kwa kiwango cha idadi ya watu (kesi 8,723 za trap zilifuatiliwa)

Alama ya kichwa haituambii nini

Alama ya muunganiko ya asilimia 99.80 chini ya rubriki hii mahususi iliyosajiliwa mapema, kwenye kundi la kielelezo la kesi 100,000 linalojumuisha lebo 127 za nchi, inaashiria utendaji wa karibu na kikomo (ceiling) — lakini inahitaji kuwekwa katika muktadha kwa uangalifu. Matokeo yanaeleza tabia ya injini dhidi ya rubriki tuliyoahidi kwenye msimbo wa chanzo katika V11; si madai ya jumla kuhusu usahihi wa injini kwa kila paneli ya vipimo vya damu iliyopo duniani.

Alama hiyo inaonyesha kuwa injini iliweza kushughulikia mifumo ya uchunguzi iliyochaguliwa kwa tathmini hii kwa usahihi katika kundi la watu lenye ukubwa wa kiwango cha idadi ya watu, kwa kutumia mbinu iliyochapishwa na inayoweza kuigwa. Haimaanishi kuwa injini ni sahihi kwenye kila paneli ya vipimo vya damu iliyopo huko nje. Haimaanishi kuwa injini inapaswa kuchukua nafasi ya uamuzi wa mtaalamu wa kliniki. Na haimaanishi kuwa injini inaongoza mifumo mingine ya AI — uchambuzi wa kulinganisha dhidi ya injini nyingine uliachwa kwa makusudi nje ya upeo wa ripoti hii.

Kilichoanzishwa na alama ni msingi. Kwa kuwa kanuni na mfumo wa majaribio vinapatikana hadharani, matoleo yajayo ya injini yanaweza kutathminiwa dhidi ya kanuni ile ile — yakitumika kwa kesi 15 za V11 ya awali, kundi la kesi 100,000 la Sasisho la Pili, au upanuzi wowote unaofuata — na pengo kati ya alama iliyochapishwa na majaribio yoyote ya baadaye linaweza kupimika lenyewe. Huu ndio thamani ya usajili mapema: hubadilisha madai ya utendaji kuwa madai yanayoweza kupimwa.

Jinsi ya kuiga kiwango hiki kwa dakika 10

Kurudiwa kunahitaji tu jozi ya kitambulisho cha Kantesti API na mazingira ya Python 3.10 au toleo jipya zaidi pamoja na requests na reportlab maktaba kusakinishwa. Mfumo kamili wa majaribio ni moduli moja ya Python inayojitosheleza iliyotolewa chini ya leseni ya MIT.

Mchoro wa mtandao wa uweza wa kurudia (reproducibility network diagram) unaoonyesha benchmark ya Sasisho la Pili la V11 (99.80% composite, kesi 100,000, lebo 127 za nchi) ikinakiliwa (mirrored) kwenye Figshare, ResearchGate, Academia.edu na GitHub huku DOI ya Figshare ikiwa kama nanga ya msingi (canonical anchor)
Mchoro 5: Kiwango cha V11 Sasisho la Pili — Alama ya muunganiko ya 99.80% kwenye kesi 100,000 katika lebo 127 za nchi — inakiliwa (mirrored) kwenye majukwaa manne ya utafiti. Kitambulisho cha Figshare DOI ndicho kitambulisho cha kisheria cha kazi za kitaaluma; ResearchGate (publication 404175463), Academia.edu (paper 165956808), na GitHub vinashikilia nakala sambamba zenye kifaa cha kupimia (benchmark harness), sampuli ya majibu yaliyopangwa kwa mpangilio wa nasibu (stratified random sample) ya majibu ghafi, na kadi za alama kwa kila nchi/kila lebo (per-country-label) na kwa kila utaalamu (per-specialty).

Hatua nne za uendeshaji mpya

Moja. Piga clone kwenye hazina: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Mbili. Sakinisha tegemezi kwa pip install -r requirements.txt (Sasisho la Pili huongeza mysql-connector-python ≥ 8.0 kwa kipakiaji cha kesi cha SQL). Tatu. Weka KANTESTI_USERNAME na KANTESTI_PASSWORD kama vigezo vya mazingira kwa API ya injini. Kwa kipakiaji cha kesi cha SQL cha Sasisho la Pili, pia weka KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, na KANTESTI_DB_PASSWORD — kipakiaji huunganishwa kupitia jukumu la kusoma tu (bench_reader) ambalo halina marupurupu ya kutambua jedwali. Nne. Endesha python benchmark_bloodtest.py --limit 100000 kwa uendeshaji kamili wa Second-Update, au python benchmark_bloodtest.py --limit 1000 kwa marudio ya haraka. Matokeo huwekwa kwenye ./benchmark_results/: kadi ya alama ya CSV yenye nguzo za lebo kwa kila nchi na utaalamu, jumla ya JSON, sampuli ya majibu ghafi yaliyopangwa kwa nasibu (stratified-random raw-response sample), na ripoti ya Markdown.

Uendeshaji wa rejea kutoka 23 Aprili 2026 (V11 ya awali, kesi 15) na 26 Aprili 2026 (V11 Second Update, kesi 100,000) huhifadhiwa kwenye results/ saraka ya hazina. Uendeshaji mpya utazalisha kadi mpya ya alama yenye muhuri wa muda (timestamp) huku ukiacha uendeshaji wa rejea bila kuguswa. Ikiwa uendeshaji wako utatoa matokeo tofauti kwa maana, tafadhali fungua suala la GitHub pamoja na muhuri wa muda wa uendeshaji na toleo la injini lililorudishwa kwenye metadata ya majibu.

Mapungufu na kazi ya baadaye

Hata kwa kesi 100,000 katika lebo 127 za nchi, mapungufu manne yanastahili kutajwa wazi: upungufu wa sampuli kwa lebo za mkia mrefu (long-tail label undersampling), tathmini ya mara moja (single-shot evaluation), upeo wa injini moja (single-engine scope), na chanzo kimoja cha data (single-source data origin). Kila moja inashughulikiwa katika kazi ya ufuatiliaji inayoendelea.

Ufunikaji wa lebo za mkia mrefu (long-tail label coverage). Sasisho la Pili (Second Update) lina lebo 127 za nchi, lakini usambazaji si sawa — lebo 10 za juu zinachangia takriban 66.4% ya kesi, na mkia mrefu wa lebo 97 za ziada kwa pamoja unachangia takriban 7.3% (takriban kesi 7,300 kwa pamoja, ~kesi 75 kwa lebo kwa wastani). Kwa hiyo, viambajengo (composites) kwa kila lebo katika mkia huu mrefu vina kelele zaidi kuliko vinavyoashiria takwimu za kichwa. Uendeshaji ujao utasawazisha upya ugawaji wa lebo ili kuboresha makadirio kwa kila lebo.

Tathmini ya mara moja. Kila kesi katika kundi ilitathminiwa mara moja. Miundo mikubwa ya lugha huonyesha utofauti usio wa kawaida wa matokeo hata kwa halijoto ndogo ya sampuli, hivyo itifaki ya uendeshaji wa mara nyingi yenye tathmini tano kwa kila kesi na kuripotiwa kwa utofauti ni hatua inayofuata ya asili — hasa kwenye sehemu ndogo ya kesi za mtego (trap-case), ambapo uthabiti chini ya mabadiliko ya sampuli ni sehemu ya madai ya usalama.

Upeo wa injini moja. Ripoti hii inaelezea injini moja. Uchambuzi wa kulinganisha dhidi ya mifumo mingine ya AI haujumuishwi hapa; tunaweza kuifanya kama utafiti tofauti wa kujitegemea kwa kutumia mbinu inayofaa, dhidi ya mfumo ule ule wa MIT-licensed.

Data ya kubuni (Synthetic data). Kesi 100,000 zimetengenezwa kwa kubuni (synthetically generated), si “kesi za kubuni” (synthetic cases), na matokeo hayahamishiki kwa utendaji halisi wa kliniki. Tathmini kwa data halisi, iliyoidhinishwa (consented), na iliyopatikana kutoka vyanzo vya nje (externally-sourced) ingehitaji usimamizi unaofaa wa kimaadili na haimo ndani ya upeo wa benchmark hii ya kubuni.

Zaidi ya mapungufu hayo manne, upanuzi unaotarajiwa kuwa na athari kubwa zaidi ni usawa wa lugha nyingi kwa kila mamlaka. Injini ya Kantesti AI inawahudumia watumiaji katika 75+ lugha, na kuendesha vikundi vidogo vya Second-Update vilivyogawanywa kwa lugha (Kituruki, Kijerumani, Kihispania, Kifaransa, Kiitaliano, Kireno, Kiarabu, Kichina cha Mandarin) kutapima ubora wa matokeo katika lugha zote zinazoungwa mkono na injini. Kila uchambuzi uliogawanywa kwa lugha utachapishwa pamoja na DOI yake na tawi la mfumo (harness).