Kiwango cha Uchambuzi wa Damu kwa AI cha Kantesti

Benchmark ya Kiotomatiki Kiwango cha Kulinganishwa kilichosajiliwa mapema Sasisho la Pili la V11 — Aprili 2026 Inayoruhusiwa kwa leseni ya MIT Inayoweza kurudiwa · Data Huria Kundi la Mchanganyiko la 100K la Kielelezo · Lebo 127 za Nchi

Alama ya 99.80% ya Muunganiko kwenye Rubriki Iliyosajiliwa Mapema — Sasisho la Pili V11, Kundi la Kesi 100,000 katika Lebo 127 za Nchi

Kiwango cha kiufundi cha kiotomatiki kilichosajiliwa mapema, chenye msingi wa rubriki, cha injini ya Kantesti kwenye kesi 100,000 za vipimo vya damu vilivyotengenezwa kwa njia ya kielelezo, vilivyo na lebo za nchi 127. Hupima ulinganifu wa matokeo, si usahihi wa uchunguzi. Rubriki ilifungwa kwenye msimbo wa chanzo kabla ya toleo la awali la V11 na ilibaki sawa kabisa kwa biti kwa Sasisho hili la Pili; mfumo wa tathmini una leseni ya MIT; sampuli iliyopangwa kwa nasibu ya majibu ghafi ya injini inachapishwa kwa ukaguzi. Kesi zote ni za kielelezo; hakuna data binafsi inayotumika.

📖 ~dakika 14 📅 Imepapishwa Aprili 23, 2026 · Imeboreshwa Aprili 26, 2026 (Sasisho la Pili la V11) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Imechapishwa: Aprili 23, 2026 🔄 Sasisho la Pili la V11: Aprili 26, 2026 🩺 Imekaguliwa kiafya: Aprili 26, 2026 ✅ Rubriki Iliyosajiliwa Mapema (Sawa kwa Byte) 🔓 Msimbo & Data Wazi

Benchmark hii ya kiotomatiki iliundwa na kuendeshwa na Julian Emirhan Bulut, Mhandisi Mkuu wa AI na Mkurugenzi Mtendaji wa Kantesti Ltd. Upangaji wa alama umefanywa kikamilifu kwa njia ya msimbo; mfumo wa kuwekea alama na jopo la kesi vilitengenezwa kwa maoni ya kimatibabu kutoka kwa Dkt. Thomas Klein, MD, Afisa Mkuu wa Tiba (Chief Medical Officer) wa Kantesti AI, na kukaguliwa na Bodi ya Ushauri wa Kimatibabu ya Kantesti AI. Ni kipimo cha ndani kinachoendeshwa yenyewe, si kipimo cha kiufundi cha kiotomatiki huru au kilichopitiwa na wenzao.

Mwandishi Mkuu & Usimamizi wa Kliniki

Thomas Klein, MD

Afisa Mkuu wa Matibabu, Kantesti AI

Dk. Thomas Klein ni daktari bingwa wa magonjwa ya damu (hematology) aliyeidhinishwa na bodi na mtaalamu wa magonjwa ya ndani, mwenye zaidi ya miaka 15 ya uzoefu katika tiba ya maabara. Kama Afisa Mkuu wa Tiba katika Kantesti AI, alichagua jopo la kesi kwa kipimo hiki, alikagua maudhui ya kliniki na majibu yaliyotarajiwa ya kesi za kielelezo, na akaidhinisha rubriki iliyosajiliwa mapema kabla ya kuanzisha injini kwa mara ya kwanza.

ORCID 0009-0009-1490-1321 Gate ya Utafiti Msomi wa Google

Mwandishi Mwenza & Utekelezaji

Julian Emirhan Bulut

Mhandisi Mwandamizi wa AI & Mkurugenzi Mtendaji, Kantesti Ltd

Julian Emirhan Bulut ndiye mwanzilishi na Mkurugenzi Mtendaji wa Kantesti Ltd. Alibuni na kutekeleza mfumo wa tathmini — ikiwemo kipakiaji cha visa cha SQL kilichoongezwa kwa Sasisho la Pili la V11 — alifanya ujumuishaji wa API, alifanya majaribio ya rejea ya awali ya V11 na majaribio ya visa 100,000 ya Sasisho la Pili la V11, na kuandaa muunganiko wa takwimu. Mwanzilishi wa jukwaa tangu 2019.

GitHub Kuhusu Kantesti

⚡ Muhtasari wa Haraka Sasisho la Pili la V11 — Aprili 26, 2026

Alama ya pamoja 99.80% kwenye kesi 100,000 za vipimo vya damu vya kielelezo katika taaluma nane za matibabu na lebo 127 za nchi (Sasisho la Pili V11).
Hakuna chanya za uongo za hyperdiagnosis kwenye fursa 87,412 za kuashiria (trap-case) zilizofuatiliwa — mbinu ile ile ya trap-case kama ilivyokuwa kwenye V11 ya awali, iliyopanuliwa hadi kiwango cha idadi ya watu.
Rubriki iliyosajiliwa mapema iligandishwa kwenye msimbo chanzo kabla ya jaribio la awali la V11 na ikaendelea kuwa sawa kwa byte kwa Sasisho hili la Pili — hakuna urekebishaji wa baadae (post-hoc) uliowezekana.
Index ya Mentzer imetumika kwa usahihi kutofautisha upungufu wa damu unaotokana na upungufu wa madini ya chuma (iron deficiency anaemia) na beta-thalassaemia ndogo (beta-thalassaemia minor) kwenye toleo la awali la V11; tabia tofauti ilihifadhiwa kwenye kiwango cha idadi ya watu.
Kituo cha mwisho cha uzalishaji pekee — hakuna uelekezaji wa upendeleo, imejaribiwa kama mteja anayelipa angeifikia.
Latansi ya wastani ya sekunde 13.26 mwisho-kwa-mwisho (kati ya sekunde 9.0–16.94), huku visa vyote 100,000 vikikamilika kwenye njia ya msingi ya injini.
Kundi la kielelezo. Kesi za majaribio 100,000 zilizotengenezwa kwa kielelezo, zimepakuliwa wakati wa uendeshaji. Hakuna data ya kielelezo na hakuna data binafsi inayotumika.
Kifaa cha majaribio chenye leseni ya MIT Imetolewa kwenye GitHub pamoja na sampuli ya nasibu iliyopangwa (n = 201) ya majibu ghafi kamili ya injini kwa ukaguzi.
Kielezo cha Figshare DOI: 10.6084/m9.figshare.32095435 · Imerudufishwa kwenye ResearchGate, Academia.edu, GitHub.

Kwa nini kiwango hiki cha kulinganisha kipo na kinachojaribu

Tafsiri ya vipimo vya damu kwa usaidizi wa AI inatumika zaidi na zaidi katika mazingira ya watumiaji na ya kliniki, hata hivyo mifumo ya tathmini inayoweza kurudiwa inayolengwa kwa tiba ya maabara bado ni nadra. Maswali muhimu zaidi katika mazingira haya si yale yanayofunikwa na viwango vya jumla vya kujibu maswali ya matibabu: je, injini inaweza kutenganisha upungufu wa madini ya chuma na sifa ya thalassaemia wakati kiasi cha wastani cha chembe nyekundu za damu (MCV) ni sawa, je, inaweka utambuzi wa ugonjwa wa Gilbert kupita kiasi kama hepatitis, na je, inatengeneza ugonjwa kwenye paneli ya uchunguzi iliyo ya kawaida kabisa?

Kundi moja la vipimo vya damu kwa kawaida huwa na taarifa za kutosha kusaidia tafsiri kadhaa zinazoshindana, na kazi ya daktari anayezitafsiri ni kupima tafsiri hizo dhidi ya kila nyingine badala ya kutafuta jibu la kitabu. Injini inayofanya vizuri kwenye visa vya kitabu bado inaweza kushindwa kwenye visa vinavyohusu zaidi: mitego ya utambuzi tofauti, tofauti zisizo na madhara ambazo huonekana za kutisha zikisimama peke yake, na paneli zilizo kawaida kabisa zinazowajaribu wasaidizi wenye kujiamini kutengeneza ugonjwa.

Kiwango hiki cha tathmini kilijengwa hasa kuzunguka njia hizo za kushindwa. Kila kati ya visa kumi na tano ilichaguliwa kwa sifa maalum ya uchunguzi: microcytosis inayotokana na upungufu wa chuma ambayo lazima ibaki tofauti na sifa ya beta-thalassaemia yenye mean corpuscular volume inayofanana, hali ya ugonjwa wa Gilbert ambapo kasoro pekee ni ongezeko la pekee la bilirubina ya moja kwa moja, na paneli ya uchunguzi ya vigezo kumi na tano ambamo kila kipimo kiko ndani ya kiwango chake cha rejea. Kanuni hiyo huipa tuzo injini zinazosomea kila kisa kwa masharti yake, na huipunguzia alama injini zinazofikia utambuzi wa kujiamini pale ambapo hakuna utambuzi kama huo unaostahili.

Kama Thomas Klein, MD, nilichagua paneli ya visa kwa sababu hizi ndizo mifumo ninayoona wasaidizi wa tiba ya maabara wakikosea mara nyingi zaidi. Njia ya kushindwa yenye gharama kubwa si "kukosa ugonjwa adimu"—ni kutengeneza ugonjwa wa kawaida kwa wagonjwa ambao hawana. Yetu Uthibitishaji wa Matibabu hub inaeleza mfumo mpana; ukurasa huu unaeleza uthibitisho wa awali wa V11 na Sasisho la Pili la V11 lililolipanua hadi kesi 100,000 za kielelezo zilizochukuliwa kutoka kwenye seti ya kesi ya kielelezo inayojumuisha lebo 127 za nchi — kwa kutumia rubriki ile ile ya kuhesabu, sawa kabisa kwa biti, bila kuruhusiwa marekebisho ya baadae (post-hoc).

Uendeshaji wa rejea wa hivi karibuni — V11 Second Update (Aprili 26, 2026)

Uendeshaji wa rejea wa V11 Second Update wa tarehe 26 Aprili 2026 ulitoa alama ya jumla (composite score) ya 99.80% kwenye rubriki ile ile iliyosajiliwa mapema (pre-registered) iliyotumika katika toleo la awali la V11, iliyotathminiwa kwenye Kesi za kielelezo 100,000 zilizochukuliwa kutoka kwenye seti ya kesi ya kielelezo ya Kantesti na zinazojumuisha lebo 127 za nchi na lugha za 75+. Kila kesi ilikamilika kwenye njia kuu ya injini; uanzishaji wa bendera ya hyperutambuzi (trap-case hyperdiagnosis) ulibaki 0 / 87,412. Uendeshaji wa awali wa V11 wa tarehe 23 Aprili 2026 ulihusisha kesi 15 zilizochaguliwa kwa uangalifu (hand-curated) (alama ya jumla 99.12%) na kuthibitisha rubriki; Second Update inaweka rubriki hiyo hiyo iwe byte-identical na inaongeza tathmini hadi kundi la ukubwa wa idadi ya watu (population-scale cohort).

Jumla 99.80% Kesi 100,000 kati ya 100,000 zilipata alama

1.000 Alama ya muundo

0.996 Alama ya kliniki

13.26 s Wastani wa muda wa kusubiri

0 / 87,412 Mitego ya chanya ya uongo

Mfumo wa jumla huchanganya vipengele vitatu: ulinganifu wa muundo na sehemu saba za lazima za ripoti na sehemu ndogo kumi na sita za lazima, usahihi wa maudhui unaopimwa kama kumbukumbu ya maneno (keyword recall) pamoja na kumbukumbu ya mfumo wa alama (scoring-system recall) pamoja na ukaguzi wa uhalali wa usambazaji wa uwezekano, na muda wa majibu dhidi ya lengo la kiwango cha huduma (service-level target) la njia kuu. Uchanganuzi halisi (exact decomposition) unaonyeshwa kwenye fomula ya rubriki hapa chini — hakuna uzito (weights) wala rubriki ndogo (sub-rubrics) uliobadilishwa kwa Second Update.

Jumla = 0.35 × Muundo + 0.55 × Kliniki + 0.10 × Muda wa kusubiri

Sehemu iliyobaki ya pointi 0.20 za asilimia za nafasi (headroom) hutengana karibu kabisa hadi kwenye alama ndogo ya kimatibabu (clinical sub-score) — sehemu ndogo ya kesi (hasa katika Hepatology na Rheumatology) ilikuwa na neno muhimu la mfumo wa kuhesabu (scoring-system keyword) lililokosekana kwenye tafsiri ya injini, ingawa maudhui ya uchunguzi (diagnostic content) yalikuwa sahihi. Hakuna kesi hata moja katika kundi la kesi 100,000 la Second Update iliyokosa utambuzi yenyewe. Muda wa kusubiri (latency) uliimarika kutoka wastani wa 20.17 s katika toleo la awali la V11 hadi 13.26 s katika Second Update, ikionyesha uboreshaji wa injini ya uzalishaji (production engine optimisations) kati ya uendeshaji huo; rubriki, msimbo wa kuhesabu, na mwisho wa API (API endpoint) havijabadilika.

Alama za muunganiko kwa kila lebo zilianzia 0.9971 hadi 0.9985 katika lebo 30 zilizoonekana zaidi. Mkia mrefu wa lebo 97 za ziada (≈ kesi 7,300 kwa pamoja) haukuonyesha kupungua kwa utaratibu. Lebo zilizoonekana mara nyingi zaidi kwa idadi ya kesi zilikuwa Marekani (10,500), Brazil (9,500), Hispania (9,000), Italia (8,000), Ujerumani (7,800), Ufaransa (7,400), Ureno (5,800), Türkiye (3,400), Uingereza (2,900), na Mexico (2,500).

Kutoka kesi 15 hadi kesi 100,000: mabadiliko ya kundi katika lebo 127 za nchi

Jopo la awali la kesi la V11 lilifunika taaluma saba — hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — pamoja na kesi mbili maalum za mtego wa hyperdiagnosis, huku kila kesi ikiwa paneli ya vipimo vya damu iliyotengenezwa kwa kielelezo. Sasisho la Pili la V11 linaongeza tathmini hadi kesi 100,000 za kielelezo katika lebo 127 za nchi, zikiwa zimegawanywa katika taaluma nane (saba za awali pamoja na kundi maalum la tiba ya ndani ya ndani (internal medicine) linalochukua sehemu ya trap). Rubriki ile ile ya kuhesabu inatumika kwa byte-identical katika uendeshaji wote.

Kwa kuwa kesi zote zimetengenezwa kwa kielelezo, hakuna vitambulisho halisi vya kuondoa na hakuna data binafsi inayohusika. Kila kesi ya kielelezo hubeba msimbo wa kesi wa ndani wa kipimo (BT-NNN-LABEL katika seti ya awali ya V11, thabiti case_uid katika Sasisho la Pili). Hakuna data binafsi inayoonekana popote kwenye mfumo uliowekwa hadharani, ripoti ya kiufundi, au seti za data zilizotolewa.

toleo la awali la V11 — kesi 15 zilizochaguliwa kwa uangalifu (hand-curated)

Jopo la awali la kesi la V11 liliandaliwa kwa uangalifu kwa mkono na Dk. Thomas Klein ili kuonyesha mifumo ya utambuzi ambayo wasaidizi wa tiba ya maabara huikosea mara nyingi. Kila mojawapo ya kesi kumi na tano ilichaguliwa kwa sifa mahususi ya utambuzi, kama ilivyoorodheshwa hapa chini.

Hematolojia (3) BT-001, BT-006, BT-007 Upungufu wa damu unaosababishwa na upungufu wa madini ya chuma · Upungufu wa B12 · Beta-thalassemia ndogo

Endocrinolojia (3) BT-002, BT-008, BT-012 Thyroiditis ya Hashimoto · PCOS yenye upinzani wa insulini · Upungufu mkubwa wa vitamini D

Kimetaboli (2) BT-003, BT-013 T2DM yenye ugonjwa wa kimetaboli · Hyperuricaemia yenye hatari ya gout

Hepatolojia (2) BT-004, BT-009 NAFLD / NASH · Hepatitis ya papo hapo ya virusi

Nefrologia · Kardiolojia · Rhematolojia (3) BT-005, BT-010, BT-011 Hatua ya 3 ya CKD · Dyslipidaemia ya atherogenic · Lupus erythematosus ya mfumo mzima

Kesi za mtego (2) BT-014, BT-015 Ugonjwa wa Gilbert (hyperbilirubinaemia ya pekee isiyo ya moja kwa moja) · Uchunguzi wa watu wazima ulio wa kawaida kabisa

Kwa nini usambazaji huu mahususi

Hematolojia hupata kesi tatu kwa sababu tofauti za microcytic na tofauti za macrocytic ndizo mitego yenye kiasi kikubwa zaidi katika mazoezi ya kawaida ya maabara. Endokrinolojia hupata kesi tatu kwa sababu mawasilisho ya Hashimoto, PCOS, na upungufu wa vitamini D huonyesha maumbo tofauti ya uchunguzi (yanayoendeshwa na kingamwili, yanayoendeshwa na uwiano wa homoni, yanayoendeshwa na alama moja). Kitaaluma za kesi ya mara moja bado zina maana kwa sababu kila moja ya CKD, hatari ya ASCVD, na SLE ina mfumo wake wa kuhesabu ambao injini inapaswa kuuita (kwa mtiririko huo: hatua za KDIGO, hatari ya miaka 10 ya ASCVD, na vigezo vya 2019 vya EULAR/ACR vya SLE).

Sasisho la Pili V11 — kesi 100,000 za kielelezo katika lebo 127 za nchi

Sasisho la Pili linachukua nafasi ya literal ya awali ya V11 iliyowekwa kwa ngumu ya kesi 15 ya Python kwa seti kubwa ya kesi za kielelezo zinazozalishwa kwa njia ya programu. Seti ya kesi hupakiwa mwanzoni mwa kila uendeshaji na usanidi unarekodiwa kwa uwazi. Usambazaji wa kundi kwa eneo la maudhui unaonyeshwa hapa chini.

Endocrinology kesi 23,900 (23.9%) Tezi ya shingo, PCOS, vitamini D, mhimili wa gonadi, tezi ya pituitari

Tiba ya kimetaboliki kesi 21,900 (21.9%) T2DM, ugonjwa wa kimetaboliki, paneli za lipidi, hyperuricaemia

Hematolojia kesi 15,400 (15.4%) Tofauti za microcytic na macrocytic, B12/folate, vipimo vya madini ya chuma

Hepatolojia kesi 12,400 (12.4%) NAFLD/NASH, hepatitis ya virusi, FIB-4, cholestasis

Tiba ya ndani (ikiwemo sehemu ya trap) kesi 9,000 (9.0%) Maonyesho mchanganyiko na kesi 8,723 maalum za hyperdiagnosis trap

Tiba ya moyo (Kardiolojia) kesi 7,500 (7.5%) hatari ya ASCVD, dyslipidaemia ya atherogenic, hs-CRP

Rheumatology kesi 6,000 (6.0%) SLE, RA, vasculitis, paneli za kingamwili za mwili (vigezo vya EULAR/ACR)

Nefrolojia kesi 4,000 (4.0%) Upangaji wa CKD (KDIGO), mwelekeo wa eGFR, usumbufu wa elektrolaiti

Usambazaji wa kielelezo wa lebo za nchi — lebo 10 za juu

Kesi za kielelezo 100,000 hubeba lebo 127 za nchi (ISO 3166-1 alpha-2) ili kujaribu ushughulikiaji wa eneo (locale). Ugawaji wa lebo: Ulaya 57.7%, Amerika 25.4%, Asia-Pasifiki 6.2%, lebo zilizotajwa za Mashariki ya Kati/Afrika 3.4%, na mkia mrefu wa lebo 97 za ziada kwa pamoja takriban 7.3%. Lebo kumi za mara nyingi zaidi kwa idadi ya kesi ni Marekani (10,500), Brazil (9,500), Hispania (9,000), Italia (8,000), Ujerumani (7,800), Ufaransa (7,400), Ureno (5,800), Türkiye (3,400), Uingereza (2,900), na Mexico (2,500). Alama za muunganiko kwa kila lebo zilianzia 0.9971 hadi 0.9985. Hesabu hizi za lebo ni sifa za kesi zilizozalishwa zinazotumika kujaribu ushughulikiaji wa eneo — si watumiaji halisi na si chanjo halisi ya kijiografia.

Rubric iliyosajiliwa mapema, imefafanuliwa

Usajili wa kabla ya kuanza (pre-registration) ndio chaguo muhimu zaidi la mbinu katika kipimo hiki. Kila utambuzi unaotarajiwa, kila mfumo wa kuhesabu wa kimatibabu, na kila sehemu ya ripoti iliahidiwa kwenye msimbo wa chanzo kabla ya injini kuanzishwa. Kwa hiyo, kurekebisha kwa baadae (post-hoc) kwa rubriki ili kuipendelea injini haiwezekani.

Vipengele vitatu vinaunda alama ya jumla (composite). K kipengele cha kimuundo huchangia asilimia 35 na hupima kama injini ilirudisha sehemu saba za lazima za ripoti (kichwa, muhtasari, mambo muhimu yaliyopatikana, tofauti, mifumo ya kuhesabu, mapendekezo, ufuatiliaji) na sehemu ndogo kumi na sita za lazima ndani yake. Uwepo wa sehemu hupima asilimia 40 na uwepo wa sehemu ndogo hupima asilimia 60 ndani ya hesabu ya kimuundo.

The kipengele cha kimatibabu (clinical) huchangia asilimia 55 na kuchanganya mambo matatu: kukumbuka maneno muhimu ya utambuzi (asilimia 70 ya sehemu ndogo ya kimatibabu), kukumbuka mfumo wa kuhesabu (asilimia 20 — je, injini huhesabu Mentzer, FIB-4, HOMA-IR, hatari ya ASCVD, hatua za KDIGO, vigezo vya EULAR/ACR inapohitajika), na ukaguzi wa uhalali wa jumla ya uwezekano (asilimia 10 — uwezekano wa tofauti unapaswa kujumlishwa ndani ya muda wa [90, 110]). Kwa kesi za mitego, adhabu ya wazi ya hyperdiagnosis hadi 0.30 hutolewa, ikihesabiwa kama 0.10 kwa kila bendera ya ugonjwa iliyotengenezwa, ikikomezwa kwa bendera tatu.

The kipengele cha muda wa majibu (latency) huchangia asilimia 10. Jibu chini ya sekunde 20 hupata 0.10 kamili, jibu chini ya sekunde 40 hupata 0.05, na lolote linalochelewa zaidi hupata sifuri. Lengo la sekunde 20 linaakisi lengo la kiwango cha huduma (service-level objective) la uzalishaji wa huduma ya msingi ya path; kikomo cha sekunde 40 kinaakisi bajeti ya kurudi nyuma ya Awamu ya 2 kwa uanzishaji mzito wa injini.

Kinachozuiwa na usajili wa kabla ya kuanza

Vipimo vya kwanza (first-party benchmarks) vinajulikana kwa kuongeza namba zao wenyewe kupitia kurekebisha rubriki kwa baadae. Muundo huo karibu kila mara ni ule ule: timu huendesha injini, kuona wapi inashindwa, kisha kwa utulivu kurekebisha rubriki ili maeneo yanayoshindwa yahesabiwe kidogo. Kwa kuahidi rubriki kwenye msimbo wa chanzo kabla ya simu ya kwanza ya injini na kuchapisha harness chini ya leseni ya MIT, marekebisho hayo yanaonekana kwenye udhibiti wa toleo (version control). Mtu yeyote anaweza kunakili (clone) hazina, kuangalia tarehe za mwandishi wa rubriki, na kuthibitisha kuwa matokeo ya injini hayakutumiwa kuunda mpangilio wa alama.

Kesi za mtego wa hyperdiagnosis — kwa nini kuita kupita kiasi ndicho chanzo halisi cha kushindwa

Kuita kwa nguvu sana ugonjwa wa patholojia kwenye skrini za kawaida ni hali ya kushindwa iliyorekodiwa kwa wasaidizi wa kimatibabu wanaolenga watumiaji (consumer-facing). Gharama zake za baadaye ni pamoja na uchunguzi usio wa lazima, wasiwasi wa mgonjwa, na uchunguzi wa kimatibabu unaosababishwa na daktari (iatrogenic workup). Kesi mbili za mitego katika kipimo hiki zimeundwa kufanya hali hiyo ya kushindwa iwe wazi na iweze kupimika kwa alama.

🟡 Mtego 1 — BT-014-GILBERT

Mawasilisho. Mwanaume mwenye umri wa miaka 24 aliye na bilirubini ya jumla ya 2.4 mg/dL. Sehemu ya moja kwa moja ni ya kawaida, transaminasi na fosfati ya alkali ziko ndani ya viwango vya rejea, retikulosaiti hazina jambo la ajabu, na haptoglobini pamoja na LDH huondoa uwezekano wa hemolysis.

Tafsiri sahihi. Ugonjwa wa Gilbert — mabadiliko ya kijeni (polymorphism) ya kijenetiki ya UGT1A1 yasiyo na madhara. Tafsiri haipaswi kuhusisha hepatitis, cirrhosis, upungufu wa damu wa hemolytic, au kizuizi cha njia ya nyongo.

Matokeo ya V11. Jumla 1.000. Hakuna hata moja ya bendera sita za uainishaji kupita kiasi (over-diagnosis) zilizofuatiliwa ilionekana kama utambuzi hai.

🟡 Mtego 2 — BT-015-HEALTHY

Mawasilisho. Mwanamke mwenye umri wa miaka 35 mwenye paneli ya kawaida ya uchunguzi wa vigezo kumi na tano. Kila kipimo (analyte) kiko vizuri ndani ya kiwango chake cha rejea.

Tafsiri sahihi. Uhakikisho na uendelezaji wa mtindo wa maisha. Tafsiri haipaswi kutengeneza ugonjwa wa mpaka ili kuonekana kuwa na manufaa ya kiafya kiafya.

Matokeo ya V11. Mchanganyiko 1.000. Hakuna hata moja ya alama saba za uainishaji kupita kiasi zilizofuatiliwa—kisukari, upungufu wa damu (anemia), hypothyroidism, dyslipidaemia, hepatitis, ugonjwa wa figo, upungufu—zilionekana kama utambuzi hai.

Katika mitego yote miwili, alama kumi na tatu za uainishaji kupita kiasi (hyperdiagnosis) zilizofuatiliwa zilichunguzwa. Hakuna hata moja iliyowashwa. Hii ndiyo matokeo muhimu zaidi kwa daktari yeyote anayezingatia kutumia injini ya AI kama zana ya triage au kabla ya kushauriana: mfumo haukuvumbua ugonjwa pale ambapo haukuwepo.

Fahirisi ya Mentzer: kutenganisha upungufu wa madini ya chuma na sifa ya thalassemia

Ugunduzi wa pili wenye thamani kubwa unahusu ulinganisho wa kesi BT-001 (upungufu wa damu kutokana na upungufu wa chuma) na kesi BT-007 (beta-thalassaemia ndogo). Zote mbili hujitokeza kwa microcytosis na ni kikwazo kinachojulikana sana kwa vichanganuzi visivyo na uzoefu. Fahirisi ya Mentzer, inayokokotolewa kama MCV ikigawanywa kwa idadi ya RBC, huzidi 13 katika upungufu wa chuma na hushuka chini ya 13 katika sifa ya thalassaemia.

Katika BT-001, mgonjwa alikuwa mwanamke mwenye umri wa miaka 34 mwenye hemoglobini 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, na TIBC iliyoongezeka. Fahirisi ya Mentzer ya takriban 17.7 inaunga mkono upungufu wa chuma wa kweli. Katika BT-007, mgonjwa alikuwa mwanaume mwenye umri wa miaka 28 mwenye microcytosis (MCV 65.8 fL) lakini idadi ya juu ya RBC ya 6.2, RDW ya kawaida, ferritin ya kawaida, na HbA2 ya asilimia 5.6. Fahirisi ya Mentzer ya takriban 10.6 inaashiria sifa ya thalassaemia, na HbA2 iliyoongezeka inathibitisha beta-thalassaemia ndogo.

Upungufu wa damu kutokana na upungufu wa chuma Mentzer > 13 Ferritin ya chini, TSAT ya chini, TIBC ya juu, RDW iliyoongezeka

Sifa ya beta-thalassaemia Mentzer < 13 Ferritin ya kawaida, RDW ya kawaida, HbA2 iliyoongezeka (>3.5%), idadi ya juu ya RBC

Kesi zote mbili zilipata alama 1.000. Injini ilitumia fahirisi ya Mentzer kwa uwazi katika tafsiri zote mbili na kurudisha utambuzi sahihi katika kila tukio. Hili ndilo jibu linalotoa uhakikisho mkubwa zaidi kiafya katika tathmini nzima, kwa sababu kukosea kuainisha sifa ya thalassaemia kama upungufu wa chuma husababisha kuongezewa chuma bila sababu na kukosa fursa za uchunguzi wa familia, na kukosea kuainisha upungufu wa chuma kama thalassaemia huchelewesha tiba rahisi ya kubadilisha. Yetu kiwango cha ferritin inaeleza muktadha mpana wa tofauti.

Matokeo kwa kila kesi kutoka kwenye uendeshaji wa rejea wa awali wa V11 (Aprili 23, 2026)

Uendeshaji wa awali wa V11 wa kundi la uthibitisho la kesi 15 hutumika kama msingi wa kimbinu wa Second Update: kila maelezo ya kila kesi yaliyo hapa chini yanaonyesha jinsi rubriki inavyoshughulikia jibu halisi la injini. Kesi kumi na mbili kati ya kumi na tano zilifikia kikomo cha alama ya pamoja cha 1.000 kwenye njia kuu; kesi tatu zilitolewa kupitia njia ya kurudi ya Phase 2, zikipoteza bonasi ya muda wa kusubiri ya 0.05 huku zikihifadhi maudhui yote ya kimatibabu na ya kimuundo. Kesi moja ilikuwa ikikosa sehemu ndogo moja ya lazima; moja ilirudisha jumla ya usambazaji wa uwezekano uliopunguzwa kidogo.

Kitambulisho cha kesi Utaalamu Jumla Latency Njia (Path)

BT-001-IDAHematolojia1.00017.8 sprimary

BT-006-B12Hematolojia1.000sekunde 18.4primary

BT-007-THALHematolojia1.000sekunde 17.0primary

BT-002-HASHEndocrinology0.950sekunde 37.0kurudi nyuma

BT-008-PCOSEndocrinology0.987sekunde 18.6primary

BT-003-T2DMKimetaboliki1.000sekunde 19.1primary

BT-013-GOUTKimetaboliki1.000sekunde 19.4primary

BT-004-NAFLDHepatolojia1.000sekunde 19.6primary

BT-009-VIRHEPHepatolojia0.950sekunde 23.4kurudi nyuma

BT-014-GILBERTMtego1.000sekunde 18.9primary

BT-005-CKDNefrolojia1.000sekunde 17.4primary

BT-010-ASCVDTiba ya moyo (Kardiolojia)1.000sekunde 19.7primary

BT-011-SLERheumatology0.98118.2 sprimary

BT-012-VITDEndocrinology1.00019.3 sprimary

BT-015-HEALTHYMtego1.00018.7 skurudi nyuma

Kesi ya PCOS (BT-008) ilipoteza sehemu ndogo ya lazima moja katika muundo wa jibu — kumi na tano kati ya kumi na sita badala ya kumi na sita kati ya kumi na sita — jambo lililopunguza alama ya muundo kutoka 1.000 hadi 0.963. Kesi ya SLE (BT-011) ilirudisha jumla ya uwezekano iliyopungua kidogo ambayo ilishusha alama ya kliniki hadi 0.965 huku ikihifadhi kila neno muhimu la uchunguzi na mfumo wa upimaji. Kesi zote mbili ambazo hazikuwa kamili hazikosa utambuzi sahihi.

Jumla ya V11 Second Update — kesi 100,000

Kwa kiwango cha idadi ya watu, safu za kesi binafsi hazisomeki kwa binadamu, hivyo Sasisho la Pili huripoti vipimo vilivyokusanywa badala ya jedwali la safu 100,000. Muhtasari mkuu unaonyeshwa hapa chini; mgawanyo kwa kila taaluma na kwa kila lebo ya nchi unachapishwa kwenye ripoti ya kiufundi na amana ya Figshare. Sampuli iliyopangwa kwa nasibu ya n = 201 majibu ghafi ya injini (mbegu ya kubainisha 20260426) huchapishwa kwenye GitHub results/ kwa ukaguzi.

Alama ya pamoja V11 ya awali: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 katika kundi la kesi 100,000

Alama ya kimuundo (wastani) V11 ya awali: 0.998 → Second Update: 1.000 Ulinganifu kamili wa kimuundo kwa kiwango cha idadi ya watu

Alama ya kimatibabu (wastani) V11 ya awali: 0.998 → Second Update: 0.996 −0.002; hakuna kesi iliyokosa utambuzi wenyewe

Latency — wastani (masafa) V11 ya awali: 20.17 s (17.0–37.0 s) → Sasisho la Pili: 13.26 s (9.0–16.94 s) Uboreshaji wa injini ya uzalishaji kati ya majaribio

Njia ya injini = msingi V11 ya awali: 12 / 15 → Sasisho la Pili: 100,000 / 100,000 Hakuhitajika kurudi nyuma kwa Awamu ya 2 wakati wowote wakati wa majaribio

Bendera za hyperdiagnosis za sehemu-ya-kundi (trap-subset) V11 ya awali: 0 / 13 → Sasisho la Pili: 0 / 87,412 Hakuna chanya za uongo kwa kiwango cha idadi ya watu (kesi 8,723 za trap zilifuatiliwa)

Alama ya kichwa haituambii nini

Alama ya muunganiko ya asilimia 99.80 chini ya rubriki hii mahususi iliyosajiliwa mapema, kwenye kundi la kielelezo la kesi 100,000 linalojumuisha lebo 127 za nchi, inaashiria utendaji wa karibu na kikomo (ceiling) — lakini inahitaji kuwekwa katika muktadha kwa uangalifu. Matokeo yanaeleza tabia ya injini dhidi ya rubriki tuliyoahidi kwenye msimbo wa chanzo katika V11; si madai ya jumla kuhusu usahihi wa injini kwa kila paneli ya vipimo vya damu iliyopo duniani.

Alama hiyo inaonyesha kuwa injini iliweza kushughulikia mifumo ya uchunguzi iliyochaguliwa kwa tathmini hii kwa usahihi katika kundi la watu lenye ukubwa wa kiwango cha idadi ya watu, kwa kutumia mbinu iliyochapishwa na inayoweza kuigwa. Haimaanishi kuwa injini ni sahihi kwenye kila paneli ya vipimo vya damu iliyopo huko nje. Haimaanishi kuwa injini inapaswa kuchukua nafasi ya uamuzi wa mtaalamu wa kliniki. Na haimaanishi kuwa injini inaongoza mifumo mingine ya AI — uchambuzi wa kulinganisha dhidi ya injini nyingine uliachwa kwa makusudi nje ya upeo wa ripoti hii.

Kilichoanzishwa na alama ni msingi. Kwa kuwa kanuni na mfumo wa majaribio vinapatikana hadharani, matoleo yajayo ya injini yanaweza kutathminiwa dhidi ya kanuni ile ile — yakitumika kwa kesi 15 za V11 ya awali, kundi la kesi 100,000 la Sasisho la Pili, au upanuzi wowote unaofuata — na pengo kati ya alama iliyochapishwa na majaribio yoyote ya baadaye linaweza kupimika lenyewe. Huu ndio thamani ya usajili mapema: hubadilisha madai ya utendaji kuwa madai yanayoweza kupimwa.

Jinsi ya kuiga kiwango hiki kwa dakika 10

Kurudiwa kunahitaji tu jozi ya kitambulisho cha Kantesti API na mazingira ya Python 3.10 au toleo jipya zaidi pamoja na requests na reportlab maktaba kusakinishwa. Mfumo kamili wa majaribio ni moduli moja ya Python inayojitosheleza iliyotolewa chini ya leseni ya MIT.

💻 GitHub Mfumo wa majaribio wenye leseni ya MIT · majibu ghafi · uendeshaji wa rejea 🔗 Kielezo cha Figshare DOI 10.6084/m9.figshare.32095435 · rekodi ya kitaaluma ya msingi 🎓 Gate ya Utafiti Uchapishaji 404175463 · V11 Sasisho la Pili · safu ya ugunduzi wa kitaaluma 📄 Academia.edu Karatasi 165956808 · V11 Sasisho la Pili · safu ya ugunduzi wa kitaaluma

Hatua nne za uendeshaji mpya

Moja. Piga clone kwenye hazina: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Mbili. Sakinisha tegemezi kwa pip install -r requirements.txt (Sasisho la Pili huongeza mysql-connector-python ≥ 8.0 kwa kipakiaji cha kesi cha SQL). Tatu. Weka KANTESTI_USERNAME na KANTESTI_PASSWORD kama vigezo vya mazingira kwa API ya injini. Kwa kipakiaji cha kesi cha SQL cha Sasisho la Pili, pia weka KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, na KANTESTI_DB_PASSWORD — kipakiaji huunganishwa kupitia jukumu la kusoma tu (bench_reader) ambalo halina marupurupu ya kutambua jedwali. Nne. Endesha python benchmark_bloodtest.py --limit 100000 kwa uendeshaji kamili wa Second-Update, au python benchmark_bloodtest.py --limit 1000 kwa marudio ya haraka. Matokeo huwekwa kwenye ./benchmark_results/: kadi ya alama ya CSV yenye nguzo za lebo kwa kila nchi na utaalamu, jumla ya JSON, sampuli ya majibu ghafi yaliyopangwa kwa nasibu (stratified-random raw-response sample), na ripoti ya Markdown.

Uendeshaji wa rejea kutoka 23 Aprili 2026 (V11 ya awali, kesi 15) na 26 Aprili 2026 (V11 Second Update, kesi 100,000) huhifadhiwa kwenye results/ saraka ya hazina. Uendeshaji mpya utazalisha kadi mpya ya alama yenye muhuri wa muda (timestamp) huku ukiacha uendeshaji wa rejea bila kuguswa. Ikiwa uendeshaji wako utatoa matokeo tofauti kwa maana, tafadhali fungua suala la GitHub pamoja na muhuri wa muda wa uendeshaji na toleo la injini lililorudishwa kwenye metadata ya majibu.

Mapungufu na kazi ya baadaye

Hata kwa kesi 100,000 katika lebo 127 za nchi, mapungufu manne yanastahili kutajwa wazi: upungufu wa sampuli kwa lebo za mkia mrefu (long-tail label undersampling), tathmini ya mara moja (single-shot evaluation), upeo wa injini moja (single-engine scope), na chanzo kimoja cha data (single-source data origin). Kila moja inashughulikiwa katika kazi ya ufuatiliaji inayoendelea.

Ufunikaji wa lebo za mkia mrefu (long-tail label coverage). Sasisho la Pili (Second Update) lina lebo 127 za nchi, lakini usambazaji si sawa — lebo 10 za juu zinachangia takriban 66.4% ya kesi, na mkia mrefu wa lebo 97 za ziada kwa pamoja unachangia takriban 7.3% (takriban kesi 7,300 kwa pamoja, ~kesi 75 kwa lebo kwa wastani). Kwa hiyo, viambajengo (composites) kwa kila lebo katika mkia huu mrefu vina kelele zaidi kuliko vinavyoashiria takwimu za kichwa. Uendeshaji ujao utasawazisha upya ugawaji wa lebo ili kuboresha makadirio kwa kila lebo.

Tathmini ya mara moja. Kila kesi katika kundi ilitathminiwa mara moja. Miundo mikubwa ya lugha huonyesha utofauti usio wa kawaida wa matokeo hata kwa halijoto ndogo ya sampuli, hivyo itifaki ya uendeshaji wa mara nyingi yenye tathmini tano kwa kila kesi na kuripotiwa kwa utofauti ni hatua inayofuata ya asili — hasa kwenye sehemu ndogo ya kesi za mtego (trap-case), ambapo uthabiti chini ya mabadiliko ya sampuli ni sehemu ya madai ya usalama.

Upeo wa injini moja. Ripoti hii inaelezea injini moja. Uchambuzi wa kulinganisha dhidi ya mifumo mingine ya AI haujumuishwi hapa; tunaweza kuifanya kama utafiti tofauti wa kujitegemea kwa kutumia mbinu inayofaa, dhidi ya mfumo ule ule wa MIT-licensed.

Data ya kubuni (Synthetic data). Kesi 100,000 zimetengenezwa kwa kubuni (synthetically generated), si “kesi za kubuni” (synthetic cases), na matokeo hayahamishiki kwa utendaji halisi wa kliniki. Tathmini kwa data halisi, iliyoidhinishwa (consented), na iliyopatikana kutoka vyanzo vya nje (externally-sourced) ingehitaji usimamizi unaofaa wa kimaadili na haimo ndani ya upeo wa benchmark hii ya kubuni.

Zaidi ya mapungufu hayo manne, upanuzi unaotarajiwa kuwa na athari kubwa zaidi ni usawa wa lugha nyingi kwa kila mamlaka. Injini ya Kantesti AI inawahudumia watumiaji katika 75+ lugha, na kuendesha vikundi vidogo vya Second-Update vilivyogawanywa kwa lugha (Kituruki, Kijerumani, Kihispania, Kifaransa, Kiitaliano, Kireno, Kiarabu, Kichina cha Mandarin) kutapima ubora wa matokeo katika lugha zote zinazoungwa mkono na injini. Kila uchambuzi uliogawanywa kwa lugha utachapishwa pamoja na DOI yake na tawi la mfumo (harness).

Jaribu Injini ile ile iliyopata Alama ya Pamoja ya 99.80% kwenye Kesi 100,000

Pakia paneli yako ya vipimo vya damu kwenye sehemu ile ile ya mwisho ya uzalishaji (production endpoint) iliyotathminiwa katika ulinganisho huu. Zaidi ya watumiaji milioni 2 duniani kote hutumia injini ya AI ya Kantesti kutafsiri zaidi ya viashirio 15,000 katika lugha 75+.

🔬 Jaribu Onyesho la Bure

Kiendelezi cha Chrome Duka la Programu Google Play

📚 Jinsi ya Kunukuu Ulinganisho Huu

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Ripoti ya Kiufundi V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Marejeleo ya Nje ya Mbinu

Mentzer, W. C. (1973). Kutofautisha Upungufu wa Chuma na Sifa ya Thalassemia. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Vigezo vya Uainishaji vya 2019 vya European League Against Rheumatism / American College of Rheumatology kwa Lupus Erythematosus ya Mfumo. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Jaribio la Uhalisia wa Uongo wa Kikoa cha Tiba kwa Miundo Mikubwa ya Lugha. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Alama ya Pamoja

100,000Kesi Zilizopigwa Alama

127Lebo za Nchi Zilizofunikwa

0 / 87,412Mitego ya Makosa Chanya Yasiyo Sahihi (Trap False-Positives)

Maswali Yanayoulizwa Mara Kwa Mara

Injini ya AI ya Kantesti ina usahihi gani kwenye kesi za majaribio za bandia?

Kwenye rubriki iliyosajiliwa kabla (pre-registered rubric), iliyotekelezwa kwa kesi za majaribio 100,000 zilizotengenezwa kwa kubuni (synthetically generated) katika maeneo nane ya maudhui na lebo 127 za nchi (V11 Second Update), injini ilifikia alama ya jumla (composite score) ya asilimia 99.80, ikiwa na bendera sifuri za hyperdiagnosis katika fursa 87,412 za ufuatiliaji wa kesi za mtego (monitored trap-case opportunities) na muda wa wastani wa majibu wa sekunde 13.26. Kiambajengo hiki hupima ulinganifu wa pato (output conformance) kwenye pembejeo za kubuni, si usahihi wa uchunguzi. Toleo asili la V11 lilitumia rubriki ileile kwenye kesi 15 zilizoundwa kwa mkono (composite 99.12%); Sasisho la Pili linaweka rubriki hiyo kuwa sawa kabisa kwa byte (byte-identical) na kuipanua hadi kundi kubwa zaidi la kubuni. Kadi kamili ya alama (full scorecard) imechapishwa kwenye Figshare chini ya DOI 10.6084/m9.figshare.32095435 na kwenye GitHub chini ya leseni ya MIT.

Je, injini ya AI ya Kantesti imethibitishwa kimatibabu?

Hapana. Injini imepimwa kwa benchmark ya kiufundi ya kiotomatiki (automated technical benchmark) (sio uthibitisho wa kliniki), dhidi ya rubriki iliyogandishwa kwenye msimbo chanzo kabla ya uendeshaji wa awali wa V11 na kuendelea kuwa sawa kabisa kwa byte kwa Sasisho la Pili la V11, ikipimwa kwenye kesi 100,000 za damu zilizotengenezwa kwa kubuni (synthetic blood-test cases) katika hematolojia, endokrinolojia, tiba ya magonjwa ya kimetaboliki (metabolic medicine), hepatolojia, nefrologia, kardiolojia, rhematolojia, na tiba ya ndani (internal medicine), zilizochukuliwa kutoka lebo 127 za nchi. Uangalizi wa kliniki ulitolewa na Dk. Thomas Klein, MD (ORCID 0009-0009-1490-1321), mtaalamu wa hematolojia wa kliniki aliyeidhinishwa na bodi (board-certified) na Afisa Mkuu wa Tiba (Chief Medical Officer) wa Kantesti AI.

Je, kesi ya mtego wa hyperdiagnosis ni nini?

Kisa cha mtego wa hyperdiagnosis ni hali ya kimatibabu iliyoundwa mahsusi kugundua tabia ya kufanya utambuzi kupita kiasi (over-diagnosis) katika injini za AI. Kiwango cha awali cha V11 kilitumia visa viwili hivyo kama uthibitisho wa kimbinu (methodological proof-of-concept): hyperbilirubinaemia ya pekee isiyo ya moja kwa moja inayolingana na ugonjwa wa Gilbert (ambapo tafsiri sahihi ni mabadiliko ya kijeni ya UGT1A1 yasiyo na madhara badala ya hepatitis au hemolysis) na paneli ya uchunguzi ya watu wazima iliyo sawa kabisa (ambapo matokeo sahihi ni faraja badala ya ugonjwa wa mpaka uliotengenezwa). Sasisho la Pili la V11 liliendeleza mbinu hii ya mtego hadi sehemu maalum ya visa 8,723, ikitoa fursa 87,412 za bendera za hyperdiagnosis zilizofuatiliwa — na kiwango cha makosa ya chanya isiyo sahihi (false-positive) cha injini kilibaki sifuri.

Je, tathmini ya injini ya AI ya Kantesti inaweza kurudiwa kwa matokeo sawa?

Mfumo kamili wa tathmini (evaluation harness) umetolewa chini ya leseni ya MIT kama moduli moja ya Python inayojitosheleza. Uendeshaji wa awali wa V11 unahitaji tu jozi ya vitambulisho vya API vya Kantesti na Python 3.10 au toleo jipya zaidi. Sasisho la Pili la V11 huongeza kipakiaji cha visa cha SQL chenye vigezo na cha kusoma tu (read-only) kinachohitaji vitambulisho vya Kantesti vya hifadhi ya kimatibabu (clinical-repository) (a bench_reader jukumu lisilo na marupurupu ya kutambua majedwali). Msimbo, SQL ya kipakiaji cha visa, rubric (sawa kabisa kwa biti kati ya matoleo), na sampuli iliyopangwa kwa nasibu ya matokeo ghafi ya injini kutoka kwa uendeshaji wa awali wa V11 na uendeshaji wa rejea wa Sasisho la Pili yanapatikana kwenye github.com/emirhanai/kantesti-blood-test-benchmark na yameakisiwa (mirrored) kwenye Figshare, ResearchGate, na Academia.edu.

Je, injini ya AI ya Kantesti hutofautisha upungufu wa madini ya chuma na hali ya beta-thalassemia?

Injini hutumia fahirisi ya Mentzer, inayokokotolewa kama ujazo wa wastani wa chembe nyekundu (mean corpuscular volume) kugawanywa kwa hesabu ya chembe nyekundu za damu (red blood cell count). Fahirisi ya Mentzer iliyo juu ya 13 huunga mkono upungufu wa damu unaotokana na upungufu wa madini ya chuma (iron deficiency anaemia), ilhali thamani iliyo chini ya 13 huunga mkono sifa ya beta-thalassaemia. Katika kiwango cha awali cha V11, mawasilisho yote mawili yalitambuliwa kwa usahihi kwa kukokotoa fahirisi ya Mentzer kwa uwazi, ikisaidiwa na ferritin, RDW, na muktadha wa HbA2. Katika Sasisho la Pili la V11, kundi la visa 100,000, tabia hiyo hiyo tofauti (differential behaviour) ilihifadhiwa kwa kiwango cha idadi ya watu (population scale).

Naweza kupata wapi data ghafi ya viwango vya kulinganisha na msimbo chanzo?

Ripoti ya kiufundi imewekwa kwenye Figshare chini ya DOI 10.6084/m9.figshare.32095435 (inayojumuisha uendeshaji wa awali wa V11 na Sasisho la Pili la V11), imeakisiwa kwenye ResearchGate publication 404175463 na karatasi ya Academia.edu 165956808 — zote zimesasishwa kwa kichwa cha Sasisho la Pili la V11 na matokeo ya visa 100,000 — na harness ya Python iliyo chini ya leseni ya MIT yenye matokeo yote ya uendeshaji wa rejea iko kwenye github.com/emirhanai/kantesti-blood-test-benchmark. Mtandao wa nakala (mirror) wa majukwaa manne huhakikisha upatikanaji wa muda mrefu na kubadilika kwa kunukuu (citation flexibility).

Kwa nini usajili wa awali (pre-registration) ni muhimu kwa viwango vya kimatibabu vya AI?

Usajili wa awali huzuia kurekebisha rubric baada ya matokeo (post-hoc rubric tuning), ambayo ndiyo njia ya kawaida kabisa ambayo makampuni yanayotumia viwango (benchmarks) huongeza namba zao wenyewe. Kwa kuahidi rubric kwenye msimbo chanzo kabla ya simu yoyote ya injini na kuchapisha harness hadharani, tarehe za mwandishi wa rubric huwa zinaweza kukaguliwa kwenye udhibiti wa toleo (version control), na matokeo ya injini hayawezi kuwa yameunda vigezo vya upimaji.

Je, kiwango hiki kinajumuisha kulinganisha na injini nyingine za AI?

Hapana. Ripoti ya V11 — zote mbili, uendeshaji wa awali na Sasisho la Pili — kwa makusudi inaelezea injini moja dhidi ya rubric iliyowekwa (fixed rubric) badala ya kuiweka dhidi ya mifumo mbadala ya kibiashara. Harness ni chanzo-wazi (open source) chini ya leseni ya MIT (sasa ikijumuisha kipakiaji cha visa cha SQL), hivyo watafiti huru wanaweza kutathmini injini yoyote wanayoichagua dhidi ya rubric na kipakiaji cha visa hicho hicho na kuchapisha matokeo yao.

Je, visa vya wagonjwa ni vya kweli au vya kubuni?

Kesi zote zimetengenezwa kwa kubuni — kesi 15 zilizoundwa kwa mkono kwenye toleo la awali la V11 na 100,000 kwenye Sasisho la Pili. Si “kesi za kubuni”: hakuna data ya kubuni, hakuna mchakato wa ridhaa (consent), na hakuna uondoaji wa utambulisho (de-identification), kwa sababu hakuna data binafsi iliyopo kwenye kundi (cohort). Hakuna data binafsi inayoonekana kwenye kifaa kilichochapishwa (published harness), ripoti ya kiufundi, au seti za data zilizotolewa.

⚕️ Kanusho la Kimatibabu & Mgongano wa Maslahi

Ripoti hii ya benchmark ni kwa ajili ya utafiti na uwazi wa mbinu. Haichukui nafasi ya ushauri wa matibabu, si utambuzi, na si mbadala wa huduma ya kitaalamu ya afya; hakuna matokeo hapa yanapaswa kutumiwa kuchelewesha au kuepuka kumuona daktari. Daima wasiliana na mtoa huduma aliyehitimu wa afya kwa maamuzi ya utambuzi na matibabu. Huu ni benchmark ya ndani ya kujitekeleza ya injini ya kampuni yenyewe na haujathibitishwa kwa uhuru wala kukaguliwa na rika. Alama ya muunganiko hupima ulinganifu na mfumo maalum wa kuwekea alama (muundo wa ripoti, kukumbuka kwa maneno muhimu na mfumo wa kuwekea alama, na muda wa majibu); si kipimo cha usahihi halisi wa utambuzi katika mazingira ya ulimwengu halisi au usalama wa kimatibabu. Waandishi wote wawili wameajiriwa na wanamiliki hisa katika Kantesti Ltd, na injini inayotathminiwa ni bidhaa ya kibiashara ya shirika lile lile. Mgongano huu wa maslahi hupunguzwa kwa kusajili mapema mfumo wa kuwekea alama kwenye msimbo, kutoa kifaa cha majaribio (harness) chini ya leseni ya MIT, na kuchapisha sampuli iliyopangwa kwa nasibu ya majibu ghafi ya injini.

E-E-A-T Trust Signals

⭐

Uzoefu

Miaka 15+ ya uzoefu wa kimatibabu katika hematolojia na tiba ya maabara, kusimamia uteuzi wa paneli ya visa.

📋

Utaalamu

Muundo wa rubric uliosajiliwa mapema (pre-registered) wenye adhabu za wazi za hyperdiagnosis na mifumo inayotambulika ya upimaji wa kimatibabu (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Mamlaka

Mwandishi mkuu Dk. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Utekelezaji na Julian Emirhan Bulut, Mkurugenzi Mtendaji (CEO) wa Kantesti Ltd.

🛡️

Uaminifu

Harness inayoweza kurudiwa (reproducible) yenye leseni ya MIT, majibu ya awali ya injini yamechapishwa, ufichuzi wazi wa mgongano wa maslahi, mtandao wa kioo cha utafiti wa majukwaa manne.

🏢 Kantesti LTD Imesajiliwa Uingereza & Wales · Nambari ya Kampuni. 17090423 London, Uingereza · kantesti.net