Uthibitishaji wa Kliniki Kiwango cha Kulinganishwa kilichosajiliwa mapema V11 — Aprili 2026 Inayoruhusiwa kwa leseni ya MIT Inayoweza kuthibitishwa na wenzao

Injini ya AI ya Kantesti — Kiwango cha Vipimo vya Damu: Uthibitishaji wa Kitaalamu katika Taaluma Saba za Tiba

Tathmini ya kimatibabu huru, iliyosajiliwa mapema, ya injini ya AI ya Kantesti kwenye vielelezo vya vipimo vya damu vilivyofichwa taarifa zake. Mfumo wa tathmini (rubric) ulifungwa kwenye msimbo chanzo kabla ya simu ya kwanza ya injini, mfumo wa kufanya tathmini una leseni ya MIT, na majibu yote ya awali (raw) yanachapishwa.

📖 ~dakika 14 📅 Aprili 23, 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Imechapishwa: Aprili 23, 2026 🩺 Imekaguliwa kiafya: Aprili 23, 2026 ✅ Rubric Iliyosajiliwa Mapema 🔓 Msimbo & Data Wazi

Utafiti huu wa uthibitishaji wa kimatibabu uliongozwa na Dkt. Thomas Klein, MD, Afisa Mkuu wa Tiba (Chief Medical Officer) wa Kantesti AI, kwa kushirikiana na Julian Emirhan Bulut, Mhandisi Mwandamizi wa AI na Mkurugenzi Mtendaji (CEO) wa Kantesti Ltd. Mbinu na rubric vilikaguliwa na Bodi ya Ushauri wa Kimatibabu ya Kantesti AI.

Mwandishi Mkuu & Usimamizi wa Kliniki

Thomas Klein, MD

Afisa Mkuu wa Matibabu, Kantesti AI

Dk. Thomas Klein ni mtaalamu wa magonjwa ya damu (hematologist) wa kliniki aliyeidhinishwa na bodi na daktari wa ndani (internist) mwenye zaidi ya miaka 15 ya uzoefu katika tiba ya maabara. Kama Afisa Mkuu wa Tiba katika Kantesti AI, alichagua paneli ya kesi kwa kiwango hiki cha kulinganisha, alikagua ukweli wote wa uchunguzi (diagnostic ground truths), na akaidhinisha rubric iliyosajiliwa mapema kabla ya kuanzishwa kwa injini kwa mara ya kwanza.

ORCID 0009-0009-1490-1321 Gate ya Utafiti Msomi wa Google

Mwandishi Mwenza & Utekelezaji

Julian Emirhan Bulut

Mhandisi Mwandamizi wa AI & Mkurugenzi Mtendaji, Kantesti Ltd

Julian Emirhan Bulut ndiye mwanzilishi na Mkurugenzi Mtendaji wa Kantesti Ltd. Alibuni na kutekeleza mfumo wa kufanya tathmini (evaluation harness), akafanya ujumuishaji wa API, akaendesha jaribio la kiwango cha kulinganisha la Aprili 2026, na akatayarisha muunganiko wa takwimu. Mwanzilishi wa jukwaa tangu 2019.

GitHub Kuhusu Kantesti

⚡ Muhtasari wa Haraka V11 — Aprili 23, 2026

Alama ya mchanganyiko 99.12% kwenye kesi 15 za vipimo vya damu vya wagonjwa halisi vilivyofichwa utambulisho, katika taaluma saba za matibabu.
Hakuna chanya za uongo za hyperdiagnosis kwenye kesi zote mbili za “trap” (ugonjwa wa Gilbert na uchunguzi wa watu wazima wenye afya kabisa).
Rubriki iliyosajiliwa mapema imehifadhiwa kwenye msimbo chanzo kabla ya simu ya kwanza ya injini — hakuna urekebishaji wa baadae uliowezekana.
Index ya Mentzer imetumika kwa usahihi kutofautisha upungufu wa damu unaotokana na upungufu wa madini ya chuma (iron deficiency anaemia) na beta-thalassaemia minor.
Kituo cha mwisho cha uzalishaji pekee — hakuna uelekezaji wa upendeleo, imejaribiwa kama mteja anayelipa angeifikia.
Latansi ya wastani ya sekunde 20.17 mwisho-kwa-mwisho, huku kesi 12 kati ya 15 zikiwa chini ya lengo la sekunde 20 kwenye njia ya msingi.
Kifaa cha majaribio chenye leseni ya MIT kimeachiliwa kwenye GitHub pamoja na kila jibu ghafi la injini — uzalishaji upya huru unasaidiwa.
Kielezo cha Figshare DOI: 10.6084/m9.figshare.32095435 · Imerudufishwa kwenye ResearchGate, Academia.edu, GitHub.

Kwa nini kiwango hiki cha kulinganisha kipo na kinachojaribu

Tafsiri ya vipimo vya damu kwa usaidizi wa AI inatumika zaidi na zaidi katika mazingira ya watumiaji na ya kliniki, hata hivyo mifumo ya tathmini inayoweza kurudiwa inayolengwa kwa tiba ya maabara bado ni nadra. Maswali muhimu zaidi katika mazingira haya si yale yanayofunikwa na viwango vya jumla vya kujibu maswali ya matibabu: je, injini inaweza kutenganisha upungufu wa madini ya chuma na sifa ya thalassaemia wakati kiasi cha wastani cha chembe nyekundu za damu (MCV) ni sawa, je, inaweka utambuzi wa ugonjwa wa Gilbert kupita kiasi kama hepatitis, na je, inatengeneza ugonjwa kwenye paneli ya uchunguzi iliyo ya kawaida kabisa?

Kundi moja la vipimo vya damu kwa kawaida huwa na taarifa za kutosha kusaidia tafsiri kadhaa zinazoshindana, na kazi ya daktari anayezitafsiri ni kupima tafsiri hizo dhidi ya kila nyingine badala ya kutafuta jibu la kitabu. Injini inayofanya vizuri kwenye visa vya kitabu bado inaweza kushindwa kwenye visa vinavyohusu zaidi: mitego ya utambuzi tofauti, tofauti zisizo na madhara ambazo huonekana za kutisha zikisimama peke yake, na paneli zilizo kawaida kabisa zinazowajaribu wasaidizi wenye kujiamini kutengeneza ugonjwa.

Kiwango hiki cha tathmini kilijengwa hasa kuzunguka njia hizo za kushindwa. Kila kati ya visa kumi na tano ilichaguliwa kwa sifa maalum ya uchunguzi: microcytosis inayotokana na upungufu wa chuma ambayo lazima ibaki tofauti na sifa ya beta-thalassaemia yenye mean corpuscular volume inayofanana, hali ya ugonjwa wa Gilbert ambapo kasoro pekee ni ongezeko la pekee la bilirubina ya moja kwa moja, na paneli ya uchunguzi ya vigezo kumi na tano ambamo kila kipimo kiko ndani ya kiwango chake cha rejea. Kanuni hiyo huipa tuzo injini zinazosomea kila kisa kwa masharti yake, na huipunguzia alama injini zinazofikia utambuzi wa kujiamini pale ambapo hakuna utambuzi kama huo unaostahili.

Kama Thomas Klein, MD, nilichagua paneli ya visa kwa sababu hizi ndizo mifumo ninayoona wasaidizi wa tiba ya maabara wakikosea mara nyingi zaidi. Njia ya kushindwa yenye gharama kubwa si "kukosa ugonjwa adimu"—ni kutengeneza ugonjwa wa kawaida kwa wagonjwa ambao hawana. Yetu Uthibitishaji wa Matibabu hub inaeleza mfumo mpana; ukurasa huu unaeleza matokeo yake yaliyotumika kwenye injini ya V11.

Jaribio la marejeo la hivi punde — V11 (Aprili 2026)

Kipimo cha rejea cha Aprili 2026 cha Kantesti AI Engine V11 kilitoa alama ya jumla ya 99.12% kwenye rubriki ya visa kumi na tano iliyosajiliwa mapema. Visa vyote viwili vya mtego wa hyperdiagnosis vilipata alama ya juu kabisa. Index ya Mentzer ilitumika kwa usahihi kwenye tofauti ya upungufu wa chuma dhidi ya thalassaemia.

Jumla 99.12% Visa 15 kati ya 15 vilipata alama

0.998 Alama ya muundo

0.998 Alama ya kliniki

20.17 s Wastani wa muda wa kusubiri

0 / 13 Mitego ya chanya ya uongo

Mfumo wa jumla huchanganya vipengele vitatu: ulinganifu wa muundo na sehemu saba za lazima za ripoti na sehemu ndogo kumi na sita za lazima, usahihi wa kliniki unaopimwa kama kumbukumbu ya maneno (keyword recall) pamoja na kumbukumbu ya mfumo wa alama (scoring-system recall) pamoja na ukaguzi wa uhalali wa usambazaji wa uwezekano, na muda wa majibu dhidi ya lengo la msingi la huduma la sekunde 20. Mgawanyo halisi unaonyeshwa kwenye fomula ya rubriki hapa chini.

Jumla = 0.35 × Muundo + 0.55 × Kliniki + 0.10 × Muda wa kusubiri

Sehemu iliyobaki ya asilimia 0.88 ya nafasi ya ziada (headroom) huvunjika karibu kabisa kuwa upotevu wa muda wa kusubiri (latency loss) — majaribio matatu ya kurudia kwa njia ya mpango wa dharura (fallback) ya Awamu ya 2, kila moja ikiwa na mchanganyiko wa -0.05, yalichangia takriban 0.60 kati ya pengo la pointi 0.88 — badala ya kuingia kwenye maudhui ya kimatibabu. Kifaa hakikosa utambuzi sahihi katika mojawapo ya kesi kumi na tano; pale kilipofeli, kilifanya hivyo kwa kuchukua muda mrefu kidogo kuliko lengo la sekunde 20 la njia ya msingi (primary-path) katika idadi ndogo ya majaribio.

Kesi kumi na tano katika taaluma saba za matibabu

Jopo la kesi linashughulikia taaluma saba — hematolojia, endocrinolojia, tiba ya magonjwa ya kimetaboli (metabolic medicine), hepatolojia, nefrologia, kardiolojia, rhematolojia — pamoja na kesi mbili maalum za mtego wa hyperdiagnosis. Kila kesi ni rekodi halisi ya mgonjwa iliyofichwa utambulisho (anonymised) iliyochukuliwa kutoka hazina ya data ya kimatibabu ya Kantesti chini ya ridhaa iliyoandikwa ya ufahamu.

Uondoaji wa taarifa za kumtambua (de-identification) ulifanywa kwa njia ya Safe Harbor: vitambulishi vyote vya moja kwa moja viliondolewa au kubadilishwa, na kila rekodi ilipewa msimbo wa kesi wa ndani wa kigezo (benchmark-internal case code) kwa muundo BT-NNN-LABEL. Usindikaji ulifanywa kwa mujibu wa GDPR Kifungu cha 9(2)(j) kwa utafiti wa kisayansi wenye kinga zinazofaa, na masharti sawa ya UK GDPR. Hakuna taarifa yoyote ya kumtambua mtu binafsi inayoonekana popote kwenye kifaa kilichochapishwa (published harness), ripoti ya kiufundi, au seti za data zilizotolewa.

Hematolojia (3) BT-001, BT-006, BT-007 Upungufu wa damu unaosababishwa na upungufu wa madini ya chuma · Upungufu wa B12 · Beta-thalassemia ndogo

Endocrinolojia (3) BT-002, BT-008, BT-012 Thyroiditis ya Hashimoto · PCOS yenye upinzani wa insulini · Upungufu mkubwa wa vitamini D

Kimetaboli (2) BT-003, BT-013 T2DM yenye ugonjwa wa kimetaboli · Hyperuricaemia yenye hatari ya gout

Hepatolojia (2) BT-004, BT-009 NAFLD / NASH · Hepatitis ya papo hapo ya virusi

Nefrologia · Kardiolojia · Rhematolojia (3) BT-005, BT-010, BT-011 Hatua ya 3 ya CKD · Dyslipidaemia ya atherogenic · Lupus erythematosus ya mfumo mzima

Kesi za mtego (2) BT-014, BT-015 Ugonjwa wa Gilbert (hyperbilirubinaemia ya pekee isiyo ya moja kwa moja) · Uchunguzi wa watu wazima ulio wa kawaida kabisa

Kwa nini usambazaji huu mahususi

Hematolojia hupata kesi tatu kwa sababu tofauti za microcytic na tofauti za macrocytic ndizo mitego yenye kiasi kikubwa zaidi katika mazoezi ya kawaida ya maabara. Endokrinolojia hupata kesi tatu kwa sababu mawasilisho ya Hashimoto, PCOS, na upungufu wa vitamini D huonyesha maumbo tofauti ya uchunguzi (yanayoendeshwa na kingamwili, yanayoendeshwa na uwiano wa homoni, yanayoendeshwa na alama moja). Kitaaluma za kesi ya mara moja bado zina maana kwa sababu kila moja ya CKD, hatari ya ASCVD, na SLE ina mfumo wake wa kuhesabu ambao injini inapaswa kuuita (kwa mtiririko huo: hatua za KDIGO, hatari ya miaka 10 ya ASCVD, na vigezo vya 2019 vya EULAR/ACR vya SLE).

Rubric iliyosajiliwa mapema, imefafanuliwa

Usajili wa kabla ya kuanza (pre-registration) ndio chaguo muhimu zaidi la mbinu katika kipimo hiki. Kila utambuzi unaotarajiwa, kila mfumo wa kuhesabu wa kimatibabu, na kila sehemu ya ripoti iliahidiwa kwenye msimbo wa chanzo kabla ya injini kuanzishwa. Kwa hiyo, kurekebisha kwa baadae (post-hoc) kwa rubriki ili kuipendelea injini haiwezekani.

Vipengele vitatu vinaunda alama ya jumla (composite). K kipengele cha kimuundo huchangia asilimia 35 na hupima kama injini ilirudisha sehemu saba za lazima za ripoti (kichwa, muhtasari, mambo muhimu yaliyopatikana, tofauti, mifumo ya kuhesabu, mapendekezo, ufuatiliaji) na sehemu ndogo kumi na sita za lazima ndani yake. Uwepo wa sehemu hupima asilimia 40 na uwepo wa sehemu ndogo hupima asilimia 60 ndani ya hesabu ya kimuundo.

The kipengele cha kimatibabu (clinical) huchangia asilimia 55 na kuchanganya mambo matatu: kukumbuka maneno muhimu ya utambuzi (asilimia 70 ya sehemu ndogo ya kimatibabu), kukumbuka mfumo wa kuhesabu (asilimia 20 — je, injini huhesabu Mentzer, FIB-4, HOMA-IR, hatari ya ASCVD, hatua za KDIGO, vigezo vya EULAR/ACR inapohitajika), na ukaguzi wa uhalali wa jumla ya uwezekano (asilimia 10 — uwezekano wa tofauti unapaswa kujumlishwa ndani ya muda wa [90, 110]). Kwa kesi za mitego, adhabu ya wazi ya hyperdiagnosis hadi 0.30 hutolewa, ikihesabiwa kama 0.10 kwa kila bendera ya ugonjwa iliyotengenezwa, ikikomezwa kwa bendera tatu.

The kipengele cha muda wa majibu (latency) huchangia asilimia 10. Jibu chini ya sekunde 20 hupata 0.10 kamili, jibu chini ya sekunde 40 hupata 0.05, na lolote linalochelewa zaidi hupata sifuri. Lengo la sekunde 20 linaakisi lengo la kiwango cha huduma (service-level objective) la uzalishaji wa huduma ya msingi ya path; kikomo cha sekunde 40 kinaakisi bajeti ya kurudi nyuma ya Awamu ya 2 kwa uanzishaji mzito wa injini.

Kinachozuiwa na usajili wa kabla ya kuanza

Vipimo vya kwanza (first-party benchmarks) vinajulikana kwa kuongeza namba zao wenyewe kupitia kurekebisha rubriki kwa baadae. Muundo huo karibu kila mara ni ule ule: timu huendesha injini, kuona wapi inashindwa, kisha kwa utulivu kurekebisha rubriki ili maeneo yanayoshindwa yahesabiwe kidogo. Kwa kuahidi rubriki kwenye msimbo wa chanzo kabla ya simu ya kwanza ya injini na kuchapisha harness chini ya leseni ya MIT, marekebisho hayo yanaonekana kwenye udhibiti wa toleo (version control). Mtu yeyote anaweza kunakili (clone) hazina, kuangalia tarehe za mwandishi wa rubriki, na kuthibitisha kuwa matokeo ya injini hayakutumiwa kuunda mpangilio wa alama.

Kesi za mtego wa hyperdiagnosis — kwa nini kuita kupita kiasi ndicho chanzo halisi cha kushindwa

Kuita kwa nguvu sana ugonjwa wa patholojia kwenye skrini za kawaida ni hali ya kushindwa iliyorekodiwa kwa wasaidizi wa kimatibabu wanaolenga watumiaji (consumer-facing). Gharama zake za baadaye ni pamoja na uchunguzi usio wa lazima, wasiwasi wa mgonjwa, na uchunguzi wa kimatibabu unaosababishwa na daktari (iatrogenic workup). Kesi mbili za mitego katika kipimo hiki zimeundwa kufanya hali hiyo ya kushindwa iwe wazi na iweze kupimika kwa alama.

🟡 Mtego 1 — BT-014-GILBERT

Mawasilisho. Mwanaume mwenye umri wa miaka 24 aliye na bilirubini ya jumla ya 2.4 mg/dL. Sehemu ya moja kwa moja ni ya kawaida, transaminasi na fosfati ya alkali ziko ndani ya viwango vya rejea, retikulosaiti hazina jambo la ajabu, na haptoglobini pamoja na LDH huondoa uwezekano wa hemolysis.

Tafsiri sahihi. Ugonjwa wa Gilbert — mabadiliko ya kijeni (polymorphism) ya kijenetiki ya UGT1A1 yasiyo na madhara. Tafsiri haipaswi kuhusisha hepatitis, cirrhosis, upungufu wa damu wa hemolytic, au kizuizi cha njia ya nyongo.

Matokeo ya V11. Jumla 1.000. Hakuna hata moja ya bendera sita za uainishaji kupita kiasi (over-diagnosis) zilizofuatiliwa ilionekana kama utambuzi hai.

🟡 Mtego 2 — BT-015-HEALTHY

Mawasilisho. Mwanamke mwenye umri wa miaka 35 mwenye paneli ya kawaida ya uchunguzi wa vigezo kumi na tano. Kila kipimo (analyte) kiko vizuri ndani ya kiwango chake cha rejea.

Tafsiri sahihi. Uhakikisho na uendelezaji wa mtindo wa maisha. Tafsiri haipaswi kutengeneza ugonjwa wa mpaka ili kuonekana kuwa na manufaa ya kiafya kiafya.

Matokeo ya V11. Mchanganyiko 1.000. Hakuna hata moja ya alama saba za uainishaji kupita kiasi zilizofuatiliwa—kisukari, upungufu wa damu (anemia), hypothyroidism, dyslipidaemia, hepatitis, ugonjwa wa figo, upungufu—zilionekana kama utambuzi hai.

Katika mitego yote miwili, alama kumi na tatu za uainishaji kupita kiasi (hyperdiagnosis) zilizofuatiliwa zilichunguzwa. Hakuna hata moja iliyowashwa. Hii ndiyo matokeo muhimu zaidi kwa daktari yeyote anayezingatia kutumia injini ya AI kama zana ya triage au kabla ya kushauriana: mfumo haukuvumbua ugonjwa pale ambapo haukuwepo.

Fahirisi ya Mentzer: kutenganisha upungufu wa madini ya chuma na sifa ya thalassemia

Ugunduzi wa pili wenye thamani kubwa unahusu ulinganisho wa kesi BT-001 (upungufu wa damu kutokana na upungufu wa chuma) na kesi BT-007 (beta-thalassaemia ndogo). Zote mbili hujitokeza kwa microcytosis na ni kikwazo kinachojulikana sana kwa vichanganuzi visivyo na uzoefu. Fahirisi ya Mentzer, inayokokotolewa kama MCV ikigawanywa kwa idadi ya RBC, huzidi 13 katika upungufu wa chuma na hushuka chini ya 13 katika sifa ya thalassaemia.

Katika BT-001, mgonjwa alikuwa mwanamke mwenye umri wa miaka 34 mwenye hemoglobini 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, na TIBC iliyoongezeka. Fahirisi ya Mentzer ya takriban 17.7 inaunga mkono upungufu wa chuma wa kweli. Katika BT-007, mgonjwa alikuwa mwanaume mwenye umri wa miaka 28 mwenye microcytosis (MCV 65.8 fL) lakini idadi ya juu ya RBC ya 6.2, RDW ya kawaida, ferritin ya kawaida, na HbA2 ya asilimia 5.6. Fahirisi ya Mentzer ya takriban 10.6 inaashiria sifa ya thalassaemia, na HbA2 iliyoongezeka inathibitisha beta-thalassaemia ndogo.

Upungufu wa damu kutokana na upungufu wa chuma Mentzer > 13 Ferritin ya chini, TSAT ya chini, TIBC ya juu, RDW iliyoongezeka

Sifa ya beta-thalassaemia Mentzer < 13 Ferritin ya kawaida, RDW ya kawaida, HbA2 iliyoongezeka (>3.5%), idadi ya juu ya RBC

Kesi zote mbili zilipata alama 1.000. Injini ilitumia fahirisi ya Mentzer kwa uwazi katika tafsiri zote mbili na kurudisha utambuzi sahihi katika kila tukio. Hili ndilo jibu linalotoa uhakikisho mkubwa zaidi kiafya katika tathmini nzima, kwa sababu kukosea kuainisha sifa ya thalassaemia kama upungufu wa chuma husababisha kuongezewa chuma bila sababu na kukosa fursa za uchunguzi wa familia, na kukosea kuainisha upungufu wa chuma kama thalassaemia huchelewesha tiba rahisi ya kubadilisha. Yetu kiwango cha ferritin inaeleza muktadha mpana wa tofauti.

Matokeo kwa kila kesi kutoka kwa uendeshaji wa Aprili 2026

Kumi na mbili kati ya kesi kumi na tano zilifikia alama ya juu kabisa ya mchanganyiko (ceiling) ya 1.000 kwenye njia kuu (primary path). Kesi tatu zilitolewa kupitia njia ya kurudi nyuma ya Awamu ya 2 (Phase 2 fallback), na kupoteza bonasi ya muda wa kusubiri (latency) ya 0.05 huku ikihifadhi maudhui yote ya kiafya na ya kimuundo. Kesi moja ilikuwa ikikosa sehemu ndogo ya lazima; moja ilirudisha jumla ya usambazaji wa uwezekano uliopungua kidogo.

Kitambulisho cha kesi Utaalamu Jumla Latency Njia (Path)

BT-001-IDAHematolojia1.00017.8 sprimary

BT-006-B12Hematolojia1.000sekunde 18.4primary

BT-007-THALHematolojia1.000sekunde 17.0primary

BT-002-HASHEndocrinology0.950sekunde 37.0kurudi nyuma

BT-008-PCOSEndocrinology0.987sekunde 18.6primary

BT-003-T2DMKimetaboliki1.000sekunde 19.1primary

BT-013-GOUTKimetaboliki1.000sekunde 19.4primary

BT-004-NAFLDHepatolojia1.000sekunde 19.6primary

BT-009-VIRHEPHepatolojia0.950sekunde 23.4kurudi nyuma

BT-014-GILBERTMtego1.000sekunde 18.9primary

BT-005-CKDNefrolojia1.000sekunde 17.4primary

BT-010-ASCVDTiba ya moyo (Kardiolojia)1.000sekunde 19.7primary

BT-011-SLERheumatology0.98118.2 sprimary

BT-012-VITDEndocrinology1.00019.3 sprimary

BT-015-HEALTHYMtego1.00018.7 skurudi nyuma

Kesi ya PCOS (BT-008) ilipoteza sehemu ndogo ya lazima moja katika muundo wa jibu — kumi na tano kati ya kumi na sita badala ya kumi na sita kati ya kumi na sita — jambo lililopunguza alama ya muundo kutoka 1.000 hadi 0.963. Kesi ya SLE (BT-011) ilirudisha jumla ya uwezekano iliyopungua kidogo ambayo ilishusha alama ya kliniki hadi 0.965 huku ikihifadhi kila neno muhimu la uchunguzi na mfumo wa upimaji. Kesi zote mbili ambazo hazikuwa kamili hazikosa utambuzi sahihi.

Alama ya kichwa haituambii nini

Alama ya pamoja ya 99.12 asilimia chini ya kanuni hii maalum iliyosajiliwa mapema inawakilisha utendaji karibu na kikomo, lakini inahitaji kuwekwa kwa uangalifu. Matokeo yanaelezea tabia ya injini dhidi ya kesi kumi na tano zilizochaguliwa kwa uangalifu na zisizojulikana, kila moja ikitathminiwa mara moja, dhidi ya kanuni moja. Tumeweka wazi kuhusu kile nambari inachomaanisha na kile isichothibitisha.

Alama inaonyesha kwamba injini ya V11 iliushughulikia kwa usahihi muundo wa uchunguzi ulioteuliwa kwa tathmini hii, kwa mbinu iliyochapishwa na inayoweza kurudiwa. Haimaanishi kwamba injini ni sahihi kwenye kila paneli ya vipimo vya damu iliyopo ulimwenguni. Haimaanishi kwamba injini inapaswa kuchukua nafasi ya uamuzi wa mtaalamu wa afya. Na haimaanishi kwamba injini inaongoza mifumo mingine ya AI—uchambuzi wa kulinganisha dhidi ya injini nyingine ulifanywa kwa makusudi usiwe ndani ya upeo wa ripoti hii.

Kile alama inathibitisha ni msingi. Kwa kuwa kanuni na mfumo wa majaribio vinapatikana hadharani, matoleo yajayo ya injini yanaweza kutathminiwa dhidi ya kesi zile zile kumi na tano, na pengo kati ya alama iliyochapishwa na uendeshaji wowote wa baadaye linaweza kupimika lenyewe. Huu ndio thamani ya usajili mapema: hubadilisha madai ya utendaji kuwa madai yanayoweza kupimwa.

Jinsi ya kuiga kiwango hiki kwa dakika 10

Kurudiwa kunahitaji tu jozi ya kitambulisho cha Kantesti API na mazingira ya Python 3.10 au toleo jipya zaidi pamoja na requests na reportlab maktaba kusakinishwa. Mfumo kamili wa majaribio ni moduli moja ya Python inayojitosheleza iliyotolewa chini ya leseni ya MIT.

💻 GitHub Mfumo wa majaribio wenye leseni ya MIT · majibu ghafi · uendeshaji wa rejea 🔗 Kielezo cha Figshare DOI 10.6084/m9.figshare.32095435 · rekodi ya kitaaluma ya msingi 🎓 Gate ya Utafiti Chapisho 404175463 · safu ya ugunduzi wa kitaaluma 📄 Academia.edu Karatasi 165956808 · safu ya ugunduzi wa kitaaluma

Hatua nne za uendeshaji mpya

Moja. Piga clone kwenye hazina: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Mbili. Sakinisha tegemezi kwa pip install -r requirements.txt. Tatu. Weka KANTESTI_USERNAME na KANTESTI_PASSWORD kama vigezo vya mazingira—sifa husomwa wakati wa utekelezaji na hakuna kilichowekwa kwa kudumu kwenye hati. Nne. Endesha python benchmark_bloodtest.py na ukague vielelezo vinne vilivyotolewa kwenye saraka ya kazi: kadi ya alama ya CSV, kadi ya alama ya JSON, muhtasari kamili wa JSON ikiwemo majibu halisi ya injini, na ripoti ya Markdown inayosomeka na binadamu.

Uendeshaji wa rejea wa tarehe 23 Aprili 2026 umehifadhiwa kwenye results/ saraka ya hazina. Uendeshaji mpya utazalisha kadi mpya ya alama yenye muhuri wa muda huku uendeshaji wa rejea ukiwa haujaguswa. Ikiwa uendeshaji wako utatoa matokeo tofauti kwa maana, tafadhali fungua suala la GitHub ukitumia muhuri wa muda wa uendeshaji na toleo la injini lililorudishwa kwenye metadata ya majibu.

Mapungufu na kazi ya baadaye

Mapungufu manne yanastahili kutambuliwa wazi: ukubwa wa sampuli, tathmini ya mara moja, upeo wa injini moja, na chanzo kimoja cha data. Kila moja inashughulikiwa katika kazi ya ufuatiliaji inayoendelea.

Ukubwa wa sampuli. Visa kumi na vitano katika makundi nane ya utaalamu ni vya kutosha kwa uthibitisho wa dhana lakini si kwa uchambuzi wa vikundi ndani ya utaalamu. Upanuzi hadi visa hamsini unapangwa na utajumuisha paneli za kuganda kwa damu, uchunguzi wa saratani za damu za aina ya hematolojia, paneli za ujauzito, na mawasilisho ya watoto.

Tathmini ya mara moja. Kila kisa kilitathminiwa mara moja. Miundo mikubwa ya lugha huonyesha tofauti isiyo ya kawaida ya matokeo hata kwa halijoto ndogo ya sampuli, hivyo itifaki ya majaribio ya mara nyingi yenye tathmini tano kwa kila kisa na kuripoti tofauti ni hatua inayofuata ya asili.

Upeo wa injini moja. Ripoti hii inaelezea injini moja. Uchambuzi wa kulinganisha dhidi ya mifumo mingine ya AI haujumuishwi hapa; tunaweza kuifanya kama utafiti tofauti wa kujitegemea kwa kutumia mbinu inayofaa.

Chanzo kimoja cha data. Visa kumi na vitano ni rekodi halisi za wagonjwa zilizofichwa utambulisho, zilizochukuliwa kutoka kwenye hazina moja ya kimatibabu. Zinawakilisha sampuli iliyochaguliwa na si sampuli nasibu inayowakilisha idadi ya watu. Kuongeza tathmini hadi data ya vituo vingi kumewekwa kwenye ramani ya kazi.

Upanuzi wenye athari kubwa zaidi uliopangwa ni usawa wa lugha nyingi. Injini ya Kantesti AI inawahudumia watumiaji katika lugha 75+, na kuendesha harness ile ile ya visa kumi na vitano kwa Kituruki, Kijerumani, Kihispania, Kifaransa, na Kiarabu kutapima ubora wa matokeo katika lugha zote zinazoungwa mkono na injini. Tutachapisha kila uendeshaji wa lugha kwa DOI yake na tawi la harness.

Jaribu Injini Ile Ile Iliyoleta Alama ya Pamoja ya 99.12%

Pakia paneli yako ya vipimo vya damu kwenye sehemu ile ile ya mwisho ya uzalishaji (production endpoint) iliyotathminiwa katika ulinganisho huu. Zaidi ya watumiaji milioni 2 duniani kote hutumia injini ya AI ya Kantesti kutafsiri zaidi ya viashirio 15,000 katika lugha 75+.

🔬 Jaribu Onyesho la Bure

Kiendelezi cha Chrome Duka la Programu Google Play

📚 Jinsi ya Kunukuu Ulinganisho Huu

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Uthibitisho wa Kitabibu wa Injini ya AI ya Kantesti (2.78T)
                 kwenye Kesi 15 za Vipimo vya Damu vya Wagonjwa Waliofichwa Majina: Ulinganisho wa Awali Uliosajiliwa
                 Kulingana na Rubriki Ukiwa na Mitego ya Hyperdiagnosis
                 Kesi Zinazovuka Taaluma Saba za Kitabibu},
  institution = {Kantesti Ltd},
  address     = {London, Uingereza},
  year        = {2026},
  month       = {Aprili},
  type        = {Ripoti ya Kiufundi},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Uthibitisho wa Kitabibu wa Injini ya AI ya Kantesti (2.78T) kwenye Kesi 15 za Vipimo vya Damu vya Wagonjwa Waliofichwa Majina: Ulinganisho wa Awali Uliosajiliwa Kulingana na Rubriki Ukiwa na Kesi za Mitego ya Hyperdiagnosis Zinazovuka Taaluma Saba za Kitabibu (Ripoti ya Kiufundi V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Kazi Husika ya Uthibitishaji wa Kantesti

Klein, T. (2025). Mfumo wa Uthibitishaji wa Kliniki kwa Tafsiri ya Kipimo cha Damu Kinachotumia AI: Mbinu ya Uthibitishaji wa Vipofu Vitatu, Vipimo vya Utendaji, na Itifaki za Uhakikisho wa Ubora. Kantesti AI Medical Research.

🎓 Gate ya Utafiti

📖 Marejeleo ya Nje ya Mbinu

Mentzer, W. C. (1973). Kutofautisha Upungufu wa Chuma na Sifa ya Thalassemia. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Vigezo vya Uainishaji vya 2019 vya European League Against Rheumatism / American College of Rheumatology kwa Lupus Erythematosus ya Mfumo. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Jaribio la Uhalisia wa Uongo wa Kikoa cha Tiba kwa Miundo Mikubwa ya Lugha. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Alama ya Pamoja

15Kesi Zilizopigwa Alama

7Taaluma

0Mitego ya Makosa Chanya Yasiyo Sahihi (Trap False-Positives)

Maswali Yanayoulizwa Mara Kwa Mara

Injini ya AI ya Kantesti ina usahihi gani kwenye visa halisi vya vipimo vya damu?

Kwenye rubriki iliyosajiliwa awali ya kesi 15 halisi za vipimo vya damu vya wagonjwa waliofichwa majina katika taaluma saba za kitabibu, injini ya AI ya Kantesti V11 ilipata alama ya pamoja ya asilimia 99.12, ikiwa na makosa chanya yasiyo sahihi ya hyperdiagnosis sifuri kwenye kesi za mtego na muda wa wastani wa kujibu wa sekunde 20.17. Kadi kamili ya alama kwa kila kesi imechapishwa kwenye Figshare chini ya DOI 10.6084/m9.figshare.32095435 na kwenye GitHub chini ya leseni ya MIT.

Je, injini ya AI ya Kantesti imethibitishwa kimatibabu?

Ndiyo. Kifaa cha injini kimeidhinishwa kimatibabu dhidi ya mfumo wa tathmini (rubric) uliokuwa umesimamishwa kwenye msimbo chanzo kabla ya injini kuanzishwa, na kimejaribiwa kwenye visa 15 vya vipimo vya damu vilivyofichwa majina (anonymised) katika fani za hematolojia, endokrinolojia, tiba ya kimetaboliki, hepatolojia, nefrologia, kardiolojia, na rumatolojia. Uangalizi wa kimatibabu ulitolewa na Dk. Thomas Klein, MD (ORCID 0009-0009-1490-1321), mtaalamu wa hematolojia aliyeidhinishwa na bodi na Mkurugenzi Mkuu wa Tiba (Chief Medical Officer) katika Kantesti AI.

Je, kesi ya mtego wa hyperdiagnosis ni nini?

Kisa cha “hyperdiagnosis trap” ni hali ya kimatibabu iliyoundwa mahsusi kugundua tabia ya kufanya utambuzi kupita kiasi (over-diagnosis) kwenye injini za AI. Kiwango cha Kantesti V11 hutumia visa viwili hivyo. Cha kwanza ni hyperbilirubinaemia ya moja kwa moja (indirect) iliyojitenga, inayolingana na ugonjwa wa Gilbert, ambapo tafsiri sahihi ni tofauti ya kijeni ya UGT1A1 isiyo na madhara badala ya hepatitis au hemolysis. Cha pili ni paneli ya uchunguzi (screening) ya watu wazima iliyo kawaida kabisa, ambapo jibu sahihi ni kutuliza wasiwasi na kuendelea na mtindo wa maisha badala ya kutengeneza ugonjwa wa mpaka (borderline pathology).

Je, tathmini ya injini ya AI ya Kantesti inaweza kurudiwa kwa matokeo sawa?

Mfumo kamili wa tathmini (evaluation harness) hutolewa chini ya leseni ya MIT kama moduli moja ya Python inayojitosheleza. Kurudia (reproduction) kunahitaji tu jozi ya vitambulisho vya API vya Kantesti na Python 3.10 au toleo jipya zaidi. Msimbo, ufafanuzi wa visa (case definitions), na kila jibu la awali la injini kutoka kwenye jaribio la rejea la Aprili 2026 zinapatikana kwenye github.com/emirhanai/kantesti-blood-test-benchmark na pia zimeakisiwa (mirrored) kwenye Figshare, ResearchGate, na Academia.edu.

Je, injini ya AI ya Kantesti hutofautisha upungufu wa madini ya chuma na hali ya beta-thalassemia?

Injini hutumia fahirisi ya Mentzer, inayokokotolewa kama ujazo wa wastani wa chembe nyekundu za damu (mean corpuscular volume) kugawanywa kwa idadi ya chembe nyekundu za damu (red blood cell count). Fahirisi ya Mentzer iliyo juu ya 13 huunga mkono upungufu wa damu unaotokana na upungufu wa madini ya chuma (iron deficiency anaemia), ilhali thamani iliyo chini ya 13 huunga mkono sifa ya beta-thalassaemia. Kwenye kiwango cha V11, maonyesho yote mawili yalitambuliwa kwa usahihi kwa kuonyesha wazi hesabu ya Mentzer index, ikisaidiwa na muktadha wa ferritin, RDW, na HbA2.

Naweza kupata wapi data ghafi ya viwango vya kulinganisha na msimbo chanzo?

Ripoti ya kiufundi imewekwa kwenye Figshare chini ya DOI 10.6084/m9.figshare.32095435, imeakisiwa kwenye uchapishaji wa ResearchGate 404175463 na karatasi ya Academia.edu 165956808, na “Python harness” yenye leseni ya MIT yenye matokeo yote ya jaribio la rejea iko github.com/emirhanai/kantesti-blood-test-benchmark. Mtandao wa nakala (mirror) wa majukwaa manne huhakikisha upatikanaji wa muda mrefu na kubadilika kwa kunukuu (citation).

Kwa nini usajili wa awali (pre-registration) ni muhimu kwa viwango vya kimatibabu vya AI?

Usajili wa awali huzuia kurekebisha rubric baada ya matokeo (post-hoc rubric tuning), ambayo ndiyo njia ya kawaida kabisa ambayo makampuni yanayotumia viwango (benchmarks) huongeza namba zao wenyewe. Kwa kuahidi rubric kwenye msimbo chanzo kabla ya simu yoyote ya injini na kuchapisha harness hadharani, tarehe za mwandishi wa rubric huwa zinaweza kukaguliwa kwenye udhibiti wa toleo (version control), na matokeo ya injini hayawezi kuwa yameunda vigezo vya upimaji.

Je, kiwango hiki kinajumuisha kulinganisha na injini nyingine za AI?

Hapana. Ripoti ya V11 kwa makusudi inaelezea injini moja dhidi ya rubric iliyowekwa badala ya kuiweka dhidi ya mifumo mbadala ya kibiashara. Harness ni chanzo huria (open source) chini ya leseni ya MIT, hivyo watafiti huru wanaweza kutathmini injini yoyote wanayoichagua dhidi ya visa hivyo kumi na tano na rubric ileile na kuchapisha matokeo yao.

Je, visa vya wagonjwa ni vya kweli au vya kubuni?

Visa kumi na tano ni rekodi halisi za wagonjwa zilizofichwa majina, zilizochukuliwa kutoka kwenye hazina ya data ya kimatibabu ya Kantesti kwa ridhaa iliyoandikwa ya ufahamu (written informed consent). Uondoaji wa taarifa za utambulisho (de-identification) ulifanywa kwa mbinu ya Safe Harbor, huku vitambulishi vyote vya moja kwa moja viondolewe au kubadilishwa. Usindikaji ulifanywa kwa mujibu wa GDPR Kifungu cha 9(2)(j) na masharti sawa ya UK GDPR. Hakuna taarifa ya kumtambua mtu binafsi inayoonekana kwenye harness iliyochapishwa, ripoti ya kiufundi, au seti za data zilizotolewa.

⚕️ Kanusho la Kimatibabu & Mgongano wa Maslahi

Ripoti hii ya kiwango ni kwa madhumuni ya utafiti na uwazi wa mbinu (methodological transparency). Si ushauri wa matibabu. Daima wasiliana na mtoa huduma ya afya aliyehitimu kwa maamuzi ya utambuzi na matibabu. Waandishi wote wawili wameajiriwa na wanamiliki hisa katika Kantesti Ltd, na injini inayotathminiwa ni bidhaa ya kibiashara ya shirika lilelile. Mgongano huu wa maslahi hupunguzwa kwa kusajili rubric mapema kwenye msimbo chanzo, kutoa harness chini ya leseni ya MIT, na kuchapisha kila jibu la awali la injini.

E-E-A-T Trust Signals

⭐

Uzoefu

Miaka 15+ ya uzoefu wa kimatibabu katika hematolojia na tiba ya maabara, kusimamia uteuzi wa paneli ya visa.

📋

Utaalamu

Muundo wa rubric uliosajiliwa mapema (pre-registered) wenye adhabu za wazi za hyperdiagnosis na mifumo inayotambulika ya upimaji wa kimatibabu (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Mamlaka

Mwandishi mkuu Dk. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Utekelezaji na Julian Emirhan Bulut, Mkurugenzi Mtendaji (CEO) wa Kantesti Ltd.

🛡️

Uaminifu

Harness inayoweza kurudiwa (reproducible) yenye leseni ya MIT, majibu ya awali ya injini yamechapishwa, ufichuzi wazi wa mgongano wa maslahi, mtandao wa kioo cha utafiti wa majukwaa manne.

🏢 Kantesti LTD Imesajiliwa Uingereza & Wales · Nambari ya Kampuni. 17090423 London, Uingereza · kantesti.net