Kwa nini kiwango hiki cha kulinganisha kipo na kinachojaribu
Tafsiri ya vipimo vya damu kwa usaidizi wa AI inatumika zaidi na zaidi katika mazingira ya watumiaji na ya kliniki, hata hivyo mifumo ya tathmini inayoweza kurudiwa inayolengwa kwa tiba ya maabara bado ni nadra. Maswali muhimu zaidi katika mazingira haya si yale yanayofunikwa na viwango vya jumla vya kujibu maswali ya matibabu: je, injini inaweza kutenganisha upungufu wa madini ya chuma na sifa ya thalassaemia wakati kiasi cha wastani cha chembe nyekundu za damu (MCV) ni sawa, je, inaweka utambuzi wa ugonjwa wa Gilbert kupita kiasi kama hepatitis, na je, inatengeneza ugonjwa kwenye paneli ya uchunguzi iliyo ya kawaida kabisa?
Kundi moja la vipimo vya damu kwa kawaida huwa na taarifa za kutosha kusaidia tafsiri kadhaa zinazoshindana, na kazi ya daktari anayezitafsiri ni kupima tafsiri hizo dhidi ya kila nyingine badala ya kutafuta jibu la kitabu. Injini inayofanya vizuri kwenye visa vya kitabu bado inaweza kushindwa kwenye visa vinavyohusu zaidi: mitego ya utambuzi tofauti, tofauti zisizo na madhara ambazo huonekana za kutisha zikisimama peke yake, na paneli zilizo kawaida kabisa zinazowajaribu wasaidizi wenye kujiamini kutengeneza ugonjwa.
Kiwango hiki cha tathmini kilijengwa hasa kuzunguka njia hizo za kushindwa. Kila kati ya visa kumi na tano ilichaguliwa kwa sifa maalum ya uchunguzi: microcytosis inayotokana na upungufu wa chuma ambayo lazima ibaki tofauti na sifa ya beta-thalassaemia yenye mean corpuscular volume inayofanana, hali ya ugonjwa wa Gilbert ambapo kasoro pekee ni ongezeko la pekee la bilirubina ya moja kwa moja, na paneli ya uchunguzi ya vigezo kumi na tano ambamo kila kipimo kiko ndani ya kiwango chake cha rejea. Kanuni hiyo huipa tuzo injini zinazosomea kila kisa kwa masharti yake, na huipunguzia alama injini zinazofikia utambuzi wa kujiamini pale ambapo hakuna utambuzi kama huo unaostahili.
Kama Thomas Klein, MD, nilichagua paneli ya visa kwa sababu hizi ndizo mifumo ninayoona wasaidizi wa tiba ya maabara wakikosea mara nyingi zaidi. Njia ya kushindwa yenye gharama kubwa si "kukosa ugonjwa adimu"—ni kutengeneza ugonjwa wa kawaida kwa wagonjwa ambao hawana. Yetu Uthibitishaji wa Matibabu hub inaeleza mfumo mpana; ukurasa huu unaeleza matokeo yake yaliyotumika kwenye injini ya V11.
Jaribio la marejeo la hivi punde — V11 (Aprili 2026)
Kipimo cha rejea cha Aprili 2026 cha Kantesti AI Engine V11 kilitoa alama ya jumla ya 99.12% kwenye rubriki ya visa kumi na tano iliyosajiliwa mapema. Visa vyote viwili vya mtego wa hyperdiagnosis vilipata alama ya juu kabisa. Index ya Mentzer ilitumika kwa usahihi kwenye tofauti ya upungufu wa chuma dhidi ya thalassaemia.
Mfumo wa jumla huchanganya vipengele vitatu: ulinganifu wa muundo na sehemu saba za lazima za ripoti na sehemu ndogo kumi na sita za lazima, usahihi wa kliniki unaopimwa kama kumbukumbu ya maneno (keyword recall) pamoja na kumbukumbu ya mfumo wa alama (scoring-system recall) pamoja na ukaguzi wa uhalali wa usambazaji wa uwezekano, na muda wa majibu dhidi ya lengo la msingi la huduma la sekunde 20. Mgawanyo halisi unaonyeshwa kwenye fomula ya rubriki hapa chini.
Sehemu iliyobaki ya asilimia 0.88 ya nafasi ya ziada (headroom) huvunjika karibu kabisa kuwa upotevu wa muda wa kusubiri (latency loss) — majaribio matatu ya kurudia kwa njia ya mpango wa dharura (fallback) ya Awamu ya 2, kila moja ikiwa na mchanganyiko wa -0.05, yalichangia takriban 0.60 kati ya pengo la pointi 0.88 — badala ya kuingia kwenye maudhui ya kimatibabu. Kifaa hakikosa utambuzi sahihi katika mojawapo ya kesi kumi na tano; pale kilipofeli, kilifanya hivyo kwa kuchukua muda mrefu kidogo kuliko lengo la sekunde 20 la njia ya msingi (primary-path) katika idadi ndogo ya majaribio.
Kesi kumi na tano katika taaluma saba za matibabu
Jopo la kesi linashughulikia taaluma saba — hematolojia, endocrinolojia, tiba ya magonjwa ya kimetaboli (metabolic medicine), hepatolojia, nefrologia, kardiolojia, rhematolojia — pamoja na kesi mbili maalum za mtego wa hyperdiagnosis. Kila kesi ni rekodi halisi ya mgonjwa iliyofichwa utambulisho (anonymised) iliyochukuliwa kutoka hazina ya data ya kimatibabu ya Kantesti chini ya ridhaa iliyoandikwa ya ufahamu.
Uondoaji wa taarifa za kumtambua (de-identification) ulifanywa kwa njia ya Safe Harbor: vitambulishi vyote vya moja kwa moja viliondolewa au kubadilishwa, na kila rekodi ilipewa msimbo wa kesi wa ndani wa kigezo (benchmark-internal case code) kwa muundo BT-NNN-LABEL. Usindikaji ulifanywa kwa mujibu wa GDPR Kifungu cha 9(2)(j) kwa utafiti wa kisayansi wenye kinga zinazofaa, na masharti sawa ya UK GDPR. Hakuna taarifa yoyote ya kumtambua mtu binafsi inayoonekana popote kwenye kifaa kilichochapishwa (published harness), ripoti ya kiufundi, au seti za data zilizotolewa.
Kwa nini usambazaji huu mahususi
Hematolojia hupata kesi tatu kwa sababu tofauti za microcytic na tofauti za macrocytic ndizo mitego yenye kiasi kikubwa zaidi katika mazoezi ya kawaida ya maabara. Endokrinolojia hupata kesi tatu kwa sababu mawasilisho ya Hashimoto, PCOS, na upungufu wa vitamini D huonyesha maumbo tofauti ya uchunguzi (yanayoendeshwa na kingamwili, yanayoendeshwa na uwiano wa homoni, yanayoendeshwa na alama moja). Kitaaluma za kesi ya mara moja bado zina maana kwa sababu kila moja ya CKD, hatari ya ASCVD, na SLE ina mfumo wake wa kuhesabu ambao injini inapaswa kuuita (kwa mtiririko huo: hatua za KDIGO, hatari ya miaka 10 ya ASCVD, na vigezo vya 2019 vya EULAR/ACR vya SLE).
Rubric iliyosajiliwa mapema, imefafanuliwa
Usajili wa kabla ya kuanza (pre-registration) ndio chaguo muhimu zaidi la mbinu katika kipimo hiki. Kila utambuzi unaotarajiwa, kila mfumo wa kuhesabu wa kimatibabu, na kila sehemu ya ripoti iliahidiwa kwenye msimbo wa chanzo kabla ya injini kuanzishwa. Kwa hiyo, kurekebisha kwa baadae (post-hoc) kwa rubriki ili kuipendelea injini haiwezekani.
Vipengele vitatu vinaunda alama ya jumla (composite). K kipengele cha kimuundo huchangia asilimia 35 na hupima kama injini ilirudisha sehemu saba za lazima za ripoti (kichwa, muhtasari, mambo muhimu yaliyopatikana, tofauti, mifumo ya kuhesabu, mapendekezo, ufuatiliaji) na sehemu ndogo kumi na sita za lazima ndani yake. Uwepo wa sehemu hupima asilimia 40 na uwepo wa sehemu ndogo hupima asilimia 60 ndani ya hesabu ya kimuundo.
The kipengele cha kimatibabu (clinical) huchangia asilimia 55 na kuchanganya mambo matatu: kukumbuka maneno muhimu ya utambuzi (asilimia 70 ya sehemu ndogo ya kimatibabu), kukumbuka mfumo wa kuhesabu (asilimia 20 — je, injini huhesabu Mentzer, FIB-4, HOMA-IR, hatari ya ASCVD, hatua za KDIGO, vigezo vya EULAR/ACR inapohitajika), na ukaguzi wa uhalali wa jumla ya uwezekano (asilimia 10 — uwezekano wa tofauti unapaswa kujumlishwa ndani ya muda wa [90, 110]). Kwa kesi za mitego, adhabu ya wazi ya hyperdiagnosis hadi 0.30 hutolewa, ikihesabiwa kama 0.10 kwa kila bendera ya ugonjwa iliyotengenezwa, ikikomezwa kwa bendera tatu.
The kipengele cha muda wa majibu (latency) huchangia asilimia 10. Jibu chini ya sekunde 20 hupata 0.10 kamili, jibu chini ya sekunde 40 hupata 0.05, na lolote linalochelewa zaidi hupata sifuri. Lengo la sekunde 20 linaakisi lengo la kiwango cha huduma (service-level objective) la uzalishaji wa huduma ya msingi ya path; kikomo cha sekunde 40 kinaakisi bajeti ya kurudi nyuma ya Awamu ya 2 kwa uanzishaji mzito wa injini.
Kinachozuiwa na usajili wa kabla ya kuanza
Vipimo vya kwanza (first-party benchmarks) vinajulikana kwa kuongeza namba zao wenyewe kupitia kurekebisha rubriki kwa baadae. Muundo huo karibu kila mara ni ule ule: timu huendesha injini, kuona wapi inashindwa, kisha kwa utulivu kurekebisha rubriki ili maeneo yanayoshindwa yahesabiwe kidogo. Kwa kuahidi rubriki kwenye msimbo wa chanzo kabla ya simu ya kwanza ya injini na kuchapisha harness chini ya leseni ya MIT, marekebisho hayo yanaonekana kwenye udhibiti wa toleo (version control). Mtu yeyote anaweza kunakili (clone) hazina, kuangalia tarehe za mwandishi wa rubriki, na kuthibitisha kuwa matokeo ya injini hayakutumiwa kuunda mpangilio wa alama.
Kesi za mtego wa hyperdiagnosis — kwa nini kuita kupita kiasi ndicho chanzo halisi cha kushindwa
Kuita kwa nguvu sana ugonjwa wa patholojia kwenye skrini za kawaida ni hali ya kushindwa iliyorekodiwa kwa wasaidizi wa kimatibabu wanaolenga watumiaji (consumer-facing). Gharama zake za baadaye ni pamoja na uchunguzi usio wa lazima, wasiwasi wa mgonjwa, na uchunguzi wa kimatibabu unaosababishwa na daktari (iatrogenic workup). Kesi mbili za mitego katika kipimo hiki zimeundwa kufanya hali hiyo ya kushindwa iwe wazi na iweze kupimika kwa alama.
🟡 Mtego 1 — BT-014-GILBERT
Mawasilisho. Mwanaume mwenye umri wa miaka 24 aliye na bilirubini ya jumla ya 2.4 mg/dL. Sehemu ya moja kwa moja ni ya kawaida, transaminasi na fosfati ya alkali ziko ndani ya viwango vya rejea, retikulosaiti hazina jambo la ajabu, na haptoglobini pamoja na LDH huondoa uwezekano wa hemolysis.
Tafsiri sahihi. Ugonjwa wa Gilbert — mabadiliko ya kijeni (polymorphism) ya kijenetiki ya UGT1A1 yasiyo na madhara. Tafsiri haipaswi kuhusisha hepatitis, cirrhosis, upungufu wa damu wa hemolytic, au kizuizi cha njia ya nyongo.
Matokeo ya V11. Jumla 1.000. Hakuna hata moja ya bendera sita za uainishaji kupita kiasi (over-diagnosis) zilizofuatiliwa ilionekana kama utambuzi hai.
🟡 Mtego 2 — BT-015-HEALTHY
Mawasilisho. Mwanamke mwenye umri wa miaka 35 mwenye paneli ya kawaida ya uchunguzi wa vigezo kumi na tano. Kila kipimo (analyte) kiko vizuri ndani ya kiwango chake cha rejea.
Tafsiri sahihi. Uhakikisho na uendelezaji wa mtindo wa maisha. Tafsiri haipaswi kutengeneza ugonjwa wa mpaka ili kuonekana kuwa na manufaa ya kiafya kiafya.
Matokeo ya V11. Mchanganyiko 1.000. Hakuna hata moja ya alama saba za uainishaji kupita kiasi zilizofuatiliwa—kisukari, upungufu wa damu (anemia), hypothyroidism, dyslipidaemia, hepatitis, ugonjwa wa figo, upungufu—zilionekana kama utambuzi hai.
Katika mitego yote miwili, alama kumi na tatu za uainishaji kupita kiasi (hyperdiagnosis) zilizofuatiliwa zilichunguzwa. Hakuna hata moja iliyowashwa. Hii ndiyo matokeo muhimu zaidi kwa daktari yeyote anayezingatia kutumia injini ya AI kama zana ya triage au kabla ya kushauriana: mfumo haukuvumbua ugonjwa pale ambapo haukuwepo.
Fahirisi ya Mentzer: kutenganisha upungufu wa madini ya chuma na sifa ya thalassemia
Ugunduzi wa pili wenye thamani kubwa unahusu ulinganisho wa kesi BT-001 (upungufu wa damu kutokana na upungufu wa chuma) na kesi BT-007 (beta-thalassaemia ndogo). Zote mbili hujitokeza kwa microcytosis na ni kikwazo kinachojulikana sana kwa vichanganuzi visivyo na uzoefu. Fahirisi ya Mentzer, inayokokotolewa kama MCV ikigawanywa kwa idadi ya RBC, huzidi 13 katika upungufu wa chuma na hushuka chini ya 13 katika sifa ya thalassaemia.
Katika BT-001, mgonjwa alikuwa mwanamke mwenye umri wa miaka 34 mwenye hemoglobini 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, na TIBC iliyoongezeka. Fahirisi ya Mentzer ya takriban 17.7 inaunga mkono upungufu wa chuma wa kweli. Katika BT-007, mgonjwa alikuwa mwanaume mwenye umri wa miaka 28 mwenye microcytosis (MCV 65.8 fL) lakini idadi ya juu ya RBC ya 6.2, RDW ya kawaida, ferritin ya kawaida, na HbA2 ya asilimia 5.6. Fahirisi ya Mentzer ya takriban 10.6 inaashiria sifa ya thalassaemia, na HbA2 iliyoongezeka inathibitisha beta-thalassaemia ndogo.
Kesi zote mbili zilipata alama 1.000. Injini ilitumia fahirisi ya Mentzer kwa uwazi katika tafsiri zote mbili na kurudisha utambuzi sahihi katika kila tukio. Hili ndilo jibu linalotoa uhakikisho mkubwa zaidi kiafya katika tathmini nzima, kwa sababu kukosea kuainisha sifa ya thalassaemia kama upungufu wa chuma husababisha kuongezewa chuma bila sababu na kukosa fursa za uchunguzi wa familia, na kukosea kuainisha upungufu wa chuma kama thalassaemia huchelewesha tiba rahisi ya kubadilisha. Yetu kiwango cha ferritin inaeleza muktadha mpana wa tofauti.
Matokeo kwa kila kesi kutoka kwa uendeshaji wa Aprili 2026
Kumi na mbili kati ya kesi kumi na tano zilifikia alama ya juu kabisa ya mchanganyiko (ceiling) ya 1.000 kwenye njia kuu (primary path). Kesi tatu zilitolewa kupitia njia ya kurudi nyuma ya Awamu ya 2 (Phase 2 fallback), na kupoteza bonasi ya muda wa kusubiri (latency) ya 0.05 huku ikihifadhi maudhui yote ya kiafya na ya kimuundo. Kesi moja ilikuwa ikikosa sehemu ndogo ya lazima; moja ilirudisha jumla ya usambazaji wa uwezekano uliopungua kidogo.
Kesi ya PCOS (BT-008) ilipoteza sehemu ndogo ya lazima moja katika muundo wa jibu — kumi na tano kati ya kumi na sita badala ya kumi na sita kati ya kumi na sita — jambo lililopunguza alama ya muundo kutoka 1.000 hadi 0.963. Kesi ya SLE (BT-011) ilirudisha jumla ya uwezekano iliyopungua kidogo ambayo ilishusha alama ya kliniki hadi 0.965 huku ikihifadhi kila neno muhimu la uchunguzi na mfumo wa upimaji. Kesi zote mbili ambazo hazikuwa kamili hazikosa utambuzi sahihi.
Alama ya kichwa haituambii nini
Alama ya pamoja ya 99.12 asilimia chini ya kanuni hii maalum iliyosajiliwa mapema inawakilisha utendaji karibu na kikomo, lakini inahitaji kuwekwa kwa uangalifu. Matokeo yanaelezea tabia ya injini dhidi ya kesi kumi na tano zilizochaguliwa kwa uangalifu na zisizojulikana, kila moja ikitathminiwa mara moja, dhidi ya kanuni moja. Tumeweka wazi kuhusu kile nambari inachomaanisha na kile isichothibitisha.
Alama inaonyesha kwamba injini ya V11 iliushughulikia kwa usahihi muundo wa uchunguzi ulioteuliwa kwa tathmini hii, kwa mbinu iliyochapishwa na inayoweza kurudiwa. Haimaanishi kwamba injini ni sahihi kwenye kila paneli ya vipimo vya damu iliyopo ulimwenguni. Haimaanishi kwamba injini inapaswa kuchukua nafasi ya uamuzi wa mtaalamu wa afya. Na haimaanishi kwamba injini inaongoza mifumo mingine ya AI—uchambuzi wa kulinganisha dhidi ya injini nyingine ulifanywa kwa makusudi usiwe ndani ya upeo wa ripoti hii.
Kile alama inathibitisha ni msingi. Kwa kuwa kanuni na mfumo wa majaribio vinapatikana hadharani, matoleo yajayo ya injini yanaweza kutathminiwa dhidi ya kesi zile zile kumi na tano, na pengo kati ya alama iliyochapishwa na uendeshaji wowote wa baadaye linaweza kupimika lenyewe. Huu ndio thamani ya usajili mapema: hubadilisha madai ya utendaji kuwa madai yanayoweza kupimwa.
Jinsi ya kuiga kiwango hiki kwa dakika 10
Kurudiwa kunahitaji tu jozi ya kitambulisho cha Kantesti API na mazingira ya Python 3.10 au toleo jipya zaidi pamoja na requests na reportlab maktaba kusakinishwa. Mfumo kamili wa majaribio ni moduli moja ya Python inayojitosheleza iliyotolewa chini ya leseni ya MIT.
Hatua nne za uendeshaji mpya
Moja. Piga clone kwenye hazina: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Mbili. Sakinisha tegemezi kwa pip install -r requirements.txt. Tatu. Weka KANTESTI_USERNAME na KANTESTI_PASSWORD kama vigezo vya mazingira—sifa husomwa wakati wa utekelezaji na hakuna kilichowekwa kwa kudumu kwenye hati. Nne. Endesha python benchmark_bloodtest.py na ukague vielelezo vinne vilivyotolewa kwenye saraka ya kazi: kadi ya alama ya CSV, kadi ya alama ya JSON, muhtasari kamili wa JSON ikiwemo majibu halisi ya injini, na ripoti ya Markdown inayosomeka na binadamu.
Uendeshaji wa rejea wa tarehe 23 Aprili 2026 umehifadhiwa kwenye results/ saraka ya hazina. Uendeshaji mpya utazalisha kadi mpya ya alama yenye muhuri wa muda huku uendeshaji wa rejea ukiwa haujaguswa. Ikiwa uendeshaji wako utatoa matokeo tofauti kwa maana, tafadhali fungua suala la GitHub ukitumia muhuri wa muda wa uendeshaji na toleo la injini lililorudishwa kwenye metadata ya majibu.
Mapungufu na kazi ya baadaye
Mapungufu manne yanastahili kutambuliwa wazi: ukubwa wa sampuli, tathmini ya mara moja, upeo wa injini moja, na chanzo kimoja cha data. Kila moja inashughulikiwa katika kazi ya ufuatiliaji inayoendelea.
Ukubwa wa sampuli. Visa kumi na vitano katika makundi nane ya utaalamu ni vya kutosha kwa uthibitisho wa dhana lakini si kwa uchambuzi wa vikundi ndani ya utaalamu. Upanuzi hadi visa hamsini unapangwa na utajumuisha paneli za kuganda kwa damu, uchunguzi wa saratani za damu za aina ya hematolojia, paneli za ujauzito, na mawasilisho ya watoto.
Tathmini ya mara moja. Kila kisa kilitathminiwa mara moja. Miundo mikubwa ya lugha huonyesha tofauti isiyo ya kawaida ya matokeo hata kwa halijoto ndogo ya sampuli, hivyo itifaki ya majaribio ya mara nyingi yenye tathmini tano kwa kila kisa na kuripoti tofauti ni hatua inayofuata ya asili.
Upeo wa injini moja. Ripoti hii inaelezea injini moja. Uchambuzi wa kulinganisha dhidi ya mifumo mingine ya AI haujumuishwi hapa; tunaweza kuifanya kama utafiti tofauti wa kujitegemea kwa kutumia mbinu inayofaa.
Chanzo kimoja cha data. Visa kumi na vitano ni rekodi halisi za wagonjwa zilizofichwa utambulisho, zilizochukuliwa kutoka kwenye hazina moja ya kimatibabu. Zinawakilisha sampuli iliyochaguliwa na si sampuli nasibu inayowakilisha idadi ya watu. Kuongeza tathmini hadi data ya vituo vingi kumewekwa kwenye ramani ya kazi.
Upanuzi wenye athari kubwa zaidi uliopangwa ni usawa wa lugha nyingi. Injini ya Kantesti AI inawahudumia watumiaji katika lugha 75+, na kuendesha harness ile ile ya visa kumi na vitano kwa Kituruki, Kijerumani, Kihispania, Kifaransa, na Kiarabu kutapima ubora wa matokeo katika lugha zote zinazoungwa mkono na injini. Tutachapisha kila uendeshaji wa lugha kwa DOI yake na tawi la harness.