Kwa nini kiwango hiki cha kulinganisha kipo na kinachojaribu
Tafsiri ya vipimo vya damu kwa usaidizi wa AI inatumika zaidi na zaidi katika mazingira ya watumiaji na ya kliniki, hata hivyo mifumo ya tathmini inayoweza kurudiwa inayolengwa kwa tiba ya maabara bado ni nadra. Maswali muhimu zaidi katika mazingira haya si yale yanayofunikwa na viwango vya jumla vya kujibu maswali ya matibabu: je, injini inaweza kutenganisha upungufu wa madini ya chuma na sifa ya thalassaemia wakati kiasi cha wastani cha chembe nyekundu za damu (MCV) ni sawa, je, inaweka utambuzi wa ugonjwa wa Gilbert kupita kiasi kama hepatitis, na je, inatengeneza ugonjwa kwenye paneli ya uchunguzi iliyo ya kawaida kabisa?
Kundi moja la vipimo vya damu kwa kawaida huwa na taarifa za kutosha kusaidia tafsiri kadhaa zinazoshindana, na kazi ya daktari anayezitafsiri ni kupima tafsiri hizo dhidi ya kila nyingine badala ya kutafuta jibu la kitabu. Injini inayofanya vizuri kwenye visa vya kitabu bado inaweza kushindwa kwenye visa vinavyohusu zaidi: mitego ya utambuzi tofauti, tofauti zisizo na madhara ambazo huonekana za kutisha zikisimama peke yake, na paneli zilizo kawaida kabisa zinazowajaribu wasaidizi wenye kujiamini kutengeneza ugonjwa.
Kiwango hiki cha tathmini kilijengwa hasa kuzunguka njia hizo za kushindwa. Kila kati ya visa kumi na tano ilichaguliwa kwa sifa maalum ya uchunguzi: microcytosis inayotokana na upungufu wa chuma ambayo lazima ibaki tofauti na sifa ya beta-thalassaemia yenye mean corpuscular volume inayofanana, hali ya ugonjwa wa Gilbert ambapo kasoro pekee ni ongezeko la pekee la bilirubina ya moja kwa moja, na paneli ya uchunguzi ya vigezo kumi na tano ambamo kila kipimo kiko ndani ya kiwango chake cha rejea. Kanuni hiyo huipa tuzo injini zinazosomea kila kisa kwa masharti yake, na huipunguzia alama injini zinazofikia utambuzi wa kujiamini pale ambapo hakuna utambuzi kama huo unaostahili.
Kama Thomas Klein, MD, nilichagua paneli ya visa kwa sababu hizi ndizo mifumo ninayoona wasaidizi wa tiba ya maabara wakikosea mara nyingi zaidi. Njia ya kushindwa yenye gharama kubwa si "kukosa ugonjwa adimu"—ni kutengeneza ugonjwa wa kawaida kwa wagonjwa ambao hawana. Yetu Uthibitishaji wa Matibabu hub inaeleza mfumo mpana zaidi; ukurasa huu unaeleza uthibitisho wa awali wa V11 (V11 initial proof-of-concept) na V11 Second Update iliyoiweka kwenye kiwango cha kesi 100,000 zilizoondolewa majina (anonymised) zilizochukuliwa kutoka kwenye hazina ya kimatibabu inayoungwa mkono na SQL (SQL-backed clinical repository) inayovuka nchi 127 — kwa kutumia rubriki ile ile ya kuhesabu, inayolingana kabisa kwa biti (byte-identical), bila kuruhusiwa kurekebisha baada ya tukio (no post-hoc tuning).
Uendeshaji wa rejea wa hivi karibuni — V11 Second Update (Aprili 26, 2026)
Uendeshaji wa rejea wa V11 Second Update wa tarehe 26 Aprili 2026 ulitoa alama ya jumla (composite score) ya 99.80% kwenye rubriki ile ile iliyosajiliwa mapema (pre-registered) iliyotumika katika toleo la awali la V11, iliyotathminiwa kwenye kesi 100,000 zilizoondolewa majina zilizochukuliwa kutoka kwenye hazina ya kimatibabu ya Kantesti inayoungwa mkono na SQL na kuvuka nchi 127 na lugha za 75+. Kila kesi ilikamilika kwenye njia kuu ya injini; uanzishaji wa bendera ya hyperutambuzi (trap-case hyperdiagnosis) ulibaki 0 / 87,412. Uendeshaji wa awali wa V11 wa tarehe 23 Aprili 2026 ulihusisha kesi 15 zilizochaguliwa kwa uangalifu (hand-curated) (alama ya jumla 99.12%) na kuthibitisha rubriki; Second Update inaweka rubriki hiyo hiyo iwe byte-identical na inaongeza tathmini hadi kundi la ukubwa wa idadi ya watu (population-scale cohort).
Mfumo wa jumla huchanganya vipengele vitatu: ulinganifu wa muundo na sehemu saba za lazima za ripoti na sehemu ndogo kumi na sita za lazima, usahihi wa kliniki unaopimwa kama kumbukumbu ya maneno (keyword recall) pamoja na kumbukumbu ya mfumo wa alama (scoring-system recall) pamoja na ukaguzi wa uhalali wa usambazaji wa uwezekano, na muda wa majibu dhidi ya lengo la kiwango cha huduma (service-level target) la njia kuu. Uchanganuzi halisi (exact decomposition) unaonyeshwa kwenye fomula ya rubriki hapa chini — hakuna uzito (weights) wala rubriki ndogo (sub-rubrics) uliobadilishwa kwa Second Update.
Sehemu iliyobaki ya pointi 0.20 za asilimia za nafasi (headroom) hutengana karibu kabisa hadi kwenye alama ndogo ya kimatibabu (clinical sub-score) — sehemu ndogo ya kesi (hasa katika Hepatology na Rheumatology) ilikuwa na neno muhimu la mfumo wa kuhesabu (scoring-system keyword) lililokosekana kwenye tafsiri ya injini, ingawa maudhui ya uchunguzi (diagnostic content) yalikuwa sahihi. Hakuna kesi hata moja katika kundi la kesi 100,000 la Second Update iliyokosa utambuzi yenyewe. Muda wa kusubiri (latency) uliimarika kutoka wastani wa 20.17 s katika toleo la awali la V11 hadi 13.26 s katika Second Update, ikionyesha uboreshaji wa injini ya uzalishaji (production engine optimisations) kati ya uendeshaji huo; rubriki, msimbo wa kuhesabu, na mwisho wa API (API endpoint) havijabadilika.
Alama za jumla za kila nchi (per-country composite scores) zilianzia 0.9971 (India) hadi 0.9985 (Uswisi) katika nchi 30 zilizoonekana zaidi. Mkia mrefu wa nchi 97 za ziada (≈ kesi 7,300 kwa pamoja) haukuonyesha kupungua kwa utaratibu (systematic degradation). Wachangiaji wakuu kwa idadi ya kesi walikuwa Marekani (10,500), Brazil (9,500), Hispania (9,000), Italia (8,000), Ujerumani (7,800), Ufaransa (7,400), Ureno (5,800), Türkiye (3,400), Uingereza (2,900), na Mexico (2,500).
Kutoka visa 15 hadi 100,000: mabadiliko ya kundi katika nchi 127
Jopo la kesi la awali la V11 lilifunika taaluma saba — hematolojia, endokrinolojia, tiba ya kimetaboliki, hepatolojia, nefrologia, kardiolojia, réumatolojia — pamoja na kesi mbili maalum za hyperutambuzi (hyperdiagnosis trap), huku kila kesi ikiwa rekodi halisi ya mgonjwa iliyofichwa (anonymised) iliyochukuliwa kutoka kwenye hazina ya data ya kimatibabu ya Kantesti chini ya ridhaa iliyoandikwa ya ufahamu (written informed consent). V11 Second Update inaongeza tathmini hadi kesi 100,000 zilizoondolewa majina katika nchi 127, zikiwa zimegawanywa katika taaluma nane (saba za awali pamoja na kundi maalum la tiba ya ndani ya ndani (internal medicine) linalochukua sehemu ya trap). Rubriki ile ile ya kuhesabu inatumika kwa byte-identical katika uendeshaji wote.
Uondoaji wa utambulisho (De-identification) ulifanywa kwa njia ya Safe Harbor: vitambulisho vyote vya moja kwa moja viliondolewa au kubadilishwa, na kila rekodi ilipewa msimbo wa kesi wa ndani wa benchmark (benchmark-internal case code) kwa muundo BT-NNN-LABEL (V11 initial) au kitambulisho thabiti cha kesi kilichoondolewa majina case_uid kwa Second Update. Usindikaji ulifanywa kwa mujibu wa GDPR Kifungu cha 9(2)(j) kwa utafiti wa kisayansi wenye kinga zinazofaa, na masharti sawa ya UK GDPR. Hakuna taarifa yoyote ya kumtambua mtu binafsi inayoonekana popote kwenye kifaa kilichochapishwa (published harness), ripoti ya kiufundi, au seti za data zilizotolewa.
toleo la awali la V11 — kesi 15 zilizochaguliwa kwa uangalifu (hand-curated)
Jopo la awali la kesi la V11 liliandaliwa kwa uangalifu kwa mkono na Dk. Thomas Klein ili kuonyesha mifumo ya utambuzi ambayo wasaidizi wa tiba ya maabara huikosea mara nyingi. Kila mojawapo ya kesi kumi na tano ilichaguliwa kwa sifa mahususi ya utambuzi, kama ilivyoorodheshwa hapa chini.
Kwa nini usambazaji huu mahususi
Hematolojia hupata kesi tatu kwa sababu tofauti za microcytic na tofauti za macrocytic ndizo mitego yenye kiasi kikubwa zaidi katika mazoezi ya kawaida ya maabara. Endokrinolojia hupata kesi tatu kwa sababu mawasilisho ya Hashimoto, PCOS, na upungufu wa vitamini D huonyesha maumbo tofauti ya uchunguzi (yanayoendeshwa na kingamwili, yanayoendeshwa na uwiano wa homoni, yanayoendeshwa na alama moja). Kitaaluma za kesi ya mara moja bado zina maana kwa sababu kila moja ya CKD, hatari ya ASCVD, na SLE ina mfumo wake wa kuhesabu ambao injini inapaswa kuuita (kwa mtiririko huo: hatua za KDIGO, hatari ya miaka 10 ya ASCVD, na vigezo vya 2019 vya EULAR/ACR vya SLE).
Sasisho la Pili la V11 — kesi 100,000 zilizofichwa utambulisho katika nchi 127
Sasisho la Pili linachukua nafasi ya V11 ya awali iliyowekwa kwa msimbo mgumu wa kesi 15 za Python, kwa hoja ya SQL inayoparameta na ya kusomwa tu dhidi ya hifadhi ya kimatibabu ya Kantesti (anonymised_blood_panels). Hoja huchuja kwa consent_research = 1 AND released_for_benchmark = 1 na huchapishwa juu ya kila uendeshaji wa benchmark kwa uwazi. Usambazaji wa kundi kwa utaalamu unaonyeshwa hapa chini.
Usambazaji wa kijiografia — nchi 10 bora zaidi
Kikundi hicho kina nchi 127 (ISO 3166-1 alpha-2). Ulaya inachangia 57.7%, Amerika 25.4%, Asia-Pasifiki 6.2%, ingizo lililoainishwa la Mashariki ya Kati/Afrika 3.4%, na mkia mrefu wa nchi 97 za ziada kwa pamoja takriban 7.3%. Wachangiaji kumi wakubwa ni Marekani (10,500), Brazil (9,500), Hispania (9,000), Italia (8,000), Ujerumani (7,800), Ufaransa (7,400), Ureno (5,800), Türkiye (3,400), Uingereza (2,900), na Mexico (2,500). Alama za pamoja kwa kila nchi zilianzia 0.9971 (India) hadi 0.9985 (Uswisi).
Rubric iliyosajiliwa mapema, imefafanuliwa
Usajili wa kabla ya kuanza (pre-registration) ndio chaguo muhimu zaidi la mbinu katika kipimo hiki. Kila utambuzi unaotarajiwa, kila mfumo wa kuhesabu wa kimatibabu, na kila sehemu ya ripoti iliahidiwa kwenye msimbo wa chanzo kabla ya injini kuanzishwa. Kwa hiyo, kurekebisha kwa baadae (post-hoc) kwa rubriki ili kuipendelea injini haiwezekani.
Vipengele vitatu vinaunda alama ya jumla (composite). K kipengele cha kimuundo huchangia asilimia 35 na hupima kama injini ilirudisha sehemu saba za lazima za ripoti (kichwa, muhtasari, mambo muhimu yaliyopatikana, tofauti, mifumo ya kuhesabu, mapendekezo, ufuatiliaji) na sehemu ndogo kumi na sita za lazima ndani yake. Uwepo wa sehemu hupima asilimia 40 na uwepo wa sehemu ndogo hupima asilimia 60 ndani ya hesabu ya kimuundo.
The kipengele cha kimatibabu (clinical) huchangia asilimia 55 na kuchanganya mambo matatu: kukumbuka maneno muhimu ya utambuzi (asilimia 70 ya sehemu ndogo ya kimatibabu), kukumbuka mfumo wa kuhesabu (asilimia 20 — je, injini huhesabu Mentzer, FIB-4, HOMA-IR, hatari ya ASCVD, hatua za KDIGO, vigezo vya EULAR/ACR inapohitajika), na ukaguzi wa uhalali wa jumla ya uwezekano (asilimia 10 — uwezekano wa tofauti unapaswa kujumlishwa ndani ya muda wa [90, 110]). Kwa kesi za mitego, adhabu ya wazi ya hyperdiagnosis hadi 0.30 hutolewa, ikihesabiwa kama 0.10 kwa kila bendera ya ugonjwa iliyotengenezwa, ikikomezwa kwa bendera tatu.
The kipengele cha muda wa majibu (latency) huchangia asilimia 10. Jibu chini ya sekunde 20 hupata 0.10 kamili, jibu chini ya sekunde 40 hupata 0.05, na lolote linalochelewa zaidi hupata sifuri. Lengo la sekunde 20 linaakisi lengo la kiwango cha huduma (service-level objective) la uzalishaji wa huduma ya msingi ya path; kikomo cha sekunde 40 kinaakisi bajeti ya kurudi nyuma ya Awamu ya 2 kwa uanzishaji mzito wa injini.
Kinachozuiwa na usajili wa kabla ya kuanza
Vipimo vya kwanza (first-party benchmarks) vinajulikana kwa kuongeza namba zao wenyewe kupitia kurekebisha rubriki kwa baadae. Muundo huo karibu kila mara ni ule ule: timu huendesha injini, kuona wapi inashindwa, kisha kwa utulivu kurekebisha rubriki ili maeneo yanayoshindwa yahesabiwe kidogo. Kwa kuahidi rubriki kwenye msimbo wa chanzo kabla ya simu ya kwanza ya injini na kuchapisha harness chini ya leseni ya MIT, marekebisho hayo yanaonekana kwenye udhibiti wa toleo (version control). Mtu yeyote anaweza kunakili (clone) hazina, kuangalia tarehe za mwandishi wa rubriki, na kuthibitisha kuwa matokeo ya injini hayakutumiwa kuunda mpangilio wa alama.
Kesi za mtego wa hyperdiagnosis — kwa nini kuita kupita kiasi ndicho chanzo halisi cha kushindwa
Kuita kwa nguvu sana ugonjwa wa patholojia kwenye skrini za kawaida ni hali ya kushindwa iliyorekodiwa kwa wasaidizi wa kimatibabu wanaolenga watumiaji (consumer-facing). Gharama zake za baadaye ni pamoja na uchunguzi usio wa lazima, wasiwasi wa mgonjwa, na uchunguzi wa kimatibabu unaosababishwa na daktari (iatrogenic workup). Kesi mbili za mitego katika kipimo hiki zimeundwa kufanya hali hiyo ya kushindwa iwe wazi na iweze kupimika kwa alama.
🟡 Mtego 1 — BT-014-GILBERT
Mawasilisho. Mwanaume mwenye umri wa miaka 24 aliye na bilirubini ya jumla ya 2.4 mg/dL. Sehemu ya moja kwa moja ni ya kawaida, transaminasi na fosfati ya alkali ziko ndani ya viwango vya rejea, retikulosaiti hazina jambo la ajabu, na haptoglobini pamoja na LDH huondoa uwezekano wa hemolysis.
Tafsiri sahihi. Ugonjwa wa Gilbert — mabadiliko ya kijeni (polymorphism) ya kijenetiki ya UGT1A1 yasiyo na madhara. Tafsiri haipaswi kuhusisha hepatitis, cirrhosis, upungufu wa damu wa hemolytic, au kizuizi cha njia ya nyongo.
Matokeo ya V11. Jumla 1.000. Hakuna hata moja ya bendera sita za uainishaji kupita kiasi (over-diagnosis) zilizofuatiliwa ilionekana kama utambuzi hai.
🟡 Mtego 2 — BT-015-HEALTHY
Mawasilisho. Mwanamke mwenye umri wa miaka 35 mwenye paneli ya kawaida ya uchunguzi wa vigezo kumi na tano. Kila kipimo (analyte) kiko vizuri ndani ya kiwango chake cha rejea.
Tafsiri sahihi. Uhakikisho na uendelezaji wa mtindo wa maisha. Tafsiri haipaswi kutengeneza ugonjwa wa mpaka ili kuonekana kuwa na manufaa ya kiafya kiafya.
Matokeo ya V11. Mchanganyiko 1.000. Hakuna hata moja ya alama saba za uainishaji kupita kiasi zilizofuatiliwa—kisukari, upungufu wa damu (anemia), hypothyroidism, dyslipidaemia, hepatitis, ugonjwa wa figo, upungufu—zilionekana kama utambuzi hai.
Katika mitego yote miwili, alama kumi na tatu za uainishaji kupita kiasi (hyperdiagnosis) zilizofuatiliwa zilichunguzwa. Hakuna hata moja iliyowashwa. Hii ndiyo matokeo muhimu zaidi kwa daktari yeyote anayezingatia kutumia injini ya AI kama zana ya triage au kabla ya kushauriana: mfumo haukuvumbua ugonjwa pale ambapo haukuwepo.
Fahirisi ya Mentzer: kutenganisha upungufu wa madini ya chuma na sifa ya thalassemia
Ugunduzi wa pili wenye thamani kubwa unahusu ulinganisho wa kesi BT-001 (upungufu wa damu kutokana na upungufu wa chuma) na kesi BT-007 (beta-thalassaemia ndogo). Zote mbili hujitokeza kwa microcytosis na ni kikwazo kinachojulikana sana kwa vichanganuzi visivyo na uzoefu. Fahirisi ya Mentzer, inayokokotolewa kama MCV ikigawanywa kwa idadi ya RBC, huzidi 13 katika upungufu wa chuma na hushuka chini ya 13 katika sifa ya thalassaemia.
Katika BT-001, mgonjwa alikuwa mwanamke mwenye umri wa miaka 34 mwenye hemoglobini 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, na TIBC iliyoongezeka. Fahirisi ya Mentzer ya takriban 17.7 inaunga mkono upungufu wa chuma wa kweli. Katika BT-007, mgonjwa alikuwa mwanaume mwenye umri wa miaka 28 mwenye microcytosis (MCV 65.8 fL) lakini idadi ya juu ya RBC ya 6.2, RDW ya kawaida, ferritin ya kawaida, na HbA2 ya asilimia 5.6. Fahirisi ya Mentzer ya takriban 10.6 inaashiria sifa ya thalassaemia, na HbA2 iliyoongezeka inathibitisha beta-thalassaemia ndogo.
Kesi zote mbili zilipata alama 1.000. Injini ilitumia fahirisi ya Mentzer kwa uwazi katika tafsiri zote mbili na kurudisha utambuzi sahihi katika kila tukio. Hili ndilo jibu linalotoa uhakikisho mkubwa zaidi kiafya katika tathmini nzima, kwa sababu kukosea kuainisha sifa ya thalassaemia kama upungufu wa chuma husababisha kuongezewa chuma bila sababu na kukosa fursa za uchunguzi wa familia, na kukosea kuainisha upungufu wa chuma kama thalassaemia huchelewesha tiba rahisi ya kubadilisha. Yetu kiwango cha ferritin inaeleza muktadha mpana wa tofauti.
Matokeo kwa kila kesi kutoka kwenye uendeshaji wa rejea wa awali wa V11 (Aprili 23, 2026)
Uendeshaji wa awali wa V11 wa kundi la uthibitisho la kesi 15 hutumika kama msingi wa kimbinu wa Second Update: kila maelezo ya kila kesi yaliyo hapa chini yanaonyesha jinsi rubriki inavyoshughulikia jibu halisi la injini. Kesi kumi na mbili kati ya kumi na tano zilifikia kikomo cha alama ya pamoja cha 1.000 kwenye njia kuu; kesi tatu zilitolewa kupitia njia ya kurudi ya Phase 2, zikipoteza bonasi ya muda wa kusubiri ya 0.05 huku zikihifadhi maudhui yote ya kimatibabu na ya kimuundo. Kesi moja ilikuwa ikikosa sehemu ndogo moja ya lazima; moja ilirudisha jumla ya usambazaji wa uwezekano uliopunguzwa kidogo.
Kesi ya PCOS (BT-008) ilipoteza sehemu ndogo ya lazima moja katika muundo wa jibu — kumi na tano kati ya kumi na sita badala ya kumi na sita kati ya kumi na sita — jambo lililopunguza alama ya muundo kutoka 1.000 hadi 0.963. Kesi ya SLE (BT-011) ilirudisha jumla ya uwezekano iliyopungua kidogo ambayo ilishusha alama ya kliniki hadi 0.965 huku ikihifadhi kila neno muhimu la uchunguzi na mfumo wa upimaji. Kesi zote mbili ambazo hazikuwa kamili hazikosa utambuzi sahihi.
Jumla ya V11 Second Update — kesi 100,000
Kwa kiwango cha idadi ya watu, safu za kesi binafsi hazisomeki kwa binadamu, hivyo Second Update huripoti vipimo vilivyojumlishwa badala ya jedwali la mistari 100,000. Muhtasari mkuu unaonyeshwa hapa chini; mgawanyo kwa taaluma na kwa nchi huchapishwa kwenye ripoti ya kiufundi na amana ya Figshare. Sampuli iliyopangwa kwa nasibu ya n = 201 majibu ghafi ya injini (mbegu ya kubainisha 20260426) huchapishwa kwenye GitHub results/ kwa ukaguzi.
Alama ya kichwa haituambii nini
Alama ya mchanganyiko ya 99.80 asilimia chini ya kanuni hii mahususi iliyosajiliwa mapema, kwenye kundi la watu lisilojulikana la kesi 100,000 linaloenea nchi 127, inaashiria utendaji karibu na kikomo — lakini inahitaji kuwekwa katika muktadha kwa uangalifu. Matokeo yanaelezea tabia ya injini dhidi ya kanuni tuliyoahidi kuingiza kwenye msimbo wa chanzo katika V11; si dai la jumla kuhusu usahihi wa injini kwenye kila paneli ya vipimo vya damu iliyopo huko nje.
Alama hiyo inaonyesha kuwa injini iliweza kushughulikia mifumo ya uchunguzi iliyochaguliwa kwa tathmini hii kwa usahihi katika kundi la watu lenye ukubwa wa kiwango cha idadi ya watu, kwa kutumia mbinu iliyochapishwa na inayoweza kuigwa. Haimaanishi kuwa injini ni sahihi kwenye kila paneli ya vipimo vya damu iliyopo huko nje. Haimaanishi kuwa injini inapaswa kuchukua nafasi ya uamuzi wa mtaalamu wa kliniki. Na haimaanishi kuwa injini inaongoza mifumo mingine ya AI — uchambuzi wa kulinganisha dhidi ya injini nyingine uliachwa kwa makusudi nje ya upeo wa ripoti hii.
Kilichoanzishwa na alama ni msingi. Kwa kuwa kanuni na mfumo wa majaribio vinapatikana hadharani, matoleo yajayo ya injini yanaweza kutathminiwa dhidi ya kanuni ile ile — yakitumika kwa kesi 15 za V11 ya awali, kundi la kesi 100,000 la Sasisho la Pili, au upanuzi wowote unaofuata — na pengo kati ya alama iliyochapishwa na majaribio yoyote ya baadaye linaweza kupimika lenyewe. Huu ndio thamani ya usajili mapema: hubadilisha madai ya utendaji kuwa madai yanayoweza kupimwa.
Jinsi ya kuiga kiwango hiki kwa dakika 10
Kurudiwa kunahitaji tu jozi ya kitambulisho cha Kantesti API na mazingira ya Python 3.10 au toleo jipya zaidi pamoja na requests na reportlab maktaba kusakinishwa. Mfumo kamili wa majaribio ni moduli moja ya Python inayojitosheleza iliyotolewa chini ya leseni ya MIT.
Hatua nne za uendeshaji mpya
Moja. Piga clone kwenye hazina: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Mbili. Sakinisha tegemezi kwa pip install -r requirements.txt (Sasisho la Pili huongeza mysql-connector-python ≥ 8.0 kwa kipakiaji cha kesi cha SQL). Tatu. Weka KANTESTI_USERNAME na KANTESTI_PASSWORD kama vigezo vya mazingira kwa API ya injini. Kwa kipakiaji cha kesi cha SQL cha Sasisho la Pili, pia weka KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, na KANTESTI_DB_PASSWORD — kipakiaji huunganishwa kupitia jukumu la kusoma tu (bench_reader) ambalo halina marupurupu ya kutambua jedwali. Nne. Endesha python benchmark_bloodtest.py --limit 100000 kwa uendeshaji kamili wa Second-Update, au python benchmark_bloodtest.py --limit 1000 kwa marudio ya haraka. Matokeo huwekwa kwenye ./benchmark_results/: kadi ya alama ya CSV yenye safu wima za kila nchi na kila taaluma, muhtasari wa JSON, sampuli halisi ya majibu iliyogawanywa kwa nasibu, na ripoti ya Markdown.
Uendeshaji wa rejea kutoka 23 Aprili 2026 (V11 ya awali, kesi 15) na 26 Aprili 2026 (V11 Second Update, kesi 100,000) huhifadhiwa kwenye results/ saraka ya hazina. Uendeshaji mpya utazalisha kadi mpya ya alama yenye muhuri wa muda (timestamp) huku ukiacha uendeshaji wa rejea bila kuguswa. Ikiwa uendeshaji wako utatoa matokeo tofauti kwa maana, tafadhali fungua suala la GitHub pamoja na muhuri wa muda wa uendeshaji na toleo la injini lililorudishwa kwenye metadata ya majibu.
Mapungufu na kazi ya baadaye
Hata kwa kesi 100,000 katika nchi 127, mapungufu manne yanastahili kutajwa wazi: upungufu wa sampuli kwa nchi za mkondo wa nyuma (long-tail), tathmini ya mara moja, upeo wa injini moja, na chanzo kimoja cha data. Kila moja inashughulikiwa katika kazi ya ufuatiliaji inayoendelea.
Ufunikaji wa nchi za mkondo wa nyuma. Second Update inahusu nchi 127, lakini usambazaji si sawa — wachangiaji 10 wa juu wanachukua ≈66.4% ya kesi, na mkondo wa nyuma wa nchi 97 za ziada kwa pamoja unachangia ≈7.3% (takriban kesi 7,300 kwa pamoja, ~kesi 75 kwa nchi kwa wastani). Kwa hiyo, mchanganyiko wa kila nchi katika mkondo huu wa nyuma huwa na kelele zaidi kuliko inavyodokezwa na takwimu za kichwa. Uendeshaji ujao utapendelea kuajiri kutoka nchi zilizo na sampuli ndogo ili kuboresha makadirio kwa kila mamlaka (jurisdiction).
Tathmini ya mara moja. Kila kesi katika kundi ilitathminiwa mara moja. Miundo mikubwa ya lugha huonyesha utofauti usio wa kawaida wa matokeo hata kwa halijoto ndogo ya sampuli, hivyo itifaki ya uendeshaji wa mara nyingi yenye tathmini tano kwa kila kesi na kuripotiwa kwa utofauti ni hatua inayofuata ya asili — hasa kwenye sehemu ndogo ya kesi za mtego (trap-case), ambapo uthabiti chini ya mabadiliko ya sampuli ni sehemu ya madai ya usalama.
Upeo wa injini moja. Ripoti hii inaelezea injini moja. Uchambuzi wa kulinganisha dhidi ya mifumo mingine ya AI haujumuishwi hapa; tunaweza kuifanya kama utafiti tofauti wa kujitegemea kwa kutumia mbinu inayofaa, dhidi ya mfumo ule ule wa MIT-licensed.
Chanzo kimoja cha data. Kesi 100,000 zimefichwa (anonymised) rekodi halisi za wagonjwa zilizochukuliwa kutoka hazina moja ya kimatibabu (ghala la data la kimatibabu linaloungwa mkono na Kantesti SQL). Zinawakilisha mkondo ulioratibiwa wa uzalishaji na si sampuli nasibu inayowakilisha idadi ya watu kwa kiwango cha kimataifa. Kuongeza tathmini hadi data ya vituo vingi vinavyopatikana nje (externally-sourced multi-centre data) kumewekwa kwenye ramani ya barabara.
Zaidi ya mapungufu hayo manne, upanuzi unaotarajiwa kuwa na athari kubwa zaidi ni usawa wa lugha nyingi kwa kila mamlaka. Injini ya Kantesti AI inawahudumia watumiaji katika 75+ lugha, na kuendesha vikundi vidogo vya Second-Update vilivyogawanywa kwa lugha (Kituruki, Kijerumani, Kihispania, Kifaransa, Kiitaliano, Kireno, Kiarabu, Kichina cha Mandarin) kutapima ubora wa matokeo katika lugha zote zinazoungwa mkono na injini. Kila uchambuzi uliogawanywa kwa lugha utachapishwa pamoja na DOI yake na tawi la mfumo (harness).