Miksi tämä vertailuarvo on olemassa ja mitä se testaa
Tekoälyavusteista verikoetulosten tulkintaa käytetään yhä enemmän kuluttaja- ja kliinisissä työnkuluissa, mutta toistettavat arviointikehykset, jotka on räätälöity laboratoriolääketieteeseen, ovat edelleen harvinaisia. Tämän asetelman tärkeimmät kysymykset eivät ole niitä, joita yleiset lääketieteelliset kysymys–vastausvertailut kattavat: pystyykö moottori erottamaan raudanpuutteen talassemiaominaisuudesta, kun punasolujen keskitilavuus on identtinen, diagnosoiko se liikaa Gilbertin oireyhtymää hepatiittina ja tuottaako se patologiaa täysin normaalissa seulontapaneelissa?
Yksittäinen verikoeanalyysipaneeli sisältää tyypillisesti riittävästi signaalia tukemaan useita kilpailevia tulkintoja, ja tulkitsevan lääkärin tehtävä on punnita näitä tulkintoja toisiaan vastaan sen sijaan, että haettaisiin oppikirjavastausta. Moottori, joka suoriutuu hyvin oppikirjatapauksista, voi silti epäonnistua niissä tapauksissa, jotka ovat kaikkein tärkeimpiä: erotusdiagnostiikan sudenkuopissa, hyvänlaatuisissa muunnoksissa, jotka näyttävät yksinään hälyttäviltä, sekä täysin normaalissa paneelissa, joka houkuttelee varmoja avustajia valmistamaan patologian.
Tämä vertailu rakennettiin juuri näiden epäonnistumistilojen ympärille. Kaikki viisitoista tapausta valittiin tietyn diagnostisen ominaisuuden perusteella: raudanpuutteeseen liittyvä mikrosytoosi, joka on pidettävä erillään beeta-talassemian piirteestä, jolla on identtinen keskimääräinen punasolutilavuus; Gilbertin oireyhtymän ilmentymä, jossa ainoa poikkeavuus on eristetty epäsuoran bilirubiinin lisääntyminen; sekä viisitoista analyytin seulontapaneeli, jossa jokainen analyytin arvo on viitealueellaan. Arviointikriteeri palkitsee moottorit, jotka lukevat jokaisen tapauksen omilla ehdoillaan, ja rankaisee moottoreita, jotka päätyvät varmaan diagnoosiin, vaikka sellaista diagnoosia ei ole perusteltua tehdä.
Tohtori Thomas Kleininä valitsin tapaajoukon, koska nämä ovat ne mallit, joita laboratoriolääketieteen avustajat tekevät useimmin väärin. Kallis epäonnistumistapa ei ole "harvinaisen sairauden huomaamatta jättäminen" — vaan rutiininomaisen patologian keksiminen potilaille, joilla sitä ei ole. Meidän Lääketieteellinen validointi kuvaa laajempaa viitekehystä; tämä sivu kuvaa V11:n alkuperäisen proof-of-conceptin ja V11 Second Updaten, joka skaalasi sen 100 000 anonymisoituun tapaukseen, jotka on poimittu SQL-pohjaisesta kliinisestä tietovarannosta ja jotka kattavat 127 maata — käyttäen samaa pisteytysjärjestelmän arviointikriteeristöä, bittitarkasti identtisenä, ilman että jälkikäteen hienosäätöä sallitaan.
Uusin vertailuajon tulos — V11 Second Update (26. huhtikuuta 2026)
V11 Second Updaten vertailuajon (26. huhtikuuta 2026) tuloksena saatiin yhdistetty pistemäärä 99.80% samassa etukäteen rekisteröidyssä arviointikriteeristössä kuin V11:n alkuperäisessä julkaisussa, arvioituna 100 000 anonymisoidulla tapauksella jotka on poimittu Kantesti SQL-pohjaisesta kliinisestä tietovarannosta ja jotka kattavat 127 maassa ja 75+-kielet. Jokainen tapaus valmistui moottorin ensisijaisella polulla; trap-tapausten hyperdiagnostiikan lippuaktivoinnit pysyivät 0 / 87,412. Alkuperäinen V11-ajo 23. huhtikuuta 2026 kattoi 15 käsin kuratoitua tapausta (yhdistetty 99.12%) ja varmisti arviointikriteeristön; Second Update säilyttää tämän arviointikriteeristön bittitarkasti identtisenä ja laajentaa arvioinnin väestötason kohorttiin.
Yhdistetty kaava yhdistää kolme osatekijää: rakenteellinen vaatimustenmukaisuus seitsemän pakollisen raportointiosion ja kuudentoista pakollisen alaluvun kanssa, kliininen tarkkuus mitattuna avainsanojen palautuksena (keyword recall) sekä pisteytysjärjestelmän palautuksena (scoring-system recall) ja todennäköisyysjakauman validointitarkistuksena, ja vasteviive ensisijaisen polun palvelutason tavoitetta vasten. Tarkka erittely on esitetty alla olevassa arviointikriteeristön kaavassa — mitään näistä painoista tai alikriteereistä ei muutettu Second Updatessa.
Jäljellä olevat 0,20 prosenttiyksikköä liikkumavaraa jakautuvat lähes kokonaan kliiniseen osapistemäärään — pienellä osalla tapauksia (pääasiassa hepatologiassa ja reumatologiassa) yksi odotettu pisteytysjärjestelmän avainsana puuttui moottorin tulkinnasta, vaikka diagnostinen sisältö oli oikein. Yksikään tapaus 100 000 tapauksen Second-Update-kohortissa ei missannut itse diagnoosia. Viive parani V11:n alkuperäisen julkaisun 20,17 s:n keskiarvosta Second Updaten 13,26 s:iin, mikä heijastaa tuotantomoottorin optimointeja kahden ajon välillä; arviointikriteeristö, pisteytyskoodi ja API-endpoint ovat muuttumattomat.
Maan mukaan yhdistetyt pistemäärät vaihtelivat 0,9971:stä (Intia) 0,9985:een (Sveitsi) 30 eniten edustetun maan välillä. Pitkä häntä 97 lisämaasta (≈7 300 tapausta yhteensä) ei osoittanut systemaattista heikkenemistä. Suurimmat vaikuttajat tapausmäärällä mitattuna olivat Yhdysvallat (10 500), Brasilia (9 500), Espanja (9 000), Italia (8 000), Saksa (7 800), Ranska (7 400), Portugali (5 800), Türkiye (3 400), Yhdistynyt kuningaskunta (2 900) ja Meksiko (2 500).
15 tapauksesta 100 000: kohortin kehittyminen 127 maassa
Alkuperäinen V11:n tapauspaneeli kattoi seitsemän erikoisalaa — hematologia, endokrinologia, metabolinen lääketiede, hepatologia, nefrologia, kardiologia, reumatologia — sekä kaksi erillistä hyperdiagnostiikan trap-tapausta, ja jokainen tapaus oli anonymisoitu todellinen potilastietue, joka oli poimittu Kantesti:n kliinisestä tietovarannosta kirjallisen tietoon perustuvan suostumuksen perusteella. V11 Second Update laajentaa arvioinnin 100 000 anonymisoituun tapaukseen 127 maassa, jaettuna kahdeksaan erikoisalaan (alkuperäiset seitsemän plus erillinen sisätautien “bucket”, joka kattaa trap-alajoukon). Sama pisteytyksen arviointikriteeristöä sovelletaan bittitarkasti identtisenä molemmissa ajoissa.
Anonymisointi tehtiin Safe Harbor -lähestymistavalla: kaikki suorat tunnisteet poistettiin tai korvattiin, ja jokaiselle tietueelle annettiin vertailun sisäinen tapauskoodi muodossa BT-NNN-LABEL (V11:n alkuperäinen) tai vakaa anonymisoitu case_uid Second Updatessa. Käsittely tehtiin GDPR:n artiklan 9(2)(j) mukaisesti tieteellistä tutkimusta varten asianmukaisilla suojatoimilla sekä vastaavien UK GDPR -säännösten mukaisesti. Henkilökohtaisia tunnistetietoja ei esiinny missään julkaistussa testialustassa, teknisessä raportissa tai julkaistuissa tietoaineistoissa.
V11:n alkuperäisen julkaisun mukaisesti — 15 käsin kuratoitua tapausta
Alkuperäisen V11-tapauspaneelin valitsi käsin tohtori Thomas Klein, jotta se harjoittaisi diagnostisia malleja, joita laboratoriolääketieteen avustajat tulkitsevat useimmin väärin. Jokainen viidestätoista tapauksesta valittiin tietyn diagnostisen ominaisuuden perusteella, ja ne on lueteltu alla.
Miksi juuri tämä jakauma
Hematologia saa kolme tapausta, koska mikrosyyttiset erotusdiagnoosit ja makrosyyttiset erotusdiagnoosit ovat suurimman volyymin “ansakuoppia” käytännön laboratoriotyössä. Endokrinologia saa kolme, koska Hashimoton, PCOS:n ja D-vitamiinin puutteen esitystavat harjoittavat erilaisia diagnostisia muotoja (vasta-ainevälitteinen, hormonisuhdevälitteinen, yksittäisen merkkiaineen välitteinen). Yksittäistapaus-erikoisalat ovat silti merkityksellisiä, koska jokaisella CKD:llä, ASCVD-riskillä ja SLE:llä on oma pisteytysjärjestelmänsä, jonka moottorin tulee kutsua (KDIGO-luokittelu, ASCVD 10 vuoden riski, 2019 EULAR/ACR SLE-kriteerit vastaavasti).
V11 toinen päivitys — 100 000 anonymisoitua tapausta 127 maasta
Toinen päivitys korvaa alkuperäisen V11:n kovakoodatun 15 tapauksen Python-literalin parametrisella, vain luku -SQL-kyselyllä Kantesti-kliinistä tietovarastoa vastaan (anonymised_blood_panels). Kysely suodattaa ehdolla consent_research = 1 AND released_for_benchmark = 1 ja se tulostetaan jokaisen vertailuajon yläosaan läpinäkyvyyden vuoksi. Kohorttijakauma erikoisalojen mukaan on esitetty alla.
Maantieteellinen jakautuminen — 10 parasta maata
Kohortti kattaa 127 maata (ISO 3166-1 alpha-2). Eurooppa tuottaa 57.7%, Amerikat 25.4%, Aasia–Tyynimeri 6.2%, nimetty Lähi-itä/Afrikka 3.4% ja pitkä häntä 97 lisämaata yhteensä noin 7.3%. Kymmenen suurinta panostajaa ovat Yhdysvallat (10,500), Brasilia (9,500), Espanja (9,000), Italia (8,000), Saksa (7,800), Ranska (7,400), Portugali (5,800), Türkiye (3,400), Yhdistynyt kuningaskunta (2,900) ja Meksiko (2,500). Maankohtaiset yhdistelmäpisteet vaihtelivat välillä 0.9971 (Intia) ja 0.9985 (Sveitsi).
Ennakkoon rekisteröidyn arviointikriteeristön selitys
Rekisteröinti etukäteen on tämän vertailun tärkein metodologinen valinta. Jokainen odotettu diagnoosi, jokainen kliininen pisteytysjärjestelmä ja jokainen raporttiosio sitoutettiin lähdekoodiin ennen kuin moottoria kutsuttiin. Rubriikin jälkikäteinen hienosäätö moottorin miellyttämiseksi ei siis ole mahdollista.
Koostepisteet muodostuvat kolmesta osasta. Rakenteellinen osa muodostaa 35 prosenttia ja mittaa, palauttiko moottori seitsemän pakollista raporttiosiota (otsikko, yhteenveto, keskeiset löydökset, erotusdiagnoosi, pisteytysjärjestelmät, suositukset, jatkoseuranta) sekä niiden sisällä olevat kuusitoista pakollista alalukua. Osioiden olemassaolo painottaa 40 prosenttia ja alalukujen olemassaolo 60 prosenttia rakenteellisessa laskennassa. Kliininen osa.
The muodostaa 55 prosenttia ja yhdistää kolme asiaa: diagnoosiavaintunnisteiden muistaminen (70 prosenttia kliinisen osapistemäärän osuudesta), pisteytysjärjestelmän muistaminen (20 prosenttia — laskeeko moottori Mentzerin, FIB-4:n, HOMA-IR:n, ASCVD-riskin, KDIGO-luokituksen, EULAR/ACR-kriteerit tarvittaessa) sekä todennäköisyyksien summan validointitarkistus (10 prosenttia — erotusdiagnoosien todennäköisyyksien summan tulee osua välille [90, 110]). Ansakuopatapauksissa vähennetään lisäksi eksplisiittinen hyperdiagnosointirangaistus enintään 0.30, laskettuna 0.10 per keksitty patologialippu, enintään kolme lippua. Viiveosa.
The muodostaa 10 prosenttia. Vastaus alle 20 sekunnissa saa täyden 0.10:n, alle 40 sekunnissa 0.05:n ja kaikki sitä hitaammat saavat nollan. 20 sekunnin tavoite heijastaa tuotannon primary-path-palvelutason tavoitetta; 40 sekunnin yläraja heijastaa Vaiheen 2 varabudjettia raskaammille moottorin kutsuille. Testauskehikko ajossa. Jokainen tapaus renderöidään A4-PDF:ksi, lähetetään tuotannon v11-päätepisteeseen ja pisteytetään jäädytettyä rubriikkia vasten. Jokainen raakavastaus tallennetaan yhdessä yhteenvedon pistetaulukon kanssa.
Ensimmäisen osapuolen vertailut ovat tunnettuja omien lukujensa puhaltamisesta puhtaasti jälkikäteisellä rubriikin hienosäädöllä. Kaava on lähes aina sama: tiimi ajaa moottorin, näkee missä se alisuoriutuu, ja säätää sitten hiljaa rubriikkia niin, että alisuoriutuvat alueet painavat vähemmän. Kun rubriikki sitoutetaan lähdekoodiin ennen ensimmäistä moottorin kutsua ja testauskehikko julkaistaan MIT-lisenssillä, tämä säätö tulee näkyväksi versionhallinnassa. Kuka tahansa voi kloonata repositorion, tarkistaa rubriikin tekijöiden päivämäärät ja varmistaa, ettei moottorin tuloksia käytetty pisteytyksen muotoiluun.
Patologian aggressiivinen ylikutsuminen normaalin näytön perusteella on dokumentoitu virhemuoto kuluttajille suunnatuissa lääketieteellisissä avustajissa. Sen jatkovaikutusten kustannuksia ovat tarpeeton tutkiminen, potilaan ahdistus ja iatrogeeninen jatkoselvittely. Tämän vertailun kaksi ansakuopatapausta on suunniteltu tekemään tämä virhemuoto näkyväksi ja pisteytettäväksi.
Hyperdiagnostiikan ansat — miksi ylikutsuminen on todellinen epäonnistumismoodi
Ansakuopatapausten suunnittelu. Moottori, joka nimeää luottavaisesti Gilbertin oireyhtymän hepatiitiksi tai joka valmistaa rajatapauksen patologian täysin normaalille näytölle, saa rangaistuksen — ei palkintoa siitä, että se kuulostaa kliiniseltä.
Esitystapa.
24-vuotias mies, jonka kokonaisbilirubiini on 2.4 mg/dL. Suora fraktio on normaali, transaminaasit ja alkalinen fosfataasi ovat viitearvojensa sisällä, retikulosyytit ovat tavanomaisia, ja haptoglobiini sekä LDH sulkevat pois hemolyysin. Oikea tulkinta.
Gilbertin oireyhtymä — hyvänlaatuinen UGT1A1-polymorfismi. Tulkinta ei saa kutsua hepatiittia, kirroosia, hemolyyttistä anemiaa tai sappitiehyen ahtaumaa. V11-tulos.
Kooste 1.000. Yksikään kuudesta seurannassa olleesta ylikäytön (over-diagnosis) lipusta ei ilmestynyt aktiivisiksi diagnooseiksi. 🟡 Ansakuoppa 2 — BT-015-HEALTHY.
35-vuotias nainen, jossa on viisitoista parametria sisältävä rutiininomainen seulontapaneeli. Jokainen analyytti on mukavasti viitearvojensa sisällä.
24-vuotias mies, jonka kokonaisbilirubiini on 2.4 mg/dL. Suora fraktio on normaali, transaminaasit ja alkalinen fosfataasi ovat viitearvojensa sisällä, retikulosyytit ovat tavanomaisia, ja haptoglobiini sekä LDH sulkevat pois hemolyysin. A 35-year-old female with a fifteen-parameter routine screening panel. Every analyte sits comfortably inside its reference range.
Gilbertin oireyhtymä — hyvänlaatuinen UGT1A1-polymorfismi. Tulkinta ei saa kutsua hepatiittia, kirroosia, hemolyyttistä anemiaa tai sappitiehyen ahtaumaa. Vakuuttelua ja elämäntapojen ylläpitoa. Tulkinnoissa ei pidä keksiä rajatapauksia, jotta ne kuulostaisivat kliinisesti hyödyllisiltä.
Kooste 1.000. Yksikään kuudesta seurannassa olleesta ylikäytön (over-diagnosis) lipusta ei ilmestynyt aktiivisiksi diagnooseiksi. Koostepistemäärä 1.000. Yksikään seitsemästä seurannassa olleesta yliarvioinnin hälytyslipusta — diabetes, anemia, hypotyreoosi, dyslipidemia, hepatiitti, munuaissairaus, puutostila — ei ilmennyt aktiivisina diagnooseina.
Molemmissa testeissä tarkistettiin kolmetoista seurattua hyperdiagnostiikan hälytyslippua. Yhtään ei laukaistu. Tämä on tulos, joka merkitsee eniten jokaiselle kliinikolle, joka harkitsee tekoälymoottorin käyttöä triage- tai esitietotyökaluna: järjestelmä ei keksinyt sairautta, jos sellaista ei ollut.
Mentzer-indeksi: raudanpuutteen erottaminen talassemian kantajuudesta
Toinen korkean arvon havainto koskee tapausten paritusta: tapaus BT-001 (raudanpuuteanemia) yhdessä tapauksen BT-007 (beeta-talassemia minor). Molemmissa esiintyy mikrosytoosi, ja se on hyvin tunnettu kompastuskivi naiiveille luokittelijoille. Mentzer-indeksi, joka lasketaan jakamalla MCV punasolujen (RBC) määrällä, on yli 13 raudanpuutteessa ja alle 13 talassemian piirteessä.
BT-001:ssä potilas oli 34-vuotias nainen, jonka hemoglobiini oli 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritiini 6 ng/mL ja TIBC koholla. Mentzer-indeksi noin 17,7 tukee absoluuttista raudanpuutetta. BT-007:ssä potilas oli 28-vuotias mies, jolla oli mikrosytoosi (MCV 65,8 fL), mutta korkea RBC-määrä 6,2, normaali RDW, normaali ferritiini ja HbA2 5,6 prosenttia. Mentzer-indeksi noin 10,6 viittaa talassemian piirteeseen, ja kohonnut HbA2 vahvistaa beeta-talassemia minorin.
Molemmat tapaukset saivat 1.000 pistettä. Moottori käytti Mentzer-indeksiä nimenomaisesti molemmissa tulkinnoissa ja palautti oikean diagnoosin jokaisessa tapauksessa. Tämä on koko vertailuaineiston kliinisesti kaikkein vakuuttavin yksittäinen tulos, koska talassemian piirteen virheluokittelu raudanpuutteeksi johtaa sopimattomaan rautalisään ja perheen seulontamahdollisuuksien väliin jäämiseen, ja raudanpuutteen virheluokittelu talassemian piirteeksi viivästyttää yksinkertaista korvaushoitoa. Meidän ferritiinialueen ohjeistus selittää laajemman erotusdiagnostiikan kontekstin.
Tapauskohtaiset tulokset V11:n alkuperäisestä vertailuajosta (23. huhtikuuta 2026)
Alkuperäinen V11-vertailuajo 15-tapauksen proof-of-concept -kohortissa toimii metodologisena perustana Second Update -päivitykselle: jokainen alla oleva tapauskohtainen yksityiskohta havainnollistaa, miten arviointikriteeristö käsittelee todellisen moottorin vastauksen. Kaksitoista viidestätoista tapauksesta saavutti ensisijaisella polulla enimmäisyhdistelmäpistemäärän 1.000; kolme tapausta käsiteltiin Phase 2 -varamenettelyllä, jolloin menetettiin 0.05 latenssibonus mutta säilytettiin kaikki kliiniset ja rakenteelliset sisällöt. Yhdestä tapauksesta puuttui yksi yksittäinen pakollinen alaluku; yksi palautti vain hieman pienemmän todennäköisyysjakauman summan.
PCOS-tapaus (BT-008) menetti yhden pakollisen alaluvun vastausrakenteesta — viisitoista kuudestatoista eikä kuusitoista kuudestatoista — mikä leikkasi rakenteellisen pistemäärän arvosta 1,000 arvoon 0,963. SLE-tapaus (BT-011) palautti marginaalisesti pienentyneen todennäköisyysjakauman summan, joka laski kliinisen pistemäärän arvoon 0,965 säilyttäen samalla kaikki diagnostiset avainsanat ja pisteytysjärjestelmän. Kumpikaan alle täydellinen tapaus ei missannut oikeaa diagnoosia.
V11 Second Update -yhteenveto — 100,000 tapausta
Väestötasolla yksittäiset tapausrivit eivät ole luettavissa ihmisen kannalta, joten Second Update raportoi aggregoituja mittareita eikä 100,000-rivistä taulukkoa. Pääasiallinen yhteenveto on esitetty alla; erikoisalakohtaiset ja maakohtaiset erittelyt julkaistaan teknisessä raportissa ja Figshare-tallenteessa. Kerrostettu satunnaisotos n = 201 raakoja moottorivastauksia (deterministinen siemen 20260426) julkaistaan GitHubissa results/ tarkastelua varten.
Mitä otsikkopisteet eivät kerro meille
Tämän tietyn etukäteen rekisteröidyn arviointikehyksen mukainen yhdistelmäpistemäärä 99,80 prosenttia 100 000 tapauksen anonymisoidussa kohortissa, joka kattaa 127 maata, vastaa lähes kattavaa suorituskykyä — mutta se ansaitsee huolellisen kehystämisen. Tuloksessa kuvataan moottorin käyttäytymistä arviointikehyksen suhteen, jonka sitouduimme lähdekoodiin V11:ssä; se ei ole yleisväite moottorin oikeellisuudesta jokaisessa olemassa olevassa verikoepaneelissa luonnossa.
Pistemäärä kertoo, että moottori käsitteli tämän arvioinnin valitut diagnostiset mallit oikein väestötason kohortissa menetelmällä, joka on julkaistu ja toistettavissa. Se ei sano, että moottori on oikein jokaisessa olemassa olevassa verikoepaneelissa luonnossa. Se ei sano, että moottorin pitäisi korvata kliinikon harkinta. Eikä se sano, että moottori on parempi kuin vaihtoehtoiset tekoälyjärjestelmät — vertailuanalyysit muihin moottoreihin rajattiin tarkoituksella tämän raportin ulkopuolelle.
Se, mitä pistemäärä kuitenkin osoittaa, on lähtötaso. Kun arviointikehys ja testausympäristö ovat julkisia, moottorin tulevia versioita voidaan arvioida samaa arviointikehystä vasten — sovellettuna V11 aloituksen 15 tapaukseen, Toisen päivityksen 100 000 tapauksen kohorttiin tai mihin tahansa myöhempään laajennukseen — ja ero julkaistun pistemäärän ja minkä tahansa myöhemmän ajon välillä on itsessään mitattavissa. Tämä on etukäteisrekisteröinnin arvo: se muuttaa suoritusväitteet testattaviksi väitteiksi.
Näin toistat tämän vertailun 10 minuutissa
Toistettavuus edellyttää vain Kantesti API-tunnisteparia ja Python 3.10 tai uudemman ympäristön, jossa on requests ja reportlab kirjastot asennettuna. Koko testialusta on yksi itsenäinen Python-moduuli, joka julkaistaan MIT-lisenssillä.
Neljä vaihetta uuteen ajoon
Yksi. Kloonaa repositorio: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Kaksi. Asenna riippuvuudet komennolla pip install -r requirements.txt (Second Update lisää mysql-connector-python ≥ 8.0 SQL-tapauslataajaa varten). Kolme. Aseta KANTESTI_USERNAME ja KANTESTI_PASSWORD moottorin API:n ympäristömuuttujina. Toisen päivityksen SQL-tapauslataajaa varten aseta lisäksi KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USERja KANTESTI_DB_PASSWORD — lataaja muodostaa yhteyden vain luku -roolin kautta (bench_reader) jolla ei ole käyttöoikeuksia tunnistustaulujen tunnistamiseen. Neljä. Suorita python benchmark_bloodtest.py --limit 100000 koko Second-Update-ajon ajaksi, tai python benchmark_bloodtest.py --limit 1000 nopeaa iterointia varten. Tulokset tallentuvat osoitteeseen ./benchmark_results/: CSV-pistekortti, jossa on maakohtaiset ja erikoisalakohtaiset sarakkeet, JSON-koonti, ositettu satunnaisotanta raakavastauksista sekä Markdown-raportti.
Viiteajot 23. huhtikuuta 2026 (V11 alkuperäinen, 15 tapausta) ja 26. huhtikuuta 2026 (V11 Second Update, 100,000 tapausta) on säilytetty results/ arkistossa. Uusi ajo tuottaa uuden aikaleimalla varustetun pistekortin muuttamatta viiteajoja. Jos ajosi tuottaa merkittävästi erilaisen tuloksen, avaa GitHub-issue ajon aikaleimalla ja moottorin versiolla, joka palautuu vastauksen metatiedoissa.
Rajoitukset ja jatkotyö
Vaikka tapauksia on 100,000 jaettuna 127 maahan, neljä rajoitetta ansaitsee nimenomaisen tunnustuksen: pitkän hännän maiden aliedustus, kertaluonteinen arviointi, yhden moottorin laajuus ja yhden tietolähteen alkuperä. Näitä käsitellään parhaillaan jatkuvissa jatkotöissä.
Pitkän hännän maiden kattavuus. Second Update kattaa 127 maata, mutta jakauma on epätasainen — 10 suurinta osallistujaa kattaa noin 66.4% tapauksista, ja pitkän hännän 97 muun maan osuus on yhdessä noin 7.3% (yhteensä noin 7,300 tapausta, keskimäärin ~75 tapausta maata kohti). Siksi pitkän hännän maiden maakohtaiset yhdistelmät ovat kohinaisempia kuin otsikkoluvut antavat ymmärtää. Tulevissa ajoissa rekrytoidaan ensisijaisesti aliedustetuista maista, jotta maakohtaiset arviot saadaan vankemmiksi.
Kertaluonteinen arviointi. Jokainen kohortin tapaus arvioitiin kerran. Suuret kielimallit osoittavat ei-triviaalia tuotoksen vaihtelua jo pienellä otantatempolla, joten moniajo-protokolla, jossa on viisi arviointia per tapaus ja raportoitu vaihtelu, on luonnollinen seuraava askel — erityisesti trap-case-alijoukossa, jossa johdonmukaisuus otantajitterin suhteen on osa turvallisuusväitettä.
Yhden moottorin laajuus. Tämä raportti kuvaa yhden moottorin. Vertailuanalyysit vaihtoehtoisia tekoälyjärjestelmiä vastaan eivät kuulu tämän raportin piiriin; voimme toteuttaa ne erillisenä itsenäisenä tutkimuksena asianmukaisella menetelmällä samaa MIT-lisensoitua testikehystä vasten.
Yhden tietolähteen alkuperä. 100,000 tapausta ovat anonymisoituja todellisia potilastietoja, jotka on poimittu yhdestä kliinisestä tietovarannosta (Kantesti SQL-pohjainen kliininen tietovarasto). Ne edustavat kuratoitua tuotantovirtaa eivätkä ole maailmanlaajuisesti väestöä edustava satunnaisotos. Arvioinnin laajentaminen ulkoisesti hankittuun monikeskusaineistoon on tiekartalla.
Näiden neljän lisäksi merkittävin suunniteltu laajennus on monikielinen yhdenmukaisuus per lainkäyttöalue. Kantesti AI Engine palvelee käyttäjiä 75+ kielellä, ja ajamalla kielikohtaisia Second-Update-alikohortteja (turkki, saksa, espanja, ranska, italia, portugali, arabia, mandariinikiina) mitataan tuotoksen laatua moottorin tukemissa kielissä. Jokainen kielikohtainen analyysi julkaistaan omalla DOI:lla ja testikehyshaaralla.