Kantesti tekoälyverikokeiden vertailuarvo

Automaattinen vertailumittaus Ennakkoon rekisteröity vertailuarvo V11 toinen päivitys — huhtikuu 2026 MIT-lisensoitu Toistettavissa · Avoin data 100 000 synteettinen kohortti · 127 maamerkintää

99,80% yhdistetty pistemäärä ennalta rekisteröidyn arviointikriteeristön mukaan — V11 toinen päivitys, 100 000 tapauksen kohortti 127 maamerkinnällä

Ennalta rekisteröity, arviointikriteeristöön perustuva automatisoitu tekninen vertailu Kantesti-moottorille 100 000:lle synteettisesti tuotetulle verikoe-tapaukselle, joihin on liitetty 127 maamerkintää. Se mittaa tuotoksen vaatimustenmukaisuutta, ei diagnostista tarkkuutta. Arviointikriteeristö lukittiin lähdekoodiin ennen V11:n ensimmäistä julkaisua ja pidettiin tismalleen samanlaisena (byte-identtisenä) tätä toista päivitystä varten; arviointikehys on MIT-lisensoitu; kerrostettu satunnaisotos raakoja moottorin vastauksia julkaistaan tarkastettavaksi. Kaikki tapaukset ovat synteettisiä; henkilötietoja ei käytetä.

📖 ~14 minuuttia 📅 Julkaistu 23. huhtikuuta 2026 · Päivitetty 26. huhtikuuta 2026 (V11 toinen päivitys) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Julkaistu: 23. huhtikuuta 2026 🔄 V11 toinen päivitys: 26. huhtikuuta 2026 🩺 Lääketieteellisesti arvioitu: 26. huhtikuuta 2026 ✅ Ennalta rekisteröity arviointikehys (Byte-identical) 🔓 Avoin koodi ja data

Tämä automaattinen vertailumittaus on suunniteltu ja ajettu Julian Emirhan Bulut, Senior AI Engineer ja toimitusjohtaja Kantesti Ltd:ssä. Pisteytys on täysin automatisoitu lähdekoodissa; pisteytyskriteeristö ja tapauspaneeli on kehitetty kliinisen asiantuntemuksen avulla Tohtori Thomas Klein, lääketieteen tohtori, Chief Medical Officer Kantesti AI:ssa, ja sen on tarkistanut Kantestin tekoälyn lääketieteellinen neuvoa-antava toimikunta. Se on itse ajettu sisäinen vertailu, ei riippumaton tai vertaisarvioitu automatisoitu tekninen vertailu.

Pääkirjoittaja & kliininen valvonta

Thomas Klein, lääketieteen tohtori

Ylilääkäri, Kantesti AI

Tohtori Thomas Klein on hallituksen sertifioima kliininen hematologi ja sisätautilääkäri, jolla on yli 15 vuoden kokemus laboratoriolääketieteestä. Kantesti AI:n lääketieteellisenä johtajana hän valitsi tämän vertailun tapauspaneelin, tarkisti synteettisten tapausten kliinisen sisällön ja odotetut vastaukset sekä hyväksyi ennalta rekisteröidyn arviointikriteeristön ennen ensimmäistä moottorin käynnistystä.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Yhteiskirjoittaja & toteutus

Julian Emirhan Bulut

Senior AI Engineer & toimitusjohtaja, Kantesti Ltd

Julian Emirhan Bulut on Kantesti Ltd:n perustaja ja toimitusjohtaja. Hän suunnitteli ja toteutti arviointitestikehyksen — mukaan lukien V11 toiseen päivitykseen lisätty SQL-pohjainen tapauskuormaaja — suoritti API-integraation, teki sekä V11:n ensimmäisen vertailuajon että V11:n toisen päivityksen 100 000 tapauksen ajon ja laati tilastollisen aggregoinnin. Alustan perustaja vuodesta 2019.

GitHub Tietoja Kantestista

⚡ Pikayhteenveto V11 toinen päivitys — 26. huhtikuuta 2026

99,80% yhdistelmäpistemäärä 100 000 synteettisellä verikoe-tapauksella kahdeksassa lääketieteen erikoisalassa ja 127 maamerkinnällä (V11 toinen päivitys).
Ei yhtään hyperdiagnostiikan väärää positiivista 87 412 seurattavan trap-case-lippumahdollisuuden yli — sama trap-case-metodologia kuin V11:n ensimmäisessä ajossa, skaalattuna väestötasolle.
Ennalta rekisteröity arviointikriteeristö lukittu lähdekoodiin ennen V11:n ensimmäistä ajoa ja pidetty täysin saman tavukopioina (byte-identical) tässä toisessa päivityksessä — jälkikäteistä viritystä ei ollut mahdollista tehdä.
Mentzer-indeksi sovellettu oikein erottelemaan raudanpuuteanemia beeta-talassemia minorista V11:n ensimmäisessä julkaisussa; erilaistava käyttäytyminen säilyi väestötasolla.
Vain tuotantopäätepiste — ei etuoikeutettua reititystä; arvioitu täsmälleen niin kuin maksava asiakas sitä käyttäisi.
13,26 sekunnin keskimääräinen viive end-to-end (vaihteluväli 9,0–16,94 s), ja kaikki 100 000 tapausta valmistuivat moottorin ensisijaisella polulla.
Synteettinen kohortti. 100 000 synteettisesti tuotettua testitapausta ladattuna ajon aikana. Ei käytetä synteettistä dataa eikä henkilötietoja.
MIT-lisenssillä julkaistu testikehys julkaistu GitHubissa stratifioidulla satunnaisotoksella (n = 201) moottorin täydellisistä raaka-vastauksista tarkastettavaksi.
Figshare DOI: 10.6084/m9.figshare.32095435 · Peilattu ResearchGateen, Academia.edu:hun ja GitHubiin.

Miksi tämä vertailuarvo on olemassa ja mitä se testaa

Tekoälyavusteista verikoetulosten tulkintaa käytetään yhä enemmän kuluttaja- ja kliinisissä työnkuluissa, mutta toistettavat arviointikehykset, jotka on räätälöity laboratoriolääketieteeseen, ovat edelleen harvinaisia. Tämän asetelman tärkeimmät kysymykset eivät ole niitä, joita yleiset lääketieteelliset kysymys–vastausvertailut kattavat: pystyykö moottori erottamaan raudanpuutteen talassemiaominaisuudesta, kun punasolujen keskitilavuus on identtinen, diagnosoiko se liikaa Gilbertin oireyhtymää hepatiittina ja tuottaako se patologiaa täysin normaalissa seulontapaneelissa?

Yksittäinen verikoeanalyysipaneeli sisältää tyypillisesti riittävästi signaalia tukemaan useita kilpailevia tulkintoja, ja tulkitsevan lääkärin tehtävä on punnita näitä tulkintoja toisiaan vastaan sen sijaan, että haettaisiin oppikirjavastausta. Moottori, joka suoriutuu hyvin oppikirjatapauksista, voi silti epäonnistua niissä tapauksissa, jotka ovat kaikkein tärkeimpiä: erotusdiagnostiikan sudenkuopissa, hyvänlaatuisissa muunnoksissa, jotka näyttävät yksinään hälyttäviltä, sekä täysin normaalissa paneelissa, joka houkuttelee varmoja avustajia valmistamaan patologian.

Tämä vertailu rakennettiin juuri näiden epäonnistumistilojen ympärille. Kaikki viisitoista tapausta valittiin tietyn diagnostisen ominaisuuden perusteella: raudanpuutteeseen liittyvä mikrosytoosi, joka on pidettävä erillään beeta-talassemian piirteestä, jolla on identtinen keskimääräinen punasolutilavuus; Gilbertin oireyhtymän ilmentymä, jossa ainoa poikkeavuus on eristetty epäsuoran bilirubiinin lisääntyminen; sekä viisitoista analyytin seulontapaneeli, jossa jokainen analyytin arvo on viitealueellaan. Arviointikriteeri palkitsee moottorit, jotka lukevat jokaisen tapauksen omilla ehdoillaan, ja rankaisee moottoreita, jotka päätyvät varmaan diagnoosiin, vaikka sellaista diagnoosia ei ole perusteltua tehdä.

Tohtori Thomas Kleininä valitsin tapaajoukon, koska nämä ovat ne mallit, joita laboratoriolääketieteen avustajat tekevät useimmin väärin. Kallis epäonnistumistapa ei ole "harvinaisen sairauden huomaamatta jättäminen" — vaan rutiininomaisen patologian keksiminen potilaille, joilla sitä ei ole. Meidän Lääketieteellinen validointi hub kuvaa laajempaa viitekehystä; tämä sivu kuvaa V11:n alkuperäisen proof-of-conceptin ja V11:n toisen päivityksen, joka skaalasi sen 100 000 synteettiseen tapaukseen, jotka on poimittu synteettisestä tapausjoukosta, joka kattaa 127 maamerkintää — käyttäen samaa pisteytysarviointikriteeristöä, byte-identtisenä, ilman jälkikäteistä viritystä.

Uusin vertailuajon tulos — V11 Second Update (26. huhtikuuta 2026)

V11 Second Updaten vertailuajon (26. huhtikuuta 2026) tuloksena saatiin yhdistetty pistemäärä 99.80% samassa etukäteen rekisteröidyssä arviointikriteeristössä kuin V11:n alkuperäisessä julkaisussa, arvioituna 100 000 synteettistä tapausta poimittuna Kantesti:n synteettisestä tapausjoukosta ja kattaa 127 maamerkintää ja 75+-kielet. Jokainen tapaus valmistui moottorin ensisijaisella polulla; trap-tapausten hyperdiagnostiikan lippuaktivoinnit pysyivät 0 / 87,412. Alkuperäinen V11-ajo 23. huhtikuuta 2026 kattoi 15 käsin kuratoitua tapausta (yhdistetty 99.12%) ja varmisti arviointikriteeristön; Second Update säilyttää tämän arviointikriteeristön bittitarkasti identtisenä ja laajentaa arvioinnin väestötason kohorttiin.

Yhdistetty 99.80% 100 000/100 000 tapauksesta sai pisteet

1.000 Rakenteellinen pistemäärä

0.996 Kliininen pistemäärä

13,26 s Keskimääräinen viive

0 / 87,412 Ansaan johtavat virheelliset positiiviset

Yhdistetty kaava yhdistää kolme osatekijää: rakenteellinen vaatimustenmukaisuus seitsemän pakollisen raportointiosion ja kuudentoista pakollisen alaluvun kanssa, sisällön tarkkuus mitattuna avainsanojen palautuksena (keyword recall) sekä pisteytysjärjestelmän palautuksena (scoring-system recall) ja todennäköisyysjakauman validointitarkistuksena, ja vasteviive ensisijaisen polun palvelutason tavoitetta vasten. Tarkka erittely on esitetty alla olevassa arviointikriteeristön kaavassa — mitään näistä painoista tai alikriteereistä ei muutettu Second Updatessa.

Yhdistetty = 0.35 × Rakenteellinen + 0.55 × Kliininen + 0.10 × Viive

Jäljellä olevat 0,20 prosenttiyksikköä liikkumavaraa jakautuvat lähes kokonaan kliiniseen osapistemäärään — pienellä osalla tapauksia (pääasiassa hepatologiassa ja reumatologiassa) yksi odotettu pisteytysjärjestelmän avainsana puuttui moottorin tulkinnasta, vaikka diagnostinen sisältö oli oikein. Yksikään tapaus 100 000 tapauksen Second-Update-kohortissa ei missannut itse diagnoosia. Viive parani V11:n alkuperäisen julkaisun 20,17 s:n keskiarvosta Second Updaten 13,26 s:iin, mikä heijastaa tuotantomoottorin optimointeja kahden ajon välillä; arviointikriteeristö, pisteytyskoodi ja API-endpoint ovat muuttumattomat.

Maakohtaiset yhdistetyt pistemäärät vaihtelivat 0,9971:stä 0,9985:een 30 eniten edustetun maamerkinnän osalta. Pitkä häntä 97 lisämerkinnästä (yhteensä ≈7 300 tapausta) ei osoittanut systemaattista heikkenemistä. Tapauksien määrän perusteella yleisimmät maamerkinnät olivat Yhdysvallat (10 500), Brasilia (9 500), Espanja (9 000), Italia (8 000), Saksa (7 800), Ranska (7 400), Portugali (5 800), Türkiye (3 400), Yhdistynyt kuningaskunta (2 900) ja Meksiko (2 500).

15 tapauksesta 100 000: kohortin kehittyminen 127 maamerkinnällä

Alkuperäinen V11:n tapauspaneeli kattoi seitsemän erikoisalaa — hematologia, endokrinologia, metabolinen lääketiede, hepatologia, nefrologia, kardiologia, reumatologia — sekä kaksi erillistä hyperdiagnostiikan ansatapausta, ja jokainen tapaus oli synteettisesti tuotettu verikoe-paneeli. V11:n toinen päivitys laajentaa arvioinnin 100 000 synteettiseen tapaukseen 127 maamerkinnällä, jaettuna kahdeksaan erikoisalaan (alkuperäiset seitsemän plus erillinen sisätautien “bucket”, joka kattaa trap-alajoukon). Sama pisteytyksen arviointikriteeristöä sovelletaan bittitarkasti identtisenä molemmissa ajoissa.

Koska kaikki tapaukset on tuotettu synteettisesti, poistettavia todellisia tunnisteita ei ole eikä mukana ole henkilötietoja. Jokaisella synteettisellä tapauksella on vertailun sisäinen tapauskoodi (BT-NNN-LABEL V11:n alkuperäisessä joukossa, vakaa case_uid toisessa päivityksessä). Julkaistussa arviointikehyksessä, teknisessä raportissa tai julkaistuissa aineistoissa ei esiinny henkilötietoja missään.

V11:n alkuperäisen julkaisun mukaisesti — 15 käsin kuratoitua tapausta

Alkuperäisen V11-tapauspaneelin valitsi käsin tohtori Thomas Klein, jotta se harjoittaisi diagnostisia malleja, joita laboratoriolääketieteen avustajat tulkitsevat useimmin väärin. Jokainen viidestätoista tapauksesta valittiin tietyn diagnostisen ominaisuuden perusteella, ja ne on lueteltu alla.

Hematologia (3) BT-001, BT-006, BT-007 Raudanpuuteanemia · B12-vitamiinin puute · Pieni beeta-talassemia

Endokrinologia (3) BT-002, BT-008, BT-012 Hashimoton kilpirauhastulehdus · PCOS ja insuliiniresistenssi · Vaikea D-vitamiinin puute

Metabolinen (2) BT-003, BT-013 T2DM ja metabolinen oireyhtymä · Hyperurikemia ja kihtiriski

Hepatologia (2) BT-004, BT-009 NAFLD / NASH · Akuutti virushepatiitti

Nefrologia · Kardiologia · Reumatologia (3) BT-005, BT-010, BT-011 CKD-vaihe 3 · Aterogeeninen dyslipidemia · Systeeminen lupus erythematosus

Ansatapaukset (2) BT-014, BT-015 Gilbertin oireyhtymä (eristetty epäsuoran bilirubiinin suureneminen) · Täysin normaali aikuisten seulonta

Miksi juuri tämä jakauma

Hematologia saa kolme tapausta, koska mikrosyyttiset erotusdiagnoosit ja makrosyyttiset erotusdiagnoosit ovat suurimman volyymin “ansakuoppia” käytännön laboratoriotyössä. Endokrinologia saa kolme, koska Hashimoton, PCOS:n ja D-vitamiinin puutteen esitystavat harjoittavat erilaisia diagnostisia muotoja (vasta-ainevälitteinen, hormonisuhdevälitteinen, yksittäisen merkkiaineen välitteinen). Yksittäistapaus-erikoisalat ovat silti merkityksellisiä, koska jokaisella CKD:llä, ASCVD-riskillä ja SLE:llä on oma pisteytysjärjestelmänsä, jonka moottorin tulee kutsua (KDIGO-luokittelu, ASCVD 10 vuoden riski, 2019 EULAR/ACR SLE-kriteerit vastaavasti).

V11 toinen päivitys — 100 000 synteettistä tapausta 127 maamerkinnällä

Toinen päivitys korvaa alkuperäisen V11:n kovakoodatun 15 tapauksen Python-literaalin suuremmalla, ohjelmallisesti tuotetulla synteettisellä tapausjoukolla. Tapausjoukko ladataan jokaisen ajon alussa, ja konfiguraatio kirjataan läpinäkyvyyden vuoksi. Kohortin jakauma sisältöalueittain on esitetty alla.

Endokrinologia 23 900 tapausta (23,9%) Kilpirauhanen, PCOS, D-vitamiini, sukurauhasten akseli, aivolisäke

Aineenvaihduntalääketiede 21 900 tapausta (21,9%) T2DM, metabolinen oireyhtymä, lipidipaneelit, hyperurikemia

Hematologia 15 400 tapausta (15,4%) Mikrosyyttiset ja makrosyyttiset erotusdiagnoosit, B12/folaatit, rautatutkimukset

Hepatologia 12 400 tapausta (12,4%) NAFLD/NASH, virushepatiitti, FIB-4, kolestaasi

Sisätaudit (sis. trap-alajoukon) 9 000 tapausta (9,0%) Sekamuotoiset esitykset ja 8 723 omistettua hyperdiagnostiikan trap-tapausta

Kardiologia 7 500 tapausta (7,5%) ASCVD-riski, aterogeeninen dyslipidemia, hs-CRP

Reumatologia 6 000 tapausta (6,0%) SLE, RA, vaskuliitti, autoantivasta-ainepaneelit (EULAR/ACR-kriteerit)

Nefrologia 4 000 tapausta (4,0%) CKD-vaiheistus (KDIGO), eGFR-trendit, elektrolyyttihäiriö

Synteettinen maamerkintäjakauma — 10 eniten käytettyä merkintää

100 000 synteettisellä tapauksella on 127 maamerkintää (ISO 3166-1 alpha-2), jotta paikallisasetusten käsittelyä voidaan testata. Merkintöjen määritys: Eurooppa 57,7%, Amerikat 25,4%, Aasia–Tyynimeri 6,2%, nimetyt Lähi-itä/Afrikka-merkinnät 3,4% ja pitkä häntä 97 lisämerkinnästä yhteensä noin 7,3%. Kymmenen yleisintä maamerkintää tapausmäärän perusteella ovat Yhdysvallat (10 500), Brasilia (9 500), Espanja (9 000), Italia (8 000), Saksa (7 800), Ranska (7 400), Portugali (5 800), Türkiye (3 400), Yhdistynyt kuningaskunta (2 900) ja Meksiko (2 500). Maakohtaiset yhdistetyt pistemäärät vaihtelivat 0,9971:stä 0,9985:een. Nämä maamerkintä-määrät ovat tuotettujen tapausten ominaisuuksia, joita käytetään paikallisasetusten käsittelyn testaamiseen — ne eivät ole todellisia käyttäjiä eivätkä todellista maantieteellistä kattavuutta.

Ennakkoon rekisteröidyn arviointikriteeristön selitys

Rekisteröinti etukäteen on tämän vertailun tärkein metodologinen valinta. Jokainen odotettu diagnoosi, jokainen kliininen pisteytysjärjestelmä ja jokainen raporttiosio sitoutettiin lähdekoodiin ennen kuin moottoria kutsuttiin. Rubriikin jälkikäteinen hienosäätö moottorin miellyttämiseksi ei siis ole mahdollista.

Koostepisteet muodostuvat kolmesta osasta. Rakenteellinen osa muodostaa 35 prosenttia ja mittaa, palauttiko moottori seitsemän pakollista raporttiosiota (otsikko, yhteenveto, keskeiset löydökset, erotusdiagnoosi, pisteytysjärjestelmät, suositukset, jatkoseuranta) sekä niiden sisällä olevat kuusitoista pakollista alalukua. Osioiden olemassaolo painottaa 40 prosenttia ja alalukujen olemassaolo 60 prosenttia rakenteellisessa laskennassa. Kliininen osa.

The muodostaa 55 prosenttia ja yhdistää kolme asiaa: diagnoosiavaintunnisteiden muistaminen (70 prosenttia kliinisen osapistemäärän osuudesta), pisteytysjärjestelmän muistaminen (20 prosenttia — laskeeko moottori Mentzerin, FIB-4:n, HOMA-IR:n, ASCVD-riskin, KDIGO-luokituksen, EULAR/ACR-kriteerit tarvittaessa) sekä todennäköisyyksien summan validointitarkistus (10 prosenttia — erotusdiagnoosien todennäköisyyksien summan tulee osua välille [90, 110]). Ansakuopatapauksissa vähennetään lisäksi eksplisiittinen hyperdiagnosointirangaistus enintään 0.30, laskettuna 0.10 per keksitty patologialippu, enintään kolme lippua. Viiveosa.

The muodostaa 10 prosenttia. Vastaus alle 20 sekunnissa saa täyden 0.10:n, alle 40 sekunnissa 0.05:n ja kaikki sitä hitaammat saavat nollan. 20 sekunnin tavoite heijastaa tuotannon primary-path-palvelutason tavoitetta; 40 sekunnin yläraja heijastaa Vaiheen 2 varabudjettia raskaammille moottorin kutsuille. Testauskehikko ajossa. Jokainen tapaus renderöidään A4-PDF:ksi, lähetetään tuotannon v11-päätepisteeseen ja pisteytetään jäädytettyä rubriikkia vasten. Jokainen raakavastaus tallennetaan yhdessä yhteenvedon pistetaulukon kanssa.

Ensimmäisen osapuolen vertailut ovat tunnettuja omien lukujensa puhaltamisesta puhtaasti jälkikäteisellä rubriikin hienosäädöllä. Kaava on lähes aina sama: tiimi ajaa moottorin, näkee missä se alisuoriutuu, ja säätää sitten hiljaa rubriikkia niin, että alisuoriutuvat alueet painavat vähemmän. Kun rubriikki sitoutetaan lähdekoodiin ennen ensimmäistä moottorin kutsua ja testauskehikko julkaistaan MIT-lisenssillä, tämä säätö tulee näkyväksi versionhallinnassa. Kuka tahansa voi kloonata repositorion, tarkistaa rubriikin tekijöiden päivämäärät ja varmistaa, ettei moottorin tuloksia käytetty pisteytyksen muotoiluun.

Patologian aggressiivinen ylikutsuminen normaalin näytön perusteella on dokumentoitu virhemuoto kuluttajille suunnatuissa lääketieteellisissä avustajissa. Sen jatkovaikutusten kustannuksia ovat tarpeeton tutkiminen, potilaan ahdistus ja iatrogeeninen jatkoselvittely. Tämän vertailun kaksi ansakuopatapausta on suunniteltu tekemään tämä virhemuoto näkyväksi ja pisteytettäväksi.

Hyperdiagnostiikan ansat — miksi ylikutsuminen on todellinen epäonnistumismoodi

Ansakuopatapausten suunnittelu. Moottori, joka nimeää luottavaisesti Gilbertin oireyhtymän hepatiitiksi tai joka valmistaa rajatapauksen patologian täysin normaalille näytölle, saa rangaistuksen — ei palkintoa siitä, että se kuulostaa kliiniseltä.

Esitystapa.

Gilbertin oireyhtymä — hyvänlaatuinen UGT1A1-polymorfismi. Tulkinta ei saa kutsua hepatiittia, kirroosia, hemolyyttistä anemiaa tai sappitiehyen ahtaumaa. V11-tulos.

Kooste 1.000. Yksikään kuudesta seurannassa olleesta ylikäytön (over-diagnosis) lipusta ei ilmestynyt aktiivisiksi diagnooseiksi. 🟡 Ansakuoppa 2 — BT-015-HEALTHY.

35-vuotias nainen, jossa on viisitoista parametria sisältävä rutiininomainen seulontapaneeli. Jokainen analyytti on mukavasti viitearvojensa sisällä.

24-vuotias mies, jonka kokonaisbilirubiini on 2.4 mg/dL. Suora fraktio on normaali, transaminaasit ja alkalinen fosfataasi ovat viitearvojensa sisällä, retikulosyytit ovat tavanomaisia, ja haptoglobiini sekä LDH sulkevat pois hemolyysin. A 35-year-old female with a fifteen-parameter routine screening panel. Every analyte sits comfortably inside its reference range.

Gilbertin oireyhtymä — hyvänlaatuinen UGT1A1-polymorfismi. Tulkinta ei saa kutsua hepatiittia, kirroosia, hemolyyttistä anemiaa tai sappitiehyen ahtaumaa. Vakuuttelua ja elämäntapojen ylläpitoa. Tulkinnoissa ei pidä keksiä rajatapauksia, jotta ne kuulostaisivat kliinisesti hyödyllisiltä.

Kooste 1.000. Yksikään kuudesta seurannassa olleesta ylikäytön (over-diagnosis) lipusta ei ilmestynyt aktiivisiksi diagnooseiksi. Koostepistemäärä 1.000. Yksikään seitsemästä seurannassa olleesta yliarvioinnin hälytyslipusta — diabetes, anemia, hypotyreoosi, dyslipidemia, hepatiitti, munuaissairaus, puutostila — ei ilmennyt aktiivisina diagnooseina.

Molemmissa testeissä tarkistettiin kolmetoista seurattua hyperdiagnostiikan hälytyslippua. Yhtään ei laukaistu. Tämä on tulos, joka merkitsee eniten jokaiselle kliinikolle, joka harkitsee tekoälymoottorin käyttöä triage- tai esitietotyökaluna: järjestelmä ei keksinyt sairautta, jos sellaista ei ollut.

Mentzer-indeksi: raudanpuutteen erottaminen talassemian kantajuudesta

Toinen korkean arvon havainto koskee tapausten paritusta: tapaus BT-001 (raudanpuuteanemia) yhdessä tapauksen BT-007 (beeta-talassemia minor). Molemmissa esiintyy mikrosytoosi, ja se on hyvin tunnettu kompastuskivi naiiveille luokittelijoille. Mentzer-indeksi, joka lasketaan jakamalla MCV punasolujen (RBC) määrällä, on yli 13 raudanpuutteessa ja alle 13 talassemian piirteessä.

BT-001:ssä potilas oli 34-vuotias nainen, jonka hemoglobiini oli 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritiini 6 ng/mL ja TIBC koholla. Mentzer-indeksi noin 17,7 tukee absoluuttista raudanpuutetta. BT-007:ssä potilas oli 28-vuotias mies, jolla oli mikrosytoosi (MCV 65,8 fL), mutta korkea RBC-määrä 6,2, normaali RDW, normaali ferritiini ja HbA2 5,6 prosenttia. Mentzer-indeksi noin 10,6 viittaa talassemian piirteeseen, ja kohonnut HbA2 vahvistaa beeta-talassemia minorin.

Raudanpuuteanemia Mentzer > 13 Matala ferritiini, matala TSAT, korkea TIBC, kohonnut RDW

Talassemian piirre Mentzer < 13 Normaali ferritiini, normaali RDW, kohonnut HbA2 (>3.5%), korkea RBC-määrä

Molemmat tapaukset saivat 1.000 pistettä. Moottori käytti Mentzer-indeksiä nimenomaisesti molemmissa tulkinnoissa ja palautti oikean diagnoosin jokaisessa tapauksessa. Tämä on koko vertailuaineiston kliinisesti kaikkein vakuuttavin yksittäinen tulos, koska talassemian piirteen virheluokittelu raudanpuutteeksi johtaa sopimattomaan rautalisään ja perheen seulontamahdollisuuksien väliin jäämiseen, ja raudanpuutteen virheluokittelu talassemian piirteeksi viivästyttää yksinkertaista korvaushoitoa. Meidän ferritiinialueen ohjeistus selittää laajemman erotusdiagnostiikan kontekstin.

Tapauskohtaiset tulokset V11:n alkuperäisestä vertailuajosta (23. huhtikuuta 2026)

Alkuperäinen V11-vertailuajo 15-tapauksen proof-of-concept -kohortissa toimii metodologisena perustana Second Update -päivitykselle: jokainen alla oleva tapauskohtainen yksityiskohta havainnollistaa, miten arviointikriteeristö käsittelee todellisen moottorin vastauksen. Kaksitoista viidestätoista tapauksesta saavutti ensisijaisella polulla enimmäisyhdistelmäpistemäärän 1.000; kolme tapausta käsiteltiin Phase 2 -varamenettelyllä, jolloin menetettiin 0.05 latenssibonus mutta säilytettiin kaikki kliiniset ja rakenteelliset sisällöt. Yhdestä tapauksesta puuttui yksi yksittäinen pakollinen alaluku; yksi palautti vain hieman pienemmän todennäköisyysjakauman summan.

Tapaus-ID Erikoisala Yhdistetty Viive Polku

BT-001-IDAHematologia1.00017.8 sensisijainen

BT-006-B12Hematologia1.00018,4 sensisijainen

BT-007-THALHematologia1.00017,0 sensisijainen

BT-002-HASHEndokrinologia0.95037,0 svaravaihtoehto

BT-008-PCOSEndokrinologia0.98718,6 sensisijainen

BT-003-T2DMAineenvaihdunta1.00019,1 sensisijainen

BT-013-GOUTAineenvaihdunta1.00019,4 sensisijainen

BT-004-NAFLDHepatologia1.00019,6 sensisijainen

BT-009-VIRHEPHepatologia0.95023,4 svaravaihtoehto

BT-014-GILBERTAnsarauta1.00018,9 sensisijainen

BT-005-CKDNefrologia1.00017,4 sensisijainen

BT-010-ASCVDKardiologia1.00019,7 sensisijainen

BT-011-SLEReumatologia0.98118,2 sensisijainen

BT-012-VITDEndokrinologia1.00019,3 sensisijainen

BT-015-HEALTHYAnsarauta1.00018,7 svaravaihtoehto

PCOS-tapaus (BT-008) menetti yhden pakollisen alaluvun vastausrakenteesta — viisitoista kuudestatoista eikä kuusitoista kuudestatoista — mikä leikkasi rakenteellisen pistemäärän arvosta 1,000 arvoon 0,963. SLE-tapaus (BT-011) palautti marginaalisesti pienentyneen todennäköisyysjakauman summan, joka laski kliinisen pistemäärän arvoon 0,965 säilyttäen samalla kaikki diagnostiset avainsanat ja pisteytysjärjestelmän. Kumpikaan alle täydellinen tapaus ei missannut oikeaa diagnoosia.

V11 Second Update -yhteenveto — 100,000 tapausta

Väestötasolla yksittäiset tapausrivit eivät ole ihmisen luettavissa, joten toinen päivitys raportoi yhteenlaskettuja tunnuslukuja eikä 100 000 rivin taulukkoa. Pääasiallinen yhteenveto on esitetty alla; erikoisaloittaiset ja maakohtaiset erittelyt julkaistaan teknisessä raportissa ja Figshare-tallenteessa. Kerrostettu satunnaisotos n = 201 raakoja moottorivastauksia (deterministinen siemen 20260426) julkaistaan GitHubissa results/ tarkastelua varten.

Yhdistelmäpistemäärä V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 100,000-tapauksen kohortin yli

Rakenteellinen pistemäärä (keskiarvo) V11 initial: 0.998 → Second Update: 1.000 Täydellinen rakenteellinen vaatimustenmukaisuus väestötasolla

Kliininen pistemäärä (keskiarvo) V11 initial: 0.998 → Second Update: 0.996 −0.002; mikään tapaus ei missannut itse diagnoosia

Viive — keskiarvo (vaihteluväli) V11 aloitus: 20,17 s (17,0–37,0 s) → Toinen päivitys: 13,26 s (9,0–16,94 s) Tuotantomoottorin optimoinnit ajokertojen välillä

Moottoripolku = ensisijainen V11 aloitus: 12 / 15 → Toinen päivitys: 100,000 / 100,000 Vaihe 2 -varasuunnitelmaa ei tarvittu missään vaiheessa ajon aikana

Loukku-alijoukon hyperdiagnostiikan liput V11 aloitus: 0 / 13 → Toinen päivitys: 0 / 87,412 Ei yhtään vääriä positiivisia väestötasolla (8 723 loukkutapausta seurannassa)

Mitä otsikkopisteet eivät kerro meille

Yhdistetty pistemäärä 99,80 prosenttia tässä tietyssä ennalta rekisteröidyssä arviointikriteeristössä, 100 000 tapauksen synteettisessä kohortissa, joka kattaa 127 maamerkintää, vastaa lähes katon suorituskykyä — mutta se ansaitsee huolellisen kehystämisen. Tuloksessa kuvataan moottorin käyttäytymistä arviointikriteeristön suhteen, johon sitouduimme V11:n lähdekoodissa; se ei ole yleismaailmallinen väite moottorin oikeellisuudesta jokaisessa olemassa olevassa verikoe-paneelissa luonnossa.

Pistemäärä kertoo, että moottori käsitteli tämän arvioinnin valitut diagnostiset mallit oikein väestötason kohortissa menetelmällä, joka on julkaistu ja toistettavissa. Se ei sano, että moottori on oikein jokaisessa olemassa olevassa verikoepaneelissa luonnossa. Se ei sano, että moottorin pitäisi korvata kliinikon harkinta. Eikä se sano, että moottori on parempi kuin vaihtoehtoiset tekoälyjärjestelmät — vertailuanalyysit muihin moottoreihin rajattiin tarkoituksella tämän raportin ulkopuolelle.

Se, mitä pistemäärä kuitenkin osoittaa, on lähtötaso. Kun arviointikehys ja testausympäristö ovat julkisia, moottorin tulevia versioita voidaan arvioida samaa arviointikehystä vasten — sovellettuna V11 aloituksen 15 tapaukseen, Toisen päivityksen 100 000 tapauksen kohorttiin tai mihin tahansa myöhempään laajennukseen — ja ero julkaistun pistemäärän ja minkä tahansa myöhemmän ajon välillä on itsessään mitattavissa. Tämä on etukäteisrekisteröinnin arvo: se muuttaa suoritusväitteet testattaviksi väitteiksi.

Näin toistat tämän vertailun 10 minuutissa

Toistettavuus edellyttää vain Kantesti API-tunnisteparia ja Python 3.10 tai uudemman ympäristön, jossa on requests ja reportlab kirjastot asennettuna. Koko testialusta on yksi itsenäinen Python-moduuli, joka julkaistaan MIT-lisenssillä.

💻 GitHub MIT-lisensoitu testialusta · raavastaukset · referenssajo 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanoninen akateeminen tietue 🎓 ResearchGate Julkaisu 404175463 · V11 Second Update · academic discovery layer 📄 Academia.edu Artikkeli 165956808 · V11 Second Update · academic discovery layer

Neljä vaihetta uuteen ajoon

Yksi. Kloonaa repositorio: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Kaksi. Asenna riippuvuudet komennolla pip install -r requirements.txt (Second Update lisää mysql-connector-python ≥ 8.0 SQL-tapauslataajaa varten). Kolme. Aseta KANTESTI_USERNAME ja KANTESTI_PASSWORD moottorin API:n ympäristömuuttujina. Toisen päivityksen SQL-tapauslataajaa varten aseta lisäksi KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USERja KANTESTI_DB_PASSWORD — lataaja muodostaa yhteyden vain luku -roolin kautta (bench_reader) jolla ei ole käyttöoikeuksia tunnistustaulujen tunnistamiseen. Neljä. Suorita python benchmark_bloodtest.py --limit 100000 koko Second-Update-ajon ajaksi, tai python benchmark_bloodtest.py --limit 1000 nopeaa iterointia varten. Tulokset tallentuvat osoitteeseen ./benchmark_results/: CSV-tuloskortti, jossa on maakohtaiset ja erikoisalakohtaiset sarakkeet, JSON-kooste, stratifioidun satunnaisotoksen raaka-vastausotos ja Markdown-raportti.

Viiteajot 23. huhtikuuta 2026 (V11 alkuperäinen, 15 tapausta) ja 26. huhtikuuta 2026 (V11 Second Update, 100,000 tapausta) on säilytetty results/ arkistossa. Uusi ajo tuottaa uuden aikaleimalla varustetun pistekortin muuttamatta viiteajoja. Jos ajosi tuottaa merkittävästi erilaisen tuloksen, avaa GitHub-issue ajon aikaleimalla ja moottorin versiolla, joka palautuu vastauksen metatiedoissa.

Rajoitukset ja jatkotyö

Vaikka tapauksia on 100 000 ja maakohtaisia tunnisteita 127, neljä rajoitusta ansaitsee nimenomaisen tunnustuksen: pitkän hännän tunnisteiden alinäytteistys, kertaluonteinen arviointi, yhden moottorin laajuus ja yhden lähdeaineiston alkuperä. Näitä käsitellään parhaillaan jatkuvissa jatkotöissä.

Pitkän hännän tunnisteiden kattavuus. Toinen päivitys kattaa 127 maakohtaista tunnistetta, mutta jakauma on epätasapainoinen — 10 eniten esiintyvää tunnistetta muodostavat ≈66.4% tapauksista, ja pitkän hännän 97 muun tunnisteen osuus on yhdessä ≈7.3% (noin 7 300 tapausta yhteensä, ~75 tapausta tunnistetta kohti keskimäärin). Siksi tämän pitkän hännän tunnistekohtaiset yhdistelmät ovat kohinaisempia kuin otsikkoluvut antavat ymmärtää. Tulevat ajot tasapainottavat tunnisteiden kohdistusta, jotta tunnistekohtaiset arviot tarkentuvat.

Kertaluonteinen arviointi. Jokainen kohortin tapaus arvioitiin kerran. Suuret kielimallit osoittavat ei-triviaalia tuotoksen vaihtelua jo pienellä otantatempolla, joten moniajo-protokolla, jossa on viisi arviointia per tapaus ja raportoitu vaihtelu, on luonnollinen seuraava askel — erityisesti trap-case-alijoukossa, jossa johdonmukaisuus otantajitterin suhteen on osa turvallisuusväitettä.

Yhden moottorin laajuus. Tämä raportti kuvaa yhden moottorin. Vertailuanalyysit vaihtoehtoisia tekoälyjärjestelmiä vastaan eivät kuulu tämän raportin piiriin; voimme toteuttaa ne erillisenä itsenäisenä tutkimuksena asianmukaisella menetelmällä samaa MIT-lisensoitua testikehystä vasten.

Synteettinen data. 100 000 tapausta on synteettisesti generoituja, ei synteettisiä tapauksia, ja tulokset eivät siirry todellisen maailman kliiniseen suorituskykyyn. Arviointi todellisella, suostumukseen perustuvalla, ulkopuolisesti hankitulla aineistolla edellyttäisi asianmukaista eettistä valvontaa, eikä se kuulu tämän synteettisen vertailuarvion piiriin.

Näiden neljän lisäksi merkittävin suunniteltu laajennus on monikielinen yhdenmukaisuus per lainkäyttöalue. Kantesti AI Engine palvelee käyttäjiä 75+ kielellä, ja ajamalla kielikohtaisia Second-Update-alikohortteja (turkki, saksa, espanja, ranska, italia, portugali, arabia, mandariinikiina) mitataan tuotoksen laatua moottorin tukemissa kielissä. Jokainen kielikohtainen analyysi julkaistaan omalla DOI:lla ja testikehyshaaralla.

Kokeile samaa moottoria, joka saavutti 99.80% yhdistelmäpistemäärän 100,000 tapauksessa

Lataa oma verikoeanalyysipaneelisi samaan tuotantopäätepisteeseen, jota tässä vertailussa arvioitiin. Yli 2 miljoonaa käyttäjää maailmanlaajuisesti käyttää Kantesti AI Engine -järjestelmää tulkitsemaan yli 15 000 biomarkkeria 75+ kielellä.

🔬 Kokeile ilmaista demoa

Chrome-laajennus App Store Google Play

📚 Näin viittaat tähän vertailuun

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Technical Report V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Ulkoiset menetelmäviitteet

Mentzer, W. C. (1973). Raudanpuutteen erottaminen talassemiaominaisuudesta. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 European League Against Rheumatism / American College of Rheumatology -luokittelukriteerit systeemiselle lupus erythematosukselle. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI-koodi 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Lääketieteen alan hallusinaatiotesti suurille kielimalleille. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Yhdistetty pistemäärä

100,000Tapaukset, joille annettiin pisteet

127Katetut maakohtaiset tunnisteet

0 / 87,412Loukun virheelliset positiiviset

Usein kysytyt kysymykset

Kuinka tarkka Kantesti AI -moottori on synteettisissä testitapauksissa?

Ennalta rekisteröidyllä arviointirungolla, joka ajettiin 100 000 synteettisesti generoituun testitapaukseen kahdeksalla sisältöalueella ja 127 maakohtaisella tunnisteella (V11 Second Update), moottori saavutti yhdistelmäpistemäärän 99,80 prosenttia, eikä hyperdiagnostiikan hälytyksiä ollut lainkaan 87 412 seuratussa ansa-tapauksessa, ja keskimääräinen vasteviive oli 13,26 sekuntia. Tämä yhdistelmä mittaa tuotoksen yhdenmukaisuutta synteettisillä syötteillä, ei diagnostista tarkkuutta. Alkuperäinen V11-julkaisu käytti samaa arviointirunkoa 15 käsin rakennetussa tapauksessa (yhdistelmä 99.12%); Toinen päivitys pitää arviointirungon bittitarkasti samana ja laajentaa sen suurempaan synteettiseen kohorttiin. Koko tuloskortti on julkaistu Figsharressa DOI:lla 10.6084/m9.figshare.32095435 ja GitHubissa MIT-lisenssillä.

Onko Kantesti AI-moottori kliinisesti validoitu?

Ei. Moottoria on arvioitu automaattisella teknisellä vertailuarviolla (ei kliininen validointi) ennalta määritellyllä arviointirungolla, joka lukittiin lähdekoodiin ennen V11:n ensimmäistä ajoa ja pidettiin bittitarkasti samana V11 Second Update -päivityksessä, arvioituna 100 000 synteettisellä verikoe-tapauksella hematologiassa, endokrinologiassa, metabolisessa lääketieteessä, hepatologiassa, nefrologiassa, kardiologiassa, reumatologiassa ja sisätautien hoidossa, jotka on poimittu 127 maakohtaisesta tunnisteesta. Kliininen valvonta oli tohtori Thomas Kleinilla, MD (ORCID 0009-0009-1490-1321), hallituksen sertifioima kliininen hematologi ja Chief Medical Officer Kantesti AI:ssa.

Mikä on hyperdiagnostiikkaloukku-tapaus?

Hyperdiagnostiikkaloukku (hyperdiagnosis trap) -tapaus on kliininen tilanne, joka on suunniteltu nimenomaan havaitsemaan yli-diagnosointikäyttäytymistä tekoälymoottoreissa. V11:n ensimmäinen vertailuarviointi käytti kahta tällaista tapausta metodologisena proof-of-conceptina: eristettyä epäsuoraa hyperbilirubinemiaa, joka sopii Gilbertin oireyhtymään (jossa oikea tulkinta on hyvänlaatuinen UGT1A1-polymorfismi eikä hepatiitti tai hemolyysi), sekä täysin normaalia aikuisten seulontapaneelia (jossa oikea lopputulos on rauhoittava arvio eikä valmisteltu rajatapauspatologia). V11:n toinen päivitys skaalasi tämän loukkutapausmenetelmän omistetulle 8 723 tapauksen osajoukolle, jolloin syntyi 87 412 seurattua hyperdiagnostiikkalipun mahdollisuutta — ja moottorin väärien positiivisten osuus pysyi nollassa.

Onko Kantesti AI-moottorin arviointi toistettavissa?

Koko arviointikehikko julkaistaan MIT-lisenssillä yhtenä itsenäisenä Python-moduulina. V11:n ensimmäinen ajo vaatii vain Kantesti API -tunnisteparin ja Python 3.10:n tai uudemman. V11:n toinen päivitys lisää parametrisoidun, vain luku -SQL-tapauslataajan, joka vaatii Kantesti kliinisen arkiston tunnistetiedot (rooli, jolla ei ole oikeuksia tunnistaa tauluja). bench_reader ). Koodi, tapauslataajan SQL, rubriikki (tavuidenttinen julkaisujen välillä) sekä ositettu satunnaisotos raakoja moottorin vasteita sekä V11:n ensimmäisestä ajosta että toisen päivityksen vertailuajoista ovat saatavilla osoitteessa github.com/emirhanai/kantesti-blood-test-benchmark ja peilattuna Figsharissa, Researchgatessa ja Academia.edu:ssa.

Miten Kantesti:n tekoälymoottori erottaa raudanpuutteen beeta-talassemian kantajuudesta?

Moottori soveltaa Mentzer-indeksiä, joka lasketaan jakamalla keskimääräinen punasolutilavuus punasolujen määrällä. Mentzer-indeksi yli 13 tukee raudanpuuteanemiaa, kun taas arvo alle 13 tukee beeta-talassemian piirretta. V11:n ensimmäisessä vertailuarvioinnissa molemmat esitystavat luokiteltiin oikein nimenomaisella Mentzer-indeksin laskennalla, jota tukivat ferritiini, RDW ja HbA2 -konteksti. V11:n toisen päivityksen 100 000 tapauksen kohortissa sama erottelukäyttäytyminen säilyi väestötasolla.

Mistä löydän raakadatan vertailuarvot ja lähdekoodin?

Tekninen raportti on talletettu Figshariin DOI:lla 10.6084/m9.figshare.32095435 (kattaen sekä V11:n ensimmäisen julkaisun että V11:n toisen päivityksen), peilattuna ResearchGaten julkaisuun 404175463 ja Academia.edu:n artikkeliin 165956808 — molemmat päivitetty V11:n toisen päivityksen otsikolla ja 100 000 tapauksen tuloksilla — ja MIT-lisensoidulla Python-kehikolla, jossa on kaikki vertailuajoihin liittyvät tulokset, osoitteessa github.com/emirhanai/kantesti-blood-test-benchmark. Neljän alustan peiliverkosto varmistaa pitkäaikaisen saatavuuden ja viittausteknisen joustavuuden.

Miksi ennakkorekisteröinti on tärkeää tekoälylääketieteen vertailuarvioinneissa?

Ennakkorekisteröinti estää jälkikäteen tehtävän arviointikriteeristön hienosäädön, joka on yritysvetoisten vertailuarviointien yleisin tapa kasvattaa omia lukujaan. Kun arviointikriteeristö sitoutetaan lähdekoodiin ennen jokaista moottorikutsua ja kehikko julkaistaan julkisesti, arviointikriteeristön laatijan päivämäärät ovat tarkastettavissa versionhallinnassa, eikä moottorin tulokset voi olla muokannut pisteytyksen kriteerejä.

Sisältääkö tämä vertailuarviointi vertailuja muihin tekoälymoottoreihin?

Ei. V11-raportti — sekä ensimmäinen julkaisu että toinen päivitys — kuvaa tarkoituksella yhden moottorin kiinteää rubriikkia vasten eikä aseta sitä vastakkain vaihtoehtoisten kaupallisten järjestelmien kanssa. Kehikko on avointa lähdekoodia MIT-lisenssillä (nyt mukaan lukien SQL-tapauslataaja), joten riippumattomat tutkijat voivat arvioida minkä tahansa moottorin, jonka he valitsevat, samaa rubriikkia ja tapauslataajaa vasten ja julkaista tuloksensa.

Ovatko potilastapaukset todellisia vai synteettisiä?

Kaikki tapaukset on generoitu synteettisesti — 15 käsin rakennetussa tapauksessa V11:n alkuperäisessä julkaisussa ja 100 000 tapauksessa Toisessa päivityksessä. Ne eivät ole synteettisiä tapauksia: mukana ei ole synteettistä dataa, suostumusprosessia eikä anonymisointia, koska kohortissa ei ole henkilötietoja. Julkaistussa vertailuympäristössä, teknisessä raportissa tai julkaistuissa aineistoissa ei esiinny henkilötietoja.

⚕️ Lääketieteellinen vastuuvapauslauseke & eturistiriita

Tämä vertailumittausraportti on tarkoitettu tutkimus- ja metodologisen läpinäkyvyyden vuoksi. Se ei ole lääketieteellinen neuvonta, ei diagnoosi eikä korvaa ammatillista terveydenhuoltoa; mitään tulosta tässä ei pidä käyttää viivyttämään tai välttämään lääkärin vastaanotolle hakeutumista. Ota aina yhteyttä pätevään terveydenhuollon ammattilaiseen diagnoosia ja hoitopäätöksiä varten. Tämä on yrityksen oman moottorin itseajettu sisäinen vertailumittaus, jota ei ole riippumattomasti validoitu tai vertaisarvioitu. Koontipistemäärä mittaa yhdenmukaisuutta kiinteän kriteeristön kanssa (raporttirakenne, avainsanojen ja pisteytysjärjestelmän palautus sekä viive); se ei ole mittari todellisen maailman diagnostisesta tarkkuudesta tai kliinisestä turvallisuudesta. Molemmat kirjoittajat ovat palveluksessa Kantesti Ltd:ssä ja omistavat osuutta yhtiössä, ja arvioitavana oleva moottori on saman organisaation kaupallinen tuote. Eturistiriita on lievennetty esirekisteröimällä kriteeristö lähdekoodiin, julkaisemalla testauskehys MIT-lisenssillä ja julkaisemalla ositettu satunnaisotos raakoja moottorin vasteita.

E-E-A-T-luottamussignaalit

⭐

Kokea

15+ vuotta kliinisen hematologian ja laboratoriolääketieteen käytännön kokemusta tapauspaneelin valinnan valvonnasta.

📋

Asiantuntemus

Ennakkorekisteröity arviointikriteeristön suunnittelu, jossa on nimenomaiset hyperdiagnostiikkarangaistukset ja tunnistetut kliiniset pisteytysjärjestelmät (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Auktoriteetti

Pääkirjoittaja tohtori Thomas Klein, MD (ORCID 0009-0009-1490-1321). Toteutus: Julian Emirhan Bulut, Kantesti Ltd:n toimitusjohtaja.

🛡️

Luotettavuus

MIT-lisenssillä julkaistu toistettava kehikko, raakamoottorin vastaukset julkaistu, avoin eturistiriitojen ilmoitus, neljän alustan tutkimuspeiliverkosto.

🏢 Kantesti Oy Rekisteröity Englannissa ja Walesissa · Yhtiön numero. 17090423 Lontoo, Yhdistynyt kuningaskunta · kantesti.net