Prečo tento benchmark existuje a čo testuje
AI asistovaná interpretácia výsledkov krvných testov sa čoraz viac používa v spotrebiteľských aj klinických pracovných postupoch, no reprodukovateľné hodnotiace rámce prispôsobené laboratórnej medicíne zostávajú nezvyčajné. Otázky, na ktorých najviac záleží v tomto kontexte, nie sú tie, ktoré pokrývajú všeobecné benchmarky pre zodpovedanie medicínskych otázok: dokáže engine oddeliť anémiu z nedostatku železa od znaku talasémie, keď je priemerný objem erytrocytov identický, prediagnostikuje Gilbertov syndróm ako hepatitídu a vytvára patológiu v úplne normálnom skríningovom paneli?
Jednotný panel krvného testu typicky obsahuje dostatok signálu na podporu viacerých konkurenčných interpretácií a úlohou lekára, ktorý výsledky vyhodnocuje, je tieto interpretácie navzájom zvážiť, nie vyhľadať „učebnicovú“ odpoveď. Stroj, ktorý si dobre poradí s príkladmi z učebníc, môže zlyhať práve v prípadoch, na ktorých najviac záleží: v úskaliach diferenciálnej diagnostiky, v neškodných variantoch, ktoré pri izolovanom pohľade vyzerajú znepokojujúco, a v úplne normálnych paneloch, ktoré zvádzajú sebavedomých asistentov k „vytváraniu“ patológie.
Tento benchmark bol postavený presne na týchto režimoch zlyhania. Každý z pätnástich prípadov bol vybraný pre konkrétnu diagnostickú vlastnosť: mikrocystóza z nedostatku železa, ktorú treba odlíšiť od znaku beta-talazémie s identickým priemerným objemom červených krviniek, prezentácia pri Gilbertovej syndróme, kde jedinou abnormalitou je izolovaná nepriamá hyperbilirubinémia, a skríningový panel s pätnástimi parametrami, v ktorom sa každý analyt nachádza v rámci referenčného rozmedzia. Rubrika odmeňuje motory, ktoré čítajú každý prípad podľa jeho vlastných podmienok, a penalizuje motory, ktoré siahajú po sebavedomej diagnóze, keď takáto diagnóza nie je opodstatnená.
Ako Thomas Klein, MD, som vybral panel prípadov, pretože práve tieto vzorce vidím, že laboratórno-medicínski asistenti najčastejšie robia zle. Drahý režim zlyhania nie je "prehliadnuť zriedkú chorobu" — je to vymýšľanie bežnej patológie u pacientov, ktorí ju nemajú. Naše Lekárske overenie hub opisuje širší rámec; táto stránka opisuje počiatočný dôkaz konceptu V11 a aktualizáciu V11 Second Update, ktorá ho rozšírila na 100 000 anonymizovaných prípadov odobratých z klinického repozitára podporovaného SQL, pokrývajúceho 127 krajín — s použitím rovnakej hodnotiacej rubriky, bajtovo identickej, bez povoleného dodatočného dolaďovania.
Najnovší referenčný beh — V11 Second Update (26. apríla 2026)
Referenčný beh V11 Second Update zo 26. apríla 2026 vygeneroval kompozitné skóre 99.80% na rovnakej vopred zaregistrovanej rubrike použitej v počiatočnom vydaní V11, vyhodnotené na 100 000 anonymizovaných prípadoch pochádzajúcich z klinického repozitára Kantesti podporovaného SQL a pokrývajúcich 127 krajinách a jazyky 75+. Každý prípad bol dokončený na primárnej ceste enginu; aktivácie príznaku hyperdiagnostiky v „trap-case“ zostali na 0 / 87,412. Pôvodný beh V11 z 23. apríla 2026 zahŕňal 15 ručne kurátorovaných prípadov (kompozit 99.12%) a overil rubriku; Second Update ponecháva túto rubriku bajtovo identickú a rozširuje vyhodnotenie na kohortu v populačnom meradle.
Kompozitný vzorec kombinuje tri zložky: štrukturálna zhoda so siedmimi povinnými sekciami správy a šestnástimi povinnými podsekciami, klinická presnosť meraná ako spätné vyvolanie kľúčových slov plus spätné vyvolanie v rámci bodovacieho systému plus kontrola platnosti pravdepodobnostno-distribučnej validity a latencia odpovede oproti cieľu úrovne služby pre primárnu cestu. Presné rozdelenie je uvedené v nižšie uvedenom vzorci rubriky — žiadna z týchto váh ani pod-rubrík sa pre Second Update nezmenila.
Zvyšných 0.20 percentuálnych bodov rezervy sa takmer celé rozkladajú do klinického podskóre — malá časť prípadov (predovšetkým v hepatológii a reumatológii) mala jeden očakávaný kľúčový výraz hodnotiaceho systému neprítomný v interpretácii enginu, hoci diagnostický obsah bol správny. Žiadny prípad v kohorte 100 000 prípadov Second Update nezmeškal samotnú diagnózu. Latencia sa zlepšila z priemeru 20.17 s v počiatočnom vydaní V11 na 13.26 s v Second Update, čo odráža optimalizácie produkčného enginu medzi oboma behmi; rubrika, kód hodnotenia a koncový bod API sa nezmenili.
Kompozitné skóre podľa krajín sa pohybovali od 0.9971 (India) po 0.9985 (Švajčiarsko) naprieč 30 najzastúpenejšími krajinami. Dlhý chvost ďalších 97 krajín (≈7 300 prípadov spolu) neukázal žiadnu systematickú degradáciu. Najväčší prispievatelia podľa počtu prípadov boli Spojené štáty (10 500), Brazília (9 500), Španielsko (9 000), Taliansko (8 000), Nemecko (7 800), Francúzsko (7 400), Portugalsko (5 800), Türkiye (3 400), Spojené kráľovstvo (2 900) a Mexiko (2 500).
Od 15 prípadov po 100 000: vývoj kohorty naprieč 127 krajinami
Pôvodný panel prípadov V11 pokrýval sedem špecializácií — hematológiu, endokrinológiu, metabolickú medicínu, hepatológiu, nefrológiu, kardiológiu, reumatológiu — plus dva vyhradené prípady „hyperdiagnosis trap“, pričom každý prípad bol anonymizovaný reálny záznam pacienta odobratý z klinických dátového repozitára Kantesti na základe písomného informovaného súhlasu. Second Update V11 rozširuje vyhodnotenie na 100 000 anonymizovaných prípadov naprieč 127 krajinami, rozdelených do ôsmich špecializácií (pôvodných sedem plus vyhradený internistický „bucket“, ktorý absorbuje podmnožinu trap). Rovnaká hodnotiaca rubrika sa uplatňuje bajtovo identicky v oboch behov.
De-identifikácia bola vykonaná podľa prístupu Safe Harbor: všetky priame identifikátory boli odstránené alebo nahradené a každý záznamu bol priradený interný kód prípadu v rámci benchmarku vo formáte BT-NNN-LABEL (počiatočné V11) alebo stabilný anonymizovaný case_uid pre Second Update. Spracovanie bolo vykonané v súlade s GDPR článkom 9(2)(j) pre vedecký výskum s primeranými ochrannými opatreniami a s ekvivalentnými ustanoveniami UK GDPR. Žiadne osobne identifikovateľné informácie sa nikde v publikovanom „harnesse“, technickej správe ani v uvoľnených dátových súboroch nevyskytujú.
počiatočným vydaním V11 — 15 ručne kurátorovaných prípadov
Pôvodný panel prípadov V11 bol ručne vybraný Dr. Thomasom Kleinom tak, aby precvičoval diagnostické vzorce, ktoré laboratórno-medicínski asistenti najčastejšie nesprávne interpretujú. Každý z pätnástich prípadov bol vybraný pre konkrétnu diagnostickú vlastnosť, uvedenú nižšie.
Prečo je toto konkrétne rozdelenie
Hematológia dostane tri prípady, pretože mikrocytárne diferenciály a makrocytárne diferenciály sú v reálnej laboratórnej praxi najobjemnejšie „pasce“. Endokrinológia dostane tri, pretože prezentácie pri Hashimotovej chorobe, PCOS a nedostatku vitamínu D majú odlišné diagnostické „tvary“ (riadené autoprotilátkami, riadené pomermi hormónov, riadené jedným markerom). Špecializácie s jedným prípadom sú však stále významné, pretože každý z CKD, rizika ASCVD a SLE má vlastný bodovací systém, ktorý by mal engine vyvolať (staging KDIGO, 10-ročné riziko ASCVD, kritériá SLE 2019 EULAR/ACR, resp.).
V11 druhá aktualizácia — 100 000 anonymizovaných prípadov v 127 krajinách
Druhá aktualizácia nahrádza pôvodný V11 hard-coded 15-prípadový Python literál parametrovateľným, iba na čítanie SQL dotazom do klinického repozitára Kantesti (anonymised_blood_panels). Dotaz filtruje na consent_research = 1 AND released_for_benchmark = 1 a je vytlačený v hornej časti každého benchmarkového spustenia kvôli transparentnosti. Rozdelenie kohorty podľa špecializácie je uvedené nižšie.
Geografické rozloženie — top 10 krajín
Kohorta pokrýva 127 krajín (ISO 3166-1 alpha-2). Európa prispieva 57.7%, Ameriku 25.4%, Ázia-Pacifik 6.2%, pomenované záznamy Blízky východ/Afrika 3.4% a dlhý chvost ďalších 97 krajín spolu približne 7.3%. Desať najväčších prispievateľov sú Spojené štáty (10,500), Brazília (9,500), Španielsko (9,000), Taliansko (8,000), Nemecko (7,800), Francúzsko (7,400), Portugalsko (5,800), Türkiye (3,400), Spojené kráľovstvo (2,900) a Mexiko (2,500). Kompozitné skóre podľa krajiny sa pohybovalo od 0.9971 (India) po 0.9985 (Švajčiarsko).
Vysvetlená vopred registrovaná rubrika
Predregistrácia je jediná najdôležitejšia metodologická voľba v tomto benchmarku. Každá očakávaná diagnóza, každý klinický bodovací systém a každá sekcia reportu boli zaviazané do zdrojového kódu ešte predtým, než bol engine vyvolaný. Dodatočné (post-hoc) doladenie rubriky tak, aby lichotila engine, je preto nemožné.
Tri komponenty tvoria kompozitné skóre. Komponent štrukturálny prispieva 35 percentami a meria, či engine vrátil sedem povinných sekcií reportu (hlavička, súhrn, kľúčové zistenia, diferenciál, bodovacie systémy, odporúčania, follow-up) a šestnásť povinných podsekcií v rámci nich. Prítomnosť sekcie má váhu 40 percent a prítomnosť podsekcie má váhu 60 percent v rámci štrukturálneho výpočtu.
Ten/Tá/To klinický komponent prispieva 55 percentami a kombinuje tri veci: vybavenie diagnózy podľa kľúčových slov (70 percent klinického podskóre), vybavenie bodovacieho systému (20 percent — či engine vypočíta Mentzer, FIB-4, HOMA-IR, riziko ASCVD, staging KDIGO, kritériá EULAR/ACR, ak je to relevantné) a kontrolu validity súčtu pravdepodobností (10 percent — diferenciálne pravdepodobnosti by sa mali sčítať v intervale [90, 110]). Pri pascových prípadoch sa odpočíta explicitná hyperdiagnostická penalizácia až 0.30, vypočítaná ako 0.10 za každý vymyslený príznak patológie, s limitom na tri príznaky.
Ten/Tá/To komponent latencie prispieva 10 percentami. Odpoveď do 20 sekúnd získa plných 0.10, odpoveď do 40 sekúnd získa 0.05 a čokoľvek pomalšie získa nulu. Cieľ 20 sekúnd odráža produkčný primárny cieľ úrovne služby; strop 40 sekúnd odráža rozpočet na záložnú možnosť v Fáze 2 pre náročné vyvolania engine.
Čo predregistrácia zabraňuje
Prvostranové benchmarky sú notoricky známe tým, že nafukujú svoje vlastné čísla prostredníctvom post-hoc doladenia rubriky. Vzor je takmer vždy rovnaký: tím spustí engine, uvidí, kde podáva slabší výkon, a potom potichu upraví rubriku tak, aby oblasti s podpriemerným výkonom počítali menej. Tým, že sa rubrika zaviaže do zdrojového kódu ešte pred prvým volaním engine a že sa testovací mechanizmus publikuje pod licenciou MIT, sa táto úprava stane viditeľnou v systéme správy verzií. Každý si môže naklonovať repozitár, skontrolovať dátumy autorstva rubriky a overiť, že výsledky engine neboli použité na formovanie skórovania.
Prípady „hyperdiagnosis trap“ — prečo je skutočným režimom zlyhania prevolanie (over-calling)
Agresívne prevolávanie patológie na normálnych obrazovkách je zdokumentovaný režim zlyhania spotrebiteľsky orientovaných medicínskych asistentov. Jeho následné náklady zahŕňajú zbytočné vyšetrovanie, úzkosť pacienta a iatrogénne vyšetrovacie postupy. Dva pascové prípady v tomto benchmarku sú navrhnuté tak, aby tento režim zlyhania bol viditeľný a hodnotiteľný.
🟡 Pasca 1 — BT-014-GILBERT
Prezentácia. Muž, 24 rokov, s celkovým bilirubínom 2.4 mg/dL. Priama frakcia je normálna, transaminázy a alkalická fosfatáza sú v rámci referenčných hodnôt, retikulocyty sú bez pozoruhodností a haptoglobín a LDH vylučujú hemolýzu.
Správna interpretácia. Gilbertov syndróm — benígna polymorfizmus UGT1A1. Interpretácia by nemala vyvolávať hepatitídu, cirhózu, hemolytickú anémiu ani biliárnu obštrukciu.
Výsledok V11. Kompozitné 1.000. Žiadna z šiestich monitorovaných vlajok pre nadmernú diagnózu sa neobjavila ako aktívna diagnóza.
🟡 Pasca 2 — BT-015-ZDRAVÝ
Prezentácia. Žena, 35 rokov, s pätnásťparametrovým rutinným skríningovým panelom. Každý analyt sa pohodlne nachádza v rámci svojho referenčného rozsahu.
Správna interpretácia. Uistenie a udržiavanie životného štýlu. Interpretácia by nemala umelo vytvárať hraničnú patológiu, aby pôsobila klinicky užitočne.
Výsledok V11. Kompozit 1.000. Žiadna z ôsmich sledovaných vlajok pre nadmernú diagnostiku — diabetes, anémia, hypotyreóza, dyslipidémia, hepatitída, ochorenie obličiek, nedostatok — sa neobjavila ako aktívna diagnóza.
Vo všetkých dvoch pasciach bolo skontrolovaných trinásť sledovaných vlajok pre hyperdiagnostiku. Neaktivovala sa ani jedna. Toto je výsledok, na ktorom najviac záleží pre každého klinika, ktorý uvažuje o použití AI ako triážneho alebo predkonzultačného nástroja: systém nevymyslel ochorenie, ak žiadne neexistovalo.
Mentzerov index: odlíšenie nedostatku železa od znaku talasémie
Druhým vysoko hodnotným zistením je prepojenie prípadu BT-001 (anémia z nedostatku železa) s prípadom BT-007 (beta-talazémia minor). Oba sa prejavujú mikrocytózou a ide o dobre známu prekážku pre naivné klasifikátory. Mentzerov index, vypočítaný ako MCV delené počtom RBC, je v prípade nedostatku železa vyšší než 13 a v prípade znaku talazémie nižší než 13.
V BT-001 bola pacientka 34-ročná žena s hemoglobínom 10,4 g/dl, MCV 72,4 fl, RBC 4,1 × 10¹²/l, feritínom 6 ng/ml a zvýšeným TIBC. Mentzerov index približne 17,7 podporuje absolútny nedostatok železa. V BT-007 bol pacient 28-ročný muž s mikrocytózou (MCV 65,8 fl), ale s vysokým počtom RBC 6,2, normálnym RDW, normálnym feritínom a HbA2 5,6 percenta. Mentzerov index približne 10,6 poukazuje na znak talazémie a zvýšený HbA2 potvrdzuje beta-talazémiu minor.
Oba prípady dosiahli skóre 1.000. Stroj použil Mentzerov index explicitne v oboch interpretáciách a v každom prípade vrátil správnu diagnózu. Toto je jediný výsledok, ktorý je v celej benchmarkovej zostave najviac klinicky upokojujúci, pretože nesprávna klasifikácia znaku talazémie ako anémie z nedostatku železa vedie k nevhodnému podávaniu železa a k prehliadnutiu možností skríningu v rodine, a nesprávna klasifikácia anémie z nedostatku železa ako talazémie oneskoruje jednoduchú náhradnú liečbu. Naše usmernenie pre rozmedzie feritínu vysvetľuje širší diferenciálny kontext.
Výsledky po jednotlivých prípadoch z počiatočného referenčného behu V11 (23. apríla 2026)
Pôvodný referenčný beh V11 na 15-prípadovej proof-of-concept kohorte slúži ako metodologický základ pre Second Update: každý detail po jednotlivých prípadoch nižšie ilustruje, ako rubrika spracuje reálnu odpoveď enginu. Dvanásť z pätnástich prípadov dosiahlo stropné kompozitné skóre 1.000 na primárnej ceste; tri prípady boli obslúžené cez fallback Phase 2, pričom sa stratila bonusová latencia 0.05, no zachoval sa celý klinický a štrukturálny obsah. Jeden prípad chýbal v jednej povinnej podsekcii; jeden vrátil len mierne znížený súčet pravdepodobnostných distribúcií.
Prípad PCOS (BT-008) stratil jednu povinnú podsekciu v štruktúre odpovede — pätnásť zo šestnástich namiesto šestnástich zo šestnástich — čo znížilo štrukturálne skóre z 1,000 na 0,963. Prípad SLE (BT-011) vrátil len mierne znížený súčet pravdepodobnostných distribúcií, ktorý znížil klinické skóre na 0,965, pričom zachoval každý diagnostický kľúčový výraz a systém bodovania. Ani jeden z týchto nie úplne dokonalých prípadov nezmeškal správnu diagnózu.
Agregát V11 Second Update — 100 000 prípadov
Vo veľkom meradle populácie nie sú jednotlivé riadky prípadov čitateľné človekom, preto Second Update uvádza agregované metriky namiesto tabuľky s 100 000 riadkami. Hlavný agregát je uvedený nižšie; rozklady podľa špecializácie a podľa krajiny sú publikované v technickej správe a v uložení na Figshare. Stratifikovaná náhodná vzorka n = 201 surových odpovedí enginu (deterministické semeno 20260426) sa publikuje v adresári GitHub results/ na účely kontroly.
Čo nám nehovorí titulné skóre
Kompozitné skóre 99,80 percenta podľa tejto konkrétnej vopred zaregistrovanej rubriky, na anonymizovanom kohorte s 100 000 prípadmi pokrývajúcej 127 krajín, predstavuje výkon takmer na úrovni stropu — no zaslúži si starostlivé zasadenie do kontextu. Výsledok opisuje správanie enginu voči rubrike, ktorú sme sa zaviazali implementovať v zdrojovom kóde v V11; nejde o univerzálne tvrdenie o správnosti enginu na každom existujúcom paneli krvných testov v reálnom svete.
Skóre hovorí, že engine správne spracoval diagnostické vzorce vybrané pre toto hodnotenie naprieč kohortou v mierke populácie, na metodológii, ktorá je publikovaná a reprodukovateľná. Nehovorí, že engine je správny na každom existujúcom paneli krvných testov v reálnom svete. Nehovorí, že by sa engine mal nahradiť klinickým úsudkom. A nehovorí, že engine prekonáva alternatívne systémy AI — porovnávacie analýzy s inými enginmi boli z tohto reportu zámerne mimo rozsahu.
To, čo skóre skutočne stanovuje, je východisková (baseline) hodnota. Keďže rubrika aj testovací nástroj (harness) sú verejné, budúce verzie enginu sa dajú hodnotiť podľa rovnakej rubriky — aplikovanej na V11 počiatočných 15 prípadov, na kohortu Druhej aktualizácie s 100 000 prípadmi, alebo na akékoľvek následné rozšírenie — a rozdiel medzi publikovaným skóre a akýmkoľvek následným spustením je sám o sebe merateľný. Toto je hodnota vopred registrácie: prevádza tvrdenia o výkone na testovateľné tvrdenia.
Ako zopakovať tento benchmark za 10 minút
Reprodukcia vyžaduje iba dvojicu poverení Kantesti API a prostredie Python 3.10 alebo novšie s requests a reportlab nainštalovanými knižnicami. Celý testovací rámec je jeden samostatný modul v Pythone vydaný pod licenciou MIT.
Štyri kroky pre nové spustenie
Jeden. Naklonujte repozitár: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dva. Nainštalujte závislosti pomocou pip install -r requirements.txt (Druhá aktualizácia pridáva mysql-connector-python ≥ 8.0 pre SQL case loader). Tri. Nastavte KANTESTI_USERNAME a KANTESTI_PASSWORD ako premenné prostredia pre API enginu. Pre SQL case loader v Druhej aktualizácii tiež nastavte KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USERa KANTESTI_DB_PASSWORD — loader sa pripája cez rolu len na čítanie (bench_reader) ktorá nemá oprávnenia na identifikáciu tabuliek. Štyri. Spustite python benchmark_bloodtest.py --limit 100000 pre celý beh Second-Update, alebo python benchmark_bloodtest.py --limit 1000 pre rýchlu iteráciu. Výstupy sa ukladajú do ./benchmark_results/: CSV scorecard s tabuľkami podľa krajiny a špecializácie, JSON agregát, stratifikovanú náhodnú vzorku pôvodných odpovedí a Markdown report.
Referenčné behy z 23. apríla 2026 (V11 počiatočná verzia, 15 prípadov) a 26. apríla 2026 (V11 Second Update, 100,000 prípadov) sú zachované v results/ adresári repozitára. Nový beh vygeneruje nový scorecard s časovou pečiatkou, pričom referenčné behy ponechá nedotknuté. Ak váš beh prinesie zmysluplne odlišný výsledok, otvorte prosím issue na GitHube s časovou pečiatkou behu a verziou enginu uvedenou v metadátach odpovede.
Obmedzenia a ďalšia práca
Aj pri 100,000 prípadoch naprieč 127 krajinami si štyri obmedzenia zaslúžia výslovné uznanie: nedostatočné vzorkovanie krajín s dlhým chvostom, jednorazové vyhodnotenie, jednorozsahový engin a jednorazový pôvod dát z jedného zdroja. Každé z nich sa rieši v prebiehajúcej následnej práci.
Pokrytie krajín s dlhým chvostom. Second Update zahŕňa 127 krajín, no rozdelenie je nevyvážené — prvých 10 prispievateľov tvorí približne 66.4% prípadov a dlhý chvost ďalších 97 krajín spolu prispieva približne 7.3% (zhruba 7,300 prípadov dohromady, v priemere ~75 prípadov na krajinu). Preto sú per-krajinné kompozity v tomto dlhom chvoste hlučnejšie, než naznačujú hlavné čísla. Budúce behy budú prednostne získavať vzorky z nedostatočne zastúpených krajín, aby sa spresnili odhady pre jednotlivé jurisdikcie.
Jednorazové vyhodnotenie. Každý prípad v kohorte bol vyhodnotený raz. Veľké jazykové modely vykazujú nezanedbateľnú variabilitu výstupu aj pri nízkej teplote vzorkovania, takže prirodzeným ďalším krokom je protokol s viacerými behmi, kde sa na každý prípad vykoná päť vyhodnotení a uvedie sa variabilita — najmä na podmnožine trap-case, kde je konzistentnosť pri jitteri vzorkovania súčasťou bezpečnostného tvrdenia.
Rozsah jedného enginu. Táto správa charakterizuje jeden engine. Porovnávacie analýzy s alternatívnymi systémami AI sú mimo rozsahu; prípadne ich môžeme realizovať ako samostatnú nezávislú štúdiu s vhodnou metodikou, proti rovnakému MIT-licencovanému harnessu.
Pôvod dát z jedného zdroja. Tých 100,000 prípadov sú anonymizované reálne záznamy pacientov získané z jedného klinického repozitára (Kantesti SQL-backed klinický dátový sklad). Predstavujú kurátovaný produkčný tok a nie sú na globálnej úrovni náhodným výberom reprezentujúcim populáciu. Rozšírenie hodnotenia na externé multi-centrové dáta je v pláne.
Okrem týchto štyroch je najvýznamnejšie plánované rozšírenie viacjazyčná parita podľa jurisdikcie. Kantesti AI Engine slúži používateľom v 75+ jazykoch a spustenie jazykovo stratifikovaných podkohort Second-Update (turečtina, nemčina, španielčina, francúzština, taliančina, portugalčina, arabčina, mandarínčina) kvantifikuje kvalitu výstupov naprieč podporovanými jazykmi enginu. Každá jazykovo stratifikovaná analýza bude publikovaná s vlastným DOI a vetvou harnessu.