Czemu istnieje ten benchmark i co sprawdza
AI wspomagane wyniki badańo krwi coraz częściej je używane w konsumenckich i klinicznych procesach, ale ramy do powtarzalnej oceny dopasowane do medycyny laboratoryjnej sōm jeszcze rzadkie. Pytania, ktōre tu sōm najważniejsze, to nie te, co je obejmujōm ogōlne benchmarki do medycznego question-answering: czy silnik potrafi rozdzielić niydobōr żelaza z cechōw talaszemii, gdy średnia objętość krwinki jest identyczna, czy przediagnozujō Gilbertowy zespōł jako zapalenie wątroby, i czy wytwarzō patologię w w pełni normalnym panelu przesiewowym?
Jedyn panel z krwi typowo zawiera dość sygnału, coby wspierać kilka konkurencyjnych interpretacyji, a robota interpretujōcego klinicynty polega na tym, żeby ważyć te interpretacyje miyndzy sobōm, a nie na tym, żeby wyciōngnōć odpowiedź jak z podręcznika. Motor, co dobrze radzi sobie z przypadkami z podręcznika, może jeszcze zawieść na tych, co majōm najwiyncy znacōnia: na pułapkach w dyferencyjnej diagnozie, na łagodnych wariantach, co w izolacyji wyglōndajōm alarmujōco, i na w pełni normalnych panelach, co kuszōm pewnych asystentōw do wytwarzania patologii.
Ten benchmark zbudowano dokłodnie na tych trybach porażki. Każdy z piyncyńcie przypadkōw wybrano za konkretnō własność diagnostycznō: mikrocitoza z niedobōru żelaza, co musi być trzymōna oddzielnie od cechy beta-talasemii z identycznym średnim objętościōm krwinki (MCV), prezentacyja w stylu zespołu Gilberta, gdzie jedynō nieprawidłowość je izolowanō podwyższonō pośrednō bilirubinō, oraz panel przesiewowy na piyncyńcie parametrōw, w którym każdy analit je w swōjōm zakresie referencyjnym. Rubryka nagradza motory, co czytōm każdy przypadek po swojich zasadach, a karze motory, co dochodzą do pewnej diagnozy tam, gdzie taka diagnoza niy je uzasadniona.
Jako Thomas Klein, MD, wybrałem panel przypadkōw, bo to są wzorce, co najczęściej myliōm asystentōw z medycyny laboratoryjnej. Kosztowny tryb porażki niy je "przecaśnōć rzadkō chorobę" — to je wytwarzanie rutynowej patologii u pacjentōw, co jej niy majōm. Nasz Walidacyjo medyczno hub opisuje szerszy ramowy system; ta strona opisuje początkowy proof-of-concept V11 i V11 Second Update, co to rozniosło na 100.000 zanonimizowanych przypadków, wziętych z klinicznego repozytorium wspieranego SQL, obejmujōcego 127 krajów — z użyciem tej samej rubryki punktacyjej, bajtowo identycznej, bez dopuszczenia dostrajania post-hoc.
Najnowszy test referencyjny — V11 Second Update (26. kwietnia 2026)
Referencyjny przebieg V11 Second Update z 26. kwietnia 2026 wytworzył złożōny wynik 99.80% na tej samej wstępnie zarejestrowanej rubryce, co w pierwotnym wydaniu V11, oceniany na 100.000 zanonimizowanych przypadków wziętych z klinicznego repozytorium wspieranego SQL Kantesti i obejmujōcych 127 krajach i języki 75+. Każdy przypadek dopełnił na głōwnōj ścieżce silnika; aktywacje flagi hiperdijagnozy w przypadkach-pułapkach pozostały na 0 / 87,412. Pierwotny przebieg V11 z 23. kwietnia 2026 obejmował 15 ręcznie wyselekcjonowanych przypadków (złożōny 99.12%) i zwalidował rubrykę; Second Update trzyma tę rubrykę bajtowo identyczno i rozszerza ocenianie na kohortę na skali populacyje.
Wzór na wynik złożony łączy trzy składowe: zgodność strukturalna z siedmioma obowiązkowymi sekcjami raportu i szesnastoma obowiązkowymi podsekcjami, dokładność kliniczna mierzōnō jako przypomnienie klyjuczōw + przypomnienie systemu punktacyji + sprawdzenie ważności rozkładu prawdopodobieństwa, oraz czas odpowiedzi w stosunku do docelowego poziomu usługi na głōwnōj ścieżce. Dokładny rozkład je pokazany w formule rubryki poniży — żadne z tych wag ani pod-rubryk nie było zmienione w Second Update.
Pozostałe 0.20 punktu procentowego zapasu rozkłada się prawie całkiem na kliniczny pod-wynik — mała część przypadków (przede wszystkim w Hepatologii i Reumatologii) miała jeden oczekiwany keyword systemu punktacyjej, którego nie było w interpretacji silnika, mimo że treść diagnostyczna była poprawna. Żaden przypadek w kohorcie 100.000 przypadków Second-Update nie przecał samej diagnozy. Opóźnienie polepszyło się z średnio 20.17 s w pierwotnym wydaniu V11 do 13.26 s w Second Update, co pokazuje optymalizacje silnika produkcyjnego miyndzy dwoma przebiegami; rubryka, kod punktacyji i endpoint API je bez zmian.
Złożōne wyniki według kraju mieściły się od 0.9971 (Indie) do 0.9985 (Szwajcaria) wśród 30 najbarzi reprezentowanych krajów. Długi ogon 97 dodatkowych krajów (≈7.300 przypadków w sumie) nie pokazał systematycznego pogorszenia. Najbarzi wnoszący według liczby przypadków byli: Stany Zjednoczone (10.500), Brazylia (9.500), Hiszpania (9.000), Włochy (8.000), Niemcy (7.800), Francja (7.400), Portugalia (5.800), Türkiye (3.400), Zjednoczone Królestwo (2.900) i Meksyk (2.500).
Od 15 przypadkōw do 100.000: ewolucyjo kōhorty w 127 krajach
Oryginalny panel przypadków V11 obejmował siedem specjalności — hematologię, endokrynologię, medycynę metaboliczną, hepatologię, nefrologię, kardiologię, reumatologię — plus dwa dedykowane przypadki-pułapki na hiperdijagnozę, przy czym każdy przypadek był zanonimizowanym realnym zapisem pacjenta, wziętym z klinicznego repozytorium danych Kantesti na podstawie pisemnej świadomej zgody. V11 Second Update rozszerza ocenianie na 100.000 zanonimizowanych przypadków na 127 krajów, rozdzielonych na osiem specjalności (oryginalne siedem plus dedykowany koszyk medycyny wewnętrznej, co wchłania podzbiór pułapek). Ta sama rubryka punktacyji je stosowana bajtowo identyczno w obu przebiegach.
De-identyfikacyjo robiono metodōm Safe Harbor: wszyskie bezpośrednie identyfikatory były usunięte abo zastąpione, a każdy zapis dostał kod przypadkowy wewnętrzny benchmarku w formacie BT-NNN-LABEL (V11 initial) abo stabilny zanonimizowany case_uid dla Second Update. Przetwarzanie robiono zgodnie z GDPR Artykuł 9(2)(j) do badań naukowych z ôdpowiednimi zabezpieczeniami, oraz z ôdpowiednimi przepisami UK GDPR. Niy ma nigdzie w opublikowanym „harnessie”, w technicznym raporcie ani w udostępnionych zbiorach danych żadnych informacji, co by mogły identyfikować osobę.
V11 initial release — 15 ręcznie wyselekcjonowanych przypadków
Pōwstańkowy panel sprawy V11 zrobiył ręcznie Dr. Thomas Klein, coby ćwiczić diagnostyczne wzorce, co asystenci z laboratorijnej medycyny najczãsciej mylōm. Każda z piãtnastu spraw była dobiyrana do konkretnej diagnostycznej wlastności, podanej dōl.
Proč ta konkretna dystrybucyjo
Hematologia dostaje trzi przypadki, bo mikrocytarne róznice (microcytic differentials) i makrocytarne róznice (macrocytic differentials) są najwiyncyjowymi „pułapkami” w realnym laboratōryjnym praktykowaniu. Endokrynologia dostaje trzi, bo prezentacyje Hashimoto, PCOS i niydostōnek witaminy D majōm rózne diagnostyczne kształty (naprowiane przez autoantyciała, naprowiane przez stosunki hormonów, naprowiane przez pojedynczy marker). Specyjalizacyje z jedynym przypadkiem są nadal znaczące, bo kady z CKD, ryzyka ASCVD i SLE ma swōj własny system punktacyje, kery silnik ma wywołać (odpowiednio: stadowanie KDIGO, 10-letnie ryzyko ASCVD, kryterija 2019 EULAR/ACR dla SLE).
V11 Drugi Update — 100,000 zanonimizowanych spraw w 127 krajach
Drugi Update zastãpuje oryginalny V11, na sztywno zakodowany literal z 15 spraw w Pythonie, parametryzowanym, tylko-do-czytania zapytaniym SQL do klinicznego repozytorium Kantesti (anonymised_blood_panels). Zapytaniе filtruje na consent_research = 1 AND released_for_benchmark = 1 i je drukowane na gōrze każdej runy benchmarku dla przejrzystości. Rozkład kohorty po specjalności je pokazany dōl.
Rozkład geograficki — top 10 krajów
Kohorta obejmuje 127 krajów (ISO 3166-1 alpha-2). Europa wnosi 57.7%, Ameryki 25.4%, Azja-Pacyfik 6.2%, wpisy nazwanego Bliskiego Wschodu/Afryki 3.4%, a długi ogon 97 dodatkowych krajów w sumie z grubsza 7.3%. Dziesięć najwiynczych wnosicieli to Stany Zjednoczone (10,500), Brazylija (9,500), Hiszpania (9,000), Włochy (8,000), Niemcy (7,800), Francija (7,400), Portugalia (5,800), Türkiye (3,400), Zjednoczone Królestwo (2,900) i Meksyk (2,500). Złożone wyniki per kraj wahały sie od 0.9971 (Indija) do 0.9985 (Szwajcaria).
Wytłumaczony wstępnie zarejestrowany rubryk
Rejestracyjo przed startym (pre-registration) je jedynaj wažniyjsza metodologiczno decyzja w tym benchmarku. Kady oczekiwany rozpoznak, kady kliniczny system punktacyje i kady sekcyjo raportu były zaangażowane do kodu źródłowego zanim silnik został wywołany. Dalsze „dostrajanie” (post-hoc tuning) rubryki, coby „przyklapnōła” silnikowi, je tedy niemożliwe.
Trzi komponenty składajōm sie na kompozytowy wynik. strukturalny komponent wnosi 35 procent i mieri, czy silnik zwrōcił siedem obowiōzkowych sekcyj raportu (nagłōwek, podsumowanie, kluczowe wnioski, róznice, systemy punktacyje, rekomendacyje, follow-up) i szesnaście obowiōzkowych podsekcyj w nich. Obecność sekcyj waży 40 procent, a obecność podsekcyj waży 60 procent w ramach strukturalnego wyliczania.
Te kliniczny komponent wnosi 55 procent i łaczy trzi rzeczy: przypomnienie słōw-kluczy do rozpoznaka (70 procent klinicznego podwyniku), przypomnienie systemu punktacyje (20 procent — czy silnik liczy Mentzer, FIB-4, HOMA-IR, ryzyko ASCVD, stadowanie KDIGO, kryterija EULAR/ACR, jeźli to ma znaczenie), oraz kontrola prawidłowości sumy prawdopodobieństw (10 procent — prawdopodobieństwa w róznicach majōm sie zsumować do przedziału [90, 110]). W przypadkach „pułapek” odejmujōm jawny penal za hiperdjagnozowanie do 0.30, liczony jako 0.10 za kady wytworzony flag patologii, z limitym na trzy flagi.
Te komponent latencji wnosi 10 procent. Odpowiedz pod 20 sekund dostaje pełne 0.10, odpowiedz pod 40 sekund dostaje 0.05, a co kolwiek wolniyje dostaje zero. Celu na 20 sekund odzwierciedla produkcyjny cel poziomu usługi dla primary-path; sufit 40 sekund odzwierciedla budżet awaryjny w Phase 2 na ciynzkie wywołania silnika.
Co pre-registration zapobiega
Benchmarki robione przez „pierwszych autorōw” (first-party) są znane z napychania swych własnych liczb przez post-hoc dostrajanie rubryki. Wzōr prawie zawsze je ten sam: zespōł uruchamia silnik, widzi, gdzie nie dojeżdża, a potem po cichu dostosowuje rubryku, coby obszary, w których nie dowiozło, liczyły sie mniyj. Przez to, że rubryka je zaangażowana do kodu źródłowego przed pierwszym wywołaniem silnika i że uchwyt je opublikowany pod licencyją MIT, to dostosowanie staje sie widoczne w kontroli wersyj. Kady może sklonować repozytōry, sprawdzić daty autorōw rubryki i zweryfikować, że wyniki silnika nie były użyte do ukształtowania punktacyji.
Przypadki „pułapki” hiperdijagnozy — czemu nadmierne wzywanie je prawdziwym trybem porażki
Agresywne „przypisywanie” patologii na normalnych ekranach je udokumentowany tryb porażki w medycznych asystentach skierowanych do konsumentōw. Jej dalsze koszty zawierajōm niepotrzebne badania, niepokōj pacjenta i jatrogenny rozbōr. Dwa przypadki „pułapek” w tym benchmarku są zaprojektowane, coby ten tryb porażki był widoczny i dał sie ocenić.
🟡 Pułapka 1 — BT-014-GILBERT
Prezentacyjo. Mężczyzna 24 lata z całkowitym bilirubinōm 2.4 mg/dL. Frakcijo bezpośrednia je normalna, transaminazy i fosfataza alkaliczna siedzą w swych zakresach referencyjnych, retikulocyty są nieznaczące, a haptoglobina i LDH wykluczajōm hemolizę.
Poprawna interpretacyjo. Zespōł Gilberta — łagodna polimorfizma UGT1A1. Interpretacyjo nie powinna wywoływać zapalenia wątroby, marskości, hemolitycznej anemii ani zatoru/obstrukcyji dróg żółciowych.
Wynik v11. Kompozyt 1.000. Żadna z szostki monitorowanych flag nadmiernego rozpoznawania nie pojawiła sie jako aktywne rozpoznanie.
🟡 Pułapka 2 — BT-015-HEALTHY
Prezentacyjo. 35-letnia kobieta z rutynowym panelem przesiewowym na piętnaście parametrów. Każdy analit leży wygodnie w swoim zakresie referencyjnym.
Poprawna interpretacyjo. Uspokojenie i podtrzymanie stylu życia. Interpretacja nie powinna wytwarzać granicznej patologii, żeby brzmieć klinicznie użytecznie.
Wynik v11. Kompozyt 1.000. Żaden z siedmiu monitorowanych flag nadmiernego rozpoznawania — cukrzyca, anemia, niedoczynność tarczycy, dyslipidemia, zapalenie wątroby, choroba nerek, niedobór — nie pojawił sie jako aktywne rozpoznania.
W obu „pułapach” sprawdzono trzynaście monitorowanych flag nadmiernego rozpoznawania. Nic nie zadziałało. To je wynik, co najbarzi liczy sie dla każdego klinicysty, co rozważa użycie silnika AI jako narzędzia triage albo przedkonsultacyjnego: system nie wymyślił choroby, jakiej nie było.
Indeks Mentzera: rozdzielanie niydoboru żelaza z cechōw talaszemii
Drugie, wartościowe znalezisko dotyczy sparowania przypadku BT-001 (anemia z niedoboru żelaza) z przypadkiem BT-007 (mała beta-talasemia). Oba występują z mikrocytozą i to je dobrze znana przeszkoda dla naiwnych klasyfikatorów. Indeks Mentzera, liczony jako MCV podzielone przez liczbę RBC, je powyżej 13 w niedoborze żelaza i spada poniżej 13 w cechach talasemii.
W BT-001 pacjentka miała 34 lata, hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferrytyna 6 ng/mL i podwyższony TIBC. Indeks Mentzera, około 17.7, wspiera bezwzględny niedobór żelaza. W BT-007 pacjent miała 28 lat, mikrocytoza (MCV 65.8 fL), ale wysoka liczba RBC 6.2, normalne RDW, normalna ferrytyna i HbA2 5.6 procent. Indeks Mentzera, około 10.6, wskazuje na cechy talasemii, a podwyższony HbA2 potwierdza małą beta-talasemię.
Oba przypadki dostały wynik 1.000. Silnik użył indeksu Mentzera wprost w obu interpretacjach i zwrócił poprawne rozpoznanie w każdym wypadku. To je jedyny najbardziej uspokajający klinicznie wynik w całym benchmarku, bo mylne zaklasyfikowanie cech talasemii jako niedoboru żelaza prowadzi do nieodpowiedniego suplementowania żelaża i pominięcia możliwości przesiewu rodzinnego, a mylne zaklasyfikowanie niedoboru żelaża jako talasemii opóźnia proste leczenie zastępcze. Nasze przewodnik po zakresie ferrytyny wyjaśnia szerszy kontekst różnicowania.
Wyniki per przypadek z wstępnego referencyjnego uruchomienia V11 (23. april 2026)
Oryginalne uruchomienie referencyjne V11 na kohorcie proof-of-concept z 15 przypadków służy jako fundament metodologiczny Second Update: każdy szczegół per przypadek poniży ilustruje, jak rubryka obchodzi sie z realną odpowiedzią silnika. Dwanaście z piętnastu przypadków osiagnęło sufit złożonego wyniku 1.000 na głównej ścieżce; trzy przypadki były obsłużone przez fallback Phase 2, tracąc bonus latencji 0.05, ale zachowując wszyskie treści kliniczne i strukturalne. Jeden przypadek nie miał jednego wymaganego podrozdziału; jeden zwrócił nieco zredukowaną sumę rozkładu prawdopodobieństwa.
Przypadek PCOS (BT-008) stracił jedynō obowiōnzujōcy podrozdział w strukturze odpowiedzi — piętnaście z szesnastu zamiast szesnastu z szesnastu — co obniżyło punktōwōnie struktury z 1.000 do 0.963. Przypadek SLE (BT-011) zwrōcił marginalnie zniżōnō sumę rozkładu prawdopodobieństwa, co obniżyło punktōwōnie kliniczne do 0.965, przy zachowaniu wszyskich słōw kluczowych do diagnozy i systemu punktōwōnia. Żaden z tych dwuch przypadkōw nie był niedoskōnały tak, żeby przeca nie trafnie postawił diagnozy.
Agregat V11 Second Update — 100,000 przypadków
W skali populacyjnej pojedyncze wiersze przypadków nie są czytelne dla człowieka, więc Second Update raportuje zsumowane metryki zamiast tabeli z 100,000 wierszami. Główny agregat jest pokazany poniży; rozbicia per specjalność i per kraj są publikowane w raporcie technicznym i w depozycie Figshare. Stratyfikowany losowy próbny zbiór n = 201 surowych odpowiedzi silnika (deterministyczne ziarno 20260426) jest publikowany w katalogu GitHub results/ do inspekcyji.
Co nam nie mowi nagłōwkowy wynik
Złożony wynik 99.80 procent w ramach tego konkretnego, wstępnie zarejestrowanego schematu oceny, na anonimowym kohorcie 100,000 przypadków obejmującej 127 krajów, oznacza wynik bliski pułapowi — ale wymaga to ostrożnego przedstawienia. Wynik opisuje zachowanie silnika względem schematu oceny, do którego zobowiązaliśmy się w kodzie źródłowym w V11; nie jest to uniwersalne twierdzenie o poprawności silnika na każdym panelu wyników badańo krwi, jaki istnieje w naturze.
Wynik mówi, że silnik poprawnie obsłużył wybrane wzorce diagnostyczne dla tej oceny w kohorcie na skali populacyjnej, w ramach opublikowanej i możliwej do odtworzenia metodologii. Nie mówi, że silnik jest poprawny na każdym panelu wyników badańo krwi, jaki istnieje w naturze. Nie mówi, że silnik powinien zastępować osąd klinicysty. I nie mówi, że silnik przewyższa alternatywne systemy AI — porównawcze analizy z innymi silnikami celowo nie wchodziły w zakres tego raportu.
To, co wynik faktycznie ustala, to punkt odniesienia. Ponieważ schemat oceny i środowisko testowe są publiczne, przyszłe wersje silnika można oceniać względem tego samego schematu — zastosowanego do wstępnych 15 przypadków V11, kohorty 100,000 przypadków Drugiej aktualizacji albo dowolnego późniejszego rozszerzenia — a różnica między opublikowanym wynikiem a dowolnym kolejnym uruchomieniem jest sama w sobie mierzalna. Taka jest wartość wstępnej rejestracji: zamienia twierdzenia o wydajności na twierdzenia, kery da się testować.
Jak odtworzyć to benchmark w 10 minut
Odtworzenie wymaga tylko pary poświadczeń API Kantesti i środowiska Python 3.10 albo nowszego z requests i reportlab zainstalowanymi bibliotekami. Całe środowisko testowe to jeden samowystarczalny moduł Pythona wydany pod licencjō MIT.
Cztery kroki do świeżego uruchomienia
Jeden. Skloń repozytorium: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dwa. Zainstaluj zależności za pomocōm pip install -r requirements.txt (Druga aktualizacja dodaje mysql-connector-python ≥ 8.0 dla modułu ładującego przypadki SQL). Trzi. Ustaw KANTESTI_USERNAME i KANTESTI_PASSWORD jako zmienne środowiskowe dla API silnika. Dla modułu ładującego przypadki SQL w Drugiej aktualizacji ustaw także KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, i KANTESTI_DB_PASSWORD — loader lōczy sie przez rolō tylko do czytōnia (bench_reader) co ni ma uprawniōń do identyfikacyje tabel. Trzi. Uruchōm python benchmark_bloodtest.py --limit 100000 na kompletne uruchōmienie Second-Update, abo python benchmark_bloodtest.py --limit 1000 na szybkie iteracyje. Wyniki lōdujō do ./benchmark_results/: CSV scorecard z kolumnami na kraj i na specjalizacyje, JSON agregat, stratifikowany-losowy prōbka surowej odpowiedzi i raport w Markdown.
Referencyjne uruchōmienia z 23 kwietnia 2026 (V11 poczōtkowe, 15 przypadkōw) i z 26 kwietnia 2026 (V11 Second Update, 100,000 przypadkōw) sō zachowane w results/ katalogu repozytōra. Nowe uruchōmienie wytworzi nowy timestampowany scorecard, ale referencyjne uruchōmienia zostawi nietkniōte. Jeżli twoje uruchōmienie da znacząco inny wynik, to proszō otwōrz GitHub issue z timestampem uruchōmienia i wersyjom engine, co je zwrōcona w metadanych odpowiedzi.
Ograniczynia i prziyszłe prace
Nawet przy 100,000 przypadkōw na 127 krajōw, cztery ograniczenia zasługujō na jawne uznōnie: niedoszacowanie krajōw z długim ogonem, jednorazowa ocena, zakres na jedyn engine i pochodzenie danych z jedynigo źrōdła. Każde z nich je adresowane w aktywnych pracach w follow-up.
Pokrycie krajōw z długim ogonem. Second Update obejmuje 127 krajōw, ale dystrybucyjo je niezrōwnoważōna — top 10 kontribuentōw liczy ≈66.4% przypadkōw, a długi ogōn 97 dōdatkowych krajōw razem daje ≈7.3% (z grubsza 7,300 przypadkōw w kupie, ~75 przypadkōw na kraj w średnim). Kompozyty per-kraj w tym długim ogōnie sō tedy głośniejsze (bardziej szumne) niż by to sugerowały głośne liczby. Przyszłe uruchōmienia bōdō preferencyjnie rekrutować z krajōw z niedoszacowaniem, coby doprecyzować estymacyje per jurysdykcjo.
Ocena „single-shot”. Każdy przypadek w kohorcie był oceniony jednokrotnie. Duże modele językowe wykazujō niebłachowō zmienność wyniku nawet przy niskiej temperaturze prōbkowania, więc protokōł wielokrotnego uruchōmienia z pięcioma ocenami na przypadek i podanō wariancjō je naturalnym nastym krokiem — szczegōlnie na podzbiorze trap-case, gdzie spōjność pod wpływem jittera prōbkowania je częśćiōm twierdzenia o bezpieczństwie.
Zakres jednego silnika. Ten raport charakteryzuje jeden engine. Analizy porōwnawcze do inakszych systemōw AI sō poza zakresem tu; moźemy je ewentualnie prowadzić jako osobne niezależne badanie z odpowiedniō metodologiō, na tym samym harnessie na licencyji MIT.
Pochodzenie danych z jednego źrōdła. Te 100,000 przypadkōw sō zanonimizowane prawdziwe zapisy pacjentōw, wzięte z jednego klinicznego repozytōra (Kantesti SQL-backed clinical data warehouse). Reprezentujō one kuratōrowany strumień produkcyjny i nie sō losowym prōbōwaniem reprezentatywnym dla populacyje na globalnym poziomie. Rozszerzenie oceny na dane zewnętrznie pozyskiwane z wielu ośrodkōw je w planie na przyszłość.
Poza tymi czterma, najbarziej wpływowe planowane rozszerzenie to wielojęzyczna parytetność per jurysdykcjo. Kantesti AI Engine służy uźytkownikōm w 75+ językach, a uruchōmienie językowo-stratyfikowanych podkohort Second-Update (turecki, niemiecki, hiszpański, francuski, włoški, portugalski, arabski, mandaryński) bōdzie kwantyfikować jakość wyjścia w językach, co je wspierane przez engine. Każda analiza stratyfikowana po języku bōdzie opublikowana z własnym DOI i gałęziō harness.