Kantesti AI 혈액검사 벤치마크

임상 검증 사전 등록된 벤치마크 V11 두 번째 업데이트 — 2026년 4월 MIT 라이선스 동료 검증 가능 100K 코호트 · 127개 국가

사전 등록된 루브릭의 99.80% 복합 점수 — V11 두 번째 업데이트, 127개 국가의 100,000건 케이스 코호트

127개 국가를 아우르는 SQL 기반 임상 저장소에서 추출한 100,000건의 익명화된 실제 환자 혈액검사 사례에 대해 Kantesti AI 엔진을 평가한 사전 등록, 루브릭 기반 임상 평가입니다. 루브릭은 V11 초기 출시 전에 소스 코드에서 고정되었고, 이번 두 번째 업데이트에서도 바이트 단위로 동일하게 유지되었습니다. 평가 하네스는 MIT 라이선스이며, 엔진의 원시 응답에 대한 층화 무작위 샘플이 검토를 위해 공개됩니다.

📖 ~14분 📅 2026년 4월 23일 게시 · 2026년 4월 26일 업데이트 (V11 두 번째 업데이트) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 게시됨: 2026년 4월 23일 🔄 V11 두 번째 업데이트: 2026년 4월 26일 🩺 의학적 검토: 2026년 4월 26일 ✅ 사전 등록 루브릭 (바이트-동일) 🔓 공개 코드 & 데이터

본 임상 검증 연구는 토마스 클라인 박사 (의학박사), Kantesti AI의 최고의료책임자(CMO)로서, 줄리안 에미르한 불루트, Kantesti Ltd의 시니어 AI 엔지니어이자 CEO와 협력하여 주도했습니다. 방법론과 채점 기준은 칸테스티 AI 의료 자문 위원회.

책임 저자 & 임상 감독

토마스 클라인, 의학박사

칸테스티 AI 최고 의료 책임자

Dr. Thomas Klein은 15년 이상의 실험실 의학 경험을 가진 보드 인증 임상 혈액학자이자 내과의사입니다. Kantesti AI의 최고의료책임자로서 그는 본 벤치마크의 케이스 패널을 선정하고, 모든 진단의 정답(ground truth)을 검토했으며, 첫 엔진 호출 이전에 사전 등록된 채점 기준을 승인했습니다.

ORCID 0009-0009-1490-1321 리서치게이트 구글 학술 검색

공동 저자 & 구현

줄리안 에미르한 불루트

시니어 AI 엔지니어 & CEO, Kantesti Ltd

Julian Emirhan Bulut은 Kantesti Ltd의 설립자이자 CEO입니다. 그는 평가 하네스를 설계하고 구현했으며(이번 V11 두 번째 업데이트에 추가된 SQL 케이스 로더 포함), API 통합을 수행하고, V11 초기 기준 실행과 V11 두 번째 업데이트 100,000건 실행을 모두 진행했으며, 통계적 집계를 준비했습니다. 2019년부터 플랫폼 설립자.

GitHub 칸테스티 소개

⚡ 간단한 요약 V11 두 번째 업데이트 — 2026년 4월 26일

99.80% 복합 점수 8개 의학 전문 분야와 127개 국가에 걸친 100,000건의 익명화된 실제 환자 혈액검사 사례(V11 두 번째 업데이트).
과잉진단(하이퍼다이그노시스) 오탐 0건(거짓양성 0건) 87,412개의 모니터링된 트랩-케이스 플래그 기회 전반 — V11 초기와 동일한 트랩-케이스 방법론을 인구 수준으로 확장.
사전 등록된 채점 기준(rubric) V11 초기 실행 전에 소스 코드에서 고정되었고, 이번에도 바이트-동일 이번 두 번째 업데이트를 위해 — 사후 튜닝은 불가능했습니다.
멘처 지수(Mentzer index)를 정확히 적용 V11 초기 출시에서 철결핍성 빈혈과 베타 지중해빈혈 소질을 구분하기 위해; 이러한 감별 동작은 인구 규모에서도 보존되었습니다.
프로덕션 엔드포인트만 — 특권 라우팅 없음, 유료 고객이 접근하는 방식 그대로 정확히 평가함.
평균 지연 시간 13.26초 엔드투엔드(범위 9.0–16.94초)이며, 100,000건 모두 엔진의 기본 경로에서 완료되었습니다.
SQL 기반 코호트. Kantesti 임상 저장소에 대해 매개변수화된 읽기 전용 쿼리로 런타임에 로드 — Safe Harbor에 따라 익명화, GDPR 제9조(2)(j).
MIT 라이선스 하네스(harness) GitHub에 공개되었으며, 검토를 위해 엔진의 전체 원시 응답에 대한 층화 무작위 샘플(n = 201)을 포함합니다.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub에 미러링.

이 벤치마크가 존재하는 이유와 무엇을 검증하는가

AI 보조 혈액검사 결과 해석은 소비자 및 임상 워크플로에서 점점 더 널리 사용되고 있지만, 임상검사실 의학에 맞춘 재현 가능한 평가 프레임워크는 여전히 드뭅니다. 이 상황에서 가장 중요한 질문은 일반적인 의료 질의응답 벤치마크에서 다루는 질문이 아닙니다: 평균 적혈구 용적(MCV)이 동일할 때 엔진이 철결핍과 지중해빈혈 소질을 구분할 수 있는가, 간염으로 길버트 증후군을 과잉진단하는가, 그리고 완전히 정상인 선별 패널에서 병리를 “만들어내는”가?

단일 혈액검사 패널은 보통 여러 경쟁적 해석을 뒷받침할 만큼 충분한 신호를 포함하며, 해석하는 임상의의 역할은 교과서식 정답을 찾아내는 것이 아니라 그 해석들을 서로 비교해 가중치를 두는 데 있다. 교과서 사례에서 잘하는 엔진은 여전히 가장 중요한 사례들에서는 실패할 수 있다. 즉, 감별진단의 함정, 단독으로 보면 경고처럼 보이지만 양성인 변이, 그리고 자신감 있는 보조자가 병리(질환)를 만들어내게 유혹하는 완전히 정상 패널이 그것이다.

이 벤치마크는 바로 그런 실패 양상들을 겨냥해 구축되었다. 15개 사례 각각은 특정 진단적 성질을 위해 선택되었다. 예를 들어, 동일한 평균적혈구용적(MCV)을 보이는 베타 지중해빈혈(β-thalassaemia) 보인자 특성과 구분되어야 하는 철결핍성 소적혈구증, 이상 소견이 고립된 간접 고빌리루빈혈증뿐인 길버트 증후군(Gilbert's syndrome) 양상, 그리고 모든 분석항목이 참고범위 안에 들어있는 15개 파라미터 선별 패널이 포함된다. 채점 기준은 각 사례를 그 자체의 조건에 맞게 읽는 엔진에 점수를 주고, 그런 진단이 정당화되지 않는 상황에서 확신에 찬 진단에 도달하는 엔진을 감점한다.

Thomas Klein, MD로서, 나는 이 사례 패널을 선택했는데, 이는 내가 실험실 의학 보조자들이 가장 자주 틀리는 패턴들이기 때문이다. 값비싼 실패 양상은 "드문 질환을 놓치는 것"이 아니라, 그 질환이 없는 환자에게 일상적인 병리(질환)를 만들어내는 것이다. 우리의 의료 검증 허브는 더 넓은 프레임워크를 설명합니다. 이 페이지는 V11 초기 개념증명과, 이를 127개 국가에 걸친 SQL 기반 임상 저장소에서 추출한 100,000개의 익명화 케이스로 확장한 V11 두 번째 업데이트를 설명합니다 — 동일한 채점 루브릭을 사용하며 바이트 단위로 동일하고, 사후 튜닝은 허용되지 않습니다.

15건에서 100,000건으로: 127개 국가에서의 코호트 진화

원래 V11 케이스 패널은 7개 전문 분야 — 혈액학, 내분비학, 대사 의학, 간질환학, 신장학, 심장학, 류마티스학 — 과, 두 개의 전용 과진단 트랩 케이스로 구성되었으며, 각 케이스는 Kantesti 임상 데이터 저장소에서 서면 동의 하에 추출한 익명화된 실제 환자 기록이었습니다. V11 두 번째 업데이트는 평가를 127개 국가에 걸친 100,000개의 익명화 케이스로 확장합니다, 8개 전문 분야에 분산(원래 7개 + 트랩 하위 집합을 흡수하는 전용 내과 버킷)합니다. 동일한 채점 루브릭이 두 실행 모두에 대해 바이트 단위로 동일하게 적용됩니다.

비식별화는 세이프 하버(Safe Harbor) 방식으로 수행되었습니다. 모든 직접 식별자는 제거되거나 대체되었고, 각 기록에는 BT-NNN-LABEL 형식의 벤치마크-내부 케이스 코드가 할당되었습니다(V11 초기) 또는 두 번째 업데이트를 위한 안정적인 익명화 case_uid 입니다. 처리는 GDPR 제9조(2)(j)항 적절한 안전장치를 갖춘 과학적 연구를 위해, 그리고 이에 상응하는 영국 GDPR 조항에 따라 수행되었습니다. 공개된 하네스(harness), 기술 보고서, 또는 배포된 데이터셋 어디에도 개인을 식별할 수 있는 정보가 나타나지 않습니다.

V11 초기 릴리스 — 15개의 수작업 선별 케이스에 따라 수행되었습니다.

원래 V11 케이스 패널은 진단 패턴 중 실험실 의학 보조 인력이 가장 자주 잘못하는 부분을 다루도록 Dr. Thomas Klein이 직접 선별(hand-curated)했습니다. 아래에 나열된 특정 진단 특성에 따라 총 15개의 케이스가 선택되었습니다.

혈액종양학(3) BT-001, BT-006, BT-007 철 결핍성 빈혈 · B12 결핍 · 베타-지중해빈혈 소질(beta-thalassaemia minor)

내분비학(3) BT-002, BT-008, BT-012 하시모토 갑상선염 · 인슐린 저항성을 동반한 PCOS · 중증 비타민D 결핍

대사(2) BT-003, BT-013 대사증후군을 동반한 T2DM · 통풍 위험을 동반한 고요산혈증(hyperuricaemia)

간장학(2) BT-004, BT-009 NAFLD / NASH · 급성 바이러스성 간염

신장학 · 심장학 · 류마티스학(3) BT-005, BT-010, BT-011 CKD 3기 · 죽상동맥경화성 이상지질혈증(atherogenic dyslipidaemia) · 전신성 홍반성 루푸스(systemic lupus erythematosus)

함정 사례(2) BT-014, BT-015 길버트 증후군(고립성 간접 고빌리루빈혈증) · 완전히 정상인 성인 선별

왜 이와 같은 분포인가

혈액학은 실제 실험실 환경에서 미세적혈구성 감별과 대적혈구성 감별이 가장 높은 빈도의 함정이기 때문에 세 가지 케이스를 받습니다. 내분비학은 하시모토병, PCOS, 비타민D 결핍의 증상 양상이 서로 다른 진단 형태(자가항체에 의해 좌우, 호르몬 비율에 의해 좌우, 단일 마커에 의해 좌우)를 연습하기 때문에 세 가지를 받습니다. 단일 케이스 전문 분야는 여전히 의미가 있는데, CKD, ASCVD 위험, SLE 각각에는 엔진이 호출해야 하는 고유한 점수 체계가 있기 때문입니다(KDIGO 병기, ASCVD 10년 위험, 각각 2019 EULAR/ACR SLE 기준).

V11 두 번째 업데이트 — 127개 국가에 걸친 100,000건의 익명화 사례

두 번째 업데이트는 원래 V11의 하드코딩된 15-case Python 리터럴을 Kantesti 임상 저장소에 대한 매개변수화되고 읽기 전용인 SQL 쿼리로 대체합니다(anonymised_blood_panels). 해당 쿼리는 consent_research = 1 AND released_for_benchmark = 1 로 필터링하며, 투명성을 위해 모든 벤치마크 실행의 상단에 출력됩니다. 전문 분야별 코호트 분포는 아래와 같습니다.

내분비학 23,900건 (23.9%) 갑상선, PCOS, 비타민D, 생식선 축, 뇌하수체

대사 의학 21,900건 (21.9%) T2DM, 대사증후군, 지질 패널, 고요산혈증

혈액학 15,400건 (15.4%) 소구성 및 대구성 감별, B12/엽산, 철 검사

간질환학 12,400건 (12.4%) NAFLD/NASH, 바이러스성 간염, FIB-4, 담즙정체

내과(트랩 하위 집합 포함) 9,000건 (9.0%) 혼합 양상 및 8,723개의 전용 과진단 트랩 케이스

심장학 7,500건 (7.5%) ASCVD 위험, 죽상동맥경화성 이상지질혈증, hs-CRP

류마티스내과 6,000건 (6.0%) SLE, RA, 혈관염, 자가항체 패널(EULAR/ACR 기준)

신장학 4,000건 (4.0%) CKD 병기(KDIGO), eGFR 추세, 전해질 이상

지리적 분포 — 상위 10개 국가

이 코호트는 127개 국가(ISO 3166-1 alpha-2)에 걸쳐 있습니다. 유럽이 57.7%를 기여하고, 아메리카는 25.4%, 아시아-태평양은 6.2%, 중동/아프리카로 분류된 항목은 3.4%이며, 나머지 97개 추가 국가의 긴 꼬리가 합산 약 7.3%입니다. 상위 10개 기여 국가는 미국(10,500), 브라질(9,500), 스페인(9,000), 이탈리아(8,000), 독일(7,800), 프랑스(7,400), 포르투갈(5,800), 튀르키예(3,400), 영국(2,900), 멕시코(2,500)입니다. 국가별 복합 점수는 인도(0.9971)부터 스위스(0.9985)까지 범위가 있었습니다.

사전 등록된 채점 기준의 설명

사전 등록(pre-registration)은 이 벤치마크에서 가장 중요한 방법론적 선택입니다. 예상되는 모든 진단, 모든 임상 점수 체계, 그리고 모든 보고서 섹션은 소스 코드에 커밋되었습니다. 엔진이 호출되기 전에. 따라서 엔진을 유리하게 보이도록 루브릭을 사후 조정하는 것은 불가능합니다.

복합 점수는 세 가지 구성 요소로 이루어집니다. 구조적 구성 요소(structural component)는 35%를 기여하며, 엔진이 일곱 가지 필수 보고 섹션(헤더, 요약, 핵심 소견, 감별, 점수 체계, 권고, 추적)과 그 안의 열여섯 가지 필수 하위 섹션을 반환했는지를 측정합니다. 섹션 존재 여부는 구조적 계산에서 40%의 가중치를 가지며, 하위 섹션 존재 여부는 60%의 가중치를 가집니다. contributes 35 percent and measures whether the engine returned the seven mandatory report sections (header, summary, key findings, differential, scoring systems, recommendations, follow-up) and the sixteen mandatory subsections within them. Section presence weighs 40 percent and subsection presence weighs 60 percent within the structural calculation.

그만큼 임상 구성 요소(clinical component)는 55%를 기여하며 세 가지를 결합합니다: 진단-키워드 회상(임상 하위 점수의 70%), 점수 체계 회상(20% — 해당되는 경우 엔진이 Mentzer, FIB-4, HOMA-IR, ASCVD 위험, KDIGO 병기, EULAR/ACR 기준을 계산하는지), 그리고 확률 합 유효성 점검(10% — 감별 확률은 [90, 110] 구간 내에서 합산되어야 함)입니다. 함정 케이스의 경우, 조작된 병리 플래그 1개당 0.10씩 계산하여 최대 3개 플래그까지 적용되는 명시적 과잉진단 페널티(최대 0.30)를 차감합니다. contributes 55 percent and combines three things: diagnosis-keyword recall (70 percent of the clinical sub-score), scoring-system recall (20 percent — does the engine compute Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR criteria where relevant), and a probability-sum validity check (10 percent — the differential probabilities should sum to within the [90, 110] interval). For trap cases, an explicit hyperdiagnosis penalty of up to 0.30 is subtracted, calculated as 0.10 per fabricated pathology flag, capped at three flags.

그만큼 지연(latency) 구성 요소는 10%를 기여합니다. 20초 미만 응답은 전체 0.10, 40초 미만 응답은 0.05, 그보다 느리면 0입니다. 20초 목표는 프로덕션 1차(primary-path) 서비스 수준 목표를 반영하고, 40초 상한은 무거운 엔진 호출을 위한 2단계(Phase 2) 폴백 예산을 반영합니다.

사전 등록이 막는 것

1인칭(First-party) 벤치마크는 사후 루브릭 튜닝을 통해 자기 수치를 부풀리는 것으로 악명이 높습니다. 패턴은 거의 항상 같습니다. 팀이 엔진을 실행하고 성능이 떨어지는 지점을 본 뒤, 그 성능 저하 영역이 덜 중요하게 계산되도록 루브릭을 조용히 조정합니다. 첫 엔진 호출 전에 루브릭을 소스 코드에 커밋하고, 하네스를 MIT 라이선스로 공개하면, 그 조정이 버전 관리에서 드러납니다. 누구나 저장소를 복제하고 루브릭 작성 날짜를 확인하며, 엔진 결과가 점수화를 형성하는 데 사용되지 않았음을 검증할 수 있습니다.

과잉진단(하이퍼다이아그노시스) 함정 사례 — 과호출(over-calling)이 진짜 실패 모드인 이유

정상 화면에서 병리를 공격적으로 과호출하는 것은 소비자 대상 의료 보조 도구에서 문서화된 실패 모드입니다. 그 하류 비용에는 불필요한 검사, 환자 불안, 의인성(iatrogenic) 검사/평가가 포함됩니다. 이 벤치마크의 두 함정 케이스는 이 실패 모드를 드러내고 점수화 가능하게 설계되었습니다.

🟡 함정 1 — BT-014-GILBERT

제시(presentation). 총 빌리루빈이 2.4 mg/dL인 24세 남성입니다. 직접 분획은 정상이고, 트랜스아미나아제와 알칼리성 포스파타아제는 각 기준 범위 안에 있으며, 망상적혈구는 별다른 이상이 없고, 하프토글로빈과 LDH가 용혈을 배제합니다.

올바른 해석. 길버트 증후군—양성 UGT1A1 다형성입니다. 해석에는 간염, 간경변, 용혈성 빈혈, 또는 담도 폐쇄를 호출해서는 안 됩니다.

V11 결과. 복합 점수 1.000. 모니터링된 여섯 개의 과잉진단 플래그 중 어떤 것도 활성 진단으로 나타나지 않았습니다.

🟡 함정 2 — BT-015-HEALTHY

제시(presentation). 15개 매개변수의 일상 루틴 선별 패널을 가진 35세 여성입니다. 모든 분석 항목은 각각의 기준 범위 안에 편안하게 들어 있습니다.

올바른 해석. 안심과 생활습관 유지. 해석은 임상적으로 유용해 보이기 위해 경계 병리를 억지로 만들어내지 않아야 합니다.

V11 결과. 종합 점수 1.000. 모니터링한 7개의 과잉진단 플래그(당뇨병, 빈혈, 갑상선기능저하증, 이상지질혈증, 간염, 신장질환, 결핍) 중 어느 것도 활성 진단으로 나타나지 않았습니다.

두 트랩 모두에서 13개의 모니터링 과잉진단 플래그를 확인했습니다. 트리거된 것은 0개였습니다. 이는 AI 엔진을 선별(triage) 또는 사전 상담 도구로 사용하려는 어떤 임상의에게도 가장 중요한 결과입니다. 시스템은 존재하지 않는 질병을 만들어내지 않았습니다..

멘처 지수(Mentzer index): 철 결핍과 지중해빈혈 보인자(thalassaemia trait) 구분

두 번째로 가치 있는 발견은 사례 BT-001(철결핍성 빈혈)과 사례 BT-007(베타 지중해빈혈 소질)의 짝짓기입니다. 두 경우 모두 소적혈구증을 보이며, 순진한 분류기들이 자주 걸리는 잘 알려진 함정입니다. MCV를 RBC 수로 나눈 멘처 지수(Mentzer index)는 철결핍에서는 13을 초과하고, 지중해빈혈 소질에서는 13 미만으로 떨어집니다.

BT-001에서 환자는 34세 여성으로, 헤모글로빈 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, 페리틴 6 ng/mL, 그리고 상승된 TIBC를 보였습니다. 약 17.7의 멘처 지수는 절대 철결핍을 지지합니다. BT-007에서 환자는 28세 남성으로 소적혈구증(MCV 65.8 fL)은 있었지만 RBC 수가 6.2로 높았고, RDW는 정상, 페리틴은 정상, HbA2는 5.6%였습니다. 약 10.6의 멘처 지수는 지중해빈혈 소질을 가리키며, 상승된 HbA2는 베타 지중해빈혈 소질을 확인합니다.

철결핍성 빈혈 멘처 지수 > 13 낮은 페리틴, 낮은 TSAT, 높은 TIBC, 상승된 RDW

베타 지중해빈혈 소질 멘처 지수 < 13 정상 페리틴, 정상 RDW, 상승된 HbA2(>3.5%), 높은 RBC 수

두 사례 모두 1.000점을 받았습니다. 엔진은 두 해석 모두에서 멘처 지수를 명시적으로 사용했고, 각 경우에 올바른 진단을 반환했습니다. 이는 전체 벤치마크에서 단 하나로 가장 임상적으로 안심되는 결과입니다., 지중해빈혈 소질을 철결핍으로 잘못 분류하면 부적절한 철분 보충이 이루어지고 가족 선별검사 기회를 놓치게 되며, 철결핍을 지중해빈혈로 잘못 분류하면 간단한 대체요법의 시기가 지연됩니다. 우리의 페리틴 범위 가이드는 는 더 넓은 감별진단 맥락을 설명합니다.

V11 초기 기준 실행의 케이스별 결과(2026년 4월 23일)

15-case 개념증명(proof-of-concept) 코호트에서의 원래 V11 기준 실행은 제2 업데이트의 방법론적 기반입니다. 아래의 각 케이스별 세부 사항은 루브릭이 실제 엔진 응답을 어떻게 처리하는지 보여줍니다. 다섯 개 중 열두 개 케이스가 1차 경로에서 기본 복합 점수 천장인 1.000을 달성했습니다. 세 케이스는 2단계(Phase 2) 폴백을 통해 제공되어, 임계 지연(latency) 보너스 0.05는 잃었지만 모든 임상 및 구조적 콘텐츠는 보존했습니다. 한 케이스는 단일 필수 하위 섹션이 누락되었습니다. 한 케이스는 주변적으로 감소한 확률 분포 합계를 반환했습니다. of the Second Update: every per-case detail below illustrates how the rubric handles a real engine response. Twelve of fifteen cases achieved the ceiling composite score of 1.000 on the primary path; three cases were served via the Phase 2 fallback, losing the 0.05 latency bonus while preserving all clinical and structural content. One case was missing a single mandatory subsection; one returned a marginally reduced probability distribution sum.

사례 ID 전문 분야 종합 지연 경로

BT-001-IDA혈액학1.00017.8 s1차

BT-006-B12혈액학1.00018.4초1차

BT-007-THAL혈액학1.00017.0초1차

BT-002-HASH내분비학0.95037.0초폴백

BT-008-PCOS내분비학0.98718.6초1차

BT-003-T2DM대사1.00019.1초1차

BT-013-GOUT대사1.00019.4초1차

BT-004-NAFLD간질환학1.00019.6초1차

BT-009-VIRHEP간질환학0.95023.4초폴백

BT-014-GILBERT트랩1.00018.9초1차

BT-005-CKD신장학1.00017.4초1차

BT-010-ASCVD심장학1.00019.7초1차

BT-011-SLE류마티스내과0.98118.2초1차

BT-012-비타민D내분비학1.00019.3초1차

BT-015-건강한트랩1.00018.7초폴백

PCOS 사례(BT-008)는 응답 구조에서 단 하나의 필수 하위 섹션을 누락했는데, 16개 중 16개가 아니라 16개 중 15개였습니다. 이로 인해 구조 점수가 1.000에서 0.963으로 깎였습니다. SLE 사례(BT-011)는 임상 점수를 0.965로 떨어뜨렸지만, 모든 진단 키워드와 점수 산정 시스템은 그대로 유지한 채, 한계적으로 감소한 확률분포 합을 반환했습니다. 두 개의 완벽하지 않은 사례 모두 올바른 진단을 놓치지 않았습니다.

V11 제2 업데이트 집계 — 100,000 케이스

모집단 규모에서는 개별 케이스 행이 사람이 읽을 수 없으므로, 제2 업데이트는 100,000행 표 대신 집계 지표를 보고합니다. 주요 집계(headline aggregate)는 아래에 표시되어 있으며, 전문 분야별 및 국가별 세부 분해는 기술 보고서와 Figshare에 게시됩니다. 층화 무작위 샘플인 n = 201 원시 엔진 응답(결정론적 시드 20260426)는 검사용으로 GitHub 저장소의 results/ 디렉터리에 보존되어 있습니다. 새 실행은 기준 실행을 건드리지 않은 채 새로운 타임스탬프가 포함된 점수카드를 생성합니다. 실행 결과가 의미 있게 다르게 나온다면, 실행 타임스탬프와 응답 메타데이터에 반환된 엔진 버전으로 GitHub 이슈를 열어 주세요. 디렉터리에 게시되어 있습니다.

복합 점수 V11 초기: 0.9912 (99.12%) → 제2 업데이트: 0.9980 (99.80%) Δ = 100,000-case 코호트 전반에서 +0.0068

구조 점수(평균) V11 초기: 0.998 → 제2 업데이트: 1.000 모집단 규모에서 완벽한 구조적 적합성

임상 점수(평균) V11 초기: 0.998 → 제2 업데이트: 0.996 −0.002; 어떤 케이스도 진단 자체를 놓치지 않았습니다.

지연 시간 — 평균(범위) V11 초기: 20.17초 (17.0–37.0초) → 두 번째 업데이트: 13.26초 (9.0–16.94초) 실행 간 프로덕션 엔진 최적화

엔진 경로 = 기본(primary) V11 초기: 12/15 → 두 번째 업데이트: 100,000 / 100,000 실행 중 어느 시점에서도 2단계(Phase 2) 폴백은 필요하지 않았음

트랩-부분집합(trap-subset) 과진단(hyperdiagnosis) 플래그 V11 초기: 0/13 → 두 번째 업데이트: 0 / 87,412 인구 규모에서 거짓 양성 0건(모니터링된 8,723개 트랩 사례)

헤드라인 점수가 알려주지 않는 것

이 특정 사전 등록 루브릭에 따른 복합 점수 99.80%가, 127개 국가에 걸친 100,000개 케이스 익명 코호트에서 나온 결과로서 거의 천장(ceiling) 수준의 성능을 나타내지만—이를 신중하게 맥락화할 필요가 있습니다. 이 결과는 V11에서 소스 코드로 우리가 약속한 루브릭에 대해 엔진이 보인 동작을 설명하는 것이며, 실제 환경에서 존재하는 모든 혈액검사 패널에 대한 엔진의 정확성에 관한 보편적 주장(일반화)과는 다릅니다.

이 점수는 엔진이 평가를 위해 선택된 진단 패턴을 인구 규모 코호트에서 올바르게 처리했음을 말해줍니다. 또한 공개되어 재현 가능한 방법론에 기반합니다. 이 점수는 엔진이 실제 환경에서 존재하는 모든 혈액검사 패널에서 정확하다고 말하지 않습니다. 또한 엔진이 임상의의 판단을 대체해야 한다고 말하지 않습니다. 그리고 엔진이 다른 대안 AI 시스템보다 우수하다고 말하지도 않습니다—다른 엔진과의 비교 분석은 본 보고서의 범위에서 의도적으로 제외되었습니다.

점수가 실제로 확립하는 것은 기준선(baseline)입니다. 루브릭과 하네스(harness)가 공개되어 있으므로, 엔진의 향후 버전은 동일한 루브릭에 대해 평가될 수 있습니다—V11 초기 15개 케이스, 두 번째 업데이트의 100,000개 케이스 코호트, 또는 이후의 어떤 확장에 대해서도 말입니다. 그리고 공개된 점수와 이후 어떤 실행(run) 사이의 격차 자체가 측정 가능합니다. 이것이 사전 등록(pre-registration)의 가치입니다: 성과 주장들을 검증 가능한 주장으로 바꿉니다.

10분 안에 이 벤치마크를 재현하는 방법

재현에는 Kantesti API 자격증명 쌍과, 다음이 포함된 Python 3.10 이상 환경만 필요합니다. requests 그리고 reportlab 라이브러리가 설치되어 있어야 합니다. 전체 하네스는 MIT 라이선스 하에 공개된 단일의 독립형 Python 모듈입니다.

💻 GitHub MIT 라이선스 하네스 · 원시 응답 · 기준 실행(reference run) 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · 표준 학술 기록 🎓 리서치게이트 Publication 404175463 · V11 Second Update · 학술 발견 레이어 📄 아카데미아.edu Paper 165956808 · V11 Second Update · 학술 발견 레이어

새 실행을 위한 네 단계

하나. 저장소를 복제합니다: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. 둘. requirements.txt로 의존성을 설치합니다: pip install -r requirements.txt (두 번째 업데이트는 추가로 mysql-connector-python ≥ 8.0 을 SQL 케이스 로더에 적용합니다). 셋. 설정: KANTESTI_USERNAME 그리고 KANTESTI_PASSWORD 엔진 API의 환경 변수로 사용합니다. 두 번째 업데이트의 SQL 케이스 로더에서는 또한 다음을 설정하세요: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, 그리고 KANTESTI_DB_PASSWORD — 로더가 읽기 전용 역할을 통해 연결합니다(bench_reader) 식별 테이블에 대한 권한이 없습니다. 넷. 실행: python benchmark_bloodtest.py --limit 100000 전체 Second-Update 실행의 경우, 또는 python benchmark_bloodtest.py --limit 1000 빠른 반복을 위한 경우. 결과물은 ./benchmark_results/에 저장됩니다. 국가별 및 전문분야별 열이 있는 CSV 점수카드, JSON 집계, 층화 무작위 원시 응답 샘플, 그리고 마크다운 보고서입니다.

2026년 4월 23일(초기 V11, 15개 사례)과 2026년 4월 26일(V11 Second Update, 100,000개 사례)에서의 기준 실행은 저장소의 저장소의 results/ 디렉터리에 보존되어 있습니다. 새 실행은 기준 실행을 건드리지 않은 채 새로운 타임스탬프가 포함된 점수카드를 생성합니다. 실행 결과가 의미 있게 다르게 나온다면, 실행 타임스탬프와 응답 메타데이터에 반환된 엔진 버전으로 GitHub 이슈를 열어 주세요. 디렉터리에 보존되어 있습니다. 새 실행은 기준 실행을 변경하지 않은 채, 새 타임스탬프가 포함된 점수카드를 생성합니다. 실행 결과가 의미 있게 다르게 나온다면, GitHub 이슈를 열고 응답 메타데이터에 포함된 실행 타임스탬프와 반환된 엔진 버전을 함께 알려주세요.

한계와 향후 연구

127개 국가에 걸쳐 100,000개 사례를 사용하더라도, 네 가지 한계는 명시적으로 인정할 필요가 있습니다: 긴 꼬리 국가의 과소표집, 단일 회 평가, 단일 엔진 범위, 단일 출처 데이터 기원. 각각은 현재 후속 작업으로 다루고 있습니다.

긴 꼬리 국가 커버리지. Second Update는 127개 국가를 포함하지만 분포가 균형적이지 않습니다. 상위 10개 기여자가 전체 사례의 ≈66.4%를 차지하고, 추가 97개 국가의 긴 꼬리는 함께 ≈7.3%(총 약 7,300개 사례, 국가당 평균 약 75개 사례)를 기여합니다. 따라서 이 긴 꼬리에서의 국가별 합성값은 헤드라인 수치가 시사하는 것보다 더 노이즈가 큽니다. 향후 실행은 관할(지표)별 추정치를 확정하기 위해 과소표집된 국가에서 우선적으로 모집할 예정입니다.

단일 샷 평가. 코호트의 각 사례는 한 번만 평가되었습니다. 대규모 언어 모델은 낮은 샘플링 온도에서도 유의미한 출력 변동성을 보이므로, 각 사례당 5번의 평가를 포함하고 변동성을 보고하는 다중 실행 프로토콜이 자연스러운 다음 단계입니다. 특히 샘플링 지터에도 일관성이 안전성 주장에 포함되는 함정-사례(trap-case) 하위 집합에서 그러합니다.

단일 엔진 범위. 본 보고서는 하나의 엔진을 특성화합니다. 다른 AI 시스템과의 비교 분석은 여기서는 범위에 포함되지 않습니다. 동일한 MIT 라이선스 하네스를 사용하여 적절한 방법론으로 별도의 독립 연구로 수행할 수 있습니다.

단일 출처 데이터 기원. 100,000개 사례는 단일 임상 저장소(Kantesti SQL 기반 임상 데이터 웨어하우스)에서 가져온 익명화된 실제 환자 기록입니다. 이는 전 세계 수준에서 인구를 대표하는 무작위 추출이 아니라, 선별된 운영(프로덕션) 스트림을 반영합니다. 평가를 외부에서 제공받는 다기관 데이터로 확장하는 것은 로드맵에 포함되어 있습니다.

이 네 가지 외에도, 가장 영향력 있는 계획 확장은 관할(지표)별 다국어 동등성입니다. Kantesti AI 엔진은 75+개 언어의 사용자에게 서비스를 제공하며, 언어별로 층화한 Second-Update 하위 코호트(터키어, 독일어, 스페인어, 프랑스어, 이탈리아어, 포르투갈어, 아랍어, 만다린)를 실행하면 엔진이 지원하는 언어 전반에서 출력 품질을 정량화할 수 있습니다. 각 언어별 층화 분석은 각기 고유한 DOI와 하네스 브랜치와 함께 게시됩니다.

100,000개 사례에서 99.80% 합성 점수를 달성한 바로 그 엔진을 사용해 보세요

이 벤치마크에서 평가된 것과 동일한 프로덕션 엔드포인트에 본인의 혈액검사 패널을 업로드하세요. 전 세계 200만 명이 넘는 사용자가 Kantesti AI 엔진을 사용해 75+개 언어로 15,000개 이상의 바이오마커를 해석합니다.

🔬 무료 데모를 사용해 보세요

크롬 확장 프로그램 앱스토어 구글 플레이

📚 이 벤치마크 인용 방법

BibTeX

@techreport{klein2026kantesti_v11_second_update,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {Clinical Validation of the Kantesti AI Engine (2.78T) (2.78T)  
                 on 100,000 Anonymised Blood Test Cases Across 127  
                 Countries: A Pre-Registered, Rubric-Based,  
                 Population-Scale Benchmark Including Hyperdiagnosis  
                 Trap Cases --- V11 Second Update},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11 (Second Update)},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). 127개 국가의 100,000개 익명화 혈액검사 사례에 대한 Kantesti AI 엔진(2.78T)의 임상 검증: 과사전 등록된 루브릭 기반, 인구 규모 벤치마크(과진단 하이퍼디아그노시스 함정 사례 포함) — V11 Second Update (기술 보고서 V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 관련 Kantesti 검증 작업

Klein, T. (2025). 인공지능 기반 혈액 검사 결과 해석을 위한 임상 검증 프레임워크: 삼중맹검 검증 방법론, 성능 지표 및 품질 보증 프로토콜. Kantesti AI 의료 연구.

🎓 리서치게이트

📖 외부 방법론 참고문헌

Mentzer, W. C. (1973). 철 결핍을 지중해빈혈(지중해빈혈 소질)과 구별하기. The Lancet, 301(7808), 882.

🏥 퍼브메드

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 전신홍반루푸스에 대한 2019 유럽 류마티스학회(EULAR) / 미국 류마티스학회(ACR) 분류 기준. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 퍼브메드

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: 대규모 언어 모델을 위한 의학 도메인 환각 테스트. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%종합 점수

100,000채점된 사례

127포함 국가

0 / 87,412함정의 오탐(거짓양성)

자주 묻는 질문

실제 혈액검사 사례에서 Kantesti AI 엔진의 정확도는 어느 정도인가요?

8개 의학 전문분야와 127개 국가에 걸친 100,000개 익명화된 실제 환자 혈액검사 사례에 대해 사전 등록된 루브릭으로 평가한 결과(V11 Second Update), Kantesti AI 엔진은 합성 점수 99.80%를 달성했으며, 87,412개의 모니터링된 함정-사례(trap-case) 플래그 기회에서 과진단(하이퍼디아그노시스) 거짓양성은 0건이었습니다. 또한 평균 응답 지연 시간은 13.26초였습니다. 원래의 V11 릴리스는 동일한 루브릭을 15개의 손으로 선별한 사례에서 검증했으며(합성 99.12%), Second Update는 루브릭을 바이트 단위로 동일하게 유지하면서 평가를 인구 규모 코호트로 확장했습니다. 전문분야별 및 국가별 전체 점수카드는 DOI 10.6084/m9.figshare.32095435로 Figshare에 게시되어 있으며, MIT 라이선스 하에 GitHub에서도 확인할 수 있습니다.

Kantesti AI 엔진은 임상적으로 검증되었나요?

예. 해당 엔진은 V11 초기 실행 이전에 소스 코드에 고정(frozen)된 평가 기준(rubric)에 대해 임상적으로 검증되었고, V11 두 번째 업데이트에서도 바이트 단위로 동일하게 유지되었습니다. 혈액종양학, 내분비학, 대사의학, 간질환학(간장학), 신장학, 심장학, 류마티스학, 내과 전반에 걸쳐 127개 국가에서 수집된 100,000개의 익명화 혈액검사 사례에서 평가되었습니다. 임상 감독은 Kantesti AI의 이사회 인증 임상의 혈액전문의이자 최고 의료책임자인 Thomas Klein 박사, MD(ORCID 0009-0009-1490-1321)가 제공했습니다.

과진단(과잉진단) 함정 사례란 무엇인가요?

과잉진단(hyperdiagnosis) 함정(trap) 사례는 AI 엔진의 과잉진단(over-diagnosis) 행위를 탐지하도록 특별히 설계된 임상 시나리오입니다. V11 초기 벤치마크는 방법론적 개념 증명(proof-of-concept)으로 이러한 함정 사례 2가지를 사용했습니다. 즉, 길버트 증후군(Gilbert's syndrome)에 부합하는 고립성 간접 빌리루빈혈증(여기서 정답 해석은 간염이나 용혈이 아니라 무해한 UGT1A1 다형성)과, 완전히 정상인 성인 선별 패널(여기서 정답 출력은 조작된 경계선 병리(borderline pathology)가 아니라 안심(reassurance)입니다). V11 두 번째 업데이트는 이 함정-사례 방법론을 8,723개 사례 전용 하위 집합으로 확장하여 87,412개의 모니터링된 과잉진단 경고(flag) 기회—그리고 엔진의 오탐(false-positive) 비율은 0으로 유지되었습니다.

Kantesti AI 엔진 평가는 재현 가능하나요?

전체 평가 하네스(harness)는 MIT 라이선스로 단일의 독립 실행형 Python 모듈로 공개됩니다. V11 초기 실행에는 Kantesti API 자격 증명 쌍과 Python 3.10 이상만 필요합니다. V11 두 번째 업데이트는 Kantesti 임상-리포지토리 자격 증명이 필요한 매개변수화된 읽기 전용 SQL 케이스 로더를 추가합니다(권한이 없는 역할로, bench_reader 식별 테이블을 확인할 권한이 없습니다). 코드는 github.com/emirhanai/kantesti-blood-test-benchmark에서, 케이스 로더 SQL, 평가 기준(rubric)(릴리스 간 바이트 단위 동일), 그리고 V11 초기 및 두 번째 업데이트 기준(reference) 실행에서 나온 원시 엔진 응답의 층화 무작위 표본과 함께 제공되며, Figshare, ResearchGate, Academia.edu에서도 미러링됩니다.

Kantesti AI 엔진은 철 결핍을 베타 지중해빈혈(형질)과 어떻게 구분하나요?

해당 엔진은 멘처 지수(Mentzer index)를 적용하며, 이는 평균 적혈구 용적(MCV)을 적혈구 수(RBC)로 나눈 값으로 계산됩니다. 멘처 지수가 13보다 높으면 철결핍성 빈혈을 지지하고, 13보다 낮으면 베타-지중해빈혈 형질(beta-thalassaemia trait)을 지지합니다. V11 초기 벤치마크에서는 두 양상이 모두 명시적 멘처 지수 계산으로 정확히 분류되었고, 페리틴, RDW, HbA2의 맥락이 이를 뒷받침했습니다. V11 두 번째 업데이트 100,000개 케이스 코호트에서도 동일한 감별(differential) 양상이 집단 규모에서 보존되었습니다.

원시 벤치마크 데이터와 소스 코드는 어디에서 찾을 수 있나요?

기술 보고서는 DOI 10.6084/m9.figshare.32095435로 Figshare에 예치되어 있으며( V11 초기 릴리스와 V11 두 번째 업데이트 모두 포함), ResearchGate 출판물 404175463 및 Academia.edu 논문 165956808에도 미러링되어 있습니다—두 문서 모두 V11 두 번째 업데이트 제목과 100,000개 케이스 결과로 업데이트되어 있으며—MIT 라이선스의 Python 하네스와 모든 기준 실행 결과는 github.com/emirhanai/kantesti-blood-test-benchmark에 있습니다. 4개 플랫폼 미러 네트워크는 장기 가용성과 인용 유연성을 보장합니다.

왜 AI 의료 벤치마크에서 사전등록(pre-registration)이 중요한가요?

사전등록은 사후(후행) 루브릭 튜닝(post-hoc rubric tuning)을 막는데, 이는 기업이 운영하는 벤치마크가 자기 수치를 부풀리는 가장 흔한 단일 방식입니다. 어떤 엔진 호출 이전에 루브릭을 소스 코드에 고정하고, 하네스를 공개적으로 게시하면 루브릭 작성자의 날짜가 버전 관리에서 검증 가능해지며, 엔진 결과가 채점 기준을 형성할 수 없게 됩니다.

이 벤치마크에 다른 AI 엔진과의 비교가 포함되나요?

아닙니다. V11 보고서—초기 릴리스와 두 번째 업데이트 모두—대체 상용 시스템과의 비교 위치를 잡기보다는, 고정된 평가 기준(rubric) 하나에 대해 단일 엔진을 의도적으로 특성화(characterise)합니다. 하네스는 MIT 라이선스의 오픈 소스(현재 SQL 케이스 로더 포함)이므로, 독립 연구자들이 자신이 선택한 어떤 엔진이든 동일한 평가 기준과 케이스 로더에 대해 평가하고 자신의 결과를 게시할 수 있습니다.

환자 사례는 실제인가요, 합성(synthetic)인가요?

모든 케이스는 서면 동의 하에 Kantesti 임상 데이터 리포지토리에서 가져온 실제 환자 기록을 익명화한 것입니다—V11 초기 릴리스의 15개는 수작업으로 선별(hand-curated)된 케이스이고, V11 두 번째 업데이트의 100,000개 케이스는 모두 동일한 익명화된 SQL 기반 리포지토리에서 가져왔습니다. 비식별화는 Safe Harbor 접근 방식으로 수행되었으며, 모든 직접 식별자는 기록 시점에 제거하거나 대체했습니다. 두 번째 업데이트 벤치마크 로더는 식별 테이블에 대한 권한이 없는 읽기 전용 역할을 통해 연결됩니다(bench_reader)—이는 데이터베이스 수준에서 강제됩니다. 처리는 GDPR 제9조(2)(j) 및 이에 상응하는 영국 GDPR 조항에 따라 수행되었습니다. 공개된 하네스, 기술 보고서, 배포된 데이터셋에는 개인을 식별할 수 있는 정보가 나타나지 않습니다.

⚕️ 의료 고지 & 이해상충

이 벤치마크 보고서는 연구 및 방법론적 투명성 목적을 위한 것입니다. 이는 의학적 조언을 구성하지 않습니다. 진단 및 치료 결정에는 항상 자격을 갖춘 의료 제공자와 상담하세요. 두 저자는 Kantesti Ltd에 고용되어 있으며 지분을 보유하고, 평가 대상 엔진은 동일 조직의 상용 제품입니다. 이러한 이해상충은 루브릭을 소스 코드에 사전등록하고, 하네스를 MIT 라이선스로 공개하며, 모든 원시 엔진 응답을 게시함으로써 완화됩니다.

E-E-A-T 신뢰 신호

⭐

경험

사례 패널 선정 감독을 포함한 15년 이상의 임상 혈액학 및 검사실 의학 실무 경력.

📋

전문적 지식

명시적 과진단 페널티가 포함된 사전등록 루브릭 설계 및 인정된 임상 점수 체계(Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

권위

제1저자 Thomas Klein 박사, MD(ORCID 0009-0009-1490-1321). 구현(Implementation)은 Kantesti Ltd의 CEO인 Julian Emirhan Bulut이 담당.

🛡️

신뢰성

MIT 라이선스의 재현 가능한 하네스, 원시 엔진 응답 공개, 오픈 이해상충 공개, 4개 플랫폼 연구 미러 네트워크.

🏢 칸테스티 LTD 잉글랜드 및 웨일스에 등록 · 회사 번호. 17090423 런던, 영국 · 칸테스티.넷