Kantesti AI血液检测基准—

自动化基准测试预先注册的基准测试 V11 第二次更新——2026年4月基于MIT许可可复现 · 开放数据 10万合成队列 · 127个国家标签

在预先注册的评分量表上的99.80%综合得分——V11第二次更新，覆盖127个国家标签的10万例队列

一个预注册、基于评分量表的自动化技术基准，用于在 100,000 个合成血液检测用例上评估 Kantesti 引擎，并为其标注 127 个国家标签。它衡量输出符合性，而非诊断准确性。评分量表在 V11 初始发布之前已在源代码中冻结，并在本次第二次更新中保持字节级一致；评估测试框架采用 MIT 许可；发布了用于审查的分层随机抽样的引擎原始响应。所有用例均为合成数据；不使用任何个人数据。.

📖 约14分钟 📅 2026年4月23日发布 · 更新于2026年4月26日（V11第二次更新） 🔗 DOI： 10.6084/m9.figshare.32095435

📝 发表： 2026年4月23日 🔄 V11第二次更新： 2026年4月26日 🩺 医学审阅： 2026年4月26日 ✅ 预先注册评分标准（字节级一致） 🔓 开放代码与数据

该自动化基准测试由以下人员设计并运行：朱利安·埃米尔汉·布鲁特, ，Kantesti Ltd 的资深 AI 工程师兼首席执行官。评分完全在源代码中自动化；评分标准和案例评审面板由托马斯·克莱因医学博士, ，Kantesti AI 的首席医疗官提供临床输入，并由 Kantesti AI 医疗顾问委员会. 。这是一个自运行的内部基准，而非独立或经同行评审的自动化技术基准。.

主要作者与临床监督

托马斯·克莱因，医学博士

Kantesti AI首席医疗官

Thomas Klein博士是一名获得董事会认证的临床血液科医生兼内科医生，拥有超过15年的实验室医学经验。作为Kantesti AI的首席医疗官，他为本次基准选择了案例面板，审阅了合成案例的临床内容与预期答案，并在首次调用引擎之前批准了预先注册的评分量表。.

ORCID 0009-0009-1490-1321 ResearchGate 谷歌学术

合著者与实施

朱利安·埃米尔汉·布鲁特

资深AI工程师兼CEO，Kantesti Ltd

Julian Emirhan Bulut 是 Kantesti Ltd 的创始人兼首席执行官。他设计并实现了评估测试框架——包括为V11第二次更新新增的SQL病例加载器——完成API集成，分别执行了V11首次参考运行与V11第二次更新的10万例运行，并准备了统计汇总。自2019年以来担任该平台创始人。.

GitHub 关于坎泰斯蒂

⚡ 快速概要 V11第二次更新—— 2026年4月26日

99.80%综合评分 在八个医学专科、127 个国家标签下的 100,000 个合成血液检测用例（V11 第二次更新）。.
零“过度诊断”假阳性 覆盖87,412个被监测的陷阱病例标记机会——与V11首次相同的陷阱病例方法，并扩展到人群层面。.
预先注册的评分量表 在V11首次运行之前已在源代码中冻结，并保持 字节级一致 用于本次第二次更新——无法进行事后调参。.
正确应用 Mentzer 指数 用于在V11首次发布中区分缺铁性贫血与β地中海贫血轻型；这种差异化行为在群体规模上得以保留。.
仅生产端点 — 不存在特权路由，评估方式与付费客户访问时完全一致。.
平均端到端延迟13.26秒 端到端（范围9.0–16.94秒），且所有10万例都在引擎的主路径上完成。.
合成队列。. 运行时加载的10万例合成生成测试案例。不使用任何合成数据，也不使用任何个人数据。.
MIT 许可的测试框架 在GitHub上发布：包含用于检查的分层随机样本（n = 201）的完整引擎原始响应。.
Figshare DOI: 10.6084/m9.figshare.32095435 · 已同步到 ResearchGate、Academia.edu、GitHub。.

为什么需要这个基准测试，以及它测试什么

AI辅助的血液检查解读在消费端与临床工作流程中正被越来越多地使用，但针对实验室医学、可复现的评估框架仍然较为少见。在这种场景下最关键的问题并不包含在通用医学问答基准中：当平均红细胞体积相同的情况下，某个引擎能否将缺铁与地中海贫血携带状态区分开？它会不会把吉尔伯特综合征误诊为肝炎？它是否会在一份完全正常的筛查面板中“编造”病理结果？

一份单独的血液检测面板通常包含足够的信号来支持多种相互竞争的解读，而解读临床医生的工作并不是去检索教科书式的标准答案，而是要在这些解读之间进行权衡。一台在教科书案例上表现出色的引擎，仍可能在最关键的病例上失败：包括鉴别诊断中的常见陷阱、那些在单独看时看起来令人警惕但本质良性的变异，以及那些完全正常的面板——它们会诱使自信的助手去“编造”病理结果。.

这个基准正是围绕这些失败模式构建的。15 个案例中的每一个都被选中以体现某种特定的诊断特性：一种缺铁性小细胞性贫血，必须与具有相同平均红细胞体积（MCV）的β地中海贫血（β-地贫）携带者特征区分开；一种吉尔伯特综合征的表现，其中唯一异常是孤立的间接胆红素升高；以及一个15 项参数的筛查面板——每一种分析指标都位于其参考范围之内。评分规则奖励能够按各自情境解读每个案例的引擎，并惩罚那些在并不适用该诊断的情况下仍给出“自信诊断”的引擎。.

作为 Thomas Klein，MD，我选择这个案例面板，因为这些是实验室医学领域的助手最常弄错的模式。. 昂贵的失败模式并不是"漏掉一种罕见疾病"——而是在那些并没有该疾病的患者身上编造常规病理。. 我们的医学验证 hub描述了更广泛的框架；本页描述V11首次概念验证以及V11第二次更新如何将其扩展到10万例合成案例，这些案例来自一个覆盖127个国家标签的合成案例集——使用相同的评分量表、字节级一致，并且不允许进行事后调整。.

从15例到10万例：跨127个国家标签的队列演进

原始V11案例面板涵盖七个专科——血液学、内分泌学、代谢医学、肝病学、肾脏病学、心脏病学、风湿病学——以及两个专门的超诊断陷阱案例；每个案例均为合成生成的血液检测面板。V11第二次更新将评估扩展到 覆盖127个国家标签的10万例合成案例, ，分布在八个专科中（原七个加上一个专门的内科桶，用于吸收陷阱子集）。两次运行中均以相同的评分量表在字节层面完全一致地应用。.

因为所有案例都是合成生成的，所以没有真实标识符需要移除，也不涉及任何个人数据。每个合成案例都携带一个基准测试框架内部的案例代码（在V11首次集合中为BT-NNN-LABEL，第二次更新中为稳定的 case_uid ）。在已发布的测试框架、技术报告或已发布的数据集中，任何地方都不会出现个人数据。.

V11 初始发布——15 个人工策划病例

原始V11病例面板由Thomas Klein博士手工精心挑选，旨在涵盖实验室医学助理最常出错的诊断模式。以下列出了15个病例各自被选中的特定诊断属性。.

血液学（3） BT-001、BT-006、BT-007 缺铁性贫血 · 维生素B12缺乏 · 轻型β地中海贫血

内分泌学（3） BT-002、BT-008、BT-012 自身免疫性甲状腺炎（桥本甲状腺炎）· 合并胰岛素抵抗的PCOS · 严重维生素D缺乏

代谢（2） BT-003、BT-013 2型糖尿病（T2DM）合并代谢综合征 · 高尿酸血症伴痛风风险

肝病学（2） BT-004、BT-009 NAFLD / NASH · 急性病毒性肝炎

肾脏病学 · 心脏病学 · 风湿病学（3） BT-005、BT-010、BT-011 3期慢性肾脏病（CKD stage 3）· 动脉粥样硬化性血脂异常 · 系统性红斑狼疮

陷阱案例（2） BT-014、BT-015 吉尔伯特综合征（孤立性间接高胆红素血症）· 完全正常的成人筛查

为什么是这种特定分布

血液学之所以有三个案例，是因为在真实世界的实验室实践中，小细胞性鉴别诊断和大细胞性鉴别诊断是最高频的“陷阱”。内分泌学也有三个案例，因为甲状腺炎（Hashimoto）、多囊卵巢综合征（PCOS）以及维生素D缺乏的表现形式会呈现出不同的诊断形态（由自身抗体驱动、由激素比例驱动、由单一标志物驱动）。单一案例的专科仍然有意义，因为慢性肾脏病（CKD）、动脉粥样硬化性心血管疾病（ASCVD）风险以及系统性红斑狼疮（SLE）各自都有独立的评分体系，模型引擎应当调用（分别为KDIGO分期、ASCVD 10年风险、以及2019年EULAR/ACR SLE标准）。.

V11第二次更新——覆盖127个国家标签的10万例合成案例

第二次更新用一个更大的、通过程序生成的合成案例集，替换了原始V11中硬编码的15例Python字面量。案例集在每次运行开始时加载，并记录配置以便透明。下方展示了按内容领域划分的队列分布。.

内分泌学 23,900例（23.9%）甲状腺、PCOS、维生素D、性腺轴、垂体

代谢医学 21,900例（21.9%） T2DM、代谢综合征、血脂面板、高尿酸血症

血液学 15,400例（15.4%）小细胞性与大细胞性鉴别诊断、B12/叶酸、铁代谢检查

肝病学 12,400例（12.4%） NAFLD/NASH、病毒性肝炎、FIB-4、胆汁淤积

内科（含陷阱子集） 9,000例（9.0%）混合表现以及8,723个专门用于“超诊断陷阱”的病例

心脏病学 7,500例（7.5%） ASCVD风险、动脉粥样硬化相关的脂质异常、hs-CRP

风湿病学 6,000例（6.0%） SLE、RA、血管炎、自身抗体面板（EULAR/ACR标准）

肾脏病学 4,000例（4.0%） CKD分期（KDIGO）、eGFR趋势、电解质紊乱

合成国家标签分布——前 10 个标签

这 100,000 个合成用例携带 127 个国家标签（ISO 3166-1 alpha-2），用于测试地区/语言环境（locale）处理能力。标签分配：欧洲 57.7%，美洲 25.4%，亚太 6.2%，命名的中东/非洲标签 3.4%，以及其余 97 个标签构成的长尾合计约 7.3%。按用例数量计，出现最频繁的十个标签是：美国（10,500）、巴西（9,500）、西班牙（9,000）、意大利（8,000）、德国（7,800）、法国（7,400）、葡萄牙（5,800）、Türkiye（3,400）、英国（2,900）和墨西哥（2,500）。各标签的综合得分范围为 0.9971 至 0.9985。这些标签计数是用于测试地区/语言环境处理的生成用例的属性——它们并非真实用户，也不代表真实世界的地理覆盖范围。.

预先注册的评分规则：解析

预注册（pre-registration）是本基准中最重要的的方法学选择。每一个预期诊断、每一个临床评分系统，以及每一个报告部分，都在调用引擎之前被提交到源代码中之后. 。因此，为了迎合引擎而对评分量表（rubric）进行事后微调是不可能的。.

复合总分由三个部分构成。结构部分贡献35%，并衡量引擎是否返回了七个强制报告部分（页眉、摘要、关键发现、鉴别诊断、评分系统、建议、随访）以及其中的十六个强制子部分。在结构计算中，章节存在性占40%，子章节存在性占60%。 contributes 35 percent and measures whether the engine returned the seven mandatory report sections (header, summary, key findings, differential, scoring systems, recommendations, follow-up) and the sixteen mandatory subsections within them. Section presence weighs 40 percent and subsection presence weighs 60 percent within the structural calculation.

这 临床部分 贡献55%，并将三项内容合并：诊断关键词回忆（占临床子分的70%）、评分系统回忆（20%——在相关情况下，引擎是否计算Mentzer、FIB-4、HOMA-IR、ASCVD风险、KDIGO分期、EULAR/ACR标准），以及概率求和有效性校验（10%——鉴别诊断的概率之和应落在[90, 110]区间内）。对于陷阱案例，会额外减去最高0.30的显式过度诊断惩罚，计算方式为每个伪造的病理标记扣0.10，最多不超过三个标记。.

这 延迟部分 贡献10%。响应在20秒以内得满分0.10，40秒以内得0.05，超过则得0分。20秒目标反映生产环境的主要路径服务级目标；40秒上限反映第2阶段对重引擎调用的备用预算。.

预注册所能阻止的事情

第一方基准（first-party benchmarks）以通过事后对评分量表进行微调来“抬高”自身数字而臭名昭著。其模式几乎总是相同：团队运行引擎，看到哪里表现不足，然后悄悄调整评分量表，让表现不佳的部分权重更低。通过在第一次调用引擎之前将评分量表提交到源代码，并以MIT许可证发布测试框架，这种调整就会在版本控制中变得可见。任何人都可以克隆仓库，查看评分量表作者日期，并验证引擎结果没有被用来塑造评分。.

过度诊断陷阱病例——为什么“过度报高”才是真正的失败模式

在正常筛查结果上对病理进行激进“过度判定”是面向消费者的医疗助手中已被记录的一种失败模式。其下游成本包括不必要的检查、患者焦虑以及医源性检查流程。该基准中的两个陷阱案例被设计用来让这种失败模式变得可见且可量化评分。.

🟡 陷阱1 — BT-014-GILBERT

病例呈现。. 一名24岁男性，总胆红素为2.4 mg/dL。直接胆红素分级正常，转氨酶和碱性磷酸酶位于各自参考范围内，网织红细胞无显著异常，结合珠蛋白和LDH排除溶血。.

正确解读。. 吉尔伯特综合征——一种良性的UGT1A1多态性。解读不应涉及肝炎、肝硬化、溶血性贫血或胆道梗阻。.

V11结果。. 复合得分1.000。六个被监测的过度诊断标记中，没有任何一个以活动诊断的形式出现。.

🟡 陷阱2 — BT-015-HEALTHY

病例呈现。. 一名35岁女性，常规筛查面板包含十五个参数。每一项分析指标都舒适地落在其参考范围内。.

正确解读。. 安心与生活方式维护。解读不应为了听起来在临床上“有用”而人为编造临界性病理。.

V11结果。. 复合评分 1.000。被监测的七个过度诊断警示——糖尿病、贫血、甲状腺功能减退、血脂异常、肝炎、肾脏疾病、缺乏——均未作为活动性诊断出现。.

在两个陷阱中，共检查了十三个被监测的高估诊断警示。均未触发。这是对任何考虑使用AI引擎作为分诊或就诊前工具的临床医生而言最重要的结果： 系统并未在不存在疾病的情况下编造疾病.

Mentzer指数：区分缺铁性贫血与地中海贫血携带特征

第二个高价值发现涉及病例 BT-001（缺铁性贫血）与病例 BT-007（轻型β地中海贫血）的配对。两者都表现为小细胞性改变，这是对初学分类器而言的常见绊脚石。Mentzer 指数按 MCV 除以 RBC 计，缺铁性贫血中该指数超过 13，而地中海贫血性状中则低于 13。.

在 BT-001 中，患者为34岁女性，血红蛋白 10.4 g/dL，MCV 72.4 fL，RBC 4.1 × 10¹²/L，铁蛋白 6 ng/mL，且 TIBC 升高。约 17.7 的 Mentzer 指数支持绝对缺铁。在 BT-007 中，患者为28岁男性，存在小细胞性改变（MCV 65.8 fL），但 RBC 计数高达 6.2，RDW 正常，铁蛋白正常，HbA2 为 5.6%。约 10.6 的 Mentzer 指数指向地中海贫血性状，而升高的 HbA2 证实为轻型β地中海贫血。.

缺铁性贫血 Mentzer > 13 铁蛋白低、TSAT 低、TIBC 高、RDW 升高

β地中海贫血性状 Mentzer < 13 铁蛋白正常、RDW 正常、HbA2 升高（>3.5%）、RBC 计数高

两个病例的评分均为 1.000。引擎在两次解读中都明确调用了 Mentzer 指数，并在每个实例中给出了正确诊断。. 这是整个基准测试中最具临床安心感的单一结果, ，因为将地中海贫血性状误判为缺铁会导致不恰当的补铁，并错过家族筛查机会；而将缺铁性贫血误判为地中海贫血会延误直接的替代治疗。我们的铁蛋白范围指南解释了更广泛的鉴别诊断背景。.

来自V11初始参考运行的逐例结果（2026年4月23日）

原始V11参考运行基于15例概念验证队列，其作为第二次更新的方法学基础：下文每个逐例细节都展示了评分规则如何处理真实的引擎响应。在主路径上，15例中的12例达到了1.000的最高综合评分；3例通过第二阶段的后备方案提供，失去了0.05的延迟奖励，但保留了所有临床与结构内容。1例缺少一个单一的必需小节；1例返回了略微降低的概率分布总和。 of the Second Update: every per-case detail below illustrates how the rubric handles a real engine response. Twelve of fifteen cases achieved the ceiling composite score of 1.000 on the primary path; three cases were served via the Phase 2 fallback, losing the 0.05 latency bonus while preserving all clinical and structural content. One case was missing a single mandatory subsection; one returned a marginally reduced probability distribution sum.

病例编号专科综合延迟路径

BT-001-IDA血液学1.00017.8 sprimary

BT-006-B12血液学1.00018.4 秒primary

BT-007-THAL血液学1.00017.0 秒primary

BT-002-HASH内分泌学0.95037.0 秒备用方案

BT-008-PCOS内分泌学0.98718.6 秒primary

BT-003-T2DM代谢1.00019.1 秒primary

BT-013-GOUT代谢1.00019.4 秒primary

BT-004-NAFLD肝病学1.00019.6 秒primary

BT-009-VIRHEP肝病学0.95023.4 秒备用方案

BT-014-GILBERT陷阱1.00018.9 秒primary

BT-005-CKD肾脏病学1.00017.4 秒primary

BT-010-ASCVD心脏病学1.00019.7 秒primary

BT-011-SLE风湿病学0.98118.2 秒primary

BT-012-VITD内分泌学1.00019.3 秒primary

BT-015-HEALTHY陷阱1.00018.7 秒备用方案

该多囊卵巢综合征（PCOS）案例（BT-008）在响应结构中丢失了一个强制性小节——从“十六个中的十五个”变为“十六个中的十六个”——这使结构得分从 1.000 降至 0.963。系统性红斑狼疮（SLE）案例（BT-011）返回了一个边际降低的概率分布求和结果，使临床得分降至 0.965，同时保留了每一个诊断关键词和评分体系。两个未达满分的案例都没有漏掉正确诊断。.

V11第二次更新汇总——10万例

在规模化人群层面，单个用例行不可读，因此第二次更新报告的是汇总指标，而不是包含 100,000 行的表格。下面展示主要汇总结果；各专科及各国家标签的细分在技术报告和 Figshare 存档中发布。分层随机抽样的 n = 201 原始引擎响应（确定性种子 20260426）会发布在GitHub results/ 目录中供检查。.

综合评分 V11初始：0.9912（99.12%）→ 第二次更新： 0.9980 (99.80%) Δ = +0.0068（覆盖10万例队列）

结构评分（均值） V11初始：0.998 → 第二次更新： 1.000 在总体规模下实现完美的结构一致性

临床评分（均值） V11初始：0.998 → 第二次更新： 0.996 −0.002；没有任何病例漏掉诊断本身

延迟——平均值（范围） V11 初始：20.17 秒（17.0–37.0 秒）→ 第二次更新： 13.26 秒（9.0–16.94 秒） 各次运行之间的生产引擎优化

引擎路径 = 主路径 V11 初始：12 / 15 → 第二次更新： 100,000 / 100,000 运行期间任何时刻都不需要进行第二阶段（Phase 2）回退

陷阱子集超诊断（hyperdiagnosis）标志 V11 初始：0 / 13 → 第二次更新： 0 / 87,412 在人群规模下零误报（监测了 8,723 个陷阱病例）

标题评分并不能告诉我们的内容

在这个特定的预先注册评分量表下，针对覆盖127个国家标签的10万例合成队列获得99.80%的综合得分，代表接近天花板的表现——但仍需要进行谨慎的界定。该结果描述的是引擎在V11中我们承诺写入源代码的评分量表下的行为；它并不是对现实世界中存在的每一个血液检测面板的普遍正确性所作的通用主张。.

该得分表明，引擎在该评估所选取的诊断模式上，能够在面向人群规模的队列中正确处理；所采用的方法学已发布且可复现。它并不表示引擎对现实世界中存在的每一项血液检查面板都一定是正确的。它也不表示引擎应当取代临床医生的判断。也不表示引擎优于其他替代的 AI 系统——本报告对与其他引擎的对比分析刻意不在范围内。.

该得分真正确立的是一个基线。随着评分规则和测试框架（harness）公开，未来版本的引擎可以在同一评分规则下进行评估——应用于 V11 初始的 15 例、第二次更新的 100,000 例队列，或任何后续扩展——而已发布得分与任何后续运行之间的差距本身就是可衡量的。这就是预先注册的价值： 它将性能主张转化为可检验的主张.

如何在10分钟内复现该基准

复现只需要一组 Kantesti API 凭证，以及一个包含以下条件的 Python 3.10 或更高版本环境： requests 和 reportlab 已安装这些库。完整的测试框架是一个在 MIT 许可下发布的单一、独立的 Python 模块。.

💻 GitHub MIT 许可的测试框架 · 原始响应 · 参考运行 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · 规范的学术记录 🎓 ResearchGate Publication 404175463 · V11 第二次更新 · 学术发现层 📄 Academia.edu Paper 165956808 · V11 第二次更新 · 学术发现层

重新运行的四个步骤

第一步。. 克隆仓库： git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. 第二步。. 使用以下命令安装依赖项： pip install -r requirements.txt （第二次更新增加 mysql-connector-python ≥ 8.0 用于 SQL 案例加载器）。. 三。. 设置 KANTESTI_USERNAME 和 KANTESTI_PASSWORD 作为引擎 API 的环境变量。对于第二次更新的 SQL 案例加载器，还需设置 KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER，和 KANTESTI_DB_PASSWORD — 加载器通过只读角色连接（bench_reader）该角色对识别表没有任何权限。. 四。. 运行 python benchmark_bloodtest.py --limit 100000 用于完整的 Second-Update 运行，或 python benchmark_bloodtest.py --limit 1000 用于快速迭代。输出将落在 ./benchmark_results/：一个包含按国家标签与专科列的 CSV 评分卡、一个 JSON 汇总、一个分层随机的原始响应样本，以及一份 Markdown 报告。.

2026 年 4 月 23 日的基准运行（V11 初始，15 个病例）以及 2026 年 4 月 26 日的基准运行（V11 Second Update，100,000 个病例）被保存在仓库的 results/ 目录中。新的运行将生成一个新的带时间戳的评分卡，同时不会更改基准运行。如果你的运行产生了显著不同的结果，请在 GitHub 上提交 issue，并附上运行时间戳以及响应元数据中返回的引擎版本。.

局限性与未来工作

即使在 127 个国家标签下的 100,000 个用例中，仍有四项限制值得明确承认：长尾标签的抽样不足、单次评估、单引擎范围以及单一数据来源的来源性。上述问题正在进行中的后续工作中被逐一处理。.

长尾标签覆盖。. 第二次更新覆盖 127 个国家标签，但分布不均衡——前 10 个标签占据了约 66.4% 的用例，而其余 97 个标签的长尾合计贡献约 7.3%（合计约 7,300 个用例，平均每个标签约 75 个用例）。因此，这些长尾中的各标签综合得分比标题数据所暗示的更嘈杂。未来的运行将重新平衡标签分配，以巩固各标签估计。.

单次评估。. 该队列中的每个病例仅评估一次。即使在较低的采样温度下，大语言模型也会表现出不可忽视的输出方差，因此采用多次运行协议——每个病例进行五次评估并报告方差——是自然的下一步，尤其是在陷阱病例子集上；在该子集中，采样抖动下的一致性是安全性主张的一部分。.

单引擎范围。. 本报告刻画的是一个引擎。与其他替代 AI 系统的比较分析不在此范围内；我们可能会在同一套 MIT 许可的测试框架下，使用合适的方法学，将其作为一项独立研究另行开展。.

合成数据。. 这10万例是合成生成的，而不是“合成案例”，且结果不能迁移到真实世界的临床表现。在真实的、获得同意的、外部来源数据上进行评估将需要适当的伦理监督，并且不在此合成基准的范围之内。.

除上述四点外，最具影响力的计划扩展是按司法辖区实现多语言一致性。Kantesti AI 引擎为 75+ 种语言的用户提供服务；运行按语言分层的 Second-Update 子队列（土耳其语、德语、西班牙语、法语、意大利语、葡萄牙语、阿拉伯语、普通话）将量化引擎支持语言范围内的输出质量。每个按语言分层的分析将以各自的 DOI 和测试框架分支发布。.

尝试同一款实现了在 100,000 个病例上获得 99.80% 综合评分的引擎

将你自己的血液检查项目面板上传到本基准评估所使用的同一生产端点。超过200万名全球用户使用Kantesti AI引擎，在75+种语言中解读超过15,000个生物标志物。.

🔬 免费试用演示版

Chrome 扩展程序 App Store Google Play

📚 如何引用本基准

BibTeX

@techreport{klein2026kantesti_v11_second_update,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {A Pre-Registered, Rubric-Based Automated Technical  
                 Benchmark of the Kantesti Blood-Test Interpretation  
                 Engine on 100,000 Synthetic Test Cases  
                 --- V11 Second Update},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11 (Second Update)},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). 基于评分量表的预注册自动化技术基准：Kantesti 血液检测解读引擎在 100,000 份合成测试用例上的表现——V11 第二次更新 （技术报告 V11 Second Update）。Kantesti Ltd。. https://doi.org/10.6084/m9.figshare.32095435

📖 外部方法学参考文献

Mentzer, W. C. (1973). 从地中海贫血携带者特征中区分缺铁.。《柳叶刀》，301(7808)，882。.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., 等。(2019). 2019年欧洲抗风湿病联盟（EULAR）/美国风湿病学会（ACR）对系统性红斑狼疮的分类标准.。《风湿病学与免疫学》（Arthritis & Rheumatology），71(9)，1400–1412。.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT：用于大型语言模型的医学领域幻觉测试.。 CoNLL 2023论文集。.

🔗 ACL Anthology

99.80%综合评分

100,000评分案例数

127覆盖的国家标签

0 / 87,412陷阱假阳性

常见问题

Kantesti AI 引擎在合成测试用例上的准确性有多高？

在预注册的评分量表上，于八个内容领域、127 个国家标签的 100,000 份合成生成测试用例中运行（V11 第二次更新），该引擎达成 99.80% 的综合得分；在 87,412 个被监测的“陷阱用例”机会中，零“过度诊断”标记，平均响应延迟为 13.26 秒。该综合指标衡量合成输入的输出一致性，而非诊断准确性。V11 初始版本在 15 个手工构建用例上使用了相同的评分量表（综合得分 99.12%）；第二次更新保持评分量表字节级一致，并将其扩展到更大的合成队列。完整记分卡已在 Figshare 上发布（DOI 10.6084/m9.figshare.32095435），并在 GitHub 上以 MIT 许可发布。.

Kantesti AI引擎是否经过临床验证？

不。该引擎已通过自动化技术基准（非临床验证）进行评估：使用的评分量表在 V11 初始运行之前已在源代码中冻结，并在 V11 第二次更新中保持字节级一致；评估基于跨血液学、内分泌学、代谢医学、肝病学、肾病学、心脏病学、风湿病学和内科的 100,000 个合成血液检测用例，并从 127 个国家标签中抽取。临床监督由 Dr. Thomas Klein, MD（ORCID 0009-0009-1490-1321）提供；其为董事会认证的临床血液科医生，并担任 Kantesti AI 的首席医疗官。.

什么是“过度诊断陷阱”病例？

“过度诊断陷阱（hyperdiagnosis trap）”案例是专门设计的临床情景，用于检测AI引擎的过度诊断行为。V11首次基准使用了两类此类案例作为方法学概念验证：一种是与吉尔伯特综合征（Gilbert's syndrome）一致的孤立性间接胆红素升高（正确解读应为良性的UGT1A1多态性，而不是肝炎或溶血）；另一种是完全正常的成人筛查面板（正确输出应是安抚/无需担忧，而不是人为制造的临界病理）。V11第二次更新将该陷阱案例方法学扩展到一个专门的8,723例子集，产生87,412个被监测的“过度诊断”标记机会——而引擎的假阳性率保持为零。.

Kantesti AI引擎评估结果是否可重复？

完整的评估测试框架在MIT许可下以单个自包含的Python模块形式发布。V11首次运行仅需一组Kantesti API凭证对以及Python 3.10或更高版本。V11第二次更新增加了一个参数化、只读的SQL案例加载器，该加载器需要Kantesti临床仓库凭证（一个 bench_reader 对识别表没有任何权限的角色）。代码、案例加载器SQL、量表（两次发布之间逐字节一致），以及来自V11首次运行与第二次更新参考运行的分层随机抽样的原始引擎响应，均可在github.com/emirhanai/kantesti-blood-test-benchmark获取，并在Figshare、ResearchGate和Academia.edu上镜像发布。.

Kantesti AI引擎如何区分缺铁性贫血与β地中海贫血携带者特征？

该引擎应用Mentzer指数，其计算方式为平均红细胞体积（MCV）除以红细胞计数。Mentzer指数高于13支持缺铁性贫血，而低于13支持β地中海贫血（β-地贫）携带特征。在V11首次基准中，这两种表现均通过明确的Mentzer指数计算被正确分类，并结合铁蛋白、RDW以及HbA2的语境支持。在V11第二次更新的10万例队列中，这种相同的鉴别行为在群体规模上得以保持。.

我在哪里可以找到原始基准数据和源代码？

技术报告已存放在Figshare，DOI为10.6084/m9.figshare.32095435（涵盖V11首次发布与V11第二次更新），并在ResearchGate发布404175463和Academia.edu论文165956808上镜像发布——两者均已更新为V11第二次更新标题与10万例结果——以及在github.com/emirhanai/kantesti-blood-test-benchmark提供了MIT许可的Python测试框架及所有参考运行结果。四平台镜像网络确保长期可用性与引用灵活性。.

为什么预注册（pre-registration）对AI医学基准很重要？

预注册可以防止事后对评分量表进行调参（post-hoc rubric tuning），这是公司主导的基准最常见的“抬高自身数字”的方式。通过在任何引擎调用之前将评分量表提交到源代码，并公开发布测试框架，评分量表作者的发布日期就能在版本控制中被核查，而引擎结果不可能影响评分标准的制定。.

这个基准是否包含与其他AI引擎的比较？

不。V11报告——无论是首次发布还是第二次更新——刻意将单一引擎与固定量表进行表征，而不是将其定位为与其他商业系统对比。该测试框架在MIT许可下为开源（现已包含SQL案例加载器），因此独立研究者可以选择任何引擎，使用同一量表与案例加载器进行评估，并发布他们的结果。.

这些患者案例是真实的还是合成的？

所有用例均为合成生成——V11 初始版本中为 15 个手工构建用例，第二次更新中为 100,000 个。它们并非“合成数据”用例：不涉及任何合成数据、不涉及同意流程，也不涉及去标识化，因为该队列中不存在个人数据。已发布的 harness、技术报告或已发布的数据集中均未出现任何个人数据。.

⚕️ 医疗免责声明与利益冲突

本基准测试报告用于研究与方法学透明目的。不构成医疗建议，不是诊断，也不能替代专业医疗服务；此处的任何结果都不应被用于延迟或避免就医。就诊断与治疗决策而言，请始终咨询合格的医疗服务提供者。本公司对自身引擎进行的自运行内部基准测试尚未经过独立验证或同行评审。综合评分衡量对固定评分标准的符合程度（报告结构、关键词与评分系统的召回，以及延迟）；它并不衡量真实世界的诊断准确性或临床安全性。两位作者受雇于 Kantesti Ltd 并持有其股权，被评估的引擎也是同一组织的商业产品。通过在源代码中预先注册评分标准、在 MIT 许可下发布测试框架，并发布分层随机抽样的原始引擎响应来降低利益冲突。.

E-E-A-T信任信号

⭐

经验

15年以上的临床血液学与检验医学实践经验，负责监督案例面板的选择。.

📋

专业知识

预注册的评分量表设计：包含明确的过度诊断惩罚，并采用已认可的临床评分系统（Mentzer、FIB-4、EULAR/ACR、KDIGO）。.

👤

权威

牵头作者Dr. Thomas Klein，医学博士（ORCID 0009-0009-1490-1321）。由Julian Emirhan Bulut（Kantesti Ltd首席执行官）实施。.

🛡️

可信度

采用MIT许可的可复现实验框架（harness），已发布原始引擎响应；公开披露无利益冲突；四平台研究镜像网络。.

🏢 Kantesti LTD 在英格兰与威尔士注册 · 公司编号。. 17090423 英国伦敦 · kantesti.net