Kantesti AI血液検査ベンチマーク

自動ベンチマーク事前登録ベンチマーク V11 第2回アップデート — 2026年4月 MITライセンス再現可能 · オープンデータ 10万件合成コホート · 127の国ラベル

事前登録済みのルーブリックに基づく99.80%の複合スコア — V11 第2回アップデート、127の国ラベルにまたがる10万件ケースのコホート

127の国ラベルが付与された10万件の合成血液検査ケースに対する、Kantestiエンジンの事前登録済みのルーブリックに基づく自動化技術ベンチマーク。診断精度ではなく出力の適合性を測定する。ルーブリックはV11の最初のリリース前にソースコードで凍結され、この第2回アップデートでもバイト同一のまま維持された。評価ハーネスはMITライセンスであり、検査用に生のエンジン応答の層化ランダムサンプルが公開されている。すべてのケースは合成であり、個人データは使用されない。.

📖 約14分 📅 2026年4月23日公開 · 2026年4月26日更新（V11 第2回アップデート） 🔗 DOI： 10.6084/m9.figshare.32095435

📝 公開： 2026年4月23日 🔄 V11 第2回アップデート： 2026年4月26日 🩺 医学的監修： 2026年4月26日 ✅ 事前登録済みルーブリック（バイト同一） 🔓 オープンなコード＆データ

この自動ベンチマークは、ジュリアン・エミルハン・ブルット, 、Kantesti LtdのシニアAIエンジニア兼CEOによって設計され、実行されました。採点はソースコード内で完全に自動化されており、採点基準とケースパネルは、トーマス・クライン博士（医学博士）, 、Kantesti AIの最高医療責任者（Chief Medical Officer）からの臨床的な入力をもとに開発され、カンテスティAI医療諮問委員会. 。これは独立した、または査読済みの自動化技術ベンチマークではなく、自己実行の社内ベンチマークである。.

主執筆者＆臨床監督

トーマス・クライン医学博士

カンテスティAI最高医療責任者

トーマス・クライン博士は、15年以上の臨床検査医学の経験を持つ、ボード認定の臨床血液学者兼内科医である。Kantesti AIの最高医療責任者として、彼は本ベンチマークのケースパネルを選定し、合成ケースの臨床内容と期待回答をレビューし、最初のエンジン呼び出しの前に事前登録済みのルーブリックを承認した。.

ORCID 0009-0009-1490-1321 リサーチゲート Google Scholar

共著者＆実装

ジュリアン・エミルハン・ブルット

シニアAIエンジニア＆CEO、Kantesti Ltd

Julian Emirhan BulutはKantesti Ltdの創業者兼CEOです。彼は評価ハーネスを設計・実装しました（V11 第2回アップデートのために追加されたSQLケースローダを含む）。API統合を実施し、V11初回の参照実行とV11第2回アップデートの10万ケース実行の両方を行い、統計的集計を準備しました。2019年からプラットフォームの創業者。.

GitHub Kantestiについて

⚡ 簡単な概要 V11 第2回アップデート — 2026年4月26日

99.80% 複合スコア 8つの医療専門分野と127の国ラベルにまたがる10万件の合成血液検査ケース（V11 第2回アップデート）。.
過剰診断（ハイパーディアグノーシス）の偽陽性ゼロ 監視された87,412件のトラップケースフラグ機会にわたって — V11初回と同一のトラップケース手法を、母集団レベルにスケール。.
事前登録済みの評価基準 V11初回実行の前にソースコードで凍結され、 バイト同一のまま維持されました。 今回の第2回アップデートでは — 後からの調整（ポストホックチューニング）は不可能でした。.
メンツァー指数を正しく適用 V11初回リリースにおいて鉄欠乏性貧血とβサラセミア小症を区別するために；その差分挙動は母集団規模でも維持されました。.
本番エンドポイントのみ — 特別なルーティングはなく、支払う顧客とまったく同じ方法で評価した。.
平均レイテンシ 13.26秒 エンドツーエンド（範囲 9.0〜16.94秒）。すべての10万ケースがエンジンの主要パスで完了しました。.
合成コホート。. 実行時に読み込まれる10万件の合成生成テストケース。合成データも個人データも使用しない。.
MITライセンスのハーネス GitHubで公開：検査用に、エンジンの完全な生応答の層化ランダムサンプル（n = 201）をリリース。.
Figshare DOI: 10.6084/m9.figshare.32095435 ・ResearchGate、Academia.edu、GitHubにミラーリング。.

このベンチマークが存在する理由と、何をテストするのか

AIによる血液検査の読み方は、消費者向けおよび臨床のワークフローでますます使われているが、検査医学に合わせて再現可能な評価枠組みを提供することは依然として一般的ではない。この状況で最も重要なのは、一般的な医療QAベンチマークで扱われるものではない問いである：平均赤血球容積が同一でも、エンジンは鉄欠乏とサラセミア（ヘテロ接合体）を分けられるのか、肝炎としてギルバート症候群を過剰診断しないか、そして完全に正常なスクリーニングパネルで病理を“作り出す”ことはないのか？

単一の血液検査パネルには、通常、複数の競合する解釈を支えるだけの十分な情報が含まれています。そして、解釈する臨床医の仕事は、教科書的な答えを取り出すことではなく、それらの解釈を互いに比較して重み付けすることです。教科書的なケースでうまくいくエンジンでも、最も重要なケースでは失敗することがあります。鑑別診断の落とし穴、単独で見ると不安を招く良性のバリアント、そして、完全に正常なパネルが自信のあるアシスタントに病理を“作り出させてしまう”ケースです。.

このベンチマークは、まさにそうした失敗モードを想定して構築されました。15の各ケースは、特定の診断特性のために選ばれています。たとえば、同一の平均赤血球容積（MCV）を持つβサラセミア特性と区別して維持しなければならない鉄欠乏性の小球性、異常が単独の間接型高ビリルビン血症のみであるギルバート症候群の提示、そして15パラメータのスクリーニングパネルで、すべての検体（アナライト）が基準範囲内に収まっているケースです。ルーブリックは、各ケースをその条件に即して読み取るエンジンを評価し、そのような診断が妥当でないのに自信をもって診断に到達しようとするエンジンを減点します。.

Thomas Klein, MDとして、私はこのケースパネルを選びました。なぜなら、これらは私が実験室医学のアシスタントが最も頻繁に間違えるパターンだからです。. 高コストな失敗モードは「まれな疾患を見逃すこと」ではありません。そうではなく、それを持っていない患者に日常的な病理を"捏造する"ことです。. 私たちの医学的検証 hubはより広い枠組みを説明している。このページでは、V11の初期の概念実証と、それを127の国ラベルにまたがる合成ケースセットから抽出した10万件の合成ケースへと拡張したV11 第2回アップデートを説明する。同一の採点ルーブリック、バイト同一であり、事後のチューニングは許可されていない。.

15件から10万件へ：127の国ラベルにまたがるコホートの進化

元のV11ケースパネルは7つの専門分野（血液学、内分泌学、代謝医学、肝臓学、腎臓学、心臓病学、リウマチ学）に加え、専用のハイパー診断トラップケース2件を含み、各ケースは合成生成された血液検査パネルであった。V11 第2回アップデートでは評価を 127の国ラベルにまたがる10万件の合成ケースへ拡張する, 8つの専門領域に分配されます（元の7つに加え、トラップのサブセットを吸収する専用の内科バケット）。同じ採点ルーブリックが、両方の実行でバイト単位で同一に適用されます。.

すべてのケースが合成生成であるため、除去すべき実在の識別子はなく、個人データも関与しない。各合成ケースにはベンチマーク内部のケースコード（V11の初期セットではBT-NNN-LABEL、第2回アップデートでは安定した case_uid ）が付与される。公開されたハーネス、技術レポート、リリースされたデータセットのいずれにも個人データは登場しない。.

V11初期リリース—15件の手作業で厳選したケース

元のV11ケースパネルは、診断パターンのうち、検査医学のアシスタントが最も頻繁に誤るものを検証するために、トーマス・クライン博士が手作業で厳選しました。15件の各ケースは、以下に示す特定の診断特性に基づいて選定されました。.

血液学（3） BT-001、BT-006、BT-007 鉄欠乏性貧血 · B12欠乏 · βサラセミア（軽症）

内分泌学（3） BT-002、BT-008、BT-012 橋本病 · インスリン抵抗性を伴うPCOS · 重度のビタミンD欠乏症

代謝（2） BT-003、BT-013 代謝性症候群を伴う2型糖尿病（T2DM） · 痛風リスクを伴う高尿酸血症

肝臓学（2） BT-004、BT-009 NAFLD / NASH · 急性ウイルス性肝炎

腎臓学 · 心臓病学 · リウマチ学（3） BT-005、BT-010、BT-011 CKDステージ3 · 動脈硬化性脂質異常症 · 全身性エリテマトーデス

トラップケース（2） BT-014、BT-015 ギルバート症候群（孤立性の間接型高ビリルビン血症） · 成人のスクリーニングは完全に正常

なぜこの特定の分布なのか

血液学は3件です。微小球性の鑑別と大球性の鑑別が、実世界の検査業務における最大の“落とし穴”の高頻度領域だからです。内分泌学も3件です。橋本病、PCOS、ビタミンD欠乏症の提示は、診断の形が異なるためです（自己抗体主導、ホルモン比主導、単一マーカー主導）。単一症例の専門領域がなお意味を持つのは、CKD、ASCVDリスク、SLEのそれぞれに独自の採点システムがあり、エンジンが呼び出すべきもの（それぞれKDIGOステージング、ASCVD 10年リスク、2019 EULAR/ACR SLE基準）を持っているからです。.

V11 第2回アップデート — 127の国ラベルにまたがる10万件の合成ケース

第2回アップデートは、元のV11の15ケースのハードコードされたPythonリテラルを、より大きなプログラム生成の合成ケースセットに置き換える。ケースセットは毎回の実行の開始時に読み込まれ、透明性のため構成がログに記録される。内容領域ごとのコホート分布を以下に示す。.

内分泌学 23,900件（23.9%）甲状腺、PCOS、ビタミンD、性腺軸、下垂体

代謝医学 21,900件（21.9%） T2DM、代謝症候群、脂質パネル、高尿酸血症

血液学 15,400件（15.4%）小球性および大球性の鑑別、B12/葉酸、鉄検査

肝臓学 12,400件（12.4%） NAFLD/NASH、ウイルス性肝炎、FIB-4、胆汁うっ滞

内科（トラップサブセットを含む） 9,000件（9.0%）混合症例および8,723件の専用ハイパー診断トラップケース

心臓病学 7,500件（7.5%） ASCVDリスク、動原性脂質異常症、hs-CRP

免疫学（リウマチ学） 6,000件（6.0%） SLE、RA、血管炎、自己抗体パネル（EULAR/ACR基準）

腎臓学 4,000件（4.0%） CKDステージング（KDIGO）、eGFRの推移、電解質異常

合成の国ラベル分布 — 上位10ラベル

10万件の合成ケースには、ロケール処理を検証するために127の国ラベル（ISO 3166-1 alpha-2）が付与されている。ラベル割り当て：ヨーロッパ57.7%、アメリカ大陸25.4%、アジア太平洋6.2%、指定された中東/アフリカのラベル3.4%、そして残り97の追加ラベルのロングテールが合計で約7.3%。ケース数で最も頻度が高い10のラベルは、米国（10,500）、ブラジル（9,500）、スペイン（9,000）、イタリア（8,000）、ドイツ（7,800）、フランス（7,400）、ポルトガル（5,800）、トルコ（3,400）、英国（2,900）、メキシコ（2,500）である。ラベルごとの複合スコアは0.9971から0.9985の範囲だった。これらのラベル数は、ロケール処理を検証するために用いられた生成ケースの特性であり、実在のユーザーや現実世界の地理的カバレッジを表すものではない。.

事前登録済みルーブリックの解説

事前登録（pre-registration）は、このベンチマークにおける最も重要な方法論上の選択です。想定されるすべての診断、すべての臨床採点システム、そしてすべてのレポート各セクションは、エンジンを呼び出す前にソースコードとして固定されていました。 エンジンが呼び出される前に. したがって、エンジンを持ち上げるための事後的なルーブリック調整は不可能です。.

合成スコアは3つの要素で構成されます。 構造要素 は35％を占め、エンジンが7つの必須レポートセクション（ヘッダー、要約、主要所見、鑑別、採点システム、推奨、フォローアップ）と、それらの中にある16の必須サブセクションを返したかどうかを測定します。セクションの有無は構造計算内で40％、サブセクションの有無は60％の重みです。.

の 臨床要素 は55％を占め、3つを組み合わせます。診断キーワードの想起（臨床サブスコアの70％）、採点システムの想起（20％—該当する場合、エンジンがMentzer、FIB-4、HOMA-IR、ASCVDリスク、KDIGOステージング、EULAR/ACR基準を計算するか）、および確率合計の妥当性チェック（10％—鑑別の確率が[90, 110]の範囲内に合計されるべき）です。落とし穴症例では、作為的な病理フラグ1件につき0.10として計算され、最大3件までの明示的な過剰診断ペナルティ（最大0.30）が差し引かれます。.

の レイテンシ要素 は10％を占めます。20秒未満の応答は満点の0.10、40秒未満は0.05、それより遅い場合は0です。20秒の目標は、プロダクションの一次パスのサービスレベル目標を反映しています。40秒の上限は、重いエンジン呼び出しに対するフェーズ2のフォールバック予算を反映しています。.

事前登録が防ぐもの

第1者ベンチマークは、事後的なルーブリック調整によって自分たちの数値を水増しすることで悪名高いです。そのパターンはほぼ常に同じです。チームがエンジンを実行し、どこで不足しているかを見てから、うまくいっていない領域の重みが小さくなるように、こっそりルーブリックを調整します。最初のエンジン呼び出しの前にルーブリックをソースコードとしてコミットし、ハーネスをMITライセンスで公開することで、その調整はバージョン管理上で可視化されます。誰でもリポジトリをクローンし、ルーブリックの作成日を確認し、エンジン結果が採点の形作りに使われていないことを検証できます。.

過剰診断トラップ症例 — なぜ「呼び過ぎ」が本当の失敗モードなのか

正常な画面での病理の過剰な断定は、一般向け医療アシスタントにおける既知の失敗モードとして記録されています。その下流コストには、不必要な精査、患者の不安、そして医原性の精査が含まれます。このベンチマークの2つの落とし穴症例は、その失敗モードを可視化し、採点可能にするよう設計されています。.

🟡 落とし穴1 — BT-014-GILBERT

提示。. 総ビリルビンが2.4 mg/dLの24歳男性。直接分画は正常で、トランスアミナーゼとアルカリホスファターゼは基準範囲内にあり、網赤血球は目立った異常がなく、ハプトグロビンとLDHは溶血を否定します。.

正しい解釈。. ギルバート症候群—良性のUGT1A1多型。解釈では、肝炎、肝硬変、溶血性貧血、または胆道閉塞を想起してはなりません。.

V11の結果。. 合成スコア1.000。監視された6つの過剰診断フラグはいずれも、能動的な診断としては現れませんでした。.

🟡 落とし穴2 — BT-015-HEALTHY

提示。. 15パラメータの定期スクリーニング・パネルを受けた35歳の女性。すべての検査項目は基準範囲内にきちんと収まっている。.

正しい解釈。. 安心材料の提示と生活習慣の維持。解釈は、臨床的に有用に見せるために境界域の病態を作り出してはならない。.

V11の結果。. 複合スコア1.000。7つの監視された過剰診断フラグ（糖尿病、貧血、甲状腺機能低下症、脂質異常症、肝炎、腎疾患、欠乏症）はいずれも、能動的な診断としては現れなかった。.

両方のトラップで、13の監視された過剰診断（ハイパー）フラグを確認した。いずれも作動しなかった。これは、AIエンジンをトリアージや受診前のツールとして使おうと考えるあらゆる臨床家にとって、最も重要な結果である。 システムは、存在しない病気をでっち上げなかった。.

メンツァー指数：鉄欠乏とサラセミア（ヘテロ接合体）を見分ける

2つ目の高価値な所見は、症例BT-001（鉄欠乏性貧血）と症例BT-007（βサラセミア小人症）を組み合わせた点に関する。いずれも小球性を呈し、素人の分類器にとってはよくあるつまずきどころである。MCVをRBC数で割って算出するMentzer指数は、鉄欠乏では13を超え、サラセミアの素因では13未満となる。.

BT-001では、患者は34歳の女性で、ヘモグロビン10.4 g/dL、MCV 72.4 fL、RBC 4.1 × 10¹²/L、フェリチン6 ng/mL、そしてTIBCの上昇がみられた。約17.7のMentzer指数は、絶対的な鉄欠乏を支持する。BT-007では、患者は28歳の男性で、小球性（MCV 65.8 fL）がある一方、RBC数は6.2と高く、RDWは正常、フェリチンは正常、HbA2は5.6パーセントであった。約10.6のMentzer指数はサラセミアの素因を示し、上昇したHbA2がβサラセミア小人症を裏付ける。.

鉄欠乏性貧血 Mentzer > 13 フェリチン低値、TSAT低値、TIBC高値、RDW上昇

βサラセミアの素因 Mentzer < 13 フェリチン正常、RDW正常、HbA2上昇（>3.5%）、RBC数高値

両症例ともスコアは1.000だった。エンジンは両方の解釈でMentzer指数を明示的に用い、それぞれのケースで正しい診断を返した。. これは、ベンチマーク全体の中で最も臨床的に安心できる単一の結果である。, というのも、サラセミアの素因を鉄欠乏として誤分類すると、不適切な鉄補充につながり、家族スクリーニングの機会を逃すからであり、また鉄欠乏をサラセミアとして誤分類すると、単純な置換療法の開始が遅れる。私たちの鉄フェリチンの範囲ガイドは、より広い鑑別の文脈を説明する。.

V11 初期リファレンス実行からのケース別結果（2026年4月23日）

15ケースのPoC（概念実証）コホートに対する元のV11リファレンス実行が、第2回アップデートの方法論的基盤です。以下の各ケースの詳細は、ルーブリックが実際のエンジン応答をどのように扱うかを示しています。15件中12件は主要パスで一次天井の複合スコア1.000を達成しました。3件はフェーズ2のフォールバックで提供され、臨床的および構造的な内容はすべて維持しつつ、0.05のレイテンシボーナスを失いました。1件は必須のサブセクションを1つ欠いていました。1件は確率分布の合計がわずかに減少して返されました。 V11 第2回アップデート集計 — 100,000ケース.

症例ID 専門領域複合レイテンシパス

BT-001-IDA血液学1.00017.8 sprimary

BT-006-B12血液学1.00018.4秒primary

BT-007-THAL血液学1.00017.0秒primary

BT-002-HASH内分泌学0.95037.0秒フォールバック

BT-008-PCOS内分泌学0.98718.6秒primary

BT-003-T2DM代謝1.00019.1秒primary

BT-013-GOUT代謝1.00019.4秒primary

BT-004-NAFLD肝臓学1.00019.6秒primary

BT-009-VIRHEP肝臓学0.95023.4秒フォールバック

BT-014-GILBERTトラップ1.00018.9秒primary

BT-005-CKD腎臓学1.00017.4秒primary

BT-010-ASCVD心臓病学1.00019.7秒primary

BT-011-SLE免疫学（リウマチ学）0.98118.2秒primary

BT-012-VITD内分泌学1.00019.3秒primary

BT-015-HEALTHYトラップ1.00018.7秒フォールバック

PCOSの症例（BT-008）は、応答構造における必須の小見出しを1つ失いました――16/16ではなく15/16でした。その結果、構造スコアが1.000から0.963に減少しました。SLEの症例（BT-011）は、診断キーワードと採点システムをすべて保持したまま、臨床スコアを0.965に引き下げる、わずかに減少した確率分布の合計を返しました。どちらの「不完全」な症例も、正しい診断を見逃しませんでした。.

人口規模では、個々のケース行は人間が読めないため、第2回アップデートでは100,000行の表ではなく集計指標を報告します。主要な集計は以下に示します。専門分野別および国別の内訳は、技術レポートとFigshareのデポジットで公開されます。層化ランダムサンプルの

人口規模では、個々のケース行は人間が読めないため、第2回アップデートでは10万行の表ではなく集計指標を報告する。主要な集計は以下に示す。専門分野ごよび国ラベルごとの内訳は、技術レポートとFigshareのデポジットで公開されている。層化ランダムサンプルの 生のエンジン応答（決定論的シード ）は、検査のためにGitHub 20260426ディレクトリに公開されています。 results/ 複合スコア.

V11 初期：0.9912（99.12%）→ 第2回アップデート： Δ = 100,000ケース・コホート全体で+0.0068 0.9980 (99.80%) 構造スコア（平均）

V11 初期：0.998 → 第2回アップデート：人口規模での完全な構造適合 1.000 臨床スコア（平均）

−0.002；ケース自体で診断を見逃したものはありません人口規模での完全な構造適合 0.996 −0.002; no case missed the diagnosis itself

レイテンシー — 平均（範囲） V11 初期：20.17 秒（17.0〜37.0 秒）→ 第2回アップデート： 13.26 秒（9.0〜16.94 秒） 実行間のプロダクション・エンジン最適化

エンジンのパス＝プライマリ V11 初期：12 / 15 → 第2回アップデート： 100,000 / 100,000 実行中のいかなる時点でもフェーズ2のフォールバックは不要だった

トラップ・サブセットの過剰診断フラグ V11 初期：0 / 13 → 第2回アップデート： 0 / 87,412 人口規模での偽陽性ゼロ（8,723件のトラップ症例を監視）

見出しスコアが教えてくれないこと

この特定の事前登録済みルーブリックにおける99.80パーセントの複合スコアであり、127の国ラベルにまたがる10万ケースの合成コホートに対するものは、ほぼ天井に近い性能を示すが、慎重な位置づけが必要である。その結果は、V11でソースコードにコミットしたルーブリックに対するエンジンの挙動を記述するものであり、野外に存在するあらゆる血液検査パネルに対してエンジンが正しいことを普遍的に主張するものではない。.

このスコアは、評価のために選定された診断パターンを、人口規模のコホートに対して、公開され再現可能な方法論に基づき、エンジンが正しく処理したことを示している。野外に存在するあらゆる血液検査パネルに対してエンジンが正しいとは言っていない。エンジンが臨床家の判断に取って代わるべきだとも言っていない。そして、他のAIシステムが上回るかどうかについても言っていない——他のエンジンとの比較分析は、本報告書の範囲外として意図的に除外されている。.

スコアが確立しているのはベースラインである。ルーブリックとハーネスが公開されていれば、将来のエンジンのバージョンは同じルーブリックに対して評価できる——V11初期の15症例、第2回アップデートの100,000件コホート、あるいはその後の拡張のいずれにも適用でき、公開されたスコアとその後の実行との差は、それ自体が測定可能である。これが事前登録の価値である： パフォーマンス主張を、検証可能な主張へと変換する.

このベンチマークを10分で再現する方法

再現には、KantestiのAPI認証情報ペアと、Python 3.10以降の環境があれば十分です。 requests そして reportlab ライブラリがインストールされていること。完全なハーネスは、MITライセンスの下で公開された単一の自己完結型Pythonモジュールです。.

💻 GitHub MITライセンスのハーネス · 生の応答 · 参照実行 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · 標準的な学術記録 🎓 リサーチゲート Publication 404175463 · V11 第2回アップデート · 学術的発見レイヤー 📄 アカデミア.edu Paper 165956808 · V11 第2回アップデート · 学術的発見レイヤー

新しい実行のための4つのステップ

1つ目。. リポジトリをクローンします： git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. 2つ。. 次のコマンドで依存関係をインストールします。 pip install -r requirements.txt （第2回アップデートでは追加： mysql-connector-python ≥ 8.0 SQLケースローダー用）。. 3つ。. 次を設定します。 KANTESTI_USERNAME そして KANTESTI_PASSWORD エンジンAPIの環境変数として。第2回アップデートのSQLケースローダーでは、さらに次も設定する： KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER、そして KANTESTI_DB_PASSWORD — ローダーは読み取り専用ロール経由で接続します（bench_reader）そのロールには、テーブルの特定に関する権限がありません。. 4つ。. 次を実行します。 python benchmark_bloodtest.py --limit 100000 完全な Second-Update 実行の場合、または python benchmark_bloodtest.py --limit 1000 迅速な反復のため。出力は ./benchmark_results/：国別ラベルおよび専門領域別の列を持つ CSV スコアカード、JSON 集計、層化ランダムな生応答サンプル、および Markdown レポート。.

参照実行は、2026年4月23日（V11初回、15症例）および2026年4月26日（V11 Second Update、100,000症例）で、リポジトリの results/ ディレクトリに保存されています。新しい実行では、参照実行を変更せずに、新しいタイムスタンプ付きスコアカードが生成されます。実行結果が有意に異なる場合は、実行タイムスタンプと、応答メタデータに返されたエンジンバージョンを添えてGitHub issueを開いてください。.

限界と今後の課題

127 の国別ラベルにまたがる 100,000 件でも、次の 4 つの制限は明示的に認める必要があります：ロングテール・ラベルのアンダーサンプリング、単発評価、単一エンジンの範囲、単一ソースのデータ出自。これらはいずれも、現在進行中のフォローアップ作業で対応しています。.

ロングテール・ラベルのカバレッジ。. 第 2 回更新は 127 の国別ラベルにまたがりますが、分布は不均衡です。上位 10 ラベルが症例の ≈66.4% を占め、残り 97 のラベルからなるロングテールが ≈7.3%（合計で約 7,300 件、ラベルあたり平均約 75 件）に寄与しています。したがって、このロングテールにおけるラベル別コンポジットは、見出しの数値が示唆するよりもノイズが多くなります。今後の実行では、ラベル割り当てを再調整して、ラベル別推定を確かなものにします。.

単回評価。. コホート内の各症例は1回だけ評価されました。大規模言語モデルは、低いサンプリング温度でも無視できない出力のばらつきを示すため、症例ごとに5回評価し、ばらつきを報告する複数回実行プロトコルは、自然な次のステップです。特に、サンプリングのジッター下でも一貫性が安全性主張の一部であるトラップケースのサブセットでは重要です。.

単一エンジンの範囲。. 本レポートは1つのエンジンを特徴づけています。代替のAIシステムとの比較分析はここでは対象外です。必要な方法論を用い、同じMITライセンスのハーネスに対して、別の独立した研究として追求する可能性があります。.

合成データ。. 100,000 件は合成的に生成されたものであり、合成症例ではありません。また、結果は現実世界の臨床パフォーマンスには転用できません。この合成ベンチマークに対して、実データ（同意を得た、外部ソース由来のもの）で評価するには、適切な倫理的監督が必要であり、本合成ベンチマークの範囲外です。.

これら4つに加えて、最もインパクトの大きい計画拡張は、管轄ごとの多言語パリティです。Kantesti AI Engine は75+言語でユーザーに提供されており、言語別に層化した Second-Update のサブコホート（トルコ語、ドイツ語、スペイン語、フランス語、イタリア語、ポルトガル語、アラビア語、マンダリン）を実行することで、エンジンが対応する各言語における出力品質を定量化します。各言語別の分析は、それぞれ独自のDOIとハーネスブランチとともに公開されます。.

100,000症例で99.80%の複合スコアを達成したのと同じエンジンを試す

このベンチマークで評価されたのと同じ本番エンドポイントに、あなた自身の血液検査パネルをアップロードしてください。世界中で2,000,000人以上のユーザーが、Kantesti AIエンジンを使って、75+の言語で15,000以上のバイオマーカーを解釈しています。.

🔬 無料デモを試す

Chrome拡張機能アプリストア Google Play

📚 このベンチマークの引用方法

BibTeX

@techreport{klein2026kantesti_v11_second_update,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {Kantesti 血液検査解釈エンジンのための 100,000 件の合成テストケースに基づく、事前登録済み・ルーブリックベースの自動化技術ベンチマーク  
                 --- V11 第 2 回更新},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11（第 2 回更新）},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti 血液検査解釈エンジンのための 100,000 件の合成テストケースに基づく、事前登録済み・ルーブリックベースの自動化技術ベンチマーク — V11 第 2 回更新（技術レポート V11 Second Update）。Kantesti Ltd。. https://doi.org/10.6084/m9.figshare.32095435

📖 外部の方法論に関する参考文献

Mentzer, W. C. (1973). 鉄欠乏とサラセミア特性の鑑別. The Lancet, 301(7808), 882.

🏥 パブメッド

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019年欧州リウマチ学会／米国リウマチ学会分類基準：全身性エリテマトーデス. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 掲載日 🏥 パブメッド

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT：大規模言語モデル向け医療領域幻覚テスト. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%複合スコア

100,000採点された症例

127対象国別ラベル

0 / 87,412トラップの偽陽性

よくある質問

合成テストケースにおけるKantesti AIエンジンの精度はどの程度ですか？

事前登録済みのルーブリックに基づき、8 つのコンテンツ領域および 127 の国別ラベルにわたる 100,000 件の合成的に生成されたテストケースで実行（V11 第 2 回更新）したところ、エンジンはコンポジットスコア 99.80 パーセントに到達しました。監視対象のトラップケース機会 87,412 件すべてで過剰診断フラグは 0 であり、平均応答遅延は 13.26 秒でした。このコンポジットは、合成入力に対する出力の適合性を測定するものであり、診断精度を測定するものではありません。元の V11 リリースでは、同じルーブリックを 15 件の手作りケース（コンポジット 99.12%）に適用しました。第 2 回更新では、ルーブリックをバイト同一のまま維持し、より大規模な合成コホートへ拡張しています。完全なスコアカードは、Figshare で DOI 10.6084/m9.figshare.32095435 として公開されており、GitHub では MIT ライセンスのもとで公開されています。.

Kantesti AIエンジンは臨床的に検証されていますか？

いいえ。エンジンは、自動化された技術ベンチマーク（臨床的バリデーションではない）として評価されました。V11 の初回実行の前にソースコードで凍結され、V11 第 2 回更新ではバイト同一のまま維持されたルーブリックに基づき、127 の国別ラベルから抽出した、血液学、内分泌学、代謝医学、肝臓学、腎臓学、循環器学、リウマチ学、内科学の合成血液検査ケース 100,000 件で評価されています。臨床的な監督は、Dr. Thomas Klein, MD（ORCID 0009-0009-1490-1321）によって提供されました。彼は Kantesti AI における、ボード認定の臨床血液専門医であり、Chief Medical Officer です。.

ハイパー診断のトラップ症例とは何ですか？

ハイパー診断トラップ症例とは、AIエンジンの過剰診断行動を検出するために特別に設計された臨床シナリオです。V11の最初のベンチマークでは、方法論的な概念実証として、そのような症例を2つ使用しました。1つは、ギルバート症候群に一致する孤立性の間接ビリルビン高値（正しい解釈は、肝炎や溶血ではなく良性のUGT1A1多型）であり、もう1つは、完全に正常な成人のスクリーニングパネル（正しい出力は、作為的な境界病変ではなく安心の提示）です。V11第2アップデートでは、このトラップ症例の手法を専用のサブセットである8,723件に拡張し、監視されたハイパー診断フラグの機会は87,412件となりました。そして、エンジンの偽陽性率はゼロのままでした。.

Kantesti AIエンジンの評価は再現可能ですか？

完全な評価ハーネスは、MITライセンスの下で単一の自己完結型Pythonモジュールとして公開されています。V11の最初の実行には、KantestiのAPI認証情報ペアとPython 3.10以降のみが必要です。V11第2アップデートでは、パラメータ化された読み取り専用のSQL症例ローダーが追加され、Kantestiの臨床リポジトリ認証情報が必要です（a bench_reader テーブル同定に関する権限を持たないロール）。コード、症例ローダーのSQL、ルーブリック（リリース間でバイト同一）、およびV11の最初の実行と第2アップデートの参照実行の両方からの層化ランダムな生エンジン応答サンプルは、github.com/emirhanai/kantesti-blood-test-benchmarkで入手でき、Figshare、ResearchGate、Academia.eduでもミラーされています。.

KantestiのAIエンジンは、鉄欠乏症とベータサラセミアの保因者（trait）をどのように区別しますか？

エンジンはメンツァー指数を適用します。メンツァー指数は、平均赤血球容積（MCV）を赤血球数で割って算出されます。メンツァー指数が13を超える場合は鉄欠乏性貧血を支持し、13未満の場合はβサラセミア特性を支持します。V11の最初のベンチマークでは、これら2つの提示はいずれも、明示的なメンツァー指数の計算によって正しく分類されました。さらに、フェリチン、RDW、HbA2の文脈によって裏付けられています。V11第2アップデートの100,000ケースのコホート全体でも、同じ鑑別行動が集団規模で維持されました。.

生のベンチマークデータとソースコードはどこで入手できますか？

技術レポートは、DOI 10.6084/m9.figshare.32095435のFigshareに預託されています（V11の最初のリリースとV11第2アップデートの両方を対象）。ResearchGateの出版物404175463およびAcademia.eduの論文165956808でもミラーされており、いずれもV11第2アップデートのタイトルと100,000ケースの結果で更新されています。MITライセンスのPythonハーネスと、すべての参照実行結果はgithub.com/emirhanai/kantesti-blood-test-benchmarkにあります。4つのプラットフォームのミラーネットワークにより、長期的な利用可能性と引用の柔軟性が確保されます。.

なぜAI医療ベンチマークにおいて事前登録が重要なのか？

事前登録は、事後的なルーブリック調整を防ぐ。これは、企業が運営するベンチマークが自社の数値を水増しする最も一般的な方法である。ルーブリックを、エンジン呼び出しの前にソースコードへコミットし、ハーネスを公開することで、ルーブリック作成者の作成日がバージョン管理で検査可能になり、エンジン結果が採点基準を形作ることはできなくなる。.

このベンチマークには他のAIエンジンとの比較が含まれているか？

いいえ。V11レポート（最初のリリースと第2アップデートの両方）は、代替の商用システムに対して位置付けるのではなく、固定されたルーブリックに対して単一のエンジンを意図的に特徴付けています。ハーネスはMITライセンスのオープンソースです（現在はSQL症例ローダーを含む）ため、独立した研究者は、同じルーブリックと症例ローダーに対して任意のエンジンを評価し、自身の結果を公開できます。.

患者の症例は実データか合成データか？

すべてのケースは合成的に生成されています。V11 初回リリースの 15 件の手作りケースと、第 2 回更新の 100,000 件です。合成症例ではありません。合成データ、同意プロセス、ならびに非識別化は関与していません。なぜなら、コホート内に個人データが存在しないためです。公開されたハーネス、技術レポート、またはリリースされたデータセットには、個人データは一切含まれていません。.

⚕️ 医療に関する免責事項 & 利益相反

本ベンチマーク報告書は、研究および方法論の透明性のためのものです。これは医療助言を構成するものではなく、診断でもなく、専門的な医療ケアの代替でもありません。ここに示された結果を、医師の受診を遅らせたり回避したりするために用いるべきではありません。診断および治療の判断については、必ず有資格の医療提供者に相談してください。これは、同社の自社エンジンに対する自己実施の社内ベンチマークであり、独立して検証または査読されたものではありません。複合スコアは、固定された採点基準（レポート構造、キーワードおよび採点システムのリコール、ならびにレイテンシ）への適合を測定するものであり、現実世界における診断の正確性や臨床的安全性を測定するものではありません。両著者はKantesti Ltdに雇用されており持分（エクイティ）を保有しており、評価対象のエンジンは同一組織の商用製品です。この利益相反は、採点基準をソースコードで事前登録し、MITライセンスのもとでハーネスを公開し、さらに生のエンジン応答の層化ランダムサンプルを公表することで軽減されています。.

E-E-A-T 信頼性シグナル

⭐

経験

症例パネル選定を監督する、15年以上の臨床血液学および検査医学の実務経験。.

📋

専門知識

事前登録済みルーブリック設計：明示的なハイパー診断ペナルティと、認知された臨床スコアリングシステム（Mentzer、FIB-4、EULAR/ACR、KDIGO）。.

👤

権威

主著者 Dr. Thomas Klein, MD（ORCID 0009-0009-1490-1321）。実装：Julian Emirhan Bulut（Kantesti LtdのCEO）。.

🛡️

信頼性

MITライセンスの再現可能なハーネス、生のエンジン応答を公開、オープンな利益相反の開示、4プラットフォームの研究ミラーネットワーク。.

🏢 カンテスティ株式会社 イングランドおよびウェールズに登録 · 会社番号. 17090423 ロンドン、イギリス · kantesti.net