لماذا يوجد هذا المعيار وماذا يختبر
يتم بشكل متزايد استخدام تحليل الدم بالذكاء الاصطناعي في سير العمل الاستهلاكي والسريري، ومع ذلك تظل أطر التقييم القابلة لإعادة الإنتاج والمصممة لطب المختبرات غير شائعة. الأسئلة الأكثر أهمية في هذا السياق ليست تلك التي يغطيها معيار عام للإجابة عن الأسئلة الطبية: هل يمكن لمحرك أن يفصل نقص الحديد عن سِمة الثلاسيميا عندما تكون الحُجيمات الكروية المتوسطة متطابقة، وهل يفرط في تشخيص Gilbert's syndrome على أنه التهاب كبدي، وهل يُنشئ أمراضًا في لوحة فحص طبيعية بالكامل؟
لوحة تحليل دم واحدة عادةً تحتوي على إشارة كافية لدعم عدة تفسيرات متنافسة، ومهمة الطبيب/الطبيبة المفسِّر/ة هي موازنة تلك التفسيرات فيما بينها بدل البحث عن جواب من كتاب مدرسي. محرّك ينجح في الحالات المدرسية قد يفشل مع الحالات الأكثر أهمية: فخاخ التشخيص التفريقي، والاختلافات الحميدة التي تبدو مقلقة عند النظر إليها وحدها، واللوحات الطبيعية تمامًا التي تُغري المساعدين الواثقين بصناعة “مرض” غير موجود.
تم بناء هذا المعيار تحديدًا حول أنماط الفشل تلك. تم اختيار كل واحدة من الحالات الخمس عشرة لخاصية تشخيصية معيّنة: نقص الحديد مع صِغَر الكريات (microcytosis) يجب الحفاظ على تمييزه عن سِمة بيتا-ثالاسيميا (beta-thalassaemia) مع نفس متوسط حجم الكرية (MCV)، وعرض متلازمة جيلبرت حيث الشذوذ الوحيد هو ارتفاع غير مباشر معزول في البيليروبين، ولوحة فحص من 15 معلمة تكون فيها كل مادة محلَّلة ضمن مجالها المرجعي. يكافئ معيار التقييم المحرّكات التي تقرأ كل حالة وفق شروطها الخاصة ويعاقب المحرّكات التي تصل إلى تشخيص واثق عندما لا يكون هذا التشخيص مبرَّرًا.
بصفتي الدكتور Thomas Klein، اخترت مجموعة الحالات لأن هذه هي الأنماط التي ألاحظ أن مساعدين في طب المختبر يخطئون فيها أكثر ما يمكن. نمط الفشل المكلف ليس "تفويت مرض نادر" — بل اختلاق اعتلالات روتينية لدى مرضى لا يعانون منها. ملكنا التحقق الطبي hub يصف الإطار الأوسع؛ وهذه الصفحة تشرح نتيجته التطبيقية على محرّك V11.
أحدث تشغيل مرجعي — V11 (أبريل 2026)
أفضت عملية التشغيل المرجعية (reference run) لشهر أبريل 2026 لمحرك Kantesti AI Engine V11 إلى درجة مركبة قدرها 99.12% ضمن معيار الحالات الخمس عشرة المُسجَّل مسبقًا. كلا حالتي فخّ فرط التشخيص (hyperdiagnosis) سجلتا عند الحد الأقصى. تم تطبيق مؤشر Mentzer بشكل صحيح في التفريق بين نقص الحديد والثلاسيميا.
تجمع معادلة المركب بين ثلاثة مكوّنات: المطابقة البنيوية مع أقسام التقرير الإلزامية السبعة و16 فرعًا إلزاميًا،, الدقة السريرية مُقاسة عبر استرجاع الكلمات المفتاحية (keyword recall) بالإضافة إلى استرجاع نظام التقييم (scoring-system recall) مع فحص صحة التوزيع الاحتمالي، و زمن الاستجابة مقابل هدف مستوى الخدمة الأساسي لمدة 20 ثانية. يُعرض التفصيل الدقيق في معادلة معيار التقييم أدناه.
تتفكك النسبة المتبقية البالغة 0.88 نقطة مئوية من هامش السعة تقريبًا بالكامل إلى خسارة بسبب التأخير — ثلاث استدعاءات احتياطية (fallback) من المرحلة 2، كل واحدة بمقدار -0.05 مركّب، ساهمت بحوالي 0.60 من العجز البالغ 0.88 نقطة — بدل أن تتعلق بمحتوى سريري. لم يفوّت المحرّك تشخيصًا صحيحًا في أي واحدة من الحالات الخمس عشرة؛ وعندما كان دون ذلك، كان ذلك عبر استغراق وقت أطول قليلًا من الهدف الأساسي البالغ 20 ثانية في نسبة صغيرة من الاستدعاءات.
خمسة عشر حالة عبر سبع تخصصات طبية
يغطي لوح الحالات سبع تخصصات — أمراض الدم، الغدد الصماء، الطب الاستقلابي، أمراض الكبد، أمراض الكلى، طب القلب، طب الروماتيزم — بالإضافة إلى حالتين مخصصتين لفخاخ فرط التشخيص. كل حالة عبارة عن سجل طبي حقيقي مُجهول الهوية لمريض، مأخوذ من مستودع البيانات السريرية Kantesti بموجب موافقة مستنيرة مكتوبة.
تم إجراء إزالة البيانات التعريفية وفق نهج الملاذ الآمن (Safe Harbor): تمت إزالة جميع المُعرّفات المباشرة أو استبدالها، وتم تعيين لكل سجل رمز حالة داخلي معياري بصيغة BT-NNN-LABEL. تم تنفيذ المعالجة وفقًا لـ المادة 9(2)(j) من اللائحة العامة لحماية البيانات (GDPR) لأبحاث علمية مع ضمانات مناسبة، وبنود المملكة المتحدة المكافئة الخاصة بـ GDPR. لا تظهر أي معلومات تُعرّف الأشخاص شخصيًا في أي مكان داخل المنظومة المنشورة، أو التقرير التقني، أو مجموعات البيانات التي تم إصدارها.
لماذا هذا التوزيع بالذات
تخصصات أمراض الدم تحصل على ثلاث حالات لأن التفريعات الصغيرة الحجم والتفريعات الكبيرة الحجم هي أعلى “مصائد” من حيث الحجم في الممارسة المختبرية الواقعية. تخصصات الغدد تحصل على ثلاث حالات لأن العروض المرتبطة بمرض هاشيموتو وPCOS ونقص فيتامين د تُمارس أشكالًا تشخيصية مختلفة (مدفوعة بالأجسام المضادة، مدفوعة بنسبة الهرمونات، ومدفوعة بعلامة واحدة). أما تخصصات الحالة الواحدة فلا تزال ذات معنى لأن كلًّا من CKD وخطر ASCVD وSLE لديه نظامه الخاص للتقييم الذي ينبغي للمحرك استدعاؤه (على التوالي: مراحل KDIGO، وخطر ASCVD لمدة 10 سنوات، ومعايير 2019 EULAR/ACR لـ SLE).
الـ rubric المُسجَّل مسبقاً، شرح
التسجيل المسبق هو أهم خيار منهجي في هذا المعيار. تم الالتزام بكل تشخيص متوقع، بكل نظام تقييم سريري، وبكل قسم من التقرير ضمن كود المصدر قبل استدعاء المحرك. لذلك لا يمكن إجراء ضبط لاحق للمعيار بهدف “تلميع” أداء المحرك.
يتكون المجموع المركب من ثلاثة مكونات. المكوّن البنيوي يساهم بنسبة 35% ويقيس ما إذا كان المحرك قد أرجع الأقسام السبعة الإلزامية للتقرير (العنوان، الملخص، أهم النتائج، التفريق التشخيصي، أنظمة التقييم، التوصيات، المتابعة) والـ16 قسمًا فرعيًا إلزاميًا داخلها. وزن وجود القسم هو 40% ووزن وجود القسم الفرعي هو 60% ضمن الحساب البنيوي.
ال المكوّن السريري يساهم بنسبة 55% ويجمع بين ثلاثة أشياء: استرجاع الكلمات المفتاحية للتشخيص (70% من الدرجة الفرعية السريرية)، واسترجاع نظام التقييم (20% — هل يحسب المحرك Mentzer وFIB-4 وHOMA-IR وخطر ASCVD ومراحل KDIGO ومعايير EULAR/ACR عند الاقتضاء)، وفحص صحة مجموع الاحتمالات (10% — يجب أن تتجمع احتمالات التفريق ضمن المجال [90, 110]). في حالات المصائد، يتم طرح عقوبة صريحة لفرط التشخيص تصل إلى 0.30، محسوبة كـ0.10 لكل علامة مرضية مُصطنعة، مع سقف عند ثلاث علامات.
ال مكوّن زمن الاستجابة يساهم بنسبة 10%. الاستجابة تحت 20 ثانية تحصل على 0.10 كاملة، والاستجابة تحت 40 ثانية تحصل على 0.05، وأي شيء أبطأ يحصل على صفر. تعكس عتبة 20 ثانية هدف مستوى الخدمة الأساسي للإنتاج؛ وتعكس عتبة 40 ثانية ميزانية “الرجوع” في المرحلة 2 لاستدعاءات المحرك الثقيلة.
ما الذي يمنعه التسجيل المسبق
تُعرف المعايير التي ينفذها أصحابها (first-party) بأنها تضخم أرقامها عبر ضبط المعيار لاحقًا. النمط يكاد يكون دائمًا نفسه: الفريق يشغّل المحرك، يرى أين يتراجع الأداء، ثم يعدّل المعيار بهدوء بحيث تُحسب مناطق الضعف بدرجة أقل. وبما أن المعيار تم تثبيته في كود المصدر قبل أول استدعاء للمحرك ونشر الاختبار تحت رخصة MIT، يصبح هذا التعديل ظاهرًا في التحكم بالإصدارات. يمكن لأي شخص نسخ المستودع، والتحقق من تواريخ إنشاء المعيار، والتأكد من أن نتائج المحرك لم تُستخدم لتشكيل عملية التقييم.
حالات فخّ فرط التشخيص — لماذا يكون الإفراط في إطلاق الأحكام هو وضع الفشل الحقيقي
المبالغة في إطلاق تشخيصات مرضية على الفحوصات الطبيعية هي نمط فشل موثق لدى المساعدين الطبيين الموجهين للمستهلكين. تشمل تكاليفه اللاحقة إجراء تحقيقات غير ضرورية، وقلق المريض، وإعدادات علاجية غير لازمة (iatrogenic workup). تم تصميم حالتي المصيدة في هذا المعيار لجعل هذا الفشل ظاهرًا وقابلًا للتقييم.
🟡 المصيدة 1 — BT-014-GILBERT
العرض. رجل عمره 24 سنة مع بيليروبين كلي قدره 2.4 mg/dL. الجزء المباشر طبيعي، والإنزيمات ناقلة الأمين والفوسفاتاز القلوي ضمن نطاقاتها المرجعية، والخلايا الشبكية غير لافتة، ويستبعد الهبتوغلوبين وLDH حدوث انحلال الدم.
التفسير الصحيح. متلازمة جيلبرت — تعدد أشكال حميد في UGT1A1. يجب ألا يستدعي التفسير التهاب كبد أو تليفًا أو فقر دم انحلاليًا أو انسدادًا صفراويًا.
نتيجة V11. المركب 1.000. لم تظهر أي من إشارات فرط التشخيص الست المراقبة كتشخيصات نشطة.
🟡 المصيدة 2 — BT-015-HEALTHY
العرض. امرأة تبلغ من العمر 35 سنة مع لوحة فحص روتينية مكوّنة من 15 معلمة. كل مؤشّر كيميائي/تحليلي موجود بشكل مريح داخل مجاله المرجعي.
التفسير الصحيح. طمأنة والحفاظ على نمط حياة صحي. يجب ألا يقوم التفسير باختلاق اعتلالات حدودية فقط ليبدو مفيدًا سريريًا.
نتيجة V11. مركّب 1.000. لم تظهر أيٌّ من سبع إشارات إنذار مرتبطة بالإفراط في التشخيص التي تمت مراقبتها — داء السكري، فقر الدم، قصور الغدة الدرقية، اضطرابات الدهون، التهاب الكبد، مرض الكلى، نقص — كتشخيصات نشطة.
عبر كلا المسارين، تم فحص 13 إشارات مرتبطة بالإفراط في التشخيص. لم يتم تفعيل أيٍّ منها. هذه هي النتيجة الأكثر أهمية لأي طبيب يفكر في استخدام محرك ذكاء اصطناعي كأداة فرز أو قبل الاستشارة: لم يقم النظام باختراع مرض عندما لا يوجد أي مرض.
مؤشر منتزر: فصل نقص الحديد عن سِمة الثلاسيميا
اكتشاف ذو قيمة عالية ثانٍ يتعلق بربط الحالة BT-001 (فقر الدم بنقص الحديد) مع الحالة BT-007 (الثلاسيميا بيتا الصغرى). كلاهما يظهر مع صِغر حجم الكريات (microcytosis)، وهو عائق معروف جدًا أمام المصنّفات غير المتمرسة. مؤشر منتزر، المحسوب بقسمة MCV على عدد RBC، يتجاوز 13 في نقص الحديد وينخفض تحت 13 في سِمة الثلاسيميا.
في BT-001، كانت المريضة امرأة عمرها 34 سنة مع هيموغلوبين 10.4 g/dL، وMCV 72.4 fL، وRBC 4.1 × 10¹²/L، وفيريتين 6 ng/mL، وارتفاع TIBC. مؤشر منتزر بحوالي 17.7 يدعم نقص الحديد المطلق. في BT-007، كان المريض رجلًا عمره 28 سنة مع صِغر حجم الكريات (MCV 65.8 fL) لكن مع ارتفاع عدد RBC إلى 6.2، وRDW طبيعي، وفيريتين طبيعي، وHbA2 بنسبة 5.6 بالمئة. مؤشر منتزر بحوالي 10.6 يشير إلى سِمة الثلاسيميا، وارتفاع HbA2 يؤكد الثلاسيميا بيتا الصغرى.
حصلت الحالتان على 1.000. استدعى المحرك مؤشر منتزر صراحةً في كلتا القراءتين وأعاد التشخيص الصحيح في كل مرة. هذه هي النتيجة الأكثر طمأنة سريريًا في كامل الاختبار القياسي, ، لأن تصنيف سِمة الثلاسيميا على أنها نقص الحديد يؤدي إلى تعويض/إعطاء الحديد بشكل غير مناسب وفرص ضائعة لفحص أفراد العائلة، كما أن تصنيف نقص الحديد على أنه ثلاسيميا يؤخر العلاج التعويضي البسيط المباشر. يشرح لنطاق الفيريتين السياق التفريقي الأوسع.
نتائج كل حالة على حدة من تشغيل أبريل 2026
حققت 12 من أصل 15 حالة الحد الأقصى للدرجة المركّبة 1.000 في المسار الأساسي. تم تقديم ثلاث حالات عبر آلية الرجوع للمرحلة 2، مع فقدان مكافأة زمن الاستجابة 0.05 بينما تم الحفاظ على كامل المحتوى السريري والبنيوي. كانت حالة واحدة ناقصة في قسم فرعي إجباري واحد؛ وحالة أعادت مجموع توزيع احتمالات أقل بشكل طفيف.
حالة تكيس المبايض (BT-008) فقدت قسماً فرعياً إلزامياً واحداً في بنية الاستجابة — خمسة عشر من ستة عشر بدل ستة عشر من ستة عشر — مما خفّض الدرجة البنيوية من 1.000 إلى 0.963. حالة SLE (BT-011) أعادت مجموع توزيع احتمالات منخفضاً بشكل طفيف، ما خفّض الدرجة السريرية إلى 0.965 مع الحفاظ على كل الكلمات المفتاحية التشخيصية ونظام التقييم. لم تفوّت أي من الحالتين غير المثاليتين تشخيصاً صحيحاً.
ماذا لا تخبرنا به النتيجة الرئيسية
تمثل درجة مركبة قدرها 99.12 في المئة ضمن هذا المعيار المُسجَّل مسبقاً تحديداً أداءً قريباً من الحد الأعلى، لكن الأمر يستحق تأطيراً دقيقاً. يصف الناتج سلوك المحرك مقابل خمسة عشر حالة مجهولة الهوية تم اختيارها بعناية، تم تقييم كل واحدة منها مرة واحدة، وفق معيار واحد. نحن واضحون بشأن ما الذي يثبته الرقم وما الذي لا يثبته.
تقول الدرجة إن محرك V11 تعامل بشكل صحيح مع أنماط التشخيص التي تم اختيارها لهذا التقييم، وفق منهجية منشورة وقابلة لإعادة الإنتاج. لا تقول إن المحرك صحيح في كل لوحة لتحليل الدم موجودة في الواقع. ولا تقول إن المحرك ينبغي أن يحل محل حكم الطبيب. ولا تقول إن المحرك يتفوق على أنظمة ذكاء اصطناعي بديلة — كانت التحليلات المقارنة مع محركات أخرى خارج نطاق هذا التقرير بشكل متعمد.
ما تثبته الدرجة فعلاً هو خط أساس. وبما أن المعيار والهيكل متاحان للعموم، يمكن تقييم الإصدارات المستقبلية من المحرك مقابل نفس هذه الحالات الخمس عشرة، والفجوة بين الدرجة المنشورة وأي تشغيل لاحق قابلة للقياس بحد ذاتها. هذه هي قيمة التسجيل المسبق: يحوّل ادعاءات الأداء إلى ادعاءات قابلة للاختبار.
كيفية إعادة إنتاج هذا المعيار في 10 دقائق
تتطلب إعادة الإنتاج فقط زوج بيانات اعتماد API من Kantesti وبيئة Python 3.10 أو أحدث مع requests و reportlab تم تثبيت المكتبات. الهيكل الكامل عبارة عن وحدة Python واحدة مستقلة بذاتها ومُصدرة تحت رخصة MIT.
أربع خطوات لتشغيل جديد
واحدة. استنسخ المستودع: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. اثنين. ثبّت الاعتماديات عبر pip install -r requirements.txt. ثلاثة. حدّد KANTESTI_USERNAME و KANTESTI_PASSWORD كمتغيرات بيئية — يتم قراءة بيانات الدخول أثناء التشغيل ولا يتم تضمين أي شيء بشكل ثابت داخل السكريبت. أربعة. شغّل python benchmark_bloodtest.py وافحص القطع الأثرية الأربعة التي يتم إخراجها إلى مجلد العمل: بطاقة نقاط بصيغة CSV، وبطاقة نقاط بصيغة JSON، وتفريغ JSON كامل بما في ذلك الاستجابات الخام للمحرك، وتقرير Markdown قابل للقراءة من طرف الإنسان.
يتم الاحتفاظ بتشغيل المرجع بتاريخ 23 أبريل 2026 في results/ داخل مجلد المستودع. سيُنتج التشغيل الجديد بطاقة نقاط جديدة مع طابع زمني، مع ترك تشغيل المرجع دون تغيير. إذا أسفر تشغيلك عن نتيجة مختلفة بشكل معتبر، يُرجى فتح issue على GitHub مع طابع زمن التشغيل وإصدار المحرك المُعاد في بيانات الاستجابة الوصفية.
القيود والعمل المستقبلي
أربع قيود تستحق اعترافًا صريحًا: حجم العينة، التقييم مرة واحدة، نطاق محرك واحد، وأصل مصدر البيانات من جهة واحدة. تتم معالجة كل واحدة منها ضمن أعمال متابعة جارية.
حجم العينة. خمسة عشر حالة عبر ثماني فئات تخصصية كافية لإثبات المفهوم لكنها ليست كافية لتحليل المجموعات داخل تخصص. من المخطط توسيعها إلى خمسين حالة، وسيشمل ذلك لوحات التخثر، وفحوصات الكشف عن الأورام الدموية، ولوحات الحمل، وعروضًا طبّية للأطفال.
التقييم مرة واحدة. تم تقييم كل حالة مرة واحدة. تُظهر نماذج اللغات الكبيرة تباينًا غير تافه في المخرجات حتى عند درجة حرارة أخذ عينات منخفضة، لذلك يُعد بروتوكول متعدد مرات التشغيل مع خمس تقييمات لكل حالة والإبلاغ عن التباين خطوة طبيعية تلي ذلك.
نطاق محرك واحد. يصف هذا التقرير محركًا واحدًا. التحليلات المقارنة مقابل أنظمة ذكاء اصطناعي بديلة خارج نطاق هذا العمل؛ وقد نتابعها كدراسة مستقلة منفصلة مع منهجية مناسبة.
أصل مصدر البيانات من جهة واحدة. الحالات الخمس عشرة هي سجلات مرضى حقيقية مُجهّلة الهوية مأخوذة من مستودع سريري واحد. تمثل عينة مُنتقاة وليست سحبًا عشوائيًا ممثلًا للسكان. توسيع التقييم ليشمل عدة مراكز موجود على خارطة الطريق.
أكثر امتداد مخطط تأثيرًا هو التكافؤ متعدد اللغات. يخدم محرك الذكاء الاصطناعي Kantesti المستخدمين في 75+ لغة، وتشغيل نفس إطار الاختبار المكوّن من خمس عشرة حالة بالتركية والألمانية والإسبانية والفرنسية والعربية سيقيس جودة المخرجات عبر اللغات المدعومة لدى المحرك. سننشر كل تشغيل خاص بكل لغة مع DOI خاص به وفرع إطار الاختبار.