Kantesti تحليل الدم بالذكاء الاصطناعي

التحقق السريري معيار مُسجَّل مسبقاً V11 — أبريل 2026 مرخّص من MIT قابل للتحقق من الأقران

درجة مركّبة 99.12% على Rubric مُسجَّل مسبقاً مع صفر حالات إيجابية كاذبة بسبب فرط التشخيص

تقييم سريري مستقل مُسجَّل مسبقاً لمحرك الذكاء الاصطناعي Kantesti على حالات تحليل دم مُجهولة الهوية. تم تجميد الـ rubric في كود المصدر قبل أول استدعاء للمحرك، وبيئة الاختبار (evaluation harness) مرخّصة من MIT، ويتم نشر كل استجابة خام.

📖 ~14 دقيقة 📅 23 أبريل 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 نُشر: 23 أبريل 2026 🩺 تمت المراجعة طبيًا بواسطة: 23 أبريل 2026 ✅ Rubric مُسجَّل مسبقاً 🔓 كود وبيانات مفتوحان

قادَت هذه الدراسةَ السريريةَ للتحقق الدكتور توماس كلاين، طبيب, ، المدير الطبي الرئيسي في Kantesti AI، بالتعاون مع جوليان أميرهان بولوت, ، مهندس ذكاء اصطناعي كبير والرئيس التنفيذي لـ Kantesti Ltd. تمت مراجعة المنهجية و الـ rubric من طرف المجلس الاستشاري الطبي لشركة كانتيستي للذكاء الاصطناعي.

المؤلف الرئيسي والإشراف السريري

توماس كلاين، طبيب

كبير المسؤولين الطبيين، شركة كانتيستي للذكاء الاصطناعي

الدكتور توماس كلاين هو طبيب أمراض دم سريري معتمد من مجلس الاختصاصات (board-certified) وأخصائي باطنية، لديه أكثر من 15 سنة من الخبرة في الطب المخبري. بصفته المدير الطبي الرئيسي في Kantesti AI، اختار لوحة الحالات لهذا المعيار، راجع جميع الحقائق التشخيصية الأساسية، واعتمد الـ rubric المُسجَّل مسبقاً قبل أول استدعاء للمحرك.

ORCID 0009-0009-1490-1321 ResearchGate جوجل سكولار

المؤلف المشارك & التنفيذ

جوليان أميرهان بولوت

مهندس ذكاء اصطناعي كبير & الرئيس التنفيذي، Kantesti Ltd

جوليان أميرهان بولوت هو مؤسس والرئيس التنفيذي لـ Kantesti Ltd. صمّم ونفّذ بيئة الاختبار (evaluation harness)، وأجرى تكامل الـ API، وقام بتشغيل معيار أبريل 2026، وأعدّ التجميع الإحصائي. مؤسس المنصة منذ 2019.

GitHub نبذة عن كانتستي

⚡ ملخص سريع V11 — 23 أبريل 2026

درجة مركبة 99.12% على 15 حالة حقيقية من تحاليل الدم مجهولة الهوية عبر سبع تخصصات طبية.
لا توجد حالات فرط تشخيص إيجابية كاذبة على حالتي الاختبار (Gilbert's syndrome وحالة فحص للبالغين طبيعية بالكامل).
معيار مُسجَّل مسبقًا مُجمَّد في كود المصدر قبل أول استدعاء للمحرك — لم يكن ممكنًا إجراء ضبط لاحق.
تم تطبيق مؤشر منتزر بشكل صحيح للتمييز بين فقر الدم بسبب نقص الحديد والثلاسيميا بيتا الصغرى.
نقطة نهاية الإنتاج فقط — بدون توجيه مميّز، وتم تقييمه تمامًا كما سيصل إليه عميل يدفع.
متوسط زمن استجابة 20.17 ثانية من البداية للنهاية، مع 12 من أصل 15 حالة تحت هدف المسار الأساسي البالغ 20 ثانية.
أداة اختبار برخصة MIT تم إصدارها على GitHub مع كل استجابة خام من المحرك — تدعم إعادة الإنتاج المستقلة.
DOI على Figshare: 10.6084/m9.figshare.32095435 · مُنعكس على ResearchGate وAcademia.edu وGitHub.

لماذا يوجد هذا المعيار وماذا يختبر

يتم بشكل متزايد استخدام تحليل الدم بالذكاء الاصطناعي في سير العمل الاستهلاكي والسريري، ومع ذلك تظل أطر التقييم القابلة لإعادة الإنتاج والمصممة لطب المختبرات غير شائعة. الأسئلة الأكثر أهمية في هذا السياق ليست تلك التي يغطيها معيار عام للإجابة عن الأسئلة الطبية: هل يمكن لمحرك أن يفصل نقص الحديد عن سِمة الثلاسيميا عندما تكون الحُجيمات الكروية المتوسطة متطابقة، وهل يفرط في تشخيص Gilbert's syndrome على أنه التهاب كبدي، وهل يُنشئ أمراضًا في لوحة فحص طبيعية بالكامل؟

لوحة تحليل دم واحدة عادةً تحتوي على إشارة كافية لدعم عدة تفسيرات متنافسة، ومهمة الطبيب/الطبيبة المفسِّر/ة هي موازنة تلك التفسيرات فيما بينها بدل البحث عن جواب من كتاب مدرسي. محرّك ينجح في الحالات المدرسية قد يفشل مع الحالات الأكثر أهمية: فخاخ التشخيص التفريقي، والاختلافات الحميدة التي تبدو مقلقة عند النظر إليها وحدها، واللوحات الطبيعية تمامًا التي تُغري المساعدين الواثقين بصناعة “مرض” غير موجود.

تم بناء هذا المعيار تحديدًا حول أنماط الفشل تلك. تم اختيار كل واحدة من الحالات الخمس عشرة لخاصية تشخيصية معيّنة: نقص الحديد مع صِغَر الكريات (microcytosis) يجب الحفاظ على تمييزه عن سِمة بيتا-ثالاسيميا (beta-thalassaemia) مع نفس متوسط حجم الكرية (MCV)، وعرض متلازمة جيلبرت حيث الشذوذ الوحيد هو ارتفاع غير مباشر معزول في البيليروبين، ولوحة فحص من 15 معلمة تكون فيها كل مادة محلَّلة ضمن مجالها المرجعي. يكافئ معيار التقييم المحرّكات التي تقرأ كل حالة وفق شروطها الخاصة ويعاقب المحرّكات التي تصل إلى تشخيص واثق عندما لا يكون هذا التشخيص مبرَّرًا.

بصفتي الدكتور Thomas Klein، اخترت مجموعة الحالات لأن هذه هي الأنماط التي ألاحظ أن مساعدين في طب المختبر يخطئون فيها أكثر ما يمكن. نمط الفشل المكلف ليس "تفويت مرض نادر" — بل اختلاق اعتلالات روتينية لدى مرضى لا يعانون منها. ملكنا التحقق الطبي hub يصف الإطار الأوسع؛ وهذه الصفحة تشرح نتيجته التطبيقية على محرّك V11.

أحدث تشغيل مرجعي — V11 (أبريل 2026)

أفضت عملية التشغيل المرجعية (reference run) لشهر أبريل 2026 لمحرك Kantesti AI Engine V11 إلى درجة مركبة قدرها 99.12% ضمن معيار الحالات الخمس عشرة المُسجَّل مسبقًا. كلا حالتي فخّ فرط التشخيص (hyperdiagnosis) سجلتا عند الحد الأقصى. تم تطبيق مؤشر Mentzer بشكل صحيح في التفريق بين نقص الحديد والثلاسيميا.

مركب 99.12% 15 من 15 حالات سجلت

0.998 الدرجة البنيوية

0.998 الدرجة السريرية

20.17 ث متوسط التأخر

0 / 13 فخاخ إيجابية كاذبة

تجمع معادلة المركب بين ثلاثة مكوّنات: المطابقة البنيوية مع أقسام التقرير الإلزامية السبعة و16 فرعًا إلزاميًا،, الدقة السريرية مُقاسة عبر استرجاع الكلمات المفتاحية (keyword recall) بالإضافة إلى استرجاع نظام التقييم (scoring-system recall) مع فحص صحة التوزيع الاحتمالي، و زمن الاستجابة مقابل هدف مستوى الخدمة الأساسي لمدة 20 ثانية. يُعرض التفصيل الدقيق في معادلة معيار التقييم أدناه.

المركب = 0.35 × البنيوي + 0.55 × السريري + 0.10 × التأخير (Latency)

تتفكك النسبة المتبقية البالغة 0.88 نقطة مئوية من هامش السعة تقريبًا بالكامل إلى خسارة بسبب التأخير — ثلاث استدعاءات احتياطية (fallback) من المرحلة 2، كل واحدة بمقدار -0.05 مركّب، ساهمت بحوالي 0.60 من العجز البالغ 0.88 نقطة — بدل أن تتعلق بمحتوى سريري. لم يفوّت المحرّك تشخيصًا صحيحًا في أي واحدة من الحالات الخمس عشرة؛ وعندما كان دون ذلك، كان ذلك عبر استغراق وقت أطول قليلًا من الهدف الأساسي البالغ 20 ثانية في نسبة صغيرة من الاستدعاءات.

خمسة عشر حالة عبر سبع تخصصات طبية

يغطي لوح الحالات سبع تخصصات — أمراض الدم، الغدد الصماء، الطب الاستقلابي، أمراض الكبد، أمراض الكلى، طب القلب، طب الروماتيزم — بالإضافة إلى حالتين مخصصتين لفخاخ فرط التشخيص. كل حالة عبارة عن سجل طبي حقيقي مُجهول الهوية لمريض، مأخوذ من مستودع البيانات السريرية Kantesti بموجب موافقة مستنيرة مكتوبة.

تم إجراء إزالة البيانات التعريفية وفق نهج الملاذ الآمن (Safe Harbor): تمت إزالة جميع المُعرّفات المباشرة أو استبدالها، وتم تعيين لكل سجل رمز حالة داخلي معياري بصيغة BT-NNN-LABEL. تم تنفيذ المعالجة وفقًا لـ المادة 9(2)(j) من اللائحة العامة لحماية البيانات (GDPR) لأبحاث علمية مع ضمانات مناسبة، وبنود المملكة المتحدة المكافئة الخاصة بـ GDPR. لا تظهر أي معلومات تُعرّف الأشخاص شخصيًا في أي مكان داخل المنظومة المنشورة، أو التقرير التقني، أو مجموعات البيانات التي تم إصدارها.

أمراض الدم (3) BT-001، BT-006، BT-007 فقر الدم بسبب نقص الحديد · نقص فيتامين B12 · بيتا-ثالاسيميا الصغرى (Beta-thalassaemia minor)

الغدد الصماء (3) BT-002، BT-008، BT-012 التهاب الغدة الدرقية هاشيموتو · متلازمة تكيس المبايض (PCOS) مع مقاومة الإنسولين · نقص شديد فيتامين د

الاستقلاب (2) BT-003، BT-013 داء السكري من النوع 2 (T2DM) مع متلازمة أيضية · فرط حمض يوريك مع خطر النقرس

أمراض الكبد (2) BT-004، BT-009 الكبد الدهني غير الكحولي (NAFLD) / التهاب كبد دهني غير كحولي (NASH) · التهاب كبدي فيروسي حاد

أمراض الكلى · طب القلب · طب الروماتيزم (3) BT-005، BT-010، BT-011 المرحلة 3 من مرض الكلى المزمن (CKD) · ديسليبيديميا مُسببة لتصلب الشرايين (Atherogenic dyslipidaemia) · الذئبة الحمامية الجهازية (Systemic lupus erythematosus)

حالات الفخ (2) BT-014، BT-015 متلازمة جيلبرت (فرط بيليروبين غير مباشر معزول) · فحص للبالغين طبيعي بالكامل

لماذا هذا التوزيع بالذات

تخصصات أمراض الدم تحصل على ثلاث حالات لأن التفريعات الصغيرة الحجم والتفريعات الكبيرة الحجم هي أعلى “مصائد” من حيث الحجم في الممارسة المختبرية الواقعية. تخصصات الغدد تحصل على ثلاث حالات لأن العروض المرتبطة بمرض هاشيموتو وPCOS ونقص فيتامين د تُمارس أشكالًا تشخيصية مختلفة (مدفوعة بالأجسام المضادة، مدفوعة بنسبة الهرمونات، ومدفوعة بعلامة واحدة). أما تخصصات الحالة الواحدة فلا تزال ذات معنى لأن كلًّا من CKD وخطر ASCVD وSLE لديه نظامه الخاص للتقييم الذي ينبغي للمحرك استدعاؤه (على التوالي: مراحل KDIGO، وخطر ASCVD لمدة 10 سنوات، ومعايير 2019 EULAR/ACR لـ SLE).

الـ rubric المُسجَّل مسبقاً، شرح

التسجيل المسبق هو أهم خيار منهجي في هذا المعيار. تم الالتزام بكل تشخيص متوقع، بكل نظام تقييم سريري، وبكل قسم من التقرير ضمن كود المصدر قبل استدعاء المحرك. لذلك لا يمكن إجراء ضبط لاحق للمعيار بهدف “تلميع” أداء المحرك.

يتكون المجموع المركب من ثلاثة مكونات. المكوّن البنيوي يساهم بنسبة 35% ويقيس ما إذا كان المحرك قد أرجع الأقسام السبعة الإلزامية للتقرير (العنوان، الملخص، أهم النتائج، التفريق التشخيصي، أنظمة التقييم، التوصيات، المتابعة) والـ16 قسمًا فرعيًا إلزاميًا داخلها. وزن وجود القسم هو 40% ووزن وجود القسم الفرعي هو 60% ضمن الحساب البنيوي.

ال المكوّن السريري يساهم بنسبة 55% ويجمع بين ثلاثة أشياء: استرجاع الكلمات المفتاحية للتشخيص (70% من الدرجة الفرعية السريرية)، واسترجاع نظام التقييم (20% — هل يحسب المحرك Mentzer وFIB-4 وHOMA-IR وخطر ASCVD ومراحل KDIGO ومعايير EULAR/ACR عند الاقتضاء)، وفحص صحة مجموع الاحتمالات (10% — يجب أن تتجمع احتمالات التفريق ضمن المجال [90, 110]). في حالات المصائد، يتم طرح عقوبة صريحة لفرط التشخيص تصل إلى 0.30، محسوبة كـ0.10 لكل علامة مرضية مُصطنعة، مع سقف عند ثلاث علامات.

ال مكوّن زمن الاستجابة يساهم بنسبة 10%. الاستجابة تحت 20 ثانية تحصل على 0.10 كاملة، والاستجابة تحت 40 ثانية تحصل على 0.05، وأي شيء أبطأ يحصل على صفر. تعكس عتبة 20 ثانية هدف مستوى الخدمة الأساسي للإنتاج؛ وتعكس عتبة 40 ثانية ميزانية “الرجوع” في المرحلة 2 لاستدعاءات المحرك الثقيلة.

ما الذي يمنعه التسجيل المسبق

تُعرف المعايير التي ينفذها أصحابها (first-party) بأنها تضخم أرقامها عبر ضبط المعيار لاحقًا. النمط يكاد يكون دائمًا نفسه: الفريق يشغّل المحرك، يرى أين يتراجع الأداء، ثم يعدّل المعيار بهدوء بحيث تُحسب مناطق الضعف بدرجة أقل. وبما أن المعيار تم تثبيته في كود المصدر قبل أول استدعاء للمحرك ونشر الاختبار تحت رخصة MIT، يصبح هذا التعديل ظاهرًا في التحكم بالإصدارات. يمكن لأي شخص نسخ المستودع، والتحقق من تواريخ إنشاء المعيار، والتأكد من أن نتائج المحرك لم تُستخدم لتشكيل عملية التقييم.

حالات فخّ فرط التشخيص — لماذا يكون الإفراط في إطلاق الأحكام هو وضع الفشل الحقيقي

المبالغة في إطلاق تشخيصات مرضية على الفحوصات الطبيعية هي نمط فشل موثق لدى المساعدين الطبيين الموجهين للمستهلكين. تشمل تكاليفه اللاحقة إجراء تحقيقات غير ضرورية، وقلق المريض، وإعدادات علاجية غير لازمة (iatrogenic workup). تم تصميم حالتي المصيدة في هذا المعيار لجعل هذا الفشل ظاهرًا وقابلًا للتقييم.

🟡 المصيدة 1 — BT-014-GILBERT

العرض. رجل عمره 24 سنة مع بيليروبين كلي قدره 2.4 mg/dL. الجزء المباشر طبيعي، والإنزيمات ناقلة الأمين والفوسفاتاز القلوي ضمن نطاقاتها المرجعية، والخلايا الشبكية غير لافتة، ويستبعد الهبتوغلوبين وLDH حدوث انحلال الدم.

التفسير الصحيح. متلازمة جيلبرت — تعدد أشكال حميد في UGT1A1. يجب ألا يستدعي التفسير التهاب كبد أو تليفًا أو فقر دم انحلاليًا أو انسدادًا صفراويًا.

نتيجة V11. المركب 1.000. لم تظهر أي من إشارات فرط التشخيص الست المراقبة كتشخيصات نشطة.

🟡 المصيدة 2 — BT-015-HEALTHY

العرض. امرأة تبلغ من العمر 35 سنة مع لوحة فحص روتينية مكوّنة من 15 معلمة. كل مؤشّر كيميائي/تحليلي موجود بشكل مريح داخل مجاله المرجعي.

التفسير الصحيح. طمأنة والحفاظ على نمط حياة صحي. يجب ألا يقوم التفسير باختلاق اعتلالات حدودية فقط ليبدو مفيدًا سريريًا.

نتيجة V11. مركّب 1.000. لم تظهر أيٌّ من سبع إشارات إنذار مرتبطة بالإفراط في التشخيص التي تمت مراقبتها — داء السكري، فقر الدم، قصور الغدة الدرقية، اضطرابات الدهون، التهاب الكبد، مرض الكلى، نقص — كتشخيصات نشطة.

عبر كلا المسارين، تم فحص 13 إشارات مرتبطة بالإفراط في التشخيص. لم يتم تفعيل أيٍّ منها. هذه هي النتيجة الأكثر أهمية لأي طبيب يفكر في استخدام محرك ذكاء اصطناعي كأداة فرز أو قبل الاستشارة: لم يقم النظام باختراع مرض عندما لا يوجد أي مرض.

مؤشر منتزر: فصل نقص الحديد عن سِمة الثلاسيميا

اكتشاف ذو قيمة عالية ثانٍ يتعلق بربط الحالة BT-001 (فقر الدم بنقص الحديد) مع الحالة BT-007 (الثلاسيميا بيتا الصغرى). كلاهما يظهر مع صِغر حجم الكريات (microcytosis)، وهو عائق معروف جدًا أمام المصنّفات غير المتمرسة. مؤشر منتزر، المحسوب بقسمة MCV على عدد RBC، يتجاوز 13 في نقص الحديد وينخفض تحت 13 في سِمة الثلاسيميا.

في BT-001، كانت المريضة امرأة عمرها 34 سنة مع هيموغلوبين 10.4 g/dL، وMCV 72.4 fL، وRBC 4.1 × 10¹²/L، وفيريتين 6 ng/mL، وارتفاع TIBC. مؤشر منتزر بحوالي 17.7 يدعم نقص الحديد المطلق. في BT-007، كان المريض رجلًا عمره 28 سنة مع صِغر حجم الكريات (MCV 65.8 fL) لكن مع ارتفاع عدد RBC إلى 6.2، وRDW طبيعي، وفيريتين طبيعي، وHbA2 بنسبة 5.6 بالمئة. مؤشر منتزر بحوالي 10.6 يشير إلى سِمة الثلاسيميا، وارتفاع HbA2 يؤكد الثلاسيميا بيتا الصغرى.

فقر الدم بنقص الحديد منتزر > 13 فيريتين منخفض، TSAT منخفض، TIBC مرتفع، RDW مرتفع

سِمة الثلاسيميا بيتا منتزر < 13 فيريتين طبيعي، RDW طبيعي، HbA2 مرتفع (>3.5%)، عدد RBC مرتفع

حصلت الحالتان على 1.000. استدعى المحرك مؤشر منتزر صراحةً في كلتا القراءتين وأعاد التشخيص الصحيح في كل مرة. هذه هي النتيجة الأكثر طمأنة سريريًا في كامل الاختبار القياسي, ، لأن تصنيف سِمة الثلاسيميا على أنها نقص الحديد يؤدي إلى تعويض/إعطاء الحديد بشكل غير مناسب وفرص ضائعة لفحص أفراد العائلة، كما أن تصنيف نقص الحديد على أنه ثلاسيميا يؤخر العلاج التعويضي البسيط المباشر. يشرح لنطاق الفيريتين السياق التفريقي الأوسع.

نتائج كل حالة على حدة من تشغيل أبريل 2026

حققت 12 من أصل 15 حالة الحد الأقصى للدرجة المركّبة 1.000 في المسار الأساسي. تم تقديم ثلاث حالات عبر آلية الرجوع للمرحلة 2، مع فقدان مكافأة زمن الاستجابة 0.05 بينما تم الحفاظ على كامل المحتوى السريري والبنيوي. كانت حالة واحدة ناقصة في قسم فرعي إجباري واحد؛ وحالة أعادت مجموع توزيع احتمالات أقل بشكل طفيف.

رقم الحالة التخصص مركب زمن الاستجابة المسار

BT-001-IDAأمراض الدم1.00017.8 ثأساسي

BT-006-B12أمراض الدم1.00018.4 ثأساسي

BT-007-ثلاسيمياأمراض الدم1.00017.0 ثأساسي

BT-002-هاشالغدد الصماء0.95037.0 ثالرجوع إلى النسخة الاحتياطية

BT-008-تكيس المبايضالغدد الصماء0.98718.6 ثأساسي

BT-003-السكري من النوع 2الأيض1.00019.1 ثأساسي

BT-013-النقرسالأيض1.00019.4 ثأساسي

BT-004-كبد دهني غير كحوليطب الكبد1.00019.6 ثأساسي

BT-009-التهاب الكبد الفيروسيطب الكبد0.95023.4 ثالرجوع إلى النسخة الاحتياطية

BT-014-غيلبرتفخ1.00018.9 ثأساسي

BT-005-قصور الكلى المزمنطب الكلى1.00017.4 ثأساسي

BT-010-الخطورة القلبية الوعائية المرتبطة بتصلب الشرايينطب القلب1.00019.7 ثأساسي

BT-011-SLEأمراض الروماتيزم0.98118.2 ثانيةأساسي

BT-012-VITDالغدد الصماء1.00019.3 ثانيةأساسي

BT-015-HEALTHYفخ1.00018.7 ثانيةالرجوع إلى النسخة الاحتياطية

حالة تكيس المبايض (BT-008) فقدت قسماً فرعياً إلزامياً واحداً في بنية الاستجابة — خمسة عشر من ستة عشر بدل ستة عشر من ستة عشر — مما خفّض الدرجة البنيوية من 1.000 إلى 0.963. حالة SLE (BT-011) أعادت مجموع توزيع احتمالات منخفضاً بشكل طفيف، ما خفّض الدرجة السريرية إلى 0.965 مع الحفاظ على كل الكلمات المفتاحية التشخيصية ونظام التقييم. لم تفوّت أي من الحالتين غير المثاليتين تشخيصاً صحيحاً.

ماذا لا تخبرنا به النتيجة الرئيسية

تمثل درجة مركبة قدرها 99.12 في المئة ضمن هذا المعيار المُسجَّل مسبقاً تحديداً أداءً قريباً من الحد الأعلى، لكن الأمر يستحق تأطيراً دقيقاً. يصف الناتج سلوك المحرك مقابل خمسة عشر حالة مجهولة الهوية تم اختيارها بعناية، تم تقييم كل واحدة منها مرة واحدة، وفق معيار واحد. نحن واضحون بشأن ما الذي يثبته الرقم وما الذي لا يثبته.

تقول الدرجة إن محرك V11 تعامل بشكل صحيح مع أنماط التشخيص التي تم اختيارها لهذا التقييم، وفق منهجية منشورة وقابلة لإعادة الإنتاج. لا تقول إن المحرك صحيح في كل لوحة لتحليل الدم موجودة في الواقع. ولا تقول إن المحرك ينبغي أن يحل محل حكم الطبيب. ولا تقول إن المحرك يتفوق على أنظمة ذكاء اصطناعي بديلة — كانت التحليلات المقارنة مع محركات أخرى خارج نطاق هذا التقرير بشكل متعمد.

ما تثبته الدرجة فعلاً هو خط أساس. وبما أن المعيار والهيكل متاحان للعموم، يمكن تقييم الإصدارات المستقبلية من المحرك مقابل نفس هذه الحالات الخمس عشرة، والفجوة بين الدرجة المنشورة وأي تشغيل لاحق قابلة للقياس بحد ذاتها. هذه هي قيمة التسجيل المسبق: يحوّل ادعاءات الأداء إلى ادعاءات قابلة للاختبار.

كيفية إعادة إنتاج هذا المعيار في 10 دقائق

تتطلب إعادة الإنتاج فقط زوج بيانات اعتماد API من Kantesti وبيئة Python 3.10 أو أحدث مع requests و reportlab تم تثبيت المكتبات. الهيكل الكامل عبارة عن وحدة Python واحدة مستقلة بذاتها ومُصدرة تحت رخصة MIT.

💻 GitHub هيكل مرخّص من MIT · استجابات خام · تشغيل مرجعي 🔗 DOI على Figshare 10.6084/m9.figshare.32095435 · سجل أكاديمي مرجعي 🎓 ResearchGate النشر 404175463 · طبقة اكتشاف أكاديمي 📄 Academia.edu الورقة 165956808 · طبقة اكتشاف أكاديمي

أربع خطوات لتشغيل جديد

واحدة. استنسخ المستودع: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. اثنين. ثبّت الاعتماديات عبر pip install -r requirements.txt. ثلاثة. حدّد KANTESTI_USERNAME و KANTESTI_PASSWORD كمتغيرات بيئية — يتم قراءة بيانات الدخول أثناء التشغيل ولا يتم تضمين أي شيء بشكل ثابت داخل السكريبت. أربعة. شغّل python benchmark_bloodtest.py وافحص القطع الأثرية الأربعة التي يتم إخراجها إلى مجلد العمل: بطاقة نقاط بصيغة CSV، وبطاقة نقاط بصيغة JSON، وتفريغ JSON كامل بما في ذلك الاستجابات الخام للمحرك، وتقرير Markdown قابل للقراءة من طرف الإنسان.

يتم الاحتفاظ بتشغيل المرجع بتاريخ 23 أبريل 2026 في results/ داخل مجلد المستودع. سيُنتج التشغيل الجديد بطاقة نقاط جديدة مع طابع زمني، مع ترك تشغيل المرجع دون تغيير. إذا أسفر تشغيلك عن نتيجة مختلفة بشكل معتبر، يُرجى فتح issue على GitHub مع طابع زمن التشغيل وإصدار المحرك المُعاد في بيانات الاستجابة الوصفية.

القيود والعمل المستقبلي

أربع قيود تستحق اعترافًا صريحًا: حجم العينة، التقييم مرة واحدة، نطاق محرك واحد، وأصل مصدر البيانات من جهة واحدة. تتم معالجة كل واحدة منها ضمن أعمال متابعة جارية.

حجم العينة. خمسة عشر حالة عبر ثماني فئات تخصصية كافية لإثبات المفهوم لكنها ليست كافية لتحليل المجموعات داخل تخصص. من المخطط توسيعها إلى خمسين حالة، وسيشمل ذلك لوحات التخثر، وفحوصات الكشف عن الأورام الدموية، ولوحات الحمل، وعروضًا طبّية للأطفال.

التقييم مرة واحدة. تم تقييم كل حالة مرة واحدة. تُظهر نماذج اللغات الكبيرة تباينًا غير تافه في المخرجات حتى عند درجة حرارة أخذ عينات منخفضة، لذلك يُعد بروتوكول متعدد مرات التشغيل مع خمس تقييمات لكل حالة والإبلاغ عن التباين خطوة طبيعية تلي ذلك.

نطاق محرك واحد. يصف هذا التقرير محركًا واحدًا. التحليلات المقارنة مقابل أنظمة ذكاء اصطناعي بديلة خارج نطاق هذا العمل؛ وقد نتابعها كدراسة مستقلة منفصلة مع منهجية مناسبة.

أصل مصدر البيانات من جهة واحدة. الحالات الخمس عشرة هي سجلات مرضى حقيقية مُجهّلة الهوية مأخوذة من مستودع سريري واحد. تمثل عينة مُنتقاة وليست سحبًا عشوائيًا ممثلًا للسكان. توسيع التقييم ليشمل عدة مراكز موجود على خارطة الطريق.

أكثر امتداد مخطط تأثيرًا هو التكافؤ متعدد اللغات. يخدم محرك الذكاء الاصطناعي Kantesti المستخدمين في 75+ لغة، وتشغيل نفس إطار الاختبار المكوّن من خمس عشرة حالة بالتركية والألمانية والإسبانية والفرنسية والعربية سيقيس جودة المخرجات عبر اللغات المدعومة لدى المحرك. سننشر كل تشغيل خاص بكل لغة مع DOI خاص به وفرع إطار الاختبار.

جرّب نفس المحرّك الذي حقّق 99.12% درجة مركّبة

حمّل لوحة تحليل الدم الخاصة بك إلى نفس نقطة النهاية الخاصة بالإنتاج التي تم تقييمها في هذا المعيار. أكثر من 2 مليون مستخدم حول العالم يستعملون محرّك الذكاء الاصطناعي Kantesti لتفسير أكثر من 15,000 مؤشّر حيوي عبر 75+ لغات.

🔬 جرب النسخة التجريبية المجانية

إضافة كروم متجر التطبيقات متجر جوجل بلاي

📚 كيفية الاستشهاد بهذا المعيار

BibTeX

@techreport{klein2026kantesti,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {التحقق السريري من محرّك الذكاء الاصطناعي Kantesti (2.78T)  
                 على 15 حالة لتحاليل الدم بدون أسماء: معيار مُسجّل مسبقًا قائم على Rubric  
                 يتضمن حالات فخّ فرط التشخيص  
                 عبر سبع تخصصات طبية},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {تقرير تقني},  
  number      = {V11},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). التحقق السريري من محرّك الذكاء الاصطناعي Kantesti (2.78T) على 15 حالة لتحاليل الدم بدون أسماء: معيار مُسجّل مسبقًا قائم على Rubric يتضمن حالات فخّ فرط التشخيص عبر سبع تخصصات طبية (تقرير تقني V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 أعمال التحقق ذات الصلة من Kantesti

Klein, T. (2025). إطار التحقق السريري لتفسير اختبارات الدم المدعوم بالذكاء الاصطناعي: منهجية التحقق الثلاثي التعمية، ومؤشرات الأداء، وبروتوكولات ضمان الجودة. Kantesti أبحاث طبية بالذكاء الاصطناعي.

🎓 ResearchGate

📖 مراجع منهجية خارجية

Mentzer, W. C. (1973). التمييز بين نقص الحديد وسمّة الثلاسيميا. The Lancet, 301(7808), 882.

🏥 ببميد

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). معايير التصنيف لدوري الروماتيزم الأوروبي/الكلية الأمريكية لأمراض الروماتيزم لسنة 2019 لمرض الذئبة الحمامية الجهازية. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 ببميد

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: اختبار هلوسة المجال الطبي للنماذج اللغوية الكبيرة. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%الدرجة المركّبة

15الحالات التي تم تقييمها

7التخصصات

0الفخّ: إيجابيات كاذبة

الأسئلة الشائعة

ما مدى دقة محرك الذكاء الاصطناعي Kantesti في الحالات الحقيقية لتحليل الدم؟

بناءً على معيار تقييم مُسجَّل مسبقًا يضم 15 حالة حقيقية مجهولة الهوية لتحليل الدم عبر سبع تخصصات طبية، حقق محرك الذكاء الاصطناعي Kantesti V11 درجة مركبة قدرها 99.12%، مع عدم وجود أي حالات “فرط تشخيص” (false-positives) في حالتي الاختبار المخصصتين لذلك، ومتوسط زمن استجابة بلغ 20.17 ثانية. تم نشر بطاقة الدرجات الكاملة لكل حالة على Figshare تحت DOI 10.6084/m9.figshare.32095435 وعلى GitHub تحت رخصة MIT.

هل تم التحقق سريريًا من محرك الذكاء الاصطناعي Kantesti؟

نعم. تم التحقق سريريًا من صحة المحرك مقارنةً بمعيار تقييم تم تجميده في كود المصدر قبل استدعاء المحرك، وتم تقييمه على 15 حالة مجهولة الهوية لتحليل الدم عبر أمراض الدم، والغدد الصماء، والطب الاستقلابي، وأمراض الكبد، وأمراض الكلى، وأمراض القلب، والروماتيزم. تم توفير الإشراف السريري من طرف الدكتور توماس كلاين، دكتوراه في الطب (ORCID 0009-0009-1490-1321)، اختصاصي أمراض الدم السريرية المعتمد من المجلس، والمدير الطبي التنفيذي لدى Kantesti AI.

شنو هي حالة “فخ التشخيص المفرط”؟

حالة “فخ فرط التشخيص” هي سيناريو سريري مُصمَّم خصيصًا لاكتشاف سلوك المبالغة في التشخيص داخل محركات الذكاء الاصطناعي. يستخدم معيار Kantesti V11 حالتين من هذا النوع. الأولى هي فرط بيليروبين غير مباشر معزول يتوافق مع متلازمة جيلبرت، حيث يكون التفسير الصحيح هو اختلاف UGT1A1 الحميد وليس التهاب الكبد أو انحلال الدم. والثانية هي لوحة فحص للبالغين طبيعية بالكامل، حيث يكون الناتج الصحيح هو الطمأنة والحفاظ على نمط الحياة بدلًا من إظهار مرضٍ حدودي مُصطنع.

هل يمكن إعادة إنتاج تقييم محرك الذكاء الاصطناعي Kantesti؟

تم إصدار أداة التقييم الكاملة تحت رخصة MIT كملف Python واحد مستقل. يتطلب إعادة الإنتاج فقط زوج بيانات اعتماد لواجهة برمجة تطبيقات Kantesti وPython 3.10 أو أحدث. الكود، وتعريفات الحالات، وكل استجابة خام من تشغيل المرجع في أبريل 2026 متاحة على github.com/emirhanai/kantesti-blood-test-benchmark ومُنعكسة (mirrored) أيضًا على Figshare وResearchGate وAcademia.edu.

كيف يميّز محرك الذكاء الاصطناعي Kantesti بين نقص الحديد وسمّة بيتا-ثالاسيميا؟

يطبق المحرك مؤشر Mentzer، المحسوب على أنه حجم الكريات المتوسطة (MCV) مقسومًا على عدد كريات الدم الحمراء (RBC). يدعم مؤشر Mentzer الذي يتجاوز 13 فقر الدم بسبب نقص الحديد، بينما يدعم قيمة أقل من 13 سِمة بيتا-ثالاسيميا. في معيار V11 تم تصنيف العرضين بشكل صحيح مع حساب واضح لمؤشر Mentzer، مدعومًا بسياق الفيريتين وRDW وHbA2.

فين نقدر نلقى البيانات الخام ديال المقارنة وكود المصدر؟

تم إيداع التقرير التقني على Figshare تحت DOI 10.6084/m9.figshare.32095435، ومُنعكس على نشر ResearchGate رقم 404175463 وعلى ورقة Academia.edu رقم 165956808، كما أن أداة Python تحت رخصة MIT مع جميع نتائج تشغيل المرجع متاحة على github.com/emirhanai/kantesti-blood-test-benchmark. تضمن شبكة النسخ المتطابقة عبر المنصات الأربع توفرًا طويل الأمد ومرونة في الاستشهادات.

لماذا يُعدّ التسجيل المسبق مهمًا لمعايير الطب بالذكاء الاصطناعي؟

يمنع التسجيل المسبق “ضبط المعيار بعد وقوع الحدث” (post-hoc rubric tuning)، وهو الطريقة الأكثر شيوعًا التي تقوم بها الشركات التي تدير المعايير بتضخيم أرقامها الخاصة. من خلال الالتزام بتضمين المعيار في كود المصدر قبل أي استدعاء للمحرك ونشر الأداة علنًا، تصبح تواريخ مؤلف المعيار قابلة للفحص في نظام التحكم بالإصدارات، ولا يمكن أن تكون نتائج المحرك قد شكّلت معايير التقييم.

هل يتضمن هذا المعيار مقارنات مع محركات ذكاء اصطناعي أخرى؟

لا. يصف تقرير V11 عمدًا محركًا واحدًا مقابل معيار تقييم ثابت بدلًا من وضعه في مواجهة أنظمة تجارية بديلة. الأداة مفتوحة المصدر تحت رخصة MIT، لذلك يمكن للباحثين المستقلين تقييم أي محرك يختارونه مقابل نفس الحالات الخمس عشرة ونفس المعيار ونشر نتائجهم.

هل حالات المرضى حقيقية أم مُصطنعة؟

الحالات الخمس عشرة هي سجلات حقيقية مجهولة الهوية لمرضى، مأخوذة من مستودع البيانات السريرية لدى Kantesti بموجب موافقة مستنيرة مكتوبة. تم إجراء إزالة البيانات التعريفية وفق نهج “Safe Harbor”، مع إزالة جميع المعرفات المباشرة أو استبدالها. تم تنفيذ المعالجة وفقًا للمادة 9(2)(j) من GDPR والأحكام المكافئة في UK GDPR. لا تظهر أي معلومات تعريفية شخصية في الأداة المنشورة أو التقرير التقني أو مجموعات البيانات المُفرج عنها.

⚕️ تنبيه طبي & تضارب المصالح

هذا تقرير المعيار مخصص لأغراض البحث والشفافية المنهجية. لا يشكل نصيحة طبية. استشر دائمًا مقدم رعاية صحية مؤهلًا لاتخاذ قرارات التشخيص والعلاج. يعمل كلا المؤلفين لدى Kantesti Ltd ويمتلكان حصصًا/أسهمًا فيها، كما أن المحرك قيد التقييم هو منتج تجاري لنفس المنظمة. يتم التخفيف من تضارب المصالح عبر التسجيل المسبق للمعيار في كود المصدر، وإصدار الأداة تحت رخصة MIT، ونشر كل استجابة خام للمحرك.

إشارات الثقة E-E-A-T

⭐

خبرة

15+ سنة من ممارسة طب أمراض الدم والطب المخبري السريرية، مع الإشراف على اختيار لوحة الحالات.

📋

خبرة

تصميم معيار مُسجَّل مسبقًا مع عقوبات صريحة لفرط التشخيص وأنظمة تقييم سريرية معترف بها (Mentzer، FIB-4، EULAR/ACR، KDIGO).

👤

السلطة

المؤلف الرئيسي الدكتور توماس كلاين، دكتوراه في الطب (ORCID 0009-0009-1490-1321). التنفيذ بواسطة جوليان أميرهان بولوت، الرئيس التنفيذي لدى Kantesti Ltd.

🛡️

الجدارة بالثقة

أداة قابلة لإعادة الإنتاج تحت رخصة MIT، ونشر استجابات المحرك الخام، وإفصاح مفتوح عن تضارب المصالح، وشبكة مرآة بحثية عبر أربع منصات.

🏢 شركة كانتيستي المحدودة مسجّل في إنجلترا وويلز · رقم الشركة. 17090423 لندن، المملكة المتحدة · kantesti.net