لماذا يوجد هذا المعيار وما الذي يختبره

يُستخدم تفسير تحليل الدم بالذكاء الاصطناعي بمساعدة الذكاء الاصطناعي بشكل متزايد في سير العمل الاستهلاكي والسريري، ومع ذلك تظل أطر التقييم القابلة لإعادة الإنتاج والمصممة لطب المختبرات غير شائعة. إن الأسئلة الأكثر أهمية في هذا السياق ليست تلك التي يغطيها معيار عام للإجابة عن الأسئلة الطبية: هل يمكن للمحرك فصل نقص الحديد عن سِمة الثلاسيميا عندما يكون حجم الكريات الحمراء المتوسط متطابقًا، وهل يفرط في تشخيص متلازمة جيلبرت على أنها التهاب كبد، وهل يصنع مرضًا في لوحة فحص طبيعية بالكامل؟

مخطط تدفّق مقياس مُسجَّل مسبقًا يوضح كيفية تقييم محرك Kantesti AI مقابل معايير تسجيل ثابتة
الشكل 1: بنية المعيار — كل حالة، كل كلمة مفتاحية، كل نظام ترميز ثابت في كود المصدر قبل أن يرى المحرّك أي ملف PDF واحد. ضبط المعايير بعديًّا (Post-hoc) غير ممكن بحكم التصميم.

عادةً ما يحتوي لوح تحليل دم واحد على إشارة كافية لدعم عدة تفسيرات متنافسة، ومهمة الطبيب/الاختصاصي الذي يفسّر النتائج هي موازنة تلك التفسيرات فيما بينها بدلًا من استرجاع إجابة من كتاب مدرسي. يمكن لمحرك يتفوّق في الحالات المدرسية أن يفشل في الحالات الأكثر أهمية: فخاخ التشخيص التفريقي، والاختلافات الحميدة التي تبدو مقلقة عند النظر إليها بمعزل، ولوحات التحليل الطبيعية بالكامل التي تُغري المساعدين الواثقين بتصنيع اعتلالات مرضية.

بُني هذا المعيار تحديدًا حول أنماط الفشل تلك. تم اختيار كل واحدة من الحالات الخمس عشرة لخاصية تشخيصية محددة: نقص الحديد مع صِغَر الكريات (microcytosis) يجب الحفاظ على تمييزه عن سِمة بيتا-ثالاسيميا (beta-thalassaemia) ذات متوسط حجم كروي متطابق، وظهور متلازمة جيلبرت حيث الشذوذ الوحيد هو فرط بيليروبين غير مباشر معزول، ولوح فحص من خمسة عشر معاملًا تكون فيه كل مادة محلَّلة ضمن مجالها المرجعي. يكافئ السلم/الروبرك المحركات التي تقرأ كل حالة وفق شروطها الخاصة ويُعاقب المحركات التي تتجه إلى تشخيص واثق حيث لا يكون مثل هذا التشخيص مبررًا.

بصفتي توماس كلاين، دكتوراه في الطب (MD)، اخترت مجموعة الحالات لأن هذه هي الأنماط التي أراها مساعدي طب المختبر يخطئون فيها أكثر من غيرها. نمط الفشل المكلف ليس "تفويت مرض نادر" — بل هو اختلاق اعتلالات مرضية روتينية لدى مرضى لا يعانون منها. ملكنا التحقق الطبي يصف hub الإطار الأوسع؛ وتشرح هذه الصفحة نتيجته التطبيقية على محرّك V11.

أحدث تشغيل مرجعي — V11 (أبريل 2026)

أفرز التشغيل المرجعي لنسخة أبريل 2026 لمحرك Kantesti AI Engine V11 درجة مركبة قدرها 99.12% على سلم الروبرك المُسجَّل مسبقًا المكوّن من خمس عشرة حالة. سجلت حالتا فخ فرط التشخيص (hyperdiagnosis) عند الحد الأقصى. تم تطبيق مؤشر منتزر (Mentzer index) بشكل صحيح في التفريق بين نقص الحديد والثلاسيميا.

مركب 99.12% 15 من 15 حالة حصلت على درجة
0.998 الدرجة البنيوية
0.998 الدرجة السريرية
20.17 ث متوسط زمن الاستجابة
0 / 13 فخاخ الإيجابيات الكاذبة

تجمع معادلة المركب بين ثلاثة مكوّنات: المطابقة البنيوية مع أقسام التقرير الإلزامية السبعة وضمّات/فرعيات إلزامية ست عشرة،, الدقة السريرية ويُقاس ذلك عبر استرجاع الكلمات المفتاحية (keyword recall) بالإضافة إلى استرجاع نظام التقييم (scoring-system recall) مع التحقق من صحة توزيع الاحتمالات، و زمن الاستجابة مقابل الهدف الأساسي لمستوى الخدمة البالغ 20 ثانية. يُعرض التفصيل الدقيق في معادلة الروبرك أدناه.

المركب = 0.35 × البنيوي + 0.55 × السريري + 0.10 × زمن التأخير

تتحلل نسبة المساحة المتبقية البالغة 0.88 نقطة مئوية تقريبًا بالكامل إلى خسارة زمن التأخير — إذ إن ثلاث استدعاءات احتياطية من المرحلة 2، كل منها عند ناقص 0.05 مركّب، ساهمت بحوالي 0.60 من العجز البالغ 0.88 نقطة — بدلًا من أن تتعلق بمحتوى سريري. لم يفوّت المحرك تشخيصًا صحيحًا في أي من الحالات الخمس عشرة؛ وعندما قصر، كان ذلك عبر استغراق وقت أطول قليلًا من الهدف الأساسي البالغ 20 ثانية في نسبة صغيرة من الاستدعاءات.

خمسة عشر حالة عبر سبع تخصصات طبية

يغطي panel الحالات سبع تخصصات — أمراض الدم، الغدد الصماء، الطب الأيضي، أمراض الكبد، طب الكلى، طب القلب، طب الروماتيزم — بالإضافة إلى حالتين مخصصتين لفخاخ فرط التشخيص. كل حالة عبارة عن سجل حقيقي لمريض مُجرّد الهوية، مأخوذ من مستودع البيانات السريرية Kantesti بموجب موافقة مستنيرة مكتوبة.

خريطة التغطية لخمسة عشر حالة تحليل دم مجهولة موزعة عبر سبعة تخصصات طبية، بالإضافة إلى حالات فخّ فرط التشخيص
الشكل 2: توزيع الحالات عبر أمراض الدم، الغدد الصماء، الطب الأيضي، أمراض الكبد، طب الكلى، طب القلب، طب الروماتيزم، بالإضافة إلى حالتين فخّ — متلازمة جيلبرت، ولوحة فحص طبيعية بالكامل.

تم إجراء إزالة تحديد الهوية وفق نهج الملاذ الآمن: تمت إزالة جميع المُعرّفات المباشرة أو استبدالها، وتم تعيين كل سجل برمز حالة داخلي معياري بصيغة BT-NNN-LABEL. تم تنفيذ المعالجة وفقًا لـ المادة 9(2)(j) من اللائحة العامة لحماية البيانات (GDPR) لأغراض البحث العلمي مع وجود ضمانات مناسبة، وبما يعادل أحكام المملكة المتحدة الخاصة بـ GDPR. لا تظهر أي معلومات شخصية مُعرِّفة في أي مكان ضمن المنظومة المنشورة أو التقرير التقني أو مجموعات البيانات المُفرج عنها.

أمراض الدم (3) BT-001، BT-006، BT-007 فقر الدم بسبب نقص الحديد · نقص فيتامين B12 · بيتا-ثالاسيميا قاصر
الغدد الصماء (3) BT-002، BT-008، BT-012 التهاب الغدة الدرقية المناعي الذاتي (هاشيموتو) · متلازمة تكيس المبايض مع مقاومة الإنسولين · نقص شديد فيتامين د
الأيض (2) BT-003، BT-013 داء السكري من النوع الثاني مع متلازمة أيضية · فرط حمض يوريك مع خطر النقرس
أمراض الكبد (2) BT-004، BT-009 الكبد الدهني غير الكحولي / التهاب الكبد الدهني غير الكحولي (NASH) · التهاب كبدي فيروسي حاد
طب الكلى · طب القلب · طب الروماتيزم (3) BT-005، BT-010، BT-011 مرض الكلى المزمن المرحلة 3 · ديسليبيديميا مولِّدة لتصلب الشرايين · الذئبة الحمامية الجهازية
حالات الفخ (2) BT-014، BT-015 متلازمة جيلبرت (فرط بيليروبين غير مباشر معزول) · فحص للبالغين طبيعي بالكامل

لماذا تم اختيار هذا التوزيع تحديدًا

تخصصات أمراض الدم تحصل على ثلاث حالات لأن التفريعات متناهية الصغر (microcytic) ومتناهية الكِبر (macrocytic) تمثل أعلى فخاخ من حيث الحجم في الممارسة المختبرية الواقعية. تخصصات الغدد تحصل على ثلاث حالات لأن العروض السريرية لمرض هاشيموتو وPCOS ونقص فيتامين د تمارس أشكالًا تشخيصية مختلفة (مدفوعة بالأجسام المضادة، مدفوعة بنسبة الهرمونات، ومدفوعة بعلامة واحدة). أما تخصصات الحالة الواحدة فلا تزال ذات معنى لأن كلًا من CKD وخطر ASCVD وSLE لديها نظامها الخاص للتقييم الذي يجب على المحرك استدعاؤه (على التوالي: مراحل KDIGO، وخطر ASCVD لمدة 10 سنوات، ومعايير 2019 EULAR/ACR لـ SLE).

شرح الـ Rubric المُسجَّل مسبقًا

التسجيل المسبق هو الاختيار المنهجي الأهم في هذا المعيار. تم الالتزام بكل تشخيص متوقع، وبكل نظام تقييم سريري، وبكل قسم من أقسام التقرير ضمن كود المصدر قبل استدعاء المحرك قبل استدعاء المحرك. لذلك لا يمكن إجراء ضبط لاحق للمعيار لإرضاء المحرك.

يتكون الدرجة المركبة من ثلاثة مكونات. المكوّن البنيوي يساهم بنسبة 35% ويقيس ما إذا كان المحرك قد أرجع الأقسام السبعة الإلزامية للتقرير (الترويسة، الملخص، أبرز النتائج، التفريق التشخيصي، أنظمة التقييم، التوصيات، المتابعة) والـ16 قسمًا فرعيًا إلزاميًا ضمنها. وزن وجود القسم يساوي 40% ووزن وجود القسم الفرعي يساوي 60% ضمن الحساب البنيوي.

ال المكوّن السريري يساهم بنسبة 55% ويجمع بين ثلاثة أشياء: استرجاع الكلمات المفتاحية للتشخيص (70% من الدرجة الفرعية السريرية)، واسترجاع نظام التقييم (20% — هل يحسب المحرك Mentzer وFIB-4 وHOMA-IR وخطر ASCVD ومراحل KDIGO ومعايير EULAR/ACR عند الاقتضاء)، وفحص صحة مجموع الاحتمالات (10% — يجب أن تتجمع احتمالات التفريق ضمن الفاصل [90, 110]). في حالات الفخ، يتم طرح عقوبة صريحة لفرط التشخيص تصل إلى 0.30، محسوبة بمقدار 0.10 لكل علامة مرض مُصطنعة، مع سقف ثلاث علامات.

ال مكوّن زمن الاستجابة يساهم بنسبة 10%. الاستجابة خلال أقل من 20 ثانية تحصل على الدرجة الكاملة 0.10، والاستجابة خلال أقل من 40 ثانية تحصل على 0.05، وأي شيء أبطأ يحصل على صفر. يعكس هدف 20 ثانية هدف خدمة الإنتاج الأساسي؛ ويعكس سقف 40 ثانية ميزانية النسخة الاحتياطية في المرحلة 2 لاستدعاءات المحرك الثقيلة.

لقطة شاشة نهائية لأداة الاختبار المرجعي Kantesti المرخّصة من MIT وهي تعمل وتُصدر درجات لكل حالة على حدة
الشكل 3: الاختبار أثناء التنفيذ. يتم عرض كل حالة على ملف PDF بحجم A4، ونشرها على نقطة نهاية v11 الخاصة بالإنتاج، ثم تقييمها مقابل المعيار المجمد. يتم حفظ كل استجابة خام إلى جانب بطاقة النتائج المجمعة.

ما الذي يمنعه التسجيل المسبق

تشتهر المعايير التي يضعها أصحابها (من طرف أول) بتضخيم أرقامها عبر ضبط المعيار لاحقًا. النمط يكاد يكون دائمًا هو نفسه: الفريق يشغّل المحرك، يرى أين يتراجع الأداء، ثم يعدّل المعيار بهدوء بحيث تُحسب مناطق ضعف الأداء بدرجة أقل. وبحصر المعيار في كود المصدر قبل أول استدعاء للمحرك ونشر الاختبار تحت رخصة MIT، يصبح هذا التعديل ظاهرًا في التحكم بالإصدارات. يمكن لأي شخص استنساخ المستودع والتحقق من تواريخ تأليف المعيار، والتأكد من عدم استخدام نتائج المحرك لتشكيل عملية التقييم.

حالات فخّ فرط التشخيص — لماذا يُعدّ الإفراط في الاستدعاء هو وضع الفشل الحقيقي

الإفراط في إطلاق تشخيصات مرضية على فحوصات طبيعية هو نمط فشل موثق لدى المساعدات الطبية الموجهة للمستهلكين. تشمل تكاليفه اللاحقة إجراء تحقيقات غير ضرورية، وقلق المريض، وإعدادًا علاجيًا مُحدثًا (iatrogenic). تم تصميم حالتي الفخ في هذا المعيار لجعل هذا الفشل ظاهرًا وقابلًا للتقييم.

مقارنة جنبًا إلى جنب بين ذكاء اصطناعي ساذج يقوم باختلاق التهاب كبد على لوحة متلازمة جيلبرت، وبين محرك Kantesti الذي يحدد بشكل صحيح تعدد أشكال UGT1A1 الحميد
الشكل 4: تصميم حالة الفخ. محرك يضع بثقة تشخيص متلازمة جيلبرت كالتهاب كبد، أو يصنع مرضًا على الحدّ الفاصل في شاشة طبيعية بالكامل، يُعاقَب — لا يُكافأ على مجرد الظهور بمظهر سريري.

🟡 الفخ 1 — BT-014-GILBERT

العرض. رجل عمره 24 عامًا مع إجمالي بيليروبين قدره 2.4 ملغ/دل. الجزء المباشر طبيعي، والإنزيمات ناقلة الأمين والفوسفاتاز القلوي ضمن نطاقات المرجع، والخلايا الشبكية غير لافتة، ويستبعد الهبتوغلوبين وLDH حدوث انحلال الدم.

التفسير الصحيح. متلازمة جيلبرت — تعدد أشكال حميد في UGT1A1. يجب ألا يستدعي التفسير التهاب كبد أو تليفًا أو فقر دم انحلاليًا أو انسدادًا صفراويًا.

نتيجة V11. المركب 1.000. لم تظهر أي من إشارات الإفراط في التشخيص الست المراقبة كتشخيصات نشطة.

🟡 الفخ 2 — BT-015-HEALTHY

العرض. امرأة تبلغ من العمر 35 عامًا مع لوحة فحص روتينية مكوّنة من خمسة عشر مؤشرًا. كل تحليل يقع بشكل مريح داخل نطاقه المرجعي.

التفسير الصحيح. طمأنة والحفاظ على نمط حياة صحي. يجب ألا يقوم التفسير باختلاق اعتلالات حدودية لجعل النتيجة تبدو مفيدة سريريًا.

نتيجة V11. مركّب 1.000. لم تظهر أي من إشارات الإفراط في التشخيص السبعة التي تمت مراقبتها — السكري، فقر الدم، قصور الغدة الدرقية، اضطرابات الدهون، التهاب الكبد، مرض الكلى، النقص — كتشخيصات نشطة.

عبر كلتا مجموعتي الفحص، تم التحقق من ثلاث عشرة إشارة فرط تشخيص تمت مراقبتها. لم يتم تفعيل أي منها. هذه هي النتيجة الأهم لأي طبيب يفكر في استخدام محرك ذكاء اصطناعي كأداة فرز أو ما قبل الاستشارة: لم يقم النظام باختراع مرض حيث لا يوجد مرض.

مؤشر منتزر: فصل نقص الحديد عن سِمة الثلاسيميا

اكتشاف عالي القيمة ثانٍ يتعلق بربط الحالة BT-001 (فقر الدم بسبب نقص الحديد) بالحالة BT-007 (الثلاسيميا بيتا الصغرى). كلاهما يظهر مع صِغر حجم الكريات (microcytosis) ويُعد عائقًا معروفًا أمام المصنّفات الساذجة. يتجاوز مؤشر منتزر، المحسوب على أنه MCV مقسومًا على عدد كريات الدم الحمراء (RBC)، 13 في نقص الحديد وينخفض تحت 13 في سِمة الثلاسيميا.

في BT-001، كانت المريضة امرأة تبلغ 34 عامًا مع هيموغلوبين 10.4 g/dL، وMCV 72.4 fL، وRBC 4.1 × 10¹²/L، وفيريتين 6 ng/mL، وارتفاع TIBC. يدعم مؤشر منتزر البالغ تقريبًا 17.7 نقص الحديد المطلق. في BT-007، كان المريض رجلًا يبلغ 28 عامًا مع صِغر حجم الكريات (MCV 65.8 fL) لكن مع ارتفاع عدد RBC إلى 6.2، وRDW طبيعي، وفيريتين طبيعي، وHbA2 قدره 5.6 بالمئة. يشير مؤشر منتزر البالغ تقريبًا 10.6 إلى سِمة الثلاسيميا، ويؤكد ارتفاع HbA2 الثلاسيميا بيتا الصغرى.

فقر الدم بسبب نقص الحديد منتزر > 13 فيريتين منخفض، TSAT منخفض، TIBC مرتفع، RDW مرتفع
سِمة الثلاسيميا بيتا منتزر < 13 فيريتين طبيعي، RDW طبيعي، HbA2 مرتفع (>3.5%)، عدد RBC مرتفع

حصلت الحالتان على درجة 1.000. استدعى المحرك مؤشر منتزر صراحةً في كلتا عمليتي التفسير وأعاد التشخيص الصحيح في كل مرة. هذه هي النتيجة الأكثر طمأنة سريريًا في كامل الاختبار المرجعي, ، لأن تصنيف سِمة الثلاسيميا على أنها نقص الحديد يؤدي إلى إعطاء مكملات حديد غير مناسبة وفرص تفويت فحص أفراد العائلة، ولأن تصنيف نقص الحديد على أنه ثلاسيميا يؤخر العلاج التعويضي البسيط. إن لنطاق الفيريتين يشرح السياق التفريقي الأوسع.

نتائج كل حالة على حدة من تشغيل أبريل 2026

حققت 12 من أصل 15 حالة الحد الأقصى للدرجة المركّبة البالغة 1.000 في المسار الأساسي. تم تقديم ثلاث حالات عبر آلية الرجوع إلى المرحلة 2، مع فقدان مكافأة زمن الاستجابة 0.05 مع الحفاظ على كامل المحتوى السريري والبنيوي. كانت حالة واحدة ناقصة في قسم فرعي إلزامي واحد؛ وأعادت حالة أخرى مجموع توزيع احتمالات أقل بشكل هامشي.

رقم الحالة التخصص مركب زمن الاستجابة المسار
BT-001-IDAأمراض الدم1.00017.8 ثأساسي
BT-006-B12أمراض الدم1.00018.4 ثانيةأساسي
BT-007-ثلاسيمياأمراض الدم1.00017.0 ثانيةأساسي
BT-002-هاشالغدد الصماء0.95037.0 ثانيةالرجوع إلى الإعداد الافتراضي
BT-008-تكيس المبايضالغدد الصماء0.98718.6 ثانيةأساسي
BT-003-السكري من النوع الثانيالأيض1.00019.1 ثانيةأساسي
BT-013-النقرسالأيض1.00019.4 ثانيةأساسي
BT-004-الكبد الدهني غير الكحوليطب الكبد1.00019.6 ثانيةأساسي
BT-009-التهاب الكبد الفيروسيطب الكبد0.95023.4 ثانيةالرجوع إلى الإعداد الافتراضي
BT-014-غيلبرتمصيدة1.00018.9 ثانيةأساسي
BT-005-مرض الكلى المزمنطب الكلى1.00017.4 ثانيةأساسي
BT-010-الاعتلال القلبي الوعائي المرتبط بتصلب الشرايينطب القلب1.00019.7 ثانيةأساسي
BT-011-SLEأمراض الروماتيزم0.98118.2 ثانيةأساسي
BT-012-VITDالغدد الصماء1.00019.3 ثانيةأساسي
BT-015-HEALTHYمصيدة1.00018.7 ثانيةالرجوع إلى الإعداد الافتراضي

حالة تكيس المبايض (BT-008) فقدت بندًا فرعيًا إلزاميًا واحدًا في بنية الاستجابة — خمسة عشر من ستة عشر بدلًا من ستة عشر من ستة عشر — مما خفّض الدرجة البنيوية من 1.000 إلى 0.963. أما حالة SLE (BT-011) فقد أعادت مجموعًا لاحتمالات موزعة بشكل مخفّض بشكل طفيف انخفضت معه الدرجة السريرية إلى 0.965 مع الحفاظ على كل الكلمات التشخيصية ونظام التقييم. لم تفوّت أي من الحالتين غير المثالية تشخيصًا صحيحًا.

ما الذي لا تخبرنا به الدرجة الرئيسية

تمثل درجة مركبة قدرها 99.12% ضمن هذا المعيار المُسجَّل مسبقًا تحديدًا أداءً قريبًا من الحد الأعلى، لكن يلزم وضعها في إطار دقيق. يصف الناتج سلوك المحرك مقابل خمسة عشر حالة مجهولة الهوية تم اختيارها بعناية، وتقييم كل حالة مرة واحدة، وفق معيار واحد. نحن واضحون بشأن ما الذي يثبته الرقم وما الذي لا يثبته.

تقول الدرجة إن محرك V11 تعامل بشكل صحيح مع أنماط التشخيص التي تم اختيارها لهذا التقييم، باستخدام منهجية منشورة وقابلة لإعادة الإنتاج. لا تقول إن المحرك صحيح في كل لوحة تحليل دم موجودة في الواقع. ولا تقول إن المحرك ينبغي أن يحل محل حكم الطبيب. ولا تقول إن المحرك يتفوق على أنظمة ذكاء اصطناعي بديلة — إذ كانت التحليلات المقارنة مع محركات أخرى خارج نطاق هذا التقرير عمدًا.

ما تثبته الدرجة فعلًا هو خط أساس. وبما أن المعيار والبيئة التجريبية متاحة للعامة، يمكن تقييم الإصدارات المستقبلية من المحرك مقابل نفس الحالات الخمس عشرة، والفجوة بين الدرجة المنشورة وأي تشغيل لاحق قابلة للقياس بحد ذاتها. وهذه هي قيمة التسجيل المسبق: إذ يحوّل ادعاءات الأداء إلى ادعاءات قابلة للاختبار.

كيفية إعادة إنتاج هذا المعيار في 10 دقائق

تتطلب إعادة الإنتاج فقط زوج بيانات اعتماد Kantesti API وبيئة Python 3.10 أو أحدث مع requests و reportlab مكتبات مثبتة. تتألف البيئة التجريبية الكاملة من وحدة Python واحدة مستقلة بذاتها ومُصدرة تحت ترخيص MIT.

مخطط شبكة قابلية إعادة الإنتاج يُظهر أن الاختبار المرجعي مُنعكس عبر Figshare وResearchGate وAcademia.edu وGitHub مع اعتماد Figshare DOI كمرساة أساسية
الشكل 5: يتم نسخ المعيار عبر أربع منصات بحثية. يُعد معرف Figshare DOI هو المُعرّف العلمي المرجعي؛ وتستضيف ResearchGate وAcademia.edu وGitHub نسخًا موازية مع الكود والبيانات الخام.

أربع خطوات لتشغيل جديد

أولًا. استنسخ المستودع: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. اثنان. ثبّت التبعيات باستخدام pip install -r requirements.txt. ثلاثة. اضبط KANTESTI_USERNAME و KANTESTI_PASSWORD كمتغيرات بيئية — تتم قراءة بيانات الاعتماد أثناء وقت التشغيل ولا يتم ترميز أي شيء بشكل ثابت داخل السكربت. أربعة. شغّل python benchmark_bloodtest.py وافحص القطع الأثرية الأربعة التي يتم إخراجها إلى دليل العمل: بطاقة أداء CSV، وبطاقة أداء JSON، وتفريغ JSON كامل بما في ذلك استجابات المحرك الخام، وتقرير Markdown قابل للقراءة من قِبل البشر.

يتم الاحتفاظ بتشغيل المرجع من 23 أبريل 2026 في results/ داخل دليل المستودع. سيُنتج التشغيل الجديد بطاقة أداء جديدة مُؤرَّخة بطابع زمني مع ترك تشغيل المرجع دون تغيير. إذا أنتج تشغيلُك نتيجةً مختلفة بشكل جوهري، يُرجى فتح issue على GitHub مع طابع زمني للتشغيل وإصدار المحرك المُعاد في بيانات الاستجابة الوصفية.

القيود والعمل المستقبلي

تستحق أربع قيود اعترافًا صريحًا: حجم العينة، والتقييم بنقرة واحدة، ونطاق محرك واحد، وأصل مصدر البيانات من جهة واحدة. تتم معالجة كل منها ضمن أعمال متابعة جارية.

حجم العينة. خمسة عشر حالة عبر ثماني فئات تخصصية كافية لإثبات المفهوم لكنها ليست كافية لتحليل المجموعات الفرعية داخل تخصص. من المخطط التوسع إلى خمسين حالة، وسيشمل ذلك لوحات التخثر، وفحوصات الكشف عن الأورام الدموية، ولوحات الحمل، والعروض لدى الأطفال.

التقييم بنقرة واحدة. تم تقييم كل حالة مرة واحدة. تُظهر نماذج اللغات الكبيرة تباينًا غير تافه في المخرجات حتى عند درجة حرارة أخذ عينات منخفضة، لذا فإن بروتوكول متعدد التشغيلات مع خمس تقييمات لكل حالة والإبلاغ عن التباين يُعد خطوة طبيعية تالية.

نطاق محرك واحد. يصف هذا التقرير محركًا واحدًا. التحليلات المقارنة مقابل أنظمة ذكاء اصطناعي بديلة خارج نطاق هذا العمل؛ وقد نتابعها كدراسة مستقلة منفصلة باستخدام منهجية مناسبة.

أصل مصدر البيانات من جهة واحدة. تم إخفاء هوية السجلات الحقيقية لخمسة عشر مريضًا مأخوذة من مستودع سريري واحد. تمثل هذه عينة مُنسَّقة وليست سحبًا عشوائيًا ممثلًا للسكان. إن توسيع التقييم ليشمل بيانات من مراكز متعددة موجود على خارطة الطريق.

أكثر امتداد مخطط تأثيرًا هو التكافؤ متعدد اللغات. يخدم محرك الذكاء الاصطناعي Kantesti المستخدمين في 75+ لغة، وسيؤدي تشغيل نفس أداة الاختبار المكونة من خمس عشرة حالة في التركية والألمانية والإسبانية والفرنسية والعربية إلى قياس جودة المخرجات عبر اللغات المدعومة لدى المحرك. سننشر كل تشغيل خاص بلغة مع DOI خاص به وفرع الأداة.