معيار تحليل الدم بالذكاء الاصطناعي Kantesti

معيار قياس آلي معيار مُسجَّل مسبقًا تحديث V11 الثاني — أبريل 2026 مرخّص من MIT قابل لإعادة الإنتاج · بيانات مفتوحة مجموعة متجانسة اصطناعية 100 ألف · 127 تسمية بلد

درجة مركبة 99.80% على معيار تقييم مُسجَّل مسبقًا — التحديث الثاني V11، مجموعة حالات من 100,000 حالة عبر 127 تسمية بلد

معيار تقني آلي مُسجَّل مسبقًا قائم على Rubric لمحرك Kantesti على 100,000 حالة اختبار دم مُولَّدة اصطناعيًا وموسومة بـ 127 تسمية بلد. يقيس مدى مطابقة المخرجات، وليس الدقة التشخيصية. تم تجميد الـ Rubric في كود المصدر قبل الإصدار الأولي V11، وظل مطابقًا للبايتات (byte-identical) لهذا التحديث الثاني؛ بيئة التقييم مرخّصة بموجب ترخيص MIT؛ وتم نشر عينة عشوائية طبقية من الاستجابات الخام للمحرك للفحص. جميع الحالات اصطناعية؛ ولا تُستخدم بيانات شخصية.

📖 ~14 دقيقة 📅 نُشر في 23 أبريل 2026 · تم التحديث في 26 أبريل 2026 (تحديث V11 الثاني) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 نُشر: 23 أبريل 2026 🔄 تحديث V11 الثاني: 26 أبريل 2026 🩺 تمت المراجعة طبيًا بواسطة: 26 أبريل 2026 ✅ Rubric مُسجَّل مسبقًا (مطابق للبايتات) 🔓 كود وبيانات مفتوحة

صُمِّم هذا المعيار القياسي الآلي ونُفِّذ بواسطة جوليان أميرهان بولوت, ، كبير مهندسي الذكاء الاصطناعي والرئيس التنفيذي لشركة Kantesti Ltd. يتم إجراء التقييم بشكل كامل آليًا داخل كود المصدر؛ وقد تم تطوير معيار التقييم ولوحة الحالات بمُدخلات سريرية من الدكتور توماس كلاين، طبيب, ، كبير مسؤولي الطب في Kantesti AI، وتمت مراجعته بواسطة المجلس الاستشاري الطبي لشركة كانتيستي للذكاء الاصطناعي. هذا معيار داخلي ذاتي التشغيل، وليس معيارًا تقنيًا آليًا مستقلًا أو خاضعًا لمراجعة الأقران.

المؤلف الرئيسي والإشراف السريري

توماس كلاين، طبيب

كبير المسؤولين الطبيين، شركة كانتيستي للذكاء الاصطناعي

الدكتور توماس كلاين هو طبيب أمراض دم معتمد من مجلس التخصصات (board-certified) وأخصائي باطنة، لديه أكثر من 15 عامًا من الخبرة في طب المختبرات. بصفته كبير مسؤولي الطب في Kantesti AI، اختار لوحة الحالات لهذا المعيار، راجع المحتوى السريري والإجابات المتوقعة للحالات الاصطناعية، واعتمد معيار التقييم المُسجَّل مسبقًا قبل الاستدعاء الأول للمحرك.

ORCID 0009-0009-1490-1321 ResearchGate جوجل سكولار

المؤلف المشارك & التنفيذ

جوليان أميرهان بولوت

مهندس ذكاء اصطناعي كبير & الرئيس التنفيذي، Kantesti Ltd

جوليان أميرهان بولوت هو مؤسس ومدير تنفيذي لـ Kantesti Ltd. صمّم ونفّذ أداة التقييم — بما في ذلك مُحمّل حالات SQL المُضاف لتحديث V11 الثاني — وأجرى تكامل واجهة برمجة التطبيقات، وقام بتنفيذ كلٍّ من التشغيل المرجعي الأولي لـ V11 وتشغيل مجموعة 100,000 حالة لتحديث V11 الثاني، كما أعدّ التجميع الإحصائي. مؤسس المنصة منذ 2019.

GitHub نبذة عن كانتستي

⚡ ملخص سريع تحديث V11 الثاني — 26 أبريل 2026

درجة مركبة 99.80% على 100,000 حالة اختبار دم اصطناعية عبر ثماني تخصصات طبية و127 تسمية بلد (التحديث الثاني V11).
لا توجد إيجابيات كاذبة لفرط التشخيص عبر 87,412 فرصة راية “trap-case” تمت مراقبتها — نفس منهجية “trap-case” كما في التشغيل الأولي لـ V11، مع توسيع على مستوى السكان.
معيار مُسجَّل مسبقًا تم تجميده في كود المصدر قبل التشغيل الأولي لـ V11 وتم الحفاظ عليه مطابقًا للبايتات لهذا التحديث الثاني — لم يكن ممكنًا إجراء ضبط لاحق (post-hoc).
تم تطبيق مؤشر منتزر بشكل صحيح للتمييز بين فقر الدم الناجم عن نقص الحديد والأنيميا الثلاسيمية الصغرى بيتا في الإصدار الأولي لـ V11؛ وتم الحفاظ على السلوك التفريقي على مستوى السكان.
نقطة نهاية الإنتاج فقط — بدون توجيه مميّز، وتم تقييمه تمامًا كما سيصل إليه عميل يدفع.
متوسط زمن استجابة 13.26 ثانية من طرف إلى طرف (النطاق 9.0–16.94 ثانية)، مع اكتمال جميع الحالات الـ 100,000 على المسار الأساسي للمحرك.
مجموعة متجانسة اصطناعية. 100,000 حالة اختبار مُولَّدة اصطناعيًا محمّلة وقت التشغيل. لا تُستخدم بيانات اصطناعية ولا بيانات شخصية.
أداة اختبار برخصة MIT تم إتاحته على GitHub مع عينة عشوائية مُقسَّمة طبقيًا (n = 201) من الاستجابات الخام الكاملة للمحرك للفحص.
DOI على Figshare: 10.6084/m9.figshare.32095435 · مُنعكسة على ResearchGate وAcademia.edu وGitHub.

لماذا يوجد هذا المعيار وما الذي يختبره

يُستخدم تفسير تحليل الدم بالذكاء الاصطناعي بمساعدة الذكاء الاصطناعي بشكل متزايد في سير العمل الاستهلاكي والسريري، ومع ذلك تظل أطر التقييم القابلة لإعادة الإنتاج والمصممة لطب المختبرات غير شائعة. إن الأسئلة الأكثر أهمية في هذا السياق ليست تلك التي يغطيها معيار عام للإجابة عن الأسئلة الطبية: هل يمكن للمحرك فصل نقص الحديد عن سِمة الثلاسيميا عندما يكون حجم الكريات الحمراء المتوسط متطابقًا، وهل يفرط في تشخيص متلازمة جيلبرت على أنها التهاب كبد، وهل يصنع مرضًا في لوحة فحص طبيعية بالكامل؟

عادةً ما يحتوي لوح تحليل دم واحد على إشارة كافية لدعم عدة تفسيرات متنافسة، ومهمة الطبيب/الاختصاصي الذي يفسّر النتائج هي موازنة تلك التفسيرات فيما بينها بدلًا من استرجاع إجابة من كتاب مدرسي. يمكن لمحرك يتفوّق في الحالات المدرسية أن يفشل في الحالات الأكثر أهمية: فخاخ التشخيص التفريقي، والاختلافات الحميدة التي تبدو مقلقة عند النظر إليها بمعزل، ولوحات التحليل الطبيعية بالكامل التي تُغري المساعدين الواثقين بتصنيع اعتلالات مرضية.

بُني هذا المعيار تحديدًا حول أنماط الفشل تلك. تم اختيار كل واحدة من الحالات الخمس عشرة لخاصية تشخيصية محددة: نقص الحديد مع صِغَر الكريات (microcytosis) يجب الحفاظ على تمييزه عن سِمة بيتا-ثالاسيميا (beta-thalassaemia) ذات متوسط حجم كروي متطابق، وظهور متلازمة جيلبرت حيث الشذوذ الوحيد هو فرط بيليروبين غير مباشر معزول، ولوح فحص من خمسة عشر معاملًا تكون فيه كل مادة محلَّلة ضمن مجالها المرجعي. يكافئ السلم/الروبرك المحركات التي تقرأ كل حالة وفق شروطها الخاصة ويُعاقب المحركات التي تتجه إلى تشخيص واثق حيث لا يكون مثل هذا التشخيص مبررًا.

بصفتي توماس كلاين، دكتوراه في الطب (MD)، اخترت مجموعة الحالات لأن هذه هي الأنماط التي أراها مساعدي طب المختبر يخطئون فيها أكثر من غيرها. نمط الفشل المكلف ليس "تفويت مرض نادر" — بل هو اختلاق اعتلالات مرضية روتينية لدى مرضى لا يعانون منها. ملكنا التحقق الطبي يصف hub الإطار الأوسع؛ وتصف هذه الصفحة الإثبات الأولي الأولي لـ V11 والتحديث الثاني لـ V11 اللذين قاما بتوسيعه إلى 100,000 حالة اصطناعية مستمدة من مجموعة حالات اصطناعية تمتد عبر 127 تسمية بلد — باستخدام معيار التقييم نفسه، مطابقًا للبايتات (byte-identical)، دون السماح بأي ضبط لاحق (post-hoc tuning).

أحدث تشغيل مرجعي — V11 Second Update (26 أبريل 2026)

أنتج تشغيل V11 Second Update المرجعي بتاريخ 26 أبريل 2026 درجة مركبة قدرها 99.80% على نفس الروبرك المُسجَّل مسبقًا المستخدم في الإصدار الأولي لـ V11، وتم تقييمه على 100,000 حالة اصطناعية مستمدة من مجموعة الحالات الاصطناعية لـ Kantesti وتمتد عبر 127 تسمية بلد و75+ لغات. اكتملت كل حالة على المسار الأساسي الرئيسي للمحرك؛ ظلت عمليات تفعيل راية فرط التشخيص في حالات الفخ عند 0 / 87,412. غطى تشغيل V11 الأصلي بتاريخ 23 أبريل 2026 15 حالة تم اختيارها يدويًا (درجة مركبة 99.12%) وجرّب الروبرك؛ ويحافظ التحديث الثاني على هذا الروبرك مطابقًا للبايت ويُوسّع التقييم إلى نطاق مجموعة سكانية.

مركب 99.80% 100,000 من 100,000 حالة حصلت على درجة

1.000 الدرجة البنيوية

0.996 الدرجة السريرية

13.26 s متوسط زمن الاستجابة

0 / 87,412 فخاخ الإيجابيات الكاذبة

تجمع معادلة المركب بين ثلاثة مكوّنات: المطابقة البنيوية مع أقسام التقرير الإلزامية السبعة وضمّات/فرعيات إلزامية ست عشرة،, دقة محتوى ويُقاس ذلك عبر استرجاع الكلمات المفتاحية (keyword recall) بالإضافة إلى استرجاع نظام التقييم (scoring-system recall) مع التحقق من صحة توزيع الاحتمالات، و زمن الاستجابة مقابل هدف مستوى الخدمة للخدمة على المسار الأساسي. يُعرض التفصيل الدقيق في صيغة الروبرك أدناه — لم يتم تعديل أي من هذه الأوزان أو الروبركات الفرعية في التحديث الثاني.

المركب = 0.35 × البنيوي + 0.55 × السريري + 0.10 × زمن التأخير

يتفكك الجزء المتبقي البالغ 0.20 نقطة مئوية من هامش التحسن تقريبًا بالكامل إلى الدرجة الفرعية السريرية — فقد كانت هناك نسبة صغيرة من الحالات (بشكل أساسي في أمراض الكبد وطب الروماتيزم) تفتقد كلمة مفتاحية واحدة متوقعة من نظام التقييم في تفسير المحرك، رغم أن المحتوى التشخيصي كان صحيحًا. لم تفوّت أي حالة في مجموعة 100,000 حالة في تحديث V11 الثاني التشخيص نفسه. تحسنت زمنية الاستجابة من متوسط 20.17 s في الإصدار الأولي لـ V11 إلى 13.26 s في التحديث الثاني، بما يعكس تحسينات محرك الإنتاج بين التشغيلين؛ الروبرك، وكود التقييم، ونقطة نهاية واجهة برمجة التطبيقات دون تغيير.

تراوحت الدرجات المركبة لكل تسمية بين 0.9971 و0.9985 عبر أكثر 30 تسمية بلد تمثيلًا. لم تُظهر الذيل الطويل المكوّن من 97 تسمية إضافية (≈7,300 حالة مجتمعة) أي تدهور منهجي. كانت أكثر التسميات تكرارًا حسب عدد الحالات هي: الولايات المتحدة (10,500)، البرازيل (9,500)، إسبانيا (9,000)، إيطاليا (8,000)، ألمانيا (7,800)، فرنسا (7,400)، البرتغال (5,800)، Türkiye (3,400)، المملكة المتحدة (2,900)، والمكسيك (2,500).

من 15 حالة إلى 100,000: تطور المجموعة عبر 127 تسمية بلد

غطت لوحة الحالات الأصلية لـ V11 سبعة تخصصات — أمراض الدم، الغدد الصماء، الطب الاستقلابي، طب الكبد، طب الكلى، طب القلب، طب الروماتيزم — بالإضافة إلى حالتين مخصصتين لفخاخ فرط التشخيص، وكانت كل حالة عبارة عن لوحة اختبار دم مُولَّدة اصطناعيًا. يوسّع التحديث الثاني لـ V11 التقييم إلى 100,000 حالة اصطناعية عبر 127 تسمية بلد, ، موزعة على ثمانية تخصصات (السبعة الأصلية بالإضافة إلى دلو مخصص للطب الباطني الداخلي يستوعب مجموعة الفخ). يُطبَّق نفس الروبرك للتقييم مطابقًا للبايت عبر كلا التشغيلين.

نظرًا لأن جميع الحالات مُولَّدة اصطناعيًا، فلا توجد مُعرّفات حقيقية لإزالتها ولا توجد بيانات شخصية. تحمل كل حالة اصطناعية رمز حالة داخلي للمعيار (BT-NNN-LABEL في المجموعة الأولية لـ V11، وهو ثابت case_uid في التحديث الثاني). لا تظهر أي بيانات شخصية في أي مكان داخل بيئة الاختبار المنشورة، أو التقرير التقني، أو مجموعات البيانات المُفرج عنها.

الإصدار الأولي لـ V11 — 15 حالة تم اختيارها يدويًا

تم اختيار لوحة الحالات الأصلية V11 يدويًا بواسطة الدكتور توماس كلاين لتدريب أنماط التشخيص التي يخطئ فيها مساعدو الطبّ المخبري في أغلب الأحيان. تم اختيار كل واحدة من الحالات الخمس عشرة لخاصية تشخيصية محددة، كما هو مذكور أدناه.

أمراض الدم (3) BT-001، BT-006، BT-007 فقر الدم بسبب نقص الحديد · نقص فيتامين B12 · بيتا-ثالاسيميا قاصر

الغدد الصماء (3) BT-002، BT-008، BT-012 التهاب الغدة الدرقية المناعي الذاتي (هاشيموتو) · متلازمة تكيس المبايض مع مقاومة الإنسولين · نقص شديد فيتامين د

الأيض (2) BT-003، BT-013 داء السكري من النوع الثاني مع متلازمة أيضية · فرط حمض يوريك مع خطر النقرس

أمراض الكبد (2) BT-004، BT-009 الكبد الدهني غير الكحولي / التهاب الكبد الدهني غير الكحولي (NASH) · التهاب كبدي فيروسي حاد

طب الكلى · طب القلب · طب الروماتيزم (3) BT-005، BT-010، BT-011 مرض الكلى المزمن المرحلة 3 · ديسليبيديميا مولِّدة لتصلب الشرايين · الذئبة الحمامية الجهازية

حالات الفخ (2) BT-014، BT-015 متلازمة جيلبرت (فرط بيليروبين غير مباشر معزول) · فحص للبالغين طبيعي بالكامل

لماذا تم اختيار هذا التوزيع تحديدًا

تخصصات أمراض الدم تحصل على ثلاث حالات لأن التفريعات متناهية الصغر (microcytic) ومتناهية الكِبر (macrocytic) تمثل أعلى فخاخ من حيث الحجم في الممارسة المختبرية الواقعية. تخصصات الغدد تحصل على ثلاث حالات لأن العروض السريرية لمرض هاشيموتو وPCOS ونقص فيتامين د تمارس أشكالًا تشخيصية مختلفة (مدفوعة بالأجسام المضادة، مدفوعة بنسبة الهرمونات، ومدفوعة بعلامة واحدة). أما تخصصات الحالة الواحدة فلا تزال ذات معنى لأن كلًا من CKD وخطر ASCVD وSLE لديها نظامها الخاص للتقييم الذي يجب على المحرك استدعاؤه (على التوالي: مراحل KDIGO، وخطر ASCVD لمدة 10 سنوات، ومعايير 2019 EULAR/ACR لـ SLE).

التحديث الثاني V11 — 100,000 حالة اصطناعية عبر 127 تسمية بلد

يستبدل التحديث الثاني literal بايثون ثابتًا (hard-coded) من 15 حالة في V11 الأصلي بمجموعة أكبر من الحالات الاصطناعية المُولَّدة برمجيًا. يتم تحميل مجموعة الحالات في بداية كل تشغيل ويتم تسجيل الإعدادات من أجل الشفافية. يُعرض توزيع المجموعة حسب مجال المحتوى أدناه.

الغدد الصماء 23,900 حالة (23.9%) الغدة الدرقية، متلازمة تكيس المبايض (PCOS)، نقص فيتامين د، محور الغدد التناسلية، الغدة النخامية

الطبّ الاستقلابي 21,900 حالة (21.9%) داء السكري من النوع الثاني (T2DM)، المتلازمة الاستقلابية، لوحات الدهون، فرط حمض يوريك الدم

أمراض الدم 15,400 حالة (15.4%) الفروقات بين نقص كريات الدم الصغري والكبرية، B12/حمض الفوليك، دراسات الحديد

طب الكبد 12,400 حالة (12.4%) اعتلال دهني كبدي غير كحولي (NAFLD)/التهاب كبدي دهني غير كحولي (NASH)، التهاب كبدي فيروسي، FIB-4، ركود صفراوي

الطبّ الباطني (بما في ذلك مجموعة فرعية من المصائد) 9,000 حالات (9.0%) عروض مختلطة و8,723 حالة مخصصة لمصائد فرط التشخيص

طب القلب 7,500 حالات (7.5%) مخاطر ASCVD، خلل دهني مُسبب للتصلب العصيدي، hs-CRP

أمراض الروماتيزم 6,000 حالات (6.0%) الذئبة الحمراء الجهازية (SLE)، التهاب المفاصل الروماتويدي (RA)، التهاب الأوعية، لوحات الأجسام المضادة الذاتية (معايير EULAR/ACR)

طب الكلى 4,000 حالات (4.0%) تحديد مراحل مرض الكلى المزمن (KDIGO)، اتجاهات eGFR، اضطراب الشوارد

توزيع التسمية الاصطناعية للبلد — أفضل 10 تسميات

تحمل 100,000 حالة اصطناعية 127 تسمية بلد (ISO 3166-1 alpha-2) لاختبار التعامل مع الإعدادات المحلية (locale handling). تعيين التسمية: أوروبا 57.7%، الأمريكتان 25.4%، آسيا-المحيط الهادئ 6.2%، تسميات الشرق الأوسط/أفريقيا المسمّاة 3.4%، وذيل طويل من 97 تسمية إضافية مجتمعة تقريبًا 7.3%. التسمية العشر الأكثر تكرارًا حسب عدد الحالات هي: الولايات المتحدة (10,500)، البرازيل (9,500)، إسبانيا (9,000)، إيطاليا (8,000)، ألمانيا (7,800)، فرنسا (7,400)، البرتغال (5,800)، Türkiye (3,400)، المملكة المتحدة (2,900)، والمكسيك (2,500). تراوحت الدرجات المركبة لكل تسمية بين 0.9971 و0.9985. تمثل أعداد هذه التسميات خصائص حالات مُولَّدة تم استخدامها لاختبار التعامل مع الإعدادات المحلية — وليست مستخدمين حقيقيين ولا تغطية جغرافية واقعية.

شرح الـ Rubric المُسجَّل مسبقًا

التسجيل المسبق هو الاختيار المنهجي الأهم في هذا المعيار. تم الالتزام بكل تشخيص متوقع، وبكل نظام تقييم سريري، وبكل قسم من أقسام التقرير ضمن كود المصدر قبل استدعاء المحرك قبل استدعاء المحرك. لذلك لا يمكن إجراء ضبط لاحق للمعيار لإرضاء المحرك.

يتكون الدرجة المركبة من ثلاثة مكونات. المكوّن البنيوي يساهم بنسبة 35% ويقيس ما إذا كان المحرك قد أرجع الأقسام السبعة الإلزامية للتقرير (الترويسة، الملخص، أبرز النتائج، التفريق التشخيصي، أنظمة التقييم، التوصيات، المتابعة) والـ16 قسمًا فرعيًا إلزاميًا ضمنها. وزن وجود القسم يساوي 40% ووزن وجود القسم الفرعي يساوي 60% ضمن الحساب البنيوي.

ال المكوّن السريري يساهم بنسبة 55% ويجمع بين ثلاثة أشياء: استرجاع الكلمات المفتاحية للتشخيص (70% من الدرجة الفرعية السريرية)، واسترجاع نظام التقييم (20% — هل يحسب المحرك Mentzer وFIB-4 وHOMA-IR وخطر ASCVD ومراحل KDIGO ومعايير EULAR/ACR عند الاقتضاء)، وفحص صحة مجموع الاحتمالات (10% — يجب أن تتجمع احتمالات التفريق ضمن الفاصل [90, 110]). في حالات الفخ، يتم طرح عقوبة صريحة لفرط التشخيص تصل إلى 0.30، محسوبة بمقدار 0.10 لكل علامة مرض مُصطنعة، مع سقف ثلاث علامات.

ال مكوّن زمن الاستجابة يساهم بنسبة 10%. الاستجابة خلال أقل من 20 ثانية تحصل على الدرجة الكاملة 0.10، والاستجابة خلال أقل من 40 ثانية تحصل على 0.05، وأي شيء أبطأ يحصل على صفر. يعكس هدف 20 ثانية هدف خدمة الإنتاج الأساسي؛ ويعكس سقف 40 ثانية ميزانية النسخة الاحتياطية في المرحلة 2 لاستدعاءات المحرك الثقيلة.

ما الذي يمنعه التسجيل المسبق

تشتهر المعايير التي يضعها أصحابها (من طرف أول) بتضخيم أرقامها عبر ضبط المعيار لاحقًا. النمط يكاد يكون دائمًا هو نفسه: الفريق يشغّل المحرك، يرى أين يتراجع الأداء، ثم يعدّل المعيار بهدوء بحيث تُحسب مناطق ضعف الأداء بدرجة أقل. وبحصر المعيار في كود المصدر قبل أول استدعاء للمحرك ونشر الاختبار تحت رخصة MIT، يصبح هذا التعديل ظاهرًا في التحكم بالإصدارات. يمكن لأي شخص استنساخ المستودع والتحقق من تواريخ تأليف المعيار، والتأكد من عدم استخدام نتائج المحرك لتشكيل عملية التقييم.

حالات فخّ فرط التشخيص — لماذا يُعدّ الإفراط في الاستدعاء هو وضع الفشل الحقيقي

الإفراط في إطلاق تشخيصات مرضية على فحوصات طبيعية هو نمط فشل موثق لدى المساعدات الطبية الموجهة للمستهلكين. تشمل تكاليفه اللاحقة إجراء تحقيقات غير ضرورية، وقلق المريض، وإعدادًا علاجيًا مُحدثًا (iatrogenic). تم تصميم حالتي الفخ في هذا المعيار لجعل هذا الفشل ظاهرًا وقابلًا للتقييم.

🟡 الفخ 1 — BT-014-GILBERT

العرض. رجل عمره 24 عامًا مع إجمالي بيليروبين قدره 2.4 ملغ/دل. الجزء المباشر طبيعي، والإنزيمات ناقلة الأمين والفوسفاتاز القلوي ضمن نطاقات المرجع، والخلايا الشبكية غير لافتة، ويستبعد الهبتوغلوبين وLDH حدوث انحلال الدم.

التفسير الصحيح. متلازمة جيلبرت — تعدد أشكال حميد في UGT1A1. يجب ألا يستدعي التفسير التهاب كبد أو تليفًا أو فقر دم انحلاليًا أو انسدادًا صفراويًا.

نتيجة V11. المركب 1.000. لم تظهر أي من إشارات الإفراط في التشخيص الست المراقبة كتشخيصات نشطة.

🟡 الفخ 2 — BT-015-HEALTHY

العرض. امرأة تبلغ من العمر 35 عامًا مع لوحة فحص روتينية مكوّنة من خمسة عشر مؤشرًا. كل تحليل يقع بشكل مريح داخل نطاقه المرجعي.

التفسير الصحيح. طمأنة والحفاظ على نمط حياة صحي. يجب ألا يقوم التفسير باختلاق اعتلالات حدودية لجعل النتيجة تبدو مفيدة سريريًا.

نتيجة V11. مركّب 1.000. لم تظهر أي من إشارات الإفراط في التشخيص السبعة التي تمت مراقبتها — السكري، فقر الدم، قصور الغدة الدرقية، اضطرابات الدهون، التهاب الكبد، مرض الكلى، النقص — كتشخيصات نشطة.

عبر كلتا مجموعتي الفحص، تم التحقق من ثلاث عشرة إشارة فرط تشخيص تمت مراقبتها. لم يتم تفعيل أي منها. هذه هي النتيجة الأهم لأي طبيب يفكر في استخدام محرك ذكاء اصطناعي كأداة فرز أو ما قبل الاستشارة: لم يقم النظام باختراع مرض حيث لا يوجد مرض.

مؤشر منتزر: فصل نقص الحديد عن سِمة الثلاسيميا

اكتشاف عالي القيمة ثانٍ يتعلق بربط الحالة BT-001 (فقر الدم بسبب نقص الحديد) بالحالة BT-007 (الثلاسيميا بيتا الصغرى). كلاهما يظهر مع صِغر حجم الكريات (microcytosis) ويُعد عائقًا معروفًا أمام المصنّفات الساذجة. يتجاوز مؤشر منتزر، المحسوب على أنه MCV مقسومًا على عدد كريات الدم الحمراء (RBC)، 13 في نقص الحديد وينخفض تحت 13 في سِمة الثلاسيميا.

في BT-001، كانت المريضة امرأة تبلغ 34 عامًا مع هيموغلوبين 10.4 g/dL، وMCV 72.4 fL، وRBC 4.1 × 10¹²/L، وفيريتين 6 ng/mL، وارتفاع TIBC. يدعم مؤشر منتزر البالغ تقريبًا 17.7 نقص الحديد المطلق. في BT-007، كان المريض رجلًا يبلغ 28 عامًا مع صِغر حجم الكريات (MCV 65.8 fL) لكن مع ارتفاع عدد RBC إلى 6.2، وRDW طبيعي، وفيريتين طبيعي، وHbA2 قدره 5.6 بالمئة. يشير مؤشر منتزر البالغ تقريبًا 10.6 إلى سِمة الثلاسيميا، ويؤكد ارتفاع HbA2 الثلاسيميا بيتا الصغرى.

فقر الدم بسبب نقص الحديد منتزر > 13 فيريتين منخفض، TSAT منخفض، TIBC مرتفع، RDW مرتفع

سِمة الثلاسيميا بيتا منتزر < 13 فيريتين طبيعي، RDW طبيعي، HbA2 مرتفع (>3.5%)، عدد RBC مرتفع

حصلت الحالتان على درجة 1.000. استدعى المحرك مؤشر منتزر صراحةً في كلتا عمليتي التفسير وأعاد التشخيص الصحيح في كل مرة. هذه هي النتيجة الأكثر طمأنة سريريًا في كامل الاختبار المرجعي, ، لأن تصنيف سِمة الثلاسيميا على أنها نقص الحديد يؤدي إلى إعطاء مكملات حديد غير مناسبة وفرص تفويت فحص أفراد العائلة، ولأن تصنيف نقص الحديد على أنه ثلاسيميا يؤخر العلاج التعويضي البسيط. إن لنطاق الفيريتين يشرح السياق التفريقي الأوسع.

النتائج لكل حالة من التشغيل المرجعي الأول لـ V11 (23 أبريل 2026)

يشكل التشغيل المرجعي الأصلي لـ V11 ضمن تجميعة إثبات المفهوم المكوّنة من 15 حالة الأساس المنهجي للتحديث الثاني: تُوضح كل التفاصيل الخاصة بكل حالة أدناه كيف يتعامل السلم/الروبرك مع استجابة حقيقية من محرك. حققت 12 من أصل 15 حالة الدرجة المركبة القصوى 1.000 على المسار الأساسي؛ وتمت خدمة ثلاث حالات عبر آلية التعويض في المرحلة 2، مع فقدان مكافأة زمن الوصول 0.05 مع الحفاظ على كامل المحتوى السريري والبنيوي. كانت حالة واحدة ناقصة في قسم فرعي إجباري واحد؛ وأعاد أحدها مجموع توزيع احتمالات مُخفَّضًا بشكل طفيف.

رقم الحالة التخصص مركب زمن الاستجابة المسار

BT-001-IDAأمراض الدم1.00017.8 ثأساسي

BT-006-B12أمراض الدم1.00018.4 ثانيةأساسي

BT-007-ثلاسيمياأمراض الدم1.00017.0 ثانيةأساسي

BT-002-هاشالغدد الصماء0.95037.0 ثانيةالرجوع إلى الإعداد الافتراضي

BT-008-تكيس المبايضالغدد الصماء0.98718.6 ثانيةأساسي

BT-003-السكري من النوع الثانيالأيض1.00019.1 ثانيةأساسي

BT-013-النقرسالأيض1.00019.4 ثانيةأساسي

BT-004-الكبد الدهني غير الكحوليطب الكبد1.00019.6 ثانيةأساسي

BT-009-التهاب الكبد الفيروسيطب الكبد0.95023.4 ثانيةالرجوع إلى الإعداد الافتراضي

BT-014-غيلبرتمصيدة1.00018.9 ثانيةأساسي

BT-005-مرض الكلى المزمنطب الكلى1.00017.4 ثانيةأساسي

BT-010-الاعتلال القلبي الوعائي المرتبط بتصلب الشرايينطب القلب1.00019.7 ثانيةأساسي

BT-011-SLEأمراض الروماتيزم0.98118.2 ثانيةأساسي

BT-012-VITDالغدد الصماء1.00019.3 ثانيةأساسي

BT-015-HEALTHYمصيدة1.00018.7 ثانيةالرجوع إلى الإعداد الافتراضي

حالة تكيس المبايض (BT-008) فقدت بندًا فرعيًا إلزاميًا واحدًا في بنية الاستجابة — خمسة عشر من ستة عشر بدلًا من ستة عشر من ستة عشر — مما خفّض الدرجة البنيوية من 1.000 إلى 0.963. أما حالة SLE (BT-011) فقد أعادت مجموعًا لاحتمالات موزعة بشكل مخفّض بشكل طفيف انخفضت معه الدرجة السريرية إلى 0.965 مع الحفاظ على كل الكلمات التشخيصية ونظام التقييم. لم تفوّت أي من الحالتين غير المثالية تشخيصًا صحيحًا.

تجميع V11 التحديث الثاني — 100,000 حالة

على نطاق السكان، لا تكون صفوف الحالات الفردية قابلة للقراءة من قبل البشر، لذا يقدّم التحديث الثاني مقاييس مجمعة بدلًا من جدول من 100,000 صف. يُعرض الملخص الإجمالي الرئيسي أدناه؛ وتُنشر التفصيلات حسب كل تخصص وحسب كل تسمية بلد في التقرير التقني وإيداع Figshare. يتم نشر عينة عشوائية طبقية من n = 201 استجابات المحرك الخام (بذرة حتمية 20260426) في دليل GitHub results/ للفحص.

الدرجة المركبة V11 الأولي: 0.9912 (99.12%) → التحديث الثاني: 0.9980 (99.80%) Δ = +0.0068 عبر تجميعة 100,000 حالة

الدرجة البنيوية (المتوسط) V11 الأولي: 0.998 → التحديث الثاني: 1.000 تطابق بنيوي مثالي على نطاق المجتمع

الدرجة السريرية (المتوسط) V11 الأولي: 0.998 → التحديث الثاني: 0.996 −0.002؛ لم تفُت أي حالة التشخيص نفسه

زمن الاستجابة — المتوسط (النطاق) التحديث الأول لـ V11: 20.17 ثانية (17.0–37.0 ثانية) → التحديث الثاني: 13.26 ثانية (9.0–16.94 ثانية) تحسينات محرك الإنتاج بين مرات التشغيل

مسار المحرك = الأساسي التحديث الأول لـ V11: 12 / 15 → التحديث الثاني: 100,000 / 100,000 لم تكن هناك حاجة إلى الرجوع إلى المرحلة 2 في أي نقطة أثناء التشغيل

إشارات فرط التشخيص لمجموعة فرعية من المصائد التحديث الأول لـ V11: 0 / 13 → التحديث الثاني: 0 / 87,412 لا توجد نتائج إيجابية كاذبة على نطاق المجتمع (تمت مراقبة 8,723 حالة مصيدة)

ما الذي لا تخبرنا به الدرجة الرئيسية

درجة مركبة قدرها 99.80 بالمئة ضمن معيار التقييم المُسجَّل مسبقًا تحديدًا، على مجموعة متجانسة اصطناعية من 100,000 حالة تمتد عبر 127 تسمية بلد، تمثل أداءً قريبًا من السقف — لكن يلزم تأطيرها بعناية. يصف هذا النتيجة سلوك المحرك مقابل معيار التقييم الذي التزمنا به في كود المصدر في V11؛ ولا يُعد ادعاءً عامًا حول صحة المحرك على كل لوحة اختبار دم موجودة في العالم الحقيقي.

تقول الدرجة إن المحرك تعامل مع أنماط التشخيص التي تم اختيارها لهذا التقييم بشكل صحيح عبر مجموعة على نطاق المجتمع، باستخدام منهجية منشورة وقابلة لإعادة الإنتاج. لا تقول إن المحرك صحيح في كل لوحة blood test موجودة في الواقع. ولا تقول إن المحرك ينبغي أن يحل محل حكم الطبيب. ولا تقول إن المحرك يتفوق على أنظمة ذكاء اصطناعي بديلة — إذ كانت التحليلات المقارنة مع محركات أخرى خارج نطاق هذا التقرير عمدًا.

ما تثبته الدرجة هو خط أساس. وبما أن المعيار والهيكل (harness) متاحان للعامة، يمكن تقييم الإصدارات المستقبلية من المحرك مقابل المعيار نفسه — المطبق على حالات التحديث الأول لـ V11 البالغ عددها 15 حالة، أو مجموعة التحديث الثاني البالغ عددها 100,000 حالة، أو أي توسع لاحق — والفجوة بين الدرجة المنشورة وأي تشغيل لاحق قابلة للقياس بحد ذاتها. وتتمثل قيمة التسجيل المسبق في: إذ يحوّل ادعاءات الأداء إلى ادعاءات قابلة للاختبار.

كيفية إعادة إنتاج هذا المعيار في 10 دقائق

تتطلب إعادة الإنتاج فقط زوج بيانات اعتماد Kantesti API وبيئة Python 3.10 أو أحدث مع requests و reportlab مكتبات مثبتة. تتألف البيئة التجريبية الكاملة من وحدة Python واحدة مستقلة بذاتها ومُصدرة تحت ترخيص MIT.

💻 GitHub بيئة تجريبية مرخّصة من MIT · استجابات خام · تشغيل مرجعي 🔗 DOI على Figshare 10.6084/m9.figshare.32095435 · سجل أكاديمي مرجعي 🎓 ResearchGate النشر 404175463 · V11 التحديث الثاني · طبقة اكتشاف أكاديمية 📄 Academia.edu الورقة 165956808 · V11 التحديث الثاني · طبقة اكتشاف أكاديمية

أربع خطوات لتشغيل جديد

أولًا. استنسخ المستودع: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. اثنان. ثبّت التبعيات باستخدام pip install -r requirements.txt (يضيف التحديث الثاني mysql-connector-python ≥ 8.0 لِمُحمِّل حالات SQL). ثلاثة. اضبط KANTESTI_USERNAME و KANTESTI_PASSWORD كمتغيرات بيئية لواجهة برمجة تطبيقات المحرك. ولِمُحمِّل حالات SQL في التحديث الثاني، اضبط أيضًا KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، و KANTESTI_DB_PASSWORD — يقوم المُحمِّل بالاتصال عبر دور للقراءة فقط (bench_reader) لا يملك أي صلاحيات لتحديد الجداول. أربعة. شغّل python benchmark_bloodtest.py --limit 100000 لعملية التشغيل الكاملة Second-Update، أو python benchmark_bloodtest.py --limit 1000 للتكرار السريع. يتم حفظ المخرجات في ./benchmark_results/: لوحة درجات بصيغة CSV مع أعمدة لكل بلد ولكل تخصص، وتجميع بصيغة JSON، وعينة خام من الاستجابات العشوائية الطبقية، وتقرير بصيغة Markdown.

يتم الاحتفاظ بنتائج التشغيل المرجعية من 23 أبريل 2026 (V11 الأولي، 15 حالة) ومن 26 أبريل 2026 (V11 Second Update، 100,000 حالة) في results/ دليل المستودع. سيُنتج التشغيل الجديد لوحة معلومات جديدة مُؤرَّخة بطابع زمني مع ترك نتائج التشغيل المرجعية دون تغيير. إذا أسفر تشغيلك عن نتيجة مختلفة بشكل جوهري، يُرجى فتح issue على GitHub مع طابع زمن التشغيل وإصدار المحرّك المُعاد في بيانات الاستجابة الوصفية (metadata).

القيود والعمل المستقبلي

حتى عند 100,000 حالة عبر 127 تسمية بلد، تستحق أربع قيود اعترافًا صريحًا: نقص أخذ عينات تسمية الذيل الطويل، والتقييم لمرة واحدة، ونطاق محرك واحد، وأصل بيانات مصدر واحد. تتم معالجة كل منها في أعمال متابعة جارية.

تغطية تسميات الذيل الطويل. يمتد التحديث الثاني على 127 تسمية بلد، لكن التوزيع غير متوازن — تمثل أفضل 10 تسميات حوالي 66.4% من الحالات، ويسهم الذيل الطويل المكوّن من 97 تسمية إضافية معًا بحوالي 7.3% (قرابة 7,300 حالة مجتمعة، ~75 حالة لكل تسمية بمتوسط). لذلك تكون المركّبات لكل تسمية في هذا الذيل الطويل أكثر ضجيجًا مما توحي به الأرقام الرئيسية. ستعيد عمليات التشغيل المستقبلية موازنة تعيين التسمية لتثبيت تقديرات كل تسمية.

التقييم بنقرة واحدة. تم تقييم كل حالة في المجموعة مرة واحدة. تُظهر نماذج اللغات الكبيرة تباينًا غير تافه في المخرجات حتى عند درجة حرارة أخذ عينات منخفضة، لذا فإن بروتوكول متعدد التشغيلات مع خمس تقييمات لكل حالة والإبلاغ عن التباين يُعد خطوة طبيعية تالية — خصوصًا على مجموعة الحالات الفخّية (trap-case subset)، حيث تُعد الاتساق تحت اهتزاز أخذ العينات جزءًا من ادعاء السلامة.

نطاق محرك واحد. يصف هذا التقرير محرّكًا واحدًا. التحليلات المقارنة مقابل أنظمة ذكاء اصطناعي بديلة خارج نطاق هذا التقرير؛ وقد نتابعها كدراسة مستقلة منفصلة باستخدام منهجية مناسبة، وبالاستناد إلى نفس إطار العمل المرخّص من MIT.

بيانات مُولّدة اصطناعيًا. إن 100,000 حالة مُولّدة اصطناعيًا، وليست “حالات اصطناعية”، ولا تنتقل النتائج إلى الأداء السريري في العالم الحقيقي. يتطلب التقييم على بيانات حقيقية وموافَقًا عليها ومُستقاة خارجيًا إشرافًا أخلاقيًا مناسبًا وهو خارج نطاق هذا المعيار الاصطناعي.

بالإضافة إلى هذه الأربع، فإن أكثر امتداد مخطط تأثيرًا هو تكافؤ متعدد اللغات لكل اختصاص/ولاية قضائية. يخدم محرّك Kantesti AI المستخدمين في 75+ لغة، وسيؤدي تشغيل مجموعات فرعية من Second-Update مُقسَّمة حسب اللغة (التركية، الألمانية، الإسبانية، الفرنسية، الإيطالية، البرتغالية، العربية، الماندارين) إلى قياس جودة المخرجات عبر اللغات المدعومة من المحرّك. سيتم نشر كل تحليل مُقسَّم حسب اللغة مع DOI خاص به وفرع إطار العمل (harness branch).

جرّب نفس المحرّك الذي حقق درجة مركبة 99.80% على 100,000 حالة

ارفع لوحة تحليل الدم الخاصة بك إلى نقطة النهاية الخاصة بالإنتاج نفسها التي تم تقييمها في هذا المعيار. يستخدم أكثر من 2 مليون مستخدم حول العالم محرّك الذكاء الاصطناعي Kantesti لتفسير أكثر من 15,000 مؤشّر حيوي عبر 75+ لغة.

🔬 جرب النسخة التجريبية المجانية

إضافة كروم متجر التطبيقات متجر جوجل بلاي

📚 كيفية الاستشهاد بهذا المعيار

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (التقرير الفني V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 مراجع منهجية خارجية

Mentzer, W. C. (1973). التمييز بين نقص الحديد وسمّة الثلاسيميا. The Lancet, 301(7808), 882.

🏥 ببميد

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). معايير تصنيف 2019 للرابطة الأوروبية لمكافحة الروماتيزم / الكلية الأمريكية لأمراض الروماتيزم لمرض الذئبة الحمامية الجهازية. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 ببميد

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: اختبار هلوسة المجال الطبي لاختبارات نماذج اللغات الكبيرة. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%الدرجة المركّبة

100,000الحالات التي تم تقييمها

127تسميات البلدان المغطاة

0 / 87,412الإيجابيات الكاذبة للفخّ

الأسئلة الشائعة

ما مدى دقة محرك الذكاء الاصطناعي Kantesti في حالات الاختبار الاصطناعية؟

على أساس Rubric مُسجّل مسبقًا، تم تشغيله على 100,000 حالة اختبار مُولّدة اصطناعيًا عبر ثمانية مجالات محتوى و127 تسمية بلد (V11 Second Update)، ووصل المحرك إلى درجة مركّبة قدرها 99.80 بالمئة، مع عدم وجود أي إشارات فرط تشخيص عبر 87,412 فرصة مراقبة لحالات “فخ” وبتوسط زمن استجابة بلغ 13.26 ثانية. تقيس هذه الدرجة المركّبة مدى مطابقة المخرجات للمدخلات الاصطناعية، وليس الدقة التشخيصية. أصدرت النسخة الأصلية V11 نفس الـRubric على 15 حالة مُنشأة يدويًا (درجة مركّبة 99.12%)؛ ويحافظ التحديث الثاني على الـRubric مطابقًا للبايت ويُوسّعه إلى مجموعة اصطناعية أكبر. نُشرت لوحة الدرجات الكاملة على Figshare تحت DOI 10.6084/m9.figshare.32095435 وعلى GitHub تحت رخصة MIT.

هل تم التحقق سريريًا من محرك الذكاء الاصطناعي Kantesti؟

لا. تم تقييم المحرك باستخدام معيار تقني آلي (وليس تحققًا سريريًا)، مقابل Rubric تم تجميده في كود المصدر قبل التشغيل الأولي لـV11 وتم الحفاظ عليه مطابقًا للبايت للتحديث الثاني لـV11، مع تقييمه على 100,000 حالة اختبار لتحاليل دم مُولّدة اصطناعيًا عبر أمراض الدم، والغدد الصماء، والطب الأيضي، وأمراض الكبد، وأمراض الكلى، وأمراض القلب، وأمراض الروماتيزم، والطب الباطني، مأخوذة من 127 تسمية بلد. تم توفير الإشراف السريري بواسطة الدكتور Thomas Klein, MD (ORCID 0009-0009-1490-1321)، وهو اختصاصي أمراض دم سريري معتمد من مجلس الإدارة والمدير الطبي (Chief Medical Officer) في Kantesti AI.

ما هي حالة فخ التشخيص المفرط؟

تُعد حالة فخّ فرط التشخيص (hyperdiagnosis trap) سيناريوًا سريريًا مُصممًا خصيصًا لاكتشاف سلوك الإفراط في التشخيص داخل محركات الذكاء الاصطناعي. استخدم معيار V11 الأولي حالتين من هذا النوع كدليل منهجي على المفهوم: حالة واحدة من فرط بيليروبين غير مباشر معزول ومتوافق مع متلازمة جيلبرت (حيث يكون التفسير الصحيح هو تعدد أشكال UGT1A1 الحميد وليس التهاب الكبد أو انحلال الدم) ولوحة فحص للبالغين طبيعية بالكامل (حيث يكون الإخراج الصحيح هو الطمأنة وليس مرضًا حدوديًا مُصطنعًا). قام تحديث V11 الثاني بتوسيع منهجية فخّ الحالة إلى مجموعة فرعية مخصصة من 8,723 حالة، مما أسفر عن 87,412 فرصة تم رصدها لعلامات فرط التشخيص — وظل معدل الإيجابيات الكاذبة للمحرك عند الصفر.

هل يمكن إعادة إنتاج تقييم محرك الذكاء الاصطناعي Kantesti؟

تم إصدار بيئة التقييم الكاملة بموجب ترخيص MIT كملف Python واحد مستقل. يتطلب التشغيل الأولي لـ V11 زوج بيانات اعتماد API من Kantesti فقط وPython 3.10 أو أحدث. يضيف تحديث V11 الثاني مُحمّل حالات SQL للقراءة فقط مع معاملات (parameterised)، ويتطلب بيانات اعتماد من مستودع Kantesti السريري (a bench_reader دور بدون صلاحيات لتحديد الجداول). الكود، وSQL الخاص بمُحمّل الحالات، والمعيار (rubric) (مطابق للبايت بين الإصدارات)، وعينة عشوائية مُقسّمة (stratified) من الاستجابات الخام للمحرك من كل من تشغيل V11 الأولي وتشغيل المرجع للتحديث الثاني متاحة على github.com/emirhanai/kantesti-blood-test-benchmark ومُنعكسة (mirrored) أيضًا على Figshare وResearchGate وAcademia.edu.

كيف يميّز محرك الذكاء الاصطناعي Kantesti بين نقص الحديد وسمّة بيتا-ثالاسيميا؟

يطبق المحرك مؤشر منتزر (Mentzer index)، المحسوب على أنه متوسط حجم الكرية (mean corpuscular volume) مقسومًا على عدد كريات الدم الحمراء. يدعم مؤشر منتزر أعلى من 13 فقر الدم بسبب نقص الحديد، بينما يدعم قيمة أقل من 13 سمة بيتا-ثالاسيميا. في معيار V11 الأولي، تم تصنيف العرضين بشكل صحيح مع حساب صريح لمؤشر منتزر، مدعومًا بسياق الفيريتين (ferritin) وRDW وHbA2. عبر مجموعة الحالات البالغ عددها 100,000 في تحديث V11 الثاني، تم الحفاظ على السلوك التفريقي نفسه على مستوى السكان.

أين يمكنني العثور على بيانات المعايير الخام والشفرة المصدرية؟

تم إيداع التقرير الفني على Figshare تحت DOI 10.6084/m9.figshare.32095435 (يغطي كلًا من الإصدار الأولي لـ V11 وتحديث V11 الثاني)، ومُنعكس على ResearchGate (منشور 404175463) وعلى Academia.edu (ورقة 165956808) — وكلاهما مُحدّث بعنوان تحديث V11 الثاني ونتائج مجموعة 100,000 حالة — كما أن بيئة Python المرخصة بموجب MIT مع جميع نتائج التشغيل المرجعي متاحة على github.com/emirhanai/kantesti-blood-test-benchmark. يضمن تكرار الشبكة عبر أربع منصات توفرًا طويل الأمد ومرونة في الاستشهادات.

لماذا تُعدّ “التسجيل المسبق” مهمًا لمعايير الذكاء الاصطناعي الطبية؟

يمنع التسجيل المسبق ضبط Rubric بعد وقوع الحدث (post-hoc rubric tuning)، وهو الطريقة الأكثر شيوعًا التي تقوم بها الشركات التي تدير المعايير بتضخيم أرقامها الخاصة. من خلال الالتزام بتثبيت Rubric في كود المصدر قبل أي استدعاء للمحرك ونشر الأداة علنًا، تصبح تواريخ مؤلف الـRubric قابلة للفحص في نظام التحكم بالإصدارات، ولا يمكن أن تكون نتائج المحرك قد شكّلت معايير التقييم.

هل يتضمن هذا المعيار مقارنات مع محركات ذكاء اصطناعي أخرى؟

لا. يصف تقرير V11 — سواء الإصدار الأولي أو التحديث الثاني — عمدًا محركًا واحدًا مقابل معيار تقييم ثابت (fixed rubric) بدلًا من وضعه في مواجهة أنظمة تجارية بديلة. بيئة الاختبار (harness) مفتوحة المصدر بموجب ترخيص MIT (وتشمل الآن مُحمّل حالات SQL)، لذا يمكن للباحثين المستقلين تقييم أي محرك يختارونه مقابل المعيار نفسه ومُحمّل الحالات نفسه ونشر نتائجهم.

هل حالات المرضى حقيقية أم مُصطنعة؟

جميع الحالات مُولّدة اصطناعيًا — 15 حالة مُنشأة يدويًا في الإصدار الأولي لـV11 و100,000 حالة في التحديث الثاني. ليست “حالات اصطناعية”: لا توجد بيانات مُولّدة اصطناعيًا، ولا توجد عملية موافقة، ولا توجد عملية إزالة تحديد الهوية، لأن لا توجد بيانات شخصية ضمن المجموعة. لا تظهر أي بيانات شخصية في الحزمة المنشورة، أو التقرير التقني، أو مجموعات البيانات المُفرج عنها.

⚕️ إخلاء مسؤولية طبي & تضارب مصالح

تقرير هذا المعيار مخصص لأغراض البحث والشفافية المنهجية. ولا يشكل نصيحة طبية، ولا يُعد تشخيصًا، ولا يُغني عن الرعاية الطبية المهنية؛ ولا ينبغي استخدام أي نتيجة هنا لتأخير زيارة الطبيب أو تجنبها. استشر دائمًا مقدم رعاية صحية مؤهلًا لاتخاذ قرارات التشخيص والعلاج. هذا معيار داخلي يتم تشغيله ذاتيًا لمحرك الشركة الخاص، ولم يتم التحقق منه بشكل مستقل أو إخضاعه لمراجعة الأقران. يقيس الدرجة المركبة مدى الالتزام بمعيار ثابت (بنية التقرير، والاسترجاع الخاص بالكلمات المفتاحية ونظام التقييم، وزمن الاستجابة)؛ ولا يُعد مقياسًا لدقة التشخيص في العالم الحقيقي أو السلامة السريرية. كلا المؤلفين يعملان لدى Kantesti Ltd ويحملان حصصًا ملكية فيها، والمحرك قيد التقييم هو منتج تجاري لنفس المنظمة. يتم التخفيف من تضارب المصالح هذا عبر تسجيل معيار التقييم مسبقًا داخل كود المصدر، وإتاحة أداة الاختبار (harness) بموجب ترخيص MIT، ونشر عينة عشوائية مُقسَّمة طبقيًا من الاستجابات الخام للمحرك.

إشارات الثقة E-E-A-T

⭐

خبرة

خبرة سريرية لمدة 15+ عامًا في أمراض الدم المخبرية والطب المخبري، مع الإشراف على اختيار لوحة الحالات.

📋

خبرة

تصميم Rubric مُسجَّل مسبقًا مع عقوبات صريحة لفرط التشخيص وأنظمة تقييم سريرية معترف بها (Mentzer، FIB-4، EULAR/ACR، KDIGO).

👤

السلطة

المؤلف الرئيسي الدكتور Thomas Klein، دكتوراه في الطب (ORCID 0009-0009-1490-1321). التنفيذ بواسطة Julian Emirhan Bulut، الرئيس التنفيذي (CEO) لـ Kantesti Ltd.

🛡️

الجدارة بالثقة

أداة قابلة لإعادة الإنتاج بموجب رخصة MIT، ونشر استجابات المحرك الخام، وإفصاح مفتوح عن تضارب المصالح، وشبكة مرايا بحث عبر أربع منصات.

🏢 شركة كانتيستي المحدودة مسجل في إنجلترا وويلز · رقم الشركة. 17090423 لندن، المملكة المتحدة · كانتستي.نت