تحليل عنقودي

التحليل العنقودي (بالإنجليزية: Cluster analysis) هو عبارة عن نوع من الأساليب الإحصائية التي يمكن تطبيقها على البيانات. يتولى التحليل العنقودي إفراز البيانات الأولية وتجميعها في مجموعات عنقودية (clusters). العنقود عبارة عن مجموعة من الحالات أو الملاحظات المتجانسة نسبيًا. تتميز العناصر المكونة للعنقود الواحد بأنها متشابهة مع بعضها، بينما تكون عناصر العناقيد المختلفة أقل تجانساً.

التحليل العنقودي، مثل تحليل العوامل والقياس متعدد الأبعاد، هو أسلوب تكافلي: حيث إنه لا يفرق بين المتغيرات التابعة والمستقلة. يتم فحص مجموعة العلاقات المترابطة تبادليًا. ويتشابه التحليل العنقودي مع القياس متعدد الأبعاد في أن كلاً منهما يبحث في التشابه بين العناصر وبعضها عن طريق فحص المجموعة الكاملة من العلاقات المترابطة. ويتمثل الاختلاف في أن القياس متعدد الأبعاد يحدد الأبعاد الأساسية، بينما التحليل العنقودي يحدد المجموعات. التحليل العنقودي هو الوجه المقابل لتحليل العوامل. في حين أن تحليل العوامل يقلل عدد المتغيرات عن طريق تجميعهم في مجموعة عوامل أصغر، يقلل التحليل العنقودي عدد الملاحظات أو الحالات عن طريق تجميعها في مجموعة مجموعات عنقودية أصغر.

نبذة

التحليل العنقودى أحد أشكال التحليل المتعدد المتغيرات، يهدف إلى تقسيم مجموعة من الموضوعات (كالمتغيرات أو الأفراد) تتميز بعدد من الخصائص إلى مجموعة من العناقيد أو الطبقات، بحيث تصبح الموضوعات الداخلة فى كل عنقود أو طبقة على درجة عالية من التماثل فيما بينها، وعلى درجة عالية من الاختلاف عن الموضوعات التى توجد داخل عنقود أو طبقة أخرى، وذلك فى ضوء مجموعة محددة من المؤشرات الوصفية والسمات التى تتخذ أساسا للتحليل. ويعرف هذا الأسلوب فى علم البيولوجيا بالتصنيف العددى.

يعد التحليل العنقودى أحد أساليب التحليلات الإحصائية المتعددة المتغيرات التى طورهاكل من أشرف شيفكى ووندل بل (فى كتابهما: تحليل المنطقة الاجتماعية، الصادر عام 1955، لتحليل بيانات التعداد. وتم تطبيق أسلوب التحليل العنقودى فى تحليل البيانات الإحصائية للمناطق الصغيرة فى إطار التعداد، والمؤشرات الاجتماعية فى تحليل المنطقة الاجتماعية، لخلق تنميطات للمناطق، سواء من خلال التركيز على مناطق حضرية أو متروبوليتانية بعينها، أو تغطية البلد ككل. وقد تم التحليل العنقودى على نطاق واسع فى مجالات أخرى، بما فى ذلك بحوث التنمية حول اتجاهات الرأى أو الأسئلة التى يمكن من خلالها صياغة مقياس للاتجاه، والأعمال الاستطلاعية لتحديد الأنماط الأساسية التى تتضمنها مجموعات البيانات الكبيرة، والبحوث التحليلية لقياس أوجه الشبه والاختلاق المهمة بين الأفراد، وبين الجماعات الاجتماعية، والشركات، أو أنماط التنظيم الأخرى، و الدول، وأنواع الأحداث وغيرها. وكذلك فى تطوير التصنيفات والتنميطات.

وقد دعت الطرق المختلفة لمتحديد التشابه والاختلاف إلى ظهور مجموعة من الوسائل المتميزة للتحليل العنقودى. ومن شأن الطرق البديلة لتحديد مدى توافق الحل مع البيانات، أن تقود بدورها إلى طائفة من النتائج المتضاربة إلى حد ما. وتبدأ معظم إجراءات التصنيف بجدول معاملات الارتباط للتمالل و التباين بين كل زوج من الموضوعات، ثم تتفرع بعد ذلك إلى أحد طريقين، من أسفل إلى أعلى (حيث تتجمع الموضوعات فى عناقيد أكبر) أو من أعلى إلى أسفل (حيث تنقسم مجموعة الموضوعات إلى عناقيد أصغر فأصغر). وتقود هذه العملية إلى حل يمثل هرما عنقوديا متدرجاً، وهو شكل يتخذ هيئة الشجرة. ويقدم المخطط العنقودى المتدرج عادة مجموعة من الخطوط الكنتورية داخل حل لمقياس متعدد الأبعاد لنفس البيانات. وأشهر طريقة للتحليل العنقودى هو العنقود التراتبى التدريجى الذى يظهر فى شكل شجرة، ويحدد بوضوح الحالات الخارجة التى تظل منفصلة عن الحالات الأخرى حتى المرحلة الأخيرة من عملية التحليل العنقودى، عندماتتحدكل الحالات قى مجموعة واحدة، ذات ثلاتة مستويات أو أكثر من التجمع.

وتتضمن التطورات المعاصرة فى هذا الميدان عناقيداً تراكمية متداخلة (حيث يوجد لكل عنقود مقياس يحدد مدى أهميتة) وأشكالا شجرية تراكمية (حيث يدل طول المسار بين النقاط على مدى اختلاف البيانات)، والعنقود المستطيل (حيث يترابط الأفراد ومتغيرات البناء عنقودياً).

الإجراءات الأساسية

  1. قم بصياغة المشكلة - حدد المتغيرات التي ترغب في تطبيق أسلوب التجميع عليها
  2. حدد قياس المسافة - طرق مختلفة لحساب المسافة:
    • المسافة الإقليدية المربعة - مجموع الفروق المربعة في القيمة لكل متغير
    • مسافة مانهاتن - مجموع الفروق المطلقة في القيمة لأي متغير
    • مسافة تشيبيشيف - أقصى حد للفرق المطلق في القيم لأي متغير
    • مهالانوبيس (أو مسافة العلاقة) - عبارة عن مقياس يستخدم معاملات الارتباط بين الملاحظات وتستخدم على أنها أداة لتجميعها. وهو مقياس مهم جدًا حيث إنه يعد وحدة ثابتة (يمكنه المقارنة مجازيًا بين التفاح والبرتقال)
  3. حدد إجراء تجميع (انظر أدناه)
  4. قرر عدد المجموعات العنقودية
  5. قم بتخطيط المجموعات وتأويلها - استخلص الاستنتاجات - تعد الأساليب التوضيحية مثل خرائط الإدراك الحسي والقطع الجليدية وديندروجرام تعد مفيدة للغاية في هذا الشأن
  6. قم بتقييم الموثوقية والصلاحية - بطرق مختلفة:
    • كرر التحليل ولكن باستخدام مقياس مسافة مختلف
    • كرر التحليل ولكن باستخدام أسلوب تجميع مختلف
    • قسم البيانات بصورة عشوائية إلى نصفين وحلل كل جزء على حدة
    • كرر التحليل عدة مرات، بحيث تحذف متغيرًا واحدًا كل مرة
    • كرر التحليل عدة مرات، باستخدام ترتيب مختلف في كل مرة

إجراءات التجميع

هناك عدة أنواع من أساليب التجميع:

  • التجميع غير الهرمي (ويسمى أيضًا تجميع الوسائل بالطريقة كيه)
    • أولاً حدد مركز المجموعة، ثم قم بتجميع جميع العناصر الموجودة على مسافة محددة
    • أمثلة:
      • طريقة الحد المتسلسل - أولاً حدد مركز المجموعة، ثم قم بتجميع جميع العناصر التي تقع ضمن الحد المحدد سلفًا من المركز - يتم إنشاء مجموعة عنقودية واحدة في كل مرة
      • طريقة الحد المتوازي - يتم تحديد عدة مراكز للمجموعة في الوقت نفسه، ثم يتم تجميع العناصر التي تقع ضمن الحد المحدد سلفًا من المراكز
      • طريقة تحسين التقسيم - أولاً يتم تنفيذ إجراء غير هرمي، ثم يتم إعادة تعيين المكونات لتحسين المعيار بصورة عامة.
  • التجميع الهرمي
    • يتم تنظيم المكونات في بنية هرمية كجزء من الإجراءات
    • أمثلة:
      • التجميع التقسيمي - ابدأ عن طريق معالجة جميع العناصر كما لو أنها جزء من مجموعة واحدة كبيرة، ثم قم بتقسيم المجموعة إلى مجموعات أصغر وأصغر
      • التجميع التراكمي - ابدأ بمعالجة كل عنصر على أنه مجموعة منفصلة، ثم قم بتجميعها في مجموعات أكبر وأكبر
        • أمثلة:
          • الطرق المركزية - تقوم المجموعات الناشئة بتعظيم المسافة بين مراكز المجموعات (المركزية هي القيمة المتوسطة لجميع العناصر في المجموعة)
          • طرق الاختلاف - تقوم المجموعات الناشئة بتقليل أوجه الاختلاف بين المجموعات
            • مثال:
              • إجراء وارد - تقوم المجموعات الناشئة بتقليل المسافة الإقليدية المربعة لمتوسط المركز
          • طرق الربط - تعتمد مكونات المجموعة على المسافة بينها
            • أمثلة:
              • طريقة الربط الفردية - تعتمد مكونات المجموعة على الحد الأدنى للمسافة بينها (وتسمى أيضًا قاعدة أقرب الجيران)
              • طريقة الربط الكاملة - تعتمد مكونات المجموعة على الحد الأقصى للمسافة بينها (وتسمى أيضًا قاعدة أبعد الجيران)
              • قاعدة الربط المتوسطة - تعتمد مكونات المجموعة على المسافة المتوسطة بين جميع أزواج الكائنات (يجب أن يأتي أحد الزوجين من مجموعة مختلفة)

انظر أيضًا