استكشاف البيانات وترميزها وتصحيح مشكلاتها

1- استكشاف البيانات وتصحيح مشكلاتها (Good & Hardin, 2012)

تعتبر مرحلة استكشاف البيانات الخطوة الأولى التي تسبق خطوة تحليل البيانات، وهي من أهم المراحل بوصفها تتضمن تنظيف البيانات من القيم المفقودة، والقيم الشاذة، بالإضافة إلى اختبار صدق البيانات وملائمتها للدراسة. بهدف التأكد من عدم وجود أية مشاكل فيها من الممكن أن تؤثر على صحة ودقة النتائج وأثناء ذلك لابدّ من مراعاة الأمور التالية:

  • ضرورة الاحتفاظ بالبيانات الأصلية لإمكانية الرجوع لها في أي مرحلة من مراحل التحليل.
  • قد لا تتم الإجابة عن كل الأسئلة المتعلقة في البحث وذلك نتيجة لعدم فهم السؤال، أو عدم معرفة الإجابة أو عدم الرغبة في ذلك. فينتج عن ذلك وجود قيم مفقودة، وقيم شاذة في البيانات.
  • أخطاء القياس الناتجة أثناء عملية إدخال البيانات إلى الحاسب، أو أثناء طرح الأسئلة ناتج عن العجلة وعدم التأني في العمل.



مثال: جميع المستفيدين من مشروع ما آراؤهم ما بين " راضين " و " راضين نوعا ما" عن المشروع باستثناء عدة أفراد منهم " غير راضٍ على الإطلاق " وفي هذه الحالة هؤلاء يمثلون قيم متطرفة يجب معالجتها.

تم التعرف على القيم المتطرفة من خلال إجابات المستفيدين التي تختلف بشكل كبير عن بقية الإجابات.

سبب وجود هذه القيم: متأصل بسبب عدم الرضا عن المشروع إما بسبب نوعية المشروع أو آليات التطبيق.

وهي قيم عشوائية لا تتبع لمتغير العمر ولا الجنس ولا...

تتم معالجتها من خلال اختبار الفرضيات عن طريق إحدى الخيارات:

  • تجسيد القيم المتطرفة بالمشكلة التي سببتها ومحاولة حلها.
  • رفض استبيان المجيب الذي تتضمن بياناته قيمة متطرفة

اختبر نفسك:

  1. يقصد باستكشاف البيانات:
    • الكشف عن مؤشرات الدراسة.
    • معرفة المتغيرات الرئيسة.
    • فحص البيانات وتدقيقها.
  2. يتضمن استكشاف البيانات: ( يمكن اختيار أكثر من إجابة )
    • معرفة أخطاء القياس ( أثناء عملية تفريغ البيانات الورقية – أثناء إدخال القيم إلكتورنياً ).
    • معرفة المتغيرات الأكثر فعالية.
    • التعرف على القيم المتطرفة.
    • اكتشاف القيم المفقودة.
    • تحويل البيانات النوعية إلى كمية.
  3. من أدوات استكشاف البيانات: ( يمكن اختيار أكثر من إجابة )
    • اختبار الفرضيات.
    • الإحصاء الوصفي.
    • جداول التقاطع.
    • الجداول التكرارية.
  4. تكتشف الأخطاء عادة عن طريق:
    • المخططات التكرارية.
    • الاحصاءات الوصفية.
    • جداول التقاطع.
    • كل ماسبق.
  5. القيمة المتطرفة outlier هي:
    • هي قيمة لا علاقة لها بالبيانات.
    • قطة من البيانات مختلفة جداً عن بقية البيانات.
    • تعتبر مركز ثقل البيانات.
  6. ضع إشارة (صح) أمام العبارة الصحيحة وإشارة (خطأ) أمام العبارة الخاطئة:
    •  (          )  تؤثر القيم المتطرفة في نتائج التحليل.
    •  (          )  يتم التخلص من القيم الشاذة فقط من خلال التحقق من صحة عملية إدخال البيانات.
    •  (          )  تحل عادة مشكلة القيم المفقودة بحذف بيانات الشخص أو الحالة المساهمة بالقيمة الشاذة.
    • (          ) تظهر القيمة المنعزلة في الجداول والمخططات التكرارية ورسم الصندوق.
  7. تستخدم للكشف عن القيم المتطرفة:
    • الاحصاءات الوصفية فقط.
    • الاحصاءات الوصفية ورسم الصندوق.
    • رسم الصندوق فقط.
    • اختبار الفرضيات.

2- ترميز البيانات

قبل الدخول بترميز البيانات لابد لنا من المرور على أنواع البيانات الكمية وذلك تبعا لنوع المتغيرات التي تضم هذه البيانات:

  • اسمي Nominal: كالتخصص الدراسي، مكان الإقامة.
  • رتبي Ordinal: كالمستوى التعليمي، الوضع الاجتماعي.
  • رقمي Scale: كالعمر والدخل الشهري.
  • مجالي interval: كعدد مرات استخدام المزرعة لنوع معين من الأسمدة، فيمكن تقسيم عدد المرات إلى مجالات ذات دلالة ما في المشروع والترميز لكل مجال برقم.

يتضمن ترميز البيانات الكمية شكلين:

أسئلة تتطلب إجابة واحدة: في هذه الحالة يعطى رقم تسلسلي لكل خيار.

مثال: ما تقييمك لجودة الخدمات التي يقدمها المركز الطبي في منطقتك؟

  • جيدة جدا (يرمز هذا الخيار 1)
  • جيدة (يرمز هذا الخيار 2)
  • مقبولة (يرمز هذا الخيار 3)
  • غير جيدة (يرمز هذا الخيار 4)
  • لا أعلم (يرمز هذا الخيار 5)

أسئلة تتطلب أكثر من إجابة: في هذه الحالة يرمز لكل خيار من الخيارات إما 1 للدلالة على اختيار هذا الخيار أو 0 للدلالة على عدم اختيار هذا الخيار وبالتالي يعامل معاملة السؤال.

مثال: ماهي الجوانب التي تفضل تنمية قدراتك فيها (يمكنك اختيار أكثر من إجابة):

  • إدارة المشاريع (يرمز ترميز ثنائي 1=نعم،2=لا)
  • اللغات (يرمز ترميز ثنائي 1=نعم،2=لا)
  • التدريب وبناء القدرات (يرمز ترميز ثنائي 1=نعم،2=لا)
  • مهارات التواصل (يرمز ترميز ثنائي 1=نعم،2=لا)
  • التحليل وكتابة التقارير (يرمز ترميز ثنائي 1=نعم،2=لا)