1- استكشاف البيانات وتصحيح مشكلاتها (Good & Hardin, 2012)
تعتبر مرحلة استكشاف البيانات الخطوة الأولى التي تسبق خطوة تحليل البيانات، وهي من أهم المراحل بوصفها تتضمن تنظيف البيانات من القيم المفقودة، والقيم الشاذة، بالإضافة إلى اختبار صدق البيانات وملائمتها للدراسة. بهدف التأكد من عدم وجود أية مشاكل فيها من الممكن أن تؤثر على صحة ودقة النتائج وأثناء ذلك لابدّ من مراعاة الأمور التالية:
ضرورة الاحتفاظ بالبيانات الأصلية لإمكانية الرجوع لها في أي مرحلة من مراحل التحليل.
قد لا تتم الإجابة عن كل الأسئلة المتعلقة في البحث وذلك نتيجة لعدم فهم السؤال، أو عدم معرفة الإجابة أو عدم الرغبة في ذلك. فينتج عن ذلك وجود قيم مفقودة، وقيم شاذة في البيانات.
أخطاء القياس الناتجة أثناء عملية إدخال البيانات إلى الحاسب، أو أثناء طرح الأسئلة ناتج عن العجلة وعدم التأني في العمل.
ما هي القيم المفقودة
لا تظهر مشكلة القيم المفقودة عندما يكون الاستبيان الكترونيا لأن التطبيق يكون غير مفعل عندما تكون إحدى الإجابات مفقودة، ولكن نواجه مشكلة وجود قيم مفقودة في البيانات في حالات جمع البيانات يدويا عندها تكون البيانات عرضة لأخطاء القياس أو عدم الإجابة من قبل المستبين.
كيف يتم الكشف عن قيم مفقودة؟
يتم الكشف عن وجود قيم مفقودة في البيانات أثناء عملية جدولتها، أي أثناء عملية تفريغها في جداول بحسب تسلسل ورودها في أداة جمع البيانات (استبيان-مقابلات شخصية-...)
كيف يتم التعامل معها؟
نحن أمام خيارين:
استبدالها بقيمة المتوسط (المتوسط الحسابي للبيانات).
حذف المشاهدة إذا تضمنت أكثر من قيمة مفقودة.
ماهي القيم المتطرفة؟
كيف نعلم بوجود قيم متطرفة في بياناتنا؟
سبب القيمة المتطرفة
طبيعة القيمة المتطرفة
طريقة معالجتها
التنفيذ
هي قيم تختلف جدا عن بقية قيم البيانات إما بالزيادة أو بالنقصان، وفي كلا الحالتين تدل على وجود مشكلة ما.
نستطيع معرفة فيما إذا كانت البيانات تتضمن قيم متطرفة أم لا عن طريق رسم مخطط الصندوق أو من خلال الجداول التكرارية.
متآصل: يدل على وجود مشكلة في المشروع يجب إدراكها.
خطأ في القياس.
خلل في آليات التنفيذ.
عشوائية: يمكن تفسيرها بوجود مشكلة في المشروع.
حتمية: تنتج عن خلل في أداة جمع البيانات، أو خطأ في تسجيل البيانات (أخطاء قياس ).
ملائمة القيمة المتطرفة مع الاتجاه العام للبيانات (من خلال استبدال القيمة المتطرفة بالقيمة الأكثر تكرارا في أغلب الأحيان).
اختبار الاختلاف من خلال اختبار الفرضيات.
يتم تنفيذ اختبار فرضيات وفق أوجه عديدة:
دمج أو تجسيد القيمة المتطرفة من خلال ربطها بظاهرة ما في المشروع.(تحديد الجوانب المسببة للقيمة المتطرفة) ومحاولة حلها.
رفض المشاهدة المتضمنة للقيمة المتطرفة.
مثال: جميع المستفيدين من مشروع ما آراؤهم ما بين " راضين " و " راضين نوعا ما" عن المشروع باستثناء عدة أفراد منهم " غير راضٍ على الإطلاق " وفي هذه الحالة هؤلاء يمثلون قيم متطرفة يجب معالجتها.
تم التعرف على القيم المتطرفة من خلال إجابات المستفيدين التي تختلف بشكل كبير عن بقية الإجابات.
سبب وجود هذه القيم: متأصل بسبب عدم الرضا عن المشروع إما بسبب نوعية المشروع أو آليات التطبيق.
وهي قيم عشوائية لا تتبع لمتغير العمر ولا الجنس ولا...
تتم معالجتها من خلال اختبار الفرضيات عن طريق إحدى الخيارات:
تجسيد القيم المتطرفة بالمشكلة التي سببتها ومحاولة حلها.
رفض استبيان المجيب الذي تتضمن بياناته قيمة متطرفة
ما هو اختبار صدق الاستبيان؟
يستخدم عادة اختبار صدق الاستبيان للتحقق من صلاحية الاستبيان (أداة جمع البيانات)، أي لمعرفة في حال تساوي الظروف فإنّ إجابات الشخص المستبين يجب ألا تتغير في حال تم استبيانه في زمنين مختلفين.
كيف يتم اختبار صدق الاستبيان؟
هناك اختبارات عديدة تتضمن اختبار صدق الاستبيان أهمها وأكثرها استخداماً " اختبار ألفا كرونباخ " تقع قيمته ضمن المجال [0,1] فإذا كانت
قيمة مقياس ألفا كرونباخ > 7 (بحسب Kline 1999) دل ذلك على قوة وصدق الاستبيان.
قيمة مقياس ألفا كرونباخ <7، و قيمة مقياس ألفا كرونباخ > 0.5 كانت قيمة مقياس ألفا كرونباخ مقبولة.
قيمة مقياس ألفا كرونباخ < 0.5 دل ذلك على عدم وثوقية الاستبيان المستخدم أو عدم جدية المستبينين.
لماذا يتم اختبار صدق الاستبيان؟
يتم إجراء صدق الاستبيان للتعرف على مدى صدق وجدية المستبين هذا من جهة ومن جهة أخرى صلاحية الاستبيان لقياس مؤشرات المشروع.
اختبر نفسك:
يقصد باستكشاف البيانات:
الكشف عن مؤشرات الدراسة.
معرفة المتغيرات الرئيسة.
فحص البيانات وتدقيقها.
يتضمن استكشاف البيانات: ( يمكن اختيار أكثر من إجابة )
معرفة أخطاء القياس ( أثناء عملية تفريغ البيانات الورقية – أثناء إدخال القيم إلكتورنياً ).
معرفة المتغيرات الأكثر فعالية.
التعرف على القيم المتطرفة.
اكتشاف القيم المفقودة.
تحويل البيانات النوعية إلى كمية.
من أدوات استكشاف البيانات: ( يمكن اختيار أكثر من إجابة )
اختبار الفرضيات.
الإحصاء الوصفي.
جداول التقاطع.
الجداول التكرارية.
تكتشف الأخطاء عادة عن طريق:
المخططات التكرارية.
الاحصاءات الوصفية.
جداول التقاطع.
كل ماسبق.
القيمة المتطرفة outlier هي:
هي قيمة لا علاقة لها بالبيانات.
قطة من البيانات مختلفة جداً عن بقية البيانات.
تعتبر مركز ثقل البيانات.
ضع إشارة (صح) أمام العبارة الصحيحة وإشارة (خطأ) أمام العبارة الخاطئة:
( ) تؤثر القيم المتطرفة في نتائج التحليل.
( ) يتم التخلص من القيم الشاذة فقط من خلال التحقق من صحة عملية إدخال البيانات.
( ) تحل عادة مشكلة القيم المفقودة بحذف بيانات الشخص أو الحالة المساهمة بالقيمة الشاذة.
( ) تظهر القيمة المنعزلة في الجداول والمخططات التكرارية ورسم الصندوق.
تستخدم للكشف عن القيم المتطرفة:
الاحصاءات الوصفية فقط.
الاحصاءات الوصفية ورسم الصندوق.
رسم الصندوق فقط.
اختبار الفرضيات.
2- ترميز البيانات
قبل الدخول بترميز البيانات لابد لنا من المرور على أنواع البيانات الكمية وذلك تبعا لنوع المتغيرات التي تضم هذه البيانات:
اسمي Nominal: كالتخصص الدراسي، مكان الإقامة.
رتبي Ordinal: كالمستوى التعليمي، الوضع الاجتماعي.
رقمي Scale: كالعمر والدخل الشهري.
مجالي interval: كعدد مرات استخدام المزرعة لنوع معين من الأسمدة، فيمكن تقسيم عدد المرات إلى مجالات ذات دلالة ما في المشروع والترميز لكل مجال برقم.
يتضمن ترميز البيانات الكمية شكلين:
أسئلة تتطلب إجابة واحدة: في هذه الحالة يعطى رقم تسلسلي لكل خيار.
مثال: ما تقييمك لجودة الخدمات التي يقدمها المركز الطبي في منطقتك؟
جيدة جدا (يرمز هذا الخيار 1)
جيدة (يرمز هذا الخيار 2)
مقبولة (يرمز هذا الخيار 3)
غير جيدة (يرمز هذا الخيار 4)
لا أعلم (يرمز هذا الخيار 5)
أسئلة تتطلب أكثر من إجابة: في هذه الحالة يرمز لكل خيار من الخيارات إما 1 للدلالة على اختيار هذا الخيار أو 0 للدلالة على عدم اختيار هذا الخيار وبالتالي يعامل معاملة السؤال.
مثال: ماهي الجوانب التي تفضل تنمية قدراتك فيها (يمكنك اختيار أكثر من إجابة):
إدارة المشاريع (يرمز ترميز ثنائي 1=نعم،2=لا)
اللغات (يرمز ترميز ثنائي 1=نعم،2=لا)
التدريب وبناء القدرات (يرمز ترميز ثنائي 1=نعم،2=لا)