"מדגם מקרי מייצג" הוא טיעון כוזב (fallacy). מדגם מקרי (ואפילו אקראי) אינו יכול לייצג. גם לא במקרה!
על מנת להגיע ל"ייצוג" יש צורך לדאוג לכך, שכל המשתנים יהיו "מיוצגים" ולכך אי אפשר להגיע ב"מקרה"!
לכן על מנת לוודא ייצוג, המדגם חייב להיות מתוכנן (בין בשכבות ובין באשכולות). בתוך האשכול או השכבה
ניתן לבחור באקראי (ראה למטה) אבל אם מראש נחליט על מדגם מקרי (שבכלל אינו מתוכנן, ובמציאות
שלנו ז.א. שזה מה שהצליח לנו!) – מייצג - הוא לא! ד.א. מדגם מתוכנן, הרבה יותר יעיל, משום שבכל
רגע שמצאנו, כי קיים ייצוג של כל הנתונים שאת התנהגותם מבקשים למדוד, או שאין שונות בתשובות,
אפשר לעצור. (גם אחרי נדגם אחד! ראה דוגמה להלן) ואין זה משנה אם אלו אנשים או מסמכים.
|
במציאות (הסקרים) - המקריות אינה מקרית:
כשסוקר (שזה הפוֹעֲל השִטחי יותר של חוקר),
אומר שהתוצאות מבוססות על מדגם מייצג,
מה הוא בעצם אומר? ז.א. שהמדגם מייצג
את אלו שהסכימו לענות לו! אנו מכנים זאת
מדגם מציֵיץ ולא מדגם מייצג! לפי מה נקבע
אם מי שענה שייך לייצוג? המקריות? וכיצד
נדע מה זה מייצג? הבה נתייחס לזה בצורה
מספרית: ניקח אוכלוסייה של מדינה. בכמה
בכמה קטגוריות מדובר? נבחר פרמטרים
שבדרך כלל חשובים לכל דעה: מין למשל:
לפחות 2 קט' ויש האומרים 4 קטגוריות -
(אם נסבור כי חד מיניים יענו אחרת).
גיל: לפחות 5 קט'(ובלי נוער) השכלה:
לפחות 4 קט'. הכנסה: בין 5 ל 10 קט'
(לפי עשירונים) כלומר יש לנו בין 200
ל 800 צירופים (לפי המכפלה שמתאימה
לתכונות מלמעלה). וזה עוד לפני שספרנו
כמה תשובות אפשריות. כאשר שואפים לייצוג
אמיתי, ז.א לפחות 10 משיבים לתא, צריך
מדגם של כמה אלפים.
|
|
אז מה בדיוק מייצגים 508 משיבים בטלפון?
אם נסתפק בכמות כזו של משיבים אנו מניחים
הרבה מאד הנחות יסוד שאין לנו כל ביסוס להן,
בייחוד בגודל מדגם כזה. בדרך כלל דגימה, היא
תוצאה של מחסור בזמן, כסף ואמצעים אחרים.
כשיש מספיק זמן, כסף ואמצעים, זו ההזדמנות
לבדוק הכל: להגיע לכל האוכלוסייה. בין אם זו
אוכלוסייה של נתונים, או של אנשים. אמנם הבעיה
בדגימה, מקורה באפשרות לקבל ייצוג נכון של כלל
האוכלוסייה במדגם. אך זו גם הפשטה של הבעיה:
השאלות לפני הדגימה הן בעיקרן:
1. מה היקף האוכלוסייה שמבקשים למדוד
2. מה השונות הצפויה באוכלוסייה.
3. כמה תשובות אפשריות לכל שאלה.
4. מה השונות הצפויה בתשובות.
נקודה זו מודגשת כאן כי היא הבסיס להכרזות
הבלתי מדויקות של הסוקרים השונים: כאשר
מחליטים, כי 500 משיבים זה מדגם מייצג, זה
כולל הנחה של חוסר שונות. לפעמים זה מצליח,
אבל אם לא - זה המקור לטעויות שמגלים, לרוב
לאחר מעשה.
|
מה קורה במציאות:
אנחנו דוגמים כל החיים, מבלי לקרוא לזה כך. כשבוחרים עובד על בסיס נתונים מסוימים מבלי שהכרנו
אותו כל חייו, זו דגימה. כשבוחרים חסה על בסיס העלה / עלים החיצוניים או הכובד שלה- גם זו דגימה.
|
נוכיח שאין מדגם קטן מדי. למשל:
כמה משיבים צריך לראיין בתחום הגיאוגרפי שבין אדינבורו למרקש על מנת לקבל מדגם מייצג? התשובה - אחד.
הכיצד? למשל אם רצינו לדעת מה השעה. כלומר, כשיש רק תשובה אחת נכונה וצפוי שכל המשיבים יתנו את אותה
התשובה, אין לי צורך לשאול יותר ממשיב אחד. ומשום שלצורך התשובה, לא דרושה שום תכונה נוספת פרט לבעלות
על שעון, שאותה אפשר לוודא מראש: המדגם המייצג (והמספיק) הוא אחד! למקפידים - שניים (לצורך מבחן תוקף).
כאשר מבקשים ללמוד על תכונות אחרות העשויות להשפיע על התשובה, צריך לדגום לפי השונות הנראית באוכלוסיה
והקשורה לתכונות אלו. ולרוב, "500" זה ל"מ (לא בדיוק מספיק). ראה עוד במאמר משהו על סטטיסטיקה .
|
תוצאות של דגימה אפשר לפרש בכמה רמות:
- מוחלטת. המסקנות מתייחסות רק למדגם ולתשובות שהתקבלו, מבלי להכליל על האוכלוסייה.
- יחסית. שעור הסטייה הצפוי, לאחר ניפוח התוצאות לממדי הקבוצות שנידגמו.
- מייצגת. על בסיס שיעור הייצוג במדגם מול שעור הייצוג באוכלוסייה. כאן יידרש תיקון כפול: גם יחסי וגם לייצוג.
- בדוקה: כאשר את התוצאות לפי התיקונים עד כה, מתקנים פעם נוספת לפי שעור תקפות השאלון (מתאם בין
משיבים עם פרופיל זהה). ומהימנות (מתאם אצל המשיב, לתשובות לשאלות זהות).
|
מהו מקור הטעות בתחזית?
- הסיבה הפשוטה ביותר: אין דגימה. מקבלים את התשובות של אלו שהסכימו להשיב (או של המסמכים שנמצאו)
ולא מוודאים מהו הייצוג הנכון של המדגם. במקום זה מציגים הסבר קלוש לצורת הדגימה.
- הפרוש הניתן לתוצאות - לא מתייחס לתקפותן. מציגים תשובות שנתנו מי שהסכימו - כאילו מייצגות את כלל האוכלוסייה..
- לא מחפשים תוצאות תלויות (הסבר השונות דרך מתאם מרובה! למשל חיזוי רכישת מכונות כביסה, מוסבר הרבה יותר
טוב, על בסיס לידות ילד שני ולא על בסיס נישואין או לידות ילד ראשון) אבל הסיבה הכי לא מוכרת:
- לא מתייחסים נכון לסוג הנתונים! (ידוע גם כ- סולמות) לא שעור במתמטיקה - אבל לקיצור המאמר המופיע שם:
סולם שמי - חסר רציפות כל שהיא - כמו אדום, ירוק, צהוב.
סולם סידורי - כשהכמות לא מוחלטת, כמו בינוני, טוב, מצוין. יפה ויותר יפה.
סולם איכותי – יש משמעות לכמות, אבל ל- אפס אין משמעות. כמו טמפרטורה למשל.
סולם יחסי (מנה) - אפשר לחלק נתון בנתון ולקבל תוצאה משמעותית. והאפס מוחלט.
|
התעלמות מסוג הנתונים גוררת בחירה לא נכונה בין המבחנים הסטטיסטיים הרלוונטיים ואז מקבלים תוצאות הזויות.
מתי זה יפריע לכם? כאשר מנסים לתכנן על בסיס התנהגות המשיבים, (למשל) רמות מלאי. הפצה של סחורה.
מיקום של מחסנים, וגם מיקום בתוך המחסן. לחזות שימוש בטכנולוגיות חדשות. תנועות אוכלוסייה. שינוי בהרגלי
צריכה. כשבאמת מה שנדרש זה לבנות מטריצות גדולות על בסיס השונות האמיתית - לצרכים הנ"ל. וזה רק לדוגמה.
|
דיון משלים נמצא ב משהו על סטטיסטיקה .
בצבא, מידע חוסך דם. בכל מקום אחר הוא חוסך זמן, וזמן חשוב יותר מכסף!.
לסיכום- אם אינפורמציה היא כוח – מדוע שלא תדעו יותר?
תתקשרו – תדעו!
אנחנו עוזרים לכם באיסוף ועריכת הנתונים. באבחנה בניתוח וביישום. למידע נוסף צור קשר
|
|