הגרף – קווים לדמותו (או: איך לרמות בגרפים)

אורן שעיה שני, 13/12/2010, 23:30

הגרף הוא ידידו הטוב של המדען.

לפי ויקיפדיה: "גרף הוא תרשים דו-ממדי המשמש להצגה חזותית של מידע מספרי". הגרף מהווה את הדרך היעילה ביותר להראות מידע מספרי באופן ברור, ובכך להראות מגמות ותופעות שונות במדע, סטטיסטיקה ועוד. כלומר, במקום שאסביר שמדדתי משהו כפונקציה של משהו וזה נראה כך או אחרת, אני מראה זאת באמצעות גרף. יחד עם זאת, הגרף יכול לשמש גם ככלי יעיל להצגת נתונים באופן מבלבל ומשכנע, כדי לגרום למתבונן להגיע למסקנות שגויות. הגרף לעולם אינו אובייקטיבי, אלא מהווה השתקפות של נקודת המבט של מי ששרטט אותו מתוך המשתנים אותם הוא בוחר להציג והצורה שבה הוא בוחר להציג אותם. האמנות של הצגת נתונים בתמונות נקראת "אינפוגרפיקה" וניתן לקרא עליה גם בפוסט קודם:"הטעות של בן". ברשומה זאת אציג ארבעה ניסויים (שלושה מומצאים ואחד אמיתי) אשר ידגימו את הבעיה. אתם מוזמנים ללחוץ על הגרפים כדי לראות אותם במלוא הדרם.


איור 1

בניסוי הראשון חושב המשקל הממוצע של אזרחי ישראל (לפני החגים) בין השנים 1990 ל-2010. כל נקודה בגרף מייצגת את המשקל הממוצע באחת השנים הנ"ל, כפי שניתן לראות בחלק העליון של איור 1. השאלה במחקר הייתה האם בשנים אלו חלה עלייה במשקל הממוצע של אזרחי ישראל. לפי הגרף העליון נראה שכן, כפי שניתן לראות מהקו המקווקו האדום.

מסתבר שחישוב המשקל הממוצע בעייתי, כי הוא חושב על ידי סקר טלפוני של 500 אנשים בלבד וגם לא ניתן לאמת את המשקל שהם מסרו. לכן בוצעה הערכה של דיוק הממוצע המחושב והגרף שורטט שוב עם צלבי שגיאה המייצגים את הערכת השגיאה בתוצאות הסקר. כלומר, נקודה יכולה להימצא בכל מקום על צלב השגיאה, כפי שניתן לראות בחלק התחתון של איור 1. קל לראות שלאחר הוספת צלבי השגיאה לא ניתן לקבוע האם הייתה עליה. בתחום צלבי השגיאה יכולנו לשרטט קו מקווקו אדום עולה או אפילו יורד. כלומר, אי הצגתן של שגיאות הניסוי עלולות לשנות לחלוטין את המסקנות הנשקפות מגרף.


איור 2

מטרת הניסוי השני הייתה לבדוק האם תנאי המחייה של סמורים משפיעים על קצב גידול האוכלוסייה שלהם. לשם כך, בכל שלב שוחררו שני סמורים (זכר ונקבה) לעשרים ימים בסביבה עם כמות מזון מסוימת. מספרם של הסמורים (אשר מתרבים בקצב מטורף) נמדד במשך עשרים הימים ומוצג בגרף הנראה בחלק העליון של איור 2. עקומות בצבע שונה מתארות אוכלוסיות סמורים שונות. ככל שהעקומה ימנית יותר, כך הסביבה הייתה עשירה יותר במזון. השיפוע של העקומות מראה את קצב הגידול, ובמבט ראשון נראה שקצב הגידול אינו תלוי בתנאי המחייה (לכולם אותו שיפוע, פחות או יותר).

אך זו למעשה רק אשליה שאני יצרתי על ידי דחיסת העקומות אחת לשנייה בעקבות הצגת ציר אופקי רחב מידי. אם נתמקד רק בשתי העקומות האחרונות (חלק תחתון של איור 2), נוכל לראות שיש הפרש משמעותי בקצב הגידול. יש לציין שניתן לעוות גרף גם בצורה הפוכה, עלי ידי התמקדות באזור מסוים אשר המגמה בו אינה מייצגת נאמנה את הגרף המלא. ואלו המעוניינים במידע אמיתי על רביית סמורים (בניגוד לזה המומצא פה) מוזמנים לקרא על כך כאן.


איור 3

הגרף השלישי (חלק עליון של איור 3) מציג מעקב אחרי נתוני מכירות של טלפונים ניידים חכמים לפי מספר החודשים שעברו מאז יצאו לשוק. מהתבוננות בגרף ניתן לראות כי ב-17 החודשים הראשונים ישנה עליה במכירות אך בהמשך נראה כי יש ירידה. חדי העין מבינכם ודאי שמו לב כי הגרף מטעה, מכיוון שהציר האנכי אינו מתחיל באפס. הצגת התוצאות על גרף עם ציר אנכי מלא (חלק תחתון של איור 3) מראה כי בעצם השינויים בכמות המכירות בתקופה הנתונה אינם משמעותיים לכאן או לכאן. דוגמאות נוספות לקיצוץ צירים ניתן למצוא בפוסט קודם:"הטעות של בן" ובקישורים שבו.


איור 4

הגרף האחרון (איור 4) מציג תוצאות אמיתיות שאני קיבלתי במהלך מחקר. ישנה מגמה ברורה בגרף הנשברת על ידי נקודה סוררת (החמישית משמאל). נקודה זאת נראית כטעות מדידה וגם משבשת את צירי הגרף (כי היא נמוכה מאוד ביחס לשאר). האם לגיטימי לא להציג אותה? התשובה הנכונה היא שיש לחזור על הניסוי ולוודא, אך לשם הדיון בואו נניח שהטרחה גדולה מידי. האם הסרת הנקודה מהווה הצגה מטעה של התוצאות? מכאן ניתן להבין שיש חשיבות גדולה לאמינותו ושיקול דעתו של החוקר.

לסיכום, הגרף הוא כלי רב עוצמה להצגת נתונים מספריים, המחשת מגמות והסברת התופעות אותן אנו מודדים או מנתחים. עם זאת, מכיוון שהגרף הוא כלי חזותי כה אפקטיבי הוא יכול לשמש גם להטעיה, ולכן דורש מאיתנו קורטוב של ביקורתיות כאשר אנו מתבוננים בו.

תגובות

הוספת תגובה