אלמנטרי, ווטסון? טעויות בסיסיות בניתוח דאטה

טעויות בסיסיות בניתוח דאטה

אלמנטרי, ווטסון? טעויות בסיסיות בניתוח דאטה

מספרים נוסכים בנו ביטחון. בעולם מלא אי ודאויות, סטטיסטיקה עושה לנו טוב בקורטקס: סקר הצרכנים נותן לנו מבט מדעי על הלקוחות שלנו, ביג דאטה שופכת אור על הקשרים צרכניים, וגוגל אנליטיקס מציג לנו תמונה ברורה של מה קורה אצלנו באתר.

אז זהו, שלא.

טעויות בסיסיות בניתוח דאטה: הבעיה היא אנושית

בשנת 1954 הוציא העיתונאי והפובליציסט האמריקני דרל האף את אחד מספרי הסטטיסטיקה הפופולריים ביותר בעולם, תחת השם "איך לשקר עם סטטיסטיקה?". שימו לב לניואנס: לא הסטטיסטיקה משקרת, אלא מה שאנחנו עושים איתה.טעויות בניתוח דאטה

מבחינה זו לא הרבה השתנה ב-66 השנים האחרונות: הסטטיסטיקה ממשיכה לתעתע בנו. אני לא מתכוון לבעלי אינטרסים שמעוותים מספרים או גרפים בזדון וגם לא לבעלי מקצוע רשלנים שטועים בחישוביהם או בניתוחיהם הטכניים. אני רוצה להתמקד בשלוש טעויות בסיסיות בניתוח דאטה, שנעשות מעצם העובדה שאנחנו בני אנוש, ובדרכים להימנע מהן.

האם גלידה טובה לדיאטה? הסיבתיות שמחוץ למספרים

אחת התובנות הבסיסיות בעולם ניתוח הדאטה היא שקורלציה וסיבתיות אינן אותו הדבר. הטבע האנושי שלנו מחפש קשרים והקשרים. לכן, כאשר אנחנו נחשפים לשני גרפים שנראים זהים, אנחנו מייד מנסים לקשר אותם זה לזה. העניין הוא שעצם העובדה שהגרפים או המספרים דומים זה לזה לא מלמד אותנו שיש קשר סיבתי בין הדברים. הדוגמה המפורסמת ביותר שיש בהקשר זה היא ניתוח סטטיסטי של צריכת גלידה.

מחקר סטטיסטי לא זהיר עלול להביא למסקנה שלפיה צריכת גלידה גורמת לעלייה בפשעים אלימים, אך מנגד – מעולה לדיאטה. איך אפשר להגיע למסקנות שגויות כל כך על סמך מספרים מהימנים כל כך? זה פשוט: קורלציה אינה סיבתיות. אכן, גרף העלייה בפשע אלים חופף כמעט במלואו לגרף העלייה במכירות גלידה. אך הסיבה לכך אינה צריכת גלידה, אלא גורם שלישי – הקיץ. בחודשי הקיץ, באופן מסורתי, הפשע האלים ברחובות עולה בהשוואה לחורף, מסיבות שונות. מטבע הדברים, גם מכירות גלידה עולות בחודשי הקיץ. יש קורלציה – אין סיבתיות.

בניתוח דאטה

הנתונים מוכיחים: גלידה מרזה (קרדיט: DecisionSkills)

כך גם לגבי גרף הירידה במשקל בחודשי הקיץ. הוא נמצא במתאר הפוך לגמרי לגרף עליית מכירת הגלידות בקיץ, אך הסיבה לכך היא אינה שגלידות מרזות אלא שבחודשי הקיץ אנשים נוטים להשיל ממשקלם את הקילוגרמים העודפים שהעלו בחורף. זה קורה למרות הגלידה, לא בגללה.

המסקנה: אחרי שהמספרים שאספתם נותנים מבט של "מה קורה", השאלות שאתם צריכים לשאול הן שאלות של "למה זה קורה". אם, למשל, אתם מזהים קפיצה סטטיסטית במכירות של אופי לחם ביתיים לצד צניחה סטטיסטית של רכישת מזוודות ממש באותה תקופה, אתם עלולים להסיק מסקנה שלפיה טרנד של ביתיות חמימה מנשב בעולם. מה לעשות שהמספרים האלה מלמדים שמה שמנשב בעולם זה קורונה.

תהיו שרלוק הולמס: תמיד תשאלו למה.

אל תסכימו עם עצמכם: דאטה אפשר לפרש בהרבה צורות

"מה שבני אדם עושים בצורה הטובה ביותר זה לפרש כל מידע חדש באופן שלא יפגע במסקנותיהם הקודמות". מי שעומד מאחורי דברים אלה הוא וורן באפט, המשקיע הנודע, אדם מלא הומור ותובנות חדות (האהובה עליי: "השקיעו רק בחברה שכל אידיוט יכול לנהל אותה – כי יום אחד אכן אידיוט ינהל אותה"). האמירה של באפט על פרשנות המידע מכונה בתורת קבלת ההחלטות "הטיית האישוש". מה לעשות, אנחנו מוכוונים לתמוך בדעות של עצמנו, ונדרש רף גבוה מאוד של נתונים ועובדות כדי להזיז אותנו מעמדתנו.

את התופעה של הטיית האישוש אפשר לפגוש בתקשורת וברשתות החברתיות, גם בימים אלה. לא משנה איזה גרף או טבלה הנוגעים לטיפול במגפת הקורונה מוצגים בפני הגולשים – אלה שמוטים לחשוב שהטיפול הישראלי במשבר לקוי יפרשו את הגרף ככזה שמוכיח שזה אכן המצב, ואלה שמוטים לחשוב שישראל מטפלת במצב היטב, יפרשו את אותו גרף כתומך בדעה זו.

אותה תופעה מתרחשת גם כאשר אתם בוחנים דאטה. יש לכם מערכת אמונות ודעות על המצב הנוכחי, וכאשר הדאטה זורמת אתם לא באמת מגיעים אליה בגישה אובייקטיבית (גם אם באופן מודע אתם בטוחים שכן). ככל שמדובר בדאטה נרחבת יותר, הסיכון להטיית האישוש גבוה יותר, כיוון שבלא מודע אתם יכולים לסרוק את הררי המידע ולהתמקד בנתונים שמאששים את דעותיכם הראשוניות, ולהתעלם מנתונים שמספרים סיפור אחר.

אחת ממסקנות המחדל המודיעיני שקדם למלחמת יום הכיפורים הייתה הקמת מחלקת "איפכא מסתברא" באמ"ן, שתפקידה לאתגר תמיד את הדעות הרווחות ולספק פירושים חלופיים למצב. זה בדיוק מה שקרה בנוגע לזיהוי האיום הגרעיני מסוריה, כפי שחשף העיתונאי עמית סגל: רק התעקשותם של כמה חברי כנסת (בראשות הפילוסוף ד"ר יובל שטייניץ) להציג איפכא מסתברא לדעה הרווחת במערכת הביטחון – הובילה לחשיפת הכור הגרעיני בסוריה.

תהיו בודהה, תטילו ספק בכול. גם בעצמכם.     

אנליסטים מחשבים את קיצם לאחור: דאטה לא מנבאת עתיד

העולם העסקי מלא בדוגמאות על תאגידים שהתבססו על נתוני דאטה מוצקים, רק כדי לגלות לפתע שנכרת הענף שעליו הן פעלו. הדוגמה המפורסמת ביותר היא אייפון של אפל. באותה תקופה התמקדו חברות ענק ששלטו בשוק, כמו אריקסון ונוקיה וכמו גם סטארטאפים צעירים (מודו הישראלית למשל), בפיתוח טלפונים על סמך מה שהדאטה הראתה שהציבור רוצה: טלפונים קטני ממדים במחיר תחרותי (וטלפונים מרובי כפתורים להקלדה נוחה של מיילים). כך טיבה של דאטה: היא מספרת לנו מה מתרחש בהווה ומה המגמות לאור השוואת ההווה לעבר.

טעויות נפוצות

מודו ז"ל. הסלולרי הקטן בעולם

אפל עבדה נגד הדאטה: היא פיתחה טלפון יקר מאוד, גדול ממדים ונטול כפתורים. שום דאטה לא יכלה לנבא שאם יוצע לרוכשים מכשיר מהפכני בתפיסה הכוללת שלו, הם יהיו מוכנים לשלם מאות אחוזים יותר על טלפון סלולרי, שבקושי נכנס לכיס ואין בו שום כפתורים.

נכון, דאטה בהחלט יכולה לנבא מחזוריות וכך לנבא באופן חלקי את העתיד, כמו למשל זיהוי תנודות עונתיות או מגמות כלכליות עולמיות; דאטה בהחלט אינה יכולה לחזות מה יהיה הדבר הבא. יותר מכך, דאטה יכולה לעצור חדשנות של ארגון. תשאלו את נוקיה, שמבחינה טכנולוגית יכלה להקדים את אפל, ויש אומרים שאף הקדימה אותה, אך הדאטה השיווקית בלמה אותה מייצור טלפונים שלפי הדאטה אף אחד לא ירכוש. גם לא הייתה דאטה שיכלה לחזות שצרכנים ישלמו מחיר מופקע על פחית קטנה שבה משקה עמוס בסוכר בטעם שנוי במחלוקת ושמתיימר לתת לך כנפיים.

תהיו ז'ול ורן: דאטה אינה יכולה לגלות עתידות. לכם לפחות יש סיכוי.

סיכום: דאטה היא כלי רב עוצמה – השתמשו בו נכון

אני חובב דאטה, ולא רק מימי "מסע בין כוכבים". זהו חומר גלם משובח וייחודי לרקימת סיפורים, לגילוי תובנות שיווקיות ולהבנת התנהגויות צרכניות. אין ספק שבימים אלה מר דאטה היה מוגדר כעובד חיוני באנטרפרייז, ובצדק. אך יש לזכור שדאטה הוא גם חומר גלם מתעתע אם לא יודעים כיצד לנתח אותו.

כשאתם נכנסים לחדר הניתוח של הדאטה, אל תשכחו לחטא את הידיים באלכוג'ל, לעטות מסכה מבודדת מדעות קדומות ולהרכיב עדשות רחבות. לא קל להיות שרלוק הולמס, בודהה וז'ול וורן בעת ובעונה אחת – אבל רק כך תוכלו להימנע מביצוע טעויות בסיסיות בניתוח דאטה.

גיל סלוביק
sloviks@gmail.com

מנכ"ל המתכנה לתוכן עברי בע"מ ומומחה לשיווק דיגיטלי