כריית מידע

כריית מידע או כריית נתונים (באנגלית: Data mining) היא שימוש בכלים סטטיסטיקיים כדי לגלות מתאמים, הצלבות ומגמות בתוך "Big data", כלומר בכמויות גדולות של מידע מבוזר ממקורות שונים, שאינו מאורגן כמסד נתונים או בצורה אחרת. התהליך נועד לחקור ולנתח כמות גדולה של מידע באמצעים אוטומטיים ככל שניתן כדי לגלות דפוסים תקפים חדשים, שימושיים (מקבלי ההחלטות יכולים להשתמש בדפוסים שהתגלו כדי לשפר תהליכים קיימים) ובעלי משמעות (מובנים למקבל ההחלטות). עם ההתפתחות המתמדת בעולם טכנולוגיית המידע, כשכמות המידע הדיגיטלי גדלה כל הזמן, עולה החשיבות של תחום כריית המידע, שבאמצעותו ניתן להפוך מידע לידע.

המושג כריית מידע נגזר מפעולת הכרייה הגאולוגית בה כורים באדמה כדי למצוא אוצרות טבע.

המונח "כריית נתונים" מתאר שלב אחד בתוך התהליך המכונה "גילוי ידע במסדי נתונים" - השלב בו מריצים אלגוריתמים במחשב. מלבד שלב כריית הנתונים כולל התהליך שלבים אחרים, חלקם קודמים לכריית הנתונים (כגון הכנת החיתוך) וחלקם עוקבים (כגון ניתוח התוצאות). הבעיות הנפוצות של כריית מידע הן בעיות סיווג, ניתוח אשכולות, רגרסיה ולמידת חוקי אסוציאציה.

רקע

במשך מאות שנים בני אדם זיהו "ידנית" תבניות ודפוסים במידע, אולם הצמיחה בנפח המידע בזמן המודרני הגבירה את הצורך בגישות אוטומטיות יותר. שיטות מוקדמות לזיהוי דפוסים במידע הן חוק בייס (המאה ה-18) וניתוח רגרסיה (המאה ה-19). התפתחות והזמינות של טכנולוגיית המחשב הגדילה את כמות המידע הנאסף והמאוחסן. עם הגדילה הן בגודל והן במורכבות של מאגרי המידע, נעשה שימוש הולך וגדל בעיבוד מידע אוטומטי. עיבוד זה נעזר בגילויים אחרים במדעי המחשב, כגון רשתות נוירונים, ניתוח אשכולות, אלגוריתמים גנטיים (שנות החמישים), עצי החלטה (שנות ה-60) ומכונות וקטורים תומכים (Support vector machine) (שנות השמונים). כריית מידע היא תהליך של שימוש בשיטות אלו על מידע כדי לזהות תבניות נסתרות במידע. בכריית מידע נעשה שימוש על ידי עסקים, מדענים וממשלות במשך שנים כדי לבחון נפחי מידע גדולים כגון מפקדי תושבים או מידע על קניות בסופרמרקט בשביל מחקרי שוק.

תהליך כריית מידע

עיבוד מוקדם

מאחר שכריית מידע נסמכת על גילוי תבניות הנמצאות בנתונים, מאגר הנתונים שעליו נעשה התהליך צריך להיות גדול דיו כך שיכיל את התבניות מחד גיסא, ומאידך גיסא תמציתי מספיק כדי שניתן יהיה לחפש בו בזמן סביר. מקור מקובל למידע כזה הוא מחסן נתונים (Data warehouse) או מחסן נתונים מחלקתי (Datamart).

לאחר מכן נעשה סינון של הנתונים בו מנוקים נתונים עם רעש או מידע חסר. מן הנתונים המסוננים מיוצרים וקטורי מאפיינים (Feature vector), וקטור אחד לכל תצפית. וקטור מאפיין הוא גרסה סיכומית של רשומת התצפית. כך לדוגמה תמונת פנים של 100 פיקסלים על 100 פיקסלים תכיל 10,000 ביטים של מידע גולמי. את התמונה ניתן להמיר לווקטור מאפיין על ידי זיהוי העיניים והפה בתמונה. בצורה זו ניתן להפחית את כמות המידע מ-10,000 ביטים לווקטור, לשלושה קודים המציינים את מיקומי העיניים והפה, וכך בשלב כריית המידע עצמו יידרש פחות עיבוד. בחירת המאפיין (או המאפיינים) תלויה במטרה; לפיכך בחירת המאפיינים הנכונים הכרחית לכריית מידע מוצלחת.

הווקטורים המאפיינים מחולקים לשתי סדרות: סדרת אימון וסדרת בדיקה. סדרת האימון משמשת לאימון האלגוריתם, וסדרת הבדיקה משמשת לאימות הדיוק של התבניות שנמצאו.

נגד חברה ישראלית ברייט דאטה הוגשו תביעות משפטיות על ידי חברות בין-לאומיות גדולות על שימוש במסד נתונים של חברות אלו לכריית מידע.

כריית המידע

כריית המידע מטפלת לרוב באחת מהבעיות הבאות:

בעיות סיווג - בהתאם לדוגמאות שנאספו בעבר, האלגוריתם לסיווג מסיק מודל סיווג המשמש לסווג מקרים חדשים. למשל בנק יכול לבנות מודל סיווג של לווי משכנתא בהתאם לדוגמאות שנאספו בעבר. כאשר מגיע לקוח חדש המבקש משכנתא הוא מסווג לפי מידת הוודאות שהוא אכן יצליח לעמוד בעתיד בהחזרי ההלוואה. אלגוריתמים נפוצים לכך הם עץ החלטה (Decision Tree), שיטת השכן הקרוב (Nearest neighbor), סיווג בייס נאיבי (Naive Bayes classifier) ורשת עצבית מלאכותית.
ניתוח אשכולות - פילוח של הרשומות לאשכולות, כך שבכל אשכול נמצאות רשומות בעלות מאפיינים דומים. למשל ניתן להיעזר באלגוריתם לניתוח אשכולות כדי לפלח את לקוחות החברה.
רגרסיה - ניסיון למצוא פונקציה הממדלת את הנתונים תוך מזעור שגיאת הניבוי. לדוגמה תוך שימוש ברגרסיה ליניארית.
למידת חוקי אסוציאציה - נועד למצוא אסוציאציה או קשר מעניין בין פריטים שונים של נתונים. לרוב משמש כדי להציג חוקיות בין שדות שונים במסד הנתונים. הדוגמה הנפוצה ביותר היא ניתוח סל קניות. במקרה זה מנסים למצוא האם יש חוקיות בין מוצרים שונים אשר נרכשו על ידי אותו לקוח באותה קניה. למשל ניתן לדעת אילו מוצרים נרכשים בדרך כלל יחדיו (ממרח שוקולד ולחם). בהתאם לתוצאות ניתן לסדר את המוצרים במרכול בצורה האופטימלית.

אימות תוצאות

השלב האחרון בגילוי ידע מנתונים הוא אימות של התבניות שנמצאו על ידי האלגוריתמים של כריית המידע גם בטווח נתונים רחב יותר. לא כל התבניות הנמצאות על ידי האלגוריתמים כורי המידע הן בהכרח תקפות. לעיתים האלגוריתמים מוצאים תבניות בסדרת האימון שאינן מופיעות בסדרת המידע הכללית, תופעה הידועה כ-Overfitting. על מנת להתגבר על בעיה זו, בשלב ההערכה נבדקים הדפוסים מול סדרת הבדיקה שעליה לא אומנו האלגוריתמים. התבניות שנלמדו מחולצות מסדרת הבדיקה והפלט מושווה לפלט הרצוי. כך לדוגמה אלגוריתם כריית מידע לאיתור דואר זבל, אשר מבחין בין דואר רצוי לדואר זבל, יאומן על סדרת אימון של דוגמאות דואר. לאחר האימון, התבניות שאותרו יופעלו על סדרת הבדיקה של מכתבים שעליה לא אומנו, ומידת הדיוק של האלגוריתם יכולה להיקבע על פי כמות הפריטים שסווגו נכון.

ראו גם

לקריאה נוספת

Data Mining and Knowledge Discovery Handbook - Maimon, Oded, Rokach, Lior

קישורים חיצוניים

מדיה וקבצים בנושא כריית מידע בוויקישיתוף

Data Mining ב-Open Directory Project (באנגלית)
European Centre for Soft Computing (באנגלית)
כריית מידע, באתר אנציקלופדיה בריטניקה (באנגלית)
כריית מידע, דף שער בספרייה הלאומית