Xlera8

אימון מחדש של מודלים של ML ואוטומציה של תחזיות אצווה באמזון SageMaker Canvas באמצעות מערכי נתונים מעודכנים | שירותי האינטרנט של אמזון

כעת אתה יכול לאמן מחדש מודלים של למידת מכונה (ML) ולהפוך זרימות עבודה לחיזוי אצווה לאוטומטי עם מערכי נתונים מעודכנים ב אמזון SageMaker Canvas, ובכך להקל על למידה מתמדת ולשפר את ביצועי הדגם ויעילות הכונן. האפקטיביות של מודל ML תלויה באיכות וברלוונטיות של הנתונים עליהם הוא מאומן. ככל שהזמן מתקדם, הדפוסים, המגמות וההתפלגות הבסיסיים בנתונים עשויים להשתנות. על ידי עדכון מערך הנתונים, אתה מבטיח שהמודל לומד מהנתונים העדכניים והמייצגים ביותר, ובכך משפר את יכולתו לבצע תחזיות מדויקות. Canvas תומך כעת בעדכון מערכי נתונים באופן אוטומטי וידני המאפשר לך להשתמש בגרסה העדכנית ביותר של מערך הנתונים הטבלה, התמונות והמסמכים להדרכה של מודלים של ML.

לאחר הכשרה של המודל, ייתכן שתרצה להריץ עליו תחזיות. הפעלת תחזיות אצווה על מודל ML מאפשרת עיבוד של מספר נקודות נתונים בו-זמנית במקום לבצע תחזיות אחת אחת. אוטומציה של תהליך זה מספקת יעילות, מדרגיות וקבלת החלטות בזמן. לאחר הפקת התחזיות, ניתן לנתח אותן, לצבור או להמחיש אותן כדי לקבל תובנות, לזהות דפוסים או לקבל החלטות מושכלות על סמך התוצאות החזויות. Canvas תומך כעת בהגדרת תצורת חיזוי אצווה אוטומטית ובשיוך מערך נתונים אליו. כאשר מערך הנתונים המשויך מתרענן, באופן ידני או על פי לוח זמנים, זרימת עבודה של חיזוי אצווה תופעל אוטומטית במודל המתאים. ניתן לראות את תוצאות התחזיות בשורה או להוריד לבדיקה מאוחרת יותר.

בפוסט זה, אנו מראים כיצד לאמן מחדש מודלים של ML ולהפוך את חיזוי אצווה לאוטומטי באמצעות מערכי נתונים מעודכנים ב-Canvas.

סקירה כללית של הפיתרון

במקרה השימוש שלנו, אנו ממלאים תפקיד של אנליסט עסקי עבור חברת מסחר אלקטרוני. צוות המוצרים שלנו רוצה שנקבע את המדדים הקריטיים ביותר המשפיעים על החלטת הרכישה של הקונה. לשם כך, אנו מאמנים מודל ML ב-Canvas עם מערך הפעלה מקוון של אתר לקוח מהחברה. אנו מעריכים את ביצועי המודל ובמידת הצורך מאמנים מחדש את המודל עם נתונים נוספים כדי לראות אם הוא משפר את הביצועים של המודל הקיים או לא. לשם כך, אנו משתמשים ביכולת העדכון האוטומטי של מערך הנתונים ב-Canvas ומאמנים מחדש את מודל ה-ML הקיים שלנו עם הגרסה העדכנית ביותר של מערך הדרכה. לאחר מכן אנו מגדירים זרימות עבודה אוטומטיות של חיזוי אצווה - כאשר מערך החיזוי המתאים מתעדכן, הוא מפעיל אוטומטית את עבודת החיזוי האצווה במודל ומאפשר לנו לבדוק את התוצאות.

שלבי זרימת העבודה הם כדלקמן:

  1. העלה את נתוני ההפעלה המקוונת של אתר הלקוח שהורדת אל שירות אחסון פשוט של אמזון (Amazon S3) וצור מערך אימון חדש של Canvas. לרשימה המלאה של מקורות נתונים נתמכים, עיין ב ייבוא ​​נתונים באמזון SageMaker Canvas.
  2. בנה מודלים של ML ונתח את מדדי הביצועים שלהם. עיין בשלבים כיצד לעשות זאת לבנות מודל ML מותאם אישית בקנבס ו להעריך את ביצועי המודל.
  3. הגדר עדכון אוטומטי על מערך ההדרכה הקיים והעלה נתונים חדשים למיקום Amazon S3 המגבה את מערך הנתונים הזה. לאחר השלמתו, הוא אמור ליצור גרסת מערך נתונים חדשה.
  4. השתמש בגרסה העדכנית ביותר של מערך הנתונים כדי לאמן מחדש את מודל ה-ML ולנתח את הביצועים שלו.
  5. להקים תחזיות אצווה אוטומטיות על גרסת הדגם עם הביצועים הטובים יותר והצג את תוצאות החיזוי.

אתה יכול לבצע את השלבים האלה ב-Canvas מבלי לכתוב שורת קוד אחת.

סקירה כללית של נתונים

מערך הנתונים מורכב מוקטורי תכונה השייכים ל-12,330 הפעלות. מערך הנתונים נוצר כך שכל ביקור יהיה שייך למשתמש אחר בתקופה של שנה כדי למנוע כל נטייה למסע פרסום, יום מיוחד, פרופיל משתמש או תקופה ספציפיים. הטבלה הבאה מתארת ​​את סכימת הנתונים.

שם עמודה סוג מידע תיאור
Administrative מספרי מספר הדפים שבהם ביקר המשתמש עבור פעילויות הקשורות לניהול חשבון משתמש.
Administrative_Duration מספרי כמות הזמן המושקעת בקטגוריה זו של דפים.
Informational מספרי מספר הדפים מסוג זה (אינפורמטיבי) שבהם ביקר המשתמש.
Informational_Duration מספרי כמות הזמן המושקעת בקטגוריה זו של דפים.
ProductRelated מספרי מספר הדפים מסוג זה (קשור למוצר) שבהם ביקר המשתמש.
ProductRelated_Duration מספרי כמות הזמן המושקעת בקטגוריה זו של דפים.
BounceRates מספרי אחוז המבקרים שנכנסים לאתר דרך אותו עמוד ויוצאים מבלי להפעיל משימות נוספות.
ExitRates מספרי שיעור יציאה ממוצע של הדפים שבהם ביקר המשתמש. זהו אחוז האנשים שעזבו את האתר שלך מאותו דף.
Page Values מספרי ערך עמוד ממוצע של הדפים שבהם ביקר המשתמש. זהו הערך הממוצע לדף שבו ביקר משתמש לפני שנחת בדף היעד או השלמת עסקת מסחר אלקטרוני (או שניהם).
SpecialDay בינרי התכונה "יום מיוחד" מציינת את הקרבה של זמן הביקור באתר ליום מיוחד ספציפי (כגון יום האם או יום האהבה) שבו יש סיכוי גבוה יותר שהמפגשים יסתיימו בעסקה.
Month קָטֵגוֹרִי חודש הביקור.
OperatingSystems קָטֵגוֹרִי מערכות הפעלה של המבקר.
Browser קָטֵגוֹרִי דפדפן בשימוש המשתמש.
Region קָטֵגוֹרִי אזור גיאוגרפי שממנו הביקור התחיל על ידי המבקר.
TrafficType קָטֵגוֹרִי מקור תנועה שדרכו המשתמש נכנס לאתר.
VisitorType קָטֵגוֹרִי בין אם הלקוח הוא משתמש חדש, משתמש חוזר או אחר.
Weekend בינרי אם הלקוח ביקר באתר בסוף השבוע.
Revenue בינרי אם בוצעה רכישה.

הכנסה היא עמודת היעד, שתעזור לנו לחזות אם קונה ירכוש מוצר או לא.

הצעד הראשון הוא הורד את מערך הנתונים שבה נשתמש. שים לב שמערך הנתונים הזה הוא באדיבות מאגר הלמידה המכונה של UCI.

תנאים מוקדמים

עבור הדרכה זו, השלם את השלבים המוקדמים הבאים:

  1. פצל את ה-CSV שהורדת שמכיל 20,000 שורות למספר קבצי נתחים קטנים יותר.

זאת כדי שנוכל להציג את פונקציונליות העדכון של מערך הנתונים. ודא שלכל קבצי ה-CSV יש אותן כותרות, אחרת אתה עלול להיתקל בשגיאות אי התאמה של סכימה בעת יצירת מערך הדרכה ב-Canvas.

  1. צור דלי S3 והעלה online_shoppers_intentions1-3.csv לדלי S3.

  1. הקדישו 1,500 שורות מה-CSV שהורדתם כדי להפעיל תחזיות אצווה לאחר אימון מודל ה-ML.
  2. הסר את Revenue עמודה מהקבצים האלה, כך שכאשר אתה מפעיל חיזוי אצווה במודל ML, זה הערך שהמודל שלך חוזה.

להבטיח את כל predict*.csv לקבצים יש את אותן כותרות, אחרת אתה עלול להיתקל בשגיאות אי התאמה של סכימה בזמן יצירת מערך חיזוי (הסקת מסקנות) ב-Canvas.

  1. בצע את הצעדים הדרושים כדי הגדר תחום SageMaker ואפליקציית Canvas.

צור מערך נתונים

כדי ליצור מערך נתונים ב-Canvas, בצע את השלבים הבאים:

  1. ב-Canvas, בחר מערכי נתונים בחלונית הניווט.
  2. לבחור צור ולבחור טבלאי.
  3. תן שם למערך הנתונים שלך. עבור פוסט זה, אנו מכנים את מערך ההדרכה שלנו OnlineShoppersIntentions.
  4. לבחור צור.
  5. בחר את מקור הנתונים שלך (עבור פוסט זה, מקור הנתונים שלנו הוא Amazon S3).

שים לב שנכון לכתיבת שורות אלה, פונקציונליות עדכון מערך הנתונים נתמכת רק עבור Amazon S3 ומקורות נתונים שהועלו באופן מקומי.

  1. בחר את הדלי המתאים והעלה את קובצי ה-CSV עבור מערך הנתונים.

כעת תוכל ליצור מערך נתונים עם מספר קבצים.

  1. הצג תצוגה מקדימה של כל הקבצים במערך הנתונים ובחר צור מערך נתונים.

כעת יש לנו גרסה 1 של OnlineShoppersIntentions מערך נתונים עם שלושה קבצים שנוצרו.

  1. בחר את מערך הנתונים כדי להציג את הפרטים.

אל האני נתונים הכרטיסייה מציגה תצוגה מקדימה של מערך הנתונים.

  1. לבחור פרטי מערך הנתונים כדי להציג את הקבצים שמערך הנתונים מכיל.

אל האני קבצי ערכות נתונים החלונית מציגה את הקבצים הזמינים.

  1. בחר את היסטוריית גרסות לשונית כדי להציג את כל הגרסאות עבור מערך הנתונים הזה.

אנו יכולים לראות שגרסת הנתונים הראשונה שלנו כוללת שלושה קבצים. כל גרסה הבאה תכלול את כל הקבצים מגרסאות קודמות ותספק תצוגה מצטברת של הנתונים.

אימון מודל ML עם גרסה 1 של מערך הנתונים

בואו לאמן מודל ML עם גרסה 1 של מערך הנתונים שלנו.

  1. ב-Canvas, בחר הדוגמניות שלי בחלונית הניווט.
  2. לבחור מודל חדש.
  3. הזן שם דגם (לדוגמה, OnlineShoppersIntentionsModel), בחר את סוג הבעיה ובחר צור.
  4. בחר את מערך הנתונים. עבור פוסט זה, אנו בוחרים את OnlineShoppersIntentions מערך נתונים.

כברירת מחדל, Canvas יאסוף את גרסת הנתונים העדכנית ביותר להדרכה.

  1. על לִבנוֹת בכרטיסייה, בחר את עמודת היעד לניבוי. עבור פוסט זה, אנו בוחרים בעמודה הכנסה.
  2. לבחור בנייה מהירה.

אימון המודל ייקח 2-5 דקות להשלמתו. במקרה שלנו, המודל המאומן נותן לנו ציון של 89%.

הגדר עדכוני מערך נתונים אוטומטיים

בואו נעדכן במערך הנתונים שלנו באמצעות פונקציונליות העדכון האוטומטי ונביא נתונים נוספים ונראה אם ​​ביצועי המודל משתפרים עם הגרסה החדשה של מערך הנתונים. ניתן לעדכן גם מערכי נתונים באופן ידני.

  1. על מערכי נתונים בחר את OnlineShoppersIntentions מערך נתונים ובחר עדכון מערך הנתונים.
  2. אתה יכול לבחור עדכון ידני, שהיא אפשרות עדכון חד פעמית, או עדכון אוטומטי, המאפשר לך לעדכן אוטומטית את מערך הנתונים שלך לפי לוח זמנים. עבור פוסט זה, אנו מציגים את תכונת העדכון האוטומטי.

אתה מופנה מחדש אל עדכון אוטומטי לשונית עבור מערך הנתונים המתאים. אנחנו יכולים לראות את זה אפשר עדכון אוטומטי מושבת כרגע.

  1. למתג אפשר עדכון אוטומטי להפעיל ולציין את מקור הנתונים (נכון לכתיבת שורות אלה, מקורות הנתונים של Amazon S3 נתמכים עבור עדכונים אוטומטיים).
  2. בחר תדר והזן שעת התחלה.
  3. שמור את הגדרות התצורה.

נוצרה תצורת מערך נתונים לעדכון אוטומטי. ניתן לערוך אותו בכל עת. כאשר משימת עדכון של מערך נתונים מתאימה מופעלת בלוח הזמנים שצוין, העבודה תופיע ב- היסטוריית עבודה סָעִיף.

  1. לאחר מכן, בואו נעלה את ה online_shoppers_intentions4.csv, online_shoppers_intentions5.csv, ו online_shoppers_intentions6.csv קבצים לדלי S3 שלנו.

אנחנו יכולים להציג את הקבצים שלנו ב- dataset-update-demo דלי S3.

עבודת עדכון מערך הנתונים תופעל בלוח הזמנים שצוין ותיצור גרסה חדשה של מערך הנתונים.

כאשר העבודה תושלם, גרסה 2 של מערך הנתונים יכלול את כל הקבצים מגרסה 1 והקבצים הנוספים שיעובדו על ידי עבודת העדכון של מערך הנתונים. במקרה שלנו, לגרסה 1 יש שלושה קבצים ועבודת העדכון אספה שלושה קבצים נוספים, כך שלגרסת הנתונים הסופית יש שישה קבצים.

אנו יכולים לראות את הגרסה החדשה שנוצרה ב- היסטוריית גרסאות TAB.

אל האני נתונים הכרטיסייה מכילה תצוגה מקדימה של מערך הנתונים ומספקת רשימה של כל הקבצים בגרסה העדכנית ביותר של מערך הנתונים.

אמן מחדש את מודל ה-ML עם מערך נתונים מעודכן

בואו נאמן מחדש את מודל ה-ML שלנו עם הגרסה העדכנית ביותר של מערך הנתונים.

  1. על הדוגמניות שלי עמוד, בחר את הדגם שלך.
  2. לבחור הוסף גרסה.
  3. בחר את גרסת הנתונים העדכנית ביותר (v2 במקרה שלנו) ובחר בחר מערך נתונים.
  4. שמור את עמודת היעד ואת תצורת ה-Build בדומה לגרסת הדגם הקודמת.

בסיום ההכשרה, בואו נעריך את ביצועי המודל. צילום המסך הבא מראה שהוספת נתונים נוספים והכשרה מחדש של מודל ה-ML שלנו עזרו לשפר את ביצועי המודל שלנו.

צור מערך חיזוי

עם מודל ML מאומן, בואו ניצור מערך נתונים לחיזויים ונפעיל עליו תחזיות אצווה.

  1. על מערכי נתונים עמוד, צור מערך נתונים טבלאי.
  2. הזן שם ובחר צור.
  3. בדלי S3 שלנו, העלה קובץ אחד עם 500 שורות לניבוי.

לאחר מכן, הגדרנו עדכונים אוטומטיים במערך החיזוי.

  1. למתג אפשר עדכון אוטומטי להפעיל ולציין את מקור הנתונים.
  2. בחר את התדירות וציין שעת התחלה.
  3. שמור את התצורה.

הפוך את זרימת העבודה של חיזוי אצווה לאוטומטי במערך נתונים חיזויים המעודכן אוטומטית

בשלב זה, אנו מגדירים את זרימות העבודה של חיזוי אצווה אוטומטיים שלנו.

  1. על הדוגמניות שלי עמוד, נווט לגרסה 2 של הדגם שלך.
  2. על לחזות בחר, בחר חיזוי אצווה ו מכני עם סלילה אוטומטית.
  3. לבחור בחר מערך נתונים כדי לציין את מערך הנתונים שעליו ליצור תחזיות.
  4. בחר predict מערך נתונים שיצרנו קודם לכן ובחר בחר מערך נתונים.
  5. לבחור להקים.

כעת יש לנו זרימת עבודה אוטומטית של חיזוי אצווה. זה יופעל כאשר Predict מערך הנתונים מתעדכן אוטומטית.

כעת נעלה קובצי CSV נוספים ל- predict תיקיית S3.

פעולה זו תפעיל עדכון אוטומטי של predict מערך נתונים.

זה בתורו יפעיל את זרימת העבודה האוטומטית של חיזוי אצווה וייצור תחזיות עבורנו לצפייה.

אנו יכולים להציג את כל האוטומציות ב- אוטומציות עמוד.

הודות לעדכון מערך הנתונים האוטומטי וזרימות העבודה האוטומטיות של חיזוי אצווה, אנו יכולים להשתמש בגרסה העדכנית ביותר של מערך הטבלה, התמונות והמסמכים להכשרת מודלים של ML, ולבנות זרימות עבודה לחיזוי אצווה המופעלות אוטומטית בכל עדכון מערך הנתונים.

לנקות את

כדי להימנע מחיובים עתידיים, צא מ-Canvas. Canvas מחייב אותך למשך ההפעלה, ואנו ממליצים לצאת מ-Canvas כאשר אינך משתמש בו. מתייחס יציאה מאמזון SageMaker Canvas לקבלת פרטים נוספים.

סיכום

בפוסט זה, דנו כיצד אנו יכולים להשתמש ביכולת עדכון מערך הנתונים החדשה כדי לבנות גרסאות חדשות של מערך נתונים ולהכשיר את דגמי ה-ML שלנו עם הנתונים העדכניים ביותר ב-Canvas. הראינו גם כיצד אנו יכולים להפוך ביעילות לאוטומציה של תהליך הפעלת תחזיות אצווה על נתונים מעודכנים.

כדי להתחיל במסע ML עם קוד נמוך/ללא קוד, עיין ב- Amazon SageMaker Canvas מדריך למפתחים.

תודה מיוחדת לכל מי שתרם להשקה.


על הכותבים

ג'נישה אנאנד הוא מנהל מוצר בכיר בצוות SageMaker No/Low-Code ML, הכולל את SageMaker Canvas ו- SageMaker Autopilot. היא נהנית מקפה, להישאר פעילה ולבלות עם משפחתה.

פראשנט הוא מהנדס פיתוח תוכנה באמזון SageMaker ועובד בעיקר עם מוצרי SageMaker עם קוד נמוך וללא קוד.

אשה דוטה הוא מהנדס פיתוח תוכנה באמזון SageMaker. היא מתמקדת בבניית כלים ומוצרים של ML עבור לקוחות. מחוץ לעבודה, היא נהנית מהחוץ, יוגה וטיולים.

דבר איתנו

שלום שם! איך אני יכול לעזור לך?