דף זה תורגם על ידי Cloud Translation API.

מודלים גדולים של שפה: מהו מודל שפה גדול?

טכנולוגיה חדשה יותר, מודלים גדולים של שפה (LLM), חוזה טוקן או רצף של טוקנים, לפעמים טוקנים חזויים באורך של כמה פסקאות. חשוב לזכור שטוקן יכול להיות מילה, תת-מילה (קבוצת משנה של מילה) או אפילו תו בודד. מודלים גדולים של שפה (LLM) מספקים תחזיות טובות בהרבה ממודלים של שפה מסוג N-gram או מרשתות נוירונים חוזרות, כי:

מודלים גדולים של שפה (LLM) מכילים הרבה יותר פרמטרים ממודלים חוזרים.
מודלי שפה גדולים אוספים הרבה יותר הקשר.

בקטע הזה נציג את הארכיטקטורה הכי מוצלחת ונפוצה לבניית מודלים גדולים של שפה (LLM): טרנספורמר.

מה זה טרנספורמר?

טרנספורמרים הם הארכיטקטורה המתקדמת ביותר למגוון רחב של יישומי מודלים של שפה, כמו תרגום:

Figure 1. הקלט הוא: I am a good dog. מתרגם שמבוסס על טרנספורמר
מתרגם את הקלט הזה לפלט: Je suis un bon
chien, שהוא אותו משפט שתורגם לצרפתית. — **איור 1.** אפליקציה שמבוססת על טרנספורמרים ומתרגמת מאנגלית לצרפתית.

מודלי טרנספורמר מלאים מורכבים ממקודד ומפענח:

מקודד ממיר טקסט קלט לייצוג ביניים. מקודד הוא רשת נוירונים עצומה.
מפענח ממיר את הייצוג הזה לטקסט שימושי. מפענח הוא גם רשת נוירונים עצומה.

לדוגמה, במתרגם:

המקודד מעבד את טקסט הקלט (לדוגמה, משפט באנגלית) לייצוג ביניים כלשהו.
המפענח ממיר את הייצוג הזה לטקסט פלט (לדוגמה, המשפט המקביל בצרפתית).

איור 2. המתרגם מבוסס-הטרנספורמר מתחיל עם מקודד, שיוצר ייצוג ביניים של משפט באנגלית. מפענח ממיר את הייצוג הזה למשפט פלט בצרפתית. — **איור 2.** מודל טרנספורמר מלא מכיל גם מקודד וגם מפענח.

כדי לקבל מידע נוסף על Transformers חלקיים, לוחצים על הסמל.

המודול הזה מתמקד בטרנספורמרים מלאים, שמכילים גם מקודד וגם מפענח. עם זאת, קיימות גם ארכיטקטורות של מקודד בלבד ושל מפענח בלבד:

ארכיטקטורות שמבוססות על מקודד בלבד ממפות טקסט קלט לייצוג ביניים (לרוב, שכבת הטמעה). תרחישי שימוש בארכיטקטורות של מקודד בלבד כוללים:
- חיזוי של כל אסימון ברצף הקלט (שזה התפקיד המקובל של מודלים של שפה).
- יצירת הטמעה מתוחכמת, שיכולה לשמש כקלט למערכת אחרת, כמו מסווג.
ארכיטקטורות של מפענח בלבד יוצרות טוקנים חדשים מהטקסט שכבר נוצר. מודלים שמבוססים רק על פענוח בדרך כלל מצטיינים ביצירת רצפים. מודלים מודרניים שמבוססים רק על פענוח יכולים להשתמש ביכולת היצירה שלהם כדי ליצור המשכים של היסטוריית דיאלוג והנחיות אחרות.

מהו קשב עצמי?

כדי לשפר את ההקשר, מודלים מסוג טרנספורמר מסתמכים במידה רבה על קונספט שנקרא קשב עצמי. למעשה, בשם כל טוקן של קלט, מנגנון תשומת הלב העצמית שואל את השאלה הבאה:

"How much does each other token of input affect the interpretation of this token?"

הקידומת 'עצמי' במונח 'קשב עצמי' מתייחסת לרצף הקלט. חלק ממנגנוני הקשב משקללים את היחסים בין טוקנים של קלט לבין טוקנים ברצף פלט, כמו תרגום, או לבין טוקנים ברצף אחר. אבל מנגנון ההתייחסות העצמית נותן משקל רק לחשיבות של היחסים בין הטוקנים ברצף הקלט.

כדי לפשט את הדברים, נניח שכל טוקן הוא מילה וההקשר המלא הוא משפט אחד בלבד. נניח שיש לכם את המשפט הבא:

The animal didn't cross the street because it was too tired.

המשפט הקודם מכיל 11 מילים. כל אחת מ-11 המילים מתייחסת ל-10 המילים האחרות, ומנסה להבין כמה כל אחת מ-10 המילים האלה חשובה לה. לדוגמה, שימו לב שהמשפט מכיל את כינוי הגוף it. לשון הפנייה היא לרוב דו-משמעית. בדרך כלל, כינוי הגוף it מתייחס לשם עצם או לצירוף שם עצם שהוזכרו לאחרונה, אבל במשפט לדוגמה, לאיזה שם עצם שהוזכר לאחרונה מתייחס it – לחיה או לרחוב?

מנגנון הקשב העצמי קובע את הרלוונטיות של כל מילה סמוכה לכינוי it. באיור 3 מוצגות התוצאות – ככל שהקו כחול יותר, המילה חשובה יותר לכינוי it. כלומר, animal חשוב יותר מ-street לכינוי it.

איור 3. רמת הרלוונטיות של כל אחת מ-11 המילים במשפט:
'The animal didn't cross the street because it was too tired'
לכינוי 'it'. המילה 'animal' היא הרלוונטית ביותר לכינוי 'it'. — **איור 3.** קשב עצמי לכינוי it. מתוך Transformer: A Novel Neural Network Architecture for Language Understanding.

לעומת זאת, נניח שהמילה האחרונה במשפט משתנה באופן הבא:

The animal didn't cross the street because it was too wide.

במשפט המתוקן הזה, מנגנון הקשב העצמי ידרג את המילה street כרלוונטית יותר מהמילה animal לכינוי הגוף it.

חלק ממנגנוני תשומת הלב העצמית הם דו-כיווניים, כלומר הם מחשבים ציוני רלוונטיות לטוקנים לפני המילה שמתמקדים בה ואחריה. לדוגמה, באיור 3 אפשר לראות שהמילים משני הצדדים של it נבדקות. לכן, מנגנון דו-כיווני של תשומת לב עצמית יכול לאסוף הקשר ממילים משני הצדדים של המילה שמופנית אליה תשומת הלב. לעומת זאת, מנגנון חד-כיווני של תשומת לב עצמית יכול לאסוף הקשר רק ממילים בצד אחד של המילה שמופנית אליה תשומת הלב. מנגנון תשומת הלב העצמית הדו-כיוונית שימושי במיוחד ליצירת ייצוגים של רצפים שלמים, בעוד שאפליקציות שיוצרות רצפים של טוקנים דורשות מנגנון תשומת לב עצמית חד-כיוונית. לכן, מקודדים משתמשים בתשומת לב עצמית דו-כיוונית, ומפענחים משתמשים בתשומת לב עצמית חד-כיוונית.

מהו קשב עצמי רב-שכבתי עם מספר ראשי תשומת לב?

כל שכבת קשב עצמי מורכבת בדרך כלל מכמה ראשי קשב עצמי. הפלט של שכבה הוא פעולה מתמטית (לדוגמה, ממוצע משוקלל או מכפלה סקלרית) של הפלט של הראשים השונים.

מכיוון שהפרמטרים של כל ראש מאותחלים לערכים אקראיים, ראשי תשומת לב שונים יכולים ללמוד קשרים שונים בין כל מילה שמופנית אליה תשומת הלב לבין המילים הסמוכות. לדוגמה, ראש תשומת הלב העצמית שתואר בקטע הקודם התמקד בקביעת שם העצם שאליו מתייחסת מילת הגוף it. עם זאת, ראשי קשב עצמי אחרים באותה שכבה עשויים ללמוד את הרלוונטיות הדקדוקית של כל מילה לכל מילה אחרת, או ללמוד אינטראקציות אחרות.

מודל טרנספורמר מלא כולל כמה שכבות של קשב עצמי שמוערמות אחת על השנייה. הפלט מהשכבה הקודמת הופך לקלט של השכבה הבאה. השיטה הזו מאפשרת למודל לבנות הבנות מורכבות ואבסטרקטיות יותר של הטקסט. יכול להיות שבשכבות מוקדמות יותר יתמקדו בתחביר בסיסי, אבל בשכבות עמוקות יותר אפשר לשלב את המידע הזה כדי להבין מושגים מורכבים יותר כמו סנטימנט, הקשר וקשרים בין נושאים בכל הקלט.

לוחצים על הסמל כדי לקבל מידע על סימון O גדול למודלים של שפה גדולים (LLM).

הקשב העצמי מאלץ כל מילה בהקשר ללמוד את הרלוונטיות של כל המילים האחרות בהקשר. לכן, יש נטייה להכריז על הבעיה הזו כבעיה מסדר O(N²), כאשר:

‫N הוא מספר הטוקנים בהקשר.

כאילו סימון O הגדול הקודם לא היה מטריד מספיק, מודלי Transformer מכילים כמה שכבות של קשב עצמי וכמה ראשי קשב עצמי לכל שכבה של קשב עצמי, כך שסימון O הגדול הוא למעשה:

O(N² · S · D)

where:‎

‫S הוא מספר שכבות הקשב העצמי.
‫D הוא מספר הראשים בכל שכבה.

כדי לקבל מידע נוסף על אופן האימון של מודלים גדולים של שפה, לוחצים על הסמל.

סביר להניח שלעולם לא תאמנו LLM מאפס. אימון של מודל LLM ברמה תעשייתית דורש כמות עצומה של מומחיות בתחום למידת המכונה, משאבי מחשוב וזמן. בכל מקרה, לחצת על הסמל כדי לקבל מידע נוסף, ולכן אנחנו חייבים לך הסבר.

המרכיב העיקרי ביצירת LLM הוא כמות עצומה של נתוני אימון (טקסט), שבדרך כלל עוברים סינון מסוים. השלב הראשון של האימון הוא בדרך כלל סוג כלשהו של למידה לא מפוקחת על נתוני האימון האלה. באופן ספציפי, המודל מתאמן על חיזויים מוסתרים, כלומר טוקנים מסוימים בנתוני האימון מוסתרים בכוונה. המודל מתאמן על ידי ניסיון לחזות את הטוקנים החסרים. לדוגמה, נניח שהמשפט הבא הוא חלק מנתוני האימון:

The residents of the sleepy town weren't prepared for what came next.

טוקנים אקראיים מוסרים, למשל:

The ___ of the sleepy town weren't prepared for ___ came next.

מודל LLM הוא רק רשת עצבית, ולכן הפסד (מספר הטוקנים המוסווים שהמודל לקח בחשבון בצורה נכונה) קובע את מידת העדכון של ערכי הפרמטרים באמצעות backpropagation.

מודל מבוסס-טרנספורמר שאומן לחזות נתונים חסרים לומד בהדרגה לזהות דפוסים ומבנים מסדר גבוה יותר בנתונים כדי לקבל רמזים לגבי הטוקן החסר. דוגמה למופע מוסווה:

Oranges are traditionally ___ by hand. Once clipped from a tree, __ don't ripen.

הדרכה נרחבת על מספר עצום של דוגמאות מוסתרות מאפשרת למודל שפה גדול (LLM) ללמוד שהמילים 'נקטפו' או 'נבחרו' הן התאמות סבירות לטוקן הראשון, והמילים 'תפוזים' או 'הם' הן אפשרויות טובות לטוקן השני.

שלב אופציונלי נוסף של אימון שנקרא התאמת הוראות יכול לשפר את היכולת של מודל שפה גדול (LLM) לפעול לפי הוראות.

למה מודלי טרנספורמרים כל כך גדולים?

מודלי טרנספורמר מכילים מאות מיליארדים או אפילו טריליונים של פרמטרים. בקורס הזה מומלץ בדרך כלל לבנות מודלים עם מספר קטן יותר של פרמטרים, ולא עם מספר גדול יותר של פרמטרים. בסופו של דבר, מודל עם מספר קטן יותר של פרמטרים משתמש בפחות משאבים כדי ליצור תחזיות בהשוואה למודל עם מספר גדול יותר של פרמטרים. עם זאת, מחקרים מראים שטרנספורמרים עם יותר פרמטרים משיגים ביצועים טובים יותר באופן עקבי בהשוואה לטרנספורמרים עם פחות פרמטרים.

אבל איך מודל שפה גדול יוצר טקסט?

ראיתם איך חוקרים מאמנים מודלים גדולים של שפה כדי לחזות מילה או שתיים שחסרות, ואולי לא התרשמתם. אחרי הכול, חיזוי של מילה או שתיים הוא בעצם התכונה של השלמה אוטומטית שמוטמעת בתוכנות שונות של טקסט, אימייל ויצירה. יכול להיות שאתם תוהים איך מודלים של שפה גדולה יכולים ליצור משפטים, פסקאות או שירי הייקו על ארביטראז'.

למעשה, מודלים של LLM הם מנגנונים של השלמה אוטומטית שיכולים לחזות (להשלים) אלפי טוקנים באופן אוטומטי. לדוגמה, נניח שיש משפט ואחריו משפט עם מיסוך:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

מודל שפה גדול יכול ליצור הסתברויות למשפט עם המילה המוסתרת, כולל:

Probability	מילה או מילים
3.1%	לדוגמה, הוא יכול לשבת, להישאר במקום ולהתהפך.
2.9%	לדוגמה, הוא יודע לשבת, להישאר במקום ולהתהפך.

מודל LLM גדול מספיק יכול ליצור הסתברויות לפסקאות ולמאמרים שלמים. אפשר לחשוב על השאלות של המשתמשים למודל שפה גדול כעל המשפט הנתון, ואחריו מסכה דמיונית. לדוגמה:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

מודל ה-LLM יוצר הסתברויות לתשובות אפשריות שונות.

דוגמה נוספת: מודל LLM שאומן על מספר עצום של בעיות מילוליות במתמטיקה יכול ליצור רושם שהוא מבצע ניתוח מתמטי מורכב. אבל מודלי ה-LLM האלה בעצם רק משלימים אוטומטית הנחיה של בעיה מילולית.

היתרונות של LLM

מודלים גדולים של שפה יכולים ליצור טקסט ברור וקל להבנה למגוון רחב של קהלי יעד. מודלי שפה גדולים יכולים לבצע חיזויים במשימות שהם אומנו במפורש לבצע. חלק מהחוקרים טוענים שמודלים מסוג LLM יכולים גם לתת תחזיות לגבי קלט שהם לא אומנו עליו באופן מפורש, אבל חוקרים אחרים דחו את הטענה הזו.

בעיות עם מודלים גדולים של שפה (LLM)

אימון של מודל שפה גדול כרוך בבעיות רבות, כולל:

איסוף של מערך אימון עצום.
השימוש ב-Gemini צורך משאבים חישוביים עצומים וחשמל, והוא מתפרס על פני כמה חודשים.
פתרון בעיות שקשורות להרצה מקבילית.

שימוש במודלים גדולים של שפה כדי להסיק תחזיות גורם לבעיות הבאות:

מודלי שפה גדולים מזייפים, כלומר התחזיות שלהם מכילות לעיתים קרובות טעויות.
מודלי שפה גדולים צורכים כמויות עצומות של משאבי מחשוב וחשמל. אימון מודלים מסוג LLM על מערכי נתונים גדולים יותר בדרך כלל מצמצם את כמות המשאבים שנדרשים להסקת מסקנות, אבל מערכי אימון גדולים יותר דורשים יותר משאבי אימון.
כמו כל מודל ML, גם מודלים מסוג LLM יכולים להציג כל מיני סוגים של הטיה.

תרגיל: בדיקת ההבנה

נניח שמודל Transformer אומן על מיליארד מסמכים, כולל אלפי מסמכים שמכילים לפחות מופע אחד של המילה elephant (פיל). אילו מההצהרות הבאות נכונות כנראה?

עצי שיטה, שהם חלק חשוב בתזונה של פילים, יקבלו בהדרגה ציון גבוה של קשב עצמי עם המילה פיל.

כן, והפעולה הזו תאפשר ל-Transformer לענות על שאלות בנושא התזונה של פיל.

מודל ה-Transformer ישייך את המילה elephant לביטויים שונים שמכילים את המילה elephant.

כן, המערכת תתחיל לצרף ציונים גבוהים של תשומת לב עצמית בין המילה elephant למילים אחרות בביטויים שקשורים לפיל.

הטרנספורמר ילמד בהדרגה להתעלם מכל שימוש סרקסטי או אירוני במילה elephant בנתוני האימון.

מודלים של טרנספורמרים גדולים מספיק שעברו אימון על מערך אימון רחב מספיק, הופכים למיומנים למדי בזיהוי סרקזם, הומור ואירוניה. לכן, במקום להתעלם מסרקזם ומאירוניה, הטרנספורמר לומד מהם.

מבוא: מהו מודל שפה? (10 דקות)

שיפור ותכנון של הפרומפטים (10 דקות)