סֵמֶל
יוניונפדיה
תִקשׁוֹרֶת
 Google Play כעת ב-
חָדָשׁ! הורד יוניונפדיה במכשיר אנדרואיד שלך!
הורד
גישה מהירה יותר מאשר בדפדפן!
 

למידת חיזוק

מַדָד למידת חיזוק

למידת חיזוק (נקרא גם: למידה באמצעות חיזוקים; באנגלית: Reinforcement learning או בקיצור: RL) הוא תחום במדעי המחשב של למידת מכונה הנוגע לאופן שבו סוכנים נוקטים פעולות בתוך סביבה כדי למקסם את הרווח המצטבר כתוצאה מהפעולות הללו. [1]

10 יחסים: Q-learning, מדעי המחשב, אנגלית, שיטת מונטה קרלו, תהליך החלטה מרקובי, תכנון דינמי, למידת מכונה, למידת חיזוק מרובת סוכנים, למידה מונחית, למידה בלתי מונחית.

Q-learning

Q-learning הוא אלגוריתם למידת חיזוק.

חָדָשׁ!!: למידת חיזוק וQ-learning · ראה עוד »

מדעי המחשב

מדְעי המחשב הם ענף מדעי העוסק בלימוד הבסיס התאורטי והמעשי של השימוש במערכות מחשב, ובמידה מסוימת, גם בשאלה של תכנון ובנייה של מערכות מחשב.

חָדָשׁ!!: למידת חיזוק ומדעי המחשב · ראה עוד »

אנגלית

אנגלית (באנגלית: English) היא שפה ממשפחת השפות הגרמאניות שמקורה באנגליה, והיא אחת השפות המדוברות ביותר בעולם.

חָדָשׁ!!: למידת חיזוק ואנגלית · ראה עוד »

שיטת מונטה קרלו

שיטת מונטה קרלו היא שיטה לפתרון בעיות חישוביות באמצעות מספרים אקראיים (בניגוד לאלגוריתמים דטרמיניסטיים הנהוגים בדרך כלל).

חָדָשׁ!!: למידת חיזוק ושיטת מונטה קרלו · ראה עוד »

תהליך החלטה מרקובי

דוגמה לתהליך החלטה מרקובי שבו שלושה מצבים (בירוק), שתי פעולות (באדום) תהליך החלטה מרקובי (באנגלית: Markov Decision Process או MDP) הוא מודל מתמטי לתהליכי החלטה שבה פונקציית המעברים של המערכת מקיימת את תכונת מרקוב, קרי ההסתברות להגיע למצב כלשהו תלויה אך ורק במצב ופעולה נבחרת קודמת.

חָדָשׁ!!: למידת חיזוק ותהליך החלטה מרקובי · ראה עוד »

תכנון דינמי

במדעי המחשב, שיטת התכנון הדינמי לבניית אלגוריתם, שהוצגה לראשונה בשנת 1953 על ידי ריצ'רד בלמן, היא שיטה לפתרון בעיות בעלות תת-מבנה מיטבי שאי אפשר לפתור אותן באופן יעיל בשיטת הפרד ומשול הנאיבית.

חָדָשׁ!!: למידת חיזוק ותכנון דינמי · ראה עוד »

למידת מכונה

למידת מכונה (באנגלית: Machine Learning; לעיתים מכונה גם למידה חישובית) היא תת-תחום במדעי המחשב ובבינה מלאכותית המשיק לתחומי הסטטיסטיקה והאופטימיזציה.

חָדָשׁ!!: למידת חיזוק ולמידת מכונה · ראה עוד »

למידת חיזוק מרובת סוכנים

שני צוותים יריבים של סוכנים מתמודדים https://github.com/Farama-Foundation/MAgent#readme בניסוי MARL למידת חיזוק מרובה סוכנים (באנגלית: Multi-Agent Reinforcement Learning (MARL)) היא תת-תחום של למידת חיזוק, ונמצאת על קו התפר בין בינה מלאכותית למערכות מרובות סוכנים (אנ').

חָדָשׁ!!: למידת חיזוק ולמידת חיזוק מרובת סוכנים · ראה עוד »

למידה מונחית

דוגמה למערכת למידה מונחית. בשלב הראשון נאספות התצפיות. בשלב השני הן מחולקות למדגם אימון ומדגם בדיקה. אחר כך הלומד (אלגוריתם הלמידה) משתמש בדוגמאות המתויגות ממדגם האימון כדי ללמוד מודל חיזוי. באמצעות מדגם הבדיקה ניתן לבדוק את טיב המודל. למידה מונחית או למידה מפוקחת (באנגלית: Supervised learning) היא טכניקה בענף למידת המכונה, המאפשרת לפתח מכונה או מערכת (בדרך כלל תוכנית מחשב) שלומדת לפתור בעיות על בסיס מאגר גדול של דוגמאות "פתורות".

חָדָשׁ!!: למידת חיזוק ולמידה מונחית · ראה עוד »

למידה בלתי מונחית

למידה בלתי מונחית (Unsupervised Learning) היא טכניקה בלמידה חישובית שבה מנסים ללמוד את התכונות והמבנה של אוסף דוגמאות נתונים כאשר הנתונים זמינים כפי שהם ללא תוספת תיוגים.

חָדָשׁ!!: למידת חיזוק ולמידה בלתי מונחית · ראה עוד »

אזכור

[1] https://he.wikipedia.org/wiki/למידת_חיזוק

יוֹצֵאנִכנָס
היי! אנחנו בפייסבוק עכשיו! »