Texte alt http://img693.ImagesShack.us/img693/724/markov .png p>
Je suis un peu confus sur certains points ici: p>
3 Réponses :
AD.1) probablement strong> Ce n'est pas que le robot a toujours à bouger - c.-à-d. Ces 30% sont "Ah, maintenant je me repose un peu" ou "il n'y avait pas de pouvoir de bouger du tout ". P>
Donc, ma fonction de transition est un vecteur d'une seule valeur? T (S, A, S ') = (1.0)? Contrairement à mon hypothèse initiale selon laquelle c'était T (S, A, S ') = (0,7, 0,3), étant la première coordonnée lorsqu'il se déplace effectivement et la seconde quand il reste?
Pourquoi 1.0? Je préfère cette syntaxe: P (S '| S) = 0,7, P (S | S) = 0,3, où s'! = S.
Il existe un modèle pour traiter la plupart des problèmes de PMD, mais je pense que vous avez probablement omis certaines informations de la description problématique, il a probablement lieu avec l'état que vous essayez d'atteindre, ou la façon dont un épisode se termine (que se passe-t-il si vous courez le bord de la grille). J'ai fait de mon mieux pour répondre à vos questions, mais j'ai ajouté une amorce sur le processus que j'utilise pour traiter ces types de problèmes.
Premièrement utilitaire est une mesure assez abstraite de combien vous voulez être dans un état donné. Il est certainement possible d'avoir deux états avec une utilité égale, même lorsque vous mesurez l'utilité avec des heuristiques simples (distance euclidien ou manhattan). Dans ce cas, je suppose que la valeur de l'utilité et la récompense sont interchangeables. P>
à long terme, l'objectif dans ces types de problèmes a tendance à être, comment maximisez-vous votre attendu (long terme ) récompense? em> Le taux d'apprentissage, gamma, contrôle la quantité d'emphase que vous mettez sur l'état actuel par rapport à l'endroit où vous souhaitez vous retrouver - efficacement, vous pouvez penser à gamma comme un spectre qui va de partir, 'faire le En ce qui concerne la plupart des avantages dans ce Timestep ' em> à l'autre extreme ' explorez toutes mes options et revenez au meilleur ' em>. SUTTON et BARTO dans ce livre sur L'apprentissage de renforcement a des Vraiment sympa Explications de la façon dont cela fonctionne. p> Avant de commencer, revenez à la question et assurez-vous que vous pouvez répondre en toute confiance aux questions suivantes. P> donc les réponses aux questions? P>
P( v=(3,3) | u =(2,3), a=E ) = 0.7
P( v=(3,3) | u =(4,3), a=W ) = 0.7
P( v=(3,3) | u =(3,2), a=N ) = 0.7
P( v=(3,3) | u =(3,4), a=S ) = 0.7
P( v=(3,3) | u =(3,3) ) = 0.3
Comment définirez-vous ensuite la fonction de transition à l'état sélectionné (audacieux)?
J'ai édité mon poste d'origine pour inclure une réponse à cette question
Ce que vous appelez le taux d'apprentissage / gamma me connaît par le nom du facteur de réduction / Lambda.
J'ai formulé ce problème en tant que processus de décision Finit-Horizon Markov et résolu via l'itération des politiques. À droite de chaque itération, il existe une représentation de la grille codée par couleur des actions recommandées pour chaque état ainsi que la grille de récompense d'origine / matrice. P>
Examiner la politique / la stratégie finale à l'étape 4. Est-ce que cela convient avec votre intuition? p>
p>
p>
p>
p>
p>