7
votes

Processus de décision de Markov 'Questions

Texte alt http://img693.ImagesShack.us/img693/724/markov .png

Je suis un peu confus sur certains points ici:

  1. Qu'est-ce que cela signifie de dire que cela réussira 70% du temps qu'il essaie une action donnée? Cela signifie-t-il que chaque fois qu'il essaie de procéder à une action a, il faudra 70% de l'action A et les autres 30% font l'action qui conduit au même État ou que c'est comme s'il l'ait toujours fait L'action a, mais seulement 30% des temps, il ne le fait tout simplement pas? J'espère que je me fais clairement: (
  2. Comment est-il possible d'avoir plusieurs états consécutifs avec le même utilité? En théorie, l'utilitaire ne doit pas toujours diminuer, plus vous provenez d'états avec une récompense?
  3. connaître uniquement les informations que j'ai données ci-dessus, Est-il possible de déduire quel est le facteur de réduction (gamma)? Si oui, comment?
  4. est-il possible de calculer le Récompense pour les états? Comment?

0 commentaires

3 Réponses :


1
votes

AD.1) probablement Ce n'est pas que le robot a toujours à bouger - c.-à-d. Ces 30% sont "Ah, maintenant je me repose un peu" ou "il n'y avait pas de pouvoir de bouger du tout ".


2 commentaires

Donc, ma fonction de transition est un vecteur d'une seule valeur? T (S, A, S ') = (1.0)? Contrairement à mon hypothèse initiale selon laquelle c'était T (S, A, S ') = (0,7, 0,3), étant la première coordonnée lorsqu'il se déplace effectivement et la seconde quand il reste?


Pourquoi 1.0? Je préfère cette syntaxe: P (S '| S) = 0,7, P (S | S) = 0,3, où s'! = S.



4
votes

Il existe un modèle pour traiter la plupart des problèmes de PMD, mais je pense que vous avez probablement omis certaines informations de la description problématique, il a probablement lieu avec l'état que vous essayez d'atteindre, ou la façon dont un épisode se termine (que se passe-t-il si vous courez le bord de la grille). J'ai fait de mon mieux pour répondre à vos questions, mais j'ai ajouté une amorce sur le processus que j'utilise pour traiter ces types de problèmes.

Premièrement utilitaire est une mesure assez abstraite de combien vous voulez être dans un état donné. Il est certainement possible d'avoir deux états avec une utilité égale, même lorsque vous mesurez l'utilité avec des heuristiques simples (distance euclidien ou manhattan). Dans ce cas, je suppose que la valeur de l'utilité et la récompense sont interchangeables. P>

à long terme, l'objectif dans ces types de problèmes a tendance à être, comment maximisez-vous votre attendu (long terme ) récompense? em> Le taux d'apprentissage, gamma, contrôle la quantité d'emphase que vous mettez sur l'état actuel par rapport à l'endroit où vous souhaitez vous retrouver - efficacement, vous pouvez penser à gamma comme un spectre qui va de partir, 'faire le En ce qui concerne la plupart des avantages dans ce Timestep ' em> à l'autre extreme ' explorez toutes mes options et revenez au meilleur ' em>. SUTTON et BARTO dans ce livre sur L'apprentissage de renforcement a des Vraiment sympa Explications de la façon dont cela fonctionne. p>


Avant de commencer, revenez à la question et assurez-vous que vous pouvez répondre en toute confiance aux questions suivantes. P>

  1. Qu'est-ce qu'un état? Combien d'états y a-t-il? Li>
  2. Qu'est-ce qu'une action? Combien d'actions y a-t-il? LI>
  3. Si vous commencez à l'état U et que vous appliquez une action A, quelle est la probabilité d'atteindre un nouvel état V? Li> ol>

    donc les réponses aux questions? P>

    1. Un état est un vecteur (x, y). La grille est de 5 à 5, donc il y a 25 états. Li>
    2. Il y a quatre actions possibles, {E, N, S, W} LI>
    3. La probabilité d'atteindre avec succès un état adjacent après avoir appliqué une action appropriée est de 0,7, la probabilité de ne pas bouger (rester dans le même état est de 0,3). En supposant (0,0) la cellule supérieure gauche et (4,4) est la cellule droite droite, le tableau suivant montre un petit sous-ensemble de toutes les transitions possibles. LI> OL>
      P( v=(3,3) | u =(2,3), a=E ) = 0.7
      P( v=(3,3) | u =(4,3), a=W ) = 0.7
      P( v=(3,3) | u =(3,2), a=N ) = 0.7
      P( v=(3,3) | u =(3,4), a=S ) = 0.7
      P( v=(3,3) | u =(3,3) ) = 0.3
      


3 commentaires

Comment définirez-vous ensuite la fonction de transition à l'état sélectionné (audacieux)?


J'ai édité mon poste d'origine pour inclure une réponse à cette question


Ce que vous appelez le taux d'apprentissage / gamma me connaît par le nom du facteur de réduction / Lambda.



0
votes

J'ai formulé ce problème en tant que processus de décision Finit-Horizon Markov et résolu via l'itération des politiques. À droite de chaque itération, il existe une représentation de la grille codée par couleur des actions recommandées pour chaque état ainsi que la grille de récompense d'origine / matrice.

Examiner la politique / la stratégie finale à l'étape 4. Est-ce que cela convient avec votre intuition?

Entrez la description de l'image ici

Entrez la description de l'image ici

Entrez la description de l'image ici

Entrez la description de l'image ici

Entrez la description de l'image ici


0 commentaires