Bellman equation for state-value function
Notation 1
vπ(s)=E[Gt∣St=s]=E[rt+1+γGt+1∣St=s]=a,r,s′∑rπ(a∣s)p(s′,r∣s,a)+γa,r,s′∑E[Gt+1∣St+1=s′]p(s′,r∣s,a)π(a∣s)=a∑π(a∣s){r,s′∑p(s′,r∣s,a)[r+γvπ(s′)]} Notation 2
Rss′a=E[rt+1∣St=s,St+1=s′,At=a]Pss′a=P(St+1∣St=s,At=a) vπ(s)=E[Gt∣St=s]=E[rt+1+γGt+1∣St=s]=a∑π(a∣s)r,s′∑rp(s′,r∣s,a)+γa∑π(a∣s)s′∑p(s′∣s,a)E[Gt+1∣St+1=s′]=a∑π(a∣s){r,s′∑rp(r∣s′,s,a)p(s′∣s,a)+γs′∑p(s′∣s,a)E[Gt+1∣St+1=s′]}=a∑π(a∣s)s′∑Pss′a{Rss′a+γvπ(s′)} Bellman equation for action-value function
Notation 1
Notation 2
Qπ(s,a)=s′∑Pss′a[Rss′a+γa′∑π(s′,a′)Qπ(s′,a′)]