<?xml version="1.0" encoding="utf-8" standalone="yes" ?>
<rss version="2.0" 
  xmlns:content="http://purl.org/rss/1.0/modules/content/" 
  xmlns:dc="http://purl.org/dc/elements/1.1/" 
  xmlns:atom="http://www.w3.org/2005/Atom" 
  xmlns:sy="http://purl.org/rss/1.0/modules/syndication/" 
  xmlns:media="http://search.yahoo.com/mrss/">
  <channel>
    <title>強化学習 on 行李の底に収めたり[YuWd]</title>
    <link>https://yuiga.dev/blog/en/tags/%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92/</link>
    <description>Recent content in 強化学習 on 行李の底に収めたり[YuWd]</description>
    <generator>Hugo -- gohugo.io</generator>
    <language>en</language>
    <copyright>©2026, All Rights Reserved</copyright>
    <lastBuildDate>Thu, 07 Jul 2022 01:14:08 +0900</lastBuildDate>
    
        <atom:link href="https://yuiga.dev/blog/en/tags/%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92/index.xml" rel="self" type="application/rss+xml" />
    

      
      <item>
        <title>方策エントロピー</title>
        <link>https://yuiga.dev/blog/en/ja/posts/%E6%96%B9%E7%AD%96%E3%82%A8%E3%83%B3%E3%83%88%E3%83%AD%E3%83%94%E3%83%BC/</link>
        <pubDate>Thu, 07 Jul 2022 01:14:08 +0900</pubDate>
        
        <atom:modified>Thu, 07 Jul 2022 01:14:08 +0900</atom:modified>
        <guid>https://yuiga.dev/blog/en/ja/posts/%E6%96%B9%E7%AD%96%E3%82%A8%E3%83%B3%E3%83%88%E3%83%AD%E3%83%94%E3%83%BC/</guid>
        <description>探索空間において探索されたことで更新される情報量 情報エントロピー, もしくは方策の対数尤度の期待値と考えればOK $$\displaystyle{H(\pi( \cdot | s_t)) = \sum_{a} {-\pi(a | s)\log\pi(a | s)} = E_{a\sim\pi} \left[ {-\log\pi(a | s)} \right \rbrack}$$ 引用: https://horomary.hatenablog.com/entry/2020/12/20/115439</description>
        
        <dc:creator>YuWd (Yuiga Wada)</dc:creator>
        <media:content url="https://yuiga.dev/bloghttps://gyazo.com/2791ca74fc016190e12e1d49acb13c02.png" medium="image"><media:title type="html">featured image</media:title></media:content>
        
        
        
          
            
              <category>強化学習</category>
            
          
            
              <category>post</category>
            
          
        
        
        
          
            
          
        
      </item>
      
      <item>
        <title>SAC(Soft-Actor-Critic)</title>
        <link>https://yuiga.dev/blog/en/ja/posts/sacsoft-actor-critic/</link>
        <pubDate>Thu, 07 Jul 2022 00:57:58 +0900</pubDate>
        
        <atom:modified>Thu, 07 Jul 2022 00:57:58 +0900</atom:modified>
        <guid>https://yuiga.dev/blog/en/ja/posts/sacsoft-actor-critic/</guid>
        <description>Actor-Critic型のSoft-Q学習 Soft-Q学習とは簡単に言うと, 報酬 + 方策エントロピーを目的関数に据える学習手法 SAC(Soft-Actor-Critic)の理論的背景はSoft-Q学習からきており、従来の目的関数に方策エントロピー項を加え、より多様な探索を可能にした手法です。 エントロピー項は正則化の役割</description>
        
        <dc:creator>YuWd (Yuiga Wada)</dc:creator>
        
        
        
        
          
            
              <category>強化学習</category>
            
          
            
              <category>post</category>
            
          
        
        
        
          
            
          
        
      </item>
      
      <item>
        <title>REINFORCE</title>
        <link>https://yuiga.dev/blog/en/ja/posts/reinforce/</link>
        <pubDate>Mon, 27 Jun 2022 17:47:00 +0900</pubDate>
        
        <atom:modified>Mon, 27 Jun 2022 17:47:00 +0900</atom:modified>
        <guid>https://yuiga.dev/blog/en/ja/posts/reinforce/</guid>
        <description>単純な方策勾配方法では $$\nabla J(\theta) = \mathrm{E}_{\tau_\theta} \lbrack \sum_t G(\tau) \nabla log \pi_\theta (A_t|S_t) \rbrack$$ が使われていたが, 全ての時刻 $t$において収益 $G(\tau)$が一律に使用されているのが気がかりである 重要なのは, 時刻 $t$の行動の後の評価であるから, $\lbrack0,t)$の収益はノイズとなり得る そこで, REINFORCEでは以下のように勾配を変更する $$\nabla J(\theta) = \mathrm{E}_{\tau_\theta} \lbrack \sum_t G_t</description>
        
        <dc:creator>YuWd (Yuiga Wada)</dc:creator>
        
        
        
        
          
            
              <category>強化学習</category>
            
          
            
              <category>post</category>
            
          
        
        
        
          
            
          
        
      </item>
      
      <item>
        <title>TD法</title>
        <link>https://yuiga.dev/blog/en/ja/posts/td%E6%B3%95/</link>
        <pubDate>Sun, 26 Jun 2022 23:32:14 +0900</pubDate>
        
        <atom:modified>Sun, 26 Jun 2022 23:32:14 +0900</atom:modified>
        <guid>https://yuiga.dev/blog/en/ja/posts/td%E6%B3%95/</guid>
        <description>DP法とMC法の中間 MCの場合, 終端までわかってないと使えなかった なので, 1ステップの状態に対してサンプリングを行い, 評価→行動 引用: ゼロから作るDeep Learning ❹ ―強化学習編</description>
        
        <dc:creator>YuWd (Yuiga Wada)</dc:creator>
        <media:content url="https://yuiga.dev/bloghttps://gyazo.com/93037f1f429f3b511e222d20d47c4ae3.png" medium="image"><media:title type="html">featured image</media:title></media:content>
        
        
        
          
            
              <category>強化学習</category>
            
          
            
              <category>post</category>
            
          
        
        
        
          
            
          
        
      </item>
      
      <item>
        <title>DQN</title>
        <link>https://yuiga.dev/blog/en/ja/posts/dqn/</link>
        <pubDate>Sun, 26 Jun 2022 23:32:02 +0900</pubDate>
        
        <atom:modified>Sun, 26 Jun 2022 23:32:02 +0900</atom:modified>
        <guid>https://yuiga.dev/blog/en/ja/posts/dqn/</guid>
        <description>Q学習は推定値 $E_t$ を使って推定値 $E_{t+1}$を更新する (これをブートストラップと呼ぶ) ゆえにQ学習は不安定なのだが, NNを加えると更に不安定になりやすい DQNでは, 推定値 $E_t$ と推定値 $E_{t+1}$の相関が強くなりすぎないように「経験再生」と「ターゲットネットワーク」と呼ばれるものを導入する 経験再生 過去の状態や行動</description>
        
        <dc:creator>YuWd (Yuiga Wada)</dc:creator>
        
        
        
        
          
            
              <category>強化学習</category>
            
          
            
              <category>post</category>
            
          
        
        
        
          
            
          
        
      </item>
      
      <item>
        <title>MC法</title>
        <link>https://yuiga.dev/blog/en/ja/posts/mc%E6%B3%95/</link>
        <pubDate>Sun, 26 Jun 2022 23:01:29 +0900</pubDate>
        
        <atom:modified>Sun, 26 Jun 2022 23:01:29 +0900</atom:modified>
        <guid>https://yuiga.dev/blog/en/ja/posts/mc%E6%B3%95/</guid>
        <description>モンテカルロ法 二次グリッド上の経路探索問題なら, 状態 $s$ は $(i,j)$の各マス 方策 $\pi$に準じて $N$回行動 $a$をサンプリング 移動先の状態 $s_k$と収益 $G_t(s_k)$を記録 終端まで収益 $G_t(s_k)$を計算 最後に各状態 $s$の収益 $G_t(s_k)$の平均を取る [* 行動 $a$をサンプリングしている点に注</description>
        
        <dc:creator>YuWd (Yuiga Wada)</dc:creator>
        <media:content url="https://yuiga.dev/bloghttps://gyazo.com/cb9b84ad3cbacc32d69e3d0c623c4bc2.png" medium="image"><media:title type="html">featured image</media:title></media:content>
        
        
        
          
            
              <category>強化学習</category>
            
          
            
              <category>post</category>
            
          
        
        
        
          
            
          
        
      </item>
      
      <item>
        <title>DAgger algorithm</title>
        <link>https://yuiga.dev/blog/en/ja/posts/dagger_algorithm/</link>
        <pubDate>Sun, 26 Jun 2022 17:15:40 +0900</pubDate>
        
        <atom:modified>Sun, 26 Jun 2022 17:15:40 +0900</atom:modified>
        <guid>https://yuiga.dev/blog/en/ja/posts/dagger_algorithm/</guid>
        <description>状態: $s \in S$ 行動: $a \in A$ 方策: $\pi$ $\pi : S \rightarrow A$ と定義 累積的にデータセットを増やしながら方策を学習していく感じ 誤差が少ないらしい</description>
        
        <dc:creator>YuWd (Yuiga Wada)</dc:creator>
        <media:content url="https://yuiga.dev/bloghttps://gyazo.com/48b3fd234d5366fec45ccbae2bc3b9b3.png" medium="image"><media:title type="html">featured image</media:title></media:content>
        
        
        
          
            
              <category>模倣学習</category>
            
          
            
              <category>強化学習</category>
            
          
            
              <category>post</category>
            
          
        
        
        
          
            
          
        
      </item>
      

    
  </channel>
</rss>
