ログイン
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 学術雑誌論文
  2. Neural Networks

The Asymptotic Equipartition Property in Reinforcement Learning and its Relation to Return Maximization

https://hiroshima-cu.repo.nii.ac.jp/records/1316
https://hiroshima-cu.repo.nii.ac.jp/records/1316
4a2f2505-c6b5-40fb-b0c7-699f94e50936
名前 / ファイル ライセンス アクション
neunet06draft.pdf neunet06draft.pdf (233.6 kB)
Item type 学術雑誌論文 / Journal Article(1)
公開日 2023-02-28
タイトル
タイトル The Asymptotic Equipartition Property in Reinforcement Learning and its Relation to Return Maximization
言語
言語 eng
キーワード
主題 Reinforcement learning
キーワード
主題 Markov decision process
キーワード
主題 Information theory
キーワード
主題 Asymptotic equipartition property
キーワード
主題 Stochastic complexity
キーワード
主題 Return maximization
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ journal article
著者 IWATA, Kazunori

× IWATA, Kazunori

IWATA, Kazunori

ja-Kana イワタ, カズノリ

Search repository
IKEDA, Kazushi

× IKEDA, Kazushi

IKEDA, Kazushi

ja-Kana イケダ, カズシ

Search repository
SAKAI, Hideaki

× SAKAI, Hideaki

SAKAI, Hideaki

ja-Kana サカイ, ヒデアキ

Search repository
岩田, 一貴

× 岩田, 一貴

en 岩田, 一貴

Search repository
抄録
内容記述タイプ Abstract
内容記述 We discuss an important property called the asymptotic equipartition property on empirical sequences in reinforcement learning. This states that the typical set of empirical sequences has probability nearly one, that all elements in the typical set are nearly equi-probable, and that the number of elements in the typical set is an exponential function of the sum of conditional entropies if the number of time steps is sufficiently large. The sum is referred to as stochastic complexity. Using the property we elucidate the fact that the return maximization depends on two factors, the stochastic complexity and a quantity depending on the parameters of environment. Here, the return maximization means that the best sequences in terms of expected return have probability one. We also examine the sensitivity of stochastic complexity, which is a qualitative guide in tuning the parameters of action-selection strategy, and show a sufficient condition for return maximization in probability.
書誌情報 Neural Networks

巻 19, 号 1, p. 62-75, 発行日 2006-01
出版者
出版者 Elsevier
ISSN
収録物識別子タイプ ISSN
収録物識別子 08936080
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA10680676
権利
権利情報 Copyright © 2006 Elsevier Ltd. All rights reserved
関連サイト
識別子タイプ URI
関連識別子 http://www.sciencedirect.com/
関連名称 http://www.sciencedirect.com/
フォーマット
内容記述タイプ Other
内容記述 application/pdf
著者版フラグ
出版タイプ AM
出版タイプResource http://purl.org/coar/version/c_ab4af688f83e57aa
戻る
0
views
See details
Views

Versions

Ver.1 2023-07-25 10:47:27.381193
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR 2.0
  • OAI-PMH JPCOAR 1.0
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3