ログイン
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 学術雑誌論文
  2. Neural Networks

An Information-Theoretic Analysis of Return Maximization in Reinforcement Learning

https://hiroshima-cu.repo.nii.ac.jp/records/1824
https://hiroshima-cu.repo.nii.ac.jp/records/1824
5f355555-cd9e-4f06-9238-23bb3293dd9e
名前 / ファイル ライセンス アクション
neunet11preprint_witherrata-1.pdf neunet11preprint_witherrata-1.pdf (146.8 kB)
Item type 学術雑誌論文 / Journal Article(1)
公開日 2023-03-07
タイトル
タイトル An Information-Theoretic Analysis of Return Maximization in Reinforcement Learning
言語
言語 eng
キーワード
主題 Reinforcement learning
キーワード
主題 Stochastic sequential decision process
キーワード
主題 Information theory
キーワード
主題 Asymptotic equipartition property
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ journal article
著者 IWATA, Kazunori

× IWATA, Kazunori

IWATA, Kazunori

ja-Kana イワタ, カズノリ

Search repository
岩田, 一貴

× 岩田, 一貴

en 岩田, 一貴

Search repository
抄録
内容記述タイプ Abstract
内容記述 We present a general analysis of return maximization in reinforcement learning. This analysis does not require assumptions of Markovianity, stationarity, and ergodicity for the stochastic sequential decision processes of reinforcement learning. Instead, our analysis assumes the asymptotic equipartition property fundamental to information theory, providing a substantially different view from that in the literature. As our main results, we show that return maximization is achieved by the overlap of typical and best sequence sets, and we present a class of stochastic sequential decision processes with the necessary condition for return maximization. We also describe several examples of best sequences in terms of return maximization in the class of stochastic sequential decision processes, which satisfy the necessary condition.
書誌情報 Neural Networks

巻 24, 号 10, p. 1074-1081, 発行日 2011-12
出版者
出版者 Elsevier
ISSN
収録物識別子タイプ ISSN
収録物識別子 08936080
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA10680676|AA11540311
DOI
関連タイプ isVersionOf
識別子タイプ DOI
関連識別子 info:doi/10.1016/j.neunet.2011.05.002
権利
権利情報 Copyright © 2011 Elsevier Ltd. All rights reserved|This manuscript version is made available under the CC-BY-NC-ND 4.0 license http://creativecommons.org/licenses/by-nc-nd/4.0/
関連サイト
識別子タイプ URI
関連識別子 http://www.sciencedirect.com/
関連名称 http://www.sciencedirect.com/
フォーマット
内容記述タイプ Other
内容記述 application/pdf
著者版フラグ
出版タイプ AM
出版タイプResource http://purl.org/coar/version/c_ab4af688f83e57aa
戻る
0
views
See details
Views

Versions

Ver.1 2023-07-25 10:42:35.967548
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR 2.0
  • OAI-PMH JPCOAR 1.0
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3