网站地图 - XML地图 - 设为首页 - 加入收藏
您的当前位置:主页 > 国内 > 正文

新闻联播主要内容

深度强化学习中的好奇心

    本文是AI研究所编写的一个技术博客。最初的标题是《深层强化中的好奇心》。

    本文是AI研究所编写的一个技术博客。最初的标题是:

    深度强化学习的好奇心

    作者|迈克尔·克莱尔

    翻译|缩写2018

    校对|酱梨涂饰|菠萝女孩

    链接到原始文本:

    Http://towardsdata..com/holio.-in-.-.ment-.-.-.-network-.llation-747b322e2403

    深度强化学习中的好奇心

    早期密集学习的困难任务之一,Montezuma的复仇,在探索随机网络蒸馏方面取得了重大突破(来源:Parker兄弟博客)。

    Atari游戏是深层强化学习(RL)算法的一个流行的基准任务。Atari很好地平衡了简单性和复杂性:一些游戏(如Pong)是如此简单,以至于它们可以通过基本算法(如一般策略梯度)来解决,而其他游戏则足够复杂以至于可以击败甚至最先进的算法。

    在最简单和最复杂的游戏之间的一系列有用的任务已经成为许多深入加强学习研究论文的核心。

    来自OpenAI博客。

    前者“未解决”的阿塔里游戏,蒙提祖马的复仇,最近已经解决了一个算法(在某种程度上),可以在得分上超过人类表现。研究人员可以鼓励代理人在1级探索不同的房间,这是赢得游戏积分的好方法。

    通过好奇心探索

    人类在玩冒险游戏时有一种内在的探索欲望,比如蒙提祖玛的复仇。游戏设计者构建这样的游戏来鼓励这种行为,通常需要玩家在继续游戏之前进行探索。这就是为什么冒险游戏很有趣。(问任何喜欢玩天空游戏的人。)

    像Montezuma的《复仇》或《天空》这样的冒险游戏充分利用了玩家探索的自然欲望,使得探索成为游戏任务的关键部分。

    深度强化学习算法执行“探索”的典型方法是通过随机策略:从神经网络提供的动作似然分布中随机采样动作。因此,特别是在早期阶段(当策略没有时间收敛时),它是随机行动的明显选择。

    这种方法在某些情况下是有效的。例如,Pong的解决方案是随机旋转桨并观察结果。幸运的是,球偏转可以启动优化。

    在像蒙特祖马的复仇游戏中,这种方法是不可行的。想象一下,从游戏的开始,化身随机地左右移动,随机地跳跃。结果,化身掉进熔岩中或直接进入敌人而没有获得点数。没有积分或奖励,算法无法得到优化的信号。

    那你会随便甩一甩吗?祝你好运。

    好奇

    重点放在寻找更好的探索方法上。基于好奇心的探索可以看作是激发人类玩家好奇心的一种尝试。

    但是,我们如何创建一个好奇的代理呢?

    有很多方法可以实现这个想法。其中之一,甚至使用下一个状态预测,由于其简单性和可伸缩性而很有趣。

    其基本思想是同时培养独立的预测模型和策略模型。预测模型输入所观测到的当前状态和所选择的动作,并对下一次观测进行预测。

    为了探索足够的轨迹,我们假设损失很小(因为我们通过监督学习不断开发预测模型);对于探索不足的轨迹,我们假设损失很大。

    那么,我们能做的就是创建一个新的奖励函数(称为“内在奖励”),它提供与预测模型的损失成比例的奖励。因此,当探索新的轨迹时,代理接收到强烈的奖励信号。

    (a)一级学习探索(b)二级快速探索

    使用马里奥模拟器任务(来源)中的下一个预测,学习探索从第一级的好奇心转移到第二级的快速探索。

    这项技术在超级马里奥模拟器中产生了一些令人鼓舞的结果。

    拖延症代理人:电视问题

    这项技术并不完美。一个已知的问题是代理被环境中的随机或噪声元素所吸引。这种时钟情况有时被称为“白噪声”问题或“电视问题”;也称为“拖延”。

    为了证明这种效果,设想一个代理人通过观察他所看到的像素来学习在迷宫中导航。

    下一状态预测引起代理人学习成功导航迷宫的好奇心。

    代理人很好地完成了任务;他开始寻找迷宫中未被探索的部分,因为他有能力在探险丰富的地区做出好的预测(或者换句话说,他不能在未开发地区做出好的预测)。

    现在在迷宫的墙上放一个“电视”,快速连续地显示随机选择的图像。由于图像的随机来源,代理不能准确预测接下来会出现什么图像。该预测模型将产生高损耗,从而为代理商提供高“内在”回报。最终的结果是,特工们倾向于停止看电视,而不是继续探索迷宫。

    在环境(源)中,当代理人面对电视或随机噪声源时,下一个状态预测引起代理人的好奇心,最终导致“拖延”。

    为了避免延误,采用随机网络蒸馏。

    OpenAI的一些优秀人员最近发表了一篇论文,提出了噪声电视问题的解决方案,探讨了随机网络蒸馏(RND)。

    这里的新思想是将类似的技术应用到下一个状态预测方法,但是消除对先前状态的依赖。

    下一状态预测相对于RND(源)的概述。

    RND并不预测下一个状态,而是观察下一个状态并试图预测下一个状态。这是一个非常微不足道的预测,不是吗?

    RND随机网络的目的是采用这种小的预测任务,并将其转化为硬预测任务。

    使用随机网络

    这是一个聪明但违反直觉的解决方案。

    其思想是我们使用随机初始化神经网络将观测值映射到潜在的观测向量。函数本身的输出并不重要;重要的是,我们有一些未知的确定性函数(随机初始化的神经网络),以某种方式转换观测值。

    因此,我们的预测模型的任务不是预测下一个状态,而是预测给定观测状态的未知随机模型的输出。我们训练该模型使用随机网络输出标签。

    当代理处于熟悉的状态时,预测模型应该能够很好地预测随机网络的期望输出。当智能体对状态不熟悉时,预测模型会对随机网络的输出做出较差的预测。

    通过这种方式,我们可以定义一个内在的奖励函数,它再次与预测模型的损失成比例。

    内部报酬计算的概念概述。只使用下一个观察状态。

    这可以解释为“新奇性检测”方案,其中当进行新的观测或不熟悉的观测时,预测模型具有较高的计算损失。

    作者使用MNIST作为这个概念的证明。在本实验中,他们通过随机初始化神经网络提供MNIST样字符。然后,在给定的输入条件下,它们训练并行网络来预测随机网络的输入。如预期,当目标类的训练样本数量增加时,它们将看到目标类被并行网络丢失。

    数据2:MNIST上的新奇性检测:预测器网络模拟随机初始化的目标网络。训练数据包括不同比例的图像和目标类别与“0”类别。每个曲线都表示MSE测试显示的目标类的训练用例的数量(对数)。

    论文对MNIST概念进行了验证。

    这样,当代理看到随机噪声源时,它不会被卡住。它不需要试图预测屏幕上下一个不可预测的帧,只需要知道这些帧是如何通过随机网络转换的。

    探寻蒙太祖玛的复仇

    由于解决方法不佳,以往的状态预测的好奇机制并不能解决蒙台梭玛的复仇问题,但RND似乎已经克服了这些问题。

    好奇心驱使的代理人探索房间,学习收集钥匙,这样他们就可以打开新房间。

    尽管取得了这样的成功,但是代理仅“偶尔”通过了一级。这是因为通过最后一道门来完成检查点,需要严格管理密钥的使用。需要内部状态模型(如LSTM)来克服这一障碍。

    因此,虽然RND已经允许代理人在得分上超过一般人的表现,但是在掌握游戏之前还有很长的路要走。

    这是关于深度强化学习算法的实验的一系列文章的一部分。查看本系列以前的一些帖子:

    理解演进的战略梯度。

    感谢卢多维奇·本尼斯坦特。

    要继续查看本文的链接和参考资料吗?

    长时间点击链接打开或点击底部[好奇心在深度强化学习]:

    Http://ai.yanxishe.com/page/Text./1363

    AI协会每天更新精彩内容,观看更多精彩内容:雷锋网、雷锋网和雷锋网。

    五大CNN架构

    深度强化学习中的好奇心

    使用Pytorch进行深度学习(第一部分)手柄:使用PyTorch实现图像分类器(第二部分)

    等待您翻译:

    如何为初学者聚类混沌数据以使用Keras进行迁移学习增强学习:对于情绪行为系统,如果你想学习数据科学,这七个资源不能错过

当前文章:http://www.duvd.cn/rpgox/398025-890292-73864.html

发布时间:00:08:41

广州设计公司  易用设计  万彩吧  广州设计公司  二四六彩  广州设计公司  广州产品设计  广州设计  二四六彩  产品设计  万彩吧  

{相关文章}

金融委员会支持补充性银行资本可持续债务作为新浪财经融资新途径的研究

    突然!另见金文的大新闻:本周的第3条,涉及9万亿银行股份,有五种主要解释。来源:中国基金新闻毛琳天一突然!国务院金文辉又发出了信息。这一次,它与银行密切相关,影响着9万亿银行的股票市场价值,并间接影响着经济的许多方面。今天股市开盘时,中央银行在其网站上公布了财政委员会办公室召开会议研究商业银行补充资本相关问题。12月25日,国务院金融稳定与发展委员会办公室召开特别会议,研究商业银行补充资本多渠道支持问题,推动可持续债券发行尽快启动。这是金文辉一周内第三次发言。20日,中国召开了资本市场改革与发展研讨会,坚定执行市场化原则,减少行政干预交易。要借鉴国际经验,积极培育中长期投资者,理顺各类资产管理产品进入资本市场的渠道。一天后,12月21日,金文辉又传闻中央经济工作会议决定不减税、不减费。随着2018年最后两个工作日的临近,商业银行资本管理的过渡期即将结束,银行资本评估的压力凸显。此时,国务院金文将召开会议,研究多渠道支持对商业银行补充资金的影响。Foundation先生总结了该行业的五个主要解释和影响。解读1:上市银行的资本压力是什么?根据银·渔业资讯_宾得全站仪网监会2012年颁布的《商业银行资本管理办法(试行)》及其过渡期安排,到2018年底,系统重点银行的资本充足率、一级资本充足率和核心一级资本充足率不得超过分别低于11.5%、9.5%和8.5%,其他银行应分别低于10.5%、8.5%和7.5%。根据这个表,资本需求逐渐略有增加,这给银行带来了一些压力。业内人士认为,与资本充足率相比,上市银行补充一级资本和核心一级资本的压力更大。从上市银行的角度来看,也有一些银行的核心一级资本约为8%,如华夏银行在2018年第三季度末的核心一级资本率为8.01%,一级资本率为9%,这两项指标仅比最低要求高出0.5个百分点。解释2:多通道支持意味着什么?金文辉会议宣布,研究商业银行资本充足多渠道支持问题的关键词是“多渠道”。对于国内银行业来说,有很多补充资本的方法,包括股票和债券。据天丰证券统计,从今年到12月中旬,上市银行已发行资本补充工具(优先股、二级资本债券、可转换债券、固定增长,不包括首次公开发行融资),筹资额超过3840亿元,融资规模比较大。规模庞大,略低于2017年的4500多亿元。股票融资包括银行首次公开发行(IPO)上市,许多中小银行都采用这铝灰球磨机_顾希欣网种方式。中小银行分别在A股和香港股票市场上市。我国上市银行的定向增发、配股等再融资行为,导致今年上市银行大量增发。数据显示,截至10月19日,中信银行(400亿元人民币)、江苏银行(200亿元人民币)、平安银行(260亿元)和浦东开发银行(500亿元人民币)已通过证监会批准的可转换债券计划,发行总额约为1360亿元。另一种是优先股,介于股票和债券之间。这种融资方式以前一直是许多银行关注的焦点。此外,非上市银行还增持股份,以补充资本,增强资本实力,抵御风险。债券融资的方式很多,如金融债券、资本债券、可转换债券和可分离交易债券。今年以来,上市银行发行各种债券的规模已达到数千亿,这也为资本提供了支持。解释3:为什么强调可持续债务?金文辉提出“尽快推进可持续债券发行”的思想,并特别提到可持续债券作为一种方式,意味着可持续债券在未来可能爆发式发展,并在补充银行资本方面发挥重要作用。据报道,国内可持续债务发展多年,非金融企业发行的可持续债务规模已超过1万亿元,涉及400多家发行人,是房地产、工业等领域可持续债务发行的重点。然而,目前国内银行发行可持续债务以补充资本尚无先例。在黄金稳定会议之后,银行可持续债务有望在2019年迅速发展成为补充资本的重要工具。业内人士认为,发行可持续债券将有助于缓解银行资金补充的压力,但也不会因为股市再融资而影响资本市场。解读4:优先股能否集中发行?以前,优先股已被银行广泛使用,以补充资本,许多大型银行已实施或公布优先股。有一个关于优先股的概念和特征的经典说法,形容他是“像股票和非股票,像债务和非债务”。He said that preferred stock is essentially a kind of equity, so-called equity is no maturity date, unless the enterprise closes down and other special reasons he can survive forever; but unlike ordinary stock, his dividend is relatively fixed, unlike ordinary dividend is determined by the profits of the enterprise in that year. He is like a non-bond because he can get a relatively fixed income every year just like a bond. But enterprises must repay the principal after the maturity of the debt, but the issue of preferred shares only needs to pay dividends every year. It is reported that the main reason for th土地仲裁法_胆小的我作文网e sharp rise in bank shares in the fourth quarter of 2014 was the preference policy, which has resulted in the large-scale issuance or planned issuance of trillions of preferred shares by banks in recent years. In recent months, ICBC, Bank of China, Industrial Development Bank and Ningbo Bank have announced 100 billion yuan, 100 billion yuan, 30 billion yuan and 10 billion yuan不锈钢锥形旗杆_workon网 preferred stock options respectively, and only these four banks have 240 billion preferred stock issuance plans. The issue of sustainable bonds was highlighted in Jin's meeting. Whether the issue of preferred shares will be significantly less after the large-scale issuance of sustainable bonds in the future, and how strong the substitution relationship between the two will be, remains to be tested by the future market. Interpretation 5: Can 9 trillion bank shares stop fallin太空英雄_中石油昆仑燃气网g and recover? This discussion on bank capital concerns the value of 9 trillion bank shares, which have fallen considerably since the beginning of December, some of which have fallen by more than 10%. WIND statistics show that the total market value of bank stocks reached 9.22 trillion yuan at the stage high on December 4, while it was only 8.68 trillion yuan at the close of December 25, falling 540 billion yuan in just 20 years. Especially after December 13, there was a relatively rapi悄无声息造句_生产技术部网d decline, when the market value was still 9.02 trillion. 据悉,在银行股本轮下跌,中国招商银行的衰落是最关心的,从7485亿的市场价值在12月4日6396亿的市场价值在12月25日下降了近1100亿元,降幅近15%。建行市值已下跌逾1000亿元,而银行股如兴业银行的市场价值,浦东发展银行和上海银行已经下降了约10%或更多。会议结束后,可持续的债务已经成为一个新的和重要的方式补充资本。对于银行股,股权融资压力有明显下降,但这是否能阻止银行股反弹的下降取决于后续市场表现。责任编辑:张银文

注:凡本网注明来源非本站的作品,均转载自其它媒体,并不代表本网赞同其观点和对其真实性负责。
本站致力于帮助文章传播,希望能够建立合作关系。
若有任何不适的联系以下方式我们将会在24小时内删除。联系方式:
Copyright © 2018 biglobe网 版权所有

https://www.c8.cn/ylsj/sckl12.htmlhttps://www.c8.cn/ylsj/sd11x5.htmlhttps://www.c8.cn/ylsj/xyft.htmlhttps://www.c8.cn/ylsj/tjssc.htmlhttps://www.c8.cn/zst/dlt/hqcs.htmlhttps://www.c8.cn/zst/dlt/chuqizs.htmlhttps://www.c8.cn/zst/dlt/chusanzs.htmlhttps://www.c8.cn/zst/dlt/tmzs.htmlhttps://www.c8.cn/zst/dlt/jozs.htmlhttps://www.c8.cn/zst/dlt/dxfb.htmlhttps://www.c8.cn/zst/qlc/tmzs.htmlhttps://www.c8.cn/zst/qlc/xslh.htmlhttps://www.c8.cn/zst/qlc/hzyl.htmlhttps://www.c8.cn/zst/pl5/dxzs.htmlhttps://www.c8.cn/zst/pl3/dxyl.htmlhttps://www.c8.cn/zst/pl3/dxfx.htmlhttps://www.c8.cn/zst/pl3/dlxzybzs.htmlhttps://www.c8.cn/zst/6cai/tmzs.htmlhttps://www.c8.cn/zst/qxc/hmfb.htmlhttps://www.c8.cn/zst/ssq/zmzs.htmlhttps://www.c8.cn/zst/ssq/chtz.htmlhttps://www.c8.cn/zst/ssq/sqzs.htmlhttps://www.c8.cn/zst/ssq/zhousizs.htmlhttps://www.c8.cn/zst/ssq/zbbzbzs.htmlhttps://www.c8.cn/zst/3d/dxjo1.htmlhttps://www.c8.cn/zst/3d/chtz.htmlhttps://www.c8.cn/zst/bjkl8/jbzs.htmlhttps://www.c8.cn/zst/62.htmlhttps://www.c8.cn/zst/61.htmlhttps://www.c8.cn/zst/lnkl12/dszs.htmlhttps://www.c8.cn/zst/57.htmlhttps://www.c8.cn/zst/cqkl10/lmtj.htmlhttps://www.c8.cn/zst/cqkl10/qhdw.htmlhttps://www.c8.cn/zst/cqkl10/jbzs.htmlhttps://www.c8.cn/zst/pk10/gyjhz.htmlhttps://www.c8.cn/zst/cqssc/zonghezs.htmlhttps://www.c8.cn/zst/cqssc/jbzs.htmlhttps://www.c8.cn/zst/15.htmlhttps://www.c8.cn/zst/26.htmlhttps://www.c8.cn/zst/23.htmlhttps://www.c8.cn/zst/22.htmlhttps://www.c8.cn/zst/gd11x5/lmtj.htmlhttps://www.c8.cn/zst/49.htmlhttps://www.c8.cn/zst/jsk3/dswzs.htmlhttps://www.c8.cn/jihua/sckl12.htmlhttp://www.c8.cn/Home/SetPasswordhttps://www.c8.cn/zst.htmlhttp://www.c8.cn/home/registerhttps://www.c8.cn/zst/dlt/hqcs.htmlhttps://www.c8.cn/zst/pl3/dlxzybzs.html