more >>再有一个月2019年就要过去了,这一年里好像什么都发生了,又好像什么都没改变。
我的生活在发生着什么呢?大概…..我变得喜欢听汪峰、Adele、还有Johnny Cash的歌;我变得会望着车窗外飞逝的光景没来由地泪湿眼眶;我变得越来越喜欢仰望天空;我变得越来越不敢在深夜推演公式。
各种ddl日常砸脸,论文也是毫无头绪,也做不出理想的实验数据;但最难的其实是生活,作为一个人去生活。
more >>来自OpenAI Spinning Up Introduction to RL
简而言之,RL是研究agent(智能体,本文保留英文描述)如何通过反复的尝试来学习。我们通过奖励或惩罚agent的行为,使其在未来能以更高的概率去重复或放弃该行为。
more >>Abstract
无监督的GAN和强化学习的actor-critic方法在优化困难方面声名显著。这两个领域的研究人员积累了大量的缓解不稳定和改善训练情况的策略。这里我们展示了GAN可以看作是一个特定环境中的actor-critic方法,在这个环境中actor无法影响奖励。我们对这两类模型稳定训练方法做了综述,不仅包括可以同时对二者使用的方法,还包括只针对特定模型的方法。我们也对一系列信息流更复杂的GAN和RL算法进行了综述。我们希望强调二者之间的联系来激励GAN和RL两个领域开发出通用,可扩展以及稳定的算法。
more >>当我们创建一个神经网络时,我们必须选择weights和biases的初始化方式。我们目前的方式是让weights和biases都使用独立的高斯随机初始化,标准化为均值0,标准差1。这种方式工作得挺好,也挺特别,如果我们回头审视下它,也许能找到设置weights和biase更好的方式,帮助我们的神经网络学得更快。
more >>题意
有$n(1\leq n\leq 10^5)$个盒子,每个盒子有$a_i(0\leq a_i \leq 1)$个糖果,你每一次可以将第$i$个盒子里的糖果放到第$i-1$或$i+1$个盒子中(如果盒子存在)。最后要使每个盒子的糖果数量都整除$k(k>1)$(注意盒子可以为空),问最小操作数。
tag:
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true