财新传媒
位置:博客 > 王川 > 文章归档 > 2016年九月
2016年09月23日 14:31

深度学习有多深?(二十五)从突围看宠辱不惊

深度学习有多深?(二十五)从突围看宠辱不惊

(1)

Deepmind 的  DQN 在 Atari 的七个不同的游戏 (Beam Rider, Breakout, Enduro, Pong, Q*bert, Seaquest, Space Invaders) 中,有六个游戏的最高得分都超过了人类的最好玩家.

最出乎人们意料的是程序在 Breakout (突围)游戏中的表现.

刚开始, 不了解游戏规则的程序,表现得像个无头苍蝇,老是漏球.

经过10分钟的训练后,慢慢懂得要用板子击球,才可以得分.

经过120分钟的训练后,程序可以迅速准确击球,表现得有点专家的味道了.

经过240分钟的训练后,程序发现了一个获得高分的捷径:

不断用板子击球到最左边,连续数次后左边的几层砖头全部击倒打通,随后击球就可以经过这......

阅读全文>>
2016年09月18日 14:21

深度学习有多深?(二十四)乔布斯和Deepmind的突围

深度学习有多深?(二十四)乔布斯和Deepmind的突围

(1)

游戏公司 Atari 在1977年推出的 Breakout (突围)电脑游戏,主要开发者是苹果公司的创始人之一, Steve Wozniak. 乔布斯的角色是 Atari 和 Wozniak 中间的掮客.

Atari 起先告诉乔布斯,游戏如果四天内开发出来,将支付 700 美元的报酬。乔布斯许诺和 Wozniak 平分这笔钱。但Wozniak 不知道的是, Atari 还承诺如果此游戏在逻辑芯片的需求上低于某个指标,将给予更多的奖励.

最终Wozniak 连续四天挑灯夜战只拿到了 350 美元 的报酬, 而乔布斯则独吞了从  Atari 那里获得的五千美元的额外奖励。等Wozniak 知道真相时,已经是1984年,苹果上市四年了.

"突围" 游戏的规则很简单......

阅读全文>>
2016年09月14日 15:21

深度学习有多深(二十三)——经历的回放

深度学习有多深(二十三)——经历的回放

(1)

在增强学习领域,经历 (experience) 是指四个参数的集合, (x, a, y, r) 表示在状态 x, 做了 a, 进入了新的状态 y, 获得了回报 r. 教训 (lesson) 则是指一个时间序列的经历的集合.

经历回放 (experience replay) 的概念由 Long Ji Lin 在 1993年的博士论文里第一次提出.

"经历回放" 的第一个好处是更有效率。经验教训,尤其是有重大损失的经验教训,是昂贵的,如果把它存储到记忆里,可以日后反复调用学习,那么学习效率就会大大提高, 不用吃二遍苦,受二茬罪.

这就是俗话说的, “吃一堑,长一智”.

这实际上和我以前文章里,介绍过的神经网络的“长短期记忆” (Lon......

阅读全文>>
2016年09月12日 14:03

深度学习有多深?(二十二)发散的大脑

深度学习有多深?(二十二)发散的大脑

(1)

在用神经网络计算拟合最优价值函数 (最大利益)的实践中,最大的挑战,就是神经网络的参数无法收敛到最优值,无法求解. 换句话说,神经网络的参数变得发散 (Divergent).

传统的‘发散思维’一词,指某人思维活跃有想象力. 但是神经网络的参数发散,在这里就对应于大脑无所适从,精神错乱了。

这个问题的第一个原因是, 增强学习在和环境互动的过程中, 获得的数据都是高度相关的连续数列。当神经网络依靠这些数据来优化时,存在严重的样本偏差。

打个比方,当一个交易员短暂的成长过程中,恰好遇到牛市,那么他的世界观就是“涨,涨,涨”, 逢跌就买入, 英文又称 "Buy the......

阅读全文>>
2016年09月06日 11:44

深度学习有多深(二十一)双陆棋和神经网络

深度学习有多深(二十一)双陆棋和神经网络

(1)

所有没有成熟的新理论,新技术出现之初,学术界都会有两派:

好派 (人工智能,增强学习就是好, 就是好!)
    和
P 派 (人工智能,增强学习好个 P,  好个 P ! )

P 派对增强学习理论最为诟病之处:不实用,然并卵.

迄今为止关于各种算法的讨论,都离不开一个核心概念: 价值函数.

简单说,在贝尔曼方程里面,价值函数就是目前状态的理论最大值。(参见这篇老文章 王川: 深度学习有多深? (十九) -- 维度的诅咒和蒙特-卡洛模拟)

在漂亮的公式背后,如何求解价值函数,是个大问题。早期教科书里的简单例子中,价值函数就是一个表格. 每个状态,表格里对......

阅读全文>>