财新传媒
位置:博客 > 王川 > 文章归档 > 2016年三月
2016年03月31日 13:56

深度学习有多深?学了究竟有几分?(八)

深度学习有多深?学了究竟有几分?(八)

(1)

2009年, 一群在普林斯顿大学计算机系的华人学者, (第一作者为 Jia Deng )发表了论文 "ImageNet: A large scale hierarchical image database), 宣布建立了第一个超大型图像数据库,供计算机视觉研究者使用.

这个数据库建立之初,包含了三百二十万个图像. 它的目的, 是要把英文里的八万个名词,每个词收集五百到一千个高清图片,存放到数据库里.最终达到五千万以上的图像.

2010 年,以 ImageNet 为基础的大型图像识别竞赛, ImageNet Large Scale Visual Recognition Challenge 2010 (ILSVRC2010) 第一次举办.

竞赛最初的规则是,以数据库内一百二十万个图像为训练样本.这些图像从属于一千多......

阅读全文>>
2016年03月29日 10:52

深度学习有多深?学了究竟有几分?(七)

深度学习有多深?学了究竟有几分?(七)


    (1)

神经网络计算, 另一个常为人诟病的问题,是过度拟合 (overfitting).

一个拥有大量自由参数的模型,很容易通过调试,和训练数据吻合.但这并不意味着,这就是个好模型.

美国数学家冯纽曼 (John Von Neumann) 曾说, "给我四个参数,我的模型可以拟合一个大象. 给我五个参数, 我可以让它扭动它的鼻子."

神经网络模型的自由参数,现在往往超过一亿.如果说四个参数可以拟合一个大象的话,对于全世界总数不到一百万的大象来说,实在是游刃有余.

一个模型好坏的试金石,不在于和现有数据的拟合度, 而在于它是否可以在全新的情况和数据面前,做出正确的判......

阅读全文>>
2016年03月24日 11:16

深度学习有多深?学了究竟有几分?(六)

深度学习有多深?学了究竟有几分?(六)

(1)

计算速度和数据规模的大幅度提高,也引导出更多算法上的改进.

在网络构架上,一些算法更多地借鉴人脑认知的成功经验: 多提高效率, 少做无用功. 多闭目养神,少乱说乱动. 多关注主要矛盾, 少关心细枝末节.

2003年纽约大学神经科学中心的 Peter Lennie 在论文中指出,人脑的神经元,一般最多 1-4%的比例, 可以同时处于激活状态. 比例更高时, 大脑则无法提供相应的能量需求.

神经网络的模型中,通过所谓激励函数 (activation function), 根据上一层神经元输入值来计算输出值.

最典型的传统激励函数,sigmoid function, 输出值在 0 和 1 之间, 也就意味着神经元平均下来, 每时每刻都在使用一......

阅读全文>>
2016年03月22日 14:10

深度学习有多深? 学了究竟有几分? (五)

深度学习有多深? 学了究竟有几分? (五)

(1)

主流学术界的研究者,大多注重于在算法上的渐进式提高, 而轻视计算速度和用于训练的数据规模的重要性.

孔丘老师早在两千多年前, 就高瞻远瞩的为深度学习指明了方向: "学而不思则罔, 思而不学则殆".

用深度学习的语言来说,就是, "光有大数据,算得不快,则还是迷惘 ; 光算得快, 而没有大量的数据来训练,则还是疲倦无所得".

2007年之前, 用GPU编程,缺乏一个简单的软件接口. 编程繁琐,捉虫困难.这在 07年 Nvidia 推出 CUDA 的GPU 软件接口后才真正改善.

2009年六月, 斯坦福大学的 Rajat Raina 和吴恩达合作发表论文, "用GPU大规模无监督深度学习&quot......

阅读全文>>
2016年03月21日 13:32

深度学习有多深? 学了究竟有几分? (四)

深度学习有多深? 学了究竟有几分? (四)

(1)

九十年代末, 神经网络研究遇到的困境,除了慢,还是慢.

抛开计算速度的因素,传统神经网络的反向传播算法,捉虫时极为困难,一个根本的问题叫做所谓 vanishing gradient problem (梯度消失问题).

这个问题在1991年, 被德国学者 Sepp Hochreiter第一次清晰提出和阐明原因.

简单的说, 就是成本函数 (cost function)从输出层反向传播时, 每经过一层,梯度衰减速度极快,  学习速度变得极慢, 神经网络很容易停滞于局部最优解而无法自拔.

这就像原始部落的小混混,山中无老虎时,在本地称王称霸很舒服. 但任何关于"外面的世界很精彩"的信息, 在落后的层层传播机制中被噪音混淆淹......

阅读全文>>
2016年03月08日 14:48

深度学习有多深?学了究竟有几分(三)

深度学习有多深?学了究竟有几分(三)

本文是深度学习有多深? 学了究竟有几分?  (一)和深度学习有多深, 学了究竟有几分? (二)的续篇.

(1)

1992 年笔者在纽约州的罗切斯特大学选修计算机课的时候, 学到这样一句话, 印象极为深刻.

When in doubt, use brute force.
    "如果遇到困惑(的问题), 就使用蛮力. "

此话出自当年 UNIX 系统的发明人之一 Ken Thompson. 他的本意是, 程序设计中,简单粗暴的计算方法, 虽然可能计算量大, 但是便于实现和维护, 长期看, 还是优于一些精巧但是复杂的计算手段.

这句话常令我遐想起 1943年七月, 苏联和德国在库尔斯克的坦克大决战.......

阅读全文>>
2016年03月04日 11:44

深度学习有多深,学了究竟有几分?(二)

深度学习有多深,学了究竟有几分?(二)

这篇文章是深度学习有多深? 学了究竟有几分?  (一)的续篇.

(1)

1970年,当神经网络研究的第一个寒冬降临时,在英国的爱丁堡大学,一位二十三岁的年轻人, Geoffrey Hinton, 刚刚获得心理学的学士学位.

Hinton 六十年代还是中学生时,就对脑科学着迷.当时一个同学给他介绍关于大脑记忆的理论是:

大脑对于事物和概念的记忆, 不是存储在某个单一的地点,而是像全息照片一样, 分布式地, 存在于一个巨大的神经元的网络里.

分布式表征 (Distributed Representation), 是神经网络研究的一个核心思想.

它的意思是,当你表达一个概念的时候,不是用......

阅读全文>>