财新传媒
2016年05月12日 16:43

深度学习有多深?学了究竟有几分?(十二)

深度学习有多深?学了究竟有几分?(十二)

(1)

RNN 和 LSTM 发挥威力的重要应用之一, 是语音识别.

一直到2009年之前, 主流的语音识别技术, 依靠的是统计学上的两个算法模型, 高斯混合模型 (Gaussian Mixture Model)和隐藏马尔科夫模型 (Hidden Markov Model).

马尔科夫模型, 是一个概率的模型. 其核心思想, 就是一个系统, 下一个时间点的状态, 只取决于当前的状态, 而和更早的时间点 (昨天, 前天, 大前天)的状态无关.

这么一个简单的概念,被俄国数学家马尔科夫老师最早系统性的提出, 所以他的大名也随着该模型的推广而传遍世界. 由此可见, 在学术界出名, 开创性的研究至关重要, 即使概念简单也没有关系.  从另外一个角度看......

阅读全文>>
2016年05月04日 15:37

深度学习有多深? 学了究竟有几分? (十一)

深度学习有多深? 学了究竟有几分? (十一)

(1)

迄今为止我们讨论的神经网络模型, 都属于一种叫做前馈网络 (feedforward network) 的东西. 简而言之, 前馈网络, 信息从底层不断往前单向传输,故而得名.

RNN (Recurrent Neural Network), 也称循环神经网络, 多层反馈神经网络, 则是另一类非常重要的神经网络.

本质上, RNN 和前馈网络的区别是, 它可以保留一个内存状态的记忆, 来处理一个序列的输入, 这对手写字的识别, 语音识别和自然语言处理上, 尤为重要.

在分析一段语句时, 知道上文, 知道它前面的那些单词,非常关键. RNN 之所以叫 Recurrent (循环), 是因为对于一个序列的每个元素, 它都要做同样的处理, 通过一个内存原件记住当前状态, 然后将其引......

阅读全文>>
2016年04月21日 11:35

深度学习有多深?学了究竟有几分?(十)

深度学习有多深?学了究竟有几分?(十)

(1)

2013 年的 ImageNet 竞赛, 获胜的团队是来自纽约大学的研究生 Matt Zeiler, 其图像识别模型 top 5 的错误率, 降到了 11.5%.

Zeiler 的模型共有六千五百万个自由参数, 在 Nvidia 的GPU 上运行了整整十天才完成训练.

2014年, 竞赛第一名是来自牛津大学的 VGG 团队, top 5 错误率降到了 7.4%.

VGG的模型使用了十九层卷积神经网络, 一点四亿个自由参数, 在四个 Nvidia 的 GPU 上运行了将近三周才完成培训.

如何继续提高模型的识别能力? 是不断增加网络的深度和参数数目就可以简单解决的吗?

(2)

来自微软亚洲研究院的何恺明和孙健 (Jian Sun, 音译),......

阅读全文>>
2016年04月19日 15:24

深度学习有多深?学了究竟有几分?(九)

深度学习有多深?学了究竟有几分?(九)

(1)

2012年神经网络模型在ImageNet 竞赛中的突破,引起了工业界强大的兴趣.

Hinton 教授和他的两个研究生, Alex Krizhevsky 和 Ilya Sutskever, 2012 年底成立了一个名叫 DNNresearch (深度神经网络研究)的公司, 三个月后就被谷歌以五百万美元收购. Hinton 从此一半时间留在多伦多大学,另外一半时间在硅谷. 另外两位研究生则成为谷歌的全职雇员.

原来在纽约大学教书的杨立昆 (Yann LeCun), 2013 年底被脸书聘请为其人工智能研究院的总管.

曾在斯坦福大学和谷歌工作的吴恩达 (Andrew Ng), 2012年创立了网上教育公司 Coursera, 2014年五月被百度聘任为首席科学家, 负责百度大脑的计划.

对......

阅读全文>>
2016年04月06日 16:02

人工智能和深度学习(一)

人工智能和深度学习(一)

(1)

2016 年一月底,人工智能的研究领域,发生了两件大事。

先是一月二十四号,MIT 的教授,人工智能研究的先驱者,Marvin Minsky 去世,享年89岁。

三天之后,谷歌在自然杂志上正式公开发表论文,宣布其以深度学习技术为基础的电脑程序 AlphaGo,在2015年十月,连续五局击败欧洲冠军职业二段樊辉。

这是第一次机器击败职业围棋选手。距离97年IBM电脑击败国际象棋世界冠军,一晃近二十年了。

极具讽刺意义的是,Minsky 教授一直不看好深度学习的概念。他曾在1969年出版了 Perceptron (感知器) 一书,指出了神经网络技术 (就是深度学习的前身)的局限性。 这本书直接导致了神经网络研究的将近二......

阅读全文>>
2016年03月31日 13:56

深度学习有多深?学了究竟有几分?(八)

深度学习有多深?学了究竟有几分?(八)

(1)

2009年, 一群在普林斯顿大学计算机系的华人学者, (第一作者为 Jia Deng )发表了论文 "ImageNet: A large scale hierarchical image database), 宣布建立了第一个超大型图像数据库,供计算机视觉研究者使用.

这个数据库建立之初,包含了三百二十万个图像. 它的目的, 是要把英文里的八万个名词,每个词收集五百到一千个高清图片,存放到数据库里.最终达到五千万以上的图像.

2010 年,以 ImageNet 为基础的大型图像识别竞赛, ImageNet Large Scale Visual Recognition Challenge 2010 (ILSVRC2010) 第一次举办.

竞赛最初的规则是,以数据库内一百二十万个图像为训练样本.这些图像从属于一千多......

阅读全文>>
2016年03月29日 10:52

深度学习有多深?学了究竟有几分?(七)

深度学习有多深?学了究竟有几分?(七)


    (1)

神经网络计算, 另一个常为人诟病的问题,是过度拟合 (overfitting).

一个拥有大量自由参数的模型,很容易通过调试,和训练数据吻合.但这并不意味着,这就是个好模型.

美国数学家冯纽曼 (John Von Neumann) 曾说, "给我四个参数,我的模型可以拟合一个大象. 给我五个参数, 我可以让它扭动它的鼻子."

神经网络模型的自由参数,现在往往超过一亿.如果说四个参数可以拟合一个大象的话,对于全世界总数不到一百万的大象来说,实在是游刃有余.

一个模型好坏的试金石,不在于和现有数据的拟合度, 而在于它是否可以在全新的情况和数据面前,做出正确的判......

阅读全文>>
2016年03月24日 11:16

深度学习有多深?学了究竟有几分?(六)

深度学习有多深?学了究竟有几分?(六)

(1)

计算速度和数据规模的大幅度提高,也引导出更多算法上的改进.

在网络构架上,一些算法更多地借鉴人脑认知的成功经验: 多提高效率, 少做无用功. 多闭目养神,少乱说乱动. 多关注主要矛盾, 少关心细枝末节.

2003年纽约大学神经科学中心的 Peter Lennie 在论文中指出,人脑的神经元,一般最多 1-4%的比例, 可以同时处于激活状态. 比例更高时, 大脑则无法提供相应的能量需求.

神经网络的模型中,通过所谓激励函数 (activation function), 根据上一层神经元输入值来计算输出值.

最典型的传统激励函数,sigmoid function, 输出值在 0 和 1 之间, 也就意味着神经元平均下来, 每时每刻都在使用一......

阅读全文>>
2016年03月22日 14:10

深度学习有多深? 学了究竟有几分? (五)

深度学习有多深? 学了究竟有几分? (五)

(1)

主流学术界的研究者,大多注重于在算法上的渐进式提高, 而轻视计算速度和用于训练的数据规模的重要性.

孔丘老师早在两千多年前, 就高瞻远瞩的为深度学习指明了方向: "学而不思则罔, 思而不学则殆".

用深度学习的语言来说,就是, "光有大数据,算得不快,则还是迷惘 ; 光算得快, 而没有大量的数据来训练,则还是疲倦无所得".

2007年之前, 用GPU编程,缺乏一个简单的软件接口. 编程繁琐,捉虫困难.这在 07年 Nvidia 推出 CUDA 的GPU 软件接口后才真正改善.

2009年六月, 斯坦福大学的 Rajat Raina 和吴恩达合作发表论文, "用GPU大规模无监督深度学习&quot......

阅读全文>>
2016年03月21日 13:32

深度学习有多深? 学了究竟有几分? (四)

深度学习有多深? 学了究竟有几分? (四)

(1)

九十年代末, 神经网络研究遇到的困境,除了慢,还是慢.

抛开计算速度的因素,传统神经网络的反向传播算法,捉虫时极为困难,一个根本的问题叫做所谓 vanishing gradient problem (梯度消失问题).

这个问题在1991年, 被德国学者 Sepp Hochreiter第一次清晰提出和阐明原因.

简单的说, 就是成本函数 (cost function)从输出层反向传播时, 每经过一层,梯度衰减速度极快,  学习速度变得极慢, 神经网络很容易停滞于局部最优解而无法自拔.

这就像原始部落的小混混,山中无老虎时,在本地称王称霸很舒服. 但任何关于"外面的世界很精彩"的信息, 在落后的层层传播机制中被噪音混淆淹......

阅读全文>>
2016年03月08日 14:48

深度学习有多深?学了究竟有几分(三)

深度学习有多深?学了究竟有几分(三)

本文是深度学习有多深? 学了究竟有几分?  (一)和深度学习有多深, 学了究竟有几分? (二)的续篇.

(1)

1992 年笔者在纽约州的罗切斯特大学选修计算机课的时候, 学到这样一句话, 印象极为深刻.

When in doubt, use brute force.
    "如果遇到困惑(的问题), 就使用蛮力. "

此话出自当年 UNIX 系统的发明人之一 Ken Thompson. 他的本意是, 程序设计中,简单粗暴的计算方法, 虽然可能计算量大, 但是便于实现和维护, 长期看, 还是优于一些精巧但是复杂的计算手段.

这句话常令我遐想起 1943年七月, 苏联和德国在库尔斯克的坦克大决战.......

阅读全文>>
2016年03月04日 11:44

深度学习有多深,学了究竟有几分?(二)

深度学习有多深,学了究竟有几分?(二)

这篇文章是深度学习有多深? 学了究竟有几分?  (一)的续篇.

(1)

1970年,当神经网络研究的第一个寒冬降临时,在英国的爱丁堡大学,一位二十三岁的年轻人, Geoffrey Hinton, 刚刚获得心理学的学士学位.

Hinton 六十年代还是中学生时,就对脑科学着迷.当时一个同学给他介绍关于大脑记忆的理论是:

大脑对于事物和概念的记忆, 不是存储在某个单一的地点,而是像全息照片一样, 分布式地, 存在于一个巨大的神经元的网络里.

分布式表征 (Distributed Representation), 是神经网络研究的一个核心思想.

它的意思是,当你表达一个概念的时候,不是用......

阅读全文>>
2016年02月17日 13:18

深度学习有多深?学了究竟有几分?(一)

深度学习有多深?学了究竟有几分?(一)

(1)

2016 年一月底,人工智能的研究领域,发生了两件大事.

先是一月二十四号,MIT 的教授,人工智能研究的先驱者,Marvin Minsky 去世,享年89岁.

三天之后,谷歌在自然杂志上正式公开发表论文,宣布其以深度学习技术为基础的电脑程序 AlphaGo, 在2015年十月,连续五局击败欧洲冠军,职业二段樊辉.

这是第一次机器击败职业围棋选手. 距离97年IBM电脑击败国际象棋世界冠军,一晃近二十年了.

极具讽刺意义的是, Minsky 教授,一直不看好深度学习的概念. 他曾在1969年出版了 Perceptron (感知器) 一书,指出了神经网络技术 (就是深度学习的前身)的局限性. 这本书直接导致了神经网络研究的将近二十年的长......

阅读全文>>
2016年02月15日 09:14

亚马逊的云服务将吞噬美国的IT产业吗?(下)

亚马逊的云服务将吞噬美国的IT产业吗?(下)

本文是《亚马逊的云服务将吞噬美国的IT 产业吗? (上)》和《亚马逊的云服务将吞噬美国的IT 产业吗? (中)》的续篇。

(1)

云服务市场里, AWS 的最大的优势,在于其市场的领先地位和先发优势。

云服务把资金投入的风险从客户转移到服务商那里。建造一个全球化的数据中心,功能全面的软件系统,稳定可靠的运营纪录,贴心的客户支持,需要几十亿美元量级的资金投入,和长期的积累。

据亚马逊内部数据, AWS 现在每一天增加的服务器数目,足够承载2004年整个亚马逊公司的计算需求.

这不是阿猫阿狗,拿几千万美元风险投资,就可以一两年内做成的事.

后发者还必须有足够多的资金,忍受......

阅读全文>>
2016年02月03日 11:24

亚马逊的云服务将吞噬美国的IT产业吗?(中)

亚马逊的云服务将吞噬美国的IT产业吗?(中)

本文是《亚马逊的云服务将吞噬美国的 IT 产业吗? (上)》的续篇。


(1)

传统公司的 IT 业务通常是这样搭建的:

需要存储设备的解决方案,从 EMC那里买;
   需要服务器,找 Dell, HP 或者IBM 购买;
   需要网络硬件,从思科(Cisco)那里买;
   需要数据库软件,从甲骨文 (Oracle) 那里买.

当新兴互联网公司扩展自己的 IT业务时,他们发现传统解决方案太昂贵了,而且无法迅速扩展到他们需要的规模.

以亚马逊和谷歌为代表的互联网巨头,决定另起炉灶。他们搭建自己的服务器,自己的存储硬件......

阅读全文>>
2016年01月25日 14:12

亚马逊的云服务将吞噬美国的IT产业吗? (上)

(1)

2015年十一月,在纽约举行的Dealbook 投资大会,著名对冲基金经理Stanley Druckenmiller, 发言谈到了IBM.   (Druckenmiller 曾为索罗斯的副手,1992年亲自操盘卖空英镑,帮助索罗斯获利十亿美元.)

Druckenmiller 说,“如果你今天开一个公司,你不需要一个技术部,你不需要后台支持,你可以用AWS (亚马逊的云服务)。顺便跟你说,AWS可以把10-15个IBM 的顾问撕成碎片。(这些顾问)你以前需要,现在不需要了,因为你用云计算。”

一年前曾写文《小鲜肉在价值投资中常遇的陷阱——为什么你现在不要买便宜的IBM股票》。

2015年一月初时,IBM的股票价格接近 160美元。2016年一......

阅读全文>>
2016年01月15日 09:22

集装箱震撼世界

集装箱震撼世界

(配图为推动集装箱商业化的企业家 Malcom McLean)

(1)

1956年四月二十六日,美国新泽西州的纽沃克港,在一百多名嘉宾的注目下,起重机把五十八个集装箱(也叫货柜)依次装载到名叫Ideal-X 的货轮上。这艘货轮,隶属卡车司机出身的企业家Malcom McLean.  一个货柜的装载不到七分钟完成,几个小时后,轮船驶离港口,五天后抵达南部的休斯顿港。集装箱引领的世界革命悄然开始了.

集装箱普及之前,大部分货物都是零散地用人工从船上装货,卸货。即使更多的叉车和机械装置引进,码头工人的日常生活仍然是艰辛和危险的。五十年代初纽约的统计数字显示,工人伤......

阅读全文>>
2016年01月06日 09:50

为什么软件正在吞噬世界(一)

  软件正在吞噬世界。 Software is eating the world。
  这句话最初来自于风险投资家,原网景创始人Marc Andreessen,2011年八月在华尔街日报上发表的文章。产业被吞噬,意味着被边缘化,利润微薄,生存艰难。
  让我们先看看2015年科技界那些软件和硬件公司。
  (1)
  2015 年最后一天,美国股市市值前六名的公司依次是:苹果,谷歌,微软,巴菲特的Berkshire Hathaway, 埃克森美孚石油公司和亚马逊. 它们的市值在三千亿美元到六千亿美元之间.
  这里面的苹果,谷歌,微软和亚马逊,本质上都是软件公司。有的人会说苹果是卖硬件的,但苹果的iTunes,iCloud,AppSto......
阅读全文>>
2015年12月22日 10:21

我和苹果公司,一个不得不说的故事

我和苹果公司,一个不得不说的故事

我和苹果公司的故事,是一个将近二十年的黑色幽默,是一个巨大的讽刺,是一个关于确认偏见的悲剧.

如果我把结果告诉你,可能你不相信,但是,每一个局部细节,又是那样的自然真实.

所谓确认偏见,就是当你对某一个事物有成见的时候,你会有意无意地忽略所有对你不利的证据。而任何对你有利的证据,都会被你放大,而加强你的偏见。确认偏见,是人在大脑深处根深蒂固的思维模式,如果不强迫自己兼听则明,其后果可能是灾难性的.

(1)

苹果总部所在的Cupertino市, 中文译为‘库比蒂诺’,也有人戏称为‘裤破体露’。这里有着硅谷最好的学区之一,早......

阅读全文>>
2015年12月11日 09:58

为什么石油在2025年之前会永久性跌破20美元一桶,而一去不复返

为什么石油在2025年之前会永久性跌破20美元一桶,而一去不复返

你没有看错,我预测油价在2025年或之前会有很大可能跌破20美元一桶,而且将一跌不复返。

(1)

2014年十一月,我曾预测,能源长期看将会变成免费的, 主要是因为太阳能和电池价格的下降和普及. (旧文《为什么你要卖掉所有的能源投资》)

2014年十二月中旬,我的另外一篇文章,继续预测油价会长期低迷 (《无节操无下限的油价,和相关的连锁反应》)

2015 年六月,我发表了这篇文章  ( 《2017年, 特斯拉将敲响石油工业的丧钟》)

我的三篇文章当时都收到了不少人卖力的,极为难听的痛......

阅读全文>>