(1)
RNN 和 LSTM 发挥威力的重要应用之一, 是语音识别.
一直到2009年之前, 主流的语音识别技术, 依靠的是统计学上的两个算法模型, 高斯混合模型 (Gaussian Mixture Model)和隐藏马尔科夫模型 (Hidden Markov Model).
马尔科夫模型, 是一个概率的模型. 其核心思想, 就是一个系统, 下一个时间点的状态, 只取决于当前的状态, 而和更早的时间点 (昨天, 前天, 大前天)的状态无关.
这么一个简单的概念,被俄国数学家马尔科夫老师最早系统性的提出, 所以他的大名也随着该模型的推广而传遍世界. 由此可见, 在学术界出名, 开创性的研究至关重要, 即使概念简单也没有关系. 从另外一个角度看, 正是这个简单的基本架构, 才可以衍生出更多复杂精巧的计算模型.
但生活中的很多系统,比马尔科夫模型更加复杂.一个靠买彩票而发财的百万富翁, 和一个白手起家打拼十几年历经坎坷的百万富翁,虽然银行里都有一百万,用马尔科夫模型来看没有区别.但过去的历史不一样,未来的路径和风险实际上差别极大.
(2)
高斯混合模型, 就是把现实中的数据, 分解成一些基于高斯概率密度函数 (又称正态分布)的叠加.
简而言之, GMM-HMM 就是用概率上的算法, 来猜测语音对应的文字.
实践上 GMM-HMM的算法 一直到 2009年, 都是错误率最低的算法. 但即使如此, 对大多数基准测试, 其单词识别错误率 (Word Error Rate) 一直接近 30%甚至更高.
这颇有点像2012年之前, 支持向量机 (SVM) 的技术在图像识别领域的地位.
高斯混合模型的硬伤, 是在部分应用场景中, 试图用过于复杂的统计模型,拟合本质上很简单的数据.
一个人有了锤子, 世界上所有问题都开始像个钉子. 有了正态分布函数, 人们的冲动是把所有的数据分析, 都用此函数估算一个几率, 给自己一种虚假的安全感. 这在金融界, 用高杠杆的对冲基金和投行, 尤为风行.
一个极端的反例, 是每天早上被主人喂养的火鸡. 喂养了三百多天后,火鸡用正态分布函数, 估计第二天仍然会被幸福地喂养的概率, 几乎是百分之百.
然后感恩节到了.
新生代的火鸡, 看到的都是老火鸡饱食终日的幸福生活, 没有看到或者选择性地忘记感恩节那个血腥的日子.
他们对历史, 根本就没有记忆, 更谈不上什么长短期记忆 (LSTM) 了, 所以历史注定依然会重演.
(3)
邓力, 中国科技大学生物系78级的校友, 郭沫若奖学金 (科大学霸的最高荣誉) 获得者. 他八十年代就开始做语音识别方面的研究, 1989年在威斯康辛大学麦迪逊分校获得博士学位. 在加拿大的滑铁卢大学做了十年教授后, 1999年到微软研究院工作.
九十年代初期, 研究者们曾经试图把神经网络的技术用于语音识别. 但受当时计算速度和算法的限制, 只有一两个隐层的神经网络, 在效果上完全无法挑战 GMM-HMM.
此前曾撰文提及 2006年 Hinton 教授发表的关于"深信度网络"的论文.
2009年, Hinton 和他的研究生, Ahmed-Rahman Mohamed 和 George Dahl, 合作发表论文, "Deep Belief Network for Phone Recognition" (深信度网络用于电话语音识别), 在一个叫做 TIMIT 的标准测试上, 识别错误率降到了 23%, 超过了当时其它所有算法的技术水平.
Hinton 和邓力早在九十年代初就有联络与合作. Hinton 和他的研究生, 2009年被邀请来微软合作研究, 把深度学习的最新成就应用到语音识别上.
(未完待续)
0
推荐