真应了《笑傲江湖》里那句：“有人的地方就会有江湖，有江湖就有恩怨。”只是这次的江湖和恩怨都源自人工智能而不是人。今年1月中旬，纽约大学教授马库斯发表一篇万字长文，以问答形式，分14个问题回应那些对他的观点表示质疑的人，其中涉及纽约大学教授、脸书首席AI科学家杨立昆、AAAI前主席托马斯·迪特里奇，魁北克大学教授、谷歌的数学博士等也卷入了论战中。这不是论战的第一回合，1月初，马库斯就提出了自己关于深度学习的十大观点，引得杨立昆直摆手：他说的都不对。

究竟是什么样的争议让AI界的大神们辩论火力如此密集，连战数日，费劲口舌、逐字力争呢？

机器学习和深度学习变得越来越火。突然之间，不管是了解的还是不了解的，所有人都在谈论机器学习和深度学习。无论你是否主动关注过数据科学，你应该已经听说过这两个名词了。为了展示他们的火热程度，我在 Google trend 上搜索了这些关键字：如果你想让自己弄清楚机器学习和深度学习的区别，请阅读本篇文章，我将用通俗易懂的语言为你介绍他们之间的差别。下文详细解释了机器学习和深度学习中的术语。并且，我比较了他们两者的不同，别说明了他们各自的使用场景。

什么是机器学习和深度学习?

让我们从基础知识开始：什么是机器学习？和什么是深度学习？如果你对此已有所了解，随时可以跳过本部分。

什么是机器学习？

一言以蔽之，由 Tom Mitchell 给出的被广泛引用的机器学习的定义给出了最佳解释。下面是其中的内容： “计算机程序可以在给定某种类别的任务 T 和性能度量 P 下学习经验 E ，如果其在任务 T 中的性能恰好可以用 P 度量，则随着经验 E 而提高。” 是不是读起来很绕口呢？让我们用简单的例子来分解下这个描述。 示例 1：机器学习和根据人的身高估算体重 假设你想创建一个能够根据人的身高估算体重的系统（也许你出自某些理由对这件事情感兴趣）。那么你可以使用机器学习去找出任何可能的错误和数据捕获中的错误，首先你需要收集一些数据，让我们来看看你的数据是什么样子的：图中的每一个点对应一个数据，我们可以画出一条简单的斜线来预测基于身高的体重。

什么是深度学习?

“深度学习是一种特殊的机器学习，通过学习将世界使用嵌套的概念层次来表示并实现巨大的功能和灵活性，其中每个概念都定义为与简单概念相关联，而更为抽象的表示则以较不抽象的方式来计算。” 这也有点让人混乱。下面使用一个简单示例来分解下此概念。 示例: 猫 vs. 狗 我们举一个动物辨识的例子，其中我们的系统必须识别给定的图像中的动物是猫还是狗。阅读下此文，以了解深度学习在解决此类问题上如何比机器学习领先一步。 1.模式识别、机器学习、深度学习的区别与联系 模式识别：过去、程序/机器做智能的事、决策树等机器学习：热点领域、给数据+学习数据深度学习：前言领域、强调模型 2.早年神经网络被淘汰的原因 耗时、局部最优、竞争对手、over-fitting、参数 3.深度学习的实质及其与浅层学习的区别 深度学习实质：多隐层+海量数据——>学习有用特征—–>提高分类或预测准确性区别：（1）DL强调模型深度（2）DL突出特征学习的重要性：特征变换+非人工 4.神经网络的发展（背景之类的） MP模型+sgn—->单层感知机（只能线性）+sgn— Minsky 低谷 —>多层感知机+BP+sigmoid—- (低谷) —>深度学习+pre-training+ReLU/sigmoid 5.DL解决过拟合的方法 数据扩容、dropout技术 6.介绍dropout技术 修改神经网络本身来避免过拟合、训练网络的一种trike。步骤：repeat { 随机‘删除’+BP获权值} 为何会避免过拟合：训练多个“半数网络”，随着训练的进行，大部分正确，小部分错误（不影响） 7.推导BP算法 http://blog.csdn.net/hungryof/article/details/50436231 8.BP算法为什么不能适应于深度学习 BP为传统多层感知机的训练方法，<=5层> （1）梯度越来越稀疏（梯度扩散<—-非凸目标函数）（2）局部最小=””> NOTE：解决其中局部最小值的方法：（1）多组不同随机参数，取最好参数（2）启发式优化算法：模拟退火或遗传（3）随机梯度下降 9.深度学习与传统神经网络之间的区别与联系 联系：分层结构区别：训练机制（初始值） 10.介绍DNN（原理和应用） DNN：深度神经网络，广义上包含CNN，DBN，RNN等优点：层数多，抽象能力强，模拟更复杂模型应用：图像处理、语音识别、文本分类。。。 11.什么是深度学习、深度学习的训练过程是什么 无监督预训练(Layerwise Pre-Training)+有监督微调（fine-tune）过程：（1）自下而上非监督学习特征（2）自顶向下有监督微调 12.深度学习常用方法 全连接DNN（相邻层相互连接、层内无连接）： AutoEncoder(尽可能还原输入)、Sparse Coding（在AE上加入L1规范）、RBM（解决概率问题）—–>特征探测器——>栈式叠加贪心训练 RBM—->DBN 解决全连接DNN的全连接问题—–>CNN 解决全连接DNN的无法对时间序列上变化进行建模的问题—–>RNN—解决时间轴上的梯度消失问题——->LSTM 13.RBM用途 （1）编码、降维（2）得到权重矩阵和偏移量，供BP网络初始化训练（3）可作为生成模型使用（4）可作为判别模型使用 14.介绍DBN DBN是一个概率生成模型。组成：多个RBM+BP网络训练过程：（1）无监督训练每一层RBM网络、特征向量映射到不同特征空间、尽可能保留特征信息（贪心算法）（2）DBN最后一层设置为BP网络，有监督微调 RBM训练可以看作对一个深层BP网络的网络权值参数的初始化—->克服容易局部最优+训练时间长优点：不用人工选取特征缺点：（1）有标签样本集（2）学习过程慢（3）参数不当可能导致局部最优公式推导： http://blog.csdn.net/app_12062011/article/details/54313082 15.介绍CNN 重点：局部感受域、权值共享组成：卷基层、子采样层（池化层）训练过程：不同小随机数初始参数—->repeat{ 前向传播（特征提取层C层—->特征映射层S层） + 后向传播 } 广义上的优点：（1）识别位移、缩放及其他形式扭曲不变性的二维图形（2）隐式从训练数据中学习特征（3）同一特征映射面的神经元权值相同—–>课并行学习（4）局部权值共享—->在语音识别、图像处理方面有优势、更接近实际生物神经网络、降低网络复杂性、避免特征提取和分类过程中的数据重建复杂度较一般神经网络在图像处理方面的优点：（1）图像和网络拓扑更好吻合（2）特征提取和模式分类同时进行，并同时在训练中产生（3）权值共享—–>减少参数、结构简单、适应性更强应用：语音分析、图像识别等

上进心的男生是有魅力的。不论是学习还是之后工作，有上进心的男生都是发光哒。

科普-机器学习、深度学习、神经网络、深度神经网络之间有何区别？

究竟是什么样的争议让AI界的大神们辩论火力如此密集，连战数日，费劲口舌、逐字力争呢？

什么是机器学习和深度学习?

什么是机器学习？

什么是深度学习?