深度学习=深度+学习
深度学习=深度+学习
学习新的知识,我往往喜欢由点及面梳理其发展脉络,这有助于我构建一个知识体系,并不断向其中添加细节。
(一)什么是深度学习
谈梯度下降之前,我们可以给深度学习下一个粗暴的定义。尽管深度学习本身颇复杂,但从整体来看,深度学习本质上就是一个高阶数学方程,用复杂的非线性的函数去拟合任何可解决的问题的数学函数形式。
(二)深度学习 = 深度 + 学习
深度,体现在相较于早期的神经网络,现有网络层数的不断加深。
学习,就是不断调整这个数学方程的所有参数,以期找到解决问题的最优参数设置。
深度学习中,深度用于提高数学方程的拟合潜力,学习即最优化该方程的拟合效果。
(三)历史发展
化繁为简,也当由浅及深。下面简要介绍一下深度学习的发展历史,特别是其关键节点。
早期发展阶段1940s-1950s
- 人工神经网络的概念:最初的想法可以追溯到麦卡洛克和皮茨(McCulloch and Pitts)在1943年提出的神经元模型,尝试模拟人脑的神经元行为。
- 感知器模型:1958年,弗兰克·罗森布拉特(Frank Rosenblatt)提出了感知器,这是一个简单的神经网络模型,可以进行线性分类。
这一时期完成了对神经网络的数学建模,但未能解决神经网络的非线性拟合问题。
中期发展阶段1960s-1980s
- 多层神经网络和反向传播:在1986年,Rumelhart、Hinton 和 Williams 发表了一篇重要的论文,介绍了反向传播算法,这是训练多层神经网络的关键技术。
- 神经网络的低潮期:由于计算能力的限制和缺乏有效的训练算法,神经网络在这段时间里逐渐失去关注,进入了所谓的“人工智能冬天”。
这一时期,主要解决了深度学习进行优化的数学问题,但受限于算力和数据集规模。
现代发展阶段1990s-2000s
- 支持向量机和其他机器学习方法的兴起:在这个时期,支持向量机(SVM)等其他机器学习方法成为主流。
- 初步的卷积神经网络应用:Yann LeCun在1990年代对卷积神经网络(CNN)进行了研究,并应用于手写数字识别任务(如MNIST数据集)。
这一时期得益于算力提升、数据集体量的扩展还有工具链的完善,深度学习领域得到了前所未有的关注和发展。
理论研究上,激活函数研究和基础模型的研究提高了模型的非线性拟合能力,ResNet等研究解决了模型加深带来的优化问题。
再往后的事情,大家就都知道了,各类模型雨后春笋般涌现,然后transformer一骑绝尘(Money is All you need),AI井喷式爆发…
深度学习=深度+学习
https://mrkeanu-v.github.io/2023/11/10/深度学习=深度+学习/