[具身智能-259]:激活函数的本质是给神经网络注入数值空间“非线性”映射的灵魂,才能更好的应对现实世界的非线性特征

张开发
2026/4/13 7:12:51 15 分钟阅读

分享文章

[具身智能-259]:激活函数的本质是给神经网络注入数值空间“非线性”映射的灵魂,才能更好的应对现实世界的非线性特征
为什么必须是“非线性”数学本质如果去掉激活函数神经网络无论有多少层本质上都在做矩阵乘法。假设我们有一个 3 层的神经网络输入是 x 权重是 W 偏置是 b 。如果没有激活函数前向传播的过程是这样的利用矩阵乘法的结合律我们可以把这一长串公式化简为结论没有激活函数多层网络退化成了单层线性回归。无论你堆多深它只能画直线或在高维空间画超平面。有了激活函数假设函数为 σσ 公式变成了嵌套结构这时公式无法再化简。这种**函数的嵌套**就是深度学习拟合复杂世界的数学基础。 什么是“现实世界的非线性特征”几何本质现实世界的数据分布极少是“线性可分”的。线性问题判断一个西瓜是好是坏可能只需要切一刀一条直线就能把好的和坏的分开。非线性问题比如经典的“异或问题”或者识别一只猫。猫可能出现在图片的左上角也可能在右下角背景千变万化。你无法在像素空间里画一条直线把“猫”和“非猫”分开。激活函数的作用几何视角它就像是一个“空间折叠师”。原始数据猫的图片在一个非常复杂的高维空间里纠缠不清。每一层神经网络通过线性变换矩阵乘法非线性变换激活函数不断地扭曲、折叠、拉伸这个空间。最终在最后一层原本纠缠不清的数据被“折叠”得整齐排列使得只需要画一条简单的线就能把它们完美分开。 总结激活函数的双重人格我们可以给激活函数画一个像作为“破坏者”它破坏了线性叠加的简单性引入了复杂的曲线和曲面让模型有了拟合任意函数的能力万能逼近定理。作为“守门人”它决定了信息是否继续传递如 ReLU 的截断特性模拟了生物神经元的“兴奋”与“抑制”让网络学会了关注重点稀疏性。所以它是“数值空间非线性映射的灵魂”是非常精准的定义。没有这个映射神经网络就只是一个拥有大量参数的简单计算器而无法成为具有“智能”的函数拟合器。

更多文章