AI入门——如何计算神经网络的参数

张开发

• 2026/4/13 20:42:40 • 15 分钟阅读

分享文章

如何计算神经网络的参数在上一篇文章中我们了解到神经网络本质上是一个由大量参数权重 w和偏置 b构成的复杂非线性函数。那么这些参数究竟是如何确定下来的呢始终记住我们的目标是找到一组参数使得网络的预测结果尽可能接近真实数据。如下图所示显然左边的拟合效果更好。为了量化“拟合得好不好”我们需要一个衡量标准。对于单个样本可以用预测值与真实值之差的绝对值来表示误差。将所有样本的误差累加起来就得到了整体误差的度量。这个函数就叫做损失函数——用于表示预测数据与真实数据误差的函数。为了避免绝对值带来的不可导问题通常采用平方来代替绝对值然后对所有样本取平均这样就得到了均方误差——一种常用的损失函数。我们将损失函数记为 L。从参数的角度看L 是关于所有 w 和 b 的函数损失函数表示的是预测值与真实值的误差其值越小说明模型的预测越准确。因此我们的任务转化为找到使损失函数 L 最小的那一组 w和 b。如果参数很少理论上可以通过令偏导数为零直接求解。例如在线性回归中我们正是用这种方法求解析解的。然而神经网络的损失函数通常极其复杂涉及成千上万个参数和非线性激活函数根本无法直接求解。这时我们需要一种更通用的方法——梯度下降。梯度下降梯度下降的核心思想很简单既然无法一步到位那就一步步朝误差减小的方向调整参数。假设我们只关注某一个参数 w当前取值下损失函数值为 L。如果我们让 w 增大一点点发现 L 也随之增大那就说明应该反过来减小 w反之如果增大 w 使 L 减小那我们就继续朝这个方向调整。而损失函数L随着参数w变化而变化的程度其实就是损失函数对w的偏导数。而我们要做的就是让w和b不断地向偏导数地反方向去变化。具体变化的快慢我们再增加一个系数学习率来控制。这些偏导数所构成的向量就叫做梯度。不断变化w和b使得损失函数不断减小进而求出最后的w和b这个过程就叫做梯度下降。这个过程用数学语言描述就是利用损失函数对 w 的偏导数即梯度来指导参数的更新方向——朝着梯度的反方向移动。其中 η 是学习率控制每一步调整的步长。将所有参数的偏导数组合成一个向量就是梯度。沿着梯度的反方向更新所有参数就能使损失函数逐渐下降。这个过程反复进行直到损失函数收敛到足够小我们就得到了训练好的模型。反向传播现在问题变成了如何求偏导数。梯度下降的关键在于计算每个参数的偏导数。在深度神经网络中参数数量巨大直接逐个计算几乎不可能。幸运的是借助链式法则我们可以高效地求出所有梯度这就是反向传播算法。如图要求L对w1的偏导只需要用链式法则分别求图中的三个偏导再相乘就好了。从输出层开始我们可以由右向左逐层计算这些偏导数。有趣的是计算前一层的梯度时会用到后一层的某些中间结果这些结果可以“反向传播”给前层复用所以可以让这些值从右向左传播这个过程就叫做反向传播。总结综上所述神经网络的训练包含两个核心阶段前向传播通过前向传播根据输入x计算输出y。反向传播根据预测值与真实值的误差损失函数利用链式法则计算每个参数的梯度然后按照梯度下降法更新所有参数。每一轮这样的操作称为一次训练迭代。经过足够多轮的迭代损失函数不断下降最终经过多轮训练使得损失函数足够小就得到了我们想要的函数。

AI入门——如何计算神经网络的参数

最新文章

【TextIn ParseX + 火山引擎豆包】从复杂文档到精准洞察：企业级文件智能体实战手册

当两个.so的头文件版本不一致：从__stack_chk_fail案例看二进制兼容性陷阱

【AIAgent异常处理黄金法则】：20年架构师亲授7大实战陷阱与容错设计范式

实战指南：使用Universal Radio Hacker进行无线协议漏洞挖掘的完整流程

用Python的tifffile库搞定超大病理图像存储：从生成OME-TIFF金字塔到QuPath无缝查看

数字记忆保险箱：GetQzonehistory如何帮你永久保存青春时光

推荐文章

手把手教你用NUCLEO-H743ZI2连接Arduino模块：从硬件选型到I2C通信实战

从‘能用’到‘好用’：我用这5个步骤，为我的智能小车电机选到了最合适的栅极驱动芯片

11.os模块、编解码、文件操作、try-except语句详解

公路车桥耦合振动程序（考虑路面不平整度）——两套模型介绍及操作指南

Umi-OCR完全指南：如何利用开源OCR工具实现高效文字识别

从理论到实践：基于MATLAB comm.RayTracingChannel的室内多径信道仿真全解析

相关文章

2025 AI写作革命：自定义API打造专属小说生成器

用GDAL和PyTorch搞定多光谱.tif图像训练Faster R-CNN（避坑全记录）

HC-SR501人体红外传感器：从参数解析到树莓派实战应用

2026年三维扫描仪选购指南：专业厂家如何选，这几点是关键

微信小程序项目目录结构优化指南：从tabBar报错看最佳实践

探索Feishin：打造个人专属的自托管音乐播放解决方案

分享文章

更多文章

[具身智能-259]：激活函数的本质是给神经网络注入数值空间“非线性”映射的灵魂，才能更好的应对现实世界的非线性特征

Dify知识库如何实现多轮对话情感分析并生成可视化报告

从429限流到满速下载：一个HF Token如何解锁Unsloth微调全流程

基于 MQTT+JSON 的物联网网关物模型通讯协议（极致精简・缩写版）

网络安全学习笔记第一阶段之html网页基础

Python爬虫数据智能分析流水线：PyTorch模型自动化处理实战

做自媒体，如何从“不会写”到“持续输出”

Amazon日本站、欧洲站A+内容翻译怎么做？跨马翻译在多站点运营中的实际应用

JetBrains GoLand 2026.1 (macOS, Linux, Windows) - 为 Go 开发者打造的完整 IDE

语雀文档批量导出指南：三步完成本地化备份与迁移

4大场景解锁QuickBMS：从二进制解析到跨领域数据提取

智能体公司的发展都会变成解决方案型公司