一个 PyTorch 模型训练的完整流程

从准备数据、定义模型、选择损失函数和优化器,到训练循环和验证评估,把 PyTorch 训练主线串起来。

一组训练流程节点从数据、模型、损失函数连接到优化器,屏幕上有训练曲线。

学 PyTorch 时,单个概念看懂不难,真正容易乱的是完整训练流程。

这篇文章先不追求复杂模型,只把一条最基础的训练主线串起来。

第一步:准备数据

训练模型前,先要把数据整理成模型能吃的形式。

通常会经历几步:

如果数据这一步没处理好,后面模型再复杂也很难救回来。

第二步:定义模型

PyTorch 里通常会继承 nn.Module 定义模型:

from torch import nn

class Net(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(10, 2)

    def forward(self, x):
        return self.linear(x)

这里 __init__ 定义模型有哪些层,forward 定义数据怎么流过这些层。

第三步:选择损失函数

损失函数负责衡量模型预测错了多少。

分类任务常见:

loss_fn = nn.CrossEntropyLoss()

回归任务常见:

loss_fn = nn.MSELoss()

损失函数要和任务类型匹配,这一点很重要。

第四步:选择优化器

优化器负责根据梯度更新参数。

常见写法:

optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)

这里 model.parameters() 告诉优化器要更新哪些参数,lr 是学习率。

第五步:训练循环

最核心的训练循环通常长这样:

for x, y in train_loader:
    pred = model(x)
    loss = loss_fn(pred, y)

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

这几行非常重要。

可以按顺序理解:

  1. 前向传播,得到预测
  2. 计算 loss
  3. 清空旧梯度
  4. 反向传播,计算新梯度
  5. 优化器更新参数

这就是 PyTorch 训练模型的核心骨架。

第六步:验证模型

训练时还需要在验证集上观察效果。

验证阶段通常不需要计算梯度,所以会写:

model.eval()
with torch.no_grad():
    for x, y in val_loader:
        pred = model(x)

这样可以减少显存占用,也避免误更新模型。

小结

一个 PyTorch 训练流程可以压缩成这样:

数据 -> 模型 -> loss -> backward -> optimizer.step -> 验证

刚开始不要急着堆复杂结构。

先把这条主线真正跑通,后面再换模型、调参数、加可视化,都会轻松很多。