【PyTorch基础教程4】反向传播与计算图(学不会来打我啊)

网友投稿 856 2022-05-30

学习总结

(1)正向传递求loss,反向传播求loss对变量的梯度。求loss实际在构建计算图,每次运行完后计算图就释放了。

(2)

Tensor的Grad也是一个Tensor

。更新权重w.data = w.data - 0.01 * w.grad.data的0.01乘那坨其实是在建立计算图,而我们这里要乘0.01 * grad.data,这样是不会建立计算图的(并不希望修改权重w,后面还有求梯度)。

(3)下面的w.grad.item()是直接把w.grad的数值取出,变成一个标量(也是为了防止产生计算图)。总之,牢记权重更新过程中要使用这里的w.grad.data。

文章目录

学习总结

一、基础回顾

1.1 正向传递

1.2 反向传播

1.3 举栗子

(1)正向传递

(2)反向传播

二、计算图

2.1 线性模型的计算图

三、代码实战

四、作业

Reference

一、基础回顾

1.1 正向传递

1.2 反向传播

1.3 举栗子

现在以 f = x ⋅ ω f=x \cdot \omega f=x⋅ω 为例:

(1)正向传递

(2)反向传播

注意虽然这里的 ∂ L ∂ x = ∂ L ∂ z ⋅ ∂ z ∂ x \frac{\partial L}{\partial x}=\frac{\partial L}{\partial z} \cdot \frac{\partial z}{\partial x} ∂x∂L =∂z∂L ⋅∂x∂z 不求也可以,但是在pytorch是会求出来的(因为如果是多层,则需要用到该中间层求得的的梯度)。

【PyTorch基础教程4】反向传播与计算图(学不会来打我啊)

二、计算图

2.1 线性模型的计算图

练习:

三、代码实战

# -*- coding: utf-8 -*- """ Created on Sun Oct 17 19:39:32 2021 @author: 86493 """ import torch x_data = [1.0, 2.0, 3.0] y_data = [2.0, 4.0, 6.0] w = torch.Tensor([1.0]) w.requires_grad = True # 向前传递 def forward(x): return x * w # 这里使用SGD def loss(x, y): y_pred = forward(x) return (y_pred - y) ** 2 print("predict (before training)", 4, forward(4).item()) # 训练过程,SGD for epoch in range(100): for x, y in zip(x_data, y_data): # 向前传播,计算loss l = loss(x, y) # 计算requires_grad为true的tensor的梯度 l.backward() print('\tgrad:', x, y, w.grad.item()) w.data = w.data - 0.01 * w.grad.data # 反向传播后grad会被重复计算,所以记得清零梯度 w.grad.data.zero_() print("progress:", epoch, l.item()) print("predict (after training)", 4, forward(4).item())

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

注意:

(1)loss实际在构建计算图,每次运行完后计算图就释放了。

(2)

Tensor的Grad也是一个Tensor

。更新权重w.data = w.data - 0.01 * w.grad.data的0.01乘那坨其实是在建立计算图,而我们这里要乘0.01 * grad.data,这样是不会建立计算图的(并不希望修改权重w,后面还有求梯度)。

(3)w.grad.item()是直接把w.grad的数值取出,变成一个标量(也是为了防止产生计算图)。总之,牢记权重更新过程中要使用data。

(4)如果不像上面计算一个样本的loss,想算所有样本的loss(cost),然后就加上sum += l,注意此时sum是关于张量 l l l 的一个计算图,又未对sum做backward操作,随着l越加越多会导致内存爆炸。

正确做法:sum += l.item(),别把损失直接加到sum里面。

Tensor在做加法运算时会构建计算图

(5)backward后的梯度一定要记得清零w.grad.data.zero()。

(6)训练过程:先计算loss损失值,然后backward反向传播,现在就有了梯度了。通过梯度下降更新参数:

四、作业

1

Reference

(1)PyTorch 深度学习实践 第10讲,刘二系列

(2)b站视频:https://www.bilibili.com/video/BV1Y7411d7Ys?p=10

(3)官方文档:https://pytorch.org/docs/stable/_modules/torch/nn/modules/conv.html#Conv2d

(4)吴恩达网易云课程:https://study.163.com/my#/smarts

(5)刘洪普老师博客:https://liuii.github.io/

(6)某同学的笔记:http://biranda.top/archives/page/2/

pytorch 机器学习

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:【Flutter 专题】48 图解 Android 原生集成 Flutter Module
下一篇:再见IE浏览器(IE之死2021 年 8 月 17 日)
相关文章