Pytorch--autograd

25-02-13 13

本文将带您了解关于Pytorch--autograd的新内容，另外，我们还将为您提供关于autograd当最终张量中包含多个值时，可以使用autograd吗？、PHPAutoLoad自动加载机制分析实

本文将带您了解关于Pytorch--autograd的新内容，另外，我们还将为您提供关于autograd当最终张量中包含多个值时，可以使用autograd吗？、PHP AutoLoad 自动加载机制分析实践 grand theft auto margin 0 auto 晓敏auto、PyTorch 1.0 中文官方教程：Autograd：自动求导、PyTorch 1.0 中文文档：torch.autograd的实用信息。

本文目录一览：

Pytorch--autograd
autograd当最终张量中包含多个值时，可以使用autograd吗？
PHP AutoLoad 自动加载机制分析实践 grand theft auto margin 0 auto 晓敏auto
PyTorch 1.0 中文官方教程：Autograd：自动求导
PyTorch 1.0 中文文档：torch.autograd

Pytorch--autograd

Pytorch–autograd

用 Tensor 训练网络很方便，但从上一小节最后的线性回归例子来看，反向传播过程需要手动实现。这对于像线性回归等较为简单的模型来说，还可以应付，但实际使用中经常出现非常复杂的网络结构，此时如果手动实现反向传播，不仅费时费力，而且容易出错，难以检查。torch.autograd 就是为方便用户使用，而专门开发的一套自动求导引擎，它能够根据输入和前向传播过程自动构建计算图，并执行反向传播。

计算图 (Computation Graph) 是现代深度学习框架如 PyTorch 和 TensorFlow 等的核心，其为高效自动求导算法 —— 反向传播 (Back Propogation) 提供了理论支持，了解计算图在实际写程序过程中会有极大的帮助。本节将涉及一些基础的计算图知识，但并不要求读者事先对此有深入的了解。关于计算图的基础知识推荐阅读 Christopher Olah 的文章 [1]。

一.Variable

PyTorch 在 autograd 模块中实现了计算图的相关功能，autograd 中的核心数据结构是 Variable。Variable 封装了 tensor，并记录对 tensor 的操作记录用来构建计算图。Variable 的数据结构如图 3-2 所示，主要包含三个属性：

data：保存 variable 所包含的 tensor
grad：保存 data 对应的梯度，grad 也是 variable，而不是 tensor，它与 data 形状一致。
grad_fn：指向一个 Function，记录 tensor 的操作历史，即它是什么操作的输出，用来构建计算图。如果某一个变量是由用户创建，则它为叶子节点，对应的 grad_fn 等于 None。

Variable 的构造函数需要传入 tensor，同时有两个可选参数：

requires_grad (bool)：是否需要对该 variable 进行求导
volatile (bool)：意为” 挥发 “，设置为 True，则构建在该 variable 之上的图都不会求导，专为推理阶段设计

Variable 提供了大部分 tensor 支持的函数，但其不支持部分 inplace 函数，因这些函数会修改 tensor 自身，而在反向传播中，variable 需要缓存原来的 tensor 来计算反向传播梯度。如果想要计算各个 Variable 的梯度，只需调用根节点 variable 的 backward 方法，autograd 会自动沿着计算图反向传播，计算每一个叶子节点的梯度。

variable.backward(grad_variables=None, retain_graph=None, create_graph=None) 主要有如下参数：

grad_variables：形状与 variable 一致，对于 y.backward()grad_variables 也可以是 tensor 或序列。
retain_graph：反向传播需要缓存一些中间结果，反向传播之后，这些缓存就被清空，可通过指定这个参数不清空缓存，用来多次反向传播。
create_graph：对反向传播过程再次构建计算图，可通过 backward of backward 实现求高阶导数。

上述描述可能比较抽象，如果没有看懂，不用着急，会在本节后半部分详细介绍，下面先看几个例子。

from __future__ import print_function
import torch as t
from torch.autograd import Variable as V

# 从tensor中创建variable，指定需要求导
a = V(t.ones(3,4), requires_grad = True) 
a

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]], requires_grad=True)

b = V(t.zeros(3,4))
b

tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])

# 函数的使用与tensor一致
# 也可写成c = a + b
c = a.add(b)
c

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]], grad_fn=<AddBackward0>)

d = c.sum()
d.backward() # 反向传播

# 注意二者的区别
# 前者在取data后变为tensor，而后从tensor计算sum得到float
# 后者计算sum后仍然是Variable
c.data.sum(), c.sum()

(tensor(12.), tensor(12., grad_fn=<SumBackward0>))

a.grad

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])

# 此处虽然没有指定c需要求导，但c依赖于a，而a需要求导，
# 因此c的requires_grad属性会自动设为True
a.requires_grad, b.requires_grad, c.requires_grad

(True, False, True)

# 由用户创建的variable属于叶子节点，对应的grad_fn是None
a.is_leaf, b.is_leaf, c.is_leaf

(True, True, False)

# c.grad是None, 因c不是叶子节点，它的梯度是用来计算a的梯度
# 所以虽然c.requires_grad = True,但其梯度计算完之后即被释放
c.grad is None

True

计算下面这个函数的导函数：

它的导函数是：

来看看 autograd 的计算结果与手动求导计算结果的误差。

def f(x):
    ''''''计算y''''''
    y = x**2 * t.exp(x)
    return y

def gradf(x):
    ''''''手动求导函数''''''
    dx = 2*x*t.exp(x) + x**2*t.exp(x)
    return dx

x = V(t.randn(3,4), requires_grad = True)
y = f(x)
y

tensor([[0.1658, 0.0431, 7.2528, 0.1751],
        [0.1329, 0.3539, 1.1858, 0.0442],
        [0.0295, 0.2674, 0.1357, 4.3925]], grad_fn=<MulBackward0>)

y.backward(t.ones(y.size())) # grad_variables形状与y一致
x.grad

tensor([[-0.4587,  0.4994, 17.8984, -0.4602],
        [ 0.9849, -0.3813,  4.3529,  0.5066],
        [-0.2832, -0.4420, -0.4483, 11.9108]])

# autograd的计算结果与利用公式手动计算的结果一致
gradf(x)

tensor([[-0.4587,  0.4994, 17.8984, -0.4602],
        [ 0.9849, -0.3813,  4.3529,  0.5066],
        [-0.2832, -0.4420, -0.4483, 11.9108]], grad_fn=<AddBackward0>)

二。计算图

PyTorch 中 autograd 的底层采用了计算图，计算图是一种特殊的有向无环图（DAG），用于记录算子与变量之间的关系。一般用矩形表示算子，椭圆形表示变量。如表达式 $ \textbf {z = wx + b} 可分解为可分解为可分解为 \textbf{y = wx} 和和和 \textbf{z = y + b}，其计算图如图 3−3 所示，图中‘MUL‘，‘ADD‘都是算子，，其计算图如图 3-3 所示，图中 `MUL`，`ADD` 都是算子，，其计算图如图 3−3 所示，图中‘MUL‘，‘ADD‘都是算子，\textbf{w}，，，\textbf{x}，，，\textbf {b}$ 即变量。

如上有向无环图中，X\textbf{X}X 和 b\textbf{b}b 是叶子节点（leaf node），这些节点通常由用户自己创建，不依赖于其他变量。z\textbf{z}z 称为根节点，是计算图的最终目标。利用链式法则很容易求得各个叶子节点的梯度。

而有了计算图，上述链式求导即可利用计算图的反向传播自动完成，其过程如图 3-4 所示。

在 PyTorch 实现中，autograd 会随着用户的操作，记录生成当前 variable 的所有操作，并由此建立一个有向无环图。用户每进行一个操作，相应的计算图就会发生改变。更底层的实现中，图中记录了操作 Function，每一个变量在图中的位置可通过其 grad_fn 属性在图中的位置推测得到。在反向传播过程中，autograd 沿着这个图从当前变量（根节点 z\textbf{z}z）溯源，可以利用链式求导法则计算所有叶子节点的梯度。每一个前向传播操作的函数都有与之对应的反向传播函数用来计算输入的各个 variable 的梯度，这些函数的函数名通常以 Backward 结尾。下面结合代码学习 autograd 的实现细节。

x = V(t.ones(1))
b = V(t.rand(1), requires_grad = True)
w = V(t.rand(1), requires_grad = True)
y = w * x # 等价于y=w.mul(x)
z = y + b # 等价于z=y.add(b)

x.requires_grad, b.requires_grad, w.requires_grad

(False, True, True)

# 虽然未指定y.requires_grad为True，但由于y依赖于需要求导的w
# 故而y.requires_grad为True
y.requires_grad

True

x.is_leaf, w.is_leaf, b.is_leaf

(True, True, True)

y.is_leaf, z.is_leaf

(False, False)

# grad_fn可以查看这个variable的反向传播函数，
# z是add函数的输出，所以它的反向传播函数是AddBackward
z.grad_fn

<AddBackward0 at 0x21d85014320>

# next_functions保存grad_fn的输入，是一个tuple，tuple的元素也是Function
# 第一个是y，它是乘法(mul)的输出，所以对应的反向传播函数y.grad_fn是MulBackward
# 第二个是b，它是叶子节点，由用户创建，grad_fn为None，但是有
z.grad_fn.next_functions

((<MulBackward0 at 0x21d85014518>, 0), (<AccumulateGrad at 0x21d85014048>, 0))

# variable的grad_fn对应着和图中的function相对应
z.grad_fn.next_functions[0][0] == y.grad_fn

True

# 第一个是w，叶子节点，需要求导，梯度是累加的
# 第二个是x，叶子节点，不需要求导，所以为None
y.grad_fn.next_functions

((<AccumulateGrad at 0x21d85014630>, 0), (None, 0))

# 叶子节点的grad_fn是None
w.grad_fn,x.grad_fn

(None, None)

计算 w 的梯度的时候，需要用到 x 的数值 (${\partial y\over \partial w} = x $)，这些数值在前向过程中会保存成 buffer

# 使用retain_graph来保存buffer
z.backward(retain_graph=True)
w.grad

tensor([1.])

# 多次反向传播，梯度累加，这也就是w中AccumulateGrad标识的含义
z.backward()
w.grad

tensor([2.])

# 会报错，因为此时保存的buffer已经被清空了
# y.grad_fn.saved_variables

PyTorch 使用的是动态图，它的计算图在每次前向传播时都是从头开始构建，所以它能够使用 Python 控制语句（如 for、if 等）根据需求创建计算图。这点在自然语言处理领域中很有用，它意味着你不需要事先构建所有可能用到的图的路径，图在运行时才构建。

def abs(x):
    if x.data[0]>0: return x
    else: return -x
x = V(t.ones(1),requires_grad=True)
y = abs(x)
y.backward()
x.grad

tensor([1.])

x = V(-1*t.ones(1),requires_grad=True)
y = abs(x)
y.backward()
print(x.grad)

tensor([-1.])

def f(x):
    result = 1
    for ii in x:
        if ii.data[0]>0: result=ii*result
    return result
x = V(t.arange(-2,4),requires_grad=True)
y = f(x) # y = x[3]*x[4]*x[5]
y.backward()
x.grad

变量的 requires_grad 属性默认为 False，如果某一个节点 requires_grad 被设置为 True，那么所有依赖它的节点 requires_grad 都是 True。这其实很好理解，对于

，x.requires_grad = True，当需要计算

时，根据链式法则

自然也需要求

所以 y.requires_grad 会被自动标为 True.

volatile=True 是另外一个很重要的标识，它能够将所有依赖于它的节点全部都设为 volatile=True，其优先级比 requires_grad=True 高。volatile=True 的节点不会求导，即使 requires_grad=True，也无法进行反向传播。对于不需要反向传播的情景（如 inference，即测试推理时），该参数可实现一定程度的速度提升，并节省约一半显存，因其不需要分配空间计算梯度。

x = V(t.ones(1))
w = V(t.rand(1), requires_grad=True)
y = x * w
# y依赖于w，而w.requires_grad = True
x.requires_grad, w.requires_grad, y.requires_grad

(False, True, True)

x = V(t.ones(1), volatile=True)
w = V(t.rand(1), requires_grad = True)
y = x * w
# y依赖于w和x，但x.volatile = True，w.requires_grad = True
x.requires_grad, w.requires_grad, y.requires_grad

(False, True, True)

x.volatile, w.volatile, y.volatile

(False, False, False)

在反向传播过程中非叶子节点的导数计算完之后即被清空。若想查看这些变量的梯度，有两种方法：

使用 autograd.grad 函数
使用 hook

autograd.grad 和 hook 方法都是很强大的工具，更详细的用法参考官方 api 文档，这里举例说明基础的使用。推荐使用 hook 方法，但是在实际使用中应尽量避免修改 grad 的值。

x = V(t.ones(3), requires_grad=True)
w = V(t.rand(3), requires_grad=True)
y = x * w
# y依赖于w，而w.requires_grad = True
z = y.sum()
x.requires_grad, w.requires_grad, y.requires_grad

(True, True, True)

# 非叶子节点grad计算完之后自动清空，y.grad是None
z.backward()
(x.grad, w.grad, y.grad)

(tensor([0.9610, 0.5827, 0.1305]), tensor([1., 1., 1.]), None)

# 第一种方法：使用grad获取中间变量的梯度
x = V(t.ones(3), requires_grad=True)
w = V(t.rand(3), requires_grad=True)
y = x * w
z = y.sum()
# z对y的梯度，隐式调用backward()
t.autograd.grad(z, y)

(tensor([1., 1., 1.]),)

# 第二种方法：使用hook
# hook是一个函数，输入是梯度，不应该有返回值
def variable_hook(grad):
    print(''y的梯度： \r\n'',grad)

x = V(t.ones(3), requires_grad=True)
w = V(t.rand(3), requires_grad=True)
y = x * w
# 注册hook
hook_handle = y.register_hook(variable_hook)
z = y.sum()
z.backward()

# 除非你每次都要用hook，否则用完之后记得移除hook
hook_handle.remove()

y的梯度： 
 tensor([1., 1., 1.])

另外值得注意的是，只有对 variable 的操作才能使用 autograd，如果对 variable 的 data 直接进行操作，将无法使用反向传播。除了对参数初始化，一般我们不会修改 variable.data 的值。

在 PyTorch 中计算图的特点可总结如下：

autograd 根据用户对 variable 的操作构建其计算图。对变量的操作抽象为 Function。
对于那些不是任何函数 (Function) 的输出，由用户创建的节点称为叶子节点，叶子节点的 grad_fn 为 None。叶子节点中需要求导的 variable，具有 AccumulateGrad 标识，因其梯度是累加的。
variable 默认是不需要求导的，即 requires_grad 属性默认为 False，如果某一个节点 requires_grad 被设置为 True，那么所有依赖它的节点 requires_grad 都为 True。
variable 的 volatile 属性默认为 False，如果某一个 variable 的 volatile 属性被设为 True，那么所有依赖它的节点 volatile 属性都为 True。volatile 属性为 True 的节点不会求导，volatile 的优先级比 requires_grad 高。
多次反向传播时，梯度是累加的。反向传播的中间缓存会被清空，为进行多次反向传播需指定 retain_graph=True 来保存这些缓存。
非叶子节点的梯度计算完之后即被清空，可以使用 autograd.grad 或 hook 技术获取非叶子节点的值。
variable 的 grad 与 data 形状一致，应避免直接修改 variable.data，因为对 data 的直接操作无法利用 autograd 进行反向传播
反向传播函数 backward 的参数 grad_variables 可以看成链式求导的中间结果，如果是标量，可以省略，默认为 1
PyTorch 采用动态图设计，可以很方便地查看中间层的输出，动态的设计计算图结构。

三。扩展 autograd

目前绝大多数函数都可以使用 autograd 实现反向求导，但如果需要自己写一个复杂的函数，不支持自动反向求导怎么办？写一个 Function，实现它的前向传播和反向传播代码，Function 对应于计算图中的矩形，它接收参数，计算并返回结果。下面给出一个例子。

class Mul(Function):
                                                            
    @staticmethod
    def forward(ctx, w, x, b, x_requires_grad = True):
        ctx.x_requires_grad = x_requires_grad
        ctx.save_for_backward(w,x)
        output = w * x + b
        return output
        
    @staticmethod
    def backward(ctx, grad_output):
        w,x = ctx.saved_variables
        grad_w = grad_output * x
        if ctx.x_requires_grad:
            grad_x = grad_output * w
        else:
            grad_x = None
        grad_b = grad_output * 1
        return grad_w, grad_x, grad_b, None

分析如下：

自定义的 Function 需要继承 autograd.Function，没有构造函数__init__，forward 和 backward 函数都是静态方法
forward 函数的输入和输出都是 Tensor，backward 函数的输入和输出都是 Variable
backward 函数的输出和 forward 函数的输入一一对应，backward 函数的输入和 forward 函数的输出一一对应
backward 函数的 grad_output 参数即 t.autograd.backward 中的 grad_variables
如果某一个输入不需要求导，直接返回 None，如 forward 中的输入参数 x_requires_grad 显然无法对它求导，直接返回 None 即可
反向传播可能需要利用前向传播的某些中间结果，需要进行保存，否则前向传播结束后这些对象即被释放

Function 的使用利用 Function.apply (variable)

from torch.autograd import Function
class MultiplyAdd(Function):
                                                            
    @staticmethod
    def forward(ctx, w, x, b):                              
        print(''type in forward'',type(x))
        ctx.save_for_backward(w,x)
        output = w * x + b
        return output
        
    @staticmethod
    def backward(ctx, grad_output):                         
        w,x = ctx.saved_variables
        print(''type in backward'',type(x))
        grad_w = grad_output * x
        grad_x = grad_output * w
        grad_b = grad_output * 1
        return grad_w, grad_x, grad_b

x = V(t.ones(1))
w = V(t.rand(1), requires_grad = True)
b = V(t.rand(1), requires_grad = True)
print(''开始前向传播'')
z=MultiplyAdd.apply(w, x, b)
print(''开始反向传播'')
z.backward() # 等效

# x不需要求导，中间过程还是会计算它的导数，但随后被清空
x.grad, w.grad, b.grad

开始前向传播
type in forward <class ''torch.Tensor''>
开始反向传播
type in backward <class ''torch.Tensor''>
(None, tensor([1.]), tensor([1.]))

x = V(t.ones(1))
w = V(t.rand(1), requires_grad = True)
b = V(t.rand(1), requires_grad = True)
print(''开始前向传播'')
z=MultiplyAdd.apply(w,x,b)
print(''开始反向传播'')

# 调用MultiplyAdd.backward
# 输出grad_w, grad_x, grad_b
z.grad_fn.apply(V(t.ones(1)))

开始前向传播
type in forward <class ''torch.Tensor''>
开始反向传播
type in backward <class ''torch.Tensor''>
(tensor([1.]), tensor([0.0806], grad_fn=<MulBackward0>), tensor([1.]))

之所以 forward 函数的输入是 tensor，而 backward 函数的输入是 variable，是为了实现高阶求导。backward 函数的输入输出虽然是 variable，但在实际使用时 autograd.Function 会将输入 variable 提取为 tensor，并将计算结果的 tensor 封装成 variable 返回。在 backward 函数中，之所以也要对 variable 进行操作，是为了能够计算梯度的梯度（backward of backward）。下面举例说明，有关 torch.autograd.grad 的更详细使用请参照文档。

x = V(t.Tensor([5]), requires_grad=True)
y = x ** 2
grad_x = t.autograd.grad(y, x, create_graph=True)
grad_x # dy/dx = 2 * x

(tensor([10.], grad_fn=<MulBackward0>),)

grad_grad_x = t.autograd.grad(grad_x[0],x)
grad_grad_x # 二阶导数 d(2x)/dx = 2

(tensor([2.]),)

这种设计虽然能让 autograd 具有高阶求导功能，但其也限制了 Tensor 的使用，因 autograd 中反向传播的函数只能利用当前已经有的 Variable 操作。这个设计是在 0.2 版本新加入的，为了更好的灵活性，也为了兼容旧版本的代码，PyTorch 还提供了另外一种扩展 autograd 的方法。PyTorch 提供了一个装饰器 @once_differentiable，能够在 backward 函数中自动将输入的 variable 提取成 tensor，把计算结果的 tensor 自动封装成 variable。有了这个特性我们就能够很方便的使用 numpy/scipy 中的函数，操作不再局限于 variable 所支持的操作。但是这种做法正如名字中所暗示的那样只能求导一次，它打断了反向传播图，不再支持高阶求导。

上面所描述的都是新式 Function，还有个 legacy Function，可以带有__init__方法，forward 和 backwad 函数也不需要声明为 @staticmethod，但随着版本更迭，此类 Function 将越来越少遇到，在此不做更多介绍。

此外在实现了自己的 Function 之后，还可以使用 gradcheck 函数来检测实现是否正确。gradcheck 通过数值逼近来计算梯度，可能具有一定的误差，通过控制 eps 的大小可以控制容忍的误差。

关于这部份的内容可以参考 github 上开发者们的讨论 [2]。

下面举例说明如何利用 Function 实现 sigmoid Function。

class Sigmoid(Function):
                                                             
    @staticmethod
    def forward(ctx, x): 
        output = 1 / (1 + t.exp(-x))
        ctx.save_for_backward(output)
        return output
        
    @staticmethod
    def backward(ctx, grad_output): 
        output,  = ctx.saved_variables
        grad_x = output * (1 - output) * grad_output
        return grad_x

# 采用数值逼近方式检验计算梯度的公式对不对
test_input = V(t.randn(3,4), requires_grad=True)
t.autograd.gradcheck(Sigmoid.apply, (test_input,), eps=1e-3)

True

def f_sigmoid(x):
    y = Sigmoid.apply(x)
    y.backward(t.ones(x.size()))
    
def f_naive(x):
    y =  1/(1 + t.exp(-x))
    y.backward(t.ones(x.size()))
    
def f_th(x):
    y = t.sigmoid(x)
    y.backward(t.ones(x.size()))
    
x=V(t.randn(100, 100), requires_grad=True)
%timeit -n 100 f_sigmoid(x)
%timeit -n 100 f_naive(x)
%timeit -n 100 f_th(x)

E:\Anaconda\lib\site-packages\ipykernel_launcher.py:11: DeprecationWarning: ''saved_variables'' is deprecated; use ''saved_tensors''
  # This is added back by InteractiveShellApp.init_path()


The slowest run took 4.77 times longer than the fastest. This could mean that an intermediate result is being cached.
501 µs ± 412 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
357 µs ± 123 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
The slowest run took 4.84 times longer than the fastest. This could mean that an intermediate result is being cached.
353 µs ± 286 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

显然 f_sigmoid 要比单纯利用 autograd 加减和乘方操作实现的函数快不少，因为 f_sigmoid 的 backward 优化了反向传播的过程。另外可以看出系统实现的 buildin 接口 (t.sigmoid) 更快。

四。用 Variable 实现线性回归

在上一节中讲解了利用 tensor 实现线性回归，在这一小节中，将讲解如何利用 autograd/Variable 实现线性回归，以此感受 autograd 的便捷之处。

import torch as t
from torch.autograd import Variable as V
%matplotlib inline
from matplotlib import pyplot as plt
from IPython import display

# 设置随机数种子，为了在不同人电脑上运行时下面的输出一致
t.manual_seed(1000) 

def get_fake_data(batch_size=8):
    '''''' 产生随机数据：y = x*2 + 3，加上了一些噪声''''''
    x = t.rand(batch_size,1) * 20
    y = x * 2 + (1 + t.randn(batch_size, 1))*3
    return x, y

# 来看看产生x-y分布是什么样的
x, y = get_fake_data()
plt.scatter(x.squeeze().numpy(), y.squeeze().numpy())

<matplotlib.collections.PathCollection at 0x21d819cb128>

# 随机初始化参数
w = V(t.rand(1,1), requires_grad=True)
b = V(t.zeros(1,1), requires_grad=True)

lr =0.001 # 学习率

for ii in range(8000):
    x, y = get_fake_data()
    x, y = V(x), V(y)
    
    # forward：计算loss
    y_pred = x.mm(w) + b.expand_as(y)
    loss = 0.5 * (y_pred - y) ** 2
    loss = loss.sum()
    
    # backward：手动计算梯度
    loss.backward()
    
    # 更新参数
    w.data.sub_(lr * w.grad.data)
    b.data.sub_(lr * b.grad.data)
    
    # 梯度清零
    w.grad.data.zero_()
    b.grad.data.zero_()
    
    if ii%1000 ==0:
        # 画图
        display.clear_output(wait=True)
        x = t.arange(0, 20).view(-1, 1)
        y = x.mm(w.data) + b.data.expand_as(x)
        plt.plot(x.numpy(), y.numpy()) # predicted
        
        x2, y2 = get_fake_data(batch_size=20) 
        plt.scatter(x2.numpy(), y2.numpy()) # true data
        
        plt.xlim(0,20)
        plt.ylim(0,41)   
        plt.show()
        plt.pause(0.5)
        
print(w.data.squeeze()[0], b.data.squeeze()[0])

用 autograd 实现的线性回归最大的不同点就在于 autograd 不需要计算反向传播，可以自动计算微分。这点不单是在深度学习，在许多机器学习的问题中都很有用。另外需要注意的是在每次反向传播之前要记得先把梯度清零。

本章主要介绍了 PyTorch 中两个基础底层的数据结构：Tensor 和 autograd 中的 Variable。Tensor 是一个类似 Numpy 数组的高效多维数值运算数据结构，有着和 Numpy 相类似的接口，并提供简单易用的 GPU 加速。Variable 是 autograd 封装了 Tensor 并提供自动求导技术的，具有和 Tensor 几乎一样的接口。autograd 是 PyTorch 的自动微分引擎，采用动态计算图技术，能够快速高效的计算导数。

autograd当最终张量中包含多个值时，可以使用autograd吗？

当最终张量中包含多个值时，可以使用autograd吗？

我尝试了以下方法。

x = torch.tensor([4.0,5.0],requires_grad=True)
y = x ** 2

print(y)

y.backward()

引发错误

RuntimeError: grad can be implicitly created only for scalar outputs

但是，以下工作。

x = torch.tensor([4.0,requires_grad=True)
y = x ** 2
y = torch.sum(y)
print(y)

y.backward()
print(x.grad)

输出为

tensor(41.,grad_fn=<SumBackward0>)
tensor([ 8.,10.])

我是否在这里遗漏了一些东西，还是可以假设自动分级仅在最终张量中具有单个值时才起作用？

PHP AutoLoad 自动加载机制分析实践 grand theft auto margin 0 auto 晓敏auto

PyTorch 1.0 中文官方教程：Autograd：自动求导

译者：bat67

最新版会在译者仓库首先同步。

PyTorch中，所有神经网络的核心是autograd包。先简单介绍一下这个包，然后训练我们的第一个的神经网络。

autograd包为张量上的所有操作提供了自动求导机制。它是一个在运行时定义（define-by-run）的框架，这意味着反向传播是根据代码如何运行来决定的，并且每次迭代可以是不同的.

让我们用一些简单的例子来看看吧。

张量

torch.Tensor是这个包的核心类。如果设置它的属性 .requires_grad为True，那么它将会追踪对于该张量的所有操作。当完成计算后可以通过调用.backward()，来自动计算所有的梯度。这个张量的所有梯度将会自动累加到.grad属性.

要阻止一个张量被跟踪历史，可以调用.detach()方法将其与计算历史分离，并阻止它未来的计算记录被跟踪。

为了防止跟踪历史记录（和使用内存），可以将代码块包装在with torch.no_grad():中。在评估模型时特别有用，因为模型可能具有requires_grad = True的可训练的参数，但是我们不需要在此过程中对他们进行梯度计算。

还有一个类对于autograd的实现非常重要：Function。

Tensor和Function互相连接生成了一个非循环图，它编码了完整的计算历史。每个张量都有一个.grad_fn属性，它引用了一个创建了这个Tensor的Function（除非这个张量是用户手动创建的，即这个张量的grad_fn是None）。

如果需要计算导数，可以在Tensor上调用.backward()。如果Tensor是一个标量（即它包含一个元素的数据），则不需要为backward()指定任何参数，但是如果它有更多的元素，则需要指定一个gradient参数，它是形状匹配的张量。

import torch

创建一个张量并设置requires_grad=True用来追踪其计算历史

阅读全文／改进本文

PyTorch 1.0 中文文档：torch.autograd

译者：gfjiangly

torch.autograd 提供类和函数，实现任意标量值函数的自动微分。它要求对已有代码的最小改变---你仅需要用requires_grad=True关键字为需要计算梯度的声明Tensor。

torch.autograd.backward(tensors, grad_tensors=None, retain_graph=None, create_graph=False, grad_variables=None)

计算被给张量关于图的叶节点的梯度和。

图使用链式法则微分。如何任何tensors是非标量（例如他们的数据不止一个元素）并且要求梯度，函数要额外指出grad_tensors。它应是一个匹配长度的序列，包含可微函数关于相应张量的梯度（None是一个对所有张量可接受的值，不需要梯度张量）。

此函数在叶节点累积梯度 - 你可能需要在调用前把它初始化为0.

参数：

tensors (Tensor序列) – 计算导数的张量。
grad_tensors (Tensor 或 None序列) – 关于相应张量每个元素的梯度。标量张量或不需要梯度的可用None指定。如果None对所有grad_tensors可接受，则此参数可选。
retain_graph (bool, 可选) – 如果False，用于计算梯度的图将被释放。请注意，在几乎所有情况下，不需要将此选项设置为真，而且通常可以更有效地解决问题。默认为create_graph值。
create_graph (bool, 可选) – 如果True，则构造导数图，以便计算更高阶导数，默认False。

torch.autograd.grad(outputs, inputs, grad_outputs=None, retain_graph=None, create_graph=False, only_inputs=True, allow_unused=False)

计算和返回输出关于输入的梯度和。

grad_outputs 应是长度匹配输出的序列，包含关于输出每个元素的预计算梯度。如果一个输出不要求梯度，则梯度是None。

如果only_inputs是True，此函数将仅返回关于指定输入的梯度list。如果此参数是False，则关于其余全部叶子的梯度仍被计算，并且将累加到.grad属性中。

阅读全文／改进本文

今天关于Pytorch--autograd的介绍到此结束，谢谢您的阅读，有关autograd当最终张量中包含多个值时，可以使用autograd吗？、PHP AutoLoad 自动加载机制分析实践 grand theft auto margin 0 auto 晓敏auto、PyTorch 1.0 中文官方教程：Autograd：自动求导、PyTorch 1.0 中文文档：torch.autograd等更多相关知识的信息可以在本站进行查询。

本文标签：