开发者社区> 阿旭算法与机器学习> 正文

【从零开始学习深度学习】9.多层感知机MLP及常用激活函数介绍

简介: 【从零开始学习深度学习】9.多层感知机MLP及常用激活函数介绍
+关注继续查看

1.1 隐藏层


多层感知机在单层神经网络的基础上引入了一到多个隐藏层(hidden layer)。隐藏层位于输入层和输出层之间。下图展示了一个多层感知机的神经网络图,它含有一个隐藏层,该层中有5个隐藏单元。

9432b2c7b3ea4586b0bf86677f5a6a5a.png

在上图所示的多层感知机中,输入和输出个数分别为4和3,中间的隐藏层中包含了5个隐藏单元(hidden unit)。由于输入层不涉及计算,上图中的多层感知机的层数为2。由图可见,隐藏层中的神经元和输入层中各个输入完全连接,输出层中的神经元和隐藏层中的各个神经元也完全连接。因此,多层感知机中的隐藏层和输出层都是全连接层。


image.png

1.2 激活函数



1.2.1 ReLU函数


ReLU(rectified linear unit)函数提供了一个很简单的非线性变换。给定元素x xx,该函数定义为


image.png


可以看出,ReLU函数只保留正数元素,并将负数元素清零。为了直观地观察这一非线性变换,我们先定义一个绘图函数xyplot。


%matplotlib inline
import torch
import numpy as np
import matplotlib.pylab as plt
import sys
sys.path.append("..") 
import d2lzh_pytorch as d2l

def xyplot(x_vals, y_vals, name):
    d2l.set_figsize(figsize=(5, 2.5))
    d2l.plt.plot(x_vals.detach().numpy(), y_vals.detach().numpy())
    d2l.plt.xlabel('x')
    d2l.plt.ylabel(name + '(x)')


我们接下来通过Tensor提供的relu函数来绘制ReLU函数。可以看到,该激活函数是一个两段线性函数。


x = torch.arange(-8.0, 8.0, 0.1, requires_grad=True)
y = x.relu()
xyplot(x, y, 'relu')

5c838270d25e4ca89270ba900e600e35.png

显然,当输入为负数时,ReLU函数的导数为0;当输入为正数时,ReLU函数的导数为1。尽管输入为0时ReLU函数不可导,但是我们可以取此处的导数为0。下面绘制ReLU函数的导数。


y.sum().backward()
xyplot(x, x.grad, 'grad of relu')

40febc4770964319a3838dfdd07caa97.png

1.2.2 sigmoid函数


sigmoid函数可以将元素的值变换到0和1之间:


image.png

sigmoid函数在早期的神经网络中较为普遍,但它目前逐渐被更简单的ReLU函数取代。在后面“循环神经网络”一章中我们会介绍如何利用它值域在0到1之间这一特性来控制信息在神经网络中的流动。下面绘制了sigmoid函数。当输入接近0时,sigmoid函数接近线性变换。


y = x.sigmoid()
xyplot(x, y, 'sigmoid')

16cdd90752c2458ab71e03be4d725163.png

依据链式法则,sigmoid函数的导数


image.png

下面绘制了sigmoid函数的导数。当输入为0时,sigmoid函数的导数达到最大值0.25;当输入越偏离0时,sigmoid函数的导数越接近0。


x.grad.zero_()
y.sum().backward()
xyplot(x, x.grad, 'grad of sigmoid')

d47227bf34f24742bca8a316b2763b13.png


1.2.3 tanh函数


tanh(双曲正切)函数可以将元素的值变换到-1和1之间:

image.png

我们接着绘制tanh函数。当输入接近0时,tanh函数接近线性变换。虽然该函数的形状和sigmoid函数的形状很像,但tanh函数在坐标系的原点上对称。


y = x.tanh()
xyplot(x, y, 'tanh')


ab4c94cca0344d7eaad769a0d7f209e3.png

依据链式法则,tanh函数的导数

image.png


下面绘制了tanh函数的导数。当输入为0时,tanh函数的导数达到最大值1;当输入越偏离0时,tanh函数的导数越接近0。


x.grad.zero_()
y.sum().backward()
xyplot(x, x.grad, 'grad of tanh')

715c65ebbf304011a16cbbbcdf0542bf.png

1.3 多层感知机

image.png


小结


  • 多层感知机在输出层与输入层之间加入了一个或多个全连接隐藏层,并通过激活函数对隐藏层输出进行变换。
  • 常用的激活函数包括ReLU函数、sigmoid函数和tanh函数。


版权声明:本文内容由便宜云服务器实名注册用户自发贡献,版权归原作者所有,便宜云服务器开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《便宜云服务器开发者社区用户服务协议》和《便宜云服务器开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
前端学习笔记202304学习笔记第八天-web前端学习-深度学习分析2
前端学习笔记202304学习笔记第八天-web前端学习-深度学习分析2
7 0
学习=拟合?深度学习和经典统计学是一回事?哈佛理论计算机科学家细数二者差异(2)
学习=拟合?深度学习和经典统计学是一回事?哈佛理论计算机科学家细数二者差异
18 0
学习=拟合?深度学习和经典统计学是一回事?哈佛理论计算机科学家细数二者差异(1)
学习=拟合?深度学习和经典统计学是一回事?哈佛理论计算机科学家细数二者差异
16 0
【TVM 学习资料】快速入门:编译深度学习模型
【TVM 学习资料】快速入门:编译深度学习模型
35 0
深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。
深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。
50 0
# 【深度学习】:《PyTorch入门到项目实战》第六天:多层感知机(含代码)
上一章中介绍了如何使用softmax回归来进行多分类问题,对于一些基本线性模型基本介绍完毕,下面正式进入深度神经网络的学习。先介绍一个比较基础的模型,多层感知机,它是神经网络的最基础模型。首先我们来看看感知机
51 0
# 【深度学习】:《100天一起学习PyTorch》模型评估和选择(上):欠拟合和过拟合
机器学习的任务是发现一种泛化的模式,通过训练集发现总体的规律,从而在未知的数据集上也能展现较好的精度。但是如何判断我们的模型不是单纯的记住了数据,而是真的发现了一种规律呢?因为,我们往往只能从有限样本集训练模型,当收集更多的数据时,会发现这些数据的预测结果和之前的关系完全不同。下面我们介绍一些机器学习评估模型的一些基本概念。
120 0
《动手学深度学习》学习随笔
《动手学深度学习》学习随笔
14 0
《学习深度学习的四...[uncle_ll].1473404786.pdf》电子版地址
学习深度学习的四...[uncle_ll].1473404786.pdf
22 0
【从零开始学习深度学习】11.使用Pytorch实现多层感知机的构建与训练
【从零开始学习深度学习】11.使用Pytorch实现多层感知机的构建与训练
74 0
+关注
阿旭算法与机器学习
专注于python、算法、机器学习及深度学习等相关技术分享,欢迎关注,共同学习交流。
文章
问答
视频
文章排行榜
最热
最新
相关电子书
更多
深度学习在电商搜索和聊天机器人中的应用
立即下载
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载


http://www.vxiaotou.com