D2L--第二章预备知识
1. 数据操作 1.1 入门 张量:具有多个维度(轴)的数组。 具有一个轴的张量,对应数学上的向量; 具有两个轴的张量,对应数学上的矩阵。 创建张量 1 2 3 4 5 6...
1. 数据操作 1.1 入门 张量:具有多个维度(轴)的数组。 具有一个轴的张量,对应数学上的向量; 具有两个轴的张量,对应数学上的矩阵。 创建张量 1 2 3 4 5 6...
1. 线性回归 1.1 线性回归的基本元素 线性模型:目标(y)可以表示为输入特征的加权和,参数包括权重向量w和偏置b 损失函数:表示目标的实际值与预测值之...
1. 多层感知机 1.1 隐藏层 之前所学的线性模型意味着单调假设,并不适用于更复杂的建模问题,例如体温与疾病;图片某个像素点的强度与猫或狗的关系等; 多层...
1. 层和块 1.1 自定义块 块/模块(block)可以描述单个层、由多个层(lay)组成的组件或整个神经网络模型本身。 复杂的模块也可以由简单的模块组成...
1. 从全连接层到卷积 1.1 不变性 假设一个场景:需要制作一个检测器,在一张图片中检测一种特定物体。需要满足两个性质: 平移不变性:无论该物品在图片的哪...
1. 深度卷积神经网络(AlexNet) 1.1 学习表征 LeNet提出后,卷积神经网络并未占据主流,而是往往由其它机器学习方法所超越,如SVM。一个主...
1. 序列模型 1.1 自回归模型 (1)自回归模型:对于一个包含T个’时间’节点的输入序列,若预测其中的第t个数据,则依赖于该节...
1. 门控循环单元(GRU) 传统的RNN在处理长序列时会遇到梯度消失或梯度爆炸的问题。为了解决这些问题,引入了门控机制的变种,如长短时记忆网络(...
1. 注意力提示 1.1 生物学的注意力提示 如下的观察实验: 受试者的注意力往往首先被颜色鲜艳的红色咖啡杯吸引(非自主性); 客观存在的,对于观察者的吸引特...
1. 基础介绍 BERT(来自Transformers的双向编码器表示)基于Transformer编码器进行预训练(Pre-train),从而对输...