D2L | Li's Bioinfo-Blog

D2L--第九章现代循环神经网络

1. 门控循环单元(GRU) 传统的RNN在处理长序列时会遇到梯度消失或梯度爆炸的问题。为了解决这些问题，引入了门控机制的变种，如长短时记忆网络（...

1. 注意力提示 1.1 生物学的注意力提示如下的观察实验：受试者的注意力往往首先被颜色鲜艳的红色咖啡杯吸引（非自主性）；客观存在的，对于观察者的吸引特...

1. 基础介绍 BERT（来自Transformers的双向编码器表示）基于Transformer编码器进行预训练(Pre-train)，从而对输...

在深度学习中，优化算法是训练模型的关键部分，它们用于更新网络的参数以最小化损失函数。由于优化算法的目标函数通常是基于训练数据集的损失函数，因...