Li's Bioinfo-Blog
  • |
  • 主页
  • 分类
  • 标签
  • 归档
  • 关于
  • 搜索
Home » Tags

D2L

D2L--第九章现代循环神经网络

1. 门控循环单元(GRU) 传统的RNN在处理长序列时会遇到梯度消失或梯度爆炸的问题。为了解决这些问题,引入了门控机制的变种,如长短时记忆网络(LSTM, long short-term memory)和门控循环单元(GRU, gated recurrent unit)。GRU是LSTM的一个简化版本,它通过合并某些门并减少参数数量来提高效率。 ...

Create:&nbsp;<span title='2024-08-11 00:00:00 +0000 UTC'>2024-08-11</span>&nbsp;|&nbsp;Update:&nbsp;2024-08-11&nbsp;|&nbsp;Words:&nbsp;8150&nbsp;|&nbsp;17 min&nbsp;|&nbsp;Lishensuo

D2L--第十章注意力机制与Transformer

1. 注意力提示 1.1 生物学的注意力提示 如下的观察实验: 受试者的注意力往往首先被颜色鲜艳的红色咖啡杯吸引(非自主性); 客观存在的,对于观察者的吸引特征。 喝完咖啡,处于兴奋状态的大脑经思考后,相比看报等,可能更想要读一本书(自主性权重更高); 在受试者的主观意愿推动下所做的决定。 ...

Create:&nbsp;<span title='2024-08-17 00:00:00 +0000 UTC'>2024-08-17</span>&nbsp;|&nbsp;Update:&nbsp;2024-08-17&nbsp;|&nbsp;Words:&nbsp;10698&nbsp;|&nbsp;22 min&nbsp;|&nbsp;Lishensuo

D2L--第十四及十五章BERT模型

1. 基础介绍 BERT(来自Transformers的双向编码器表示)基于Transformer编码器进行预训练(Pre-train),从而对输入词元进行上下文表示。 而在针对具体的自然语言处理任务的训练(Fine-tuning)时,对预训练Transformer编码器的所有参数进行微调,而额外的输出层将从头开始训练。 2. 输入表示 BERT输入序列的Embedding嵌入,表示为词元嵌入、段嵌入和位置嵌入的矩阵加和。 ...

Create:&nbsp;<span title='2024-08-17 00:00:00 +0000 UTC'>2024-08-17</span>&nbsp;|&nbsp;Update:&nbsp;2024-08-17&nbsp;|&nbsp;Words:&nbsp;6809&nbsp;|&nbsp;14 min&nbsp;|&nbsp;Lishensuo

D2L--第十一及十二章优化算法&多GPU并行

在深度学习中,优化算法是训练模型的关键部分,它们用于更新网络的参数以最小化损失函数。 由于优化算法的目标函数通常是基于训练数据集的损失函数,因此优化的目标是减少训练误差。 NOTE: 深度学习的最终目标是减小泛化误差,所以在关注优化算法的同时,也要注意过拟合。 ...

Create:&nbsp;<span title='2024-08-24 00:00:00 +0000 UTC'>2024-08-24</span>&nbsp;|&nbsp;Update:&nbsp;2024-08-24&nbsp;|&nbsp;Words:&nbsp;4818&nbsp;|&nbsp;10 min&nbsp;|&nbsp;Lishensuo
« Prev Page
© 2025 Li's Bioinfo-Blog Powered by Hugo & PaperMod
您是本站第 位访问者,总浏览量为 次