D2L--第九章现代循环神经网络
1. 门控循环单元(GRU) 传统的RNN在处理长序列时会遇到梯度消失或梯度爆炸的问题。为了解决这些问题,引入了门控机制的变种,如长短时记忆网络(...
1. 门控循环单元(GRU) 传统的RNN在处理长序列时会遇到梯度消失或梯度爆炸的问题。为了解决这些问题,引入了门控机制的变种,如长短时记忆网络(...
1. 注意力提示 1.1 生物学的注意力提示 如下的观察实验: 受试者的注意力往往首先被颜色鲜艳的红色咖啡杯吸引(非自主性); 客观存在的,对于观察者的吸引特...
1. 基础介绍 BERT(来自Transformers的双向编码器表示)基于Transformer编码器进行预训练(Pre-train),从而对输...
在深度学习中,优化算法是训练模型的关键部分,它们用于更新网络的参数以最小化损失函数。 由于优化算法的目标函数通常是基于训练数据集的损失函数,因...
2014年论文:https://proceedings.neurips.cc/paper_files/paper/2014/file/5ca...
Hugging Face是一家专注于自然语言处理(NLP)和人工智能(AI)的公司,可以认为是AI领域的Github。(下面简称HF) 一方面整理、收集了N...
https://huggingface.co/docs/tokenizers/quicktour tokenizer库的处理流程一般包括如下四步—— Normalizers: 文本句预处理,使规范化 Pre-tokenizers: 将句子初步拆分为单元词 Model:得到最终的分词token结果...
https://huggingface.co/docs/datasets/index A Dataset provides fast random access to the rows, and memory-mapping so that loading even large datasets only uses a relatively small amount of device memory. But for really, really big datasets ( > 100G) that won’t even fit on disk or in memory, an IterableDataset allows you to access and use the dataset without waiting for it to download completely! https://huggingface.co/learn/nlp-course/chapter5/4?fw=pt#streaming-datasets https://huggingface.co/docs/datasets/about_mapstyle_vs_iterable 1. 读...
torchtext.vocab 1 from torchtext.vocab import vocab 1. 定义词汇表 基于词元的频率统计表,OrderedDict 对象 1 2 3 4 vocab(ordered_dict = , #一个 OrderedDict 对象,包含词汇和它们的频率。 min_freq = 1, #指定词汇表...
在 PyTorch 中,Dataset、DataLoader 和 Sampler 是用于数据加载和处理的核心组件。它们相互配合,使得数据的加载和批处理更加高效和灵活。 Dataset 是一个...