1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
|
## 单个词
print(tokenizer.token_to_id("[SEP]"))
# 2
print(tokenizer.id_to_token(1))
# [CLS]
## 一个文本句输入
output = tokenizer.encode("Hello, y'all! How are you 😁 ?")
print(output.tokens)
print(output.ids)
print(output.attention_mask)
# ['Hello', ',', 'y', "'", 'all', '!', 'How', 'are', 'you', '[UNK]', '?']
# [27195, 16, 93, 11, 5069, 5, 7929, 5084, 6191, 0, 35]
# [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
## 一个输入包含两个句子
output = tokenizer.encode("Hello, y'all!", "How are you 😁 ?")
print(output.tokens)
# ['Hello', ',', 'y', "'", 'all', '!', 'How', 'are', 'you', '[UNK]', '?']
|