【发布时间】:2020-03-28 10:13:49
【问题描述】:
最近我发布了这个question 并试图解决我的问题。我的问题是
- 我的方法正确吗?
- 我的例句长度分别是7和6-
(['New Delhi is the capital of India', 'The capital of India is Delhi']),即使我加上cls和sep标记,长度也是9和8。max_seq_len参数是10,那为什么x1和@987654325的最后一行@不一样? - 当我有超过 2 个句子的段落时如何嵌入?我必须一次通过一句话吗?但是在这种情况下,我不会因为我没有将所有句子一起传递而丢失信息吗?
- 我做了一些额外的研究,似乎我可以将整个段落作为一个句子传递,使用
segment_ids作为段落中所有单词的 0。对吗?
- 我做了一些额外的研究,似乎我可以将整个段落作为一个句子传递,使用
- 如何嵌入ALBERT?我看到 ALBERT 也有
tokenization.py文件。但我没有看到vocab.txt。我看到文件30k-clean.vocab。我可以用30k-clean.vocab代替vocab.txt吗?
【问题讨论】:
-
点号。 2:第 1 句长度为 7,第 2 句长度为 6
-
我已经修复了那个部分
-
1.您的方法似乎正确
-
2.您能否使用分词器检查第 1 句和第 2 句的分词,这应该会显示其中一个句子中是否有额外的单词片段
-
一般来说,词片标记化会在单词不在词汇表中时拆分单词,这会创建比输入标记数更高的标记长度
标签: python windows tensorflow tensorflow-hub