【发布时间】:2021-05-10 15:01:47
【问题描述】:
标记化后如何获取(未知数据集的)词汇表的大小?
那是代码:
f = open("parallel2200Tab.txt","r")
pairs = [line.strip().split("\t") for line in f]
f.close()
docs = tf.data.Dataset.from_tensor_slices(pairs)
tokenizer = text.WhitespaceTokenizer()
tokenized_docs = docs.map(lambda x: tokenizer.tokenize(x))
我需要知道词汇量的大小来训练我的模型。
【问题讨论】:
标签: tensorflow nlp tokenize