【发布时间】:2021-10-15 11:21:42
【问题描述】:
我想在我自己的语料库上训练 fasttext。但是,在继续之前,我有一个小问题。我是否需要将每个句子作为语料库中的不同项目,还是可以将多个句子作为一个项目?
例如,我有这个 DataFrame:
text | summary
------------------------------------------------------------------
this is sentence one this is sentence two continue | one two other
other similar sentences some other | word word sent
基本上text这个专栏是一篇文章,所以它有很多句子。由于预处理,我不再有句号.。所以问题是我可以直接做这样的事情还是需要拆分每个句子。
docs = df['text']
vectorizer = TfidfVectorizer()
vectorizer.fit_transform(docs)
从我阅读的教程中,我需要每个句子的单词列表,但是如果我有文章中的单词列表怎么办?有什么区别?这是在你自己的语料库中训练 fasttext 的正确方法吗?
谢谢!
【问题讨论】:
标签: python tensorflow gensim word-embedding fasttext