【发布时间】:2018-12-12 19:47:00
【问题描述】:
我正在尝试使用
实现相似性函数- N-克
- TF-IDF
- 余弦相似度
概念:
words = [...]
word = '...'
similarity = predict(words,word)
def predict(words,word):
words_ngrams = create_ngrams(words,range=(2,4))
word_ngrams = create_ngrams(word,range=(2,4))
words_tokenizer = tfidf_tokenizer(words_ngrams)
word_vec = words_tokenizer.transform(word)
return cosine_similarity(word_ved,words_tokenizer)
我在网上搜索了一个简单而安全的实现,但我找不到一个使用 已知 python 包作为 sklearn、nltk、scipy 等的实现。
他们中的大多数使用“自制”计算。
我试图避免每一步都手动编码,我猜想对于所有“那个管道”都有一个简单的修复方法。
任何帮助(和代码)将不胜感激。 tnx :)
【问题讨论】:
标签: python machine-learning tf-idf n-gram cosine-similarity