【问题标题】:How can I use word2vec to train a classifier?如何使用 word2vec 训练分类器?
【发布时间】:2018-05-13 19:31:35
【问题描述】:

该代码用于生成 word2vec 并用它来训练朴素贝叶斯分类器。 我能够生成 word2vec 并成功使用相似函数。下一步我想使用 word2vec 来训练朴素贝叶斯分类器。目前,当我尝试在测试和训练中分割数据时,代码给出了错误。如何将 word2vec 模型转换为数组,以便将其用作训练数据。

# 导入库 将 numpy 导入为 np 将 matplotlib.pyplot 导入为 plt 将熊猫导入为 pd 导入gensim

# Importing the dataset
dataset = pd.read_csv('Restaurant_Reviews.tsv', delimiter = '\t', quoting = 3)

# Cleaning the texts
import re
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
corpus = []
for i in range(0, 1000):
    review = re.sub('[^a-zA-Z]', ' ', dataset['Review'][i])
    review = review.lower()
    review = review.split()
    ps = PorterStemmer()
    review = [ps.stem(word) for word in review if not word in set(stopwords.words('english'))]
#    for word2vec we want an array of vectors

    corpus.append(review)

#print(corpus)
X = gensim.models.Word2Vec(corpus, min_count=1,size=1000)
#print (X.most_similar("love"))


#embedding_matrix = np.zeros(len(X.wv.vocab), dtype='float32')
#for i in range(len(X.wv.vocab)):
#    embedding_vector = X.wv[X.wv.index2word[i]]
#    if embedding_vector is not None:
#        embedding_matrix[i] = embedding_vector

# Creating the Bag of Words model
#from sklearn.feature_extraction.text import CountVectorizer
#cv = CountVectorizer(max_features = 1500)
#X = cv.fit_transform(corpus).toarray()
y = dataset.iloc[:, 1].values

# Splitting the dataset into the Training set and Test set
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20, random_state = 0)

# Fitting Naive Bayes to the Training set
from sklearn.naive_bayes import GaussianNB
classifier = GaussianNB()
classifier.fit(X_train, y_train)

# Predicting the Test set results
y_pred = classifier.predict(X_test)

# Making the Confusion Matrix
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

It gives an error on line -
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20, random_state = 0)
TypeError: Expected sequence or array-like, got <class 'gensim.models.word2vec.Word2Vec'>

【问题讨论】:

标签: python word2vec naivebayes


【解决方案1】:

Word2Vec 仅提供词嵌入。如果您想通过嵌入来表征文档,则需要对每个文档中所有单词的嵌入执行平均/求和/最大操作,以获得可用于分类的 D 维向量。有关这方面的更多信息,请参阅 herethere

否则,您可以使用 Doc2Vec 模型直接生成文档嵌入,为此 gensim 也提供了非常好的提供程序。

【讨论】:

  • “这里”的链接已损坏
【解决方案2】:

每个单词都有向量,现在有两种方法可以向前推进,一种是简单地对句子中的所有单词取平均值以找到句子向量,另一种可能是使用 tfidf。

我在我正在进行的一个项目中实现了平均方法,我正在分享 github 链接,请转到标题“文本矢量化(word2vec)”,你会找到他们的代码。 https://github.com/abhibhargav29/SentimentAnalysis/blob/master/SentimentAnalysis.ipynb。但是,我建议您之前也阅读数据清理以更好地理解它。

一个重要的建议:不要在向量化之后将数据拆分为 train、cv、test,在向量化之前进行,否则会过度拟合模型。

【讨论】:

    猜你喜欢
    • 2019-12-28
    • 1970-01-01
    • 2015-04-02
    • 1970-01-01
    • 2016-08-07
    • 2016-06-19
    • 1970-01-01
    • 2018-02-04
    • 1970-01-01
    相关资源
    最近更新 更多