【发布时间】:2016-06-20 08:27:24
【问题描述】:
在对一袋词实施线性回归模型期间,python 返回了非常大/低的值。 train_data_features 包含训练数据中的所有单词。训练数据包含大约 400 个 cmets,每个字符少于 500 个,排名在 0 到 5 之间。之后,我为每个文档创建了一个词袋。在尝试对所有词袋的矩阵进行线性回归时,
from sklearn import linear_model
clf = linear_model.LinearRegression()
clf.fit(train_data_features, train['dim_hate'])
coef = clf.coef_
words = vectorizer.get_feature_names()
for i in range(len(words)):
print(str(words[i]) + " " + str(coef[i]))
结果似乎很奇怪(只是 4000 中的 3 的示例)。它显示了为单词创建的回归函数的因素。
btw -0.297473967075
land 54662731702.0
landesrekord -483965045.253
我很困惑,因为目标变量在 0 到 5 之间,但因素却如此不同。他们中的大多数都有非常高/低的数字,我只期望像btw 这样的值。
你有什么想法,为什么结果会像现在这样?
【问题讨论】:
标签: python python-3.x numpy scikit-learn data-analysis