【发布时间】:2019-06-03 10:57:30
【问题描述】:
我有一个包含约 10,000 行车辆的数据集,该数据集在类似于 Craigslist 的门户网站上出售。列包括价格、里程、编号。以前的车主,汽车多久售出(以天为单位),最重要的是描述车辆的文本主体(例如“无事故,定期维修”)。
我想知道包含哪些关键字会导致汽车更快售出。但是,我了解汽车的销售速度还取决于其他因素,尤其是价格和里程。
在 scikit-learn 中运行 TfidfVectorizer 导致预测准确性非常差。不确定我是否应该尝试在回归模型中包含价格、里程等,因为它看起来很复杂。目前正在考虑对足够大的数据的特定部分重复 TF-IDF 回归(也许丰田的价格在 1 万到 2 万美元之间)。
最后的手段是绘制两个直方图,一个包含特定单词/短语的车辆列表,另一个用于不包含特定单词/短语的车辆列表。这里的限制是我选择绘制的单词将基于我的主观意见。
还有其他方法可以找出哪些关键字可能很重要吗?提前致谢。
【问题讨论】:
-
你在
sklearn中使用了哪个分类器?大多数线性分类器应该有一个_coef属性,它告诉你一些关于特征信息的事情stackoverflow.com/questions/11116697/… 但是如果分类器不是线性的,它就会变得棘手,例如medium.com/usf-msds/… -
我使用的是线性回归器。你提出了一个很好的观点——这种关系可能不是线性的。将尝试多项式回归器,看看结果是否有所改善。
标签: python scikit-learn nlp regression prediction