【发布时间】:2019-09-10 03:20:45
【问题描述】:
我正在尝试运行基于文本的推荐系统,以从大约 56K 零件的文件中查找零件的类别: 例如:铜管 -> 电线, 电视 -> 电子产品等
但是,在我的 8GB RAM 系统中运行时,获得推荐系统输出大约需要 4 个小时。我尝试在大约 32 GB 的 ram 上运行相同的脚本,但计算时间没有任何改善,仍然需要 4 小时。推荐系统的训练集约为 11k。
如何让我的推荐系统运行得更快?脚本似乎没有有效地利用内存。任何帮助将不胜感激。
注意:显示的示例仅用于说明,原始数据集要复杂得多。
from sklearn.neighbors import NearestNeighbors
#Code for recommendation system
def recommendhts(x,model,train):
distance,index=model.kneighbors(x.toarray(),n_neighbors=1)
mi=distance.argmax()
idx=index[mi][0]
return(train.iloc[idx]['sHTS'],distance[0][0])
#Training the model of training set
train=pd.read_csv('train0207190144.csv')
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(train['keywords'])
x=X.toarray()
df=pd.DataFrame(x,columns=vectorizer.get_feature_names())
model=NearestNeighbors(metric='correlation',n_neighbors=1)
model.fit(df)
vect=vectorizer.fit(train['keywords'])
#Fitting the Count vectoriser on keywords(product description to be queried)
x_new=vect.transform(product['keywords'])
for i in range(len(product)):
key=x_new[i]
output,probability=recommendhts(key,model,train)
编辑: 按照 cmets 中的建议,我附上了分析 Code profiling results 的结果的快照。我对 1000 行的样本运行它,所用时间约为 1085 秒。
【问题讨论】:
-
我建议您进行一些分析,以确定您将所有时间都花在了哪里。如果你发现时间都集中在一个地方,那就更容易做推荐了。您可能将大部分时间都花在 sci-kit 学习上,在这种情况下,您可以做些什么来改进代码时间。
-
训练数据集有多大?
-
@davidrpugh 训练集约为 11,000。问题是我在 8GB 系统还是 32GB 系统上运行,计算时间没有区别。
-
@fiveclubs 感谢您的回复,我会尝试您的建议。
-
计算时间不受添加更多内存影响的事实表明,计算而非内存是绑定约束。
标签: python scikit-learn knn recommendation-engine