【发布时间】:2016-09-19 23:38:51
【问题描述】:
我刚开始使用 spark 并正在尝试运行逻辑回归。 我不断收到此错误:
Caused by: java.lang.IllegalArgumentException: requirement failed:
Dimensions mismatch when adding new sample. Expecting 21 but got 17.
我拥有的功能数量是 21 ,但我不确定 17 在这里是什么意思。不知道该怎么办? 我的代码在这里:
from pyspark.mllib.regression import LabeledPoint
from numpy import array
def isfloat(string):
try:
float(string)
return True
except ValueError:
return False
def parse_interaction(line):
line_split = line.split(",")
# leave_out = [1,2,3]
clean_line_split = line_split[3:24]
retention = 1.0
if line_split[0] == '0.0':
retention = 0.0
return LabeledPoint(retention, array([map(float,i) for i in clean_line_split if isfloat(i)]))
training_data = raw_data.map(parse_interaction)
from pyspark.mllib.classification import LogisticRegressionWithLBFGS
from time import time
t0 = time()
logit_model = LogisticRegressionWithLBFGS.train(training_data)
tt = time() - t0
print "Classifier trained in {} seconds".format(round(tt,3))
【问题讨论】:
-
由于您在创建
array时过滤掉了值,因此它的长度可以在 0 和预期大小之间。丢弃格式错误的条目会更有意义。
标签: python apache-spark pyspark logistic-regression