【发布时间】:2019-12-16 05:23:46
【问题描述】:
我们创建了一个 ImageClassifier 来预测某些 Instagram 图像是否属于某个类别。运行此模型效果很好。
#creating deep image feauturizer using the InceptionV3 lib
featurizer = DeepImageFeaturizer(inputCol="image",
outputCol="features",
modelName="InceptionV3")
#using lr for speed and reliability
lr = LogisticRegression(maxIter=5, regParam=0.03,
elasticNetParam=0.5, labelCol="label")
#define Pipeline
sparkdn = Pipeline(stages=[featurizer, lr])
spark_model = sparkdn.fit(df)
我们与我们的基表(在更高的集群上运行)分开制作。我们需要将 spark_model 预测提取为 csv 文件,然后将其导入另一个笔记本并将其与我们的基表合并。
为此,我们尝试了以下方法
image_final_estimation = spark_model.transform(image_final)
display(image_final_estimation) #since this gives an option in databricks to
download the csv
与
image_final_estimation.coalesce(1).write.csv(path = 'imagesPred2.csv') #and then we would be able to read it back in with spark.read.csv
问题是这些操作需要很长时间(可能是由于任务的性质)并且它们会使我们的集群崩溃。我们能够显示我们的结果,但不仅是使用 '.show()',也不是使用 display() 方法。
还有其他方法可以在本地保存此 csv 吗?或者我们如何才能提高这些任务的速度?
请注意,我们使用 Databricks 的社区版。
【问题讨论】:
标签: pyspark databricks