【发布时间】:2017-07-03 12:23:37
【问题描述】:
您好,我愿意在我的数据库中插入一个 10Gb 的 CSV 文件。 它适用于小文件,但对于较大的文件,我总是收到错误消息。
这是我的代码:
DataFrame df = sqlContext
.read()
.format("com.databricks.spark.csv")
.option("delimiter", ";")
.load("file:///home/1.csv");
df.write().mode(SaveMode.Append).saveAsTable("mynode.mytable");
解决此问题的最佳解决方案是什么? 我应该将我的 10Gb 文件拆分成更小的文件吗?那么什么是合适的尺寸? 我应该增加堆大小吗?
我会选择第一种解决方案,但我不确定它是否是最佳选择。
感谢您的帮助。
【问题讨论】:
标签: java apache-spark garbage-collection