array(2) { ["docs"]=> array(10) { [0]=> array(10) { ["id"]=> string(3) "428" ["text"]=> string(77) "Visual Studio 2017 单独启动MSDN帮助(Microsoft Help Viewer)的方法" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(8) "DonetRen" ["tagsname"]=> string(55) "Visual Studio 2017|MSDN帮助|C#程序|.NET|Help Viewer" ["tagsid"]=> string(23) "[401,402,403,"300",404]" ["catesname"]=> string(0) "" ["catesid"]=> string(2) "[]" ["createtime"]=> string(10) "1511400964" ["_id"]=> string(3) "428" } [1]=> array(10) { ["id"]=> string(3) "427" ["text"]=> string(42) "npm -v;报错 cannot find module "wrapp"" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(4) "zzty" ["tagsname"]=> string(50) "node.js|npm|cannot find module "wrapp“|node" ["tagsid"]=> string(19) "[398,"239",399,400]" ["catesname"]=> string(0) "" ["catesid"]=> string(2) "[]" ["createtime"]=> string(10) "1511400760" ["_id"]=> string(3) "427" } [2]=> array(10) { ["id"]=> string(3) "426" ["text"]=> string(54) "说说css中pt、px、em、rem都扮演了什么角色" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(12) "zhengqiaoyin" ["tagsname"]=> string(0) "" ["tagsid"]=> string(2) "[]" ["catesname"]=> string(0) "" ["catesid"]=> string(2) "[]" ["createtime"]=> string(10) "1511400640" ["_id"]=> string(3) "426" } [3]=> array(10) { ["id"]=> string(3) "425" ["text"]=> string(83) "深入学习JS执行--创建执行上下文(变量对象,作用域链,this)" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(7) "Ry-yuan" ["tagsname"]=> string(33) "Javascript|Javascript执行过程" ["tagsid"]=> string(13) "["169","191"]" ["catesname"]=> string(0) "" ["catesid"]=> string(2) "[]" ["createtime"]=> string(10) "1511399901" ["_id"]=> string(3) "425" } [4]=> array(10) { ["id"]=> string(3) "424" ["text"]=> string(30) "C# 排序技术研究与对比" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(9) "vveiliang" ["tagsname"]=> string(0) "" ["tagsid"]=> string(2) "[]" ["catesname"]=> string(8) ".Net Dev" ["catesid"]=> string(5) "[199]" ["createtime"]=> string(10) "1511399150" ["_id"]=> string(3) "424" } [5]=> array(10) { ["id"]=> string(3) "423" ["text"]=> string(72) "【算法】小白的算法笔记:快速排序算法的编码和优化" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(9) "penghuwan" ["tagsname"]=> string(6) "算法" ["tagsid"]=> string(7) "["344"]" ["catesname"]=> string(0) "" ["catesid"]=> string(2) "[]" ["createtime"]=> string(10) "1511398109" ["_id"]=> string(3) "423" } [6]=> array(10) { ["id"]=> string(3) "422" ["text"]=> string(64) "JavaScript数据可视化编程学习(二)Flotr2,雷达图" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(7) "chengxs" ["tagsname"]=> string(28) "数据可视化|前端学习" ["tagsid"]=> string(9) "[396,397]" ["catesname"]=> string(18) "前端基本知识" ["catesid"]=> string(5) "[198]" ["createtime"]=> string(10) "1511397800" ["_id"]=> string(3) "422" } [7]=> array(10) { ["id"]=> string(3) "421" ["text"]=> string(36) "C#表达式目录树(Expression)" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(4) "wwym" ["tagsname"]=> string(0) "" ["tagsid"]=> string(2) "[]" ["catesname"]=> string(4) ".NET" ["catesid"]=> string(7) "["119"]" ["createtime"]=> string(10) "1511397474" ["_id"]=> string(3) "421" } [8]=> array(10) { ["id"]=> string(3) "420" ["text"]=> string(47) "数据结构 队列_队列实例:事件处理" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(7) "idreamo" ["tagsname"]=> string(40) "C语言|数据结构|队列|事件处理" ["tagsid"]=> string(23) "["246","247","248",395]" ["catesname"]=> string(12) "数据结构" ["catesid"]=> string(7) "["133"]" ["createtime"]=> string(10) "1511397279" ["_id"]=> string(3) "420" } [9]=> array(10) { ["id"]=> string(3) "419" ["text"]=> string(47) "久等了,博客园官方Android客户端发布" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(3) "cmt" ["tagsname"]=> string(0) "" ["tagsid"]=> string(2) "[]" ["catesname"]=> string(0) "" ["catesid"]=> string(2) "[]" ["createtime"]=> string(10) "1511396549" ["_id"]=> string(3) "419" } } ["count"]=> int(200) } 222 spark遇到的问题(持续更新) - 爱码网

1.DataFrame使用unionAll算子

java.util.concurrent.ExecutionException: org.apache.spark.sql.AnalysisException: Union can only be performed on tables with the same number of columns, but the left table has 44 columns and the right has 45;

问题描述:unionAll需要两个DataFrame拥有一样的列,如果连接两个表,则需要两个表字段数量一致。如果不一致,则可以采取一些处理方法:加载的时候加载的字段一致。该算子本人经常使用,但是还是踩了坑:如下,我需要将一个天表数据按照一个小时为粒度取出,分开进行hiveSql运算,合并接着运算,最终得到一个DF,但是由于经过hiveContext.sql之后的字段有了改变,所以,这个坑还是无意外的踩了。

spark遇到的问题(持续更新)

解决方法:可以对每个小时的数据进行取出,得到df1(原始数据集),进行hiveContext.sql操作,得到df2,此时df1与df2字段个数不同,将df2存进DataFrame数组dfs,然后依次将24小时存进数组dfs。此时dfs一共拥有24个df2字段数一直的DataFrame。

此时,可遍历依次将dfs[index]的数据集unionAll操作,sql操作,得到新的DataFrame。

此方法可以解决大的DataFrame计算完,无法进行存储的缺陷。(为什么这么说,如果一次性加载一天的数据,数据量大概为3000W条,字段数为12个,通过计算,主要是hiveContext.sql计算,得到480W数据量,此时DataFrame好像只有count操作能够执行,其它的都执行不了。也不能进行forEachPartition操作,这是因为JVM内存限制,可能跟设置无关,因为我需要将计算结果入库,所以必须要实现DataFrame进行forEachPartition)。代码做了一点优化,将每小时的数据合并成每六小时。

为什么一定要这么实现dataFrame入库(mysql)?

本人尝试:①使用原生的dataframe.jdbc,结果:入库慢,一般地10万数据,几十个字段,使用forEachPartition批量入,大概10s,使用官方jdbc需要3~4min。最重要的是也无法对我实际中产生的数据入库。(一条都没入库,处于计算完待入库,转换过程中歇菜~)

②原来的入库方式是dataFrame.toJavaRdd().forEachPartition(),对小数据量能入,对计算量大数据量大的不能入,观察sparkUI发现,卡在.toJavaRdd算子上,所以想改造dataFrame直接入库,dataFrame.forEachPartition形式。实现scala.Function1类即可。结果:与DataFrame.toJavaRdd一样入不了库,通过查看源码发现,基本所有的dataFrame算子都会转换成rdd的形式,此例子的也是。

③为什么dataFrame可以count却不能进行其他算子操作,想去模仿count的实现(scala实现),发现是空指针。。

④大的dataFrame转换成小的dataFrame,尝试dataFrame.randomSplit操作,将分割成若干个小df,结果表明,任何想要操作大dataFrame的行为都是不可行的!

⑤所以,只能将小的dataFrame计算完,与其他小的dataFrame.unionAll的方式,进行处理。我们此处是数据量经过处理一定会变小,1+1<2的形式,经过实践,此方法可行,就是时间很慢,计算需要7s,计算完到入库完,需要7~8min.

 

spark遇到的问题(持续更新)

原因:DataFrame不是不能够对大数据量的数据表进行操作,而是需要提高加载并行度,将数据分布到各个执行器上,hiveContext.read().jdbc算是转换算子,会惰性执行,可以将加载后的数据进行缓存提高速度。

 2.说到forEachPartition入库操作,就得顺带一提序列化陷阱。

使用forEachPartition对每个分区的数据进行存储操作,传入forEachPartition匿名类的所有参数对象都必须序列化,dataSource是一定传不了的,还想着少建立与数据库连接,此时为空指针,需要在匿名类内创建。还有日志也是打印不了的,可以传递些字符串或者自定义序列化过的bean等。

 

3.提高Spark并行度

①设置参数:

spark.default.parallelism=60 (应该为总executor-cores的2~3倍,官方推荐)
spark.sql.shuffle.partitions = 60

只有在shuffle操作之后生效;

②如果数据在HDFS上,增大block;

③如果数据是在关系数据库上,增加加载并行度,应该是有四种方式增大并行度;

④RDD.repartition,给RDD重新设置partition的数量;

⑤reduceByKey的算子指定partition的数量;
val rdd2 = rdd1.reduceByKey(_+_,10)

⑥val rdd3 = rdd1.join(rdd2) rdd3里面partiiton的数量是由父RDD中最多的partition数量来决定,因此使用join算子的时候,增加父RDD中partition的数量。

参考博客:https://www.cnblogs.com/haozhengfei/p/e19171de913caf91228d9b432d0eeefb.html

4.hdfs错误 

Caused by: java.io.IOException: Filesystem closed

原因:多个datanode在getFileSystem过程中,由于Configuration一样,会得到同一个FileSystem。如果有一个datanode在使用完关闭连接,其它的datanode在访问就会出现上述异常
解决办法
在hdfs core-site.xml里把fs.hdfs.impl.disable.cache设置为true

5.dataFrame.write().mode("overwrite").text(hdfspath);

org.apache.spark.sql.AnalysisException: Text data source supports only a single column, and you have 6 columns.;

dataFrame只能保存一列数据,如果仍需要保存多列数据,则将多列数据合并成一列,再保存;

或者转换为RDD再保存:

dataFrame.toJavaRDD().saveAsTextFile(hdfsPath);

 6.DataFrame超过200列(>200columns)无法缓存,超过8117列无法计算。

来源:https://issues.apache.org/jira/browse/SPARK-16664

相关文章: