【发布时间】:2021-07-29 09:56:23
【问题描述】:
我有一个 HDFS 位置,并且该位置中有一个 zip 文件
HDFS 位置 /development/staging/b8baf3f4-abce-11eb-8592-0242ac110032/records.zip
scala> val loc = "/development/staging/b8baf3f4-abce-11eb-8592-0242ac110032/"
loc: String = "/development/staging/b8baf3f4-abce-11eb-8592-0242ac110032/"
scala> val rdd = sc.textFile(loc)
rdd: org.apache.spark.rdd.RDD[String] = /development/staging/b8baf3f4-abce-11eb-8592-0242ac110032/ MapPartitionsRDD[1] at textFile at <console>:26
scala> rdd.take(2)
res0: Array[String] = Array(PK????????]R�R��*�????�??? ???2972120.dat�S�r�0?
��*�0����?t?�]T�Ж??����
`�6ط�kU;P�M�� rSO�;G��p��?��?�Z1^3@�^�� ��F��ٕb�?~,ٖ
�u6�D��'�@�??��L*�Gp?�kcL�7!r�p1�1e�� a*.{?
�.;��������s�(�)�, ?�=�9U<"*!?5��?;�?�?�مd{h}
��gG���� �?�Z)
但它产生的输出不同
你能帮助我如何使用 spark RDD 读取 zip 文件中的文件吗?我的 zip 文件中只有一个文件
【问题讨论】:
-
这能回答你的问题吗? How to open/stream .zip files through Spark?
-
在 Scala 代码中寻找解决方案
标签: apache-spark