【发布时间】:2016-07-08 23:10:42
【问题描述】:
我创建了一个 PySpark 应用程序,它通过定义的模式读取数据帧中的 JSON 文件。下面的代码示例
schema = StructType([
StructField("domain", StringType(), True),
StructField("timestamp", LongType(), True),
])
df= sqlContext.read.json(file, schema)
我需要一种方法来找到如何在某种配置或 ini 文件等中定义此架构。并在 PySpark 应用程序的主程序中读取它。
如果将来有任何需要,这将帮助我修改不断变化的 JSON 的架构,而无需更改主要的 PySpark 代码。
【问题讨论】:
标签: python apache-spark pyspark apache-spark-sql