【发布时间】:2018-10-20 10:07:46
【问题描述】:
我对 AWS Glue 有以下 2 项说明,请您说明一下。因为我需要在项目中使用胶水。
-
我想将 csv/txt 文件加载到 Glue 作业中进行处理。 (就像我们在 Spark 中使用数据帧所做的那样)。这在 Glue 中可能吗?还是我们只需要使用 Crawler 将数据抓取到 Glue 表中,然后像下面这样使用它们进行进一步处理?
empdf = glueContext.create_dynamic_frame.from_catalog( database="emp", table_name="emp_json") -
下面我使用 Spark 代码将文件加载到 Glue 中,但我收到了冗长的错误日志。我们可以直接运行 Spark 或 PySpark 代码而不需要对 Glue 进行任何更改吗?
import sys from pyspark.context import SparkContext from awsglue.context import GlueContext sc = SparkContext() glueContext = GlueContext(sc) spark = glueContext.spark_session job = Job(glueContext) job.init(args['JOB_NAME'], args) dfnew = spark.read.option("header","true").option("delimiter", ",").csv("C:\inputs\TEST.txt") dfnew.show(2)
【问题讨论】: