【发布时间】:2018-01-15 02:54:57
【问题描述】:
我在 EMR 上运行 Spark Thrift 服务器。我通过以下方式启动 Spark Thrift 服务器:
sudo -u spark /usr/lib/spark/sbin/start-thriftserver.sh --queue interactive.thrift --jars /opt/lib/custom-udfs.jar
请注意,我有一个客户 UDF jar,我想将其添加到 Thrift Server 类路径,因此我在上述命令中添加了 --jars /opt/lib/custom-udfs.jar。
进入 EMR 后,我发出以下命令以连接到 Spark Thrift 服务器。
beeline -u jdbc:hive2://localhost:10000/default
然后我就可以发出 show databases 之类的命令了。但是如何访问自定义 UDF?我想通过在 Thrift Server 启动脚本中添加 --jars 选项,这将添加 jar 供 Hive 资源使用。
我现在可以访问自定义 UDF 的唯一方法是将客户 UDF jar 添加到 Hive 资源
add jar /opt/lib/custom-udfs.jar
然后创建UDF的函数。
问题: 有没有办法自动配置自定义 UDF jar 而无需每次都向 spark 会话添加 jar?
谢谢!
【问题讨论】:
-
这有什么更新吗?为清楚起见,
custom-udfs.jar是否包含 Spark SQL udf 或 Hive UDF(作为 hive UDF 类的扩展实现)?
标签: hive user-defined-functions amazon-emr spark-thriftserver