【问题标题】:How to access custom UDFs through Spark Thrift Server?如何通过 Spark Thrift Server 访问自定义 UDF?
【发布时间】:2018-01-15 02:54:57
【问题描述】:

我在 EMR 上运行 Spark Thrift 服务器。我通过以下方式启动 Spark Thrift 服务器:

  sudo -u spark /usr/lib/spark/sbin/start-thriftserver.sh --queue interactive.thrift --jars /opt/lib/custom-udfs.jar

请注意,我有一个客户 UDF jar,我想将其添加到 Thrift Server 类路径,因此我在上述命令中添加了 --jars /opt/lib/custom-udfs.jar。

进入 EMR 后,我发出以下命令以连接到 Spark Thrift 服务器。

beeline -u jdbc:hive2://localhost:10000/default

然后我就可以发出 show databases 之类的命令了。但是如何访问自定义 UDF?我想通过在 Thrift Server 启动脚本中添加 --jars 选项,这将添加 jar 供 Hive 资源使用。

我现在可以访问自定义 UDF 的唯一方法是将客户 UDF jar 添加到 Hive 资源

add jar /opt/lib/custom-udfs.jar

然后创建UDF的函数。

问题: 有没有办法自动配置自定义 UDF jar 而无需每次都向 spark 会话添加 jar?

谢谢!

【问题讨论】:

  • 这有什么更新吗?为清楚起见,custom-udfs.jar 是否包含 Spark SQL udf 或 Hive UDF(作为 hive UDF 类的扩展实现)?

标签: hive user-defined-functions amazon-emr spark-thriftserver


【解决方案1】:

最简单的方法是编辑文件start-thriftserver.sh,最后:

  1. 等待服务器准备就绪
  2. 执行设置 SQL 查询

您也可以在 JIRA 上发布提案,这是一个非常好的功能“在启动时执行设置代码”。

【讨论】:

    猜你喜欢
    • 2015-01-22
    • 2017-03-31
    • 2016-02-15
    • 2016-12-15
    • 2021-11-27
    • 2019-06-08
    • 1970-01-01
    • 2017-03-15
    • 2013-05-17
    相关资源
    最近更新 更多