【问题标题】:Spark SQL - Escape Query StringSpark SQL - 转义查询字符串
【发布时间】:2015-11-05 06:55:48
【问题描述】:

我不敢相信我在问这个但是......

如何使用 SCALA 在 SPARK SQL 中转义 SQL 查询字符串?

我已经厌倦了一切,到处寻找。我认为 apache commons library 会做到这一点,但没有运气:

import org.apache.commons.lang.StringEscapeUtils

var sql = StringEscapeUtils.escapeSql("'Ulmus_minor_'Toledo'");

df.filter("topic = '" + sql + "'").map(_.getValuesMap[Any](List("hits","date"))).collect().foreach(println);

返回以下内容:

topic = '''Ulmus_minor_''托莱多''' ^ 在 org.apache.spark.sql.catalyst.SqlParser.parseExpression(SqlParser.scala:45) 的 scala.sys.package$.error(package.scala:27​​) 在 org.apache.spark.sql.DataFrame.filter(DataFrame.scala:651) 在 $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.(:29) 在 $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.(:34) 在 $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.(:36) 在 $iwC$$iwC$$iwC$$iwC$$iwC$$iwC.(:38) 在 $iwC$$iwC$$iwC$$iwC$$iwC.(:40) 在 $iwC$$iwC$$iwC$$iwC.(:42) 在 $iwC$$iwC$$iwC.(:44) 在 $iwC$$iwC.(:46) 在 $iwC.(:48) 在 (:50) 在 .(:54) 在 .() 在 .(:7) at .() at $print() 在 sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 在 java.lang.reflect.Method.invoke(Method.java:497) 在 org.apache.spark.repl.SparkIMain$ReadEvalPrint.call(SparkIMain.scala:1065) 在 org.apache.spark.repl.SparkIMain$Request.loadAndRun(SparkIMain.scala:1338) 在 org.apache.spark.repl.SparkIMain.loadAndRunReq$1(SparkIMain.scala:840) 在 org.apache.spark.repl.SparkIMain.interpret(SparkIMain.scala:871) 在 org.apache.spark.repl.SparkIMain.interpret(SparkIMain.scala:819) 在 org.apache.spark.repl.SparkILoop.reallyInterpret$1(SparkILoop.scala:857) 在 org.apache.spark.repl.SparkILoop.interpretStartingWith(SparkILoop.scala:902) 在 org.apache.spark.repl.SparkILoop.command(SparkILoop.scala:814) 在 org.apache.spark.repl.SparkILoop.processLine$1(SparkILoop.scala:657) 在 org.apache.spark.repl.SparkILoop.innerLoop$1(SparkILoop.scala:665) 在 org.apache.spark.repl.SparkILoop.org$apache$spark$repl$SparkILoop$$loop(SparkILoop.scala:670) 在 org.apache.spark.repl.SparkILoop$$anonfun$org$apache$spark$repl$SparkILoop$$process$1.apply$mcZ$sp(SparkILoop.scala:997) 在 org.apache.spark.repl.SparkILoop$$anonfun$org$apache$spark$repl$SparkILoop$$process$1.apply(SparkILoop.scala:945) 在 org.apache.spark.repl.SparkILoop$$anonfun$org$apache$spark$repl$SparkILoop$$process$1.apply(SparkILoop.scala:945) 在 scala.tools.nsc.util.ScalaClassLoader$.savingContextLoader(ScalaClassLoader.scala:135) 在 org.apache.spark.repl.SparkILoop.org$apache$spark$repl$SparkILoop$$process(SparkILoop.scala:945) 在 org.apache.spark.repl.SparkILoop.process(SparkILoop.scala:1059) 在 org.apache.spark.repl.Main$.main(Main.scala:31) 在 org.apache.spark.repl.Main.main(Main.scala) 在 sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 在 java.lang.reflect.Method.invoke(Method.java:497) 在 org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:665) 在 org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:170) 在 org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:193) 在 org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:112) 在 org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

帮助会很大。

j

【问题讨论】:

    标签: sql scala apache-spark apache-spark-sql


    【解决方案1】:

    这可能令人惊讶,但是:

    var sql = "'Ulmus_minor_'Toledo'"
    df.filter(s"""topic = "$sql"""")
    

    工作得很好,虽然使用它会更干净:

    df.filter($"topic" <=> sql)
    

    【讨论】:

    • 谢谢老兄。很确定我遇到过这种语法,但不确定在哪里。
    • 也可以是df.filter("topic = \"" + sql + "\"")
    • 这是否也转义双引号?
    • DSL 语法是肯定的。第一个选项我不确定,但我对此表示怀疑。
    • 三引号通常是最安全的方法,除非您想匹配foo"""bar 之类的内容。在这种情况下,您通常可以使用string interpolation 解决问题。 val q ="""""""; s"""foo"$q"bar"""
    【解决方案2】:

    问题的标题一般是关于在 SparkSQL 中转义字符串,因此提供适用于任何字符串的答案可能会有好处,无论它在表达式中如何使用。

    def sqlEscape(s: String) = 
      org.apache.spark.sql.catalyst.expressions.Literal(s).sql
    
    sqlEscape("'Ulmus_minor_'Toledo' and \"om\"")
    res0: String = '\'Ulmus_minor_\'Toledo\' and "om"'
    

    【讨论】:

    • 是否有 PySpark 的等价物? PySpark 也有一个 lit(string) 函数,但我不知道如何从中获取 SQL 转义字符串(或者如果这可能的话)。
    最近更新 更多