在 Spark 中将 MS Access 表加载为 DataFrame答案

【问题标题】：Load MS Access table as DataFrame in Spark在 Spark 中将 MS Access 表加载为 DataFrame
【发布时间】：2018-10-15 09:46:59
【问题描述】：

我正在尝试从 MS Access 数据库加载表。

我是这样做的：

val table = sparkSession.read
    .format("jdbc")
    .option("url", "jdbc:ucanaccess://D:/User/test.mdf;memory=false")
    .option("dbtable", "my_table")
    .load()
    .toDF

我添加了这些依赖项

ucanaccess-4.0.1，
hsqldb-2.4.1,
jackcess-2.1.6,
commons-lang3-3.8.1
commons-logging-1.2.

我得到了这个例外：

Caused by: net.ucanaccess.jdbc.UcanaccessSQLException: UCAExc:::4.0.1 incompatible data type in conversion: from SQL type CHARACTER to java.lang.Integer, value: Maj_ID
at net.ucanaccess.jdbc.UcanaccessResultSet.getInt(UcanaccessResultSet.java:447)
at org.apache.spark.sql.execution.datasources.jdbc.JdbcUtils$$anonfun$org$apache$spark$sql$execution$datasources$jdbc$JdbcUtils$$makeGetter$6.apply(JdbcUtils.scala:411)
at org.apache.spark.sql.execution.datasources.jdbc.JdbcUtils$$anonfun$org$apache$spark$sql$execution$datasources$jdbc$JdbcUtils$$makeGetter$6.apply(JdbcUtils.scala:410)
at org.apache.spark.sql.execution.datasources.jdbc.JdbcUtils$$anon$1.getNext(JdbcUtils.scala:347)
at org.apache.spark.sql.execution.datasources.jdbc.JdbcUtils$$anon$1.getNext(JdbcUtils.scala:329)
at org.apache.spark.util.NextIterator.hasNext(NextIterator.scala:73)

【问题讨论】：

您不使用 ucanaccess-4.0.4 有什么原因吗？查看更改日志，至少有一个与 CHAR 相关的问题自 4.0.1 以来已修复 - 我并不是说这是您的修复，但检查是否是这种情况应该很简单。
我同意@SimonGroenewolt - 下载the latest version of UCanAccess，运行console.bat 或console.sh，加载数据库文件，看看UCanAccess 是否报告任何错误。如果没有，请尝试SELECT * FROM my_table; 看看是否有效。

标签： scala apache-spark ms-access jdbc ucanaccess

【解决方案1】：

我遇到了同样的问题，找到了答案here。

这是由于 net.ucanaccess.jdbc.UcanaccessDriver 在 Apache Spark 中没有专用的 JDBC 方言，因此它回退到具有用于列转义的双引号的默认方言，然后将它们视为字符串文字。显然，列应该用反引号字符转义。

在最新版本的 Spark 中（肯定可以在 Spark 2.4 和 3.x 中工作），您只需像这样注册方言来修复它：

import org.apache.spark.sql.jdbc.{JdbcDialect, JdbcDialects}

object UcanaccessDialect extends JdbcDialect {
  override def canHandle(url: String): Boolean =
    url.toLowerCase(java.util.Locale.ROOT).startsWith("jdbc:ucanaccess")
  override def quoteIdentifier(colName: String): String = s"`$colName`"
}

【讨论】：