【问题标题】:[Amazon](500310) Invalid operation: Assert[亚马逊](500310) 无效操作:断言
【发布时间】:2018-06-08 02:04:30
【问题描述】:

我正在使用 spark-redshift 并使用 pyspark 查询 redshift 数据进行处理。

如果我使用工作台等在 redshift 上运行,查询工作正常。但是 spark-redshift 将数据卸载到 s3 然后检索它,当我运行它时它会抛出以下错误。

py4j.protocol.Py4JJavaError: An error occurred while calling o124.save.
: java.sql.SQLException: [Amazon](500310) Invalid operation: Assert
Details: 
 -----------------------------------------------
  error:  Assert
  code:      1000
  context:   !AmLeaderProcess - 
  query:     583860
  location:  scheduler.cpp:642
  process:   padbmaster [pid=31521]
  -----------------------------------------------;
    at com.amazon.redshift.client.messages.inbound.ErrorResponse.toErrorException(ErrorResponse.java:1830)
    at com.amazon.redshift.client.PGMessagingContext.handleErrorResponse(PGMessagingContext.java:822)
    at com.amazon.redshift.client.PGMessagingContext.handleMessage(PGMessagingContext.java:647)
    at com.amazon.jdbc.communications.InboundMessagesPipeline.getNextMessageOfClass(InboundMessagesPipeline.java:312)
    at com.amazon.redshift.client.PGMessagingContext.doMoveToNextClass(PGMessagingContext.java:1080)
    at com.amazon.redshift.client.PGMessagingContext.getErrorResponse(PGMessagingContext.java:1048)
    at com.amazon.redshift.client.PGClient.handleErrorsScenario2ForPrepareExecution(PGClient.java:2524)
    at com.amazon.redshift.client.PGClient.handleErrorsPrepareExecute(PGClient.java:2465)
    at com.amazon.redshift.client.PGClient.executePreparedStatement(PGClient.java:1420)
    at com.amazon.redshift.dataengine.PGQueryExecutor.executePreparedStatement(PGQueryExecutor.java:370)
    at com.amazon.redshift.dataengine.PGQueryExecutor.execute(PGQueryExecutor.java:245)
    at com.amazon.jdbc.common.SPreparedStatement.executeWithParams(Unknown Source)
    at com.amazon.jdbc.common.SPreparedStatement.execute(Unknown Source)
    at com.databricks.spark.redshift.JDBCWrapper$$anonfun$executeInterruptibly$1.apply(RedshiftJDBCWrapper.scala:108)
    at com.databricks.spark.redshift.JDBCWrapper$$anonfun$executeInterruptibly$1.apply(RedshiftJDBCWrapper.scala:108)
    at com.databricks.spark.redshift.JDBCWrapper$$anonfun$2.apply(RedshiftJDBCWrapper.scala:126)
    at scala.concurrent.impl.Future$PromiseCompletingRunnable.liftedTree1$1(Future.scala:24)
    at scala.concurrent.impl.Future$PromiseCompletingRunnable.run(Future.scala:24)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
Caused by: com.amazon.support.exceptions.ErrorException: [Amazon](500310) Invalid operation: Assert

生成的查询:

UNLOAD ('SELECT “x”,”y" FROM (select x,y from table_name where 
((load_date=20171226 and hour>=16) or (load_date between 20171227 and 
20171226) or (load_date=20171227 and hour<=16))) ') TO ‘s3:s3path' WITH 
CREDENTIALS ‘aws_access_key_id=xxx;aws_secret_access_key=yyy' ESCAPE 
MANIFEST

这是什么问题,我该如何解决。

【问题讨论】:

  • 您是否尝试过简化查询?您不需要带有大写字母的包装器。断言错误通常发生在解释数据类型出现问题时,例如对于union 查询的两部分,其中一部分中的第 N 列是 varchar,而在另一部分中,同一列是整数或空值。可能是来自不同节点的数据的断言错误。
  • 实际上我使用的查询只是内部部分..外部部分(包装器)被生成,因为它必须卸载到 s3。我猜它来自 spark-redshift。
  • 如果在工作台中使用完整的生成查询会怎样?它是否返回相同的错误?
  • 使用 unload 语句是的,它会产生相同的断言错误。但只有它执行正常的查询。
  • 尝试为每一列添加明确的数据格式,例如x::integer

标签: amazon-s3 pyspark apache-spark-sql amazon-redshift


【解决方案1】:

断言错误通常发生在解释数据类型出现问题时,例如对于union 查询的两部分,其中一部分的第 N 列是 varchar,而另一部分的同一列是整数或空值。也许您的断言错误发生在来自不同节点的数据上(就像在联合查询中一样)。尝试为每一列添加明确的数据格式,例如x::integer

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-11-26
    • 1970-01-01
    • 1970-01-01
    • 2015-03-22
    • 2016-11-26
    • 2012-12-08
    • 2012-02-01
    • 2019-01-27
    相关资源
    最近更新 更多