【发布时间】:2012-06-13 19:02:26
【问题描述】:
我的工作因错误而失败
行:14222274 / 字段:1,遇到错误字符 (ASCII 0)。其余文件未处理。
数据已压缩,我已验证文件中不存在 ASCII 0 字符。文件中只有 14222273 行,因此错误消息中打印的行号是文件末尾之后的一行。我有来自同一数据集的其他块已成功上传,所以我怀疑这要么是 BQ 错误,要么错误消息并不表示潜在问题。任何解决此问题的帮助将不胜感激。谢谢。
>>> data = open("data.csv").read()
>>> chr(0) in data
False
>>> data[-1]
'\n'
【问题讨论】:
-
嗨,John:您能否确认未压缩的文件不以结尾的 '\0' 字符结尾?
-
@MichaelManoochehri 文件中的最后一个字节是换行符。
>>> chr(0) in open("data.csv").read() False -
在没有实际数据的情况下几乎不可能进行调试。您能否将原始问题文件解压缩,将其拆分为 2 个文件,重新 gzip 并重新摄取到 BigQuery 中?或者,您是否可以仅使用原始文件的最后 2 行创建一个新文件,尝试重新提取,如果您遇到相同的错误,请告诉我们?
-
@MichaelManoochehri 我测试了这两种情况。我创建了 3 个文件,一个只包含最后 2 行,一个包含前半部分,一个包含后半部分。我压缩并上传了所有 3 个,它们都成功完成了。
标签: google-bigquery