【问题标题】:My file gets truncated in Hive after uploading it completely to Cloudera Hue将文件完全上传到 Cloudera Hue 后,我的文件在 Hive 中被截断
【发布时间】:2015-10-21 21:12:23
【问题描述】:

我正在使用 Cloudera 的 Hue。在文件浏览器中,我上传了一个大约 3,000 行的 .csv 文件(我的文件很小,

上传文件后,我转到数据浏览器,创建一个表并将数据导入其中。

当我转到 Hive 并执行一个简单的查询(比如 SELECT * FROM 表)时,我只看到 99 行的结果。原始 .csv 的行数不止这些行。

当我进行其他查询时,我注意到有几行数据丢失了,尽管它们显示在 Hue 文件浏览器的预览中。

我尝试过使用其他文件,但有时它们也会被截断为 65 行或 165 行。

在上传文件之前,我还删除了 .csv 数据中的所有“,”。

【问题讨论】:

  • Hue 版本
  • Hue 版本是 3.7.0。

标签: hive cloudera hue data-import


【解决方案1】:

我终于解决了这个问题。有几个问题似乎会导致截断。

主要是导入数据后自动设置的变量类型是按照第一行赋值的。因此,当数据类型从 TinyINT 更改为 INT 时,它会被截断或更改为“NULL”。要解决此问题,请在创建表之前执行 EDA 并更改数据类型。

其他问题是我分配给虚拟机的内存减慢了预览过程,并且 csv 包含逗号。您可以将 VM 设置为拥有更多内存或将 csv 更改为制表符分隔。

【讨论】:

猜你喜欢
  • 2022-10-22
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2015-05-27
  • 1970-01-01
  • 2016-01-10
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多