【发布时间】:2023-04-03 14:48:01
【问题描述】:
我从我的主管那里得到了一个项目任务,他声称可以在 HDInsight(适用于 Windows)中使用 Hive 来查询两种不同的文件类型,然后从中提取数据。其中一个文件是 .xls,另一个是 .csv 文件。
我已经设法使用 VS 将这两个文件上传到 Hadoop 集群,然后尝试从 .xls 文件创建 Hive 表(之前我使用教程使用 .csv 文件在 Hive 上工作得很好)但是使用.xls 文件我在尝试时经常收到“失败”错误。
我尝试了以下示例代码来创建表格、分隔、字段终止(我尝试了几个都没有成功)、文件类型(也不确定这里还可以使用什么)和目标位置。
DROP TABLE IF EXISTS table1;
CREATE EXTERNAL TABLE IF NOT EXISTS table1(id int, postcde int, city string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ' '
STORED AS TEXTFILE LOCATION 'wasb://container@resourcegroup.blob.core.windows.net/folder1/data.xls/'
我不确定这是否可能,因为这里对类似问题的回答似乎相互矛盾,但根据我的主管的说法,应该有可能使用 Hive 执行此操作 - 无需在上传到 Hadoop 之前将文件类型转换为相同的格式!
【问题讨论】:
标签: excel csv hadoop hive hiveql