【发布时间】:2012-11-17 12:56:15
【问题描述】:
我正在处理一个数据库 (2.5 GB),有些表只有 40 行,有些表有 900 万行数据。 当我对大表进行任何查询时,它需要更多时间。 我希望在更短的时间内获得结果
对只有 90 行的表的小查询-->
hive> select count(*) from cidade;
Time taken: 50.172 seconds
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
<description>Default block replication.
The actual number of replications can be specified when the file is created.
The default is used if replication is not specified in create time.
</description>
</property>
<property>
<name>dfs.block.size</name>
<value>131072</value>
<description>Default block replication.
The actual number of replications can be specified when the file is created.
The default is used if replication is not specified in create time.
</description>
</property>
</configuration>
这些设置会影响 hive 的性能吗?
dfs.replication=3
dfs.block.size=131072
我可以从 hive 提示中将其设置为
hive>set dfs.replication=5
这个值是否只保留在特定会话中?
还是改成 .xml 文件更好?
【问题讨论】:
标签: hive