【问题标题】：Hibernate, JDBC and Java performance on medium and big result setHibernate、JDBC 和 Java 在大中型结果集上的性能
【发布时间】：2012-01-24 07:25:51
【问题描述】：

问题

我们正在尝试优化我们的数据服务器应用程序。它通过 mysql 数据库存储股票和报价。而且我们对获取性能并不满意。

上下文

- database
    - table stock : around 500 lines
    - table quote : 3 000 000 to 10 000 000 lines
    - one-to-many association : one stock owns n quotes
    - fetching around 1000 quotes per request
    - there is an index on (stockId,date) in the quote table
    - no cache, because in production, querys are always different
- Hibernate 3
- mysql 5.5
- Java 6
- JDBC mysql Connector 5.1.13
- c3p0 pooling

测试和结果

协议

在 mysql 服务器上的执行时间是通过在 mysql 命令行 bin 中运行生成的 sql 查询来获得的。
服务器处于测试环境中：没有其他 DB 读数，没有 DB 写入
我们获取 857 个 AAPL 股票的报价

案例 1：关联休眠

这会用 857 个引号对象填充我们的 stock 对象（在 hibernate.xml 中正确映射的所有内容）

session.enableFilter("after").setParameter("after", 1322910573000L);
Stock stock = (Stock) session.createCriteria(Stock.class).
add(Restrictions.eq("stockId", stockId)).
setFetchMode("quotes", FetchMode.JOIN).uniqueResult();

SQL 生成：

SELECT this_.stockId AS stockId1_1_,
       this_.symbol AS symbol1_1_,
       this_.name AS name1_1_,
       quotes2_.stockId AS stockId1_3_,
       quotes2_.quoteId AS quoteId3_,
       quotes2_.quoteId AS quoteId0_0_,
       quotes2_.value AS value0_0_,
       quotes2_.stockId AS stockId0_0_,
       quotes2_.volume AS volume0_0_,
       quotes2_.quality AS quality0_0_,
       quotes2_.date AS date0_0_,
       quotes2_.createdDate AS createdD7_0_0_,
       quotes2_.fetcher AS fetcher0_0_
FROM stock this_
LEFT OUTER JOIN quote quotes2_ ON this_.stockId=quotes2_.stockId
AND quotes2_.date > 1322910573000
WHERE this_.stockId='AAPL'
ORDER BY quotes2_.date ASC

结果：

mysql 服务器上的执行时间：~10 ms
Java 中的执行时间：~400ms

案例 2：没有 HQL 的没有关联的休眠

为了提高性能，我们使用了只获取报价对象的代码，然后手动将它们添加到股票中（因此我们不会为每一行获取有关股票的重复信息）。我们使用 createSQLQuery 来最小化别名和 HQL 混乱的影响。

String filter = " AND q.date>1322910573000";
filter += " ORDER BY q.date DESC";
Stock stock = new Stock(stockId);
stock.addQuotes((ArrayList<Quote>) session.createSQLQuery("select * from quote q where stockId='" + stockId + "' " + filter).addEntity(Quote.class).list());

SQL 生成：

SELECT *
FROM quote q
WHERE stockId='AAPL'
  AND q.date>1322910573000
ORDER BY q.date ASC

结果：

mysql 服务器上的执行时间：~10 ms
Java 中的执行时间：~370ms

案例 3：没有 Hibernate 的 JDBC

String filter = " AND q.date>1322910573000";
filter += " ORDER BY q.date DESC";
Stock stock = new Stock(stockId);
Connection conn = SimpleJDBC.getConnection();
Statement stmt = conn.createStatement();
ResultSet rs = stmt.executeQuery("select * from quote q where stockId='" + stockId + "' " + filter);
while(rs.next())
{
    stock.addQuote(new Quote(rs.getInt("volume"), rs.getLong("date"), rs.getFloat("value"), rs.getByte("fetcher")));
}
stmt.close();
conn.close();

结果：

mysql 服务器上的执行时间：~10 ms
Java 中的执行时间：~100ms

我们的理解

JDBC 驱动程序对所有情况都是通用的
JDBC 驱动存在基本的时间成本
对于类似的 sql 查询，Hibernate 比纯 JDBC 代码花更多的时间来转换对象中的结果集
Hibernate createCriteria、createSQLQuery 或 createQuery 在时间成本上相似
在生产环境中，我们有大量的并发编写，纯 JDBC 解决方案似乎比休眠的解决方案慢（可能是因为我们的 JDBC 解决方案没有被池化）
Mysql 方面，服务端似乎表现的很好，时间成本也可以接受

我们的问题

有没有办法优化 JDBC 驱动的性能？
Hibernate 是否会受益于这种优化？
有没有办法在转换结果集时优化 Hibernate 性能？
我们是否因为 Java 基础对象和内存管理而面临无法调整的问题？
我们是否遗漏了一点，我们是否愚蠢而这一切都是徒劳的？
我们是法国人吗？是的。

非常欢迎您的帮助。

【问题讨论】：

您是否使用 Yourkit 分析器或类似产品对此进行了分析？你在哪里失去的速度最多？使用 TCP/IP？与对象创建？注意：我怀疑正确配置的 JDBC 解决方案会比 Hibernate 慢...
我同意，纯 JDBC 解决方案可能缺乏池化。
纯 JDBC 解决方案的时间差异很可能是通过网络发送数据所需的时间。呼叫rs.getByte("fetcher") 似乎表明您正在传输BLOB 数据。这些数据有多大？
@a_horse_with_no_name：你是说rs.getBytes()？ getByte() 应该不会引起任何问题，我猜？
@LukasEder：哦！我错过了没有s（脸红）的事实。

标签： java mysql performance hibernate jdbc

【解决方案1】：

您能否使用简单查询进行冒烟测试，例如：

SELECT current_timestamp()

或

SELECT 1 + 1

这将告诉您实际的 JDBC 驱动程序开销是多少。也不清楚这两个测试是否在同一台机器上执行。

有没有办法优化JDBC驱动的性能？

在 Java 中运行相同的查询数千次。 JVM 需要一些时间来预热（类加载，JIT）。另外我假设 SimpleJDBC.getConnection() 使用 C3P0 连接池 - 建立连接的成本非常高，所以前几次执行可能会很慢。

与临时查询或条件查询相比，更喜欢命名查询。

Hibernate 是否会受益于这种优化？

Hibernate 是一个非常复杂的框架。如您所见，与原始 JDBC 相比，它消耗了总执行时间的 75%。如果您需要原始 ORM（无延迟加载、脏检查、高级缓存），请考虑 mybatis。或者甚至可能是 JdbcTemplate 和 RowMapper 抽象。

有没有办法在转换结果集时优化 Hibernate 性能？

不是真的。查看 Hibernate 文档中的 Chapter 19. Improving performance。很多在外面发生了反射+类生成。再说一次，当您想从数据库中挤出每一毫秒时，Hibernate 可能不是最佳解决方案。

但是如果您希望通过广泛的缓存支持来提高整体用户体验，这是一个不错的选择。再次查看performance 文档。它主要谈论缓存。有一级缓存、二级缓存、查询缓存……这就是 Hibernate 可能实际上胜过简单 JDBC 的地方——它可以以你甚至无法想象的方式缓存很多东西。另一方面 - 糟糕的缓存配置会导致设置更慢。

查看：Caching with Hibernate + Spring - some Questions!

我们是否因为 Java 基础对象和内存管理而面临一些不可调整的问题？

JVM（尤其是在 server 配置中）非常快。在堆上创建对象的速度与在堆栈上一样快，例如C、垃圾回收做了很大的优化。我不认为运行纯 JDBC 的 Java 版本与更多本机连接相比会慢得多。这就是为什么我建议对您的基准进行一些改进。

我们是否遗漏了一点，我们是否愚蠢而这一切都是徒劳的？

如果性能是您最大的问题，我相信 JDBC 是一个不错的选择。 Java 已成功用于大量数据库密集型应用程序。

【讨论】：

您如何看待停用 Hibernate 的二级缓存（如果可能的话）？这不能显着加快速度吗？
@LukasEder：Hibernate 的二级缓存默认是禁用的。我相信（尽管我鼓励您对此进行分析）大部分时间都花在了 Hibernate 中的反射代码上——这是您无法真正避免的。
我不知道它默认是停用的，谢谢提示。我同意分析的必要性。