【发布时间】:2014-03-20 22:42:04
【问题描述】:
在尝试运行多个线程来收集 HTTP 连接中的数据时,我遇到了一种奇怪的行为。
事实上,我正在尝试使用 Jena Semantic Web Framework 处理几个 SPARQL 查询。
我的应用程序使用以下代码创建线程轮询:
final ExecutorService executor = Executors.newFixedThreadPool(X);
其中 X 是我选择的线程数。
因此,我在 200 多个 SPARQL 端点上运行相同的查询。这个过程可以在多线程环境中进行,因为每个端点(通常)是不同的服务器。每个端点的延迟应该允许我创建比我拥有的物理处理器数量大得多的线程数。
在使用大量线程时,我的行为很奇怪。如果我使用 15 个线程,系统将正常处理。但是,如果我使用超过 30 个线程,例如,系统将停止工作。我的意思是,日志(带有异步附加程序的 log4j)只是停止接收新消息,CPU 使用率降到 0%,没有任何事情发生。
我首先怀疑是死锁。使用java安装提供的“Java Visual VM”,我看到每个线程都在继续运行,甚至什么都不做!接下来要做的是线程转储。大多数线程的结果类似于以下内容:
pool-2-thread-100" #117 prio=5 os_prio=0 tid=0x000000000b61c800 nid=0x1e4c in Object.wait() [0x0000000022e0e000]
java.lang.Thread.State: RUNNABLE
at com.hp.hpl.jena.query.QueryFactory.create(QueryFactory.java:78)
at com.hp.hpl.jena.query.QueryFactory.create(QueryFactory.java:52)
at com.hp.hpl.jena.query.QueryFactory.create(QueryFactory.java:40)
at com.hp.hpl.jena.query.QueryExecutionFactory.sparqlService(QueryExecutionFactory.java:347)
at websemantics.UtilitiesSparql.getExecution(UtilitiesSparql.java:378)
at websemantics.UtilitiesSparql.runSparqlQuery(UtilitiesSparql.java:410)
at websemantics.UtilitiesSparql.runSparqlQuery(UtilitiesSparql.java:245)
- locked <0x0000000081268d10> (a websemantics.model.Dataset)
at websemantics.UtilitiesSparql$SparqlTask.call(UtilitiesSparql.java:75)
at websemantics.UtilitiesSparql$SparqlTask.call(UtilitiesSparql.java:1)
at java.util.concurrent.FutureTask.run(Unknown Source)
at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(Unknown Source)
at java.lang.Thread.run(Unknown Source)
Locked ownable synchronizers:
- <0x0000000081273738> (a java.util.concurrent.ThreadPoolExecutor$Worker)
堆栈中间的锁只是保证每个端点一次只执行一个查询。在测试代码中它不会发生。如上代码所示,所有线程的状态都是“RUNNABLE”。
如您所见,代码“锁定”了查询对象的创建(稍后将通过网络执行)。为了测试,我已经包含了一个同步块,方法 QueryFactory.create 将被调用一次。在这种情况下,耶拿代码的另一部分(我认为它不是负责任的)阻塞 =(
整个情况对我来说太奇怪了,我认为这可能是一个 JVM 错误。我在 JDK 1.7(天蓝色机器上的 Windows 8 和 Server 2012)、JDK 1.8(今天!Windows 8 机器)和 OpenJDK 1.7(Ubuntu 13.*)上进行了测试,每个人都有相同的行为。所以我不认为这是一个 JVM 错误,可能是我的错误,但我可以看到我做错了什么。
任何人都知道 JVM 何时以这种方式工作?整件事快把我逼疯了!
非常感谢!
更新 1:我正在根据其他人的要求添加有关该问题的更多信息。
我再次运行该工具并在不同时间(13:03、13:04、13:08 和 13:15)进行了四个线程转储。每一个都与其他的非常相似:代码在一段时间后实际上冻结了。我已将文件上传到我的 onedrive:http://1drv.ms/1nGihAF
大部分线程停在上面堆栈的同一点,但有些停在这里:
at com.hp.hpl.jena.rdf.model.ModelFactory.createDefaultModel(ModelFactory.java:140)
at com.hp.hpl.jena.util.FileManager.loadModelWorker(FileManager.java:305)
at com.hp.hpl.jena.util.FileManager.loadModel(FileManager.java:258)
at websemantics.utils.UtilitiesJena.getModelInEverySyntax(UtilitiesJena.java:140)
at websemantics.utils.UtilitiesJena.getOntologyByURLNonSilently(UtilitiesJena.java:121)
at websemantics.utils.UtilitiesJena.getOntologyByURLNonSilently(UtilitiesJena.java:54)
at websemantics.utils.UtilitiesJena.getOntologyByURL(UtilitiesJena.java:184)
at websemantics.utils.UtilitiesSparql.runSparqlQueryOverDump(UtilitiesSparql.java:299)
at websemantics.utils.UtilitiesSparql.runSparqlQuery(UtilitiesSparql.java:249)
at websemantics.utils.UtilitiesSparql$SparqlTask.call(UtilitiesSparql.java:74)
at websemantics.utils.UtilitiesSparql$SparqlTask.call(UtilitiesSparql.java:41)
at java.util.concurrent.FutureTask.run(FutureTask.java:262)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:744)
我使用的 Jena 版本是 2.10.0,因为我对 maven 的依赖表明:
<dependency>
<groupId>org.apache.jena</groupId>
<artifactId>apache-jena-libs</artifactId>
<type>pom</type>
<version>2.10.0</version>
</dependency>
第一个堆栈上QueryFactory的第78行如下(箭头处-->):
static public Query create(String queryString, String baseURI, Syntax syntax)
{
78->Query query = new Query() ;
return parse(query, queryString, baseURI, syntax) ;
}
第二个堆栈上ModelFactory的第144行是:
public static Model createDefaultModel()
144->{ return new ModelCom( Factory.createGraphMem( ) ); }
据我所知,以下调用都没有任何同步块。
【问题讨论】:
-
是 QueryFactory.java:78 中的大多数线程吗?这条线包含什么?如果是一个复杂的语句,试着把它分成几行。
-
另一件事(在检查大多数线程停止的代码之后)您应该尝试获取多个线程转储并比较它们。可能应该出现一些模式。从接线解决方案中获取转储信息以查看是否有任何不同也可能会有所帮助。
-
嗨,我在你问的问题中添加了更多信息 =)
标签: java multithreading deadlock jena