【发布时间】:2012-11-24 00:46:36
【问题描述】:
我一直在尝试解决一个问题,即某些脚本的执行会导致死锁,使所有后续请求陷入困境,占用 99.9% 的 CPU,并最终导致服务器崩溃。
这是一个示例堆栈跟踪,用于已被置于边缘(永远等待)的请求之一:
Thread Stack Trace
Trace Time: 21:00:44.463 06-Jun-2012
Request ID: 6131
Script Name: http://www.example.com/allreviews.cfm
Started: 21:00:21.225 06-Jun-2012
Exec Time: 23238ms
Memory Used: (24%)230,667KB
Memory Free: 701,428KB
Thread ID: 0x191e (6430)
Thread Name: jrpp-494
Priority: 5
Hashcode: 1081611879
State: WAITING
"jrpp-494" prio=5 in Object.wait()
java.lang.Object.wait(Object.java:???)[Native Method]
- waiting on <0x9253305> (a coldfusion.util.AbstractCache$Lock)
java.lang.Object.wait(Object.java:485)
coldfusion.util.AbstractCache.fetch(AbstractCache.java:46)
coldfusion.util.SoftCache.get_statsOff(SoftCache.java:133)
coldfusion.util.SoftCache.get(SoftCache.java:81)
coldfusion.runtime.TemplateClassLoader.findClass(TemplateClassLoader.java:609)
coldfusion.runtime.RuntimeServiceImpl.getFile(RuntimeServiceImpl.java:785)
coldfusion.runtime.RuntimeServiceImpl.resolveTemplatePath(RuntimeServiceImpl.java:766)
coldfusion.tagext.lang.CustomTag.setName(CustomTag.java:21)
cfApplication2ecfm456206189._factor0(/srv/www/htdocs/www.example.com/www/Application.cfm:28)
cfApplication2ecfm456206189.runPage(/srv/www/htdocs/www.example.com/www/Application.cfm:1)
coldfusion.runtime.CfJspPage.invoke(CfJspPage.java:231)
coldfusion.tagext.lang.IncludeTag.doStartTag(IncludeTag.java:416)
coldfusion.filter.CfincludeFilter.invoke(CfincludeFilter.java:65)
coldfusion.filter.CfincludeFilter.include(CfincludeFilter.java:33)
coldfusion.filter.ApplicationFilter.invoke(ApplicationFilter.java:279)
coldfusion.filter.RequestMonitorFilter.invoke(RequestMonitorFilter.java:48)
coldfusion.filter.MonitoringFilter.invoke(MonitoringFilter.java:40)
coldfusion.filter.PathFilter.invoke(PathFilter.java:94)
coldfusion.filter.ExceptionFilter.invoke(ExceptionFilter.java:70)
coldfusion.filter.ClientScopePersistenceFilter.invoke(ClientScopePersistenceFilter.java:28)
coldfusion.filter.BrowserFilter.invoke(BrowserFilter.java:38)
coldfusion.filter.NoCacheFilter.invoke(NoCacheFilter.java:46)
coldfusion.filter.GlobalsFilter.invoke(GlobalsFilter.java:38)
coldfusion.filter.DatasourceFilter.invoke(DatasourceFilter.java:22)
coldfusion.filter.CachingFilter.invoke(CachingFilter.java:62)
coldfusion.CfmServlet.service(CfmServlet.java:200)
coldfusion.bootstrap.BootstrapServlet.service(BootstrapServlet.java:89)
jrun.servlet.FilterChain.doFilter(FilterChain.java:86)
com.intergral.fusionreactor.filter.FusionReactorCoreFilter.doHttpServletRequest(FusionReactorCoreFilter.java:503)
com.intergral.fusionreactor.filter.FusionReactorCoreFilter.doFusionRequest(FusionReactorCoreFilter.java:337)
com.intergral.fusionreactor.filter.FusionReactorCoreFilter.doFilter(FusionReactorCoreFilter.java:246)
com.intergral.fusionreactor.filter.FusionReactorFilter.doFilter(FusionReactorFilter.java:121)
jrun.servlet.FilterChain.doFilter(FilterChain.java:94)
coldfusion.monitor.event.MonitoringServletFilter.doFilter(MonitoringServletFilter.java:42)
coldfusion.bootstrap.BootstrapFilter.doFilter(BootstrapFilter.java:46)
jrun.servlet.FilterChain.doFilter(FilterChain.java:94)
jrun.servlet.FilterChain.service(FilterChain.java:101)
jrun.servlet.ServletInvoker.invoke(ServletInvoker.java:106)
jrun.servlet.JRunInvokerChain.invokeNext(JRunInvokerChain.java:42)
jrun.servlet.JRunRequestDispatcher.invoke(JRunRequestDispatcher.java:286)
jrun.servlet.ServletEngineService.dispatch(ServletEngineService.java:543)
jrun.servlet.jrpp.JRunProxyService.invokeRunnable(JRunProxyService.java:203)
jrunx.scheduler.ThreadPool$DownstreamMetrics.invokeRunnable(ThreadPool.java:320)
jrunx.scheduler.ThreadPool$ThreadThrottle.invokeRunnable(ThreadPool.java:428)
jrunx.scheduler.ThreadPool$UpstreamMetrics.invokeRunnable(ThreadPool.java:266)
jrunx.scheduler.WorkerThread.run(WorkerThread.java:66)
如果您有兴趣,可以查看full stack trace,顶部有我称之为“锁定脚本”的内容,所有其他人都在等待它。
当我第一次遇到这个问题时,我没有堆栈跟踪。我发布了问题“When ColdFusion is maxing out the CPU, how do I find out what it's chewing/choking on?”。我收到了许多有用的回复,通过查看 stack traces,我能够确定是相同的三个脚本一遍又一遍地导致了这个死锁问题。
在每种情况下,“锁定脚本”的第一行都是:
coldfusion.compiler.ClassReader.skipFully(ClassReader.java:79)
并且所有其他请求都被阻塞在其后面,在它们各自的堆栈跟踪中具有以下行:
- waiting on <0x9253305> (a coldfusion.util.AbstractCache$Lock)
困扰我的一件事是why my request timeout was not being respected;这些脚本将永远挂起,永不消亡。 WTF,对吧?所以我不得不自己做。因此,当我杀死“锁定脚本”时,其他人就摆脱了困境。那时,如果它们低于请求超时,它们就会完成处理,如果它们超过它(大多数情况下通常都是这样),那么它们就会继续超时。但是它们不会自行超时,并且请求只会堆积起来,直到使用活动线程并且线程队列已满并且一切都停止了。
每次请求时手动杀死它们显然不是解决方案,因此,正如我妻子总是提醒我的那样,“调试、调试、调试”。使用有条件的<cfabort>,我发现它一直通过Application.cfm,通过我的header.cfm,一直到问题脚本的<cfinclude>。如果我将<cfabort> 放在 问题脚本中(即使在最顶部),它不会中止,并且会出现死锁问题。如果我把它放在包含之前,请求会中止并且会避免死锁问题。奇怪。
这两个地方之间没有代码,对吧?就在包含之前和就在包含内部应该在功能上是等效的,不是吗?可能不会,因为很明显某事里面正在发生。
我没有使用任何<cflock> 标签。正在发生的锁定似乎是在模板缓存级别发生的。无论是否在管理员中检查了“受信任的缓存”、“请求中的缓存模板”或“组件缓存”选项(以选中/未选中的任意组合),都会观察到相同的行为。我已经清除了模板缓存和每个组件都缓存了不止一次。我一遍又一遍地重新启动 CF 服务器......一切都无济于事。
在故障排除过程中,我阅读了此article describing a similar issue with a compiler cache lock in CF8 (8.0.1) 以及应用补丁修复它的说明。但这不是 CF9……所以显然我不能应用他们的补丁。
怎么办?有没有其他人遇到过这个问题? ...并有解决方案?
【问题讨论】:
-
我已经提到了这一点,但以防万一它被忽视,这项调查从这个帖子开始:When ColdFusion is maxing out the CPU, how do I find out what it's chewing/choking on?。如果您遇到此问题,可以从那里的对话开始。
-
ClassReader 扩展了 ByteArrayInputStream,它在 Java 1.6 中确实存在可能导致您看到的死锁的错误。您的代码挂在 review.cfm 第 13 行。review.cfm 或其包含的文件是否特别大?
-
两个文件都不是特别大。正如我所描述的,我发现在第 13 行的包含之前的中止可以防止死锁,但是包含文件顶部的中止没有。我现在还发现,如果对审查 1872 进行特殊例外处理,而不是包含 1872.cfm,我会包含该文件 1872new.cfm 的 完全重复,则 include 顶部的中止确实 起作用,并且避免了死锁。这强烈表明存在某种缓存问题,但无论 admin 中各种缓存切换的状态如何,都会出现问题。
标签: java compiler-construction coldfusion coldfusion-9 jrun