【问题标题】:Hive metastore suffering from kerberos "Clock skew too great" errorHive Metastore 遭受 kerberos“时钟偏差太大”错误
【发布时间】:2016-03-30 03:36:16
【问题描述】:

最近我们每月遇到一次标题中描述的问题。在 Metastore 节点上,我们已经安装并启动了 ntpd 服务以与 kerberos 服务器同步时间。节点上的 krb5.conf 如下所示:

[libdefaults]
default_realm = 示例.COM
dns_lookup_realm = 真
dns_lookup_kdc = 真
ticket_lifetime = 24h
renew_lifetime = 7天
可转发 = true

因此,metastore 上的时间与 kerberos 服务器不同步(>=5 分钟)导致问题或网络阻塞的可能性似乎较小。
从metastore日志看,“Clock skew too great”异常记录时间是乱序的,比如,

2016-01-16 18:18:48,071 错误 [pool-3-thread-63735]
2016-01-16 19:07:03,699 错误 [pool-3-thread-63798]
2016-01-16 19:06:55,998 错误 [pool-3-thread-63796]
2016-01-16 19:06:41,653 错误 [pool-3-thread-63812]
2016-01-16 19:04:28,659 错误 [pool-3-thread-63806]
2016-01-16 19:04:13,937 错误 [pool-3-thread-63804]
2016-01-16 19:02:19,312 错误 [pool-3-thread-63809]
2016-01-16 19:02:13,115 错误 [pool-3-thread-63794]
2016-01-16 19:02:06,028 错误 [pool-3-thread-63800]
2016-01-16 19:01:50,767 错误 [pool-3-thread-63795]
2016-01-16 18:59:36,926 错误 [pool-3-thread-63810]
2016-01-16 18:59:36,394 错误 [pool-3-thread-63797]

异常堆栈:

2016-01-16 18:59:36,394 错误 [pool-3-thread-63797]: transport.TSaslTransport (TSaslTransport.java:open(296)) - SASL 协商失败 javax.security.sasl.SaslException:GSS 启动失败 [由 GSSException 引起:在 GSS-API 级别未指定故障(机制级别:时钟偏差太大(37))] 在 com.sun.security.sasl.gsskerb.GssKrb5Server.evaluateResponse(GssKrb5Server.java:177) 在 org.apache.thrift.transport.TSaslTransport$SaslParticipant.evaluateChallengeOrResponse(TSaslTransport.java:509) 在 org.apache.thrift.transport.TSaslTransport.open(TSaslTransport.java:264) 在 org.apache.thrift.transport.TSaslServerTransport.open(TSaslServerTransport.java:41) 在 org.apache.hadoop.hive.thrift.HadoopThriftAuthBridge$HiveSaslServerTransportFactory.getTransport(HadoopThriftAuthBridge.java:172) 在 org.apache.hadoop.hive.thrift.HadoopThriftAuthBridge20S$Server$TUGIAssumingTransportFactory$1.run(HadoopThriftAuthBridge20S.java:678) 在 org.apache.hadoop.hive.thrift.HadoopThriftAuthBridge20S$Server$TUGIAssumingTransportFactory$1.run(HadoopThriftAuthBridge20S.java:675) 在 java.security.AccessController.doPrivileged(本机方法) 在 javax.security.auth.Subject.doAs(Subject.java:356) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1536) 在 org.apache.hadoop.hive.thrift.HadoopThriftAuthBridge20S$Server$TUGIAssumingTransportFactory.getTransport(HadoopThriftAuthBridge20S.java:675) 在 org.apache.thrift.server.TThreadPoolServer$WorkerProcess.run(TThreadPoolServer.java:189) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread.run(Thread.java:744) 原因:GSSException:在 GSS-API 级别未指定故障(机制级别:时钟偏差太大 (37)) 在 org.apache.thrift.transport.TSaslServerTransport.handleSaslStartMessage(TSaslServerTransport.java:125) 在 org.apache.thrift.transport.TSaslTransport.open(TSaslTransport.java:253) 在 org.apache.thrift.transport.TSaslServerTransport.open(TSaslServerTransport.java:41) 在 org.apache.hadoop.hive.thrift.HadoopThriftAuthBridge$HiveSaslServerTransportFactory.getTransport(HadoopThriftAuthBridge.java:172) ... 10 更多

环境:

java版本“1.7.0_45” Java HotSpot(TM) 64 位服务器 VM(内部版本 24.51-b03,混合模式) hive-0.13.1.2.1.10.0-hdp

如果我想找出根本原因,我该怎么办?有什么建议么? 非常感谢。

【问题讨论】:

  • 您是否尝试过使用 NTP 同步所有地方的时间
  • 是的,我们之前尝试过。当异常发生时,事实证明 Metastore 太忙而无法响应请求。我们必须重新启动它。
  • 您是否检查过 NecronoKerberoMicon,即(用于常见错误消息)steveloughran.gitbooks.io/kerberos_and_hadoop/content/sections/… 和(用于调试)steveloughran.gitbooks.io/kerberos_and_hadoop/content/sections/…
  • 非常感谢。从 Metastore 日志中检查,“时钟偏差太大”让我很惊讶,这意味着当前的身份验证请求在 5 分钟后带有时间戳,或者与 kerberos 服务器相比转发。不幸的是,直到下次出现同样的问题时,我们还没有获得 kerberos 调试信息。我现在尝试找出潜在的原因并重新创建问题。
  • 感谢@Konstantin V. Salikhov 和 Samson Scharfrichter,问题可能是由于其他一些集群用户尝试连接元存储。

标签: java hive kerberos metastore


【解决方案1】:

我也看到了这个错误,就我而言,根本原因与 Kerberos 无关。如果您使用 MySql 数据库作为数据存储,则会出现非常严重的内存泄漏,https://issues.apache.org/jira/browse/HIVE-15551,这是在 0.13 中引入的,直到 Hive 1.3.0 才修复。基本上,最初编写代码的人要么忘记了,要么没有意识到您必须显式关闭 JDBC 语句,当您的进程达到其内存限制时,这会导致过多的垃圾收集。一旦发生这种情况,过程中的一切都会变得越来越慢,直到您开始看到这些时钟偏差错误。

您可以通过在元存储进程上运行 jmap 实时直方图来判断这是否是您的问题。如果您在列表顶部看到 JDBC 对象(在我的例子中是 com.mysql.jdbc.JDBC42ResultSet 和 com.mysql.jdbc.StatementImpl),您可能遇到了这个问题。我建议您应用补丁,升级到 Hive 1.3.0,或者使用问题中提到的解决方法来查看是否可以解决问题。

【讨论】:

    【解决方案2】:

    使用kdestroy 命令,然后使用kinit

    kdestroy 命令会销毁用户的活动 Kerberos 授权票据并删除包含它们的凭据缓存。

    kinit用于获取和缓存Kerberos票据授权票据

    删除缓存并再次“启动”可能会解决您的问题。如果没有缓存,kdestroy 将返回“kdestroy:销毁缓存时未找到凭据缓存”。

    kdestroy 文档可以在here 找到。

    【讨论】:

      【解决方案3】:

      运行此命令以将您的时钟与 KDC 同步:

      /sbin/service ntpd 停止; /usr/sbin/ntpdate IP_Address_of_KDC_server; /sbin/service ntpd 启动

      【讨论】:

        猜你喜欢
        • 2022-06-15
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2018-04-19
        • 1970-01-01
        • 2013-03-01
        相关资源
        最近更新 更多