【问题标题】:Getting error while load data from Twitter to hdfs将数据从 Twitter 加载到 hdfs 时出错
【发布时间】:2015-12-07 16:31:27
【问题描述】:

将数据从 twitter 加载到 hdfs 时出现错误

我正在使用 ambari 沙盒 hortonworks hadoop-2.7

这是我的 flume.conf 文件

flume.conf:

    TwitterAgent.sources = Twitter
    TwitterAgent.channels = MemChannel
    TwitterAgent.sinks = HDFS

    TwitterAgent.sources.Twitter.type =    
    com.cloudera.flume.source.TwitterSource
    TwitterAgent.sources.Twitter.channels = MemChannel
    TwitterAgent.sources.Twitter.consumerKey =oblBU8btK3OpuSoFce8fJTOz9
    TwitterAgent.sources.Twitter.consumerSecret     
    =ofsGWmx1T4GHvi8qDcAySUAC3mVdvSS8VcfD9CPTejxzQ52izk
    TwitterAgent.sources.Twitter.accessToken =3479003538-     
    2OP1N7wKqSkAohXscehBdhbMfJhoXqSPkng7cPY
    TwitterAgent.sources.Twitter.accessTokenSecret       
    =0vrKLzdUplRnPjcTWiSNKhu9Ohe18FcoOXYMmD7OUazTt
    TwitterAgent.sources.Twitter.keywords = hadoop, big data, analytics
    TwitterAgent.sinks.HDFS.channel = MemChannel
    TwitterAgent.sinks.HDFS.type = hdfs
    TwitterAgent.sinks.HDFS.hdfs.path =/flume/tweets
    TwitterAgent.sinks.HDFS.hdfs.fileType =DataStream
    TwitterAgent.sinks.HDFS.hdfs.filePrefix =twitter
    TwitterAgent.sinks.HDFS.hdfs.writeFormat = Text
    TwitterAgent.sinks.HDFS.hdfs.batchSize = 1000
    TwitterAgent.sinks.HDFS.hdfs.rollSize = 0
    TwitterAgent.sinks.HDFS.hdfs.rollCount = 10000
    TwitterAgent.sinks.HDFS.hdfs.rollInterval = 10

    TwitterAgent.channels.MemChannel.type = memory
    TwitterAgent.channels.MemChannel.capacity = 10000
    TwitterAgent.channels.MemChannel.transactionCapacity = 100

15/09/11 07:21:03 信息 twitter4j.TwitterStreamImpl:正在建立连接。 2011 年 15 月 9 日 07:21:03 信息 twitter4j.TwitterStreamImpl:stream.twitter.com 15/09/11 07:21:03 信息 twitter4j.TwitterStreamImpl:等待 1000 毫秒 15/09/11 07:21:04 信息 twitter4j.TwitterStreamImpl:正在建立连接。 2011 年 15 月 9 日 07:21:04 信息 twitter4j.TwitterStreamImpl:stream.twitter.com 15/09/11 07:21:04 信息 twitter4j.TwitterStreamImpl:等待 2000 毫秒 15/09/11 07:21:06 信息 twitter4j.TwitterStreamImpl:建立连接。 15/09/11 07:21:06 信息 twitter4j.TwitterStreamImpl:stream.twitter.com 2011 年 15 月 9 日 07:21:06 信息 twitter4j.TwitterStreamImpl:等待 4000 毫秒 15/09/11 07:21:10 信息 twitter4j.TwitterStreamImpl:建立连接。 15/09/11 07:21:10 信息 twitter4j.TwitterStreamImpl:stream.twitter.com 15/09/11 07:21:10 信息 twitter4j.TwitterStreamImpl:等待 8000 毫秒 15/09/11 07:21:18 信息 twitter4j.TwitterStreamImpl:正在建立连接。 2011 年 15 月 9 日 07:21:18 信息 twitter4j.TwitterStreamImpl:stream.twitter.com 15/09/11 07:21:18 信息 twitter4j.TwitterStreamImpl:等待 16000 毫秒 15/09/11 07:21:34 信息 twitter4j.TwitterStreamImpl:建立连接。 2011 年 15 月 9 日 07:21:34 信息 twitter4j.TwitterStreamImpl:stream.twitter.com 15/09/11 07:21:34 INFO twitter4j.TwitterStreamImpl:等待 16000 毫秒

^C15/09/11 07:21:45 INFO lifecycle.LifecycleSupervisor: 停止生命周期主管 10 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:组件类型:SINK,名称:HDFS 已停止 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:类型的关闭指标:SINK,名称:HDFS。 sink.start.time == 1441956061906 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:类型的关闭指标:SINK,名称:HDFS。 sink.stop.time == 1441956105092 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:类型的关闭指标:SINK,名称:HDFS。 sink.batch.complete == 0 2011 年 15 月 9 日 07:21:45 信息检测。MonitoredCounterGroup:类型的关闭指标:SINK,名称:HDFS。 sink.batch.empty == 7 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:类型的关闭指标:SINK,名称:HDFS。 sink.batch.underflow == 0 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:类型的关闭指标:SINK,名称:HDFS。 sink.connection.closed.count == 0 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:类型的关闭指标:SINK,名称:HDFS。 sink.connection.creation.count == 0 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:类型的关闭指标:SINK,名称:HDFS。 sink.connection.failed.count == 0 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:类型的关闭指标:SINK,名称:HDFS。 sink.event.drain.attempt == 0 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:类型的关闭指标:SINK,名称:HDFS。 sink.event.drain.sucess == 0 15/09/11 07:21:45 INFO node.PollingPropertiesFileConfigurationProvider:配置提供程序停止 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:组件类型:CHANNEL,名称:MemChannel 已停止 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:类型的关闭指标:CHANNEL,名称:MemChannel。 channel.start.time == 1441956061903 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:类型的关闭指标:CHANNEL,名称:MemChannel。频道.停止.时间 == 1441956105094 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:类型的关闭指标:CHANNEL,名称:MemChannel。通道容量 == 10000 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:类型的关闭指标:CHANNEL,名称:MemChannel。通道.当前.大小 == 0 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:类型的关闭指标:CHANNEL,名称:MemChannel。 channel.event.put.attempt == 0 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:类型的关闭指标:CHANNEL,名称:MemChannel。 channel.event.put.success == 0 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:类型的关闭指标:CHANNEL,名称:MemChannel。 channel.event.take.attempt == 7 15/09/11 07:21:45 INFO instrumentation.MonitoredCounterGroup:类型的关闭指标:CHANNEL,名称:MemChannel。 channel.event.take.success == 0 [root@sandbox bin]#

【问题讨论】:

    标签: flume


    【解决方案1】:

    看起来你没有给出完整的 hdfs 路径:

    TwitterAgent.sinks.HDFS.hdfs.path =hdfs://localhost:8020/flume/tweets
    

    这里的 localhost 是主机名和 8020 hdfs 端口。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-09-26
      • 1970-01-01
      • 1970-01-01
      • 2018-04-13
      • 1970-01-01
      • 1970-01-01
      • 2018-11-18
      • 1970-01-01
      相关资源
      最近更新 更多