【问题标题】:which tech available for stream data from social media to hadoop?哪些技术可用于将数据从社交媒体流式传输到 hadoop?
【发布时间】:2013-10-06 18:31:57
【问题描述】:

我正在寻找可用于从社交媒体传输数据的技术 到hadoop。 我搜索并找到了那些技术

  1. 水槽。
  2. 风暴。
  3. 卡夫卡。

哪种工具最好?为什么?有人熟悉其他工具吗?

【问题讨论】:

    标签: hadoop flume apache-kafka social-media


    【解决方案1】:

    您很可能会想要使用 Flume,因为它是为与 hdfs 一起工作而构建的。但是,与所有事情一样,这取决于。

    Kafka 基本上是一个排队系统,通常用于在分析架构发生故障时保留数据。如果这听起来像您需要的,那么可能值得研究一下RabbitMQZeroMQKestrel

    Storm 用于复杂的事件处理。如果您使用storm,您将在后台使用zeroMQ,并且可能必须设置一个连接到kafka 或RabbitMQ 的spout。如果您需要在存储之前对数据进行复杂的修改,这可能是正确的选择。您也可以使用其他选项,例如spark。我倾向于纯粹出于个人喜好建议风暴。我听说linkedin也发布了一个实时复杂事件处理框架,但我不记得它的名字了。找到后我会更新帖子。

    另外,如果您问这个问题,可能是因为您还没有构建这个东西。如果是这种情况,如果您需要流式传输,您可能想研究 hadoop 以外的其他东西。生态系统正在迅速扩展,可能有很多方法可以做你想做的事。

    【讨论】:

      【解决方案2】:

      Apache Kafka 是一个分布式消息传递系统。简而言之,就像您使用 KafKa 生产者将一些消息推送(发布)到 Kafka 队列中一样,而在另一端,您使用 Kafka 消费者(订阅者)使用它。消息/提要可以分为称为Topic 的类别。现在您可以在集群中运行 Kafka,这使得它非常可扩展,并且可以在不停机的情况下进行扩展。

      这可能是保持您的社交媒体流的不错选择。 Kafka 将推送给它的消息保留一段可配置的时间,最好的部分来自他们所说的文档

      Kafka 的性能在数据大小方面实际上是恒定的,因此保留大量数据不是问题。

      查看doc 以获得更好的可见性。

      现在Storm 是一个非常可扩展、容错的分布式计算系统,可以轻松地与任何队列(如 Kafka)或数据库(HDFS/Cassandra 等)集成。因此,您可以根据您的要求将消息提供给风暴集群以进行进一步处理。有一种叫做KafkaSpout 的东西可以在storm 和kafka 之间进行无缝集成。

      您还应该查看创建 Hadoop Job for incremental loading messages from Kafka topics onto hdfs with multiple file output semanticsKafka-hadoop loader @github

      正如@Peter Klipfel 所说: 如果你需要流式传输,你可能想研究 hadoop 以外的东西 您还可以检查其他可用的替代方案,例如 Apache Cassandra ,它非常适用于延迟非常低的流数据。

      【讨论】:

      【解决方案3】:

      我认为这取决于您在哪里提取数据以及您尝试对数据执行什么操作。

      另一种方法是使用 IBM Streams,您可以直接从社交媒体流中提取数据并将其存储到您选择的许多不同数据存储中。

      例如,您可以从此处使用 streamsx.social 工具包:https://github.com/IBMStreams/streamsx.social,它允许您直接从 HTTP 流中提取推文。

      一旦您将数据导入 Streams,该产品还提供了许多适配器,允许您将流数据存储到数据存储中(例如,HDFS 使用 streamx.hdfs,HBase 使用 streamx.hbase。)

      我认为另一个考虑因素是您对社交媒体数据进行了什么样的分析。如果您想在存储数据之前分析流内的社交数据,IBM Streams 还提供了一个文本工具包,允许您从社交数据非结构化文本中提取洞察力。您可以分析数据,而无需真正将其存储在任何地方。

      希望对你有帮助!

      【讨论】:

        猜你喜欢
        • 2018-04-04
        • 2011-03-06
        • 2011-12-17
        • 2014-10-12
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多