【问题标题】:how to send data from python to hadoop on the fly如何即时将数据从 python 发送到 hadoop
【发布时间】:2015-03-13 22:13:21
【问题描述】:

您好,我有可以在 10 台机器上运行的 python 脚本和挖掘数据。 大数据... 我想将短语数据发送到 hadoop 集群。 我想在 digitalocean 上安装 cloudera 和 hadoop。 Hadoop如何随时准备接收文件, 而不是 python 脚本将发送带有 json 数据的 post 请求的信息? 您能建议我发送数据的更好方法吗? 感谢您的帮助。

【问题讨论】:

  • 将数据写入HDFS?

标签: python hadoop web-crawler data-mining


【解决方案1】:

您可以考虑多种选择:

  1. 卡夫卡 + Flume。这是一个如何工作的示例:http://blog.cloudera.com/blog/2014/11/flafka-apache-flume-meets-apache-kafka-for-event-processing/
  2. Kafka + Spark Streaming。试试这个http://www.slideshare.net/rahuldausa/real-time-analytics-with-apache-kafka-and-apache-spark 和这个http://www.michael-noll.com/blog/2014/10/01/kafka-spark-streaming-integration-example-tutorial/
  3. 一般来说,任何队列(Kafka、RabbitMQ、AMQ 等)和任何能够写入 HDFS 的队列消费者,在最简单的情况下只是一个 Java 应用程序每 30-60 秒轮询一次队列

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2015-07-16
    • 2018-04-04
    • 1970-01-01
    • 1970-01-01
    • 2023-03-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多