如何即时将数据从 python 发送到 hadoop

【问题标题】：how to send data from python to hadoop on the fly如何即时将数据从 python 发送到 hadoop
【发布时间】：2015-03-13 22:13:21
【问题描述】：

您好，我有可以在 10 台机器上运行的 python 脚本和挖掘数据。大数据... 我想将短语数据发送到 hadoop 集群。我想在 digitalocean 上安装 cloudera 和 hadoop。 Hadoop如何随时准备接收文件，而不是 python 脚本将发送带有 json 数据的 post 请求的信息？您能建议我发送数据的更好方法吗？感谢您的帮助。

【问题讨论】：

将数据写入HDFS？

标签： python hadoop web-crawler data-mining

【解决方案1】：

您可以考虑多种选择：

卡夫卡 + Flume。这是一个如何工作的示例：http://blog.cloudera.com/blog/2014/11/flafka-apache-flume-meets-apache-kafka-for-event-processing/
Kafka + Spark Streaming。试试这个http://www.slideshare.net/rahuldausa/real-time-analytics-with-apache-kafka-and-apache-spark 和这个http://www.michael-noll.com/blog/2014/10/01/kafka-spark-streaming-integration-example-tutorial/
一般来说，任何队列（Kafka、RabbitMQ、AMQ 等）和任何能够写入 HDFS 的队列消费者，在最简单的情况下只是一个 Java 应用程序每 30-60 秒轮询一次队列

【讨论】：