【问题标题】:Download data from http using Python Spark streaming使用 Python Spark 流从 http 下载数据
【发布时间】:2016-09-27 07:39:17
【问题描述】:

我是 PySpark 的新手,我在我的 Ubuntu 14.04 上安装了 Kafka 单节点和单代理。

安装后我使用kafka-console-producer和kafka-console-consume测试了Kafka发送和接收数据。

以下是我遵循的步骤 启动消费者消费消息。

 bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic kafkatopic --from-beginning

启动生产者在新的终端窗口中发送消息。

bin/kafka-console-producer.sh --broker-list localhost:9092 --topic kafkatopic
[2016-09-25 7:26:58,179] WARN Property topic is not valid (kafka.utils.VerifiableProperties)
Good morning 
Future big data
this is test message

在消费端

bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic kafkatopic --from-beginning
Good morning 
Future big data
this is test message

来自 meetup.com 的以下链接生成流数据

http://stream.meetup.com/2/rsvps

我的要求是如何从 http 站点收集流数据以使用 Kafka 触发。下载streamin数据的转换命令是什么?

下载数据后,我可以找到特定时间间隔的城市计数和其他分析。

【问题讨论】:

  • 为此您必须先将数据放入kafka,这可以通过kafka-producer脚本从curl stream.meetup.com/2/rsvps获取输入来实现
  • @Green - 您可以在哪里弄清楚您的生产者和消费者应该如何工作以实现下载?您要下载的数据有多大?我正在研究类似的情况。

标签: apache-spark pyspark spark-streaming pyspark-sql


【解决方案1】:

有不同的方式来处理实时流。我正在考虑的一个如下一个。

【讨论】:

    猜你喜欢
    • 2016-09-16
    • 1970-01-01
    • 2020-11-22
    • 2015-09-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-07-25
    相关资源
    最近更新 更多