【发布时间】:2015-10-07 10:28:19
【问题描述】:
在 PubMed 数据源中,我需要将输出推送到 Kafka 队列中。每个源都可以视为一个 Kafka 主题。 (我知道 Kafka 中的概念,并使用 Python 探索过 Kafka)
我可以通过 FireFTP 查看 PubMed 数据。
任何人都可以帮助如何继续前进吗?
【问题讨论】:
标签: python ftp apache-kafka pubmed kafka-python
在 PubMed 数据源中,我需要将输出推送到 Kafka 队列中。每个源都可以视为一个 Kafka 主题。 (我知道 Kafka 中的概念,并使用 Python 探索过 Kafka)
我可以通过 FireFTP 查看 PubMed 数据。
任何人都可以帮助如何继续前进吗?
【问题讨论】:
标签: python ftp apache-kafka pubmed kafka-python
您将需要使用从 FTP 下载数据并将其假脱机到 Kafka 的服务。 Apache Flume 正是这样做的。它很容易配置。您可以使用 FTP https://github.com/keedio/flume-ftp-source 的客户源或使用将文件下载到假脱机目录并让水槽从那里获取文件的 cron 作业。 Flume 有一个非常不错的 Kafka Sink,可以连续写入到 kafka。
【讨论】: