使用 Druid、Kafka、Superset 进行流式传输答案

【问题标题】：Streaming with Druid, Kafka, Superset使用 Druid、Kafka、Superset 进行流式传输
【发布时间】：2018-10-06 02:56:15
【问题描述】：

我正在使用 Kafka、Druid 和 SuperSet 测试数据流。

我在 Druid 中有一些数据（参见 1. 图片）。

之后，我可以通过选项“刷新 Druid 元数据”在 Superset 中生成 Druid 数据源（参见 2.pic）问题是当我想查询数据时，我收到以下错误消息：

URLError: <urlopen error [Errno -2] Name or service not known>

Traceback (most recent call last):
  File "/usr/lib/python2.7/site-packages/superset/viz.py", line 329, in get_df_payload
    df = self.get_df(query_obj)
  File "/usr/lib/python2.7/site-packages/superset/viz.py", line 142, in get_df
    self.results = self.datasource.query(query_obj)
  File "/usr/lib/python2.7/site-packages/superset/connectors/druid/models.py", line 1238, in query
    client=client, query_obj=query_obj, phase=2)
  File "/usr/lib/python2.7/site-packages/superset/connectors/druid/models.py", line 959, in get_query_str
    return self.run_query(client=client, phase=phase, **query_obj)
  File "/usr/lib/python2.7/site-packages/superset/connectors/druid/models.py", line 1126, in run_query
    client.timeseries(**qry)
  File "/usr/lib/python2.7/site-packages/pydruid/client.py", line 167, in timeseries
    return self._post(query)
  File "/usr/lib/python2.7/site-packages/pydruid/client.py", line 484, in _post
    res = urllib.request.urlopen(req)
  File "/usr/lib64/python2.7/urllib2.py", line 154, in urlopen
    return opener.open(url, data, timeout)
  File "/usr/lib64/python2.7/urllib2.py", line 431, in open
    response = self._open(req, data)
  File "/usr/lib64/python2.7/urllib2.py", line 449, in _open
    '_open', req)
  File "/usr/lib64/python2.7/urllib2.py", line 409, in _call_chain
    result = func(*args)
  File "/usr/lib64/python2.7/urllib2.py", line 1244, in http_open
    return self.do_open(httplib.HTTPConnection, req)
  File "/usr/lib64/python2.7/urllib2.py", line 1214, in do_open
    raise URLError(err)
URLError: <urlopen error [Errno -2] Name or service not known>

另见 3. pic

知道可能是什么问题吗？

我通过 NiFi 为 Kafka 提供数据，然后我将 kafka 源连接到 SAM 中的 druid 目标。

谢谢！

图片
图片
图片
超集中没有数据

【问题讨论】：

标签： apache-kafka streaming apache-nifi druid data-stream

【解决方案1】：

似乎 Superset 无法连接到您的代理节点。检查您的集群运行状况。尤其是代理和协调节点日志。

【讨论】：

谢谢！ Superset 可能设置不正确，@Stephan 你知道设置文件在哪里吗？我在 Ambari 中没有 Superset。
我们将此 Dockerimage 用于超集：hub.docker.com/r/amancevice/superset 在 /etc/superset/superset_config.py 中，您可以更改与超集本身相关的设置。您可以在 Sources --> Druid Clusters 下的超集 UI 中设置有关与 druid 的连接的设置。在图片上，我可以看到与协调器节点的连接正在工作，因为超集列出了数据源。您可以尝试通过超集进行查询并检查所有德鲁伊节点的日志。如果你发现了什么奇怪的东西在这里贴出来
谢谢！我还没有设法解决这个问题。仍然在同一点。但是当我通过控制台查询数据时，它会显示一个数据。 curl -L -H'Content-Type: application/json' -XPOST --data-binary @quickstart/wikiticker-top-pages.json localhost:8082/druid/v2/?pretty 我在帖子中添加了新图片 4. 超集中没有数据。你知道在哪里设置超集中的代理 URL 吗？可能有问题。
如果我从 CMD 运行 superset refresh_druid 我得到与上面相同的错误，URLError:

【解决方案2】：

问题解决了，问题是代理主机未在超集 UI 的集群配置中定义。我将其设置为值：localhost 现在它已经启动并运行了。

【讨论】：