【问题标题】:Pyspark - How to inspect variables within RDD operationsPyspark - 如何检查 RDD 操作中的变量
【发布时间】:2019-02-26 09:50:11
【问题描述】:

我曾经使用 IntelliJ 在 Scala Spark 中进行开发。通过设置断点,我能够在调试模式下检查变量内容。像这样

我最近开始了一个使用 pyspark 和 pycharm 的新项目。我发现代码不会在 Spark 操作的断点处停止,如下所示。

另一个问题是提示提示没有给出正确的提示,例如“地图”功能。似乎IDE不知道“map”函数中的变量仍然是RDD,我猜它与python函数没有定义返回类型有关。

我觉得这些对 PySpark 开发人员来说很幼稚的问题。任何帮助都会很棒,谢谢!

【问题讨论】:

标签: apache-spark intellij-idea pyspark pycharm


【解决方案1】:

“...代码不会在 Spark 操作的断点处停止,如下所示...” - 请说明您的 PyCharm 版本和操作系统是什么?

“另一个问题是提示提示没有给出正确的提示,例如来自“map”函数。似乎 IDE 不知道“map”函数中的变量仍然是 rdd...” - 我相信它与此功能请求https://youtrack.jetbrains.com/issue/PY-29811

【讨论】:

  • hmm...所以不是pyspark不能在rdd操作中停止,而是我的操作系统和IDE的问题?我使用的是 Mac High Sierra 10.13.3,PyCharm 社区版 2017.1.4 版。
猜你喜欢
  • 1970-01-01
  • 2020-03-06
  • 1970-01-01
  • 1970-01-01
  • 2021-06-11
  • 2018-10-31
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多