【发布时间】:2020-08-17 14:32:06
【问题描述】:
我正在尝试从 pandas 切换到 pyspark,通常在进行分析时,我使用 pd.read_sql_query 从 redshift 数据库中读取分析所需的数据。
例子:
query = '''
SELECT id, SUM(value)
FROM table
GROUP BY id
'''
df = pd.read_sql_query(query, engine)
PySpark 中是否有任何等效功能?接收查询和 SQLAlchemy 引擎并返回查询结果的东西?如果没有,在 pyspark 中获取 SQL 查询结果的最佳方法是什么?
我试图在pyspark.SQLContext 中找到一些东西,但没有找到任何有用的东西。
【问题讨论】:
标签: python sql pandas pyspark apache-spark-sql