【发布时间】:2022-01-23 12:38:06
【问题描述】:
我是 spark 和大数据领域的新手。 我使用一些气流 DAG 将我的 MySQL 数据库转移到 HDFS,现在每个表都是 HDFS 中的拼花文件,现在我需要通过数据帧将 blew 查询转换为 pyspark。
SELECT PV.id product_id,
ZP.vendor_id vendor_id,
V.title vendor_name,
PV.barcode barcode,
PV.title product_title,
ZP.active product_active,
ZP.price product_price,
ZP.capacity product_capacity,
ZP.stock product_stock,
MC1.title subcat_title,
MC2.title parent_category_title,
ZB.title brand_name
FROM xpediaProductVariationVendorInfo ZP
JOIN ProductVariations PV ON PV.id = ZP.xpediaProductVariation_id
JOIN Vendors V ON ZP.vendor_id = V.id
JOIN VendorTypes vt ON V.vendor_type_id = vt.id
JOIN xpediaProductVariation ZPV ON ZPV.id = PV.id
JOIN MenuCategories MC1 ON PV.menu_category_id = MC1.id
LEFT JOIN MenuCategories MC2 ON MC1.parent_id = MC2.id
LEFT JOIN xpedia_brand ZB ON ZB.id = ZPV.brand_id
WHERE ZP.vendor_id={}
AND V.status not in ('Suspend')
GROUP BY PV.id,
ZP.vendor_id;
【问题讨论】:
标签: sql pyspark apache-spark-sql bigdata