【发布时间】:2018-03-02 23:48:45
【问题描述】:
pyspark 新手。这是我的代码:
def sparkApp():
spark = SparkSession \
.builder \
.appName("Python Spark SQL basic example") \
.config("spark.sql.catalogImplementation", "hive") \
.config("spark.executor.memory", "4g") \
.config("spark.driver.memory", "16g") \
.config("spark.executor.instances", "5") \
.config("spark.executor.cores", "5") \
.getOrCreate()
return spark
def my_f(x, w):
return np.array(x).dot(w).sum()
w = [1,2]
x = sparkApp().("select x1, x2 from my_table")
x.rdd.map(lambda row: my_f(row, w)
我的问题是:
1. 我知道这会并行化 x 的读取,但它会并行化 x 和 w 的乘法吗?如果是这样,它会返回与输入相同索引中的值吗?如果没有,我该如何并行运行它?
2.我是广播w还是作为参数传递?
谢谢
【问题讨论】:
-
您是否测试过代码是否有效?
标签: python-2.7 apache-spark pyspark apache-spark-mllib