参考博客 https://blog.csdn.net/tyhj_sf/article/details/81907051
需要:jdk10.0、spark2.3.1、Hadoop2.7.7(与spark对应的版本)
JDK下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk10-downloads-4416644.html
spark下载地址:https://www.apache.org/dyn/closer.lua/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz
Hadoop下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz
1、首先安装pyspark包:
pip install py4j
pip install pyspark
2、安装JDK,并配置环境,我的安装位置为D:\Program Files\Java,接下来是环境配置:
(1)在系统变量中新建变量名JAVA_HOME,对应的是java的安装位置(我的是:D:\Program Files\Java\jdk-10.0.2),
(2)继续新建一个CLASSPATH变量,值为:.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar
(3)在系统变量中找一个变量名为PATH的变量,在后面加:%JAVA_HOME%\bin;%JAVA_HOME%\jre-10.0.2\bin;
安装完毕,运行-》cmd-》分别输入java -version 与javac,如下所示,安装配置JDK成功。
3、安装spark
上述连接中spark2.3.1、Hadoop2.7.7均为免安装版,直接解压至安装目录即可。
(1)spark配置环境变量,在path中添加:D:\Program Files\spark-2.3.1-bin-hadoop2.7\bin;
(2)Hadoop配置环境变量
新建HADOOP_HOME变量,值为:D:\Program Files\hadoop-2.7.7
并在path中添加:%HADOOP_HOME%\bin;
同样在开始->运行->cmd->输入pyspark
安装配置成功。
打开pycharm配置环境
将pyspar和pyj4加包加载进去就好了。
这样就可以直接用了,千万不要作死用pip安装pyspark和pyj4,还有就是我的python的版本是3.5 ,不知道为什么3.6版本一直装不好。
安装完之后运行一个小小的程序测试一下:
from pyspark.ml.clustering import KMeans
from pyspark.sql import SparkSession
# Loads data.
spark = SparkSession \
.builder \
.appName("KMeansExample") \
.getOrCreate()
dataset = spark.read.format("libsvm").load("E:\pyspark_test\data\sample_kmeans_data.txt")
# Trains a k-means model.
kmeans = KMeans(featuresCol="features", k=2, maxIter=20, seed=None)
model = kmeans.fit(dataset)
# Evaluate clustering by computing Within Set Sum of Squared Errors.
wssse = model.computeCost(dataset)
print("Within Set Sum of Squared Errors = " + str(wssse))
# Shows the result.
centers = model.clusterCenters()
print("Cluster Centers: ")
for center in centers:
print(center)
最简单的聚类程序,数据集是自带的,在spark安装包里面的data文件夹中。
运行结果:
运行成功,中间的一大片红色的可以忽略不计,是因为没有安装Hadoop相关的包,因为本地开发也用不到。