在根据Spark学习记录1:安装单机Spark环境安装了Spark环境后,现在来配置以下PySpark环境
一共分4步:
- 把
SPARK_HOME
添加进永久环境变量 - 安装
findspark
库 - 重新进入user或者使用
source /etc/profile
更新配置文件 - 跑一下测试代码,如果没报错就成功了
- 在
/etc/profile
添加环境变量,之后执行
sudo vi /etc/profile
# 添加一行
# export SPARK_HOME=/home/ubuntu/spark-learn/spark-3.1.2-bin-hadoop3.2
# 更新环境变量
source /etc/profile
- 安装findspark库
pip install findspark
- 重进入user,启动jupyter notebook
- 输入下列代码测试
import findspark
findspark.init()
import pyspark
import random
sc = pyspark.SparkContext(appName="Pi")
num_samples = 100000000
def inside(p):
x, y = random.random(), random.random()
return x*x + y*y < 1
count = sc.parallelize(range(0, num_samples)).filter(inside).count()
pi = 4 * count / num_samples
print(pi)
# sc.stop()