在根据Spark学习记录1:安装单机Spark环境安装了Spark环境后,现在来配置以下PySpark环境

一共分4步:

  • SPARK_HOME添加进永久环境变量
  • 安装findspark
  • 重新进入user或者使用source /etc/profile更新配置文件
  • 跑一下测试代码,如果没报错就成功了
  1. /etc/profile添加环境变量,之后执行
sudo vi /etc/profile
# 添加一行
# export SPARK_HOME=/home/ubuntu/spark-learn/spark-3.1.2-bin-hadoop3.2

# 更新环境变量
source /etc/profile
  1. 安装findspark库
pip install findspark
  1. 重进入user,启动jupyter notebook
  2. 输入下列代码测试
import findspark
findspark.init()

import pyspark
import random

sc = pyspark.SparkContext(appName="Pi")
num_samples = 100000000

def inside(p):     
    x, y = random.random(), random.random()
    return x*x + y*y < 1

count = sc.parallelize(range(0, num_samples)).filter(inside).count()

pi = 4 * count / num_samples
print(pi)

# sc.stop()
最后修改:2021 年 07 月 14 日 11 : 32 AM
如果觉得我的文章对你有用,请随意赞赏