安装虚拟机
使用 VirtualBox 虚拟机软件安装虚拟机. 选择安装无 GUI 的 Debian 12 系统以最小化磁盘占用, 同时尽可能保持 apt 层面与 Ubuntu 的兼容性.
设置主机名为 Spark1, 便于后续创建和管理集群.
安装完成后, 为便于后续配置, 使用 SSH 连接到虚拟机中.
安装 Spark
使用 SCP 工具, 将 Java 运行时和 Spark 安装包复制到虚拟机中.
使用 tar
工具解压两个安装包
将 jdk
文件夹移动到 ~/.local/share/jdk
后, 修改环境变量.
通过 source ~/.bashrc
应用更改后, 启动 Spark Shell. 为了便于从实体机访问, 使用 SPARK_LOCAL_IP
环境变量来设计 Web UI 绑定的 IP 地址.
在浏览器中打开 Web UI 地址.
单节点运行 Spark
新建 ~/test.txt
, 输入一些内容.
在 Spark Shell 中执行 Scala 语句.
sc.textFile("/home/dustin/test.txt")
.flatMap(_.split(" "))
.map((_,1))
.reduceByKey(_+_)
.collect
使用 Spark Submit 工具提交计算工作.
多节点运行 Spark
复制虚拟机 Spark1, 登录后修改 Hostname 为 Spark2.
修改 spark/conf
下的 slaves
配置文件.
修改 spark-env.sh
配置文件.
在 Spark2 上重复这些操作.
使用 Standalone 模式运行 Spark, 在主节点 Spark1 上执行 $SPARK_HOME/sbin/start-all.sh
.
成功启动后, 访问 http://MASTER_IP:8080
查看运行情况.
用 Spark Submit 工具提交计算任务.
在 Web UI 中查看任务运行情况.