安装虚拟机

使用 VirtualBox 虚拟机软件安装虚拟机. 选择安装无 GUI 的 Debian 12 系统以最小化磁盘占用, 同时尽可能保持 apt 层面与 Ubuntu 的兼容性.

设置主机名为 Spark1, 便于后续创建和管理集群.

安装完成后, 为便于后续配置, 使用 SSH 连接到虚拟机中.

安装 Spark

使用 SCP 工具, 将 Java 运行时和 Spark 安装包复制到虚拟机中.

使用 tar 工具解压两个安装包

jdk 文件夹移动到 ~/.local/share/jdk 后, 修改环境变量.

通过 source ~/.bashrc 应用更改后, 启动 Spark Shell. 为了便于从实体机访问, 使用 SPARK_LOCAL_IP 环境变量来设计 Web UI 绑定的 IP 地址.

在浏览器中打开 Web UI 地址.

单节点运行 Spark

新建 ~/test.txt, 输入一些内容.

在 Spark Shell 中执行 Scala 语句.

sc.textFile("/home/dustin/test.txt")
	.flatMap(_.split(" "))
	.map((_,1))
	.reduceByKey(_+_)
	.collect

使用 Spark Submit 工具提交计算工作.

多节点运行 Spark

复制虚拟机 Spark1, 登录后修改 Hostname 为 Spark2.

修改 spark/conf 下的 slaves 配置文件.

修改 spark-env.sh 配置文件.

在 Spark2 上重复这些操作.

使用 Standalone 模式运行 Spark, 在主节点 Spark1 上执行 $SPARK_HOME/sbin/start-all.sh.

成功启动后, 访问 http://MASTER_IP:8080 查看运行情况.

用 Spark Submit 工具提交计算任务.

在 Web UI 中查看任务运行情况.