搬瓦工Ubuntu 20.04上安装Apache Spark教程

2023-10-30 16:14:48 技术分享 1144℃

apache spark 前几年在学术界是非常火的，最近几年可能不是那么火了，因为能研究的问题似乎都已经被研究的差不多了，最近都开始研究新的分布式框架了。本文就介绍一下如何在 ubuntu 20.04 Linux 操作系统上安装 Apache Spark 教程，包括安装 Java、安装 Apache Spark、以及通过 Apache Spark Web 界面访问的教程。Apache Spark 是一个用于大规模数据处理的开源、通用、多语言分析引擎。通过利用集群中的 RAM 对大量数据执行快速数据查询，它可以在单个和多个节点上工作。它提供批处理数据处理和实时流式传输，并支持 Python、SQL、Scala、Java 或 R 等语言的高级 API。该框架提供内存技术，使其能够将查询和数据直接存储在集群节点的主存储器。

一、安装 Java

更新系统包：

$ sudo apt update

安装 Java：

$ sudo apt install default-jdk -y

确认 Java 安装：

$ java -version

二、安装 Apache Spark

安装必要的包：

$ sudo apt install curl mlocate git scala -y

下载 Apache Spark，最新版可以在这里下载：https://spark.apache.org/downloads.html

$ curl -O https://archive.apache.org/dist/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz

解压 Spark 安装包：

$ sudo tar xvf spark-3.2.0-bin-hadoop3.2.tgz

创建安装目录：

$ sudo mkdir /opt/spark

移动文件到安装目录：

$ sudo mv spark-3.2.0-bin-hadoop3.2/* /opt/spark

修改目录权限：

$ sudo chmod -R 777 /opt/spark

编辑 bashrc 配置文件，将 Apache Spark 安装目录添加到系统路径：

$ sudo nano ~/.bashrc

将下面两行代码添加到文件最后：

export SPARK_HOME=/opt/spark

export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

保存文件并使之生效：

$ source ~/.bashrc

启动独立主服务器：

$ start-master.sh

通过访问 http://ServerIPaddress:8080 从仪表板中查找您的服务器主机名。它可能看起来像这样：

URL: spark://my-server-development:7077

启动 Apache Spark 工作进程。使用您的服务器主机名更改 spark://ubuntu:7077。

$ start-slave.sh spark://ubuntu:7077

三、访问 Apache Spark Web 界面

转到浏览器地址栏以访问 Web 界面并输入 http://ServerIPaddress:8080 以访问 Web 安装向导。例如：

http://192.0.2.10:8080

至此，您已在服务器上安装了 Apache Spark。您现在可以访问主仪表板，开始管理您的集群。

搬瓦工VPS套餐

搬瓦工美国CN2 GIA/日本软银

最高10Gbps带宽，可选：美国cn2 gia、日本软银，企业级高端网络带宽。VPS基于KVM虚拟，SSD raid10阵列，自带一个IPv4，免费支持snapshot快照功能(可以导入、导出)和Backup(备份功能)，可以一键更换IP、一键切换机房。

内存	CPU	SSD	流量	带宽	价格	购买
1G	2核	20G	1.0T/月	2.5G	$50/季	链接
2G	3核	40G	2.0T/月	2.5G	$90/季	链接
4G	4核	80G	3.0T/月	2.5G	$57/月	链接
8G	6核	160G	5.0T/月	5.0G	$87/月	链接
16G	8核	320G	8.0T/月	10G	$160/月	链接
32G	10核	640G	10.0T/月	10G	$290/月	链接
64G	12核	1280G	12.0T/月	10G	$550/月	链接