CrazyAirhead

疯狂的傻瓜,傻瓜也疯狂——傻方能执著,疯狂才专注!

0%

单机部署Spark On Yarn

说明

需要部署大数据治理平台,查看了一些开源版本之后发现微众银行的DataSphereStudio(DSS)比较符合我们的预期,于是着手部署该数据平台。

因为DSS默认支持的Spark2.0以上版本,于是本次的安装也用3.3.2-hadoop2版本。

参考安装文档Running Spark on YARN - Spark 2.4.3 Documentation (apache.org)

基础软件

1
yum install -y scala-2.12.17.rpm

基础配置

  • 设置

配置

  • 解压
1
2
tar -zxvf spark-3.3.2-bin-hadoop2.tgz
mv spark-3.3.2-bin-hadoop2 /home/spark
  • 配置spark-env.sh
1
2
3
4
5
6
7
# Options read in any cluster manager using HDFS
# - HADOOP_CONF_DIR, to point Spark towards Hadoop configuration files
HADOOP_CONF_DIR=/home/bigdata/hadoop/etc/hadoop

# Options read in YARN client/cluster mode
# - YARN_CONF_DIR, to point Spark towards YARN configuration files when you use YARN
YARN_CONF_DIR=/home/bigdata/hadoop/etc/hadoo
  • 编辑/home/hadoop/etc/hadoop/yarn-site.xml
1
2
3
4
5
6
7
8
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>

运行

  • 启动dfs
1
start-dfs.sh
  • 启动yarn
1
start-yarn.sh
  • 运行sprk-shell
1
spark-shell --master yarn --deploy-mode client
  • 验证yarn
1
http://hadoop0:8088/cluster

欢迎关注我的其它发布渠道