大数据基础平台Hadoop完全分布式集群-伙伴云

大数据基础平台 Hadoop 完全分布式集群

网友投稿 810 2022-05-29

大数据基础平台Hadoop完全分布式集群

完全分布式部署介绍

完全分部式是真正利用多台Linux主机来进行部署Hadoop，对Linux机器集群进行规划，使得Hadoop各个模块分别

部署在不同的多台机器上。

NameNode HA+完全分布式部署

部署规划

部署6台主机，注意每台主机的IP地址，主机名要不同，此处IP地址为192.168.1.10-60，主机为hd1-hd6

使用ntpdate命令同步6台主机时间：ntpdate time1.aliyun.com

更改hd1 hosts文件，增加域名

192.168.1.10 hd1

192.168.1.20 hd2

......

通过scp命令传给其他主机：scp /etc/hosts 192.168.1.20:/etc

以此类推

生成密钥对，使6台主机可以相互免密访问

首先在hd1上执行命令，生成密钥对：ssh-keygen -t rsa -f /root/.ssh/id_rsa -N ""

使用for循环将生成的密钥对发到各个主机：

for i in hd{2..6}

> do

> scp -r /root/.ssh $i:/root

> done

部署jdk环境，上传jdk二进制软件包，然后解包到当前目录：

tar xf jdk-8u191-linux-x64.tar.gz

移动到local目录下命名为jdk：

mv jdk1.8.0_191 /usr/local/jdk

使用for循环将解好的包scp到其他主机上：

for i in hd{2..6}

scp -r /usr/local/jdk $i:/usr/local

done

配置环境变量：vim /etc/profile

export JAVA_HOME=/usr/local/jdk

export PATH=${JAVA_HOME}/bin:$PATH

将配置好的环境变量文件使用for循环，拷贝到其他主机：

for i in hd{2..6}

scp -r /etc/profile $i:/etc

done

拷贝成功，全部执行source /etc/profile

Java jdk环境部署成功

根据上面的规划，我们在编号为hd4-6的主机上部署zookeeper

上传zookeeper包到hd4主机上，解包：tar xf zookerper

移动到local下：mv zookerper /usr/local/zookerper

复制、修改配置文件：

cp /usr/local/zookerper/conf/zoo_sample.cfg /usr/local/zookerper/conf/zoo.cfg

配置cfg文件，更改dataDir目录如图：

在文件末尾增加主机验证

在opt目录下创建data目录：mkdir /opt/data

将1写入myid：echo “1” > /opt/data/myid

其余hd5、hd6主机也同样创建data目录

将2、3写入hd5、hd6的myid文件

将配置文件cfg拷贝到其余主机zookeeper的conf目录下

for i in hd{5..6}

> do

> scp -r /usr/local/zookeeper $i:/usr/local/zookeeper

> done

添加环境变量：vim /etc/profile

将环境变量文件复制到其他主机：scp /etc/profile hd5:/etc/profile

scp /etc/profile hd6:/etc/profile

挨个source

三台主机启动zookeeper服务：zkServer.sh start

查看zookeeper服务状态：zkServer.sh status

部署Hadoop

Hd1主机上传Hadoop软件包

解压到opt目录下：tar xf hadoop2.8.5 -C /opt/hadoop285

更改环境变量vim /etc/profile

键入source /etc/profile

把profile文件发给其他主机：scp /etc/profile hd2:/etc/profile

scp /etc/profile hd3:/etc/profile

更改hd4主机profile文件

键入source /etc/profile

把profile文件发送给其他主机：scp /etc/profile hd5:/etc/profile

scp /etc/profile hd6:/etc/profile

配置hd1的hadoop

修改hadoop-env.sh 25行；mapred-env.sh 16行；yarn-env.sh 23行（针对hadoop285版本）

改为：export JAVA_HOME=/usr/local/jdk

修改core-site.xml

fs.defaultFS

hdfs://ns1

hadoop.tmp.dir

/opt/data/tmp

ha.zookeeper.quorum

hd4:2181,hd5:2181,hd6:2181

修改hdfs-site.xml

dfs.nameservices

ns1

dfs.ha.namenodes.ns1

nn1,nn2

dfs.namenode.rpc-address.ns1.nn1

hd1:9000

dfs.namenode.http-address.ns1.nn1

hd1:50070

大数据基础平台Hadoop完全分布式集群

dfs.namenode.rpc-address.ns1.nn2

hd2:9000

dfs.namenode.http-address.ns1.nn2

hd2:50070

dfs.namenode.shared.edits.dir

qjournal://hd4:8485;hd5:8485;hd6:8485/ns1

dfs.journalnode.edits.dir

/opt/data/journal

dfs.ha.automatic-failover.enabled

true

dfs.client.failover.proxy.provider.ns1

org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider

dfs.ha.fencing.methods

sshfence

dfs.ha.fencing.ssh.private-key-files

/root/.ssh/id_rsa

配置datanode节点记录文件slaves

hd4

hd5

hd6

配置mapred-site.xml

复制mapred-site.xml.template为mapred-site.xml:

cp /opt/hadoop285/etc/hadoop/mapred-site.xml.template

/opt/hadoop285/etc/hadoop/mapred-site.xml

配置mapred-site.xml文件

mapreduce.framework.name

yarn

配置yarn-site.xml文件

yarn.resourcemanager.hostname

hd3

yarn.nodemanager.aux-services

mapreduce_shuffle

将配置文件传到所有主机

传输时间较长，一般在20分钟左右

传输完毕，所有主机执行source /etc/profile

启动集群

在datanode节点（hd4-6）启动zookeeper：zkServer.sh start

启动journalnode（在namenode上操作，例如hd1）：hadoop-darmons.sh start journalnode

分别到hd4、5、6节点上验证：jps

格式化hdfs文件系统（在namenode上操作，例如hd1）：hdfs namenode -format

复制到hd2主机：scp -r /opt/data hd2:/opt

格式化zk（namenode上操作，例如hd1）：hdfs zkfc -formatZK

启动hdfs（在namenode上操作，例如hd1）：start-dfs.sh

启动yarn（namenode上操作，例如想让hd2成为resourcemanager，需要在hd2上启动，此处在hd3启动）：start-yarn.sh

测试集群

创建文件txt文件

将文件上传hdfs文件系统：hdfs dfs -mkdir /input

hdfs dfs -put test.txt /input

yarn jar /opt/hadoop285/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.5.jar wordcount /input /output/00

查看结果hdfs dfs -cat /output/00/part-r-00000

附件：大数据基础平台Hadoop集群之Ambari实践.docx 1.02MB 下载次数：0次

Hadoop ssh 云计算任务调度大数据

国内最强悍的工作流平台，工作流平台功能有哪些？以及该如何选择？

810 2022-05-29

大数据 基础 平台 Hadoop 完全分布式集群

为什么我的幻灯片素材出不来（为什么看不见幻灯片内容?）

国内最强悍的工作流平台，工作流平台功能有哪些？以及该如何选择？

什么是低代码？低代码开发平台靠谱吗？低代码平台优缺点

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

智能定制家居管理系统：重新定义家庭生活方式

简单进销存库存管理盘点

友情链接

大数据基础平台Hadoop完全分布式集群

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接

大数据基础平台 Hadoop 完全分布式集群