GaussDB A 集群安装过程及部分问题解决方案

网友投稿 1103 2022-05-28

一、安装前检查

1、检测服务器主机名称

主机名与业务平面IP地址保持一一映射关系,即每个主机名对应唯一一个业务平面IP地址,每个业务平面IP地址对应唯一一个主机名。

执行命令:hostname

2、检查硬盘分区是否符合规范

OS盘需要对以下目录单独分区

/  20G

/tmp 10G

/var 10G

/var/log 130G

/srv/Bigdata 60G

/opt 200G

其他24块硬盘以每组6个做成4组raid5

4组raid不挂载目录,在后续安装过程中会自行挂载

ps:由于/srv/BigData/dbdata_om及/srv/BigData/LocalBackup没有单独分区,因此需要在主备管理节点,手工挂载磁盘,创建分区,具体操作步骤见下文

二、配置软件包

1、将安装包《GaussDB_A_8.0.0_RHEL.zip》上传到主管理节点198.203.70.206的/opt目录下

在opt目录下解压安装包

cd /opt

$tar -zxvf GaussDB_A_8.0.0_RHEL.zip

得到以下软件包:

•FusionInsight_Manager_6.5.1_RHEL.tar.gz

•FusionInsight_Manager_6.5.1.6_redhat.tar.gz

•FusionInsight_BASE_6.5.1_RHEL.tar.gz

•FusionInsight_BASE_6.5.1.6_redhat.tar.gz

•GaussDB_A_8.0.0_RHEL.tar.gz

•FusionInsight_SetupTool_6.5.1.6.tar.gz

2、解压软件包

tar -zxvf FusionInsight_Manager_6.5.1_RHEL.tar.gz

tar -zxvf GaussDB_A_8.0.0_RHEL.tar.gz

tar -zxvf FusionInsight_SetupTool_6.5.1.6.tar.gz

3、copy文件到指定目录

cp FusionInsight_BASE_6.5.1_RHEL.tar.gz FusionInsight_MPPDB_8.0.0_RHEL.tar.gz FusionInsight_Manager/software/packs/

cp FusionInsight_Manager_6.5.1.6_redhat.tar.gz FusionInsight_BASE_6.5.1.6_redhat.tar.gz FusionInsight_Manager/software/patch/

4、挂载操作系统镜像

mount /home/backuofile/iso/rhel7664.iso /mnt/ -o loop

5、检查OS的编码格式是否符合要求

locale 检查OS的编码格式是否为“en_US.UTF-8“

三、生成配置文件

1、打开《配置规划工具》,启用宏

2、基础配置

修改集群名称:CMBC_GAUSS

芯片类型:uname -p  x86_64

OS类型:redhat-7.6

OS镜像挂载目录:/mnt/

配置套餐:MN&CN&DN

集群节点数量:5

输出配置文件路径:D:\gaussdb\ini

3、选择服务

使用默认配置即可,无需修改

4、IP规划与进程部署

选择206与207为主备管理节点,因此在前两行类型为MN&CN&DN中填写206及207相关信息,其他3行填写208~210的信息

管理IP 199.203.76.206

业务IP 198.203.70.206

前两行MN&CN&DN中OMSServer、LdapServer、KrbServer均填Y,其余行不填,MPPDBServer所有行均填Y

5、节点信息

CPU虚拟核数:40 ( cat /proc/cpuinfo |grep "processor"|sort -u|wc -l )

内存 :256 (free -g  )

主机逻辑磁盘数量 :5 (parted -l 2>/dev/null | grep "Disk /dev/" | grep -iv "Disk /dev/mapper" | wc -l

最小数据盘容量 :4500 (执行命令 parted -l 2>/dev/null | grep "Disk /dev/" | grep -iv "Disk /dev/mapper" 得出 5001G,再乘以0.9得 4500)

主机名:206-gscmdn001 207-gsmcdn002 208-gsdn003 209-gsdn004 210-gsdn005(hostname)

6、浮动IP

浮动IP:198.203.70.65

接口:bond0:web bond0:oms(ifconfig 查找与浮动IP在同一网段的网卡名称 bond0)

子网掩码:255.255.255.0(ifconfig Use Iface为bond0的数据中对应的Genmask)

网关:198.203.70.1(ifconfig Use Iface为bond0的数据中对应的Gateway)

7、磁盘配置

参照前文《一、安装前检查》中“2、检查硬盘分区是否符合规范”,查看OS盘分区,并填写至相应目录

/     20

/tmp  10

/var  10

/var/log 130

/srv/Bigdata 60

/opt  200

元数据盘数:206与207填写1(如无多余硬盘分区,则选择0),其他3台机器选择0

数据盘数:4(每台服务器配置4个dn,每个dn单独占据一块磁盘)

8、集群参数配置

选择默认配置即可,无需修改

9、实例参数配置

206、207选择1,其他服务器选择0

10、点击生成配置文件

四、配置并检查安装环境

1、进入“2.基础配置”中 输出配置文件路径:D:\gaussdb\ini,将software文件夹打包,然后通过跳板机上传到206这台服务器的/opt/ini_file目录下

2、登录206服务器,进入配置文件压缩包所在目录后,解压压缩包

cd /opt/ini_file

unzip software.zip

3、将配置文件copy到指定目录

cd /opt/ini_file/software

/cp -r ./preinstall/* /opt/FusionInsight_Manager/software/preinstall/

/cp -r ./preinstall/* /opt/FusionInsight_SetupTool/preinstall/

/cp -r ./precheck /opt/FusionInsight_Manager/software/precheck/

/cp -r ./precheck /opt/FusionInsight_SetupTool/precheck/

/cp -r ./install_oms  /opt/FusionInsight_SetupTool

4、执行preinstall

cd /opt/FusionInsight_SetupTool

./setuptool.sh preinstall

注:若执行错误,可在“/tmp/fi-preinstall.log”路径下查看“preinstall”的日志文件,并进行相应处理。

5、“preinstall”过程结束后,默认会自动继续进行“precheck”

若precheck执行失败,可查看precheck日志/opt/FusionInsight_SetupTool/precheck/log/precheck_failed.log,并进行相应处理

五、安装manager

1、确认上一步preinstall及precheck执行无误,检查**.ini文件已传到主节点服务器/opt/

FusionInsight_Manager/software/install_oms下

2、检查ini文件是否配置正确

cd /opt/FusionInsight_Manager/software

cat install_oms/192.168.10.10.ini

3、执行manager安装命令,等待安装执行完毕

cd /opt/FusionInsight_Manager/software

./install.sh -f /opt/FusionInsight_Manager/software/install_oms/

192.168.10.10.ini

注1:安装命令执行过程中,不支持通过“Ctrl+Z”将任务挂起。挂起后再恢复执行时可能会

导致安装失败。

注2:安装失败后,查看日志/var/log/Bigdata/controller/scriptlog/install.log and /var/log/Bigdata/controller/controller.log,定位错误原因。修改之后,在执行安装之前,需执行/opt/huawei/Bigdata/om-server/om/inst/uninstall.sh进行卸载后,再重新安装

六、安装集群

1、在步骤五安装完成后,会在控制台输出FIM页面地址:

HTTP://****:8080/web

复制该网址到谷歌浏览器

2、输入初始用户名\密码 admin\Admin@123,首次登录后修改密码,然后重新登录

3、登录成功后,点击创建集群按钮

4、点击按钮模板安装,选择通过lld工具生成的xml文件,d:\gaussdb\ini\software\install_cluster\installTemplet.xml,点击提交

5、选择root用户并输入“密码”,单击“查找”发现节点。查找后会自动跳转至“确定”页面,此时若发现配置规划数据有误,可单击“上一步”回到

各配置项检查或更改参数值。

6、确认配置信息,单击“提交”,在弹出的对话框中确认是否勾选“安装后启动集群”。

7、单击“确定”开始安装集群。则待集群安装完成后,在弹出的对话框中确认是否启动集群。

七、安装后检查

1、检查集群状态

登录FusionInsight Manager系统

● 检查服务的状态。选择“集群 > 待操作的集群名称 > 服务”,各服务的“运行状态”为“良好”。

● 检查节点状态。在FusionInsight Manager页面单击“主机”,各节点的“运行状态”为“良好”。

注:

● 主机名称前有标志表示该节点为主管理节点。

● 主机名称前有标志表示该节点为备管理节点。

2、执行健康检查

● 执行集群的健康检查

a. 选择“集群 > 待操作的集群名称” 。

b. 选择“更多 > 健康检查”。

● 执行主机健康检查

a. 单击“主机”。

b. 勾选待检查主机前的复选框。

c. 选择“更多 > 健康检查”启动指定主机健康检查。

附:安装过程中出现的部分问题及解决方案

问题【一】:执行preinstall报错

问题现象:执行preinstall时,有3台服务器磁盘分区成功,有2台服务器磁盘分区失败

原因分析:成功的3台服务器为纯DN服务器,206及207这两台服务器是失败的,通过分析日志中的错误信息,发现是由于

/srv/BigData/LocalBackup及/srv/BigData/dbdata_om没有单独分区,因此在执行preinstall过程中,需要4(DN数量)+1(OS系统盘)+1(/srv/BigData/LocalBackup及/srv/BigData/dbdata_om)共6块磁盘,而实际可用硬盘数量为5,从而导致执行失败。

解决方案:在206及207两台机器中,分别手工执行挂载目录,具体操作步骤如下:

1、创建磁盘挂载目录(按照规划sda~d分别对应/srv/BigData/data1~4,以daeta1为例)

mkdir -p /srv/BigData/data1

2、将指定的磁盘分区,划分分区并执行格式化

parted -s /dev/sda mklabel gpt

parted -s /dev/sda mkpart logic 100M 100%

mkfs.xfs -f /dev/sda1

3、刷新操作系统分区表

partprobe

4、获取新分区的UUID。运行如下命令:

blkid /dev/sda1

5、修改“/etc/fstab”,将如下语句作为新行添加到“/etc/fstab”中

UUID=XXXXXXXXXXXXXXXXXXXXXXX /srv/BigData/data1 xfs defaults,noatime,nodiratime 1 0

6、挂载磁盘,并修改属主

mount -a

chown 2000:wheel /srv/BigData/data1

7、重复执行步骤1~6,直至206及207两台服务器上data1~4均挂载成功

使用df -h查看目录是否挂载成功

8、主节点修改preinstall.ini配置文件,将参数“g_parted”值设为0

9、重新执行preinstall脚本,执行成功

问题【二】:执行precheck报错

问题现象:执行precheck报错,查看日志,报错信息为the real disk number 6 does not match the config file 7

原因分析:与问题【一】原因一致,是由于/srv/BigData/LocalBackup及/srv/BigData/dbdata_om没有单独分区导致

解决方案:修改precheck下checkNodes.Config,将/srv/BigData/LocalBackup及/srv/BigData/dbdata_om的硬盘分区信息删除,重新执行precheck脚本,执行成功

问题【三】:在FIM使用模板安装集群时报错

问题现象:使用模板安装集群,执行第一步校验请求参数报错,页面显示报错信息为 the hostname already exists

原因分析:查看日志信息,报错信息为 Failed to verify node:gsmcdn001, the hostname already exists,怀疑可能是因为手工在/etc/hosts下添加所有机器的ip对应主机名信息导致。

解决方案:

1、删除所有5台服务器中/etc/hosts下所有手工添加的信息,在FIM使用模板创建集群,点击提交按钮后,显示“无效的业务IP”错误信息,修复失败

2、将每台服务器下/etc/hosts中只保留本机的配置,如206服务器保留 198.203.70.206 gsmcdn001,在FIM使用模板创建集群,点击提交按钮后,执行第一步校验请求参数报错,页面显示报错信息为 the hostname already exists,修复失败

3、删除所有5台服务器中/etc/hosts下所有手工添加的信息,然后执行/opt/huawei/Bigdata/om-server/om/inst/uninstall.sh卸载 Manager,重新安装安装Manager,再次使用模板创建集群,点击提交按钮后,显示“无效的业务IP”错误信息,修复失败

4、删除所有5台服务器中/etc/hosts下所有手工添加的信息,然后执行/opt/huawei/Bigdata/om-server/om/inst/uninstall.sh卸载 Manager,重新执行preinstall后再重新安装安装Manager,再次使用模板创建集群,点击提交按钮后,执行第一步校验请求参数报错,页面显示报错信息为 the hostname already exists,修复失败

5、将所有安装文件删除,重新解压安装包,从头重来一次(因目录已挂载成功,所有将preinstall.ini中 g_parted值设为0),在FIM中使用模板安装集群,成功。

问题【四】:安装集群后有两个告警信息

GaussDB A 集群安装过程及部分问题解决方案

问题现象:集群安装完成后,在FIM中有两个告警信息-“主要配置文件出错”,分别是在gsmcdn001及gsmcdn002中

原因分析:查看日志中的报错信息为/etc/fstab中的UUID “XXXXXXXXXX”与mount的UUID XXXXXXXX不一致,猜测是由于这两台服务的目录挂载是手工执行的,可能与脚本自动挂载的不一致。查看其它3台正常服务器中的/etc/fstab文件与有告警信息的2台服务器做对比,发现有告警信息的服务器中是 UUID="XXXXXXXX",而正常服务器中为UUID=XXXXXXXX

解决方案:删除多余的双引号,再执行mount -a,然后再次执行日志中记录报出告警的shell脚本,shell脚本执行通过,无异常。再等待一段时间后,告警自动消除。

Gauss AP EI企业智能 数据仓库服务 GaussDB(DWS)

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:输入输出系统
下一篇:MySQL checkpoint
相关文章