Windows10配置运行Hive（非WSL模式）-伙伴云

Windows10 配置运行 Hive（非WSL模式）

网友投稿 832 2022-05-30

背景

相关篇：Windows10配置运行Hadoop（非WSL模式）

Hive的运行依赖HDFS，需要先准备好Hadoop部分的配置。

版本

OS：Windows 10 Pro 1903

Java：1.8.0_231

Hive：Hive-3.1.0.tar.gz（Apache官方源下载 https://archive.apache.org/dist/hive/hive-3.1.0/ ）

derby：db-derby-10.14.2.0-bin.tar.gz（可以在官方 https://db.apache.org/derby/derby_downloads.html 下载，或是在镜像站 https://downloads.apache.org/db/derby/ 寻找下载）

前置依赖

JDK环境

Hadoop环境：参考上一篇博客

derby数据库：

轻量级数据库，作为Hive Metastore；如果有时间捣鼓MySQL可以自行替换；

解压即可运行，注意执行脚本的目录即为数据目录

启动derby参考：

# PowerShell $env:DERBY_HOME="D:\install\db-derby-10.14.2.0-bin" # 创建目录: D:\install\db-derby-10.14.2.0-data cd D:\install\db-derby-10.14.2.0-data # 注意直接使用环境变量可能不成功, 用tab补全绝对路径后即可 $env:DERBY_HOME\bin\startNetworkServer.bat -h 0.0.0.0

WSL / Cygwin / Git Bash

N选一，为了拥有一个类unix的环境

不像Hadoop，Hive太多地方没有做好类unix和Windows的兼容

hive在windows下的可执行文件

此处演示在WSL中下载

安装svn: sudo apt-get install subversion

下载: svn co https://svn.apache.org/repos/asf/hive/trunk/bin hive-bin

-在svn上：https://svn.apache.org/repos/asf/hive/trunk/bin

可选：手动逐个下载

可选：通过svn下载

配置步骤

解压Hive包

可选：使用管理员权限运行winrar解压;

非管理员解压，会导致linux软连接无法转换为windows快捷方式。但是会改成复制内容。

打开指定的tar.gz后，选择解压地址并解压

D:\install\是我常用的软件安装目录，各自实操时注意更换自己的解压/安装目录

环境变量配置

环境变量

# PowerShell # Hadoop与JDK环境变量设置, 以防没设置 $env:JAVA_HOME="D:\install\Java\jdk1.8.0_231" $env:HADOOP_HOME="D:\install\Hadoop-3.1.1\hadoop" $env:PATH="$env:PATH;$env:JAVA_HOME\bin;$env:HADOOP_HOME\bin" # Hive环境变量设置 $env:HIVE_HOME="D:\install\Hive-3.1.0\hive-3.1.0" $env:DERBY_HOME="D:\install\db-derby-10.14.2.0-bin" $env:HIVE_LIB="$env:HIVE_HOME\lib" $env:HIVE_BIN="$env:HIVE_HOME\bin" $env:HADOOP_USER_CLASSPATH_FIRST="true"

复制derby lib到hive lib

cp D:\install\db-derby-10.14.2.0-bin\lib\* D:\install\Hive-3.1.0\hive-3.1.0\lib

配置hive-site.xml

D:\install\Hive-3.1.0\hive-3.1.0\conf 目录下新建文件

添加内容：

javax.jdo.option.ConnectionURL jdbc:derby://localhost:1527/metastore_db;create=true javax.jdo.option.ConnectionDriverName org.apache.derby.jdbc.ClientDriver hive.server2.enable.doAs true hive.server2.authentication NONE datanucleus.autoCreateTables True hadoop.bin.path /D:/install/Hadoop-3.1.1/hadoop/bin/hadoop.cmd hive.jar.path /D:/install/Hive-3.1.0/hive-3.1.0/lib/hive-exec-3.1.0.jar

Hadoop应当启动妥当，参考上一份文档

替换bin目录下Windows执行文件

hive-bin覆盖到bin目录下

初始化metastore

由于脚本是bash，只得依赖Cygwin或者WSL了 (注意使用bash环境, 而不是zsh环境)

初始化过程可能遇到问题，参考下文的其他问题章节

# bash, 注意不是zsh # Hadoop与JDK环境变量 # WSL下的JDK与Windows下的有所区别, 注意替换 export JAVA_HOME=/mnt/d/install/jdk/jdk1.8.0_231 export HADOOP_HOME='/mnt/d/install/Hadoop-3.1.1/hadoop' export PATH=$PATH:$HADOOP_HOME/bin # Hive环境变量 export HIVE_HOME='/mnt/d/install/Hive-3.1.0/hive-3.1.0' export PATH=$PATH:$HIVE_HOME/bin export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HIVE_HOME/lib/*.jar # Hive目录下的初始化脚本 cd $HIVE_HOME ./bin/schematool -dbType derby -initSchema

启动hive

这里并没有启动hiveserver2，因为启动不起来 (手动微笑)

所以只是用本地模式，主要的目的是为了方便接下来的功能性开发与测试

# PowerShell cd $env:HIVE_HOME .\bin\hive.cmd

可用性测试

准备数据

注意替换Windows风格的换行符, hive处理时候不能正确处理，例如行尾的整数就没法正确转换。

2,zhangsan,98 7,lisi,87

建表

create table test ( id INTEGER, name STRING, grade INTEGER ) row format delimited fields terminated by ',' lines terminated by '\n';

从HDFS中读入表中

load data inpath "/tmp/samples.csv" into table 'test';

查询测试

测试过程可能遇到问题，参考下文的其他问题章节

select id, count(1) as cnt from test group by id; insert into table test select (id + 10) as id, name, grade from test; create table test2 stored as ORC as select (id + 10) as id, name, grade from test;

后续启动或停止

环境变量设置

# PowerShell # Hadoop与JDK环境变量 $env:JAVA_HOME="D:\install\Java\jdk1.8.0_231" $env:HADOOP_HOME="D:\install\Hadoop-3.1.1\hadoop" $env:PATH="$env:PATH;$env:JAVA_HOME\bin;$env:HADOOP_HOME\bin" # Hive环境变量 $env:HIVE_HOME="D:\install\Hive-3.1.0\hive-3.1.0" $env:DERBY_HOME="D:\install\db-derby-10.14.2.0-bin" $env:HIVE_LIB="$env:HIVE_HOME\lib" $env:HIVE_BIN="$env:HIVE_HOME\bin" $env:HADOOP_USER_CLASSPATH_FIRST="true"

启动hadoop

启动derby

启动Hive

# PowerShell cd $env:HIVE_HOME .\bin\hive.cmd

日志目录：C:/Users/${Windows用户名}/AppData/Local/Temp/${Windows用户名}/beeline.log

其他问题

\r command not found

原因: Windows的换行符不兼容WSL/cygwin

替换: 例 sed -i 's/\r$//' hadoop

NumberFormatException: For input string: "0x100"

原因: 终端配置有误

配置: export TERM=xterm-color，可以加入.bashrc

Error: FUNCTION 'NUCLEUS_ASCII' already exists.

derby重复创建，到derby启动的目录删除metastore_db

Create symbolic links error 创建符号连接失败

hadoop无法创建符号链接，无法写入hdfs

开放给当前用户

Windows10配置运行Hive（非WSL模式）

hadoop配置篇也有说明

java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset.

只有配置在环境变量了

JAVA_HOME="D:\install\Java\jdk1.8.0_231" HADOOP_HOME="D:\install\Hadoop-3.1.1\hadoop" PATH="%PATH%;%JAVA_HOME%\bin;%HADOOP_HOME%\bin"

即使配置了环境变量，依然找不到HADOOP_HOME

etc/hadoop/yarn-site.xml设置的白名单少了HADOOP_HOME (自己坑自己)

放心，上一篇博文已经改了这里

yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.env-whitelist JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME,HADOOP_HOME,PATH,LANG,TZ

找不到hive-log4j.properties

D:\install\Hive-3.1.0\hive-3.1.0\conf目录下新建文件hive-log4j.properties

添加内容：

# Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional information # regarding copyright ownership. The ASF licenses this file # to you under the Apache License, Version 2.0 (the # "License"); you may not use this file except in compliance # with the License. You may obtain a copy of the License at # # http://www.apache.org/licenses/LICENSE-2.0 # # Unless required by applicable law or agreed to in writing, software # distributed under the License is distributed on an "AS IS" BASIS, # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. # See the License for the specific language governing permissions and # limitations under the License. status = INFO name = HiveLog4j2 packages = org.apache.hadoop.hive.ql.log # list of properties property.hive.log.level = INFO property.hive.root.logger = DRFA property.hive.log.dir = ${sys:java.io.tmpdir}/${sys:user.name} property.hive.log.file = beeline.log property.hive.perflogger.log.level = INFO # list of all appenders appenders = console, DRFA # console appender appender.console.type = Console appender.console.name = console appender.console.target = SYSTEM_ERR appender.console.layout.type = PatternLayout appender.console.layout.pattern = %d{ISO8601} %5p [%t] %c{2}: %m%n # daily rolling file appender appender.DRFA.type = RollingRandomAccessFile appender.DRFA.name = DRFA appender.DRFA.fileName = ${sys:hive.log.dir}/${sys:hive.log.file} # Use %pid in the filePattern to append @ to the filename if you want separate log files for different CLI session appender.DRFA.filePattern = ${sys:hive.log.dir}/${sys:hive.log.file}.%d{yyyy-MM-dd} appender.DRFA.layout.type = PatternLayout appender.DRFA.layout.pattern = %d{ISO8601} %5p [%t] %c{2}: %m%n appender.DRFA.policies.type = Policies appender.DRFA.policies.time.type = TimeBasedTriggeringPolicy appender.DRFA.policies.time.interval = 1 appender.DRFA.policies.time.modulate = true appender.DRFA.strategy.type = DefaultRolloverStrategy appender.DRFA.strategy.max = 30 # list of all loggers loggers = NIOServerCnxn, ClientCnxnSocketNIO, DataNucleus, Datastore, JPOX, PerfLogger, AmazonAws, ApacheHttp logger.NIOServerCnxn.name = org.apache.zookeeper.server.NIOServerCnxn logger.NIOServerCnxn.level = WARN logger.ClientCnxnSocketNIO.name = org.apache.zookeeper.ClientCnxnSocketNIO logger.ClientCnxnSocketNIO.level = WARN logger.DataNucleus.name = DataNucleus logger.DataNucleus.level = ERROR logger.Datastore.name = Datastore logger.Datastore.level = ERROR logger.JPOX.name = JPOX logger.JPOX.level = ERROR logger.AmazonAws.name=com.amazonaws logger.AmazonAws.level = INFO logger.ApacheHttp.name=org.apache.http logger.ApacheHttp.level = INFO logger.PerfLogger.name = org.apache.hadoop.hive.ql.log.PerfLogger logger.PerfLogger.level = ${sys:hive.perflogger.log.level} # root logger rootLogger.level = ${sys:hive.log.level} rootLogger.appenderRefs = root rootLogger.appenderRef.root.ref = ${sys:hive.root.logger}

参考文档

https://towardsdatascience.com/installing-apache-hive-3-1-2-on-windows-10-70669ce79c79

https://stackoverflow.com/questions/11616835/r-command-not-found-bashrc-bash-profile

https://stackoverflow.com/questions/56457685/how-to-fix-the-sbt-crash-java-lang-numberformatexception-for-input-string-0x

https://stackoverflow.com/questions/35655306/hive-installation-issues-hive-metastore-database-is-not-initialized

https://blog.csdn.net/Harvay/article/details/83024127

Windows Hive EI企业智能智能数据表格存储服务 CloudTable

教程2(配置文件)">mybatis教程2(配置文件)

832 2022-05-30

ELK 设置定时清理脚本清理索引

832 2022-05-30

配置 使用ROS Spark机器人（Orbbec Astra 和 Xtion）">在Virtualbox虚拟机中配置 使用ROS Spark机器人（Orbbec Astra 和 Xtion）

832 2022-05-30

Windows10 配置 运行 Hive（非WSL模式）

教程2(配置文件)">mybatis教程2(配置文件)

ELK 设置定时清理脚本清理索引

配置 使用ROS Spark机器人（Orbbec Astra 和 Xtion）">在Virtualbox虚拟机中配置 使用ROS Spark机器人（Orbbec Astra 和 Xtion）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

客户管理工具是什么？">客户管理工具是什么？

友情链接

Windows10配置运行Hive（非WSL模式）

微信扫一扫：分享

教程2(配置文件)">mybatis教程2(配置文件)

配置使用ROS Spark机器人（Orbbec Astra 和 Xtion）">在Virtualbox虚拟机中配置使用ROS Spark机器人（Orbbec Astra 和 Xtion）

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

客户管理工具是什么？">客户管理工具是什么？

友情链接

Windows10 配置运行 Hive（非WSL模式）