sparkSQL可以指定分区字段为varchar类型吗-伙伴云

网友投稿 1582 2022-05-30

首先我们可以查到，Hive从0.12.0版本就支持varchar类型作为列的类型了，但是sparkSQL可以指定分区字段为varchar类型吗？我们可以先实验一下。首先我们尝试创建一个分区字段为varchar类型的表，执行语句如下：CREATE TABLE test0901222(LIST_RES_ID STRING, age Int) PARTITIONED BY (DATA_DATE VARCHAR(8))，然后发现是可以创建成功的，如下图所示：

sparkSQL可以指定分区字段为varchar类型吗

然后尝试在这个表上以分区字段作为条件进行查询，执行语句：select * from test0818222 where DATA_DATE = '20210428'。执行后发现有很奇怪的报错，如下图所示：

这是怎么回事呢？查看spark内核代码找到相关代码如下图所示：

问题就出在getPartitionsByFilter这个方法中。可以看到这里是用反射的方法获取filter的信息的，但是hive的官方文档明确指出，使用反射的方法获取varchar类型信息是不支持的，如下图所示：

那么我们没有办法支持varchar作为分区字段了吗，也不是的。让我们回到上面的spark内核代码，可以发现如果tryDirectSql如果为false时，getPartitionsByFilter会跳过filter然后回退到返回所有的分区（当然这样会显著的降低性能）。那么tryDirectSql又是什么呢，tryDirectSql是hive的配置，配置项为hive.metastore.try.direct.sql，主要控制Metastore 是否应该尝试使用SQL直接查询存储路径。

但是spark内核是否回退到不使用filter的行为依赖hive的参数配置是不合理的，如果我们希望把hive.metastore.try.direct.sql设置为true的同时（这样设置在某些场景下可以提高性能）又希望getPartitionsByFilter执行失败会回退到不使用filter就无法实现了。搜索后发现其实针对这个问题开源社区是有修改的，MR链接：https://github.com/apache/spark/pull/33382。

可以看到如果spark内核改为依赖自己内部的参数如shouldFallback就不会出现上述的问题了。这样spark可以自己指定filter执行失败后是否回退或者直接抛出异常。

根据以上分析，我们可以总结结论如下：

sparkSQL不是一定不可以指定分区字段为varchar类型的，根据不同的版本不同的配置参数理论上分析有可能是可行的。

由于varchar不支持反射获取所以getPartitionsByFilter中一定会执行报错，如果走回退的分支的话会显著的降低性能。所以从性能的角度来分析即使可行也不推荐指定varchar类型作为分区字段，推荐可以根据不同的场景选择String、Int等类型作为分区字段。

spark

如何在文档里查找东西（怎么在文档内查找内容）

1582 2022-05-30

sparkSQL 可以 指定 分区 字段为varchar类型吗

怎样才能归类

如何在文档里查找东西（怎么在文档内查找内容）

如何搜索自己的名字（在百度搜索自己的名字）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

智能定制家居管理系统：重新定义家庭生活方式

连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接

sparkSQL可以指定分区字段为varchar类型吗

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接

sparkSQL 可以指定分区字段为varchar类型吗