hive语法 创建 分区表，方便CDM做增量导出

网友投稿 1313 2022-05-30

背景：

数据湖里面建表，可以使用DataSource语法或Hive语法，两种建表语法创建的OBS表（即外表）在运行job时，在分区表下的文件夹路径会有所不同，DataSource语法创建的OBS分区表路径生成无规律，不利于CDM做数据的增量导出。

1. DataSource建表语法

create table if not exists database.table ( begin_time string COMMENT '统计数据开始日期', ... dt STRING COMMENT '分区时间' ) USING PARQUET options ( path 'obs://----------------/' )PARTITIONED BY (dt) ;

hive语法创建分区表，方便CDM做增量导出

如下图，在dt=20210401分区对应的数据，在OBS桶路径下dt分区的父目录存在一串字符序列（由脚本运行时启动的job_id生成的）

2. Hive建表语法

create table if not exists database.table )partitioned by (dt string comment '分区列') ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES ( "separatorChar" = ",", -- 分隔符 "quoteChar" = "\001", -- 包围符，根据CDM的包围符来配置 "escapeChar" = "\\" -- 转义字符 ) STORED AS TEXTFILE LOCATION '------;

如果未指定，则使用默认的分隔符，包围符和转义符

DEFAULT_ESCAPE_CHARACTER \ DEFAULT_QUOTE_CHARACTER " DEFAULT_SEPARATOR ,

使用Hive的建表语法创建的分区表，在OBS桶路径下dt分区的父目录不会生成一串字符序列

CDM做增量导出时，可以使用变量指定路径，path/dt=${dateformat(yyyyMMdd)}，由于DataSource创建OBS分区表会导致分区的路径无规律可循，

无法做数据的增量导出，所以推荐ads层可以使用hive建表语法，方便做增量导出。

此 SerDe 适用于大多数 CSV 数据，但不处理嵌入式换行符， \t 或 \n 无法直接转义。要对它们进行转义，请使用 "escapeChar" = "\\"。。要使用 SerDe，请指定完全限定的类名称 org.apache.hadoop.hive.serde2.OpenCSVSerde。

文档基于原始文档https://github.com/ogrodnek/csv-serde。

DLI.0999: SerDeException: com.opencsv.exceptions.CsvMalformedLineException: Unterminated quoted field at end of CSV line. Beginning of lost text: [Problem solved rapidly ]

在上图的数据源文件，可以看到字段中的内容多了换行符，导致文本切割出现问题。此报错对于CDM 导出无影响，对于数据湖中的查询可能报错，文件扫描到该行会报错

原因：字段中的换行符导致csv文本切割出现问题，无法查询

解决方法： 1. 查询报错，在允许字段内容部分失真的情况下，可替换字段中的换行符；

2. 用Parquet格式创建临时表，重跑需要查询的数据

3. 在CDM导出的数据库中查询

regexp_replace(brief_description , '\n|\r|\r\n', ' ') as brief_description

ads层采用Hive语法创建的csv表，存储的文件不带标题行，在CDM配置时“首行为标题行”选项选择“否”，创建的ads表使用的包围符quoteChar注意与CDM的包围符保持一致。

Hive spark 云数据迁移 CDM 数据湖探索 DLI

标签：Hive 语法创建分区表

线程池的创建">线程池的创建

1313 2022-05-30

超链接没有反应">超链接没有反应

1313 2022-05-30

使用RDS的PGSQL">MRS hive使用RDS的PGSQL

1313 2022-05-30

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜
进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）
在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐
WPS2016怎么绘制简单的价格表?
Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理
电子表格，居家办公更轻松">用在线电子表格，居家办公更轻松

hive语法 创建 分区表，方便CDM做增量导出

线程池的创建">线程池的创建

超链接没有反应">超链接没有反应

使用RDS的PGSQL">MRS hive使用RDS的PGSQL

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理

电子表格，居家办公更轻松">用在线电子表格，居家办公更轻松

友情链接

hive语法创建分区表，方便CDM做增量导出

微信扫一扫：分享

线程池的创建">线程池的创建

超链接没有反应">超链接没有反应

使用RDS的PGSQL">MRS hive使用RDS的PGSQL

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理

电子表格，居家办公更轻松">用在线电子表格，居家办公更轻松

友情链接