揭秘hive常见面试题(二)-20道

网友投稿 724 2022-05-29

使用 sqoop 导入,我们公司的数据库中设计了 text 字段,导致导入的时候出现了缓存

不够的情况(见云笔记),开始解决起来感觉很棘手,后来查看了 sqoop 的文档,加上

了 limit 属性,解决了

Redis 是缓存,围绕着内存和缓存说

Hbase 是列式数据库,存在 hdfs 上,围绕着数据量来说

Hive 是数据仓库,是用来分析数据的,不是增删改查数据的。

insert into:将某一张表中的数据写到另一张表中

override write:覆盖之前的内容。

alter table ptable drop partition (daytime='20140911',city='bj');

元数据,数据文件都删除,但目录 daytime= 20140911 还在

hive 的条件判断(if、coalesce、case)

每天六百个,2,3 个小时。

利用 hive 分析数据

1.1天大概产生多少 G 的日志?大概有多少条日志记录(在不清洗的情况下)?一个网络商城 1 天大概产生多少 G 的日志? 4tb

揭秘hive常见面试题(二)-20道

2.大概有多少条日志记录(在不清洗的情况下)? 7-8 百万条

3.日访问量大概有多少个? 百万

4.注册数大概多少? 不清楚 几十万吧

5.我们的日志是不是除了 apache 的访问日志是不是还有其他的日志?

6.假设我们有其他的日志是不是可以对这个日志有其他的业务分析?这些业务分析有什么

Java 写 mapreduce 可以实现复杂的逻辑,如果需求简单,则显得繁琐。HiveQL 基本都是针对 hive 中的表数据进行编写,但对复杂的逻辑很难进行实现。写起来简单。

三种:内存数据库 derby,挺小,不常用 。本地 mysql。。常用远程端 mysql。。不常用上网上找了下专业名称:single user mode..multi user mode...remote user mode

Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。

hive 有一套自己的 sql 解析引擎,称为 metastore,存储在 mysql 或者 derby 数据库中,可以将 sql 语句转化为 mapreducejob 任务执行。

Hive 数据库

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:《网络攻防技术(第2版)》 —1.3 网络攻击的发展趋势
下一篇:VDC模型使用
相关文章