探索BI系统搭建的必要性与AI技术的应用潜力
724
2022-05-29
使用 sqoop 导入,我们公司的数据库中设计了 text 字段,导致导入的时候出现了缓存
不够的情况(见云笔记),开始解决起来感觉很棘手,后来查看了 sqoop 的文档,加上
了 limit 属性,解决了
Redis 是缓存,围绕着内存和缓存说
Hbase 是列式数据库,存在 hdfs 上,围绕着数据量来说
Hive 是数据仓库,是用来分析数据的,不是增删改查数据的。
insert into:将某一张表中的数据写到另一张表中
override write:覆盖之前的内容。
alter table ptable drop partition (daytime='20140911',city='bj');
元数据,数据文件都删除,但目录 daytime= 20140911 还在
hive 的条件判断(if、coalesce、case)
每天六百个,2,3 个小时。
利用 hive 分析数据
1.1天大概产生多少 G 的日志?大概有多少条日志记录(在不清洗的情况下)?一个网络商城 1 天大概产生多少 G 的日志? 4tb
2.大概有多少条日志记录(在不清洗的情况下)? 7-8 百万条
3.日访问量大概有多少个? 百万
4.注册数大概多少? 不清楚 几十万吧
5.我们的日志是不是除了 apache 的访问日志是不是还有其他的日志?
6.假设我们有其他的日志是不是可以对这个日志有其他的业务分析?这些业务分析有什么
Java 写 mapreduce 可以实现复杂的逻辑,如果需求简单,则显得繁琐。HiveQL 基本都是针对 hive 中的表数据进行编写,但对复杂的逻辑很难进行实现。写起来简单。
三种:内存数据库 derby,挺小,不常用 。本地 mysql。。常用远程端 mysql。。不常用上网上找了下专业名称:single user mode..multi user mode...remote user mode
Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。
hive 有一套自己的 sql 解析引擎,称为 metastore,存储在 mysql 或者 derby 数据库中,可以将 sql 语句转化为 mapreducejob 任务执行。
Hive 数据库
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。