600字范文 > HIVE數據仓库操作（数据库操作表操作开窗函数炸裂函数外部表内部表分区表分桶表）

HIVE數據仓库操作（数据库操作表操作开窗函数炸裂函数外部表内部表分区表分桶表）

时间：2019-01-10 05:32:27

文章目录

HIVE介绍Hive的基本操作（在操作之前需要先启动hdfs(存储源数据)和mysql数据库(存储表结构)）一、错误二、进入hive操作界面的两种方式三、往表中添加数据的方式3.1 hive> insert into table stu values(1,"xss");3.2、创建一个表然后再用load将数据加载进表对应的hdfs目录3.3、根据查询结果创建表（查询的结果会添加到新创建的表中，这种方式不能创建外部表) create as select3.4、创建表时通过Location指定加载数据路径，然后把txt文档传到设定的路径下3.5、根据 student 创建相同结构的表 student43.6、通过查询结果添加进表 insert select 四、在hive中操作haoop五、在hive中查看linux上的文件在linux命令之前加感叹号六、在不进入hive的情况下在linux界面操作hive七、hive的数据类型7.1、基本数据类型7.2、集合数据类型八、数据库操作九、表操作创建表（可以吧JSON数据导进表的）显示表格信息内部表 MANAGED_TABLE外部表 EXTERNAL_TABLE分区表当数据量比较大的时候可以缩小查找范围，从而提高查询效率创建一级分区表创建二级分区表正常的加载数据把数据直接上传到分区目录上，让分区表和数据产生关联的两种方式。（前提是表定义的时候要有两级目录，既有month又有day）十、数据导入一、向表中装载数据（Load）二、通过查询语句向表中插入数据（Insert）三、查询语句中创建表并加载数据（As Select）四、创建表时通过Location指定加载数据路径五、Import数据到指定Hive表中十一、导出数据一、Insert导出二、hdfs命令导出到本地三、Hive Shell 命令导出四、Export导出到HDFS上十二、分桶表创建分桶表创建分桶表定义格式查看分桶表结构往分桶表加载数据大致分为三步到hdfs上可以看到在stu_buck目录下有四个数据文件。查询分桶表信息分桶表抽样查询十三、hive函数Order By 和 Sort By 的区别分区排序（Distribute By）多个reducer，分区排序要和局部排序结合使用Cluster By 当distribute by和sort by字段相同时，可以使用cluster by方式。（但是排序只能是升序排序，不能指定排序规则为ASC或者DESC。）聚合函数collect_set(name) array_contains(collect_set(course),"a") if(array_contains(collect_set(course),"d"),1,0),行转列 CONCAT(字符串A,",",字符串B) CONCAT_WS("|",collect_set( )) 列转行 lateral view explode(cate)开窗函数 over 一般旁边都跟一个聚合函数，两个共同使用