首页 / 大数据 / 大数据之Hive之函数

大数据之Hive之函数

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了大数据之Hive之函数，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4991字，纯文字阅读大概需要8分钟。

内容图文

系统内置函数

1.查看系统自带的函数

show functions;

2.显示自带的函数的用法

desc function upper;

3.详细显示自带的函数的用法

desc function extended upper;

常用内置函数

1.空字符串赋值
(1)函数说明
nvl:给值为NULL的数据复制,
格式:NVL(value,default_value)
功能:如果value为NULL,则NVL函数返回default_value的值.否则返回value的值,如果两个参数都为NULL,则返回NULL.

2.行转列
1)相关函数说明(可以是一行转一列,多行转一列)
concat(string A/col, ASstring B/col…): 返回输入字符串连接后的结果,支持任意个输入字符串;
concat_ws(separator,str1,str2,…): 它是一个特殊形式的concat().第一个参数剩余参数间的分隔符.分隔符可以是与剩余参数一样的字符串.如果分隔符是null,返回值也将为null,这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接的字符串之间;
注意:concat_ws must be “string or array”
collect_set(col):函数只接受基本数据类型,它的主要作用是将某字段的值进行去重汇总,产生array类型字段.
collect_list(col):函数只接受基本数据类型,它的主要作用是将某阻断的值进行不去重汇总,=产生array类型字段.

3.列转行(一列转多行)
1)函数说明
Split(str,separator):将字符串按照后面的分隔符切割,转换成字符array.
explode(col):将hive一列中复杂的array或者map结构拆分成多行.
LATERAL VIEW
用法:LATERAL VIEW udtf(expression) tableAlias As columnAlias
解释:lateral view用于和split,explode 等UDTF一起使用,它能够将一行数据拆成多行数据,再次基础上可以对拆分后的数据进行聚合.
lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一或者多行,lateral view再把结果组合,产生一个支持别名表的虚拟表

4.窗口函数(开窗函数)
一:什么是窗口函数
窗口函数是一个高阶函数,比较好用但是很吃资源
一下函数才能被称用作窗口函数
1.窗口函数
1.1 lead(col,n,default_val): 往后第n行数据 n 和 default_val都有默认值1 和null
1.2 lag(col,n,default_val): 往前第n行数据 n 和 default_val都有默认值1 和null
1.3 first_value(col,true/false) 当前窗口下的第一个值,第二个参数为true,跳过空值第二个参数默认是false
1.4 last_value(col,true/false) 当前窗口下的最后一个值,第二个参数为true,跳过空值第二个参数默认是false
2.聚合函数
2.1 count
2.2 sum
2.3 min
2.4 max
2.5 avg
3.排名分析函数
3.1 RANK
3.2 ROW_NUMBER
3.3 DENSE_RANK
3.4 NTILE
二.窗口函数定义窗口+函数
窗口表示能够限定函数的计算范围
窗口函数是一行一行的走的
三.窗口函数语法
窗口函数()+over([partition by 字段…] [order by 字段…] [窗口字句])
窗口函数本身的执行顺序
1.over表示开窗但是over表示开一个最大的窗口
2.partition by 表示在over的前提下再开一个细窗口并且各窗口之间相互独立(窗口字句对每个窗口独立生效)
当partition by 的字段相同时会进入同一个窗口里面
3.order by 表示窗口内按什么排序当有over没有partition by的时候,按照最大的窗口进行排序,当有over有partition by 的时候按partition by 后的细窗口每个窗口内部排序
4.窗口函数
窗口字句

(ROWS | RANGE) BETWEEN (UNBOUNDED | [NUM]) PRECEDING AND ([NUM] PRECEDING | CURRENT ROW | (UNBOUNDED | [NUM]) FOLLOWING)
-- 上无边界到下无边界
(ROWS | RANGE) BETWEEN CURRENT ROW AND (CURRENT ROW | (UNBOUNDED | [num]) FOLLOWING)
-- 上无边界到当前行
(ROWS | RANGE) BETWEEN [num] FOLLOWING AND (UNBOUNDED | [num]) FOLLOWING
-- 上一行到下一行

并不是所有的窗口函数都支持窗口字句
rank dense_rank row_number ntile lag lead ----- 不支持窗口函数

有 order by 窗口字句的默认范围是–上无边界到当前行
没有order by 窗口字句的默认范围—上无边界到下无边界

5.Rank
函数说明:
1.rank()拍讯相同时会重复,总数不会变
2.dense_rank() 拍讯相同时会重复,总数会减少
3.row_number() 会根据顺序计算

6.常用的hive函数
常用日期函数
unix_timestamp:返回当前或指定时间的时间戳
from_unixtime：将时间戳转为日期格式
current_date：当前日期
current_timestamp：当前的日期加时间
to_date：抽取日期部分
year：获取年
month：获取月
day：获取日
hour：获取时
minute：获取分
second：获取秒
weekofyear：当前时间是一年中的第几周
dayofmonth：当前时间是一个月中的第几天
months_between：两个日期间的月份
add_months：日期加减月
datediff：两个日期相差的天数
date_add：日期加天数
date_sub：日期减天数
last_day：日期的当月的最后一天
date_format : 按指定格式返回日期

常用取整函数
round：四舍五入
ceil：向上取整
floor： 1

常用字符串操作函数
upper：转大写
lower：转小写
length：长度
trim：前后去空格
lpad：向左补齐，到指定长度
rpad：向右补齐，到指定长度
regexp_replace： SELECT regexp_replace(‘100-200’, ‘(\d+)’, ‘num’) ；
使用正则表达式匹配目标字符串，匹配成功后替换！

集合操作
size：集合中元素的个数
map_keys：返回map中的key
map_values: 返回map中的value
array_contains: 判断array中是否包含某个元素
sort_array：将array中的元素排序

自定义函数

1）Hive 自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展。
2）当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。
3）根据用户自定义函数类别分为以下三种：
（1）UDF（User-Defined-Function）
一进一出
（2）UDAF（User-Defined Aggregation Function）
用户自定义聚合函数，多进一出
类似于：count/max/min
（3）UDTF（User-Defined Table-Generating Functions）
用户自定义表生成函数，一进多出
如lateral view explode()
4）官方文档地址
https://cwiki.apache.org/confluence/display/Hive/HivePlugins
5）编程步骤：
(1) 继承Hive提供的类
(2)实现类中的抽象方法
(3)在hive的命令行窗口创建函数
(4)在hive的命令窗口删除函数

内容总结

以上是互联网集市为您收集整理的大数据之Hive之函数全部内容，希望文章能够帮你解决大数据之Hive之函数所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1029612.html

来源：【匿名】

【上一篇】移动、电信、联通三网大数据让营销更精准【下一篇】phpexcel导入大数据内存溢出的解决方法有哪些

更多 ►

【大数据之Hive之函数】教程文章相关的互联网学习教程文章

大数据工具篇之Hive与MySQL整合完整教程【代码】【图】

一、引言　Hive元数据存储可以放到RDBMS数据库中，本文以Hive与MySQL数据库的整合为目标，详细说明Hive与MySQL的整合方法。二、安装驱动MySQL最新的Java驱动版本为：mysql-connector-java-5.1.28-bin.jar，下载后拷贝到：Hive/Lib目录。三、安装MySQL　　3.1 版本　　RHEL5+mysql-5.5.35-1.i386.rpm　　3.2 顺序　　　　MySQL-shared-compat-5.5.35-1.rhel15.i386.rpm MySQL-server-5.5.35-1.rhel5.i386.rpm MySQL-clien...

大数据架构培训视频教程 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis 云计算【图】

培训大数据架构开发！从零基础到高级，手把手培训！[技术QQ：2937765541]? ?----------------------------------------------------------------------------------------------------------------------------------课程目录：获取视频资料和培训解答技术支持地址?课程展示(永久免费更新！永久免费培训解答技术支持！)：获取视频资料和培训解答技术支持地址?原文：http://twskyn.iteye.com/blog/2289784

大数据开发技术之Hive开窗函数的使用

?与聚合函数类似，开窗函数也是对行集组进行聚合计算。但是它不像普通聚合函数那样，每组通常只返回一个值，开窗函数可以为每组返回多个值，因为开窗函数所执行聚合计算的行集组是窗口。常见的格式如下：FUNCTION_NAME([argument_list])OVER ([PARTITION BY window_partition,…][ORDER BY window_ordering, … [ASC|DESC]])[ { ROWS | RANGE } BETWEEN frame_start AND frame_end ] );FUNCTION_NAME：函数名称。如row_number()、s...

Hadoop 架构开发培训视频教程大数据高性能集群 HBase Hive NoSQL 入门安装【图】

培训Hadoop架构开发！从基础到高级，手把手培训！[技术QQ：2937765541]获取视频资料和培训解答技术支持地址??获取视频资料和培训解答技术支持地址原文：http://huadu951.iteye.com/blog/2288098

Hadoop架构开发培训视频教程大数据高性能集群 HBase Hive【图】

培训Hadoop架构开发！?获取视频资料和培训解答技术支持地址??获取视频资料和培训解答技术支持地址原文：http://jqxh159.iteye.com/blog/2285791

大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算【图】

从零基础到高级，一对一培训！[技术QQ：2937765541] ------------------------------------------------------------------------------------------------------------------------------------------- 课程体系：获取视频资料和培训解答技术支持地址课程展示(大数据技术很广，一直在线为你培训解答！)：获取视频资料和培训解答技术支持地址大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeep...

大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算视频教程 Java互联网架构师【图】

从零基础到高级，一对一技术培训！全程技术指导！[技术QQ：2937765541] https://item.taobao.com/item.htm?id=535950178794 ------------------------------------------------------------------------------------- Java互联网架构师培训！https://item.taobao.com/item.htm?id=536055176638大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算视频教程 Java互...

如何用形象的比喻大数据的技术生态Hadoop、Hive、Spark 之间是什么关系？【代码】【图】

最近我的同学给我发了一篇特别有意思的关于大数据的技术生态Hadoop、Hive、Spark 关系的解读文章。个人觉得非常有意思，通俗易懂，我转载到这里，希望大家一起学习。 luis大数据255 人赞同了该回答你叫杰杰马，你来到了青青草原，找了一块风水宝地插了个旗子，上面写着淘淘村，于是你成为了一个小村庄的村长。（你创建了个互联网应用）你还别说，这个小村庄还真有人来住，慢慢的有了几十号村民，还有过来吃住玩的旅人游客。（你...

大数据数据仓库-基于大数据体系构建数据仓库（Hive，Flume，Kafka，Azkaban，Oozie，SparkSQL）

背景接着上个文章数据仓库简述，想写一篇数据仓库常用模型的文章，但是自己对数据仓库模型的理解程度和建设架构并没有下面这个技术专家理解的深刻，并且自己去组织语言，可能会有不准确的地方，怕影响大家对数据仓库建模的理解，数据仓库属于一个工程学科，在设计上要体验出工程严谨性，所以这次向大家推荐这篇文章，毕竟IBM在数据仓库和数据集市方面已经做得很成熟了，已经有成型的商业数据仓库组件，这篇文章写的很好，可以让大...

hive大数据除重问题研究

hive大数据除重问题研究存量表： store 增量表: incre 字段： 1. p_key 除重主键 2. w_sort 排序依据 3. info 其他信息方法一(union all + row_number()over )：insert overwrite table limao_store select p_key,sort_word from ( select tmp1.*, row_numhive大数据除重问题研究存量表： store 增量表: incre 字段： 1. p_key 除重主键 2. w_sort 排序依据 3. info 其他信息方法一(union all + row_number()over )：inse...

好程序员大数据学习路线分享hive分区和分桶

好程序员大数据学习路线分享hive分区和分桶，hive分区 1.为什么要分区？？当单个表数据量越来越大的时候，hive查询通常会全表扫描，这将会浪费我们不关心数据的扫描，浪费大量时间。从而hive引出分区概念partition 2.怎么分区？？看具体业务，能把一堆数据拆分成多个堆的数据就可以。通常使用id 、年、月、天、区域、省份、 hive分区和mysql分区的区别？？ mysql的分区字段采用的表内字段。 hive的分区字段使用的是表外字...

好程序员大数据学习路线分享hive分区和分桶

好程序员大数据学习路线分享hive分区和分桶，hive分区1.为什么要分区？？当单个表数据量越来越大的时候，hive查询通常会全表扫描，这将会浪费我们不关心数据的扫描，浪费大量时间。从而hive引出分区概念partition2.怎么分区？？看具体业务，能把一堆数据拆分成多个堆的数据就可以。通常使用id 、年、月、天、区域、省份、 hive分区和mysql分区的区别？？ mysql的分区字段采用的表内字段。 hive的分区字段使用的是表外字段。...

好程序员大数据学习路线hive内部函数

好程序员大数据学习路线hive内部函数，持续为大家更新了大数据学习路线，希望对正在学习大数据的小伙伴有所帮助。1、取随机数函数：rand()语法: rand(),rand(int seed) 返回值: double 说明: 返回一个0到1范围内的随机数。如果指定seed，则会得到一个稳定的随机数序列select rand();select rand(10);2、分割字符串函数:split(str,splitor) 语法: split(string str, string pat) 返回值: array 说明: 按照pat字符串分割str，会返回分...

好程序员大数据学习路线分享hive的运行方式

好程序员大数据学习路线分享hive的运行方式，hive的属性设置： 1、在cli端设置 (只针对当前的session) 3、在java代码中设置 (当前连接) 2、在配置文件中设置 (所有session有效) 设置属性的优先级依次降低。 cli端只能设置非hive启动需要的属性。(log属性,元数据连接属性) 查找所有属性： hive>set; 查看当前属性的值：通常是hadoop hive> set -v; 模糊查找属性： hive -S -e "set" | grep current; hive -S -e "set" | grep index;...

好程序员大数据学习路线之hive表的查询【图】

好程序员大数据学习路线之hive表的查询　　1.join 查询　　1、永远是小结果集驱动大结果集(小表驱动大表，小表放在左表)。 2、尽量不要使用join，但是join是难以避免的。　　left join 、 left outer join 、 left semi join(左半开连接，只显示左表信息)　　hive在0.8版本以后开始支持left join　　left join 和 left outer join 效果差不多　　hive的join中的on只能跟等值连接 "=",不能跟< >= <= !=　　join:不加where过滤，叫笛...

大数据 - 最热教程

python处理大数据你选什么工具? pandas...冲着这份大数据分析案例，我立马下载该...06-大数据性能优化- 长列表优化 /Objec...大数据学习总结（2021版）---shell windows下大数据开发环境搭建（1）——...Python：如何在未排序的列表中查找大于...Python如何处理大数据？3个技巧效率提升...你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...spring boot集成mongodb 分片解决大数据...

首页 / 大数据 / 大数据之Hive之函数

大数据之Hive之函数

内容导读

内容图文

系统内置函数

常用内置函数

自定义函数

内容总结

内容备注

内容手机端

【大数据之Hive之函数】教程文章相关的互联网学习教程文章

大数据工具篇之Hive与MySQL整合完整教程【代码】【图】

大数据架构培训视频教程 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis 云计算【图】

大数据开发技术之Hive开窗函数的使用

Hadoop 架构开发培训视频教程大数据高性能集群 HBase Hive NoSQL 入门安装【图】

Hadoop架构开发培训视频教程大数据高性能集群 HBase Hive【图】

大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算【图】

大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算视频教程 Java互联网架构师【图】

如何用形象的比喻大数据的技术生态Hadoop、Hive、Spark 之间是什么关系？【代码】【图】

大数据数据仓库-基于大数据体系构建数据仓库（Hive，Flume，Kafka，Azkaban，Oozie，SparkSQL）

hive大数据除重问题研究

好程序员大数据学习路线分享hive分区和分桶

好程序员大数据学习路线分享hive分区和分桶

好程序员大数据学习路线hive内部函数

好程序员大数据学习路线分享hive的运行方式

好程序员大数据学习路线之hive表的查询【图】

大数据 - 相关标签

大数据 - 最新教程

大数据 - 最热教程