1200字范文 > hive中实现行转列_Hive之行转列lateral view用法

hive中实现行转列_Hive之行转列lateral view用法

时间：2022-01-22 17:16:16

一般写sql经常会遇到行转列或者列转行之类的操作，就像concat_ws之类的函数被广泛的使用，今天这个也是经常要使用的拓展方法。

Lateral View 语法

描述

横向视图与用户定义的表生成函数(如explode())结合使用。如内置表生成函数中所述，UDTF为每个输入行生成零个或多个输出行。横向视图首先将UDTF应用于基表的每一行，然后将结果输出行连接到输入行，以形成具有所提供的表别名的虚拟表。

在Hive 0.6.0之前，横向视图不支持谓词下推优化。在Hive 0.5.0及更早版本中，如果您使用WHERE子句，则查询可能尚未编译。解决方法是添加set hive.optimize.ppd = false; 在你的查询之前。修复是在Hive 0.6.0中完成的; 请参阅/jira/browse/HIVE-1056：谓词下推不适用于UDTF。

从Hive 0.12.0开始，可以省略列别名。在这种情况下，别名是从UTDF返回的StructObjectInspector的字段名继承的。

举个栗子

下表pageAds. 它有两个字段:pageid(页码) andadid_list(页面上的adid):

Column name

Column type

pageid

STRING

adid_list

Array

另外一个实例:

pageid

adid_list

front_page

[1, 2, 3]

contact_page

[3, 4, 5]

用户想要统计各个页面出现的广告的次数

此时可以使用lateral view 和explode处理adid_list 字段得到如下效果

The resulting output will be

pageid (string)

adid (int)

“front_page”

“contact_page”

因为要统计频次，所以使用group by聚合操作

int adid

count(1)

Multiple Lateral Views

FROM子句可以有多个LATERAL VIEW子句。后续的LATERAL VIEWS可以引用出现在LATERAL VIEW左侧的任何表格中的列。

如下所示：

上面的示例sql中后面一个直接饮用之前的输出结果作为输入，假设有以下数据表：

Array col1

Array col2

[1, 2]

[a”, “b”, “c”]

[3, 4]

[d”, “e”, “f”]

查询语句

将会生成：

int mycol1

Array col2

[a”, “b”, “c”]

[d”, “e”, “f”]

当使用两次lateral view查询之后：

生成如下的结果：

int myCol1

string myCol2

“a”

“b”

“c”

“a”

“b”

“c”

“d”

“e”

“f”

“d”

“e”

“f”

Lateral Views 外连接

在Hive版本0.12.0中引入

即使LATERAL VIEW通常不会生成行，用户也可以指定可选的OUTER关键字来生成行。当使用的UDTF没有生成任何行时，当爆炸列为空时爆炸很容易发生这种情况，就会发生这种情况。在这种情况下，源行永远不会出现在结果中。可以使用OUTER来防止这种情况，并且将在来自UDTF的列中使用NULL值生成行。

例如，以下查询返回空结果：

But with theOUTERkeyword

it will produce:

238 val_238 NULL

86 val_86 NULL

311 val_311 NULL

27 val_27 NULL

165 val_165 NULL

409 val_409 NULL

255 val_255 NULL

278 val_278 NULL

98 val_98 NULL