SparkSql与HiveSql的兼容性——踩过的十大坑

2020-06-15 阅读量

数仓Hive Sql 迁 Spark Sql 。通过对线上任务的双跑回放比对，踩了很多坑，发现存在诸多兼容性问题。本文列举了踩过的十大坑，关于修复方案，请参考SparkSql与HiveSql的兼容性(2)。

坑1：

join条件on中spark不支持case when语法

举例:

select id, username 
from a 
left join b
on a.username = case when b.id is null
or b.username = '' then concat('unkown_', rand()) else b.username end

spark 社区有相关issue讨论:https://issues.apache.org/jira/browse/SPARK-25961
社区评论说是有意禁止的, 不建议修复.

坑2：

模棱两可的字段

复现demo：

select city_id from
	( select 	a.id,
						tb3.city_id,
						tb4.city_id
				from tbl_a tb3
				left join tbl_b tb4
				on tb3.id = tb4.id 
  ) t
;

异常:

1	org.apache.spark.sql.AnalysisException: Reference 'city_id' is ambiguous, could be: tb3.city_id, tb4.city_id.; line 2 pos 12984

社区有相关issue讨论:https://issues.apache.org/jira/browse/SPARK-18577

社区认为该行为只有hive支持该语法, 而mysql,presto等等引擎都不支持这种模棱两可的语法行为, 所以spark不做修复.

坑3：

unix_timestamp函数差异性

spark和hive对时间格式约束不同: 对24点spark认为是非法的.



hive> select unix_timestamp(concat('2020-01-01', ' 24:00:00'));
OK
_c0
1591027200
Time taken: 0.106 seconds, Fetched: 1 row(s)

spark-sql> select unix_timestamp(concat('2020-01-01', ' 24:00:00'));
unix_timestamp(concat(2020-01-01, 24:00:00), yyyy-MM-dd HH:mm:ss)
NULL
Time taken: 0.088 seconds, Fetched 1 row(s)

坑4：

to_date函数差异性

对特殊值的处理存在差异:

hive查询结果:

hive> select to_date('0000-00-00');
OK
_c0
0002-11-30

而spark结果为null

1
2
3

spark-sql> select to_date('0000-00-00');
to_date('0000-00-00')
NULL

坑

order by 排序差异性

目前发现受影响的主要是开窗函数有:row_number,fist_value,last_value等等

根因:hive对某列相同值排序后会发生倒序, 复现demo如下:

create table test_sort(c1 int, c2 int);
insert into table test_sort values(1, 1),(1,2), (1, 3);

-- hive不进行排序查询:
hive> select * from test_sort;
OK
test_sort.c1 test_sort.c2
1 1
1 2
1 3
Time taken: 0.088 seconds, Fetched: 3 row(s)

-- hive排序查询(第二列发生了倒序)
hive> select * from test_sort order by c1;
...
Total MapReduce CPU Time Spent: 6 seconds 410 msec
OK
test_sort.c1 test_sort.c2
1 3
1 2
1 1
Time taken: 87.569 seconds, Fetched: 3 row(s)

而spark查询均正常：

spark-sql> select * from test_sort;
c1 c2
1 1
1 2
1 3
Time taken: 0.252 seconds, Fetched 3 row(s)
spark-sql> select * from test_sort order by c1;
c1 c2
1 1
1 2
1 3
Time taken: 0.35 seconds, Fetched 3 row(s)

坑6：

unix_timestamp与date_sub组合使用时的差异性

spark查询异常:

select unix_timestamp(date_sub(‘2020-04-06’, 30), ‘yyyy-mm-dd’);

--正确(预期结果 2020-03-07 )

spark-sql> select date_sub('2020-04-06', 30);
date_sub(CAST(2020-04-06 AS DATE), 30)
2020-03-07
Time taken: 0.103 seconds, Fetched 1 row(s)

-- 正确(预期结果 1578326580)

spark-sql> select unix_timestamp('2020-03-07', 'yyyy-mm-dd');
unix_timestamp(2020-03-07, yyyy-mm-dd)
1578326580
Time taken: 0.111 seconds, Fetched 1 row(s)

--错误(预期结果 1578326580)

spark-sql> select unix_timestamp(date_sub('2020-04-06', 30), 'yyyy-mm-dd');
unix_timestamp(date_sub(CAST(2020-04-06 AS DATE), 30), yyyy-mm-dd)
1583510400
Time taken: 0.043 seconds, Fetched 1 row(s)

--错误(预期结果 20200307)

spark-sql> select from_unixtime(unix_timestamp(date_sub('2020-04-06', 30), 'yyyy-mm-dd'), 'yyyymmdd');
from_unixtime(unix_timestamp(date_sub(CAST(2020-04-06 AS DATE), 30), yyyy-mm-dd), yyyymmdd)
20200007
Time taken: 0.297 seconds, Fetched 1 row(s)

hive查询结果正常:

--正确(预期结果 2020-03-07 )

hive> select date_sub('2020-04-06', 30);
OK
_c0
2020-03-07
Time taken: 0.079 seconds, Fetched: 1 row(s)

-- 正确(预期结果 1578326580)

hive> select unix_timestamp('2020-03-07', 'yyyy-mm-dd');
OK
_c0
1578326580
Time taken: 0.077 seconds, Fetched: 1 row(s)

--正确(预期结果 1578326580)
hive> select unix_timestamp(date_sub('2020-04-06', 30), 'yyyy-mm-dd');
OK
_c0
1578326580
Time taken: 0.065 seconds, Fetched: 1 row(s)

--正确(预期结果 20200307)
hive> select from_unixtime(unix_timestamp(date_sub('2020-04-06', 30), 'yyyy-mm-dd'), 'yyyymmdd');
OK
_c0
20200307
Time taken: 0.144 seconds, Fetched: 1 row(s)
hive>

坑7：

datediff 函数差异性

对特殊值,datediff处理不同:

select datediff(CURRENT_DATE, ‘0000-00-00’);

Spark结果为NULL

spark-sql> select datediff(CURRENT_DATE, '0000-00-00');
datediff(current_date(), CAST(0000-00-00 AS DATE))
NULL
Time taken: 0.142 seconds, Fetched 1 row(s)

Hive结果为数值：

hive> select datediff(CURRENT_DATE, '0000-00-00');
OK
_c0
737986
Time taken: 0.207 seconds, Fetched: 1 row(s)

坑8：

collect_set函数差异性

复现demo：

drop table if exists test_collect_set;

create table test_collect_set( c1 int, c2 int, c3 string);

insert into table test_collect_set
values  (1, 1, '1')
        ,(1, 1, '2')
        ,(1, 1, '3')
        ,(1, 1, '4')
        ,(1, 1, '5')
;

select  c1, c2, concat_ws('##', collect_set(c3)) c3_set
from    test_collect_set
group by c1, c2
;

spark结果顺序和hive不同：

spark-sql>
         > select  c1, c2, concat_ws('##', collect_set(c3)) c3_set
         > from    test_collect_set
         > group by c1, c2
         > ;
c1      c2      c3_set
1	1	3##1##2##5##4
Time taken: 3.284 seconds, Fetched 1 row(s)


hive> select  c1
    >         ,c2
    >         ,concat_ws('##', collect_set(c3)) c3_set
    > from    test_collect_set
    > group by c1, c2
    > ;
OK
c1	c2	c3_set
1	1	2##3##4##5##1
Time taken: 73.687 seconds, Fetched: 1 row(s)
hive>

坑9

get_json_object函数语法差异性

spark 中获取json数组的某个元素时,语法为 $[0] 而 hive 语法为 $.[0]

-- 区别是差一个点; spark下面sql为null, hive有值
select get_json_object(info, '$.[0]') as name from test_get_json_object
-- spark如下格式方才有值
select get_json_object(info, '$[0]') as name from test_get_json_object

坑10

精度差异

spark在写入decimal字段数据时, 并不会四舍五入; 而hive会四舍五入.

举例: -0.0761685 spark写入为 -0.076168 ;而hive写入为 -0.076169

（未完待更…）

本文作者： Jeff.R
本文链接： https://stefanxiepj.github.io/archives/bbca4555.html
版权声明： 本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。转载请注明出处！