数据湖技术Iceberg是如何集成Spark的

2021-05-09

五一后仅有一天的周末，无聊中体验了一下iceberg，突然很好奇iceberg到底是如何和Spark集成的，于是撸了会儿源码。

more >>

展开全文 >>

Spark的Shuffle原理深度解析

2021-05-01

在大数据分布式计算框架中，Shuffle是影响计算性能的很重要的一环。无论是MapReduce框架还是Spark计算框架，都有Shuffle的概念。本文总结分析Spark Shuffle的设计和实现。

more >>

展开全文 >>

HiveMetricsCpuHigh

2021-04-24

新版Hive 3.0 Metrics系统会引发CPU飙高。

more >>

展开全文 >>

HiveJDBCTimeout

2021-04-24

最近数据中台同步中心的同学反馈mysql同步至hive任务偶尔发生java.net.SocketTimeoutException: Read timed out 异常，排查后发hive-jdbc的使用现有点坑。

more >>

展开全文 >>

ApacheIceberg

2021-02-24

什么事数据湖技术？

more >>

展开全文 >>

记一次Hive SQL优化提速10倍的案例

2020-09-10

自SparkSQL横空出世以来，受到了广大大数据开发同学的热捧。如果说Hive是数仓领域任劳任怨的一头老牛，那Spark SQL好比是一匹枣红快马。我们也于今年(2020)年初启动了离线计算提速专项项目，通过近乎透明的方式实现了一套Hive SQL至Spark SQL的迁移工具。

more >>

展开全文 >>

HivePrecisionDiffrenentFromSpark

2020-07-29

精度差异点:

常量解析不一致

对小数常量(如 0.1 ), Hive解析完之后是double类型; Spark解析完之后是decimal类型

影响: Hive返回是按double类型返回, 而Spark返回是decimal, 从而精度存在差异

丢失精度

在除法运算中, 可以设置参数

set spark.sql.decimalOperations.allowPrecisionLoss=false

来保持, Spark 和 Hive行为一致.

但对于常量值, Spark和Hive依然存在解析差异.

展开全文 >>

SparkSql与HiveSql的兼容性——如何解决兼容性问题？

2020-06-25

在之前的帖子《SparkSql与HiveSql的兼容性——踩过的十大坑》中，我们介绍了HiveSql迁移SparkSQL时踩过的比较典型的十大差异。本文分享下如何在Spark中调用Hive的内置函数，从而屏蔽差异，Spark结果和Hive结果保持一致。

more >>

展开全文 >>

Hive元数据服务MS修改Mysql字符集在滴滴的实践

2020-06-23

《APACHE HIVE 社区交流群》里有贝壳等公司的朋友希望分享一下元数据服务MetaStore修改Mysql字符集的问题，近期抽空简单总结了一下，分享给大家。

more >>

展开全文 >>

SparkSql与HiveSql的兼容性——踩过的十大坑

2020-06-15

数仓Hive Sql 迁 Spark Sql 。通过对线上任务的双跑回放比对，踩了很多坑，发现存在诸多兼容性问题。本文列举了踩过的十大坑，关于修复方案，请参考SparkSql与HiveSql的兼容性(2)。

more >>

展开全文 >>