五一后仅有一天的周末,无聊中体验了一下iceberg,突然很好奇iceberg到底是如何和Spark集成的,于是撸了会儿源码。
more >>五一后仅有一天的周末,无聊中体验了一下iceberg,突然很好奇iceberg到底是如何和Spark集成的,于是撸了会儿源码。
more >>在大数据分布式计算框架中,Shuffle是影响计算性能的很重要的一环。无论是MapReduce框架还是Spark计算框架,都有Shuffle的概念。本文总结分析Spark Shuffle的设计和实现。
more >>最近数据中台同步中心的同学反馈mysql同步至hive任务偶尔发生java.net.SocketTimeoutException: Read timed out
异常,排查后发hive-jdbc的使用现有点坑。
自SparkSQL横空出世以来,受到了广大大数据开发同学的热捧。如果说Hive是数仓领域任劳任怨的一头老牛,那Spark SQL好比是一匹枣红快马。我们也于今年(2020)年初启动了离线计算提速专项项目,通过近乎透明的方式实现了一套Hive SQL至Spark SQL的迁移工具。
more >>在之前的帖子《SparkSql与HiveSql的兼容性——踩过的十大坑》中,我们介绍了HiveSql迁移SparkSQL时踩过的比较典型的十大差异。本文分享下如何在Spark中调用Hive的内置函数,从而屏蔽差异,Spark结果和Hive结果保持一致。
more >>数仓Hive Sql 迁 Spark Sql 。通过对线上任务的双跑回放比对,踩了很多坑,发现存在诸多兼容性问题。本文列举了踩过的十大坑,关于修复方案, 请参考SparkSql与HiveSql的兼容性(2)。
more >>tag:
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true