在Tez上优化Hive查询的指南 在Tez上优化Hive查询无法采用一刀切的方法。查询性能取决于数据的大小、文件类型、查询设计和查询模式。在性能测试过程中,应评估和验证配置参数及任何SQL修改。建议在工作负载的性能测试过程中一次只进行一项更改,并最好在开发环境中评估调优更改的影响,然后再在生产环境中使用。 这里分享一些关于Tez上Hive查询的基本故障排除和调优指南。 调优指南 不同的hive版本,不同执行引擎之间的调优行为有所差异,所以同一条sql可能会有不一样的速度。 一般情况下,我们可以通过以下步骤有助于识别…

2024年 6月 20日 0条评论 647点热度 1人点赞 张飞的猪 阅读全文

Elasticsearch聚合查询说明 Elasticsearch聚合查询是一种强大的工具,允许我们对索引中的数据进行复杂的统计分析和计算。本文将详细解释一个聚合查询示例,该查询用于统计满足特定条件的文档数量,并计算其占总文档数量的百分比。这里回会分享如何统计某个字段的空值率,然后扩展介绍ES的一些基础知识。 空值率查询DSL 此查询结构通过 GET /my_index/_search 发送到 Elasticsearch,以实现对索引 my_index 的聚合分析。查询分为以下几个部分: { "size&…

2024年 6月 19日 0条评论 937点热度 2人点赞 张飞的猪 阅读全文

ClickHouse经典中文文档 微信搜“张飞的猪”或者扫描下面二维码关注一下公众号,会不定时分享技术学习的文章和资料,回复“ClickHouse”获取下载链接。 分享资料截图

2024年 6月 1日 0条评论 866点热度 1人点赞 张飞的猪 阅读全文

ClickHouse中文文档PDF 下载 微信搜“张飞的猪”或者扫描下面二维码关注一下公众号,会不定时分享技术学习的文章和资料,回复“ClickHouse”获取下载链接。 分享资料截图:

2024年 3月 25日 0条评论 782点热度 2人点赞 张飞的猪 阅读全文

Spark大数据处理:技术、应用与性能优化(全).pdf 本书从一个系统化的视角,秉承大道至简的主导思想,介绍Spark中最值得关注的内 容,讲解Spark部署、开发实战,并结合Spark的运行机制及拓展,帮读者开启Spark技术之 旅。 下载 大数据资料分享,失效可留言处理 下载链接:关注公众号"张飞的猪",回复"Spark大数据处理",领取电子书 扫描二维码关注: 书籍封面:

2024年 3月 25日 0条评论 728点热度 0人点赞 张飞的猪 阅读全文

Spark快速大数据分析 《Spark 快速大数据分析》是一本为 Spark 初学者准备的书,它没有过多深入实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于 Spark 的用法,它对 Spark 的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。 下载 大数据资料分享,失效可留言处理 下载链接:关注公众号"张飞的猪",回复"Spark快速大数据分析",领取电子书 扫描二维码关注: 书籍封面:

2024年 3月 25日 0条评论 681点热度 0人点赞 张飞的猪 阅读全文

谁说菜鸟不会数据分析 SPSS篇 《谁说菜鸟不会数据分析(SPSS篇)》继续采用职场三人行的方式来构建内容,细致梳理了准专业数据分析的常见问题,并且挑选出企业实践中最容易碰到的案例,以最轻松直白的方式来讲好数据分析的故事。 《谁说菜鸟不会数据分析(SPSS篇)》从解决工作中的实际问题出发,从统计描述、统计推断到探索性分析,总结并提炼工作中经常用到并且非常实用的通过SPSS 进行数据处理、数据分析实战方法与技巧。《谁说菜鸟不会数据分析(SPSS篇)》尽可能避免使用晦涩难懂的统计术语或模型公式,如需了解相关的统计学知识…

2024年 3月 25日 0条评论 892点热度 0人点赞 张飞的猪 阅读全文

从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。 书籍推荐 《数据仓库工具箱(第3版)——维度建模权威指南》 本书会介绍基本知识,然后逐个讨论具体实例内容,最后进行综合总体分析,在内容的结构方面很有特色。本书涉及的行业较多,但这些内容从不同角度体现了数据仓库的各个方面,因而对于完整的学习与掌握数据仓库知识显得十分必要。 这本书是数据维度建模的鼻祖,从这个意义上讲,就挺有了解的意义,当…

2023年 3月 28日 0条评论 1806点热度 6人点赞 张飞的猪 阅读全文

这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。 当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:数据仓库(11)什么是大数据治理,数据治理的范围是哪些。 简单来说,包括下图列举部分。 那接下来就继续说说数据治理的一些思路心得。 接到…

2023年 3月 7日 0条评论 1427点热度 1人点赞 张飞的猪 阅读全文

什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着数据的安全,治理等。那么数据治理到底能治什么,怎么治? 数据治理主要包含七个方面。 主数据管理 即数据本身的管理,对于数据本身,基于数据仓库,我们做了数据的分层、数据域的划分、基于维度建模的架构、命名规范、对需要共享的数据建立统一视图和集中管理等,这些都是属于这个主数据管理的范围。 元数据管理 元数据,即数据的数据。包…

2023年 2月 7日 0条评论 1793点热度 1人点赞 张飞的猪 阅读全文