在Tez上优化Hive查询的指南 在Tez上优化Hive查询无法采用一刀切的方法。查询性能取决于数据的大小、文件类型、查询设计和查询模式。在性能测试过程中,应评估和验证配置参数及任何SQL修改。建议在工作负载的性能测试过程中一次只进行一项更改,并最好在开发环境中评估调优更改的影响,然后再在生产环境中使用。 这里分享一些关于Tez上Hive查询的基本故障排除和调优指南。 调优指南 不同的hive版本,不同执行引擎之间的调优行为有所差异,所以同一条sql可能会有不一样的速度。 一般情况下,我们可以通过以下步骤有助于识别…

2024年 6月 20日 0条评论 1089点热度 1人点赞 张飞的猪 阅读全文

Elasticsearch聚合查询说明 Elasticsearch聚合查询是一种强大的工具,允许我们对索引中的数据进行复杂的统计分析和计算。本文将详细解释一个聚合查询示例,该查询用于统计满足特定条件的文档数量,并计算其占总文档数量的百分比。这里回会分享如何统计某个字段的空值率,然后扩展介绍ES的一些基础知识。 空值率查询DSL 此查询结构通过 GET /my_index/_search 发送到 Elasticsearch,以实现对索引 my_index 的聚合分析。查询分为以下几个部分: { "size&…

2024年 6月 19日 0条评论 1528点热度 2人点赞 张飞的猪 阅读全文

ClickHouse中文文档PDF 下载 微信搜“张飞的猪”或者扫描下面二维码关注一下公众号,会不定时分享技术学习的文章和资料,回复“ClickHouse”获取下载链接。 分享资料截图:

2024年 3月 25日 0条评论 1258点热度 2人点赞 张飞的猪 阅读全文

Spark大数据处理:技术、应用与性能优化(全).pdf 本书从一个系统化的视角,秉承大道至简的主导思想,介绍Spark中最值得关注的内 容,讲解Spark部署、开发实战,并结合Spark的运行机制及拓展,帮读者开启Spark技术之 旅。 下载 大数据资料分享,失效可留言处理 下载链接:关注公众号"张飞的猪",回复"Spark大数据处理",领取电子书 扫描二维码关注: 书籍封面:

2024年 3月 25日 0条评论 1328点热度 0人点赞 张飞的猪 阅读全文

Spark快速大数据分析 《Spark 快速大数据分析》是一本为 Spark 初学者准备的书,它没有过多深入实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于 Spark 的用法,它对 Spark 的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。 下载 大数据资料分享,失效可留言处理 下载链接:关注公众号"张飞的猪",回复"Spark快速大数据分析",领取电子书 扫描二维码关注: 书籍封面:

2024年 3月 25日 0条评论 1346点热度 0人点赞 张飞的猪 阅读全文

谁说菜鸟不会数据分析 SPSS篇 《谁说菜鸟不会数据分析(SPSS篇)》继续采用职场三人行的方式来构建内容,细致梳理了准专业数据分析的常见问题,并且挑选出企业实践中最容易碰到的案例,以最轻松直白的方式来讲好数据分析的故事。 《谁说菜鸟不会数据分析(SPSS篇)》从解决工作中的实际问题出发,从统计描述、统计推断到探索性分析,总结并提炼工作中经常用到并且非常实用的通过SPSS 进行数据处理、数据分析实战方法与技巧。《谁说菜鸟不会数据分析(SPSS篇)》尽可能避免使用晦涩难懂的统计术语或模型公式,如需了解相关的统计学知识…

2024年 3月 25日 0条评论 1513点热度 1人点赞 张飞的猪 阅读全文

利用Python进行数据分析 本书由Python pandas项目创始人Wes McKinney亲笔撰写,详细介绍利用Python进行操作、处理、清洗和规整数据等方面的具体细节和基本要点。第2版针对Python 3.6进行全面修订和更新,涵盖新版的pandas、NumPy、IPython和Jupyter,并增加大量实际案例,可以帮助你高效解决一系列数据分析问题。 下载 大数据资料分享,失效可留言处理 链接:关注公众号"张飞的猪",回复"利用python进行数据分析",领取电子…

2024年 3月 25日 1条评论 2857点热度 0人点赞 张飞的猪 阅读全文

MongoDB MongoDB 引擎是只读表引擎,允许从远程 MongoDB 集合中读取数据(SELECT查询)。引擎只支持非嵌套的数据类型。不支持 INSERT 查询。 创建一张表 CREATE TABLE [IF NOT EXISTS] [db.]table_name ( name1 [type1], name2 [type2], ... ) ENGINE = MongoDB(host:port, database, collection, user, password); 引擎参数 host:port — M…

2024年 1月 30日 0条评论 1180点热度 0人点赞 张飞的猪 阅读全文

MySQL表引擎 MySQL引擎可以对存在远程MySQL服务器上的数据执行SELECT查询。 调用格式: MySQL('host:port', 'database', 'table', 'user', 'password'[, replace_query, 'on_duplicate_clause']); 调用参数 host:port — MySQL 服务器地址。 database — 数据库的名称。 table — 表名称。 user — 数据库用户。 password — 用户密码。 replace_query…

2024年 1月 28日 0条评论 2051点热度 1人点赞 张飞的猪 阅读全文

HDFS 这个引擎提供了与Apache Hadoop生态系统的集成,允许通过ClickHouse管理HDFS上的数据。这个引擎提供了Hadoop的特定功能。 用法 ENGINE = HDFS(URI, format) URI 参数是HDFS中整个文件的URI format 参数指定一种可用的文件格式。执行SELECT查询时,格式必须支持输入,以及执行INSERT查询时,格式必须支持输出.路径部分URI可能包glob通配符。在这种情况下,表将是只读的。 clickhouse支持的format,文件格式: 格式 输入 …

2024年 1月 27日 0条评论 1841点热度 2人点赞 张飞的猪 阅读全文