Algorithm
- README

BigData
- README
- bigdata-Redis
- bigdata-clean
- bigdata-ecosphere
- bigdata-flink
- bigdata-hadoop
- bigdata-hbase
- bigdata-hive-sql
- bigdata-hive
- bigdata-huey
- bigdata-kafka
- bigdata-prestodb
- bigdata-quality-analysis
- bigdata-rabbitmq
- bigdata-scylladb
- bigdata-spark
- bigdata-visualization-web

Languages
- Go
  - go-env-config
  - go-info
  - readme
- Linux
  - README
  - linux-apache
  - linux-bashshell
  - linux-centos8
  - linux-cmdn-test
  - linux-cmdn-tools
  - linux-ftp
  - linux-function
  - linux-https-cert
  - linux-locale
  - linux-network
  - linux-nfs
  - linux-ntpd
  - linux-pip
  - linux-raid
  - linux-restart-scripts
  - linux-ssh
  - linux-svn
  - linux-term-info
  - linux-trash
  - linux-using-cmd
  - linux-virtualenvwarapper
  - linux-yum
  - 趣味命令
- Python
  - README
  - learn1-base-know
  - learn1-class
  - learn1-data-type
  - learn1-func
  - learn1-info
  - learn1-install
  - learn1-knowledge
  - learn1-module
  - learn1-runoob
  - learn1-try-except
  - learn2-asyc-code
  - learn2-base-principle
  - learn2-decorator
  - learn2-design-mode
  - learn2-garbage-collection
  - learn2-generators
  - learn2-magic-func
  - learn2-optimization-tips
  - learn2-optimization-tools
  - learn2-process
  - learn5-algorithm-know
  - learn5-algorithm-topic
  - learn5-data-structure
  - learn9-code-format
  - learn9-py2-diff-py3
  - learn9-py2-to-py3
  - learn9-scripts-read-conf
  - learn9-terms
  - learn9-utils
  - lib-logging
  - lib-os
  - lib-re
  - lib-sys
  - lib-time
  - lib3-click
  - lib3-dask
  - lib3-faker
  - lib3-flask
  - lib3-ipython
  - lib3-jieba
  - lib3-nosetests
  - lib3-pandas
  - lib3-re
  - lib3-selenium
  - lib3-sqlalchemy
  - lib3-z-packages
- Web
  - ReadMe
  - bootstrap
  - web-angularJs
  - web-echarts
  - web-gis
  - web-html
  - web-http-requests
  - web-javascripts

Projects
- GUI编程
  - GUI
  - 课堂抽签助手
    - config
    - database-4bcf258d288d59d13e33eafc4692e706
- README
- Stocks
  - 01-选股思路
  - README

README

TODO

Tools
- A-Tips
  - 001-术语知识
  - 002-知识清单
  - 01-IT术语
  - 03-数据结构
  - 04-算法
  - A-hot-github
  - B04-趣味算法题
  - datastruct-chain
  - datastruct-index
  - info
  - readme
  - tips-cmd
  - tips001
  - 策略知识
- Anaconda
  - cmd
  - config
  - install
  - issue
  - readme
- BigData
  - README
  - bigdata-Redis
  - bigdata-clean
  - bigdata-ecosphere
  - bigdata-flink
  - bigdata-hadoop
  - bigdata-hbase
  - bigdata-hive-sql
  - bigdata-hive
  - bigdata-huey
  - bigdata-kafka
  - bigdata-prestodb
  - bigdata-quality-analysis
  - bigdata-rabbitmq
  - bigdata-scylladb
  - bigdata-spark
  - bigdata-visualization-web
- Centos8
  - README
- Chrome
  - Win-Chrome
  - module
  - plugins
  - readme
- Crawl
  - README
  - crawl-anti-spider
  - crawl-auth
  - crawl-download-progress-bar
  - crawl-framework-diff
  - crawl-info
  - crawl-lawer
  - crawl-pyquery
  - crawl-re
  - crawl-resumable-large-files
  - crawl-xpath
- Databases
  - README
  - db-db2
  - db-mysql
  - db-oracle-config
  - db-oracle-optimization
  - db-oracle
- Django
  - README
  - cmd
  - config
  - example
  - function
  - install
  - plugins-edit
  - plugins
- Docker
  - docker-cdh
  - docker-cmd
  - docker-compose
  - docker-db2
  - docker-es
  - docker-function
  - docker-info
  - docker-install
  - docker-issue
  - docker-mysql
  - docker-neo4j
  - docker-oracle
  - docker-redis
  - readme
- ElasticSearch
  - README
  - es-cmd
  - es-config
  - es-function
  - es-install
  - es-issue
- Git
  - README
  - git
- Github
  - github
  - plugins
  - readme
- Graph
  - gremlin-cmd
  - hugegraph-cmd
  - hugegraph-info
  - hugegraph-install
  - hugegraph-issue
  - hugegraph-load
  - neo4j-cmd
  - neo4j-config
  - neo4j-function
  - neo4j-info
  - neo4j-install
  - neo4j-load
  - readme
- Hexo
  - hexo
- NodeJs
  - cmd
  - install
- Pycharm
  - README
  - Win-Pycharm
  - crack
- README
- Server
  - CentOS8
  - README
  - Win10
- Tips
  - README
  - Win-VNC
  - Win-Virtualbox
  - code-line-statis
  - drools-rule-engine
  - gitbook
  - sbt
- Vscode
  - Win-VScode
  - plugins
  - readme
- ml
  - README
  - docs
    - ml-01学习指南
    - ml-02相关术语
    - ml-03发展历程
    - ml-04代码实践
  - google-course
    - 01快速链接
    - 02机器学习概念
    - 03机器学习工程
    - 04机器学习系统在现实世界里的应用
    - readme

resources

大数据 SQL 优化

fansichao 2021-10-23 16:16:35

Categories： Tags：

原理解析

https://cloud.tencent.com/developer/article/1638968

distinct & group by

distinct 需要将 colA 中的所有内容都加载到内存中，大致可以理解为一个 hash 结构，key 自然就是 colA 的所有值。因为是 hash 结构，那运算速度自然就快。最后计算 hash 中有多少 key 就是最终的结果。

count(distinct)吃内存，查询快；group by 空间复杂度小，在时间复杂度允许的情况下，可以发挥他的空间复杂度优势

! group by 是先排序后分组

语句说明

优化建议

优化样例

-- 低效率 20%
-- distinct，导致map阶段无法对输出结果去重，必须将id作为key输出
-- 从而 Shuffle大量的数据，并且进行排序聚合等处理
SELECT COUNT( DISTINCT id ) FROM TABLE_NAME WHERE ...;

-- 高效率 100%
SELECT COUNT(*) FROM (SELECT DISTINCT id FROM TABLE_NAME WHERE … ) t;

常用 SQL

-- group by 统计多列
select t.a, sum(t.b), count(t.c), count(t.d)
from (
    select a, b, null c, null d
        from some_table
    union all
        select a, 0 b, c, null d
        from some_table
        group by a,c
    union all
        select a, 0 b, null c, d
        from some_table
        group by a,d
) t;

参考资源

Hive/HiveSQL 常用优化方法全面总结

Kafka学习之路