NoteBook
ABOUT
UidGenerator
Algorithm
README
BigData
README
bigdata-Redis
bigdata-clean
bigdata-ecosphere
bigdata-flink
bigdata-hadoop
bigdata-hbase
bigdata-hive-sql
bigdata-hive
bigdata-huey
bigdata-kafka
bigdata-prestodb
bigdata-quality-analysis
bigdata-rabbitmq
bigdata-scylladb
bigdata-spark
bigdata-visualization-web
Languages
Go
go-env-config
go-info
readme
Linux
README
linux-apache
linux-bashshell
linux-centos8
linux-cmdn-test
linux-cmdn-tools
linux-ftp
linux-function
linux-https-cert
linux-locale
linux-network
linux-nfs
linux-ntpd
linux-pip
linux-raid
linux-restart-scripts
linux-ssh
linux-svn
linux-term-info
linux-trash
linux-using-cmd
linux-virtualenvwarapper
linux-yum
趣味命令
Python
README
learn1-base-know
learn1-class
learn1-data-type
learn1-func
learn1-info
learn1-install
learn1-knowledge
learn1-module
learn1-runoob
learn1-try-except
learn2-asyc-code
learn2-base-principle
learn2-decorator
learn2-design-mode
learn2-garbage-collection
learn2-generators
learn2-magic-func
learn2-optimization-tips
learn2-optimization-tools
learn2-process
learn5-algorithm-know
learn5-algorithm-topic
learn5-data-structure
learn9-code-format
learn9-py2-diff-py3
learn9-py2-to-py3
learn9-scripts-read-conf
learn9-terms
learn9-utils
lib-logging
lib-os
lib-re
lib-sys
lib-time
lib3-click
lib3-dask
lib3-faker
lib3-flask
lib3-ipython
lib3-jieba
lib3-nosetests
lib3-pandas
lib3-re
lib3-selenium
lib3-sqlalchemy
lib3-z-packages
Web
ReadMe
bootstrap
web-angularJs
web-echarts
web-gis
web-html
web-http-requests
web-javascripts
Projects
GUI编程
GUI
课堂抽签助手
config
database-4bcf258d288d59d13e33eafc4692e706
README
Stocks
01-选股思路
README
README
TODO
Tools
A-Tips
001-术语知识
002-知识清单
01-IT术语
03-数据结构
04-算法
A-hot-github
B04-趣味算法题
datastruct-chain
datastruct-index
info
readme
tips-cmd
tips001
策略知识
Anaconda
cmd
config
install
issue
readme
BigData
README
bigdata-Redis
bigdata-clean
bigdata-ecosphere
bigdata-flink
bigdata-hadoop
bigdata-hbase
bigdata-hive-sql
bigdata-hive
bigdata-huey
bigdata-kafka
bigdata-prestodb
bigdata-quality-analysis
bigdata-rabbitmq
bigdata-scylladb
bigdata-spark
bigdata-visualization-web
Centos8
README
Chrome
Win-Chrome
module
plugins
readme
Crawl
README
crawl-anti-spider
crawl-auth
crawl-download-progress-bar
crawl-framework-diff
crawl-info
crawl-lawer
crawl-pyquery
crawl-re
crawl-resumable-large-files
crawl-xpath
Databases
README
db-db2
db-mysql
db-oracle-config
db-oracle-optimization
db-oracle
Django
README
cmd
config
example
function
install
plugins-edit
plugins
Docker
docker-cdh
docker-cmd
docker-compose
docker-db2
docker-es
docker-function
docker-info
docker-install
docker-issue
docker-mysql
docker-neo4j
docker-oracle
docker-redis
readme
ElasticSearch
README
es-cmd
es-config
es-function
es-install
es-issue
Git
README
git
Github
github
plugins
readme
Graph
gremlin-cmd
hugegraph-cmd
hugegraph-info
hugegraph-install
hugegraph-issue
hugegraph-load
neo4j-cmd
neo4j-config
neo4j-function
neo4j-info
neo4j-install
neo4j-load
readme
Hexo
hexo
NodeJs
cmd
install
Pycharm
README
Win-Pycharm
crack
README
Server
CentOS8
README
Win10
Tips
README
Win-VNC
Win-Virtualbox
code-line-statis
drools-rule-engine
gitbook
sbt
Vscode
Win-VScode
plugins
readme
ml
README
docs
ml-01学习指南
ml-02相关术语
ml-03发展历程
ml-04代码实践
google-course
01快速链接
02机器学习概念
03机器学习工程
04机器学习系统在现实世界里的应用
readme
resources
大数据之数据质量分析
数据质量互联网是一个建立在数据之上的服务行业,数据质量的好坏直接影响到企业的生存能力和竞争力。如果数据质量不佳,便容易给企业带来以下危害: 干扰运营分析、影响决策 影响算法模型质量,导致服务不够智能化 耗费人力,分析师、算法工程师、数据科学家因为数据质量问题推倒工作重来 数据质量标准 完整性 ...
2021-10-23
Huey-消息队列
环境依赖 Python2.7+ or Python3.4+ Huey 官网 Huey 简介一个轻量 Python2.7+ Python3.4+ 轻巧的消息队列. 功能说明huey 支持: 多进程,多线程或 greenlet 任务执行模型 安排任务在给定时间或在给定延迟后执行 安排重复任务,例如 ...
2021-10-23
Kafka学习之路
Kafka 简介Kafka 是最初由 Linkedin 公司开发,是一个分布式、分区的、多副本的、多订阅者,基于 zookeeper 协调的分布式日志系统(也可以当做 MQ 系统),常见可以用于 web/nginx 日志、访问日志,消息服务等等,Linkedin 于 2010 年贡献给了 Apach ...
2021-10-23
大数据 SQL 优化
原理解析https://cloud.tencent.com/developer/article/1638968 distinct & group bydistinct 需要将 colA 中的所有内容都加载到内存中,大致可以理解为一个 hash 结构,key 自然就是 colA 的所有值。因为 ...
2021-10-23
Hive
Hive 简介Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 1)Hive 处理的数据存储在 HDFS 2)Hive 分析数据底层的实现是 MapReduce ...
2021-10-23
hadoop-使用文档
环境依赖: 当前环境: CentOS7.5 安装部署整体安装过程 前置依赖 Java/SSH 无密钥配置 环境变量配置 修改配置文件 创建格式化 HDFS 目录 安装在目录 /software/Spark/hadoop ,安装在其他目录,配置等对应修改 安装 JavaJava 一键安装脚本 ...
2021-10-23
hbase-使用文档
tags: 大数据 底层存储 分布式 Hbase 2019 年 安装部署环境依赖说明: TODO 未完全 依赖于 Hadoop 环境说明: Hbase==2.2.1 安装 Hbase下载解压Hbase 下载链接(版本更新太快,存在链接失效的可能性): https://mirrors.cnni ...
2021-10-23
大数据生态圈
1. 大数据生态圈 大数据生态圈 1.1. 大数据常用技术简介 Flume-日志收集工具 sqoop-数据同步传输工具 Zookeeper-分布式协作服务 Hbase-分布式列存储数据库 Hive-数据仓库 Tez OOzie-工作流调度系统 Hue (Hadoop user Experien ...
2021-10-23
Flink-流式处理
参考资源https://flink.apache.org/ ...
2021-10-23
bigdata-clean 大数据清洗
unicode 特殊字符清洗校验程序 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970 ...
2021-10-23
<
1
…
22
23
24
25
>