参考资源
Python 爬虫自动化解析
https://blog.csdn.net/u012922806/article/details/92234214
Python 自动化神器,无需写代码
https://blog.csdn.net/weixin_41666747/article/details/112057316
Pholcus(幽灵蛛)是一款纯 Go 语言编写的支持分布式的高并发爬虫软件
https://github.com/henrylee2cn/pholcus
1. http 状态码/header/请求方法, 哪些请求方法是幂等的
2. https 加密原理
3. python 协程原理/缺点
- http 状态码/header/请求方法, 哪些请求方法是幂等的
5. python gevent 协程调度原理/缺点
14. http 状态码
响应分为五类
- 信息响应(100–199)
- 成功响应(200–299)
- 重定向(300–399)
- 客户端错误(400–499)
- 服务器错误 (500–599)
17. 乐观锁 / 悲观锁
20. Hbase 底层原理
大数据质量监控平台
https://www.jianshu.com/p/64bdf3d5583e
数据质量监控工具-Apache Griffin
https://blog.csdn.net/vipshop_fin_dev/article/details/86362706
MarkDown-Html 语法机制
Spark SQL原理与应用
https://blog.csdn.net/olizxq/article/details/81604658
Linux前台、后台、挂起、退出、查看命令汇总
https://blog.csdn.net/weixin_40064477/article/details/78970312
https://blog.csdn.net/matthewei6/article/details/50573592
Linux 文件的去重
https://www.cnblogs.com/followees/p/7845575.html
– Hadoop集群的配置文件 /home/scrapyer/hadoop/bin/hadoop fs -conf /home/scrapyer/spark/conf/offline-hdfs/hdfs-site.xml