爬虫程序 For 广东政务服务
- HTML/Json 下载器
- html_downloader
- HTML/Json 解析器
- html_parser
- URL 管理器 (为多线程、多进程准备的,目前用不着)
- url_manager
- 爬虫派遣
- gdzwfw_crawler
- 工具函数
- api 用于包裹接口
- excel_writer 输出 excel
- config 配置
- data_conversion 数据转化,把页面数据转化为表格需要的数据
- 模型
- model/PowerAndResponsibility
总体分为三个页面
其中
为纯 json 获取
第三个页面
为纯 html 解析