本工具使用Python2.7和scrapy来搜索微信公众号文章。
安装Scrapy,直接查询。
pip install scrapy
python wescraper/scraper.py account liriansu miawu > we.json # 查询liriansu和miawu相关的公众号
python wescraper/scraper.py key-day liriansu miawu > we.json # 查询liriansu和miawu相关的文章(一天内)
安装Scrapy与Tornado,通过本地server查询:
pip install scrapy tornado
python wescraper/server.py
在server起来以后就可以通过http://localhost/account/foo/bar/baz...
来获取微信公众号文章列表了。
或者可以通过http://localhost/key-year/foo/bar/baz...
以关键字来查询公众号文章。
参见scraper.py源码
-
一些可配置的参数见config.py
-
查询公众号默认获取列表的第一个。
-
本工具有可能会被Ban,解决方案可以参考Scrapy: Avoiding getting banned (一般而言,换IP就可以解决问题了)
-
cookie.py内维护了一个Cookie池,会在n个Cookie中随机选取来访问,假如Cookie被ban了就会换一个Cookie。
-
欢迎在本代码基础上修改,记得跑一下单元测试噢:
python wescraper/test/test.py
-
本工具完全依赖搜狗微信搜索抓取文章,假如搜狗微信搜索接口什么的变了可能就会抓取失败。
代码版权归GitHub原作者 @LKI 所有。 严禁用于商业用途,其它转载/Fork随意。