以前洪雨写微信公众号采集,都是用脚本的方式。
原理打开陌陌pc端,打开目标公众号的历史文章页面,拖动页面加载文章,然后右键获取源码,通过源码进行采集。
为什么这样做?
是因为陌陌可以打开公众号文章页面,但是不让别的浏览器直接打开公众号的历史页面。你就难以批量采集文章链接。只好出此上策。
为什么不直接采集搜狗,因为搜狗资源不全,而且搜狗也不让你多采集,需要加代理……
昨天打开软件测试了一下,发现不好用了。
为什么?
微信更新了,程序自带的浏览器,无法右键获取源码了……
于是上网找办法,看到知乎有人说了个思路。说,抓包陌陌的浏览器,然后模拟他的合同头,看能不能打开那个不让别的浏览器运行的页面。
昨天咬牙掏出一小时初学了一下fiddler抓包,果然抓到了微信公众号的链接。
本着尝试的态度,读取了一下源码,发现果然不行。然后附加合同头,发现还是不行,然后又附加了cook。好家伙,这么简单,居然成功了。
尝试拖动页面加载页面,发现又抓到包了,只要变动一下参数能够获取全部的文章链接。
剩下的就是把源码json解析一下就行了。
一切就如此顺利,我自己也没想到。原来fiddler如此强悍!
中间其实也有一些坎坷,比如抓https要装证书啥的这儿就不记录。
说说采集公众号的重点,1.抓到包很容易,关键是怎样获得参数组装链接。2.如何获取cook我没有研究,后面待学习。3.抓取频度太快会有封号风险!
fiddler假如玩的熟练,真的可以月入过万。
但是,有一道所有做爬虫的人都必须过的坎,那就是js揭秘,一定要会。否则永远都是二流选手。一旦搞定,真正迈向大神行列,薪资都是万起步。