Skip to content

yihaodong1/blog2

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 

Repository files navigation

微信公众号爬取

老师安排我去找方法爬取公众号文章,希望能够实现定时更新别的学校的招生公众号文章

成功,这个方法是利用公众号创建文章时可以引用其他文章的超链接,用这个链接进行爬取

整体过程和我之前爬取第二课堂的过程十分相似,都是先利用selenium进入网页输入自己的密码、账号,不同点是这个公众号登录还需要扫码;登陆后获取cookie到一个文件并保存,在下一个程序中读取cookie直接进入网站;还有一个不同点是进入网站后还要获取一个特殊的参数token,这个参数可能就是直接爬取微信的难点,因为它好像是不断变化的;获得这个token后再进入不同的公众号的url,不同的公众号有几个关键参数,一个是token,另一个就是fake id,不同的公众号有不同的fake id,还有一个是begin表示开始的是第几篇文章

所以只需要建立一个字典记录不同公众号的fakeid就可以爬取需要的公众号了

缺点:好像有频率限制,同一个公众号一次最多爬取80篇文章;但是我们只是要定时更新需要的公众号的文章,可能不会需要太多的数量要求

这个方案的想法很值得借鉴,老师说过直接爬取微信公众号难度较大,这个方法是利用公众号创建文章时可以引用其他文章的超链接,用这个链接进行爬取

我认为这是需要建立在本身对与运维公众号有一定的经验的基础上的,这样才能将爬虫与公众号联系起来。

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published