带 ip 属地,无 Cookie 微博话题自助抓取网站上线

共 671字,需浏览 2分钟

 ·

2022-06-01 11:54

    点击上方 月小水长 并 设为星标,第一时间接收干货推送

这是 月小水长 的第 125 篇原创干货

目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
本次更新的是无 cookie 话题爬虫,新加了数个字段,主要是 ip 属地、发布属地、用户关注数、粉丝数、认证信息等。

同时把它写成了网站,随时随地都能抓取,网站地址是:
http://weibo-topic.buyixiao.xyz/
站点上可以选择任何话题,实时抓取,无法限定时间段,不过由于服务器性能,对所有用户限定只能抓取最多 10 页也就是 200 条左右。同时测试发现无 cookie 最多能抓 100 页左右,这个开关没有打开,想要突破 10 页的限制,请看网页提示,另外听说经常在公众号留言转发的均有机会

无 cookie 话题爬虫是对 2021 新版微博话题爬虫发布 的补充,相比较而言,它不需要 cookie,实时抓取,适合做监控;而后者可以选择时间段分段大量抓取数据,但需要 cookie。两者使用场景不同,并不矛盾。


站点可以实时显示当前话题抓取进度,耗时、总数和平均速度,抓取完成后会出现下载按钮,点击即可下载结果 csv 文件。已经抓取过的会直接显示下载按钮,跳过抓取过程,可以参考一下演示视频。


点击阅读原文直达站点地址。文章阅读过 2 千,b 站视频破 1 w,可以加快无 cookie 评论、转发、点赞网站的上线进程。
浏览 93
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报