最近有课题要分析AI类视频的用户情感偏向,所以在用python采集数据,遇到一些bug,请求支援
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
我也经常遇到这种情况,用selenium、playwright被网站识别为爬虫脚本,然后老是跳出来验证码,有时候还没限制ip访问。
后来查技术资料发现,用selenium很容易暴露非真人的身份。
1、浏览器指纹暴露:会留下一些自动化程序的“特征”,比如navigator.webdriver,网站一检测到这个,就知道不是正常浏览器
2、行为不像真人:访问过快,过于规律,就会被网站识别
3、IP地址异常:请求过于频繁,或者过于规则的请求都会被识别出来
为了应对这些爬虫检测机制,我会直接用亮数据的网页解锁api来访问,和普通selenium请求一样,但是亮数据内置了自动切换ip功能,且能识别并解锁验证码,并隐藏浏览器指纹,这样就不会被检测到。
我还用过亮数据的远程浏览器,操作类似普通浏览器,但能绕过爬虫检测,适合比较稳定的采集业务。