问题:使用访问不全,如京东商品页等。
方法:考虑网址是异步加载,使用+,模拟浏览器打开网址
问题:网站需要手机号接受登录
方法:尝试其他登陆方法,最好可以跳转使用微博登录,依然使用
问题:网页的结构混乱,爬取过程经常出现错误
方法:使用try语句,或者进入手机浏览器,搜索该网站,查看是否有手机端的网页,复制url,手机端网页代码一般较为统一,错误较少,而且反爬虫较弱。另外有的网页在电脑端需要登录,在手机端不需要登录。
问题:滑块验证码打开网页http500错误,网上拖动教程过不了
方法:拖动过程需要模拟人工拖动,先快后慢打开网页http500错误,上下抖动,而且注意速度不要太慢,拖动距离要尽量准确一些。
问题:限制爬取频率
方法:使用库和库时,考虑使用代理ip。使用时,出现异常时,尝试点击网页中存在的元素,通过验证,即可继续爬取。
本文到此结束,希望对大家有所帮助!