当前位置:朝夕网 » 数码科技 » 你在写爬虫时碰到的问题和解决方法

你在写爬虫时碰到的问题和解决方法

方法:考虑网址是异步加载,使用+,模拟浏览器打开网址方法:尝试其他登陆方法,最好可以跳转使用微博登录,依然使用问题:网页的结构混乱,爬取过程经常出现错误方法:使用try语句,或者进入手机浏览器,搜索该网站,查看是否有手机端的网页,复制url

问题:使用访问不全,如京东商品页等。

方法:考虑网址是异步加载,使用+,模拟浏览器打开网址

问题:网站需要手机号接受登录

方法:尝试其他登陆方法,最好可以跳转使用微博登录,依然使用

问题:网页的结构混乱,爬取过程经常出现错误

方法:使用try语句,或者进入手机浏览器,搜索该网站,查看是否有手机端的网页,复制url,手机端网页代码一般较为统一,错误较少,而且反爬虫较弱。另外有的网页在电脑端需要登录,在手机端不需要登录。

问题:滑块验证码打开网页http500错误,网上拖动教程过不了

方法:拖动过程需要模拟人工拖动,先快后慢打开网页http500错误,上下抖动,而且注意速度不要太慢,拖动距离要尽量准确一些。

问题:限制爬取频率

方法:使用库和库时,考虑使用代理ip。使用时,出现异常时,尝试点击网页中存在的元素,通过验证,即可继续爬取。

本文到此结束,希望对大家有所帮助!

免责声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。朝夕网 » 你在写爬虫时碰到的问题和解决方法