什么是网络爬虫？

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端（主要指浏览器）发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

原则上，浏览器可以实现的功能，爬虫都可以完成。

在当下的大数据时代，数据量是巨大的，各个领域每天都在源源不断产生数据，能够获取数据并对数据进行分析，就可以产生财富。

比如，推荐系统，电商平台根据用户的浏览商品或购买情况，就会自动识别出用户的偏好，在该用户主页推荐的商品就更容易成交，可以大幅度提升购买力。

再比如自媒体平台，创作者生产数据（即发布文章、视频），消费者即企业、组织付费做广告推广，每一个作品经过算法推荐给合适人群，提高平台用户的体验以及提升点击率，增加广告的曝光度。

然而，巧妇难为无米之炊，大数据的基础是数据获取，然后再对原有数据进行清洗、统计，数据量如此大，那么我们如何高效获取这些数据呢？

首先，要清楚目标数据来源，包括用户产生的数据，比如外卖点餐平台，用户订外卖就在产生数据；还有政府统计的数据，GDP、失业率等等；还有专门的数据管理公司搜集数据盈利；还有自己用爬虫或其他手段搜集的数据。

本节我们主要考虑网络爬虫获取数据。如上图所示是国家统计局统计2023年1月份70个大中城市商品住宅销售价格变动情况，假设我们只想获取城市以及该城市同比上一年同月的价格变动情况，只需要获取两列标红数据就可以。

当然我们可以手动将需要的数据复制下来，粘贴到本地excel表格当中。然而，如果数据量特别大，手动操作耗时久，而且也容易出错。所以，网络爬虫可以分析网页结构，按照此一定规律解析出目标数据，然后利用循环语句批量处理。

鼠标右键，选择检查，可以发现网页显示的数据和源码中的数据，然后分析网页源码结构，批量爬取，存储到excel或数据库中。