网络爬虫是什么？

本节我们先讲一下网络爬虫的概念，再讲一下网络爬虫的分类，期间会插入我个人的一些见解。

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

对于我们来说，爬虫需要我们自己写，可以下载的我们眼里最有价值的数据。

通常我们会把收集到的数据进行数据分析：

如果我们想开淘宝零售店，可对淘宝这个市场并不了解，我们就可以爬取淘宝用户的行为数据，再考虑自己的定位在哪里。

数据表明：用户购买最多的商品是 100-200 RMB，最理想的定位应是 200 元以内却特别高端的物品。
如果我们想预测俩人是否会修成正果，我们可以把数据爬取了（如果是约会，全程对话录下来）预测。

数据表明：男性最后选择的总是外表好看的，这可能伤了您的心。
如果服务于企业（如腾讯），微信（有平台）对 90 后、80 后、70 后和 55 岁以上人群的使用习惯做了数据分析，结果发现：
- 00 后最喜欢使用的表情是捂脸哭，80 后最爱呲牙笑，70 后最爱捂嘴笑，55 岁以上人最爱大拇指点赞；
- 在阅读兴趣方面，90 后的阅读内容从三年前的娱乐八卦转向了生活情感类内容，55 岁以上人群从三年前的励志文化类内容转向了关注养生健康类内容，而 80 后的阅读偏好则仍然停留在关心国家大事上，你可以在每个阶段推送不同的且贴心的服务。

获取数据背后的结论（需要一些心理学知识才能推出来），还真须有大量随机的数据；而且爬取的数据要尽量随机、大规模，这样能够排除一切主观的干扰因素。

如果爬虫技术特别 NB，也可以直接去销售数据：

1) http://chinadatatrading.com/ 是销售数据的平台之一。