网络爬虫是什么?
本节我们先讲一下网络爬虫的概念,再讲一下网络爬虫的分类,期间会插入我个人的一些见解。
网络爬虫是什么?
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
对于我们来说,爬虫需要我们自己写,可以下载的我们眼里最有价值的数据。
通常我们会把收集到的数据进行数据分析:
-
如果我们想开淘宝零售店,可对淘宝这个市场并不了解,我们就可以爬取淘宝用户的行为数据,再考虑自己的定位在哪里。
数据表明:用户购买最多的商品是 100-200 RMB,最理想的定位应是 200 元以内却特别高端的物品。
-
如果我们想预测俩人是否会修成正果,我们可以把数据爬取了(如果是约会,全程对话录下来)预测。
数据表明:男性最后选择的总是外表好看的,这可能伤了您的心。
-
如果服务于企业(如腾讯),微信(有平台)对 90 后、80 后、70 后和 55 岁以上人群的使用习惯做了数据分析,结果发现:
- 00 后最喜欢使用的表情是捂脸哭,80 后最爱呲牙笑,70 后最爱捂嘴笑,55 岁以上人最爱大拇指点赞;
- 在阅读兴趣方面,90 后的阅读内容从三年前的娱乐八卦转向了生活情感类内容,55 岁以上人群从三年前的励志文化类内容转向了关注养生健康类内容,而 80 后的阅读偏好则仍然停留在关心国家大事上,你可以在每个阶段推送不同的且贴心的服务。
获取数据背后的结论(需要一些心理学知识才能推出来),还真须有大量随机的数据;而且爬取的数据要尽量随机、大规模,这样能够排除一切主观的干扰因素。
如果爬虫技术特别 NB,也可以直接去销售数据:
1) http://chinadatatrading.com/ 是销售数据的平台之一。
本文标题:网络爬虫是什么?
发表评论