• Robots协议是什么?

    网络爬虫其实是一种灰色产业!没有法律规定爬虫是违法的,也没有法律规定爬虫不违法,主要看爬取数据的类型,如:

    • 高度敏感数据:行踪轨迹信息、通信内容、征信信息、财产信息;
    • 敏感数据:住宿信息、通信记录、健康生理信息、交易信息;
    • 其他个人信息:高度敏感数据和敏感数据。

    一般来说,高度敏感的数据根本爬不了;如果是公司要求爬的,那出了事情就是公司的责任。

    如果有些东西您不能确认是不是违法,可以向身边律师朋友咨询或者百度谷歌,切莫存侥幸心理!

    屏幕前面的您心里一定要有杆称,搞爬虫真的可能会坐牢的。信息犯罪好像是直接坐牢的,而且不是按天算的,毕竟玫瑰金手铐可摆在那里呢!

    这杆称就是 Robot.txt 协议。不过,Robot.txt 对学习聚焦型爬虫的我们帮助不大,就当一个常识学一下,也可以根据 Robot.txt 协议列出的网页作为指标,Robot.txt 协议允许的网页我们就能爬,不允许的就不爬呗。

    Robots 协议是互联网爬虫的一项公认的道德规范,全称是“网络爬虫排除标准(Robots exclusion protocol)”,这个协议用来告诉通用型爬虫,哪些页面是可以抓取的,哪些不可以。

    大多数网站都有 Robots 协议,那如何查看网站的 Robots 协议呢 ?

    很简单,在网站的根目录域名后加上/robots.txt就可以了。例如,通过 https://www.douban.com/robots.txt 这个链接可以查看淘宝的 Robots 协议。

    User-agent: *                          #所有爬虫,如百度、谷歌、必应
    Disallow: /subject_search              #禁止访问 /subject_search
    Disallow: /amazon_search              
    Disallow: /search
    Disallow: /group/search
    Disallow: /event/search
    Disallow: /celebrities/search
    Disallow: /location/drama/search
    Disallow: /forum/
    Disallow: /new_subject
    Disallow: /service/iframe
    Disallow: /j/
    Disallow: /link2/
    Disallow: /recommend/
    Disallow: /doubanapp/card
    Disallow: /update/topic/
    
    Allow: /ads.txt                        #允许访问 /ads.txt
    
    Sitemap: https://www.douban.com/sitemap_index.xml
    Sitemap: https://www.douban.com/sitemap_updated_index.xml
    #sitemap文件里面是新产生的URL,有豆瓣网前一天的影评、书评、帖子等等,可以减少网站的带宽消耗。 
    
    User-agent: Wandoujia Spider           #如果是豌豆荚爬虫
    Disallow: /                            #禁止访问所有页面(完全屏蔽)
    
    User-agent: Mediapartners-Google       #谷歌的广告爬虫,当网页投放了谷歌的广告时,他就会来抓取,对网页进行分析,然后投放最佳的广告...
    
    Disallow: /subject_search              #禁止访问 /subject_search
    Disallow: /amazon_search
    Disallow: /search
    Disallow: /group/search
    Disallow: /event/search
    Disallow: /celebrities/search
    Disallow: /location/drama/search
    Disallow: /j/

    Allow 代表允许访问,Disallow 就是禁止访问,User-agent 可以判断是哪家爬虫,经常产生新数据网站 sitemap 文件会用的比较多。

    豆瓣的 robots.txt 文件表示:

    • 对豌豆荚爬虫完全屏蔽,不允许它爬任何豆瓣的网页
    • 对谷歌广告爬虫,允许爬取除了以Disallow开头的网址以外的其他网址,并且爬取的时间间隔为 5s。
    • 对于任何爬虫(除豌豆荚爬虫、谷歌的广告爬虫),允许爬取除了以Disallow开头的网址以外的其他网址,并且爬取的时间间隔为 5s。

    常见的搜索引擎爬虫有:

    • 谷歌 Googlebot
    • 百度 Baiduspider
    • 360 360Spider
    • 必应 bingbot

    因为网站上的目录其实就是电脑里的文件夹,robots.txt 协议处于网站的根目录下,任何人都可以直接输入路径打开并查看里面的内容,就可以比较清楚的了解网站的结构。

    robots.txt 相关新闻:

    • 违反“爬虫协议”能否适用反不正当竞争法(中国法院)
    • 百度与 360 爬虫之争
    • robots.txt文件的作用及写法

    黑客技巧

    也可以通过 robots.txt 协议看到这个网站是不是一个网站模版系统建成的。比如,我在某个网站的域名后加上/robots.txt

更多...

加载中...