+发表新主题
查看: 715|回复: 1

网络爬虫抓取数据,常见策略有哪几种?

[复制链接]

网络爬虫抓取数据,常见策略有哪几种?

[复制链接]
木马童年 发表于 2017-11-28 11:47:29 浏览:  715 回复:  1 [显示全部楼层] 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 木马童年 于 2018-5-1 00:42 编辑

timg.jpg

什么是网络爬虫,在爬虫系统中,常见的抓取策略有哪几种?



回复

使用道具 举报

265

主题

593

帖子

2933

积分

网站编辑

Rank: 8Rank: 8

积分
2933
木马童年
 楼主|
发表于 2017-11-28 11:48:15 显示全部楼层
      大量数据散落在互联网中,要分析析互联网上的数据,需要先把数据从网络中获取下来,这就需要爬虫技术,在爬虫系统中,待抓取URL队例是很重要的一部分,待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为其决定了先抓取哪个页面、后抓取哪个页面。而决定这些URL排列顺序的方法叫做抓取策略,下面介绍,几种常见抓取策略:

      1.深度优先遍历策略,深度优先遍历策略是指网络爬虫会起始页开始,一个链接一个链接跟踪下云,处理完这条线路之后,再转入下一个起始页,继续跟踪链接。

      2.宽度优先遍历策略,宽度优先遍历策略的基本思路是将新下载网页中发现的链接直接插入待抓取URL队列的末尾,也就是说,网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取网页中链接的所有网页。

      3.反向链接数策略,反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人推荐的程度。因此,很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页抓取顺序。

      4.大站优先策略,对于待抓取URL队列中的所有网页,根据所属的网站进行分类;对于待下载页面数多的网站,则优先下载。这种策略也因此被叫作大站优先策略。

      大数据时代,首先就是获取数据,经过处理分析,获取数据价值,数据采集和数据挖掘有什么不同,一定要明白,数掘挖掘的流程是什么,主要分为哪几步? - 大数据 多智时代


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则