可可网络
专注效果,用心服务
电话
了解搜索引擎蜘蛛捕获算法和策略,提高SEO优化

来源: 2021-08-18

了解搜索引擎蜘蛛捕获算法和策略,提高SEO优化
随着互联网的兴起和发展,人们获取信息的方法正在以传统的方式逐渐被互联网所取代。刚开始,人们主要通过浏览网页获得必要的信息,但随着网络的不断扩大,通过这种方式找到必要的信息变得越来越困难。今天,大多数人非常依赖搜索引擎来获取有用的信息,所以搜索引擎技术作为最常用的网络信息收集技术,直接影响着人们的信息收集质量。
自1994年4月世界上第一个网络搜索工具Web  Crawler上市以来,目前最受欢迎的搜索引擎有谷歌、雅虎、Alta  Vista、inpo  Seake、inpo  Market等。为了商业机密,目前各搜索引擎使用的Crawler系统的技术内幕一般不公开,现有文献也仅限于概述。随着web信息资源呈指数级增长,web信息资源动态变化,传统搜索引擎提供的信息检索服务无法满足日益增长的个性化服务需求,因此面临着巨大的挑战。用什么战略连接到网络提高搜索效率成为近年来专业搜索引擎网络爬虫研究的主要问题之一。
1网络爬虫的工作原理
网络爬虫来自Sp  ider的意译,具有相同意义的单词包括Crawler、robots、bots、wanderer等。网络爬虫定义是利用标准http协议,根据超链接和网络文档检索方法遍历万维网信息空间的软件程序,定义为广义和狭义。广义上,可以使用http协议搜索web文档的所有软件都称为web爬虫。
网页爬虫是自动提取网页的强大程序,为搜索引擎在万维网上下载网页是搜索引擎的重要组成部分。通过请求站点的HTML文档访问站点。遍历web空间,从一个站点移动到另一个站点,自动创建索引并将其添加到web数据库中。网络爬虫进入超文本时,使用HTML语言的标签结构检索信息,并获取指向其他超文本的URL地址。完全不依赖用户干预,可以在网络上自动“爬行”和搜索。网络爬虫在搜索时经常采用一定的搜索策略。
2宽度或深度优先搜索策略
搜索引擎使用的第一代web爬虫主要是基于现有的图形算法(如宽度优先级或深度优先级算法)对整个web编制索引,核心URL集用作种子集合,该算法递归地跟踪到其他页面的超链接,通常,不管页面内容如何,最终目标都是这样的跟踪可以复盖整个web。该策略通常用于通用搜索引擎。因为通用搜索引擎获得的网页越多越好,没有特定的要求。请参阅图1:2.1宽度优先搜索算法
宽度优先搜索算法(也称为宽度优先搜索)是最简单图形的搜索算法之一,它也是许多重要图形的算法原型。Dijktra单源最短路径算法和Prim最小生成树算法都使用与宽度优先搜索相似的思想。宽度优先搜索算法是沿着树的宽度穿过树的节点,如果发现目标,算法就会中断。该算法的设计和实现比较简单,是盲目的搜索。为了涵盖当前尽可能多的网页,通常使用宽度优先搜索方法。还有很多研究将宽度优先搜索战略应用于焦点爬虫。其基本思想是,与早期U  RL在一定链接距离内的网页有主题相关性的概率很高。另一种方法是将宽度优先搜索与网页过滤技术结合使用。首先用宽度优先战略抓住网页,然后过滤掉其中无关的网页。这种方法的缺点是,网页越多,下载和过滤的不相关网页越多,算法的效率就越低。
2.2深度优先搜索
深度优先搜索遵循搜索策略,尽可能地搜索深度地图。深度首先,对于搜索中最近发现的顶点,如果以此为起点,并且有未检测到的边,则沿着这些边继续下降。如果节点V的所有边缘都已经被探索,搜索将追溯到节点V上有那些边缘的起点。此过程将持续到找到源节点可以到达的所有节点。如果尚未找到节点,请选择其中一个节点作为源节点,然后重复上述过程。整个过程将重复,直到找到所有节点。深度优先级在很多情况下会出现爬行动物的陷入问题,因此不完整,也不是最佳的。
3聚焦搜索策略
以第一代网络爬虫为基础的搜索引擎捕获的网页一般不到1000,000个,很少重新收集网页和刷新索引。而且,由于搜索速度非常慢,一般需要等待10s以上。随着网页信息的指数增长和动态变化,这些通用搜索引擎的局限性越来越大,随着科学技术的发展,出现了窥探相关网络资源的焦点爬虫。
以爬行动物为焦点的爬行战略只选择特定主题的页面,根据“最佳优先级原则”访问,可以快速有效地获取更多主题相关页面,主要通过内容和web链接结构指导进一步的页面捕获。图2显示了应用焦点策略爬虫的一般爬行规则。
焦点爬虫将评估分数分配给下载的页面,然后根据分数排序。最后插入队列。下一个最好的搜索将分析弹出队列的第一页,以便爬虫首先跟踪最有可能连接到目标页面的页面。决定网络爬虫搜索策略的关键是确定不同的搜索策略,因为链接价值、即链接价值计算方法、价值评估方法计算的链接价值不同,显示的链接的“重要性”也不同。因为链接包含在页面中,通常包含在具有高价值的页面中的链接也具有高价值,所以对链接价值的评价有时也会转换为对页面价值的评价。此策略通常适用于专业搜索引擎。因为这个搜索引擎只对特定主题的页面感兴趣。3.1基于内容评价的搜索策略
基于内容评价的搜索策略主要是以主题(关键词、主题相关文档等)和链接文本的相似性为基础,评估链接价值的高低,确定搜索策略。链接文本是链接周围的说明文本和链接URL的文本信息,相似性评估通常使用以下公式:

其中di是新文本的特征向量,DJ是J类的中心向量,M是特征向量的尺寸,wk是向量的K维。
网页是半结构化文档,因为与现有文本不同,包含许多结构信息的网页不单独存在,页面上的链接表示页面之间的相互关系。因此,一些学者提出了根据链接结构评估链接价值的方法。
3.基于2链接结构评价的搜索策略
基于链接结构评估的搜索策略是通过分析网页之间的交叉引用关系来确定链接的重要性,从而确定链接访问顺序的方法。通常,进入链或离开链的页面被认为具有更高的价值。PageRank和Hits是代表性的算法。
3.2.1页排名算法
以链接评价为基础的搜索引擎的优秀代表是谷歌。独创性的“链接评价系统”(PageRank算法)取决于一个页面的重要性取决于另一个网页连接的数量,特别是被确认为“重要”的部分网页的链接数量。PageRank算法最初用于在谷歌搜索引擎信息搜索中对查询结果进行排序,近年来应用于网络爬虫的链接重要性评估。PageRank算法的页面价值通常用页面的PageRank值来表示。
如果将页面p的PageRank值设置为PR  (p),则使用以下迭代公式计算PR  (p):

其中,T是计算中的总页数,C以下1是阻尼常数系数,in  (p)是指向P的所有页面集,ou  t  (C)是页面C链集。基于PageRank算法的web爬虫在搜索过程中计算访问的每个页面的PageRank值,以确定页面值,并优先选择PageRank
3.2.2小时its算法
HITS方法定义了两个重要概念。Authority和Hub。Authority表示一个权限页面被另一个页面引用的数目,即该权限页面的输入值。网页引用的数目越多,该网页的“机构”值就越大。集线器表示一个网页指向另一个页面的数量,即该页面的输出值。网页的输出值越大,轮毂值越高。中心值高的页面通常提供指向权威页面的链接,起到隐式说明主题页面权威的作用。hyperlink-induced  topic  search(HITS)算法是Hub  .利用Authority方法的搜索方法。Authority是指一个页面在另一个页面上引用的数目,即该页面的输入值。集线器表示一个网页指向另一个页面的数量,即该页面的输出值。算法如下:将查询Q提交给现有的基于关键字匹配的搜索引擎。搜索引擎返回很多网页,其中前N个网页用S表示根集。将S引用的网页和引用S的网页添加到S,将S扩展到更大的集合T。T的Hub网页为顶点集V  l,权威网页顶点集V  2,V  1的网页到V  2的网页的超链接为边缘集E,
样式(1)反映出,如果网页由许多好的中心指向,则权威值会相应增加(即,由权威值指向的所有网页的现有中心值之和增加)。样式(2)反映出,如果网页指向很多好的权威页面,中心值也会相应增加(即,中心值增加到与该网页相关联的所有网页的权威值总和)。基于链接结构评估的搜索考虑到链接的结构和页面之间的参考关系,但忽略页面和主题的关联性,有时搜索会出现离题的问题。此外,在搜索过程中,必须反复计算PageRank值或Authority和Hub权重,并且随着页面和链接数的增加,计算复杂性呈指数级增加。
3.3基于集成学习的集中搜索
近年来,对W  EB信息资源分布的研究表明,同一类型的许多网站在构建方式上,主题相同的网页在组织方式上有一定的相似性。一些学者正在考虑整合对网络爬虫的学习的教育课程。从这种相似性中可以获得“经验”,这种经验信息在远离相关页面集的地方搜索往往会获得很好的收益,前两种战略在这种情况下很容易迷失方向。在综合学习模型中,网络爬虫访问多个相关页面后才能获得的主题相关页面称为未来收益,对未来收益的预测值称为未来收益值,用Q值表示。这种方法的核心是学习如何计算链接的Q值,并根据未来收益值确定正确的搜索方向。目前这种搜索战略的缺点是学习效率低的问题,在训练过程中用户的负担会增加。3.基于四上下文图的焦点检索
基于集成学习的网络爬虫可以计算链接的Q值来确定搜索方向,但无法预测与目标页面的距离。为此,Diligen  t等公司提出了一种基于“上下文映射”的搜索策略,通过构建普通页面的web“上下文映射”来估计与目标页面的距离。最近的页面以前访问过。基于“上下文映射”的搜索策略需要使用现有的通用搜索引擎构建“上下文映射”,但搜索引擎的搜索结果不一定表示实际的web结构,因此这种方法也存在局限性。