郑州网站优化

,郑州seo,郑州百度优化,郑州网络推广,选择路普科技,15年为企业网站优化助力!


您当前位置:首页 > 营销百科 > seo推广知识 >

高手级SEO告诉你搜索原理

发布时间:2017-09-11 标签: 浏览量:

1、总链接库
        总链接库存放着爬虫曾经爬取过的URL及时刻新增的URL,由调度系统控制提取出新URL或需要重访的URL交由爬虫爬取。总链接库中存放的URL都是 不重复的,这样保证了爬虫的不重复抓取、避免陷入循环陷阱。

2、抓取策略
        相对于整个互联网新增内容,SE资源是有限的。大部 抓取是不可能的事,需要SE以Z小成本抓取Z大量重要内容,这便需要抓取优先级调配策略。在调度系统中,待抓取URL成队列结构,抓取策略便起到了对这些队列进行排序的作用。
        爬虫的抓取策略很多,不过其目标都是优先爬取重要网页。常见如:宽度优先遍历策略、深度优先遍历策略、PR优先策略、反链优先策略、OPIC策略、大站优先策略等。
宽度优先遍历策略指抓取某一起始页面后,将该页面内拥有 链接放入待抓取队列末尾,不对网页重要性进行评级,按顺序依次抓取,遍历路径:A B-C-D-E H F G;
        深度优先遍历策略指抓取某一起始页面后,选取其中某一链接进行跟踪抓取直至抓取完毕,进入下一起始页,继续跟踪抓取,遍历路径:A B C-F-G D E-H;

        PR优先策略在此指非完全PR策略,因为PR是个针对全体网页的算法,而爬虫抓取过程中只能针对某个网页集合进行PR计算,故称非完全PR优先策略。在这种策略中,根据待抓取队列中URL的非完全PR值来确定抓取顺序。
        当然,这种PR值并非每抓取一个页面计算一次,而是在抓取一定量如X个页面后,将拥有 下载页面重新计算一遍新的非完全PR值。
        根据这些PR值,确定待下载队列中URL的下载顺序。在未抓取到X个页面前,新抓取页面中提取出的URL可能重要性要高于之前的URL,将这些URL以PR为0放在待下载队列的末尾是不合适的。此时,就要根据这个页面拥有 反链计算一个临时PR,以次插入到待下载队列;
        反链优先策略指根据网页被其他网页链接的数量来确定待抓取队列中URL的抓取顺序;
        OPIC策略,Online Page Importance Computation,在线页面重要性计算。这种策略类似于PR优先,本质上也是给页面赋予了“质量分”。在算法开始前,给拥有 页面赋予相同的初始“现金”(cash),当某个页面被下载后,该页面将自己的“现金”平均分配给页面中拥有 链接,并清空自身现金。对于待抓取URL,根据现金量进行重要性排序抓取。
        大站优先策略指对于待抓取URL,根据其归属域名进行分类整理,优先下载待下载URL数量多的链接。
其他策略如根据URL中目标层级,URL后缀及URL中字符串等确定抓取排序。
        在实际抓取中,往往是多种策略组合使用的。以上策略对于SEO提高收录有很多指导意义,如:控制入链数、控制出链数、控制网站结构及外链权重(数量、质量、Nofollow等)、增加新内容更新频率等。     

版权声明:本站部分文章,由 郑州路普科技整理发表(信息来自互联网,不代表本站观点),如有冒犯请联系我们
网页标签:
服务城市
欢迎致电或者QQ咨询路普公司,我们专注企业网站优化服务!
提供网站优化、关键词排名、企业网站优化、SEO整站优化、站内站外优化等网站优化服务!

电话:0371-87535353
地址:郑州市花园路59号21世纪新楼中楼1#8001 豫ICP备10210721号-4
郑州网站优化,郑州网站优化公司,郑州关键词优化,郑州关键词排名,郑州百度优化专业的网络公司,助力企业快速提升目标客户转化率