以上就是给各位分享蜘蛛程序圈套,其中也会对spidertrap进行解释,同时本文还将给你拓展7种百度蜘蛛程序你了解多少、Baiduspider-百度蜘蛛、BaiduSpider是什么(百度蜘蛛baid
以上就是给各位分享蜘蛛程序圈套,其中也会对spidertrap进行解释,同时本文还将给你拓展7种百度蜘蛛程序你了解多少、Baiduspider - 百度蜘蛛、BaiduSpider是什么(百度蜘蛛baiduspider怎么用)、BaiDuSpider百度蜘蛛占用流量,robots.txt设置等相关知识,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
本文目录一览:- 蜘蛛程序圈套(spidertrap)(蜘蛛程序是什么东西)
- 7种百度蜘蛛程序你了解多少
- Baiduspider - 百度蜘蛛
- BaiduSpider是什么(百度蜘蛛baiduspider怎么用)
- BaiDuSpider百度蜘蛛占用流量,robots.txt设置
蜘蛛程序圈套(spidertrap)(蜘蛛程序是什么东西)
蜘蛛圈套指的是由于网站结构的某种特征,使查找引擎堕入无限循环,无法中止匍匐,最典型的蜘蛛圈套是某些页面上的万年历,查找引擎可以一向单击下一个月堕入无限循环。
蜘蛛程序圈套是阻挠蜘蛛程序爬些网页显现的技能办法,这些办法能很好地合作阅览器,但对蜘蛛程序就构成了阻止,蜘蛛圈套包含Javascript下拉菜单以及有些品种的重定向。
7种百度蜘蛛程序你了解多少
是如何爬去网页内容的呢?我们网页中的视频,文字,图片,是靠什么来抓取的呢?带这个疑问让我们来了解下百度蜘蛛Baiduspider:百度是如何收录到那么多网页的呢?在互联网上有数以亿计的网页的百度就是靠Baiduspider - 百度蜘蛛程序。夜以继日得在互联网上找寻新的URL,接着抓取URL上的内容,返回到百度的网页暂存,有另外的程序进行分析然后选择性放出视频,文字,图片,我们从百度里搜索时能看到的都是百度蜘蛛抓取放出的东西,做的人经常会研究网站日志,我们在查看日志的时候会发现好多百度蜘蛛的足迹-百度蛛蛛爬行状态码,如
(2010-12-28 08:13:46 W3SVC5302241 202.109.143.138 GET /book/story.PHP id=22 80 - 220.181.108.82
Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 3 2335)这是百度抓取内页时的程序。
这有个前提就是robots文件你没有设置禁止百度蜘蛛
百度抓取每个网页内容都会有不同的蜘蛛程序如果我们想禁止百度莫个蜘蛛来抓取我们的内容可以用robots文件中的user-agent进行设置。
如下
百度产品名称 对应user-agent
网页搜索 Baiduspider
无线搜索 Baiduspider-mobile
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度联盟 Baiduspider-cpro
有些朋友会在自己的网站日志里看到这个蜘蛛Baiduspider-cpro,其实这就是百度联盟蜘蛛,是作的时候才有。--用以百度联盟程序匹配相应的广告。
想了接的更多,可要用心了,查看自己的网站日志你会有新的发现,了解百度程序对你的也是很有帮助的啊。
Baiduspider - 百度蜘蛛
Baiduspider - 百度蜘蛛:
百度是如何收录到那么多网页的呢?这个百度用以抓取互联网上数以亿计的网页的程序,就叫做Baiduspider - 百度蜘蛛。
它是一个程序,夜以继日得在互联网上找寻新的URL,接着抓取URL上的内容,返回到百度的网页暂存数据库。
百度用来抓取网页内容的程序,叫做Baiduspider,抓取其他内容的蜘蛛,则是新的名字:
产品名称 对应user-agent
网页搜索 Baiduspider
无线搜索 Baiduspider-mobile
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度联盟 Baiduspider-cpro
不少朋友会在自己的网站日志里看到这个蜘蛛Baiduspider-cpro,现在我们明白它是百度联盟蜘蛛,用以百度联盟程序匹配相应的广告。
阅读本文的人还可以阅读:
怎样算搜索引擎优质网站
SEO是什么?如何做好SEO?
如何从SEO的角度选择好的域名
SEM是什么?SEM和SEO的区别?SEM和SEO哪个好?
BaiduSpider是什么(百度蜘蛛baiduspider怎么用)
关于百度搜索引擎工作原理知识,有不少站长SEO还没有认真阅读和理解,本文解读Baiduspider抓取系统原理与索引建库,让SEOer对百度蜘蛛的收录索引建库有更多了解。
一,Spider 抓取系统的基本框架
互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做 “spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider 等。
Spider 抓取系统是搜索引擎数据来源的重要保证,如果把 web 理解为一个有向图,那么 spider 的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL 开始,通过页面上的超链接关系,不断的发现新 URL 并抓取,尽最大可能抓取到更多的有价值网页。对于类似百度这样的大型 spider 系统,因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对 spider 过去抓取过的页面保持更新,维护一个 URL 库和页面库。
下图为 spider 抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns 解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider 即是通过这种系统的通力合作完成对互联网页面的抓取工作。
二,Baiduspider主要抓取策略类型
上图看似简单,但其实 Baiduspider 在抓取过程中面对的是一个超级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下做简单介绍:
1. 抓取友好性
互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。
通常情况下,最基本的是基于 ip 的压力控制。这是因为如果基于域名,可能存在一个域名对多个 ip(很多大网站)或多个域名对应同一个 ip(小网站共享 ip)的问题。实际中,往往根据 ip 及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度 spider 将优先按照站长的要求进行抓取压力控制。
对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静月黑风高时候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。对于不同站点,也需要不同的抓取速度。
三,新链接重要程度判断
在建库环节前,Baiduspider 会对页面进行初步内容分析和链接分析,通过内容分析决定该网页是否需要建索引库,通过链接分析发现更多网页,再对更多网页进行抓取——分析——是否建库 & 发现新链接的流程。理论上,Baiduspider 会将新页面上所有能 “看到” 的链接都抓取回来,那么面对众多新链接,Baiduspider 根据什么判断哪个更重要呢?两方面:
第一,对用户的价值内容独特,百度搜索引擎喜欢 unique 的内容主体突出,切不要出现网页主体内容不突出而被搜索引擎误判为空短页面不抓取内容丰富广告适当第二,链接重要程度目录层级——浅层优先链接在站内的受欢迎程度
四,百度优先建重要库的原则
Baiduspider 抓了多少页面并不是最重要的,重要的是有多少页面被建索引库,即我们常说的 “建库”。众所周知,搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。目前 60% 的检索需求只调用重要索引库即可满足,这也就解释了为什么有些网站的收录量超高流量却一直不理想。
那么,哪些网页可以进入优质索引库呢。其实总的原则就是一个:对用户的价值。包括却不仅于:
有时效性且有价值的页面:在这里,时效性和价值是并列关系,缺一不可。有些站点为了产生时效性内容页面做了大量采集工作,产生了一堆无价值面页,也是百度不愿看到的 .内容优质的专题页面:专题页面的内容不一定完全是原创的,即可以很好地把各方内容整合在一起,或者增加一些新鲜的内容,比如观点和评论,给用户更丰富全面的内容。高价值原创内容页面:百度把原创定义为花费一定成本、大量经验积累提取后形成的文章。千万不要再问我们伪原创是不是原创。重要个人页面:这里仅举一个例子,科比在新浪微博开户了,即使他不经常更新,但对于百度来说,它仍然是一个极重要的页面。五,哪些网页无法建入索引库
上述优质网页进了索引库,那其实互联网上大部分网站根本没有被百度收录。并非是百度没有发现他们,而是在建库前的筛选环节被过滤掉了。那怎样的网页在最初环节就被过滤掉了呢:
重复内容的网页:互联网上已有的内容,百度必然没有必要再收录。主体内容空短的网页有些内容使用了百度 spider 无法解析的技术,如 JS、AJAX 等,虽然用户访问能看到丰富的内容,依然会被搜索引擎抛弃加载速度过慢的网页,也有可能被当作空短页面处理,注意广告加载时间算在网页整体加载时间内。很多主体不突出的网页即使被抓取回来也会在这个环节被抛弃。部分作弊网页
更多关于aiduspider抓取系统原理与索引建库,请前往百度站长论坛查看文档。
BaiDuSpider百度蜘蛛占用流量,robots.txt设置
注:以下BaiDuSpider等于百度蜘蛛、Googlebot等于google蜘蛛、Sogou Spider等于搜狗蜘蛛
一、问题
因某些原因,搜索引擎蜘蛛抓取网站占用很大流量,如图:
网站访问日志也可看见很多蜘蛛爬行记录。
如果是正常的搜索引擎蜘蛛访问,不建议对蜘蛛进行禁止,否则网站在百度等搜索引擎中的收录和排名将会丢失,造成客户流失等损失。可以优先考虑升级虚拟主机型号以获得更多的流量或升级为云服务器(不限流量)。
二、认识、学习
我们知道,搜索引擎都遵守互联网robots协议,可通过robots.txt来进行限制。先对robots.txt一些实例说明,然后根据上面网站情况进行规则设置,通过上面截图可以看出BaiDuSpider占用流量非常大,首先在网站跟目录下面建立一个robots.txt文件。
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)
User-agent: *
Allow:
例3. 禁止某个搜索引擎的访问(禁止BaiDuSpider)
User-agent: BaiDuSpider
Disallow: /
例4. 允许某个搜索引擎的访问
User-agent: Baiduspider
allow:/
例5.禁止二个目录搜索引擎访问
User-agent: *
Disallow: /admin/
Disallow: /install/
例6. 仅允许Baiduspider以及Googlebot访问
User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
例7. 禁止百度搜索引擎抓取你网站上的所有图片
User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
三、 问题解决(规则设置)
根据以上实例,经过分析网站日志,主要是百度抓取图片占用了流量,他还有两个目录也不希望搜索引擎抓取,设置规则如下解决:
User-agent: *
Disallow: /admin/
Disallow: /install/
User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
因为搜索引擎索引数据库的更新需要时间。虽然蜘蛛已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。也就是说设置限制之后日志还会看见蜘蛛爬行,逐渐会降低抓取直到完全生效,这种问题会持续一段时间。如果您需要尽快屏蔽,访问以下帮助中心进行投诉,搜索引擎就会较快处理。
如果设置后无效(或部分蜘蛛不遵守robots协议,可以用:使用伪静态规则拦截蜘蛛访问 http://www.west.cn/faq/list.asp?unid=662 )
四、Baiduspider抓取次数太多造成的带宽堵塞,影响网站正常访问如何解决?
访问百度站长工具http://zhanzhang.baidu.com/ ,注册用户名登录,先添加网站通过验证。
然后到网页抓取》抓取频次》当前抓取频次过大如何解决?提示内容:
您可以按照如下方法依次进行排查及解决频次过大问题:
1、如果您觉得Baiduspider 抓取了您认为的无价值链接, 请更新网站robots.txt进行屏蔽抓取,然后到robots工具页面操作生效。
2、如果Baiduspider的抓取影响了您网站的正常访问,请到抓取频次上限调整页面进行抓取频次上限下调。
3、若以上方法均不能解决问题,请到反馈中心反馈
建议采用第二个方法,调整百度抓取频次上限。以下截图为“频次上限调整页面”,如影响访问,可把值适当调整小。
1.png
五、 知识加强
为更详细了解蜘蛛爬行原理和robots.txt写法,建议详细阅读以下标准资料:
其他办法: 使用伪静态规则拦截蜘蛛访问 http://www.west.cn/faq/list.asp?unid=662
BaiDuSpider帮助中心 http://www.baidu.com/search/spider.html
Googlebot帮助中心 http://support.google.com/webmasters/bin/answer.py?hl=zh-Hans&answer=182072
Sogou Spider帮助中心 http://www.sogou.com/docs/help/webmasters.htm
Robots.txt 详细介绍:http://baike.baidu.com/view/1280732.htm
baidu提供标准robots.txt写法:http://www.baidu.com/search/robots.html
如果按流程禁止了百度蜘蛛访问但是仍有百度蜘蛛访问的,请直接反馈给百度公司调查处理:
http://tousu.baidu.com/webmaster/suggest#1
http://zhanzhang.baidu.com/feedback/index
我们今天的关于蜘蛛程序圈套和spidertrap的分享就到这里,谢谢您的阅读,如果想了解更多关于7种百度蜘蛛程序你了解多少、Baiduspider - 百度蜘蛛、BaiduSpider是什么(百度蜘蛛baiduspider怎么用)、BaiDuSpider百度蜘蛛占用流量,robots.txt设置的相关信息,可以在本站进行搜索。
本文标签: