几个主流搜索引擎蜘蛛的名称

来源：互联网 2023-02-14 17:08:54

几个主流搜索引擎蜘蛛的名称

(相关资料图)

搜索引擎蜘蛛是搜索引擎的一个自动程序。它的作用是访问互联网上的网页，建立索引数据库，使用户能在搜索引擎中搜索到你网站的网页。每个搜索引擎的蜘蛛名字都是不一样的，接下来小编为你介绍国内几个主流搜索引擎蜘蛛的名称。

1.Google蜘蛛名称

1）Googlebot：从Google的网站索引和新闻索引中抓取网页

2）Googlebot-Mobile针对Google的移动索引抓取网页

3）Googlebot-Image：针对Google的图片索引抓取网页

4）Mediapartners-Google：抓取网页确定AdSense的内容。只有在你的网站上展示AdSense广告的情况下，Google才会使用此漫游器来抓取您的网站。

5）Adsbot-Google：抓取网页来衡量AdWords目标网页的质量。只有在你使用GoogleAdWords为你的网站做广告的情况下，Google才会使用此漫游器。

2.百度蜘蛛名称：

Baiduspider首字母B大写，其余为小写

3.雅虎（Yahoo!）蜘蛛名称：

1）Yahoo!搜索蜘蛛名称：Yahoo!Slurp.

2）Yahoo!搜索引擎广告蜘蛛：Yahoo!-AdCrawler.用来抓取Yahoo!搜索引擎广告登陆页网页

4.有道蜘蛛名称：

YodaoBot

5.腾讯搜搜soso蜘蛛名称：

Sosospider首字母S大写，其余为小写

6.搜狗（sogou）蜘蛛名称：

sogouspider

7.Live蜘蛛名称

1）MSNBot：Mainwebcrawler（www.live.com）

2）MSNBot-Media：Images&allothermedia（images.live.com）

3）MSNBot-NewsBlogs：Newsandblogs（search.live.com/news）

4）MSNBot-Products：Products&shopping（products.live.com）

5）MSNBot-Academic：Academicsearch（academic.live.com）

拓展阅读：搜索引擎蜘蛛抓取网页规则分析

一、爬虫框架

我们可以将网页当作是蜘蛛的晚餐，晚餐包括：

已下载的网页。已经被蜘蛛抓取到的网页内容，放在肚子里了。

已过期网页。蜘蛛每次抓取的"网页很多，有一些已经坏在肚子里了。

待下载网页。看到了食物，蜘蛛就要去抓取它。

可知网页。还没被下载和发现，但蜘蛛能够感觉到他们，早晚会去抓取它。

不可知网页。互联网太大，很多页面蜘蛛无法发现，可能永远也找不到，这部份占比很高。

通过以上划分，我们可以很清楚的理解搜索引擎蜘蛛的工作及面临的挑战。大多数蜘蛛是按照这样的框架去爬行。但也不完全一定，凡事总有特殊，根据职能的不同，蜘蛛系统存在一些差异。

二、爬虫类型

1、批量型蜘蛛。

这类蜘蛛有明确的抓取范围和目标，当蜘蛛完成目标和任务后就停止抓取。具体目标是什么?可能是抓取网页数量，网页大小，抓取时间等。

2、增量型蜘蛛

这类蜘蛛和批量型蜘蛛不同，他们会持续不断的抓取，对于抓取到的网页会定期抓取更新。因为互联网中的网页是随时处于更新状态中，增量型蜘蛛需要能够反映出这种更新。

3、垂直性蜘蛛

这种蜘蛛只关注特定主题或者特定的行业网页。以健康网站为例子，这类专门的蜘蛛会只抓取健康相关主题，其它主题内容的网页则不抓取。考验这只蜘蛛的难点是如何去更精准的识别内容所属于行业。目前来看，很多垂直类行业网站是需要这种蜘蛛去抓取的。

三、抓取策略

蜘蛛通过种子URL进行爬行拓展，列出大量待抓取URL。但是待抓取URL数量庞大，蜘蛛如何确定抓取顺序先后呢?蜘蛛抓取的策略有很多种，但最终目的是一个：优先抓取重要的网页。评价页面是否重要，蜘蛛会根据页面内容原创程度，链接权重分析等众多方式来进行计算。比较有代表性的抓取策略如下：

1、宽度优先策略

宽度优先是指：蜘蛛在抓取一个网页后，继续将该网页所包含的其它页面按顺序进行进一步抓取。这种思想看似简单，其实却很实用。因为大多数网页都是按优先级进行排序，重要的页面会优先在页面上进行推荐。

2、PageRank策略

PageRank是一种非常著名的链接分析方法，主要是用来衡量网页权重。如谷歌的PR，就是典型的PageRank算法。通过PageRank算法我们可以找出哪些页面是更重要的，然后蜘蛛优先去抓取这些重要性的页面。

3、大站优先策略

这个很容易理解，大网站通常拥有更多的`内容页面，并且质量也会更高。蜘蛛会先分析网站归类与属性。如果这个网站已经收录很多，或者在搜索引擎系统中权重很高，则优先考虑收录。

四、网页更新

互联网中的页面大多会保持更新，这样就要求蜘蛛所存储的页面也能及时更新，保持一致性。打个比喻：一个网页之前排名很好，如果页面已经被删，却还有排名，那体验就很不好。因此搜索引擎需要随时了解这些并更新页面，将最新的页面提供给用户。常用的网页更新策略在三种：历史参考策略，用户体验策略。聚类抽样策略。

1、历史参考策略

这是建立在一种假设基础上的更新策略。比如，若你的网页之前按规律一直更新，那搜索引擎也认为你的页面将来也会经常更新，蜘蛛也会按这个规律定期来网站进行抓取网页。这也是为什么点水一直强调网站内容需要有规律更新的原因。

2、用户体验策略

一般来说，用户只会查看搜索结果前三页的内容，后面的页面很少有人去看。用户体验策略就是搜索引擎根据用户的这个特点来进行更新。例如，一个网页可能发布时间较早，一段时间没更新，但是用户依然觉得有用，点击浏览它，那么搜索引擎先不去更新这些过时的网页也是可以的。这就是为什么搜索结果中，并不一定最新的页面排名一定靠前的原因。排名更多的是取决于这个页面的质量，而完全不是更新时间先后。

3、聚类抽样策略

上两种更新策略主要是参考了网页的历史信息。但存储大量历史信息对搜索引擎来说是一种负担，另外如果收录的是新网页则是没有历史信息可以参考的，那怎么办?聚类抽样策略是指：根据网页所展现出来的一些属性，来将很多相似网页进行归类，被归类的页面按照相同的规律去进行更新。

从了解搜索引擎蜘蛛工作原理的过程中，我们会知道：网站内容之间的相关性，网站与网页内容更新规律，网页上链接分布以及网站权重高低等因素都会影响到蜘蛛的抓取效率。知已知彼，让蜘蛛来得更猛烈些吧！

标签： yodaobot

几个主流搜索引擎蜘蛛的名称

推荐阅读

上海奉贤等区开展常态化防疫压力测试 有序开放公交、公园、公共服务场所、公共街区商区<

“抗疫 宅家云课堂”，吸引沪上老同志观看50万人次<

“代跑腿”买药、开通绿色通道 丰台为管控区居民提供便捷医疗服务<

上海嘉定：儿童计划免疫接种全部恢复，实行预约制<

乡村振兴看新疆 | 种下红樱桃 结出“致富果”<

最近更新

几个主流搜索引擎蜘蛛的名称

【世界聚看点】古典音乐之王在线阅读_古典音乐之王

全球聚焦：福特公司与宁德时代合作在美建电池工厂？

中国谜语大会谜语及答案

世界新资讯：微信朋友圈怎么发图片不折叠_微信朋友圈怎么发图片

在4.0智慧家庭体验中心，三翼鸟“造场”_每日视点

竞业达：公司智慧轨道业务以视频综合业务系统及综合安防系统为核心，服务于城市轨道交通的运营及安全，为轨道交通行业提供整体数字化解决方案

昊海生科（688366）2月13日主力资金净买入1873.78万元 环球新消息

全球今热点：辛岛美登里的专辑_辛岛美登里

全球视讯！瑞士联邦经济事务秘书处（SECO）发言人表示，在制裁框架下，瑞士政府冻结了价值81亿美元的俄罗斯资产，俄瑞信集团（Credit Suisse）已冻结其他俄资产，这些资产受到其他国家制裁。（卫星新闻）

如何腌制蒜苔能保存

拿下奥迪订单、推出首款VR一体机，HTC大步奔向元宇宙|天天观察

观热点：王婆卖瓜的王婆是谁

尿素价格大面积下跌，2月13日最新尿素出厂报价

以梅为媒，八条线路带你走进南京最美春日 环球通讯

全球速递！云意电气：公司目前暂不涉及上述业务

今日消费对生产的反作用教案_消费对生产的反作用_全球播报

elle世界时装之苑抖音_elle世界时装之苑 微动态

全球观察：警匪港剧《隐形战队》剧情介绍

吴易昺首次闯入ATP巡回赛决赛 每日时讯

怎么凉拌牛肉好吃 凉拌牛肉的烹饪方法-环球通讯

云南一货车侧翻7吨臭豆腐横撒高速 网友：臭豆腐爱好者的痛！-当前简讯

424.3万人次！重庆轨道交通单日客流创历史新高 世界微速讯

dnf刺客技能展示_dnf刺客技能

党员民主评议表格模板怎么做_党员民主评议表格|实时

【天天新要闻】骁龙888 Plus加持iQOO 8真机亮相

优途_说一说优途的简介

硫酸铁商品报价动态（2023-02-11）-全球热推荐

轰20+8+12！哈登导演逆转好戏，助攻超神，复仇尼克斯结束连败 世界热闻

爱心捐赠平台中哪个项目是帮助听障儿童的呢 蚂蚁庄园今日答案10月4日

热点

公共

28位院士共论“弘扬袁隆平科技创新精神”

逾百只国家二级保护动物红脚隼过境湖南泸溪

滇藏新通道上“Y”字路口的守护

甘肃高校志愿者探游客体验新模式 为“世遗”减负

（上海战疫录）连续68天奋战 “95后”“靠谱小伙”“疫”线写青春

滚动

上海奉贤等区开展常态化防疫压力测试有序开放公交、公园、公共服务场所、公共街区商区<

“抗疫宅家云课堂”，吸引沪上老同志观看50万人次<

“代跑腿”买药、开通绿色通道丰台为管控区居民提供便捷医疗服务<

乡村振兴看新疆 | 种下红樱桃结出“致富果”<

昊海生科（688366）2月13日主力资金净买入1873.78万元环球新消息

以梅为媒，八条线路带你走进南京最美春日环球通讯

elle世界时装之苑抖音_elle世界时装之苑微动态

吴易昺首次闯入ATP巡回赛决赛每日时讯

怎么凉拌牛肉好吃凉拌牛肉的烹饪方法-环球通讯

云南一货车侧翻7吨臭豆腐横撒高速网友：臭豆腐爱好者的痛！-当前简讯

424.3万人次！重庆轨道交通单日客流创历史新高世界微速讯

轰20+8+12！哈登导演逆转好戏，助攻超神，复仇尼克斯结束连败世界热闻

爱心捐赠平台中哪个项目是帮助听障儿童的呢蚂蚁庄园今日答案10月4日

甘肃高校志愿者探游客体验新模式为“世遗”减负