Tag: Googlebot

浅谈屏蔽搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路

网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。比如,你要启用一个新的域名做镜像网站,主要用于PPC的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。

通过 Google 网站管理员工具将网址提交至 Google 索引

Official Google Webmaster Central Blog 最近的一篇《Submit URLs to Google with Fetch as Googlebot》文章提到的可以通过 Google Wbmaster Tools 的 Fetch as Googlebot 功能将网址提交至 Google 索引,不过 Google 不保证你提交的网址被收录。

如何和爬虫对话 从通用爬虫的定义说出去

看淘宝搜索技术博客上的一篇文章《定向抓取漫谈》对通用爬虫进行了简单的定义,如下:抓取策略:那些网页是我们需要去下载的,那些是无需下载的,那些网页是我们优先下载的,定义清楚之后,能节省很多无谓的爬取。让我对“如何提升网站在搜索引擎的收录数”这个课题有了一些思考,下面归纳的主要用于迎合上面提到的爬虫“抓取策略”。

Mediapartners-Google 漫游器简介

Mediapartners-Google 漫游器是 Google 众多爬虫程序中其中的一个,用于抓取投放 Adsense 广告网页中的文字内容。Mediapartners-Google 漫游器不与其他 Google User-agent 共享网页。

网站服务器IP物理地址对百度索引收录和快照更新时间的影响

根据最近几个月的观察,我发现网站的IP地址所在地对百度索引收录和快照更新时间的影响甚大。通过分析服务器日志,对比分析Baiduspider 和 Googlebot 访问这些网站的频次,前者要比后者少得多啊。百度的服务器数量和对网页索引技术相比较 Google,真的是差距不小。