网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。比如,你要启用一个新的域名做镜像网站,主要用于PPC的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。
Tag: Baiduspider
看淘宝搜索技术博客上的一篇文章《定向抓取漫谈》对通用爬虫进行了简单的定义,如下:抓取策略:那些网页是我们需要去下载的,那些是无需下载的,那些网页是我们优先下载的,定义清楚之后,能节省很多无谓的爬取。让我对“如何提升网站在搜索引擎的收录数”这个课题有了一些思考,下面归纳的主要用于迎合上面提到的爬虫“抓取策略”。
根据最近几个月的观察,我发现网站的IP地址所在地对百度索引收录和快照更新时间的影响甚大。通过分析服务器日志,对比分析Baiduspider 和 Googlebot 访问这些网站的频次,前者要比后者少得多啊。百度的服务器数量和对网页索引技术相比较 Google,真的是差距不小。