<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Bruce 只言片语</title>
	<atom:link href="http://www.wuzhisong.com/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.wuzhisong.com</link>
	<description>略懂网站运营, 假装对搜索引擎优化很有研究</description>
	<lastBuildDate>Wed, 21 Dec 2011 04:56:24 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>五条 Google Analytics（分析）设置心得</title>
		<link>http://www.wuzhisong.com/blog/70/</link>
		<comments>http://www.wuzhisong.com/blog/70/#comments</comments>
		<pubDate>Wed, 21 Dec 2011 04:43:17 +0000</pubDate>
		<dc:creator>Bruce</dc:creator>
				<category><![CDATA[网站分析]]></category>
		<category><![CDATA[Google Analytics]]></category>
		<category><![CDATA[过滤器]]></category>
		<category><![CDATA[配置文件]]></category>

		<guid isPermaLink="false">http://www.wuzhisong.com/?p=70</guid>
		<description><![CDATA[自从投身互联网到现在，就一直在使用 Google Analytics（分析）工具，以下是我总结的关于 Google Analytics 设置的五条心得，尤其适用于新开通的 Google Analytics 账户。]]></description>
			<content:encoded><![CDATA[<p>自从投身互联网到现在，就一直在使用 Google Analytics（分析）工具，以下是我总结的关于 Google Analytics 设置的五条心得，尤其适用于新开通的  <a href="http://www.wuzhisong.com/tag/google-analytics/">Google Analytics</a> 账户。</p>
<p>以旧版 Google Analytics 为例，主要设置入口如下图：</p>
<p><a href="http://www.flickr.com/photos/brucewoo/6547109991/" title="Flickr 上 wuzhisong 的 Google-Analytics-设置"><img src="http://farm8.staticflickr.com/7155/6547109991_99bf815539_b.jpg" width="700" height="95" alt="Google-Analytics-设置"></a></p>
<h2>一、创建原始数据配置文件：</h2>
<p>任何一个 Google Analytics 账户都一定要设置一个原始配置文件，建议该配置文件除了过滤公司内部访问之外，其余都不设置，原始数据非常重要啊。</p>
<p>Google Analytics 帮助：<a href="http://support.google.com/googleanalytics/bin/answer.py?answer=55486">如何添加配置文件？</a>，不赘述。如下图：</p>
<p><a href="http://www.flickr.com/photos/brucewoo/6547110025/" title="Flickr 上 wuzhisong 的 创建新的网站配置文件-原始数据配置文件"><img src="http://farm8.staticflickr.com/7165/6547110025_9c68e9404d_b.jpg" width="660" height="380" alt="创建新的网站配置文件-原始数据配置文件"></a></p>
<h2>二、创建用于测试的配置文件：</h2>
<p>用于测试各种过滤器是否正常工作，没有问题之后再应用到其他配置文件。</p>
<h2>三、创建细分渠道流量来源的配置文件：</h2>
<p>主要可用于 Google Analytics 账户分部门分岗位分配权限。为什么一开始就要把这些流量细分出来？这是因为新创建的配置文件统计数据是从创建当天才开始工作的，历史数据不会被同步，有的时候随着公司的发展，人员和组织架构的变动，会对 GA 账户权限管理有越来越多的需求，那提前创建好这些细分了渠道流量的配置文件就非常有必要了。</p>
<p>1、创建细分 SEO 流量的配置文件，创建过滤器仅包含 <a href="http://www.wuzhisong.com/tag/seo/">SEO</a> 流量来源的访问（organic），可以通过用户管理器来指定SEO部门只查看SEO流量。<br />
2、创建细分 SEM 流量的配置文件，创建过滤器仅包含 <a href="http://www.wuzhisong.com/tag/sem/">SEM</a> 流量来源的访问（cpc），同上。<br />
3、其他渠道流量来源的配置文件按照网站运营及营销需求进行创建，如：edm 流量、cpm流量。</p>
<h2>四、创建包含官网主机名的配置文件和过滤官网主机名的配置文件。</h2>
<p>1、创建包含官网主机名的配置文件：有的时候会发现我们自己官网的 Google  Analytics 代码被别人的网站有意无意添加，这个时候就可能需要过滤掉这些非自己网站主机名下的流量。</p>
<p>如何才能知道别人网站添加了我的 GA 代码？如果有，那在“GA 后台 访问者 -> 网络属性 -> 主机名”下面可以看到，新版 GA 是在“标准报告 -> 受众群体 -> 技术 -> 广告网络”下面，服务提供商后面一个选项就是主机名。 </p>
<p>2、过滤官网主机名的配置文件：看看到底是哪些网站添加我的 GA 代码，哈哈。</p>
<h2>五、创建过滤内部访问的过滤器</h2>
<p>建议所有配置文件都添加过滤公司内部访问的过滤器，特别是公司员工数量很多的话，对总体数据还是影响很大的（当然，也可以专门创建一个配置文件，创建仅包含公司内部访问的过滤器来看看到底有多少访问是内部产生的，呵呵）。</p>
<p>Google Analytics 帮助：<a href="http://support.google.com/googleanalytics/bin/answer.py?answer=55494">如何创建过滤器？</a>，不赘述。</p>
<p>Google Analytics 帮助：<a href="https://support.google.com/googleanalytics/bin/answer.py?answer=55572">如何排除特定 IP 地址段的点击量？</a>，不赘述。可能比较麻烦的是 IP 地址段的过滤设置，单个 IP 地址过滤好办，如下图：</p>
<p><a href="http://www.flickr.com/photos/brucewoo/6547109951/" title="Flickr 上 wuzhisong 的 创建新过滤器过滤访问者IP"><img src="http://farm8.staticflickr.com/7021/6547109951_6ac0a108b6_b.jpg" width="660" height="400" alt="创建新过滤器过滤访问者IP"></a></p>
<p>以上五条 Google Analytics 设置心得，权当抛砖引玉了，如果您还有其他 GA 设置建议，欢迎分享交流。</p>
<p>本文作者：Bruce<br />
原文地址：<a href="http://www.wuzhisong.com/blog/70/">http://www.wuzhisong.com/blog/70/</a><br />
版权声明：欢迎转载，但必须以超链接方式注明本文原始出处！</p>
]]></content:encoded>
			<wfw:commentRss>http://www.wuzhisong.com/blog/70/feed/</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>百度统计怎么样？关于百度统计工具几个建议</title>
		<link>http://www.wuzhisong.com/blog/69/</link>
		<comments>http://www.wuzhisong.com/blog/69/#comments</comments>
		<pubDate>Mon, 19 Dec 2011 03:03:31 +0000</pubDate>
		<dc:creator>Bruce</dc:creator>
				<category><![CDATA[网站分析]]></category>
		<category><![CDATA[Webmaster]]></category>
		<category><![CDATA[百度]]></category>
		<category><![CDATA[百度统计]]></category>

		<guid isPermaLink="false">http://www.wuzhisong.com/?p=69</guid>
		<description><![CDATA[暂且抛开功能，百度统计对于帐号的管理以及子站点的管理，还有很多需要改进的地方，以下是我的几个方面的建议，希望能看到百度统计有所改进，权当抛砖引玉。]]></description>
			<content:encoded><![CDATA[<p>百度统计（tongji.baidu.com）上线到今天已经有一年多的时间，从最初“<a href="http://www.wuzhisong.com/blog/6/">百度收录量精准数据功能</a>”，到后续新增加的“页面点击图”、“页面上下游”、“搜索词排名”等功能，总体说来，这些功能对于网站管理员来说，还是比较实用的。</p>
<p>暂且抛开功能，百度统计对于帐号的管理以及子站点的管理，还有很多需要改进的地方，以下是我的几个方面的建议，希望能看到百度统计有所改进，权当抛砖引玉。</p>
<p>1、百度统计无法管理子站点（二级域名），目前只能新增子目录。对于我来说，肯定是一个域名（包含所有子站点）使用一个百度统计帐号，不可能每个子站点（二级域名）开通一个百度统计帐号。</p>
<p><a title="Flickr 上 wuzhisong 的 百度统计无法管理子站点（二级域名）" href="http://www.flickr.com/photos/brucewoo/6535269595/"><img src="http://farm8.staticflickr.com/7034/6535269595_791baaa411.jpg" alt="百度统计无法管理子站点（二级域名）" width="500" height="217" /></a></p>
<p>2、百度统计帐号无法过户给其他用户，目前只能新增加（或删除）权限帐号。举个简单例子，A在B公司就职，期间如果A用自己的百度帐号给B公司的网站开通了百度统计，如果A离职的话，A开通的这个百度统计帐号，无法过度给B公司其他用户，除非一开始A就以B公司的名义开通百度统计。（注意，我这里说的是帐号过户。）</p>
<p>3、百度统计搜索词排名，貌似只能跟踪网站主域名下的搜索词排名。比如，我用 wuzhisong.com 开通了百度统计，如果我要跟踪子站点 <a href="http://blog.wuzhisong.com">blog.wuzhisong.com</a> 的搜索词排名，就不能实现了，跟踪的只是 wuzhisong.com 的搜索词排名。</p>
<p>本文作者：Bruce<br />
原文地址：<a href="http://www.wuzhisong.com/blog/69/">http://www.wuzhisong.com/blog/69/</a><br />
版权声明：欢迎转载，但必须以超链接方式注明本文原始出处！</p>
]]></content:encoded>
			<wfw:commentRss>http://www.wuzhisong.com/blog/69/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>美橙互联域名转出到Godaddy 记录</title>
		<link>http://www.wuzhisong.com/blog/68/</link>
		<comments>http://www.wuzhisong.com/blog/68/#comments</comments>
		<pubDate>Mon, 07 Nov 2011 05:58:38 +0000</pubDate>
		<dc:creator>Bruce</dc:creator>
				<category><![CDATA[博客]]></category>
		<category><![CDATA[Webmaster]]></category>

		<guid isPermaLink="false">http://www.wuzhisong.com/?p=68</guid>
		<description><![CDATA[美橙互联域名转出到Godaddy 记录，2011年10月26日晚上：在美橙互联管理后台提交问题，询问域名转出具体细节；2011年10月28日上午：邮寄《新网国际域名转出申请》至上海美橙科技信息发展有限公司（我在美橙互联注册的域名是新网代理下面的）。]]></description>
			<content:encoded><![CDATA[<p>将在国内注册的域名转移到 Godaddy 的原因我就不赘述了，以下大致记录了我在美橙互联注册的 .org 和 .com 两个域名转移到 Godaddy 的经历。</p>
<ul>
<li>2011年10月26日晚上：在美橙互联管理后台提交问题，询问域名转出具体细节。</li>
<li>2011年10月28日上午：邮寄《新网国际域名转出申请》至上海美橙科技信息发展有限公司（我在美橙互联注册的域名是新网代理下面的）。</li>
<li>2011年10月31日下午：收到新网发到我邮箱的“新网域名转出信（域名转移注册商转出新网信）”，即获取到了域名转移密码。</li>
<li>2011年10月31日下午：在Godaddy 执行“Transfer Domain to Go Daddy”操作，Processing approval，需再等待5-7个工作日才能完成转移。</li>
<li>2011年11月06日上午：收到Godaddy 发到我邮箱的“Domain Transfer Confirmation”邮件，至此完成了域名从美橙互联转出到Godaddy 整个流程。</li>
</ul>
]]></content:encoded>
			<wfw:commentRss>http://www.wuzhisong.com/blog/68/feed/</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>浅谈屏蔽搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路</title>
		<link>http://www.wuzhisong.com/blog/67/</link>
		<comments>http://www.wuzhisong.com/blog/67/#comments</comments>
		<pubDate>Wed, 21 Sep 2011 02:00:00 +0000</pubDate>
		<dc:creator>Bruce</dc:creator>
				<category><![CDATA[SEO搜索引擎优化]]></category>
		<category><![CDATA[Baiduspider]]></category>
		<category><![CDATA[Googlebot]]></category>
		<category><![CDATA[robots.txt]]></category>
		<category><![CDATA[机器人]]></category>
		<category><![CDATA[蜘蛛]]></category>

		<guid isPermaLink="false">http://www.wuzhisong.com/?p=67</guid>
		<description><![CDATA[网站建设好了，当然是希望网页被搜索引擎收录的越多越好，但有时候我们也会碰到网站不需要被搜索引擎收录的情况。比如，你要启用一个新的域名做镜像网站，主要用于PPC的推广，这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。]]></description>
			<content:encoded><![CDATA[<p>网站建设好了，当然是希望网页被搜索引擎收录的越多越好，但有时候我们也会碰到网站不需要被搜索引擎收录的情况。</p>
<p>比如，你要启用一个新的域名做镜像网站，主要用于PPC 的推广，这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话，很有可能会影响官网在搜索引擎的权重，这肯定是我们不想看到的结果。</p>
<p>以下列举了屏蔽主流<a href="http://www.wuzhisong.com/tag/robot/">搜索引擎爬虫</a>（蜘蛛）抓取/索引/收录网页的几种思路。注意：是整站屏蔽，而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫（<a href="http://www.wuzhisong.com/tag/spider/">蜘蛛</a>）。</p>
<h2>1、通过 robots.txt 文件屏蔽</h2>
<p>可以说 <a href="http://www.wuzhisong.com/tag/robots-txt/">robots.txt</a> 文件是最重要的一种渠道（能和搜索引擎建立直接对话）。我通过分析我自己博客的服务器日志文件，给出以下建议（同时欢迎网友补充）：</p>

<div class="wp_syntax"><div class="code"><pre class="txt" style="font-family:monospace;">User-agent: Baiduspider
Disallow: /
&nbsp;
User-agent: Googlebot
Disallow: /
&nbsp;
User-agent: Googlebot-Mobile
Disallow: /
&nbsp;
User-agent: Googlebot-Image
Disallow: /
&nbsp;
User-agent: Mediapartners-Google
Disallow: /
&nbsp;
User-agent: Adsbot-Google
Disallow: /
&nbsp;
User-agent: Feedfetcher-Google
Disallow: /
&nbsp;
User-agent: Yahoo! Slurp
Disallow: /
&nbsp;
User-agent: Yahoo! Slurp China
Disallow: /
&nbsp;
User-agent: Yahoo!-AdCrawler
Disallow: /
&nbsp;
User-agent: YoudaoBot
Disallow: /
&nbsp;
User-agent: Sosospider
Disallow: /
&nbsp;
User-agent: Sogou spider
Disallow: /
&nbsp;
User-agent: Sogou web spider
Disallow: /
&nbsp;
User-agent: MSNBot
Disallow: /
&nbsp;
User-agent: ia_archiver
Disallow: /
&nbsp;
User-agent: Tomato Bot
Disallow: /
&nbsp;
User-agent: * 
Disallow: /</pre></div></div>

<h2>2、通过 meta tag 屏蔽</h2>
<p>在所有的网页头部文件添加，添加如下语句：</p>

<div class="wp_syntax"><div class="code"><pre class="html" style="font-family:monospace;">&lt;meta name=&quot;robots&quot; content=&quot;noindex, nofollow&quot;&gt;</pre></div></div>

<h2>3、通过服务器（如：Linux/nginx ）配置文件设置</h2>
<p>直接过滤 spider/robots 的IP 段。</p>
<p>小注：第1招和第2招只对“君子”有效，防止“小人”要用到第3招（“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots），所以网站上线之后要不断跟踪分析日志，筛选出这些 badbot 的ip，然后屏蔽之。</p>
<p>这里有一个 badbot ip 数据库：<a href="http://www.spam-whackers.com/bad.bots.htm">http://www.spam-whackers.com/bad.bots.htm</a></p>
<h2>4、通过搜索引擎提供的站长工具，删除网页快照</h2>
<p>比如，有的时候百度不严格遵守 robots.txt 协议，可以通过百度提供的“网页投诉”入口删除网页快照。百度网页投诉中心：<a href="http://tousu.baidu.com/webmaster/add">http://tousu.baidu.com/webmaster/add</a></p>
<p>如下图是我的一个网页投诉：</p>
<p><a href="http://www.flickr.com/photos/brucewoo/6168257644/" title="百度提供的网页投诉入口删除网页快照"><img src="http://farm7.static.flickr.com/6156/6168257644_3fb28527c2.jpg" width="500" height="315" alt="百度提供的网页投诉入口删除网页快照"></a></p>
<p>大概3天左右的时间过去，这个网页的百度快照也被删除，说明此种方法也能起效，当然这是不得而为之，属于亡羊补牢。</p>
<h2>5、补充更新</h2>
<p>可以通过检测 HTTP_USER_AGENT 是否为爬虫/蜘蛛访问，然后直接返回403 状态码屏蔽之。比如：由于api 权限与微博信息隐私保护原因，Xweibo 2.0 版本后禁止搜索引擎收录。</p>
<p><a href="http://www.flickr.com/photos/brucewoo/6169008762/" title="Flickr 上 wuzhisong 的 Xweibo-2.0-版本后禁止搜索引擎收录"><img src="http://farm7.static.flickr.com/6178/6169008762_706e6da41b.jpg" width="500" height="91" alt="Xweibo-2.0-版本后禁止搜索引擎收录"></a></p>
<p>关于如何屏蔽搜索引擎爬虫（蜘蛛）抓取/索引/收录网页，您有其他什么更好的建议或者方法，也欢迎发表评论！期待与您交流。</p>
<p>本文作者：Bruce<br />
原文地址：<a href="http://www.wuzhisong.com/blog/67/">http://www.wuzhisong.com/blog/67/</a><br />
版权声明：欢迎转载，但必须以超链接方式注明本文原始出处！</p>
]]></content:encoded>
			<wfw:commentRss>http://www.wuzhisong.com/blog/67/feed/</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>推荐一款仿 Google+ 的 WordPress 主题: WP Plus</title>
		<link>http://www.wuzhisong.com/blog/66/</link>
		<comments>http://www.wuzhisong.com/blog/66/#comments</comments>
		<pubDate>Thu, 25 Aug 2011 14:12:23 +0000</pubDate>
		<dc:creator>Bruce</dc:creator>
				<category><![CDATA[博客]]></category>
		<category><![CDATA[WordPress]]></category>
		<category><![CDATA[主题]]></category>

		<guid isPermaLink="false">http://www.wuzhisong.com/?p=66</guid>
		<description><![CDATA[今天给大家推荐一款仿 Google+ 的 WordPress 主题：WP Plus。我对简洁清新的 WordPress 主题通常情有独钟，回想当初读大学的时候刚接触 WordPress 博客程序，对于 WordPress 主题的收集近乎疯狂，自己的博客隔三岔五更换主题，而且乐此不疲！我相信很多同学有和我一样的经历。]]></description>
			<content:encoded><![CDATA[<p>我对简洁清新的 WordPress 主题通常情有独钟，回想当初读大学的时候刚接触 WordPress 博客程序，对于 WordPress 主题的收集近乎疯狂，自己的博客隔三岔五更换主题，而且乐此不疲！我相信很多同学有和我一样的经历。</p>
<p>今天给大家推荐一款仿 Google+ 的 WordPress 主题：WP Plus，主题作者：<a href="http://www.tricksdaddy.com">Simrandeep Singh</a>，先直接上预览图：</p>
<p><a href="http://www.flickr.com/photos/brucewoo/6176850978/" title="Flickr 上 wuzhisong 的 WP-Plus 主题"><img src="http://farm7.static.flickr.com/6159/6176850978_50ea776a2e_z.jpg" width="550" height="635" alt="WP-Plus 主题"></a></p>
<p><strong>WP Plus 主题主要特点：</strong></p>
<p>基于 Google+，通过 XHTML 和 CSS 校验，兼容 WordPress 自定义菜单和自定义背景，固定宽度，3栏，经过SEO优化处理等。</p>
<p>主题预览：<a href="http://tricksdaddy.com/wp-plus/">WP Plus Demo</a><br />
主题下载：<a href="http://www.tricksdaddy.com/2011/07/wp-plus-google-wordpress-theme.html">WP Plus Download</a></p>
<p>至于如何安装和启用WordPress，我就不赘述了，大家都懂的。</p>
<p><strong>如果我的博客启用 WP Plus 主题的话，我还会这样修改：</strong></p>
<p>1、左侧边栏调用个人头像和个人简介；<br />
2、右侧边栏调用最新文章、评论、文章存档、友情链接等；<br />
3、会对“发布评论”表单微调，将 input 置于 label 之前，这样排版才显整齐，如下图：</p>
<p><a href="http://www.flickr.com/photos/brucewoo/6176850988/" title="Flickr 上 wuzhisong 的 WP-Plus-发表评论"><img src="http://farm7.static.flickr.com/6166/6176850988_7832880bc2.jpg" width="500" height="433" alt="WP-Plus-发表评论"></a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.wuzhisong.com/blog/66/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>关于SEO你应该要知道的这18点</title>
		<link>http://www.wuzhisong.com/blog/65/</link>
		<comments>http://www.wuzhisong.com/blog/65/#comments</comments>
		<pubDate>Thu, 25 Aug 2011 02:13:04 +0000</pubDate>
		<dc:creator>Bruce</dc:creator>
				<category><![CDATA[SEO搜索引擎优化]]></category>
		<category><![CDATA[SEO]]></category>

		<guid isPermaLink="false">http://www.wuzhisong.com/?p=65</guid>
		<description><![CDATA[18 things you need to know about SEO: 1. Crawlability; 2. Site Structure; 3. Content Hierarchy; 4. On-Page Factors; 5. Content Production ...]]></description>
			<content:encoded><![CDATA[<p>18 things you need to know about SEO by Duane Forrester </p>
<p>1. Crawlability;<br />
2. Site Structure;<br />
3. Content Hierarchy;<br />
4. On-Page Factors;<br />
5. Content Production;<br />
6. Link Building;<br />
7. Things Bing love:<br />
	7.1 RSS feeds<br />
	7.2 Mark it up<br />
	7.3 Wonderful UX<br />
	7.4 Social love<br />
8.  A few things should avoid:<br />
	8.1 cloaking<br />
	8.2 link buying<br />
	8.3 like farms<br />
	8.4 link farms<br />
	8.5 three-way linking<br />
	8.6 duplicating content<br />
	8.7 auto-follows in social media<br />
	8.8 the thin content approach</p>
<p>via <a href="http://www.bing.com/community/site_blogs/b/webmaster/archive/2011/08/19/18-things-you-need-to-know-about-seo.aspx">18 things you need to know about SEO</a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.wuzhisong.com/blog/65/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>通过 Google 网站管理员工具将网址提交至 Google 索引</title>
		<link>http://www.wuzhisong.com/blog/64/</link>
		<comments>http://www.wuzhisong.com/blog/64/#comments</comments>
		<pubDate>Thu, 11 Aug 2011 02:50:40 +0000</pubDate>
		<dc:creator>Bruce</dc:creator>
				<category><![CDATA[SEO搜索引擎优化]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[Googlebot]]></category>

		<guid isPermaLink="false">http://www.wuzhisong.com/?p=64</guid>
		<description><![CDATA[Official Google Webmaster Central Blog 最近的一篇《Submit URLs to Google with Fetch as Googlebot》文章提到的可以通过 Google Wbmaster Tools 的 Fetch as Googlebot 功能将网址提交至 Google 索引，不过 Google 不保证你提交的网址被收录。]]></description>
			<content:encoded><![CDATA[<p>Official Google Webmaster Central Blog 最近的一篇《<a href="http://googlewebmastercentral.blogspot.com/2011/08/submit-urls-to-google-with-fetch-as.html">Submit URLs to Google with Fetch as Googlebot</a>》文章提到的可以通过 Google Wbmaster Tools 的 Fetch as Googlebot 功能将网址提交至 Google 索引，不过 Google 不保证你提交的网址被收录。</p>
<p>如下图：</p>
<p><a href="http://farm7.static.flickr.com/6121/6031243090_296640d79e_b.jpg" title="fetch as googlebot"><img src="http://farm7.static.flickr.com/6121/6031243090_296640d79e.jpg" width="500" height="268" alt="fetch as googlebot"></a></p>
<p>图：Fetch as Googlebot</p>
<p><a href="http://farm7.static.flickr.com/6134/6031243204_3e13a7a1d9_b.jpg" title="submit url to index"><img src="http://farm7.static.flickr.com/6134/6031243204_3e13a7a1d9.jpg" width="500" height="162" alt="submit url to index"></a><br />
图：Submit URL to index</p>
]]></content:encoded>
			<wfw:commentRss>http://www.wuzhisong.com/blog/64/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>2011年7月30日微总结</title>
		<link>http://www.wuzhisong.com/blog/63/</link>
		<comments>http://www.wuzhisong.com/blog/63/#comments</comments>
		<pubDate>Sat, 30 Jul 2011 01:06:38 +0000</pubDate>
		<dc:creator>Bruce</dc:creator>
				<category><![CDATA[博客]]></category>
		<category><![CDATA[微博]]></category>
		<category><![CDATA[微总结]]></category>

		<guid isPermaLink="false">http://www.wuzhisong.com/?p=63</guid>
		<description><![CDATA[1、关于微博发展的大致时间线；2、关于微博的影响力；3、关于Meta Tag Generator；4、关于Sitelinks；5、关于GA正则表达式；6、关于百度对无法访问网站的处理；7、关于百度百科词条。]]></description>
			<content:encoded><![CDATA[<h2>1、关于微博发展的大致时间线</h2>
<p><img src="http://t2.qpic.cn/mblogpic/6337247c27236ee81e80/2000" alt="微博发展的大致时间线" /></p>
<h2>2、关于微博的影响力</h2>
<p><img src="http://t2.qpic.cn/mblogpic/cc5c8b2d7233f90c81e6/2000 alt="微博的影响力" /></p>
<h2>3、关于Meta Tag Generator</h2>
<p><img src="http://t2.qpic.cn/mblogpic/52d95156247d9507d856/2000 alt="Meta Tag Generator" /></p>
<p>Meta Tag Generator 建议保留：我的一个 WordPress 博客是很早之前的版本 WordPress 2.8.6，今天登录谷歌网站管理员工具后台，看到 Google 搜索质量小组给我发的消息，提示我升级 WordPress，这是因为 Googlebot 能通过 WordPress 的 Meta Tag Generator 识别程序版本号。</p>
<h2>4、关于Sitelinks</h2>
<p>良好的网站结构容易得到Google的认可，特别是非常利于Sitelinks的生成。我的一个用Z-Blog搭建的博客，300篇文章不到，在最近的一次Google数据大更新中，虽然PR从3降为2，但却也生成了Sitelinks，这也可以说是网站结构取胜的一个例子，另外，和Z-Blog有利于搜索引擎对网站的抓取和理解也有很大的关系。</p>
<h2>5、关于GA正则表达式</h2>
<p>Analytics 在网站的“网页”报告中使用正则表达式 .*track[^/]*html$ 进行搜索，可以确认该表达式匹配所有包含 track 的文件，而不匹配其他文件。#Bruce的GA笔记#</p>
<h2>6、关于百度对无法访问网站的处理</h2>
<p>百度对无法正常访问的网站处理可真够迅速，我的一个博客，之前百度收录数200多条，7月20日停止域名解析做关站处理，到今天（7月25日）过去了4天的时间，该博客在百度的收录数已经降为2条。而与此同时在 Google 的收录数下降不明显，说明 Google 对已经收录的网站处理的时候比较谨慎。#Bruce的SEO笔记#</p>
<h2>7、关于百度百科词条在百度和谷歌搜索结果排名</h2>
<p>昨天在百度百科创建了3个词条，几个小时之后通过审核，随即分别百度网页搜索这3个词条，都无一例外的排在搜索结果的第6位，另外，其中的一个词条在 Google 搜索结果排名第2位。（PS：暂不讨论这3个词条是否热词）#Bruce的SEO笔记#</p>
<p>第二天用 Google 搜索了一下，发现另外一个词条也已经排在第一位。</p>
<p>以上内容来源于我的腾讯微博，我会不定期的把我发表的微博消息进行分类汇总，个人感觉微博太过于碎片，不利用知识分享和总结。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.wuzhisong.com/blog/63/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>如何和爬虫对话 从通用爬虫的定义说出去</title>
		<link>http://www.wuzhisong.com/blog/62/</link>
		<comments>http://www.wuzhisong.com/blog/62/#comments</comments>
		<pubDate>Tue, 19 Jul 2011 06:00:51 +0000</pubDate>
		<dc:creator>Bruce</dc:creator>
				<category><![CDATA[SEO搜索引擎优化]]></category>
		<category><![CDATA[Baiduspider]]></category>
		<category><![CDATA[Googlebot]]></category>
		<category><![CDATA[robots.txt]]></category>
		<category><![CDATA[收录]]></category>
		<category><![CDATA[爬虫]]></category>

		<guid isPermaLink="false">http://www.wuzhisong.com/?p=62</guid>
		<description><![CDATA[看淘宝搜索技术博客上的一篇文章《定向抓取漫谈》对通用爬虫进行了简单的定义，如下：抓取策略：那些网页是我们需要去下载的，那些是无需下载的，那些网页是我们优先下载的，定义清楚之后，能节省很多无谓的爬取。让我对“如何提升网站在搜索引擎的收录数”这个课题有了一些思考，下面归纳的主要用于迎合上面提到的爬虫“抓取策略”。]]></description>
			<content:encoded><![CDATA[<p>看淘宝搜索技术博客上的一篇文章《<a href="http://www.searchtb.com/2011/01/an-introduction-to-crawler.html">定向抓取漫谈</a>》，对通用爬虫进行了简单的定义，如下：</p>
<p><strong>抓取策略</strong>：那些网页是我们需要去下载的，那些是无需下载的，那些网页是我们优先下载的，定义清楚之后，能节省很多无谓的爬取。<br />
<strong>更新策略</strong>：监控列表页来发现新的页面；定期check 页面是否过期等等。<br />
<strong>抽取策略</strong>：我们应该如何的从网页中抽取我们想要的内容，不仅仅包含最终的目标内容，还有下一步要抓取的url。<br />
<strong>抓取频率</strong>：我们需要合理的去下载一个网站，却又不失效率。</p>
<p>让我对“如何和爬虫对话 ”有了一些思考，下面归纳的主要用于迎合上面提到的爬虫“抓取策略”。</p>
<p><strong>1、通过 robots.txt 和爬虫对话</strong>：搜索引擎发现一个新站，原则上第一个访问的就是 robots.txt 文件，可以通过 allow/disallow 语法告诉搜索引擎那些文件目录可以被抓取和不可以被抓取。</p>
<p>关于 robots.txt 的详细介绍：<a href="http://www.robotstxt.org/robotstxt.html">about /robots.txt</a><br />
另外需要注意的是：<a href="http://www.wuzhisong.com/blog/46">allow/disallow 语法的顺序是有区别的</a></p>
<p><strong>2、通过 meta tag 和爬虫对话</strong>：比如有的时候我们希望网站列表页不被搜索引擎收录但是又希望搜索引擎抓取，那么可以通过</p>

<div class="wp_syntax"><div class="code"><pre class="html" style="font-family:monospace;">&lt;meta name=&quot;robots&quot; content=&quot;noindex,follow&quot;&gt;</pre></div></div>

<p> 告诉爬虫，其他常见的还有 noarchive，nosnippet，noodp 等。</p>
<p>关于 meta tag 的更多介绍：<a href="http://noarchive.net/meta/">Metadata Elements</a></p>
<p><strong>3、通过 rel=&#8221;nofollow&#8221; 和爬虫对话</strong>：关于 rel=&#8221;nofollow&#8221; 最近国平写了一篇文章《<a href="http://www.semyj.com/archives/1686">如何用好 nofollow</a>》很值得一读，相信读完之后你会有很大的启发。</p>
<p><strong>4、通过 rel=&#8221;canonical&#8221; 和爬虫对话</strong>：关于 rel=&#8221;canonical&#8221; 谷歌网站站长工具帮助有很详细的介绍：<a href="http://www.google.com/support/webmasters/bin/answer.py?answer=139394">深入了解 rel=&#8221;canonical&#8221;</a></p>
<p><strong>5、通过网站地图和爬虫对话</strong>：比较常见的是 xml 格式 sitemap 和 html 格式 sitemap，xml 格式 sitemap 可以分割处理或者压缩压缩，另外，sitemap 的地址可以写入到 robots.txt 文件。</p>
<p><strong>6、通过网站管理员工具和搜索引擎对话</strong>：我们接触最多的就是谷歌网站管理员工具，可以设定 googlebot 抓取的频率，屏蔽不想被抓取的链接，控制 sitelinks 等，另外，Bing 和 Yahoo 也都有管理员工具，百度有一个百度站长平台，内测一年多了仍旧在内测，没有邀请码无法注册。</p>
<p>另外，这里面还衍生出一个概念，就是我一直比较重视的网站收录比，所谓网站收录比=网站在搜索引擎的收录数/网站真实数据量，网站收录比越高，说明搜索引擎对网站的抓取越顺利。</p>
<p>暂时就想到这些，目的在于尝试性的探讨如何更有效的提高网站在搜索引擎的收录量。</p>
<p>权当抛砖引玉，欢迎各位补充！</p>
<p><strong>备注</strong>：</p>
<p>网络爬虫（web crawler）又称为网络蜘蛛（web spider）是一段计算机程序，它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页,是搜索引擎的一个重要组成部分。</p>
<p>本文作者：Bruce<br />
原文地址：<a href="http://www.wuzhisong.com/blog/62/">http://www.wuzhisong.com/blog/62/</a><br />
版权声明：欢迎转载，但必须以超链接方式注明本文原始出处！</p>
]]></content:encoded>
			<wfw:commentRss>http://www.wuzhisong.com/blog/62/feed/</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>Discuz!X1.5升级至2.0遇到的几个问题</title>
		<link>http://www.wuzhisong.com/blog/61/</link>
		<comments>http://www.wuzhisong.com/blog/61/#comments</comments>
		<pubDate>Sat, 02 Jul 2011 14:00:02 +0000</pubDate>
		<dc:creator>Bruce</dc:creator>
				<category><![CDATA[博客]]></category>
		<category><![CDATA[Discuz!]]></category>

		<guid isPermaLink="false">http://www.wuzhisong.com/?p=61</guid>
		<description><![CDATA[今天抽空将我的论坛从 Discuz! X1.5 升级到了最新版的 Discuz! X2.0，升级过程中主要遇到以下三个问题：1、/install/update.php 总是自动跳转到 /install/install，无法升级！2、UCenter 已经升级到1.6 版本，可是运行 /install/update.php 的时候还是提示请先升级到 1.6.0 以上版本。]]></description>
			<content:encoded><![CDATA[<p>今天抽空将我的论坛从 Discuz! X1.5 升级到了最新版的 Discuz! X2.0，升级过程中主要遇到以下三个问题：</p>
<p>1、/install/update.php 总是自动跳转到 /install/install，无法升级！</p>
<p><strong>解决方法：</strong>将 Discuz! X1.5 备份 config 文件夹里面的文件覆盖，然后用 Discuz! X2.0 的 config 文件里面的文件再覆盖。然后再输入 /install/update.php，OK！下一步。</p>
<p>2、UCenter 已经升级到1.6 版本，可是运行 /install/update.php 的时候还是提示：</p>
<blockquote><p>请先升级 UCenter 到 1.6.0 以上版本。</p>
<p>如果使用为Discuz! X自带UCenter，请先下载 UCenter 1.6.0, 在 utilities 目录下找到对应的升级程序，复制或上传到 Discuz! X 的 uc_server 目录下，运行该程序进行升级。</p></blockquote>
<p><strong>解决方法：</strong>跳过第一步，直接输入 /install/update.php?step=prepare，OK！下一步</p>
<p>3、Discuz! X2 首页的 keywords 和 description 设置无效。</p>
<p>Discuz！论坛的一个版主回复（<a href="http://www.discuz.net/thread-2105110-2-1.html">点击查看原文</a>）：</p>
<blockquote><p>2.0 调整的效果</p>
<p>SEO只是给搜索引擎看的东西，所以只当管理员（为调试）和搜索引擎时才去取keyword和description，普通人只看标题就够了。</p></blockquote>
<p>这很有欺骗搜索引擎的嫌疑啊！</p>
<p><strong>解决方法：</strong>暂时没有找到</p>
<p>以上这些，记录一下！</p>
]]></content:encoded>
			<wfw:commentRss>http://www.wuzhisong.com/blog/61/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

<!-- Dynamic page generated in 0.626 seconds. -->
<!-- Cached page generated by WP-Super-Cache on 2012-02-08 18:05:51 -->

