Archive for the '搜索引擎优化' Category

美丽的金字塔

我一直有所关注的Google Pagerank,我原来一直郁闷为什么网站的菜单各个选项,如:技术文章、个人日记、投稿。等板块没有PR值,但是刚才通过Chrome的网站信息反馈。发现这些所有的菜单项都被赋予了PR值。

分配的格式非常漂亮,是层次递减的。网站的主PR值为4,我相信照这样下去是可以达到5的。对于一个博客来说到5我相信就很棒了。其次,所有的在菜单上的PR均为3。包括最右上角的三个选项:订阅、投稿搜索。以及扩展的梦境回忆录、微软认证=)其次是文章,多数为3(当然不包括近期的),其次为2或者1,文章的PR基本根据有没有图片和文章的长短来定夺(当然都是原创,也许谷歌会认为有图片更棒)。

这就像是个从上到下的金字塔,给予每个页面都有该有的PR值。我原来辛苦的分配内部链接想让Google意识到这些页面的重要性,如今,终于达成目的了。希望下次生成大的(我已经有mini-sitelink)sitelink的时候均是这些PR为3的页面。那就更漂亮了哈哈

还有个值得高兴的事儿,我在多处链接的我的豆瓣主页终于得到了PR值,PR=3。如今看来Google搜索Clyee的结果页面将会非常漂亮。我的目的就是当人们搜索Clyee的时候,整个页面都是关于我的信息,如今看来快要达到了。不过值得一提的是那个原本在Twitter上诬陷我的人,名字为“Clyee_翻墙”尽管现在已经没有更新,但是排名还是稳居第二。原因很简单,一开始这事儿闹大了,所以散步的广,很多网站都有这个Twitter地址的链接。再加上Google貌似对Twitter偏爱,认为这是用户信息的真实反映,认为人们搜索内容想要的就是这些联系方式。所以给了骗子可乘之机。

阔别已久的Sitelink

前段时间和银龙见面的时候就在说羡慕他的Sitelink,原本有那么一段时间我的博客是有Sitelink的,格式是文章按月份归档。也就是Oct. 7这样的形式,尽管Sitelink只是Google根据相应算法自动生成的链接,但是这无疑是对站长的一种嘉奖。两次出现Sitelink都有一个共同点,那就是我都快要放弃博客的时候,在长时间频繁更新后停歇时,Sitelink就出现了。

还希望没有出现的朋友不要过分关注,或许像我一样,也许等到你快要放弃的时候,Sitelink自然会出现。当前产生的Sitelink仅仅是mini-sitelink,并非最高12个的完全版的漂亮的Sitelink,不过有人说过这样的Sitelink意味着大的Sitelink的出现,但愿如此。据我观察,Sitelink是取决于Google后台的内部链接,也就是网站所有页面同时链接(广泛的说)的页面,Google会认为这个页面重要,自然成Sitelink。

还有个值得一提的问题,Sitelink内容并非一成不变。在我刚刚发现Sitelink出现的时候,我的Search页面莫名其妙的链接到了一篇文章,当时此页Sitelink的标题是Search,但是随后我把那篇叫Search的文章删除后,变回了原本的搜索页面,刚才我看的时候,Sitelink的名你也发生了变化。

昨天的Sitelink

今天的Sitelink

上图是昨天的Sitelink,下图是刚刚搜索的Sitelink,也就是说Sitelink也是实时更新的,而且题目会以title为准,而非链接文本。总之,注意内部环境,优化内部环境,做到简洁,算法自然会生成适合你网站的Sitelink。哦对了还有个有趣的现象,当前我的网站的三个Sitelink:电影文章关于网站高级搜索,分别PR值为:3、2、1。

有关Google Page Rank取消

以前好一段时间都在研究关于Larry Page的PR算法,尽可能的优化,无论是在网站的速度方面还是在算法本身的理论方面(权重传递)。许多人不在乎这东西,但是当时的我真的是非常在乎,链接也买过,换链也换过。不过最后都很整齐的把一些经常来往的朋友的地址排在了Friendlink里,就这么转眼几天时间,PR被取消就被传的沸沸扬扬,有人说PR的专营期限已经expired,有人说只是官方的服务器出现问题,也有人说查询API接口改变了。不过说来说去,链接交易这个产业链终究还是失去了一个重要的直观指标,生存下去的日子也不会多久了。有很多的一进入互联网一接触一点技术就盲目的做完全依靠链接做Search Engine Optimization的人面临着失业了。

尽量使用canonical或者noindex(非robots.txt)来限制搜索引擎

一位博友这几天迁移了博客,刚才他问到robots.txt的写法时,我猛地想起来我的robots.txt已经许久没有光顾,早期我经常更改这个文件,很在意它。一搜Google的结果果然出问题了。

replytocom

我原来有在robots.txt中添加过:Disallow: *replytocom

意思是告诉搜索引擎不收录任何含有这个字符的网址,但是现在觉得多此一举,因为谷歌本来就会判断,或者你也可以通过Canonical参数可以校正谷歌的搜索结果。(下文详细)

虽然说搜索:“site:clyee.com inurl:replytocom” 的时候,显示结果只有1,但如果点击“查看全部相关结果”的话会看到很多的结果,大概有1000多个。尽管这些结果应该是不计入权重、PR值(第一没有PR,第二Google遵循站长指定的规则),但看起来就很不舒服。感觉收录结果很不干净。前段时间我还特地的在Google的Webmaster后台清扫过这些索引项,但没想到会再次收录。

我回想起大多数Wordpress博客,都没有做任何手脚,而且也存在?replytocom这样的参数,但是Google丝毫没有收录。这是为什么呢:

其实想让谷歌不收录一样东西,通常大家的做法是:1.利用robots.txt禁止 2.再者就是添加noindex标签 但是首先Google会优先录取没有参数的网址,自动分析。另外有个参数可以直接做到校正收录链接:前段时间Matt介绍过rel="canonical",全部的写法如下(举的例子是一个存在replytocom参数的链接的网址的源码)

canonical

不难看出这是插件All in one seo自动生成的标签。意思就是告诉搜索引擎同样的内容的网页下,首选版本是哪个(也就是告诉搜索引擎如果你要收录的话,收录哪个)。比如有下列两个网址:

  1. http://clyee.com/1234.html?replytocom=3333
  2. http://clyee.com/1234.html

但是这两个网页的内容相同,这时候All in one seo(你也可以自己添加)就会告诉搜索引擎应该收录的是第二个网址。

我建议如果可以通过noindex, rel=”canonical” 来校正收录的话,尽量不要使用robots.txt文件来禁止搜索引擎爬行,我认为robots.txt是个搜索引擎必须遵循的很不友好的方法,这也就是为什么robots.txt限制的收录选项会出现在Google后台的“收录错误”中(我认为的)。如果可以通过代码形式来限制收录,尽量用代码。一切可以通过robots.txt来限制的内容,也同样都可以用noindex来限制。因为用robots.txt限制的文件,经常会以“空白索引”的形式出现在搜索引擎结果中。

备注:当然Google后台中还有个参数筛选的,可以直接添加(一般是早已经检测了的,并且选项为:由Google决定)或者编辑参数的功能和收录建议,但是据我观察,这个的优先级次于robots.txt。 一切爬行动作都在蜘蛛读完了robots.txt规则后执行,这也就是为什么我设置了:robots.txt文件的Disallow和Google后台的参数设置,仍然会被收录很多的“空白索引”。

*空白索引:非官方名词,在文章指代只有标题的搜索结果,没有Description。

*机器人向导:点击查看详情(百度百科)

共 6 页, 当前第 1 页 12345...最后一页 »