建站手记

高博的世界唯一官方博客

搜索引擎的技术比较


请允许我一开始就跑题,因为这个博客毕竟是围绕着GAOBO.ORG的建设来的。技术是很重要的组成部分,但只能服务于中心目的。

首先我必须得对WordPress中国官方网站提出强烈批评,WordPress核心现在已经升级到了3.0.1,然而在这个所谓的中文官方网站上却过了两个多月的时间还是2.9.2。我觉得把一个官方站点托管给一个个人,实在不靠谱,这不是专业的做法。我看到首页上居然有什么“年末出差,没有及时发布2.9版本,请见谅。”真的是想骂脏字儿了,凭什么因为你个人出差就耽误公众产品发布?!责任心何在?!说句难听的,如果这位仁兄遇到了什么重大变故,8年不能上网了,那是不是WordPress中文官网就一辈子只能这么“2”下去了?我认为WordPress官方应该立即指定一个发布委员会来做这件事,至少要有3个以上的互为后备的人员,并且要责任到人。魔兽世界咱是没法全球同步了,但是连WordPress也不能了么?有没有天理了还。

但总算是有了解决方案,WordPress爱好者的本地化团队及时推出了WordPress 3.0的简体中文版本,并且大度地给出了“更新到官方版本”的选项,相比之下这个工作态度真的是让所谓的官方工作人员愧死。

盼星星盼月亮,总算在7月28日把MediaWiki1.16正式版本盼到了。至此,3:16的硬件(好吧,是软件平台)准备算是齐备了。

不过,和前一篇文章中提到的3:16的计划相比,建站的思路有了一个重大的调整。这个调整的最重要的部分,在于GAOBO.ORG基金斥资每年210美元,租用了GAO.BO域名。这个域名的根域是玻利维亚国家域名,恰好是以“.bo”结尾,和我的中文名字的拼音一致。

这个调整,将带来一些变化,主要地是以下这些:

 1. 除了本官方博客,以及GAOBO.ORG官方论坛以外,所有内容性的博客和维基将全部统一到GAO.BO域名之下,采用新的品牌“高博的世界”。在10月1日前,将取消以下的GAOBO.ORG子域名:
  bible.gaobo.org
  confucianism.gaobo.org
  dsal.gaobo.org
  essays.gaobo.org
  go.language.gaobo.org
  jottings.gaobo.org
  manlesmo.gaobo.org
  norwegianwood.gaobo.org
  photos.gaobo.org
  poetics.gaobo.org
  readings.gaobo.org
  space.gaobo.org
  wiki.gaobo.org
  wow.gaobo.org
 2. 订阅入口仍然保持不变,仍为feed.gaobo.org。
 3. “高博的世界”网站的定位,是GAOBO.ORG旗下网站。同时,GAOBO.ORG旗下将有其它的内容,现在暂时保密。GAOBO.ORG的旗下网站将各自有自己的首页,GAOBO.ORG的首页将做改版,以适应这种变化。

现在该切回正题了,在“高博的世界”网站正式上线之前,免不了要先做一下测试。根据3:16的计划,该计划的一个比较重要的部分是SEO。我用了一些精力,制作了一个WordPress主题,使得现在内容基本在WordPress里可以按预想的方式呈现了。并且,我甚至把flogr相册也全部实现了URL静态化。然后,我向几个搜索引擎提交了我的这个网站。经过一个多月的测试,也发现了这些搜索引擎产品的高下之处,现在我简单地对我看到的结果作一下总结比较如下:

搜索引擎收录内容数目抓取更新频率重复内容去除
Google479
Bing2
雅虎3
百度39
腾讯搜搜116

我搜索的关键字是“site:gao.bo”,这个指令应该是搜索引擎通用的。需要指出的是,以上的五个搜索引擎并不是我纳入测试范围内的全部候选。但说实在的,其它的候选根本给出的结果是驴唇不对马嘴,或是在我提交了网页一个月以后毫无反应,连半个结果都没有收录——对,我知道我的小站并不起眼,你说我恼羞成怒也不无道理罢。但我觉得,构成搜索引擎之价值的不正是我们这些小站吗?连用户主动提交的内容都不在意的搜索引擎,或是连site指令都不明白是什么意思的搜索引擎,我确实认为是难以称之为搜索引擎来的。但在这里,我就不列出这些以我的标准判断下来一文不值的所谓搜索引擎的名字了。

仅就这些得了分的搜索引擎来看,Google的搜索引擎显然是最靠谱的,这一点也不奇怪:如果Google在搜索引擎方面都比不上别人,那它还靠什么过日子呢?不过,我必须得客观地评价一下:Google的搜索引擎似乎在重复内容去除这一项中,得分比较意外地低。在我自己制作的博客主题中,针对每一篇文章都会生成15个跳转导航链接。尽管链接的指向不同,但是字面上是一样的。可是,Google似乎并不能很好地将这些字面重复的跳转导航链接识别并去除。问题不在于它没有意向做这个工作,而在于它显然是意识到了这个工作的必要性,并且已经在一些搜索结果上实施了这个去除效果。但是,绝大多数的网页中,它仍然把跳转导航链接的文本给照本宣科了一遍。所以我只能说,如果不是它做不好这项工作,至少也是效率比较低,所以我给它的这一栏中评价只能是“中”。

比较令我意外的结果是腾讯搜搜给出来的,看来腾讯研发搜索引擎的确有两把刷子。它收录的结果数是排名第二的,并且把重复内容滤取得干干净净,所有的结果给出的缩略文本中都不包含任何跳转导航链接文字,而准准地从正文开始。这个结果,是比百度还要好的——百度的结果中还是有一小部分把这个跳转导航链接文字给出来了。从抓取频率来看,腾讯搜搜和百度是差不多的,可能前者略低一些。百度好歹从首页的链接中抓取了相册的地址,但是腾讯搜搜却没有给出这个结果。但是,这两者都没有继续深入挖掘相册内部的任何资源了。从我这个特殊的案例出发我完全可以说,腾讯搜搜的质量完全不逊于百度,并且在诸项重大指标中要优于它。百度如果放松警惕三天不练,怕是中文搜索引擎老大的地位已经岌岌可危了。不过,显然从综合质量来说,这两者和Google相比,就又有差距了。毕竟搜索引擎最重要的指标仍然一是搜索结果的数量——这就要比拼对页面的关联性和内部指向的URL的发掘能力,二是更新的频率——否则就会给出不对头的链接标准以及缩略文字,或是无效链接,重复文本的去除能力因为事关搜索结果呈现的质量所以也是重要的,但是毕竟不是那么的重要——因为搜索人会点击进入搜索结果,那个时候反正会看到最终页面的样子的。

至于Bing……我该说它什么好呢?结果是残酷的。Bing至少在搜索中文方面,还差得太远太远,而这实际上是不应该的。为什么同样是美国公司,Google就能把中文搜索做得比中国本土公司的产品质量还好?我得承认,微软砸了数十亿美金的研发经费下去,Windows Live的用户体验的确有所改善。但是,核心搜索引擎的质量仍然只能用惨不忍睹来形容。雅虎的引擎也基本上已经是废柴了,现在至少雅虎日本的搜索引擎已经是用Google的了。不同的是,微软仍不死心,而雅虎已经是基本上放弃在核心搜索方面有所作为了。但是微软做搜索引擎或者说核心搜索技术的话……感觉上就像是诺基亚做单反相机似的,你说它能不能做,我觉得应该能吧……

所以从我还未上线的小站作为测试样本,来给全球主要的搜索引擎做一个技术评测对比,有没有代表性呢?说没有也可以吧,可其实是有一定代表性的。“高博的世界”是个网页彻底互相关联的、URL完全静态化的网站,理论上说如果蜘蛛足够强劲的话,完全能够把所有的页面探索个底朝天。这样的话,结果应该是近2000个网页才对。当然由于时间短,能让这些蜘蛛像关注华尔街日报似的关注我这个小站那也不现实。但如果只搜出来不到10个网页,那我也只能说很遗憾:那除了说明技术很废以外什么都说明不了。由我的测试结果来看,全世界最好的搜索引擎是Google,而中国最有前途的搜索引擎则是腾讯搜搜,其次是百度。你尽可以说我这篇文章是软文吧,但是能让我花这么多时间码这么多字,而且样本又正好是我新开的小站,这是不是真的太巧了一些?

 1. 高论发表者Robbie 的头像
  高论发表者Robbie

  高博同志此博客果然有意思。俺要是有空也来把自个儿的网站搞搞。但事实上搞不大定。

 2. 曾令龙 的头像

  有意思,很有 性格

 3. schoolboy 的头像

  bing比较差的原因应该是他们根本没怎么做中文搜索,在中文搜索方面的投入非常小

 4. […] 那么这里又想再在自己评价搜索引擎的维度上再加一条了:一个优秀的——在现今的前端技术发展到现在的今天,我甚至可以说,一个合格的搜索引擎的抓取程序,应该是支持解析JavaScript所生成页面之结果的,更有甚者,应该是支持解析jQuery的。一言以蔽之,用户最终用眼睛看到的页面是什么样子,抓取程序的“眼睛”里面应该看到同样的东西。举个例子来说,如果在某个页面里,使用JavaScript来设置DOM对象document的title属性的话,那末搜索引擎就应该能够按照这个结果来读取页面标题并作为链接文本(当然我是很反对滥用这种方法来设置土鳖到极点的所谓“动态标题”的)。我承认,这项要求有点儿苛刻,可是这反过来也是对前端技术应该用来做什么的一种反思。我个人认为,“动态生成伪静态内容”应该算是一项合理而且客观上需要的功能。当然更好的做法应该是使用后台技术,比如PHP接口来直接生成静态内容是更好的做法,可能未来我也会采用,但是现在我打算先暂停在这里。一来是因为实在没空,二来也是因为我看到比较优秀的搜索引擎的确是支持直接解析jQuery的,那末我也就乐得享用这个成果。至于进一步地去讨那些不甚合格的搜索引擎的欢心,那是需要投入时间,调整心情的事情。 […]

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据