十倍索引

2017年10月到现在,仅仅一年的时间,但是本网站在Google的索引量提高了一个数量级。从不到2000个网页,到现在的12000余个。这个改进,还是相当喜人的。 这其中也没有什么秘诀,原因就是我做了一些脚本,把Flickr相册中的照片和影集做成了站内页面。目前,我一共上传了差不多4500张照片,分属于上百个影集。而且,有两套系统同时用以展示这些照片和影集,这样就差不多有万余页面了。然后,再把这些页面都做到一个站点地图中去然后提交给Google管理员后台,稍等几日,爬虫就会欣然受邀前来,并根据囫囵吞下的内容,慢慢地将消化后的结果加入到索引中去了。 当然,提交的站点地图也非止一个。博客和维基的内容,本来也有一些,所以也分别提交了。这些内容构成了前面不少年的索引量基础,不过这一部分的增量就不可能非常快地积累了。 同样,这些所有的站点地图也不是只提交给Google,也提交给了其他一些搜索引擎。不过,和几年前相比,现在还能称得上是搜索引擎的也确实已经不多了。雅虎几乎已经完全阵亡,Bing也只能说是半死不活。百度从技术上说确实还是非常活跃的,而搜狗和360的技术差得就比较远了。新出现的、还能够提交站点地图的,是Yandex,但是效果并不彰显,至少没看出来和站点地图有什么关系。DuckDuckGo的搜索结果很不错,但它不允许提交站点地图。 搜索技术永远都是计算科学研究的最核心主题之一,数据就在那里,但是如果不能及时地把数据定位和调出,数据就无法发挥作用。或者说,数据是死的,必须经由搜索才能把它激活并派上用场。像Google这样的通用搜索引擎,已经难以触及很多领域的数据,比如社交网络——在中国像是微信,在中国之外像是Facebook和Instagram,这些数据都要么对通用搜索引擎完全不开放、要么就是对它们完全不友好——更不用说即时通信了。就算对于其他一些结构化数据,很多公司在做所谓的垂直搜索,但是现在令人印象深刻的却是一个也没有,不过它们当然对于通用搜索的态度也同样是不开放和不友好的。 所以,Google这样的公司也必须除了做数据的加工者之外,向数据的原产者转型。因为像我的网站这样愿意主动把数据提供给它的,从数量上来说当然还是会持续增加,但是如果从数据增量的比例来看却无疑是会下降的。只有Google自己推出产生原始数据的平台,并有足够多的用户使用,它才能继续保持活力。从这个意义上,Android操作系统当然是Google的一大成功,但是从传统的Web世界看,它的很多尝试都归于失败了,比如最近它关闭了的Google+服务。看来,Google确实在计算基础服务和系统平台方面有相当的实力,但是应用平台却并不是它最擅长的。所以,Google可能需要进一步在系统软件,甚至硬件设备上发力,才能得到足够的生产原料——原始数据供其加工。 Read More »