© 创始于2004年

采用CC-BY-SA 4.0协议分发内容

建站手记

高博的世界唯一官方博客

十倍索引

高博

2018年10月14日

2017年10月到现在，仅仅一年的时间，但是本网站在Google的索引量提高了一个数量级。从不到2000个网页，到现在的12000余个。这个改进，还是相当喜人的。

这其中也没有什么秘诀，原因就是我做了一些脚本，把Flickr相册中的照片和影集做成了站内页面。目前，我一共上传了差不多4500张照片，分属于上百个影集。而且，有两套系统同时用以展示这些照片和影集，这样就差不多有万余页面了。然后，再把这些页面都做到一个站点地图中去然后提交给Google管理员后台，稍等几日，爬虫就会欣然受邀前来，并根据囫囵吞下的内容，慢慢地将消化后的结果加入到索引中去了。

当然，提交的站点地图也非止一个。博客和维基的内容，本来也有一些，所以也分别提交了。这些内容构成了前面不少年的索引量基础，不过这一部分的增量就不可能非常快地积累了。

同样，这些所有的站点地图也不是只提交给Google，也提交给了其他一些搜索引擎。不过，和几年前相比，现在还能称得上是搜索引擎的也确实已经不多了。雅虎几乎已经完全阵亡，Bing也只能说是半死不活。百度从技术上说确实还是非常活跃的，而搜狗和360的技术差得就比较远了。新出现的、还能够提交站点地图的，是Yandex，但是效果并不彰显，至少没看出来和站点地图有什么关系。DuckDuckGo的搜索结果很不错，但它不允许提交站点地图。

搜索技术永远都是计算科学研究的最核心主题之一，数据就在那里，但是如果不能及时地把数据定位和调出，数据就无法发挥作用。或者说，数据是死的，必须经由搜索才能把它激活并派上用场。像Google这样的通用搜索引擎，已经难以触及很多领域的数据，比如社交网络——在中国像是微信，在中国之外像是Facebook和Instagram，这些数据都要么对通用搜索引擎完全不开放、要么就是对它们完全不友好——更不用说即时通信了。就算对于其他一些结构化数据，很多公司在做所谓的垂直搜索，但是现在令人印象深刻的却是一个也没有，不过它们当然对于通用搜索的态度也同样是不开放和不友好的。

所以，Google这样的公司也必须除了做数据的加工者之外，向数据的原产者转型。因为像我的网站这样愿意主动把数据提供给它的，从数量上来说当然还是会持续增加，但是如果从数据增量的比例来看却无疑是会下降的。只有Google自己推出产生原始数据的平台，并有足够多的用户使用，它才能继续保持活力。从这个意义上，Android操作系统当然是Google的一大成功，但是从传统的Web世界看，它的很多尝试都归于失败了，比如最近它关闭了的Google+服务。看来，Google确实在计算基础服务和系统平台方面有相当的实力，但是应用平台却并不是它最擅长的。所以，Google可能需要进一步在系统软件，甚至硬件设备上发力，才能得到足够的生产原料——原始数据供其加工。

发表回复取消回复

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理。

©var dateNow = new Date(); document.write(dateNow.getFullYear()); 创始于2004年

十倍索引

发表回复 取消回复

© 创始于2004年

发表回复取消回复