首页 > SEO优化纪实 > 《SEO实战密码》电子书下载之了解搜索引擎

《SEO实战密码》电子书下载之了解搜索引擎

2010年12月6日 发表评论阅读评论
Zac 昝辉

Zac 昝辉

本电子书《SEOer:了解搜索引擎》是《SEO实战密码》一书的第2章“了解搜索引擎”,感兴趣的读者可以点击这里下载,1.4MB。

06年6月Zac与其他三位志同道合者共同发起成立SEO研究团队“点石互动”,现已成为中国SE0研究的旗帜性平台。 09年出版《网络营销实战密码》,是网络营销领域旗舰级作品,畅销至今。新作《SEO实战密码》于今年11月底上市。

一个合格的SEO必须了解搜索引擎基本工作原理。很多看似令人迷惑的SEO原理及技巧,其实从搜索引擎原理出发,都是自然而然的事情。

为什么要了解搜索引擎原理?

说到底,SEO是在保证用户体验的基础上尽量迎合搜索引擎。与研究用户界面及可用性不同的是,SEO既要从用户出发,也要站在搜索引擎的角度考虑问题,才能清晰地知道怎样优化网站。SEO人员必须知道搜索引擎要解决什么问题?有哪些技术上的困难?有什么限制?搜索引擎又怎样取舍?

从某个角度来说,SEO人员优化网站就是尽量减少搜索引擎的工作量和降低搜索引擎的工作难度,使搜索引擎能更轻松快速地收录网站页面,更准确地提取页面内容。不了解搜索引擎工作原理,也就无从替搜索引擎解决一些SEOer力所能及的技术问题。当搜索引擎面对一个网站,发现要处理的问题太多,难度太大时,搜索引擎可能就对这样的网站敬而远之了。

很多SEO技巧是基于对搜索引擎的理解。举几个例子。

我们都知道网站域名和页面权重非常重要,这是知其然,很多人不一定知其所以然。权重除了意味着权威度高、内容可靠,因而容易获得好排名外,获得一个最基本的权重,也是页面能参与相关性计算的最基本条件。一些权重太低的页面,就算有很高的相关性也很可能无法获得排名,因为根本没有机会参与排名。

再比如很多SEO津津乐道的“伪原创”。首先,抄袭是不道德甚至违法的行为,把别人的文章拿来加一些“的、地、得”,段落换换顺序就当成自己的原创放在网站上,这是令人鄙视的抄袭行为。理解搜索引擎原理的话,就会知道这样的伪原创也不管用。搜索引擎并不会因为两篇文章差几个字,段落顺序不同就真的把它们当成不同的内容。搜索引擎的去重算法要先进准确得多。

再比如,对大型网站来说,最关键的问题是解决收录。只有收录充分,才能带动大量长尾关键词。就算是有人力、有财力的大公司,面对几百万几千万页面的网站时,也不容易处理好充分收录的问题。只有在深入了解搜索引擎蜘蛛爬行原理的基础上,才能尽量使蜘蛛抓得快而全面。

上面所举的几个例子,读者看完搜索引擎原理简介这一节后,会有更深入的认识。

搜索引擎与目录

早期SEO资料经常把真正的搜索引擎与目录放在一起讨论,甚至把目录也称为搜索引擎的一种,这种讲法并不准确。

真正的搜索引擎指的是由蜘蛛程序沿着链接爬行和抓取网上的大量页面,存进数据库,经过预处理,用户在搜索框输入关键词后,搜索引擎排序程序从数据库中挑选出符合搜索关键词要求的页面。蜘蛛的爬行、页面的收录以及排序都是自动处理。

网站目录则是一套人工编辑的分类目录,由编辑人员人工创建多个层次的分类,站长可以在不同分类里提交网站,目录编辑在后台审核所提交的网站,将网站放置于相应的分类页面。有的时候编辑也主动收录网站。典型的网站目录包括雅虎目录、开放目录、好123等。

目录并不是本书中所讨论的SEO所关注的真正的搜索引擎。虽然网站目录也常有一个搜索框,但目录的数据来源是人工编辑得到的。

搜索引擎和目录两者各有优劣

搜索引擎收录的页面数远远高于目录能收录的页面数。但搜索引擎收录的页面质量参差不齐,对网站内容和关键词提取的准确性通常也没有目录高。

限于人力,目录能收录的通常只是网站首页,而且规模十分有限,不过收录的网站通常质量比较高。像雅虎、开放目录、好123这些大型目录,收录标准非常高。目录收录网站时存储的页面标题、说明文字都是人工编辑,所以比较准确。

搜索引擎数据更新快,而目录中收录的很多网站内容十分陈旧,甚至网站可能已经不再存在了。

雅虎目录、搜狐目录等曾经是用户在网上寻找信息的主流方式,给用户的感觉与真正的搜索引擎也相差不多。这也就是为什么目录有时候被误称为搜索引擎的一种。但随着Google等真正意义上的搜索引擎发展起来以后,目录的使用迅速减少,现在已经很少有人使用网站目录寻找信息了。现在的网站目录对SEO的最大意义是建设外部链接,像雅虎、开放目录、好123等都有很高的权重,可以给被收录的网站带来一个高质量的外部链接。

搜索引擎面对的挑战

搜索引擎系统是最复杂的计算系统之一,当今主流搜索引擎服务商都是有财力和人力的大公司。即使有技术、人力、财力的保证,搜索引擎还是面临很多技术挑战。搜索引擎诞生后的十多年中,技术已经得到了长足的进步。我们今天看到的搜索结果质量与十年前相比已经好得太多了。不过这还只是一个开始,搜索引擎必然还会有更多创新,提供更多更准确的内容。

总体来说,搜索引擎面对几方面的挑战。

页面抓取需要快而全面

互联网是个动态的内容网络,每天有无数页面被更新、被创建,无数用户在网站上发布内容、沟通联系。要返回最有用的内容,搜索引擎就要抓取最新的页面。但是由于页面数量巨大,搜索引擎蜘蛛更新一次数据库中的页面要花很长时间。搜索引擎刚诞生时,这个抓取周期往往以几个月计算。这也就是为什么Google在2003年以前每个月有一次大更新。

现在主流搜索引擎都已经能在几天之内更新重要页面,权重高的网站上的新文件几小时甚至几分钟之内就会被收录。不过,这种快速收录和更新也只能局限于高权重网站。很多页面几个月不能被重新抓取和更新,也是非常常见的。

要返回最好的结果,搜索引擎也必须抓取尽量全面的页面,这就需要解决很多技术问题。一些网站并不利于搜索引擎蜘蛛爬行和抓取,诸如网站链接结构的缺陷,大量使用Flash,Java Script脚本,或把内容放在用户必须登录以后才能访问的部分,这都提高了搜索引擎抓取内容的难度。

海量数据存储

一些大型网站一个网站就有百万千万页面,可以想象网上所有网站的页面加起来是一个什么数据量。搜索引擎蜘蛛抓取页面后,还必须有效存储这些数据,数据结构必须合理,具备极高的扩展性,写入及访问速度要求也很高。

除了页面数据,搜索引擎还需要存储页面之间的链接关系以及大量历史数据,这样的数据量是我们用户无法想象的。据说Google有几十个数据中心,上百万台服务器。这样大规模的数据存储和访问必然存在很多技术挑战。

我们经常在搜索结果中看到,排名会没有明显原因地上下波动,甚至可能刷新一下页面,就看到不同的排名,有的时候网站数据也可能丢失。这些都可能与大规模数据存储的技术难题有关。

索引处理快速有效,具可扩展性

搜索引擎将页面数据抓取和存储后,还要进行索引处理,包括链接关系的计算、正向索引、倒排索引等。由于数据库中页面数量大,进行PR之类的迭代计算也是耗时费力。要想及时提供相关又及时的搜索结果,仅仅抓取也没有用,还必须进行大量索引计算。由于随时都有新数据新页面加入,索引处理也要具备很好的扩展性。

查询处理快速准确

查询是普通用户唯一能看到的搜索引擎工作步骤。用户在搜索框输入关键词,点击搜索按钮后,通常不到一秒后就会看到搜索结果。表面最简单的过程,实际上牵扯了非常复杂的后台处理。在最后的查询阶段,最重要的难题是怎样在不到一秒钟的时间内,快速从几十万几百万,甚至几千万包含搜索词的页面中,找到最合理、最相关的一千个页面,并且按照相关性、权威性排列。

判断用户意图以及人工智能

应该说前四个挑战现在的搜索引擎都已经能够比较好地解决,但判断用户意图还处在初级阶段。不同用户搜索相同的关键词,很可能是在寻找不同的东西。比如搜索“苹果”,用户到底是想了解苹果这个水果?还是苹果电脑?还是电影《苹果》的信息?没有上下文,没有对用户个人搜索习惯的了解,就完全无从判断。

搜索引擎目前正在致力于基于用户搜索习惯及历史数据的了解上,判断搜索意图,返回更相关的结果。今后搜索引擎是否能达到人工智能水平,真正了解用户搜索词的意义和目的,让我们拭目以待。

更多
  1. 减肥产品排行榜
    2011年6月8日17:25 | #1

    这本书相当的好。当当,卓越,淘宝都有卖的。

  2. 2011年2月17日14:29 | #2

    SEO实战密码 高清完整版PDF电子扫描版 下载链接:http://cang.baidu.com/SEO实战密码PDF/

  3. seo优化
    2011年2月14日13:40 | #3

    seo的可扩展性一直正在考虑中。

  4. 2010年12月7日08:53 | #4

    这一章我看完了,感觉作者写的很好哦,让我又学到了不少东西

  1. 本文目前尚无任何 trackbacks 和 pingbacks.