
一种搜索结果的排序算法
Jun 26, 2005 来源:未详
乱世用重典,搜索引擎在与spam的长期战争中总是处于不利地位(这很容易理解,搜索引擎公司真正考虑搜索结果相关性和排序的只有几个人,而互联网上整天琢磨怎么对付搜索引擎的有几万几十万webmaster),所以对spam的惩罚很严厉,事实上,所有的搜索引擎对它们认定的spam行为,通常只有一种惩罚:永久屏蔽。现在流行的太极链、凤凰链这些超链群,就存在被当做spam的可能性。国内的搜索引擎注册还没有形成市场,但在国外是很发达的产业,每年以200%的速度增长,它们叫SEO,即search engine optimization。
从某种角度来说,几乎是spam在推动着搜索引擎的进步,很久很久以前的一天,搜索引擎们为了搜索结果能更准确,为了能把最相关的搜索结果排在前面,发明了meta tag。起初,meta tag是很好用的,那时候,诚实的webmaster们如实的填写网站摘要,如实的列出跟他的网站最相关的关键字,搜索引擎们抓取、索引、检索这些诚实的meta tag,并作为搜索结果排序的重要依据,然后,是一段相安无事的甜蜜时光。
岁月迅速流逝,甜蜜时光挡不住资本的力量。“一旦有适当的利润,资本就大胆起来……有50%的利润,他就铤而走险;有100%的利润,他就敢践踏一切人间法律;有300%的利润,他就敢犯任何罪行,甚至冒绞首的危险。” 越来越多的网站开始追求收入追求pageview,它们开始欺骗搜索引擎,它们在meta tag中塞进成堆的关键字,塞进跟自己的网站内容无关的但是流行的关键字。群众的力量是巨大的,搜索引擎的相关性被破坏了。。。
搜索引擎们对作弊者开始第一轮反击,但是无力的,它们的做法是:在排序时更多的依赖网页正文而不是meta tag。
作弊者以进为退,开始第二轮攻击,他们在正文中大量使用与网页背景相同颜色的关键字,在image tags中塞进关键字,在网页代码加入“看不见的注释”。
搜索引擎开始第二轮反击,它们找到了有效的方法来过滤这些看不见的文字,取得了小小的胜利。
善良是善良者的墓志铭,卑鄙是卑鄙者的通行证”,作弊者眼见常规武器无效,开始利用搜索引擎的真诚。搜索引擎的spider是互联网上的谦谦君子,它们访问任何网站都会自报身份,并且查阅网站的访问规定,完全按照各网站的规矩来办事。于是,作弊者精心制作了两个网站,一个专供网友访问,一个专供搜索引擎访问,每当发现访问请求来自搜索引擎时,就返回专供搜索引擎看的能令搜索引擎满意的网页,而正常访问者只能看到另一个截然不同的网站。这种方法叫做cloaking。这第三轮攻击,作弊者大胜。
1998年3月1日,分别在AltaVista、Excite、HotBot、Infoseek、Lycos搜索当时的热门词汇“Monica Lewinsky”,各搜索引擎首页居然分别有50%、30%、30%、10%、50%的搜索结果是spam。由此可见当时作弊者们猖獗至何等程度!
搜索引擎们,因为它们道德上的弱点,因为有些手段不愿用,所以无法完全辨别cloaking网站,也就无法完全对付作弊者。搜索引擎能做的只是严厉的惩罚被发现的spam,以警告作弊者,发展到今天的结果是,所有的搜索引擎对它们认定的spam行为,只有一种惩罚:永久屏蔽。
但是,严厉的惩罚从来只是无能者推卸责任的借口,而不能真正的改善状况。“一旦有适当的利润,资本就大胆起来……有50%的利润,他就铤而走险;有100%的利润,他就敢践踏一切人间法律;有300%的利润,他就敢犯任何罪行,甚至冒绞首的危险。” 作弊者从来就不怕惩罚,当互联网狂潮来临,追求pageview的作弊者们更是肆无忌惮。
无可奈何的搜索引擎,只有去寻找新的相关性排序依据,只有去寻找作弊者不能控制的排序依据,只有去网站以外寻找排序的依据,搜索引擎,真的别无选择。
于是,开始出现了超链分析,出现了Pagerank。一个网页,说它自己是什么,它就是什么吗?物以类聚,如果它说的是真的,那么指向这个网页的链接应该来自具有同类内容的网页,所以指向这个网页的链接可以被用来验证这个网页的相关性。
谁,最不可能出于贪婪而作弊?谁,最可能如实提供网页内容?是政府网站,和教育网站。所以,在超链分析中,gov和edu网站通常被赋予较高的排名,来自gov和edu的超链也有更高的价值。
但是PageRank也带来了一些不请自来的错误排序因素:新站不如旧站,小站不如大站,专业站不如通俗站。一个新网站,一个小网站,一个专业网站,它的内容再好,因为不可能迅速得到大量的超链,所以无法得到合适的排名,即使它的内容是无与伦比的。而一个历史悠久的老网站、大网站、通俗网站,即使它已久不更新,或者内容远不如某些小网站,却可以获得很高的排名。
当超链分析刚出来时,SEO界一片悲观论调,认为这是无法作弊的,SEO业完蛋了(就象近期各搜索引擎纷纷收费,SEO业更觉得自己前景惨淡,其实虽然搜索引擎排名市场的大头要给搜索引擎们,但SEO还是有钱赚的,毕竟,只有劳动模范有下岗的可能,从来没听说骗子会失业的),但是,道高一尺魔高一丈,很快SEO们发现了对付超链分析的方法:你不是喜欢链接么,好,我就做大量的网站,准备大量的链接,哪个客户出钱,我所有的网页都给它一个链接。这种SEO方法被称为link firm。这种方法刚出现时还算有效,不过很快就不行了,因为一个网站是否有大量来自内容不相干网页的链接,或者一个不是搜索引擎的网站给出大量不相干的链接还不难判断。而每当发现一个link firm,那些使用了该link firm的网站就全部死翘翘。我在wmw的论坛上看过一个家伙的帖子,说他的网站被封了,但他觉得自己很干净,没有做spam,所以主动去问Google封他网站的原因,原来仅仅是因为他用了一个link firm,真是可怜
一种搜索结果的排序算法,如果更多的是基于概念、主题、基于网页内容的质量,而不是网络上互相链来链去的超链的重要性,那么搜索结果的相关性在本质上会更好。
只是,让计算机学会理解和评价网页内容吗?好像还是很遥远的事情;花大量的人力一个个网页评估么?这肯定是亏本的商业行为,只有靠志愿者。ODP庶几近之,但也只能点击,用关键字搜索时还是无法跟超链分析的结果相比。
上一篇:PageRank 算法解析 下一篇:提高网站在Google中的排名
Jun 26, 2005 来源:未详
乱世用重典,搜索引擎在与spam的长期战争中总是处于不利地位(这很容易理解,搜索引擎公司真正考虑搜索结果相关性和排序的只有几个人,而互联网上整天琢磨怎么对付搜索引擎的有几万几十万webmaster),所以对spam的惩罚很严厉,事实上,所有的搜索引擎对它们认定的spam行为,通常只有一种惩罚:永久屏蔽。现在流行的太极链、凤凰链这些超链群,就存在被当做spam的可能性。国内的搜索引擎注册还没有形成市场,但在国外是很发达的产业,每年以200%的速度增长,它们叫SEO,即search engine optimization。
从某种角度来说,几乎是spam在推动着搜索引擎的进步,很久很久以前的一天,搜索引擎们为了搜索结果能更准确,为了能把最相关的搜索结果排在前面,发明了meta tag。起初,meta tag是很好用的,那时候,诚实的webmaster们如实的填写网站摘要,如实的列出跟他的网站最相关的关键字,搜索引擎们抓取、索引、检索这些诚实的meta tag,并作为搜索结果排序的重要依据,然后,是一段相安无事的甜蜜时光。
岁月迅速流逝,甜蜜时光挡不住资本的力量。“一旦有适当的利润,资本就大胆起来……有50%的利润,他就铤而走险;有100%的利润,他就敢践踏一切人间法律;有300%的利润,他就敢犯任何罪行,甚至冒绞首的危险。” 越来越多的网站开始追求收入追求pageview,它们开始欺骗搜索引擎,它们在meta tag中塞进成堆的关键字,塞进跟自己的网站内容无关的但是流行的关键字。群众的力量是巨大的,搜索引擎的相关性被破坏了。。。
搜索引擎们对作弊者开始第一轮反击,但是无力的,它们的做法是:在排序时更多的依赖网页正文而不是meta tag。
作弊者以进为退,开始第二轮攻击,他们在正文中大量使用与网页背景相同颜色的关键字,在image tags中塞进关键字,在网页代码加入“看不见的注释”。
搜索引擎开始第二轮反击,它们找到了有效的方法来过滤这些看不见的文字,取得了小小的胜利。
善良是善良者的墓志铭,卑鄙是卑鄙者的通行证”,作弊者眼见常规武器无效,开始利用搜索引擎的真诚。搜索引擎的spider是互联网上的谦谦君子,它们访问任何网站都会自报身份,并且查阅网站的访问规定,完全按照各网站的规矩来办事。于是,作弊者精心制作了两个网站,一个专供网友访问,一个专供搜索引擎访问,每当发现访问请求来自搜索引擎时,就返回专供搜索引擎看的能令搜索引擎满意的网页,而正常访问者只能看到另一个截然不同的网站。这种方法叫做cloaking。这第三轮攻击,作弊者大胜。
1998年3月1日,分别在AltaVista、Excite、HotBot、Infoseek、Lycos搜索当时的热门词汇“Monica Lewinsky”,各搜索引擎首页居然分别有50%、30%、30%、10%、50%的搜索结果是spam。由此可见当时作弊者们猖獗至何等程度!
搜索引擎们,因为它们道德上的弱点,因为有些手段不愿用,所以无法完全辨别cloaking网站,也就无法完全对付作弊者。搜索引擎能做的只是严厉的惩罚被发现的spam,以警告作弊者,发展到今天的结果是,所有的搜索引擎对它们认定的spam行为,只有一种惩罚:永久屏蔽。
但是,严厉的惩罚从来只是无能者推卸责任的借口,而不能真正的改善状况。“一旦有适当的利润,资本就大胆起来……有50%的利润,他就铤而走险;有100%的利润,他就敢践踏一切人间法律;有300%的利润,他就敢犯任何罪行,甚至冒绞首的危险。” 作弊者从来就不怕惩罚,当互联网狂潮来临,追求pageview的作弊者们更是肆无忌惮。
无可奈何的搜索引擎,只有去寻找新的相关性排序依据,只有去寻找作弊者不能控制的排序依据,只有去网站以外寻找排序的依据,搜索引擎,真的别无选择。
于是,开始出现了超链分析,出现了Pagerank。一个网页,说它自己是什么,它就是什么吗?物以类聚,如果它说的是真的,那么指向这个网页的链接应该来自具有同类内容的网页,所以指向这个网页的链接可以被用来验证这个网页的相关性。
谁,最不可能出于贪婪而作弊?谁,最可能如实提供网页内容?是政府网站,和教育网站。所以,在超链分析中,gov和edu网站通常被赋予较高的排名,来自gov和edu的超链也有更高的价值。
但是PageRank也带来了一些不请自来的错误排序因素:新站不如旧站,小站不如大站,专业站不如通俗站。一个新网站,一个小网站,一个专业网站,它的内容再好,因为不可能迅速得到大量的超链,所以无法得到合适的排名,即使它的内容是无与伦比的。而一个历史悠久的老网站、大网站、通俗网站,即使它已久不更新,或者内容远不如某些小网站,却可以获得很高的排名。
当超链分析刚出来时,SEO界一片悲观论调,认为这是无法作弊的,SEO业完蛋了(就象近期各搜索引擎纷纷收费,SEO业更觉得自己前景惨淡,其实虽然搜索引擎排名市场的大头要给搜索引擎们,但SEO还是有钱赚的,毕竟,只有劳动模范有下岗的可能,从来没听说骗子会失业的),但是,道高一尺魔高一丈,很快SEO们发现了对付超链分析的方法:你不是喜欢链接么,好,我就做大量的网站,准备大量的链接,哪个客户出钱,我所有的网页都给它一个链接。这种SEO方法被称为link firm。这种方法刚出现时还算有效,不过很快就不行了,因为一个网站是否有大量来自内容不相干网页的链接,或者一个不是搜索引擎的网站给出大量不相干的链接还不难判断。而每当发现一个link firm,那些使用了该link firm的网站就全部死翘翘。我在wmw的论坛上看过一个家伙的帖子,说他的网站被封了,但他觉得自己很干净,没有做spam,所以主动去问Google封他网站的原因,原来仅仅是因为他用了一个link firm,真是可怜
一种搜索结果的排序算法,如果更多的是基于概念、主题、基于网页内容的质量,而不是网络上互相链来链去的超链的重要性,那么搜索结果的相关性在本质上会更好。
只是,让计算机学会理解和评价网页内容吗?好像还是很遥远的事情;花大量的人力一个个网页评估么?这肯定是亏本的商业行为,只有靠志愿者。ODP庶几近之,但也只能点击,用关键字搜索时还是无法跟超链分析的结果相比。
- PageRank 算法解析
2007-03-22 15:10:35
PageRank 算法解析 Jun 26, 2005 来源:未详 什么是PageRank? PageRank是Google衡量网页重要性的工具,测量值范围为从1至10分别表示某网页的重要性。在Google工具栏可以随...[阅读全文] - 提高网站在Google中的排名
2007-03-22 15:10:37
提高网站在Google中的排名 Jun 26, 2005 来源:未详 不想自己的网站在Google的搜索结果重排名靠前呢,但你的网站设计是Search Engine Ready的吗?本文介绍了网站设计中面向...[阅读全文] - Google排名的三大关键
2007-03-22 15:10:34
Google排名的三大关键 Jun 26, 2005 来源:未详 如今,Google已成长成为具有垄断优势的全球性搜索引擎,算上它为Yahoo和AOL提供的搜索服务,Google目前的全球市场占有率已...[阅读全文] - 如何突出关键词
2007-03-22 15:10:38
如何突出关键词 Apr 14, 2005 作者: 如何突出关键词:面向主题(Theme)的关键词匹配 标题设计只是提升关键词密度(keywords density)的一个方面:在现代搜索引擎在关键词匹配...[阅读全文] - Google的十大原则
2007-03-22 15:10:33
Google的十大原则 Apr 15, 2005 作者: Google 创始人之一 Larry Page 指出:完美的搜索引擎需要做到确解用户之意,切返用户之需。就搜索技术的现状而言,我们需要通过研究...[阅读全文] - Baidu 优化和排名技术
2007-03-22 15:10:39
百度的搜索排名原则 百度是全球最优秀的中文信息检索与传递技术供应商,公司号称“全球最大的中文搜索技术提供商”。中国所有提供搜索引擎的门户网站中,超过90%以上都由百...[阅读全文] - Alexa 世界网站排名研究(上)
2007-03-22 15:10:32
Alexa 是什么? Alexa查看一个网站,首先看到的就是该网站的综合排名,并且配有当日网站首页截图,和网站内容的简单文字说明。以 www.blueidea.com 为例,显示其综合排名为...[阅读全文] - 分析一些常见的网站作弊手段
2007-03-22 15:10:40
优化的方式形形色色,一般无外乎按照一定的关键词,通过对网站结构,页面因素和外部链接的优化,使网站得到最佳的搜索引擎排名。但事实上我们发现,有一些网站由于采取了不...[阅读全文] - Alexa常用的作弊方法总结
2007-03-22 15:10:31
第一种作弊方式是用proxy 就是代理服务器,不停的点击一个网站的一个或多个页面,同时向data.alexa.com 发送数据,告诉alexa 有人访问, 90%是这样的软件,例如 alexa boo...[阅读全文] - 中国的SEO(搜索引擎优化)
2007-03-22 15:10:41
■ 什么是SEO SEO 是英文search engine optimization的缩写,其中文意思是搜索引擎优化。而从事这方面工作的就是search engine optimizer,搜索引擎优化师。他们利用工具或...[阅读全文] - Alexa作弊实战
2007-03-22 15:10:30
有幸在网上找到Alexa的工作原理,遂产生萌念,作它一次弊! ·初探: Alexa排名在前一两年,直至现在,都成了许多站长追求的目标之一,许多论坛的站长都要求他们的版主装上...[阅读全文] - 哪些因素决定网站SEO的价格
2007-03-22 15:10:42
哪些因素决定网站SEO的价格 Jun 26, 2005 来源:未详 做SEO的商业服务必须要面对的一个问题就是:特定网站关键词排名的价格。多数SEO都以在google的关键词搜索结果数量作为...[阅读全文] - 关于Alexa的世界网站排名
2007-03-22 15:10:29
世界网站排名主要分两种 Page Views(三个月累积的几何平均值。 如当前世界排名最*前的网站有:雅虎) Alexa给自己的评价为4星。 如果www.xxx.com 为例,显示其综合排名为2,...[阅读全文] - 如何提高网站的PR值
2007-03-22 15:10:43
无论是对普通网络冲浪者还是网站管理员来说,Google都是目前世界范围内最受欢迎的搜索引擎。它每天处理的搜索请求高达1.5亿次,几乎占全球所有搜索量的1/3。网络冲浪者对Go...[阅读全文] - Alexa 世界网站排名研究(下)
2007-03-22 15:10:28
Alexa的网站排名是按照每个特定网站的被访问量进行排名的。访问量越大,越靠前。 访问量是针对定义在域上的网站进行统计的。如:www.sina.com.cn 、news.sina.com.cn 和 te...[阅读全文] - 关于SEO写作中五个最常问的问题
2007-03-22 15:10:44
这个星期,我写了5个有关SEO(搜索引擎优化)方面的问题,这是我们最近从索引擎优化写作那里得到的,它对品牌经营有一定影响。这5个FAQ里面有很重要的信息,并且对提高品牌...[阅读全文] - 内幕调查:出卖Alexa(上)
2007-03-22 15:10:27
在Google上搜索“Alexa”,简体中文的结果有7万多条。现在,“Alexa排名”已经是国内网站的站长们嘴边最常挂的单词。那么,这个Alexa是干嘛的?它 凭什么令国内网站侧目?A...[阅读全文] - ALEXA全攻略(下)
2007-03-22 15:10:45
全攻略四:ALEXA排名有什么用 如今,我们看一下网站如何,都会习惯性的看一下它在ALEXA上的排名,如果HAO123不是稳定排名在世界25位左右,我想百度也不会收购它。ALEXA有什...[阅读全文] - 内幕调查:出卖Alexa(下)
2007-03-22 15:10:26
王翌:这种虚拟多用户访问的方式是不是很占内存啊? A:还好,主要是耗费CPU的资源,不过FreeBSD够强劲,要是在Windows下可就累了。 王翌:是不是主要靠CPU计算出大量的伪...[阅读全文] - ALEXA全攻略(上)
2007-03-22 15:10:46
写此文之前本拟在“ALEXA”前加一个“网站流量世界排名”,可转而一想ALEXA主营业务及目前的功能也不一个专做网站流量排名的网站,更确切的说它是一个提供搜索的网站,提供...[阅读全文]
- [博客运营] 各种漂亮的鼠标URL代码
- [搜索优化] 没有放之四海皆准的SEO技巧
- [搜索优化] 搜索引擎关键词排名优化知识完全手册
- [搜索优化] Title的写法
- [搜索优化] 百度封什么样的网站?兼谈初级SEO办法
- [搜索优化] Google排名的三大关键
- [JavaScript] ie里window的method列表
- [JavaScript] 让弹出窗口变得“体贴”一些
- [JavaScript] 点一下,首页地址添加到收藏夹
- [系统DIY] Windows操作系统十三例安装技巧
- [系统DIY] 实现Win98、WinNt、Win2000互相访问Fat32 N
- [系统DIY] Windows 罕见技巧全集大放送
- [系统DIY] 重装Windows后LILO被覆盖的解决办法


