
Alexa 应该很多人感兴趣的吧...
Alexa工具条的DNA
要想彻底搞清楚Alexa排名是否可信,必须从技术上对Alexa的全球网站流量监测进行全面的解剖,当然,Alexa从来没有公布自己的技术细节,记者决定“以彼之道,还施彼身”,既然Alexa声称其数据来源就是那个工具条,记者决定首先从破解工具条入手。
受记者委托,圈内著名的Web技术专家小林,用了近一个晚上的时间,对Alexa工具条及其向Alexa返回的数据进行了细致的分析,得出了很多宝贵的第一手资料。多年前对Alexa就做过研究的小林认为,最近的这次分析揭示了一些Alexa更隐秘的技术细节。
小林告诉记者,现在最新版本的Alexa工具条的运作机理与以往没有太大的改变,每当用户以装有Alexa工具条的IE浏览器打开新页面时,Alexa的一台服务器(data.alexa.com)都会收到加密的数据包,这个数据包中的核心信息就是十几个参数,这些参数包括当前网页地址、页面打开时间、用户端显示分辨率、Alexa工具条版本号、该用户是否为“亚马逊”的用户等,其中有一个重要的隐含参数,经小林分析,认为是Alexa为每个已安装的工具条自动生成的ID号码,这个号码应该是全球惟一的。Alexa可以通过这个ID对每个反馈数据包的发出者进行惟一标识,这是解决PV重复计算问题和防止同一用户多次刷新作弊的一个重要手段。
小林告诉记者,从目前研究的结果来看,任何一个汇编高手都可以很容易地掌握Alexa工具条返回的数据包中的秘密,如果这个人同时也是一个网络编程高手,那么要针对Alexa作弊就比较容易了。从记者后来对一位上海的Alexa作弊高手的采访来看,小林的分析完全正确。该作弊者正是一位资深的Web开发工程师,其采用的手段与小林的分析也基本吻合——编写一个Alexa工具条返回码生成器,批量产生Alexa能够辨识的代码串,然后用虚拟多用户的方式发回data.alexa.com,这样就可以欺骗Alexa的服务器,让它误以为这些数据是不同用户发来的(征得该作弊者本人同意,本专题在最后公开了记者与该作弊者的网上聊天实录)。
小林认为,这种以编程方式模拟多用户访问的作弊方式的实现,最重要的环节就在于对那个Alexa用来惟一标识用户身份的ID号的生成算法的破解,这需要对足够多的Alexa工具条进行嗅探,抓取其数据包进行定量的算法分析。但小林同时也指出,这些工作对于一个编程高手来说,确实不算什么,只是最终作弊的实现仍需要模拟一个足够快的ID号生成程序,这可能会比较困难,不过据小林估计,国内能做这些事情的人不在少数,只是互联网这个圈子里的高手们很少去做罢了。
从以上的技术分析来看,Alexa的服务器每天所做的工作就是不断接收全球用户传回的数据包,提取其中的那十几个参数并写入专门的数据库,然后在某个特定时间对当天收集到的这些数据进行分析计算,并以新的计算结果去更新当日的网站排名。据记者观察,这个数据库的分析结果至少会保存三年之久,因为在Alexa网站上对每个网站的Rank排名变化趋势图最多能提供三年来的数据变化。
在破解了工具条的DNA之后,记者还与一些朋友探讨了Alexa工具条在全球的分布情况。按照Alexa的说法,工具条是它惟一的信息获取来源,那么工具条在全球用户中的分布也就成了另一个可以影响Alexa排名的重要因素。如果工具条真的是Alexa数据的惟一来源,可以想象,当中国网民都没有安装Alexa工具条的时候,新浪搜狐这样的门户网站恐怕在Alexa排名中都见不到影子,可是今年下半年以来,新浪和搜狐就已经紧随Google排在全球第四和第五的位置了,这似乎说明了Alexa工具条已经在中国具备了较高的普及率,否则,新浪、搜狐以及紧随其后的占领了Alexa全球500强中近1/3份额的中国网站就都有作弊的嫌疑。
幸好记者的一位朋友曹政提供了令人欣慰的数据。作为网站流量分析专家,曹政在www.tong123.com 上为多达2000家国内各类网站提供长期的流量监测与统计分析服务。曹政的流量分析与Alexa的不同,Alexa不在被监测的网站上做任何事,而tong123.com对网站进行页面内嵌方式的第三方流量统计。受记者委托,曹政临时在其数据采样分析器里加入了对Alexa工具条的监测。经过一周的数据统计,曹政得出的结论是:访问www.tong123.com 系统监测的2000家网站的所有用户中,Alexa工具条的安装率在1.5%左右。
就在发稿前,曹政还给记者发来了对这一结果的补充说明,他认为,由于tong123的系统采用累计平均值的计算方法,Alexa工具条的实际安装比例应该比现在得到的数据更高,因为这个监测项刚加进去不久。
由于tong123.com的监测范围是2000家各类网站,基本上排除了由于监测对象较少可能造成的用户选择倾向性,其可信度比较高。即使以1.5%这个被低估的安装率来衡量Alexa在国内用户中的影响,也已经十分惊人了,若国内互联网用户以总数9000万计算,则其中安装了Alexa工具条的用户可能已超过130万。按照Alexa声称的1000万左右的工具条全球下载总量来看,中国网民对Alexa的热衷似乎显得更为突出,这或许也可以作为国内网站今年在Alexa排行榜中整体排名提高的一个解释。
既然工具条的分布会从很大程度上影响Alexa的监测结果,那么Alexa的排行榜就可能出现很大的地域相关性,如果确实如此,Alexa的权威性就真值得怀疑了。事情远没有这么简单,在Alexa网站上,记者看到全球网站前10万名排行榜的报价是499美元,显然,在大洋彼岸,还是有人认可Alexa的排名数据,甚至会花钱去买那个排行数据。
上一篇:搜索引擎关键字排行简介 下一篇:提高网站在Google中的排名——面向搜索引擎的网站设计
Alexa工具条的DNA
要想彻底搞清楚Alexa排名是否可信,必须从技术上对Alexa的全球网站流量监测进行全面的解剖,当然,Alexa从来没有公布自己的技术细节,记者决定“以彼之道,还施彼身”,既然Alexa声称其数据来源就是那个工具条,记者决定首先从破解工具条入手。
受记者委托,圈内著名的Web技术专家小林,用了近一个晚上的时间,对Alexa工具条及其向Alexa返回的数据进行了细致的分析,得出了很多宝贵的第一手资料。多年前对Alexa就做过研究的小林认为,最近的这次分析揭示了一些Alexa更隐秘的技术细节。
小林告诉记者,现在最新版本的Alexa工具条的运作机理与以往没有太大的改变,每当用户以装有Alexa工具条的IE浏览器打开新页面时,Alexa的一台服务器(data.alexa.com)都会收到加密的数据包,这个数据包中的核心信息就是十几个参数,这些参数包括当前网页地址、页面打开时间、用户端显示分辨率、Alexa工具条版本号、该用户是否为“亚马逊”的用户等,其中有一个重要的隐含参数,经小林分析,认为是Alexa为每个已安装的工具条自动生成的ID号码,这个号码应该是全球惟一的。Alexa可以通过这个ID对每个反馈数据包的发出者进行惟一标识,这是解决PV重复计算问题和防止同一用户多次刷新作弊的一个重要手段。
小林告诉记者,从目前研究的结果来看,任何一个汇编高手都可以很容易地掌握Alexa工具条返回的数据包中的秘密,如果这个人同时也是一个网络编程高手,那么要针对Alexa作弊就比较容易了。从记者后来对一位上海的Alexa作弊高手的采访来看,小林的分析完全正确。该作弊者正是一位资深的Web开发工程师,其采用的手段与小林的分析也基本吻合——编写一个Alexa工具条返回码生成器,批量产生Alexa能够辨识的代码串,然后用虚拟多用户的方式发回data.alexa.com,这样就可以欺骗Alexa的服务器,让它误以为这些数据是不同用户发来的(征得该作弊者本人同意,本专题在最后公开了记者与该作弊者的网上聊天实录)。
小林认为,这种以编程方式模拟多用户访问的作弊方式的实现,最重要的环节就在于对那个Alexa用来惟一标识用户身份的ID号的生成算法的破解,这需要对足够多的Alexa工具条进行嗅探,抓取其数据包进行定量的算法分析。但小林同时也指出,这些工作对于一个编程高手来说,确实不算什么,只是最终作弊的实现仍需要模拟一个足够快的ID号生成程序,这可能会比较困难,不过据小林估计,国内能做这些事情的人不在少数,只是互联网这个圈子里的高手们很少去做罢了。
从以上的技术分析来看,Alexa的服务器每天所做的工作就是不断接收全球用户传回的数据包,提取其中的那十几个参数并写入专门的数据库,然后在某个特定时间对当天收集到的这些数据进行分析计算,并以新的计算结果去更新当日的网站排名。据记者观察,这个数据库的分析结果至少会保存三年之久,因为在Alexa网站上对每个网站的Rank排名变化趋势图最多能提供三年来的数据变化。
在破解了工具条的DNA之后,记者还与一些朋友探讨了Alexa工具条在全球的分布情况。按照Alexa的说法,工具条是它惟一的信息获取来源,那么工具条在全球用户中的分布也就成了另一个可以影响Alexa排名的重要因素。如果工具条真的是Alexa数据的惟一来源,可以想象,当中国网民都没有安装Alexa工具条的时候,新浪搜狐这样的门户网站恐怕在Alexa排名中都见不到影子,可是今年下半年以来,新浪和搜狐就已经紧随Google排在全球第四和第五的位置了,这似乎说明了Alexa工具条已经在中国具备了较高的普及率,否则,新浪、搜狐以及紧随其后的占领了Alexa全球500强中近1/3份额的中国网站就都有作弊的嫌疑。
幸好记者的一位朋友曹政提供了令人欣慰的数据。作为网站流量分析专家,曹政在www.tong123.com 上为多达2000家国内各类网站提供长期的流量监测与统计分析服务。曹政的流量分析与Alexa的不同,Alexa不在被监测的网站上做任何事,而tong123.com对网站进行页面内嵌方式的第三方流量统计。受记者委托,曹政临时在其数据采样分析器里加入了对Alexa工具条的监测。经过一周的数据统计,曹政得出的结论是:访问www.tong123.com 系统监测的2000家网站的所有用户中,Alexa工具条的安装率在1.5%左右。
就在发稿前,曹政还给记者发来了对这一结果的补充说明,他认为,由于tong123的系统采用累计平均值的计算方法,Alexa工具条的实际安装比例应该比现在得到的数据更高,因为这个监测项刚加进去不久。
由于tong123.com的监测范围是2000家各类网站,基本上排除了由于监测对象较少可能造成的用户选择倾向性,其可信度比较高。即使以1.5%这个被低估的安装率来衡量Alexa在国内用户中的影响,也已经十分惊人了,若国内互联网用户以总数9000万计算,则其中安装了Alexa工具条的用户可能已超过130万。按照Alexa声称的1000万左右的工具条全球下载总量来看,中国网民对Alexa的热衷似乎显得更为突出,这或许也可以作为国内网站今年在Alexa排行榜中整体排名提高的一个解释。
既然工具条的分布会从很大程度上影响Alexa的监测结果,那么Alexa的排行榜就可能出现很大的地域相关性,如果确实如此,Alexa的权威性就真值得怀疑了。事情远没有这么简单,在Alexa网站上,记者看到全球网站前10万名排行榜的报价是499美元,显然,在大洋彼岸,还是有人认可Alexa的排名数据,甚至会花钱去买那个排行数据。
- 搜索引擎关键字排行简介
2007-03-22 15:13:25
对搜索引擎的关键词优化一直是个很伤脑筋的问题,有些朋友经常问我,为什么你的站好多关键词排第一(注:我的站是下载站)?答案很简单:第一是我坚持手动更新;第二是我根...[阅读全文] - 提高网站在Google中的排名——面向搜索引擎的网站设计
2007-03-22 15:13:27
内容摘要: 目前中文网站在整个互联网中的影响还比较小,这主要是由于中文网站总体的水平(技术上,内容上)都还相对落后造成的,最主要的表现有: 行业知识:不知道搜索引...[阅读全文] - 百度封什么样的网站?兼谈初级SEO办法
2007-03-22 15:13:25
前段时间 我的站已经被百度封闭了。当时流量是3~3.5万IP,并稳定上升中。呵呵经过分析是自己犯了错误,假设的大致原因如下: 1、改名:我看自己流量稳定中上升,已经超过了...[阅读全文] - 关键字密度与网站排名
2007-03-22 15:13:29
经常会有很多搞搜索引擎优化的同行们问到关键字的问题。譬如:一个页面有多少个关键字或者关键字短语对于排名更有利;或者,一个页面关键字的密度是多少更有利于排名之类的...[阅读全文] - 禁止搜索引擎收录的方法
2007-03-22 15:13:24
什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件...[阅读全文] - 搜索引擎优化策略
2007-03-22 15:13:31
为什么有的网站能在搜索引擎上排名很好,而有的却连找到找不到呢?这个秘密何在呢?正如免费搜索引擎上的指导方针所说,有五个因素你是必须铭记于心的: 1、 你网站的内容...[阅读全文] - Matt Cutts谈PR和PR更新
2007-03-22 15:13:22
家都注意到前两天Toolbar(工具条)PR已经更新了。Matt Cutts发了一个帖子,回答一些关于PR和PR更新的问题。 问:我很好奇PR值在内部是怎样存储的?是小数,就像人们猜测的,...[阅读全文] - Google优化疑问
2007-03-22 15:13:32
1、 为什么在Google上搜不到我的网页 ? 如果你的网站没有违反Google的Spam规则,并且网址也已加到了其他各大搜索引擎,或至少与其他网站交换了链接,并且也向Google提交了...[阅读全文] - 首份中国第三方Blog调查报告启示录
2007-03-22 15:13:21
中国Blog调查需要第三方数据 sz1961sy 发表于 2006-10-4 16:58:00 阅读全文(17) | 回复(0) | 引用通告(0) | 编辑 在中国迎来WTO时代至今,对WTO原则的理解其实并不是人们想...[阅读全文] - Title的写法
2007-03-22 15:13:34
A: title标签对于提高你网站的排名起到非常重要的作用。尽管如此,有很多人对于怎样去构造一个合适的title还不是很清楚。以下是我对title的一点看法,欢迎大家提出建议、...[阅读全文] - 关键词“非常排名”保留词(共3482个)
2007-03-22 15:13:20
...[阅读全文] - 网站排名其他重要因素
2007-03-22 15:13:35
Blogger(Weblog的简称)们也许最深刻地理解了“链接就是一切”这句话的含义,由于Blog的内容之间有大量的相互链接,因此最经常被引用的 Blog页面在搜索引擎中的排名往往比...[阅读全文] - 浅说百度算法变化和未来趋势
2007-03-22 15:13:20
这要从昨天开始的一个小调查说起,从昨天开始,我决定每天对互联网热点现象进行观察和分析,然后和大家交流探讨。 于是昨天我随机查看了百度关键词上升最快的冠亚季军,分...[阅读全文] - META标签
2007-03-22 15:13:37
A:META标签在主要的搜索引擎中依然起作用吗? B:我依然主张在网页中放置META标签,如果你不是滥用的话,对于你的网站排名。百利而无一害。 C:把它们正当的处理,这样做...[阅读全文] - Google 的秘密- PageRank
2007-03-22 15:13:12
本文对作为评价甚高的搜索引擎 Google 的核心技术之一 PageRank (网页等级)的基本的概念和评价原理进行解释。 1.前言 最近,搜索引擎 Google (www.google.com) 非常引人注...[阅读全文] - 【阿江】学会深入阅读 ALEXA 报表
2007-03-22 15:13:38
【校正】 现在可以确定写下面这篇文章的时候我的一些观点是错误的,因为当时ALEXA的数据不仅仅来自网站的访问者,统计代码输出的框架在总的数据中也占有一些权重。现在新的...[阅读全文] - seo 基础知识
2007-03-22 15:13:10
Google是最著名的搜索引擎之一,它的分类来至全球最大的开放目录Dmoz。研究搜索引擎,优化网站,让网站在搜索引擎上取得好的名次,对于增加网站访问量将起到至关重要的作用...[阅读全文] - Page Rank and Link Rank
2007-03-22 15:13:39
按:转自国外的一个搜索引擎网站,讲Page Rank 和 Link Rank,觉得说的很有新意,现在没时间翻译,有时间了可能翻一下。 Do you own a website? Would you like to know ho...[阅读全文] - Google 的秘密 PageRank彻底解说 中文版
2007-03-22 15:13:09
Google 的秘密 PageRank彻底解说 中文版 原著:Google の秘密 - PageRank 徹底解説 Hajime BABA / 馬場 肇 翻译:Kreny / 袁 黄琳 krenyATdalouis.com 创作于:2003/12最后...[阅读全文] - 网络搜索机器人代号清单
2007-03-22 15:13:41
等号前面是搜索机器人的代号、访问名,等号后面是所代表搜索引擎、网站。 AbachoBOT=Abacho.com abcdatos_botlink=Abcdatos.com http://www.abcdatos.com/botlink/=Abcdato...[阅读全文]
- [博客运营] 各种漂亮的鼠标URL代码
- [搜索优化] 没有放之四海皆准的SEO技巧
- [搜索优化] 搜索引擎关键词排名优化知识完全手册
- [搜索优化] Title的写法
- [搜索优化] 百度封什么样的网站?兼谈初级SEO办法
- [搜索优化] Google排名的三大关键
- [JavaScript] ie里window的method列表
- [JavaScript] 让弹出窗口变得“体贴”一些
- [JavaScript] 点一下,首页地址添加到收藏夹
- [系统DIY] Windows操作系统十三例安装技巧
- [系统DIY] 实现Win98、WinNt、Win2000互相访问Fat32 N
- [系统DIY] Windows 罕见技巧全集大放送
- [系统DIY] 重装Windows后LILO被覆盖的解决办法


