首页>互联网>网络运营>搜索优化>正文

基于Google的学习过程

日 期:2007-03-22     来 源:站长信息网    阅 读:
  
内容摘要:

Google的使用如此重要, O'Reilly有本专门的书介绍了如何优化网站面向Google的设计,和使用Google的一些技巧:
http://www.oreilly.com/catalog/googlehks/ 这里我很想把以前遇到类似问题时在Google上寻找资料的思路和大家分享一下:

足够“多”的特征关键词是快速定位的关键

有朋友问我:在比较慢的机器上Resin不能自动启动问题我是怎么找到在“启动脚本中加入15秒的延迟”这个解决方法的。我当时遇到这个问题后:首先就是把错误日志中的"Can't connect to parent"字样复制下来,然后在google上查:resin2 "Can't connect to parent",从Google找到的资料大部分在Resin的BUG跟踪报告,FAQ和邮件列表中。虽然这些文档中没有给出一个比较直接的答案,但从中我获得了大量的相关信息,从而方便我对问题的分析。整个查找/解决过程大约用了10个小时左右。

如果用户理解了使用更多的关键词可以更快的定位到所需要的信息这一点的话,那么每次查询时用户使用的关键词个数就反映了用户的搜索引擎使用水平,根据在1997年,英语国家的用户平均每次上网查询键入2.1个单词,欧洲其他国家为1.5个单词;到1999年,英语国家是2.7个单词,欧洲国家是2个单词。英语国家用户的经验值要领先其他国家将近1年半的时间。中文搜索引擎也将经历一个用户经验值逐渐提高的过程。

从中我们可以想象在互联网资源的使用水平上中国和国际先进水平的差距。


提高搜索结果质量的途径:使用英文专业术语、文件类型过滤、专业站点站内搜索
2000年1月,Excite公司的科学家对全球约6.4亿的Internet网页进行了语言认证,发现其中英文信息内容占了71%,而日文是6.82%、德文是5.08%、法文是 1.75%、中文则为1.52%。如此丰富多彩的英文海量数据库,势必吸引着英语国家的上网用户不断应用搜索引擎去寻找那些有价值的信息内容。使用英文专业术语:学会把自己的问题翻译成英文后再查最近一次经历是找一个Linux应用的安装文档,但用中文关键词搜出的内容大部分很多都很旧,甚至有基于RedHat5.2的,而且绝大部分只是的把台湾开发人员写的繁体板HOWTO转成了简体中文,此外,由于一些计算机名次中文名称的翻译不一致也限制了搜索结果的数量和质量。所以目前来说,质量比较高的仍然基于是相应领域英文关键词的搜索。比如,我在解决Perl源代码格式美化的过程中学到了 indent,pretty print和source code beatufier这些术语。通过这些关键词,也方便我找到了其他开发语言的代码格式美化工具。


文件类型过滤:
Google有对PDF, Word(Power Point, Excel), PS文档的索引能力,由于这种文档的内容比一般的HTML经过了更多的整理,学术价值一般比较高,所以这些类型的文档天生就比一般的HTML类型的文档 PageRank要高。可以通过"filetype:pdf keywords"这种格式过滤返回结果的文件类型,从而提高搜索结果的质量。

利用站内搜索减小搜索范围:
如果某个站点的结果数很多,Google会类聚成2条,并可以通过“www.example.com 站内的其它相关信息”执行站内检索,在查询的命令中其实就是"site:www.example.com keywords",所以很多时候可以进一步通过站内检索将搜索结果限制在某些专业站点的范围内,这样很多问题的资料往往可以从其官方站点的FAQ或邮件列表HTML归档中查到。


此外Google本身也有按操作系统分类的主题搜索入口:
http://www.google.com/linux
http://www.google.com/bsd
http://www.google.com/mac
http://www.google.com/microsoft


我的猜测:Google其实是针对有相应内容的WEB站点根据其服务器进行了类聚,要知道关于Office的内容如果跑在Linux服务器的 Apache上那么很有可能是OpenOffice,而关于Office 2000的文档项目肯定是跑在Windows服务器的IIS上的多。

BUG反馈/改进意见也是一种非常有价值的劳动

首先,如果发现了问题一定要进行主动的反馈:有朋友问我说他以前早就遇到过类似的问题,说明Resin在CPU比较慢的机器上自动启动这个问题应该是比较普遍了,但为什么一致没有作为BUG提交上去呢?

其次,如果找到了解决方法,千万不要为自己的一点小技巧沾沾自喜,像在Java 编程技术中汉字问题的分析及解决这篇文章中提到的那个的高手那样,虽然他自己知道了通过Hacking Servert包的源文件解决中文字符集问题的方法,如果这真是一个正确的思路为什么不作为一个议程直接提交给JCP呢?

所以我在找到解决Resin自动启动这个问题以后,在相应的BUG跟踪报告中提交了自己的方法,如果以后的版本中有了改进,大家安装使用中可以少考虑一个问题不是更好吗。(虽然这个方法最后没有被采纳),有时候在反馈过程中你也许会发现让别人接受你的建议其实更难。尤其在中文支持问题上:但如果中文用户自己不主动反馈,以后很多的设计中就会继续忽略中文用户的一些特殊需求。

事实上无论是BUG提交还是改进意见,对于软件的进步都是一种非常有价值的。虽然目前国内还没有很多人直接参与开源软件的开发,但通过以上这些方式积极的参与也是在为开源软件加油。


更主动的反馈莫过于像Blogger一样的主动表达:把你的理解和想法通过互联网传播出去,由于在表达和交流过程中同时你也总结提炼了自己的思想,所以“教授他人其实正是一个非常好的学习过程”。


GNU的“工具箱”哲学:问题的分解

虽然常常发现自己碰到的很多问题在国外几年前就有人遇到过了,而且往往能通过Google找到大量相关资源。而且类似需求非常多的话,往往还会有很多 Open Source的解决方案发布在SourceForge.net Apache.org上。

但也不要指望所有问题都能够直接在互联网上找到答案,因为复杂问题本身的解决有可能利用其他一些工具组合解决完成的。比如:我在解决多台服务器之间的日志合并统计过程中找到的Apache的日志轮循工具cronolog,在OutLook Express邮件的HTML归档过程中找到的mbx2mbox+mhonarc,以及在CVS的常用工具整理过程中找到的大量优秀应用等。

GNU很推崇“工具箱”哲学:因为很多复杂的问题都可以通过几个更简单的工具通过一定的组合加以解决的。而Perl往往就是粘合这些优秀工具的“胶水语言”。这也是为什么Perl(或者说Perl的哲学)是任何一个程序员都因该学习并掌握的语言。


如果一个问题在Google上也找不到,有时候反思一下是不是自身需求本身的问题,因为只有合理的需求是发展的源动力:如果你发现提出需求目前很多系统中不支持,说明我们对其设计目标理解不够深入或者对问题的复杂度缺乏正确的估计造成的。比如:MySQL早期版本中没有外键和事务处理的支持,CVS没有文件的锁定机制,但事实上经过很长时间的实践证明:这些功能并非必需,而且没有这些功能系统也是“够用”的,而且是高效的。


总结
毕竟搜索引擎只是帮助我们把“模糊的”人类语言转换成立了计算机比较擅长的“精确”匹配,因此往往需要使用一些真正能够帮助去其他信息区分开的特征关键词(不仅是多)才能够把自己真正需要的资源比较高效的提炼出来;
而返回的结果不可能达到非常完美的程度,所以有时候除了一些技巧外,还是需要我们自己从头几十条比较相关的结果中进行一下归纳总结。“搜索= =>总结==>再搜索……”,我想基于搜索引擎的学习基本上就是这么一个不断提炼过程吧;


如果直接找不到问题的答案就想办法把问题分解,如果还找不到,就反思一下自己的需求是否合理;

把自己的经验通过互联网加以总结,反馈和推广,网志Weblog是一个不错的手段,善于把你的观点共享给别人;


相关资源:

Google搜索帮助
http://www.google.com/help/

NEC Research Institute CiteSeer
http://citeseer.nj.nec.com/

The Apache Software Foundation
http://www.apache.org/

GNU项目
http://gnu.org/

各种开源项目资源
http://sourceforge.net
http://freshmeat.net


原文出处:http://www.chedong.com/tech/study.html




上一篇:论PR是否存在渗漏损失   下一篇:参考资料-如何提高网站在Google中的排名
收藏本文到:
digg this! 添加到del.icio.us bbmao网络收藏夹 添加到365key 我顶 添加到bolaa 推荐到奇客发现 添加到新浪vivi 添加到google书签 添加到yahoo+
查看全部搜索优化内容  
  • 论PR是否存在渗漏损失  2007-03-22 15:16:28
       如果你已经读过了“Google专利网页级别技术PageRank揭密”或Google的PageRank技术说明,也许你会对我在这篇文章中将要谈论的这个问题表示认可。 为什么我会提出这样一个奇...[阅读全文]
  • 参考资料-如何提高网站在Google中的排名  2007-03-22 15:16:31
       面向Google搜索引擎的网站设计优化 http://www.google-search-engine-optimization.com/ 关于Google的十个神话: http://www.promotionbase.com/printTemplate.php?aid=971...[阅读全文]
  • 用户搜索常见问题及解决方法小结  2007-03-22 15:16:27
       前 言 ============================================= 以我的使用经验,用户在使用搜索引擎方面,最不满的5个问题是: 1. 信息太少或找不到 2. 检索结果相关性差 3. 死链...[阅读全文]
  • 王通:我眼中的SEO  2007-03-22 15:16:32
       我把SEO看的很简单 最早接触SEO是在2002年。然后很快把它运用到自己的网站和朋友的网站中,然后获得了很好的效果,之后就把一部分经验写出来给大家分享,之后就不断有企业...[阅读全文]
  • 搜出网上精彩  2007-03-22 15:16:26
       对于网民来说,几乎每天都要用到它,也正是它,缔造了今天的雅虎,说道这里你可能已经知道它指的就是搜索引擎 。习惯上,人们认为网络搜索引擎是进行查询网站或网页信息的...[阅读全文]
  • 搜索高手的秘密  2007-03-22 15:16:33
       ================================ 搜索高手的秘密——Danny Sullivan ================================ Danny Sullivan是一个网络顾问和新闻记者,从1995年起就研究搜索...[阅读全文]
  • 实用网络搜索技巧  2007-03-22 15:16:25
       通过互联网获取信息,如何避免在浩瀚的互联网海洋中迷失方向,掌握一些基本的网上搜索技巧可以说是必需的。 基本搜索技巧 1、使用逻辑词辅助查找 比较大的搜索引擎都支持使...[阅读全文]
  • 搜索引擎算法和研究  2007-03-22 15:16:35
       作为搜索者或 搜索引擎优化专业人士,你真的需要理解支持搜索引擎的算法和技术吗?在近来召开的一次搜索引擎战略会议上,搜索引擎算法和研究座谈小组专家的答复是肯定的:...[阅读全文]
  • 专用小型搜索引擎  2007-03-22 15:16:24
       Asiaco http://search.asiaco.com Internet上与亚洲有关的主题的可搜索索引。 AskERIC www.askeric.org 教育资源信息中心(ERIC),这是由美国教育部赞助的国家信息系统。 ...[阅读全文]
  • 搜索引擎高级用法  2007-03-22 15:16:36
       经常上网的人对于搜索引擎大概都不陌生,但说到使用上您是否达到运用自如或驾轻就熟了呢?凡事都讲究一个技巧性,搜索引擎也不例外。如果您想充分的了解搜索引擎的使用技巧...[阅读全文]
  • 网站排名:咱也权威一把  2007-03-22 15:16:23
       排名这种事儿,常常是通过树立别人的权威,来树立自个儿的权威。《福布斯》给中国的富豪排名,弄得富豪们老大不高兴,结果自个儿的权威都受到质疑。一个叫网大的小网站折腾...[阅读全文]
  • 价值数万的GOOGLE,PR作弊方法  2007-03-22 15:16:38
       价值数万的GOOGLE,PR作弊方法 Jun 26, 2005 来源:未详 由会员网络站点DarkBlue.com发起的以“Nigritude Ultramarine”为关键词的Google左侧排名竞赛日前爆出新闻:有比赛...[阅读全文]
  • 国内中文搜索实用攻略  2007-03-22 15:16:22
       ★百度 综合实力显优 作为最先崛起的本地中文搜索引擎,目前百度已经成为综合实力最具优势的国内搜索门户。 打开百度搜索引擎,可以看到一个框子,框子上面有7个选项,“网...[阅读全文]
  • 提高网站的Google PR值的私家绝招  2007-03-22 15:16:39
       提高网站的Google PR值的私家绝招 Jun 26, 2005 来源:未详 Google之所以受网站管理员和Internet媒体服务公司的欢迎,是由于它并非只使用关键词或代理搜索技术,而是将自身...[阅读全文]
  • 巧用百度BAIDU搜索电影  2007-03-22 15:16:21
       在百度搜索主面http://www.baidu.com/,点击MP3搜索 http://mp3.baidu.com,选全部音乐,然后键入你要搜索的电影名, 以下以《终结者》为例: 1 终结者3:机器的觉醒 6.6 M ...[阅读全文]
  • PageRank并非评估网页的最佳工具  2007-03-22 15:16:40
       编者按:人们普遍认为PageRank是评估网页普及度的最佳工具。这篇文章从另外一个角度提出了相反的观点。作者认为:Google工具栏上被形象列出的绿色PageRank并不是评估一个特...[阅读全文]
  • 挑选搜索引擎优化公司的25个注意事项  2007-03-22 15:16:20
       搜索引擎无法解析javascript。不过那些比较好的SEO公司会提供一些把Java转移到不同代码区域里去的方法,这样可以方便搜索引擎很快找到网站的主要内容。如果有人建议您将网...[阅读全文]
  • Alexa.com的排名原理  2007-03-22 15:16:41
       FONT id=zoom所谓入门级网站,就是访问量在500到5000之间的网站,一般来说,进入这个级数的网站需要了解alexa的排名原理,具体的情况请A href=http://www.alexa.com/ targe...[阅读全文]
  • 如何增加网络排名  2007-03-22 15:16:19
       据外电报道,在10日在美国加州举行搜索引擎战略会议(SearchEngineStrategies)上,有一个专题讨论会名称怪异:给我的网站拉皮条。在这个研讨会上,搜索技术专家向商家传授增...[阅读全文]
  • 如何查看自定义天数的ALEXA数据  2007-03-22 15:16:42
       大家都比较关心自己网站alexa的数据,最好能够清楚地知道每天的具体数据。 但是alexa的曲线图只提供3m 6m 1y 2y的数据,几天没看,很难精确地知道前几天的数据。 方法很简...[阅读全文]
 用户名: 新注册) 密码: 匿名发表 评论(0条)
 评论内容:(不能超过250字,不支持HTML或代码,只能发表纯文字,请自觉遵守互联网相关政策法规。)
[an error occurred while processing this directive]
合作伙伴: 电脑综合 8vv8娱乐榜

关于扑虎 | 扑虎新闻 | 联系扑虎 | 广告服务 | 招贤纳士

Copyright @ 2006-2007 poohu.com. All Right Reserved 陕ICP备06010975号