首页>互联网>网络运营>搜索优化>正文

简谈搜索引擎工作流程

日 期:2007-03-22     来 源:    阅 读:
  

互联网是一个宝库,搜索引擎是打开宝库的一把钥匙。然而,绝大多数网民在搜索引擎的相关知识及使用技巧上能力不足。国外的一次调查结果显示,约有71%的人对搜索的结果感到不同程度的失望。作为互联网的第二大服务,这种状况应该改变。 互联网的迅速发展,导致了网上信息的爆炸性增长。全球目前的网页超过20亿,每天新增加730万网页。要在如此浩瀚的信息海洋里寻找信息,就像“大海捞针”一样困难。搜索引擎正是为了解决这个“迷航”问题而出现的技术。 搜索引擎的工作包括如下三个过程:


1.在互联中发现、搜集网页信息;
2.对信息进行提取和组织建立索引库;
3.再由检索器根据用户输入的查询关字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。


发现、搜集网页信息
需要有高性能的“网络蜘蛛”程序(Spider)去自动地在互联网中搜索信息。一个典型的网络蜘蛛工作的方式,是查看一个页面,并从中找到相关信息, 然后它再从该页面的所有链接中出发,继续寻找相关的信息,以此类推,直至穷尽。网络蜘蛛要求能够快速、全面。网络蜘蛛为实现其快速地浏览整个互联网,通常在技术上采用抢先式多线程技术实现在网上聚集信息。通过抢先式多线程的使用,你能索引一个基于URL链接的Web页面,启动一个新的线程跟随每个新的URL链接,索引一个新的URL起点。当然在服务器上所开的线程也不能无限膨胀,需要在服务器的正常运转和快速收集网页之间找一个平衡点。在算法上各个搜索引擎技术公司可能不尽相同,但目的都是快速浏览Web页和后续过程相配合。目前国内的搜索引擎技术公司中,比如百度公司的网络蜘蛛采用了可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息,并把所 获得的信息保存下来以备建立索引库和用户检索。


索引库的建立
关系到用户能否最迅速地找到最准确、最广泛的信息,同时索引库的建立也必须迅速,对网络蜘蛛抓来的网页信息极快地建立索引,保证信息的及时性。对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而极大限度地保证搜索出的结果与用户的查询串相一致。新浪搜索引擎对网站数据建立索引的过程中采取了按照关键词在网站标题、网站描述、网站URL等不同位置的出现或网站的质量等级等建立索引库,从而保证搜索出的结果与用户的查询串相一致。新浪搜索引擎在索引库建立的过程中,对所有数据采用多进程并行的方式,对新的信息采取增量式的方法建立索引库,从而保证能够迅速建立索引,使数据能够得到及时的更新。新浪搜索引擎在建立索引库的过程中还对用户搜索的查询串进行跟踪,并对查询频率高的查询串建立Cache页。


用户检索的过程
这是对前两个过程的检验,检验该搜索引擎能否给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。对于网站数据的检索,新浪搜索引擎采用Client/Server结构、多进程的方式在索引库中检索,大大减少了用户的等待时间,并且在用户查询高峰时服务器的负担不会过高(平均的检索时间在0.3秒左右)。对于网页信息的检索,作为国内众多门户网站的网页检索技术提供商的百度公司其搜索引擎运用了先进的多线程技术,采用高效的搜索算法和稳定的UNIX平台,因此可大大缩短对用户搜索请求的响应时间。作为慧聪I系列应用软件产品之一的I-Search2000采用的超大规模动态缓存技术,使一级响应的覆盖率达到75%以上,独有的自学习能力可自动将二级响应的覆盖率扩充到20%以上。




上一篇:恋上百度   下一篇:高级搜索指南
收藏本文到:
digg this! 添加到del.icio.us bbmao网络收藏夹 添加到365key 我顶 添加到bolaa 推荐到奇客发现 添加到新浪vivi 添加到google书签 添加到yahoo+
查看全部搜索优化内容  
  • 恋上百度  2007-03-22 15:10:22
       不想当一个搜索专家的“搜客”不是一个好的“搜客”。:) 我是一个疯狂的搜索爱好者——如果,搜索本身也能成为爱好的话。 在网络和搜索引擎还未在我的生活中出现之前,我...[阅读全文]
  • 高级搜索指南  2007-03-22 15:10:24
       经常上网的人对于搜索引擎大概都不陌生,但说到使用上您是否达到运用自如或驾轻就熟了呢?凡事都讲究一个技巧性,搜索引擎也不例外。如果您想充分的了解搜索引擎的使用技巧...[阅读全文]
  • 搜索常见问题及解决方法小结  2007-03-22 15:10:21
       作者:搜索引擎9238 1.信息太少或找不到 1.1错别字 1.2 不合理的关键字 1.3 没有最新信息 1.4 信息采集不够 2.检索结果相关性差 2.1 动态分类 2.2 综合搜索 2.3 重复信息 2....[阅读全文]
  • 内幕调查:出卖Alexa(下)  2007-03-22 15:10:26
       王翌:这种虚拟多用户访问的方式是不是很占内存啊? A:还好,主要是耗费CPU的资源,不过FreeBSD够强劲,要是在Windows下可就累了。 王翌:是不是主要靠CPU计算出大量的伪...[阅读全文]
  • 搜索引擎的十大秘密  2007-03-22 15:10:20
       在所有网络推广的方法中,搜索引擎是大家谈论最多的,我们的推广之旅也将从这里开始。 确实,搜索引擎是网络推广的一个非常强大的武器,而且免费——但是我们首先必须了解...[阅读全文]
  • 内幕调查:出卖Alexa(上)  2007-03-22 15:10:27
       在Google上搜索“Alexa”,简体中文的结果有7万多条。现在,“Alexa排名”已经是国内网站的站长们嘴边最常挂的单词。那么,这个Alexa是干嘛的?它 凭什么令国内网站侧目?A...[阅读全文]
  • 如何使用关键字才算适当呢?  2007-03-22 15:10:19
       搜索引擎通过使用关键字的相关程度来决定网页的先后顺序。例如,如果有人搜索“ butterbeans ”,那么一个标题为“ The Butterbean Bazaar ”,里面有十余处单词“ butterb...[阅读全文]
  • Alexa 世界网站排名研究(下)  2007-03-22 15:10:28
       Alexa的网站排名是按照每个特定网站的被访问量进行排名的。访问量越大,越靠前。 访问量是针对定义在域上的网站进行统计的。如:www.sina.com.cn 、news.sina.com.cn 和 te...[阅读全文]
  • 中文搜索引擎的十大误区  2007-03-22 15:10:18
       误区1、 网站目录就是搜索引擎 网站目录通常是经过人工分类的有系统的网站列表,通常附带有搜索功能。网站目录就是搜索引擎的名词始于 雅虎 ,雅虎初创时就是只有一个网站...[阅读全文]
  • 关于Alexa的世界网站排名  2007-03-22 15:10:29
       世界网站排名主要分两种 Page Views(三个月累积的几何平均值。 如当前世界排名最*前的网站有:雅虎) Alexa给自己的评价为4星。 如果www.xxx.com 为例,显示其综合排名为2,...[阅读全文]
  • google搜索技巧  2007-03-22 15:10:17
       一,GOOGLE简介 Google 是一个搜索引擎,由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月发明,Google Inc. 于1999年创立。 二,GOOGLE特色 GOOGLE支持多达132...[阅读全文]
  • Alexa作弊实战  2007-03-22 15:10:30
       有幸在网上找到Alexa的工作原理,遂产生萌念,作它一次弊! ·初探: Alexa排名在前一两年,直至现在,都成了许多站长追求的目标之一,许多论坛的站长都要求他们的版主装上...[阅读全文]
  • 3个实例教你如何在互联网上查找专业资料  2007-03-22 15:10:16
       这是一个知识爆炸的时代,你被逼着比你的祖辈更快地、不停地学习掌握更多更新的知识,否则你随时会被时代抛弃在后面。幸运的是这也是一个工具无比强大的e时代,有更多更好...[阅读全文]
  • Alexa常用的作弊方法总结  2007-03-22 15:10:31
       第一种作弊方式是用proxy 就是代理服务器,不停的点击一个网站的一个或多个页面,同时向data.alexa.com 发送数据,告诉alexa 有人访问, 90%是这样的软件,例如 alexa boo...[阅读全文]
  • 基本搜索技巧十条  2007-03-22 15:10:15
       搜索引擎9238 1:选择最好的搜索工具 ======================= 每一个搜索都是不同的,如果你为每一个搜索都选择最好的搜索工具,那么每次你都会得到最好的搜索结果。最常...[阅读全文]
  • Alexa 世界网站排名研究(上)  2007-03-22 15:10:32
       Alexa 是什么? Alexa查看一个网站,首先看到的就是该网站的综合排名,并且配有当日网站首页截图,和网站内容的简单文字说明。以 www.blueidea.com 为例,显示其综合排名为...[阅读全文]
  • 什么是用搜索引擎搜不到的  2007-03-22 15:10:13
       搜索引擎9238 没有搜索引擎是万万不能的,但搜索引擎不是万能的; 有些内容,网上明明存在,但是你用搜索引擎搜不到。如果事先理解搜索引擎能做的和不能做的,你就可以设计...[阅读全文]
  • Google的十大原则  2007-03-22 15:10:33
       Google的十大原则 Apr 15, 2005 作者: Google 创始人之一 Larry Page 指出:完美的搜索引擎需要做到确解用户之意,切返用户之需。就搜索技术的现状而言,我们需要通过研究...[阅读全文]
  • 搜索例举  2007-03-22 15:10:10
       1、汉语“信息”一词的最早出处 毫无疑问,《辞源》是检索的最佳起点。考虑到手头没多少工具书,我们把GOOGLE作为检索起点的次优选择。 机器不是人,我不会直接在检索框里...[阅读全文]
  • Google排名的三大关键  2007-03-22 15:10:34
       Google排名的三大关键 Jun 26, 2005 来源:未详 如今,Google已成长成为具有垄断优势的全球性搜索引擎,算上它为Yahoo和AOL提供的搜索服务,Google目前的全球市场占有率已...[阅读全文]
 用户名: 新注册) 密码: 匿名发表 评论(0条)
 评论内容:(不能超过250字,不支持HTML或代码,只能发表纯文字,请自觉遵守互联网相关政策法规。)
[an error occurred while processing this directive]
合作伙伴: 电脑综合 8vv8娱乐榜

关于扑虎 | 扑虎新闻 | 联系扑虎 | 广告服务 | 招贤纳士

Copyright @ 2006-2007 poohu.com. All Right Reserved 陕ICP备06010975号