文章分类 | 推荐文章 | 最新文章 | 热点文章 | 最新软件 | 精品软件 | 下载排行 | 推荐下载 | firefox | WPS | 杀毒软件 | Picasa
清风网络
首 页 软件下载 网络学院 数码学院
QQ 电脑入门 游戏 操作系统 图形图像 办公软件 媒体动画 精文荟萃 常用软件 网页编程 技术开发 网络技术 认证考试 网站建设 文章专栏
当前位置:清风网络学院专栏Googlegoogle搜索原理论文上(内容枯燥但非常有用)
精品推荐
特别推荐
·Google展示其内部使用的网络工具
·Gmail 小技巧
·11种途径将提升英文网站PR值
·google提交Sitemaps的常见问题解答
·提高Google域名信任度的8个方法
·使用Google工具条有助于网站收录
·Google搜索引擎介绍
·google沙盒效应产生的原因及其避免方法
·Google搜索技巧2007版
·总结:Google使用技巧
·技巧:GoogleTalk快捷键列表!
·教你如何解除“该网站可能会损害您的计算机”提示
·网站赚钱:Google关键词广告创建的十二高招
·十个值得推荐的Google搜索技巧
·狂想Google未来十大功能
·《Google排名技巧》共十五课学习笔记
·Google AdSense优化的5个最重点提示
·如何让你的网站远离“该网站可能会损害您的计算机”警告?
·Gmail帐号被盗怎么办?几步即可找回
·Google Earth共享发布地标使用详解
热点TOP10
·Google展示其内部使用的网络工具
·Google搜索技巧2007版
·GOOGLE的摄像头漏洞
·Gmail 小技巧
·Google"全球偷窥"真相调查
·Google的秘密 招聘条件跟微软一样
·卫星地图Google中国 可能是一项“要命的创新”
·Google Maps API 简易使用文件
·Google Earth官方中文版试用(新增宇宙遨游功能)
·google搜索原理论文上(内容枯燥但非常有用)
·c#实现google样式的分页
·两行代码在任意页面实现谷歌卫星图
·Google搜索引擎介绍
·绝密隐私 有趣的网络摄像头大揭露
·十大最受欢迎的Google服务
·活学活用Google
·[Google Adsense]如何增加点击率
·Google搜索趣味技巧玩法不完全手册
·Gmail邮箱创造过程被过度美化
·总结:Google使用技巧

google搜索原理论文上(内容枯燥但非常有用)

日期:2006年9月18日 作者: 查看:[大字体 中字体 小字体]


这篇文章中,我们介绍了Google,它是一个大型的搜索引擎(of a large-scale search engine)的原型搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含24'000'000个网页。我们可以从http://google.stanford.edu/ 下载。

设计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索引,其中包含大量迥然不同的词汇。而且每天要回答成千上万个查询。在网络中,尽管大型搜索引擎非常重要,但是学术界却很少研究它。此外由于技术的快速发展和网页的大量增加,现在建立一个搜索引擎和三年前完全不同。

本文详细介绍了我们的大型搜索引擎,据我们所知,在公开发表的论文中,这是第一篇描述地如此详细。除了把传统数据搜索技术应用到如此大量级网页中所遇到的问题,还有许多新的技术挑战,包括应用超文本中的附加信息改进搜索结果。本文将解决这个问题,描述如何运用超文本中的附加信息,建立一个大型实用系统。任何人都可以在网上随意发布信息,如何有效地处理这些无组织的超文本集合,也是本文要关注的问题。

关键词 World Wide Web,搜索引擎,信息检索,PageRank, Google

1 绪论 Web 给信息检索带来了新的挑战。

Web上的信息量快速增长,同时不断有毫无经验的新用户来体验Web这门艺术。人们喜欢用超级链接来网上冲浪,通常都以象Yahoo这样重要的网页或搜索引擎开始。大家认为List(目录)有效地包含了大家感兴趣的主题,但是它具有主观性,建立和维护的代价高,升级慢,不能包括所有深奥的主题。基于关键词的自动搜索引擎通常返回太多的低质量的匹配。使问题更遭的是,一些广告为了赢得人们的关注想方设法误导自动搜索引擎。

我们建立了一个大型搜索引擎解决了现有系统中的很多问题。应用超文本结构,大大提高了查询质量。我们的系统命名为google,取名自googol的通俗拼法,即10的100次方,这和我们的目标建立一个大型搜索引擎不谋而合。

1.1网络搜索引擎—升级换代(scaling up):1994-2000 搜索引擎技术不得不快速升级(scale dramatically)跟上成倍增长的web数量。1994年,第一个Web搜索引擎,World Wide Web Worm(WWWW)可以检索到110,000个网页和Web的文件。到1994年11月,顶级的搜索引擎声称可以检索到2'000'000(WebCrawler)至100'000'000个网络文件(来自 Search Engine Watch)。可以预见到2000年,可检索到的网页将超过1'000'000'000。同时,搜索引擎的访问量也会以惊人的速度增长。在1997年的三四月份,World Wide Web Worm 平均每天收到1500个查询。

在1997年11月,AltaVista 声称它每天要处理大约20'000'000个查询。随着网络用户的增长,到2000年,自动搜索引擎每天将处理上亿个查询。我们系统的设计目标要解决许多问题,包括质量和可升级性,引入升级搜索引擎技术(scaling search engine technology),把它升级到如此大量的数据上。

1.2 Google:跟上Web的步伐(Scaling with the Web)建立一个能够和当今web规模相适应的搜索引擎会面临许多挑战。抓网页技术必须足够快,才能跟上网页变化的速度(keep them up to date)。存储索引和文档的空间必须足够大。索引系统必须能够有效地处理上千亿的数据。处理查询必须快,达到每秒能处理成百上千个查询(hundreds to thousands per second.)。随着Web的不断增长,这些任务变得越来越艰巨。然而硬件的执行效率和成本也在快速增长,可以部分抵消这些困难。
还有几个值得注意的因素,如磁盘的寻道时间(disk seek time),操作系统的效率(operating system robustness)。在设计Google的过程中,我们既考虑了Web的增长速度,又考虑了技术的更新。Google的设计能够很好的升级处理海量数据集。它能够有效地利用存储空间来存储索引。优化的数据结构能够快速有效地存取(参考4.2节)。进一步,我们希望,相对于所抓取的文本文件和Html网页的数量而言,存储和建立索引的代价尽可能的小(参考附录B)。对于象Google这样的集中式系统,采取这些措施得到了令人满意的系统可升级性(scaling properties)。

1. 3设计目标
1.3.1提高搜索质量我们的主要目标是提高Web搜索引擎的质量。1994年,有人认为建立全搜索索引(a complete search index)可以使查找任何数据都变得容易。根据Best of the Web 1994 -- Navigators ,"最好的导航服务可以使在Web上搜索任何信息都很容易(当时所有的数据都可以被登录)"。然而1997年的Web就迥然不同。近来搜索引擎的用户已经证实索引的完整性不是评价搜索质量的唯一标准。用户感兴趣的搜索结果往往湮没在"垃圾结果Junk result"中。实际上,到1997年11月为止,四大商业搜索引擎中只有一个能够找到它自己(搜索自己名字时返回的前十个结果中有它自己)。导致这一问题的主要原因是文档的索引数目增加了好几个数量级,但是用户能够看的文档数却没有增加。用户仍然只希望看前面几十个搜索结果。因此,当集合增大时,我们就需要工具使结果精确(在返回的前几十个结果中,有关文档的数量)。由于是从成千上万个有点相关的文档中选出几十个,实际上,相关的概念就是指最好的文档。高精确非常重要,甚至以响应(系统能够返回的有关文档的总数)为代价。令人高兴的是利用超文本链接提供的信息有助于改进搜索和其它应用 。尤其是链接结构和链接文本,为相关性的判断和高质量的过滤提供了大量的信息。Google既利用了链接结构又用到了anchor文本(见2.1和2.2节)。

[1] [2] [3] [4] [5] [6] [7] 下一页 




上一篇:名字的起法

下一篇:3721王朝灭亡记

google搜索原理论文上(内容枯燥但非常有用) 相关文章:
·Lucene.net 实现全文搜索
·搜索引擎-带蜘蛛程序(类似GOOGLE)
·Google搜索技巧2007版
·如何删除搜索框中的历史记录?
·超级P2P搜索引擎让所有收费网站破产
·用C#实现FTP搜索引擎
·清除google搜索栏中的历史记录
·搜索引擎终极名单大全!珍藏版本
·面向搜索引擎的内容管理系统(CMS)设计
·搜索引擎主要性能评价指标体系研究
google搜索原理论文上(内容枯燥但非常有用) 相关软件:
·各大MP3搜索网站前十名下载曲目
·ASP.NET 数据库搜索引擎
·MOMOMAN搜索第一版
·代理服务器搜索者V2.4
·音乐搜索小偷(最新无错版)
·vqqq.com搜索排行随时更新源码
·合众邮件地址搜索王V1.37
·闪电搜索(LightningSeek)V1.2 Build 30
·K风搜索(K-Search) v2.0 修正版
·蓝芒搜索引擎V2.0 迷你版

特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。
[打印本页] [关闭窗口] 转载请注明来源:http://www.viphot.com
| 帮助(?) | 版权声明 | 友情连接 | 关于我们 | 信息发布
Copyright 2007 www.viphot.com All Rights Reserved. 鄂ICP备05000083号Powered by:vipcn