文章分类 | 推荐文章 | 最新文章 | 热点文章 | 最新软件 | 精品软件 | 下载排行 | 推荐下载 | 免费看大片 | WPS | 杀毒软件
清风网络
首 页 软件下载 网络学院 数码学院
QQ 电脑入门 游戏 操作系统 图形处理 办公软件 媒体动画 精文荟萃 工具软件 网络编程 程序开发 网络技术 认证考试 网站建设 文章专栏
当前位置:清风网络学院专栏Googlegoogle搜索原理论文上(内容枯燥但非常有用)
精品推荐
特别推荐
·十大AdSense工具! Top 10 Adsense Tools
·Google展示其内部使用的网络工具
·Gmail 小技巧
·11种途径将提升英文网站PR值
·google提交Sitemaps的常见问题解答
·提高Google域名信任度的8个方法
·使用Google工具条有助于网站收录
·Google搜索引擎介绍
·google沙盒效应产生的原因及其避免方法
·Google搜索技巧2007版
·总结:Google使用技巧
·技巧:GoogleTalk快捷键列表!
·教你如何解除“该网站可能会损害您的计算机”提示
·网站赚钱:Google关键词广告创建的十二高招
·十个值得推荐的Google搜索技巧
·狂想Google未来十大功能
·《Google排名技巧》共十五课学习笔记
·Google AdSense优化的5个最重点提示
·如何让你的网站远离“该网站可能会损害您的计算机”警告?
·Gmail帐号被盗怎么办?几步即可找回
热点TOP10
·做GOOGLE月入一万RMB提示交流
·Google的秘密 招聘条件跟微软一样
·谈Google广告的单价与点击-Smart
·Google广告优化技巧总结
·Google Adsense改变不了网站的命运
·王通:个人如何利用网络赚钱(1)
·十大AdSense工具! Top 10 Adsense Tools
·Google出售Performics服务 维护搜索承诺
·搜索内搜索 Google新工具震惊网络
·Google搜索技巧2007版
·Google Earth中文版-上帝之眼1.1测试版Beta2
·如何“上传图片”到 Google地图
·卫星地图Google中国 可能是一项“要命的创新”
·Google 全球偷窥真相调查
·Google关键词广告创建的十二高招
·Google Adwords优化技巧
·Google Adwords投放报告(一)
·英文视频:Google AdSense技巧视频教程
·GG网赚之:怎么样利用E文站轻松月入100刀
·Google AdSense 中文高价关键词一览

google搜索原理论文上(内容枯燥但非常有用)

日期:2006年9月18日 作者: 查看:[大字体 中字体 小字体]



第一,所有hit都有位置信息,所以它可以在搜索中广泛应用邻近性(proximity)。

第二,Google跟踪一些可视化外表细节,例如字号。黑体大号字比其它文字更重要。

第三,知识库存储了原始的全文html网页。 3有关工作 Web检索研究的历史简短。World Wide Web Worm()是最早的搜索引擎之一。后来出现了一些用于学术研究的搜索引擎,现在它们中的大多数被上市公司拥有。与Web的增长和搜索引擎的重要性相比,有关当今搜索引擎技术的优秀论文相当少。根据Michael Mauldin(Lycos Inc的首席科学家)) ,"各种各样的服务(包括Lycos)非常关注这些数据库的细节。"虽然在搜索引擎的某些特点上做了大量工作。具有代表性的工作有,对现有商业搜索引擎的结果进行传递,或建立小型的个性化的搜索引擎。最后有关信息检索系统的研究很多,尤其在有组织机构集合(well controlled collections)方面。在下面两节,我们将讨论在信息检索系统中的哪些领域需要改进以便更好的工作在Web上。

3.1信息检索信息检索系统诞生在几年前,并发展迅速。然而大多数信息检索系统研究的对象是小规模的单一的有组织结构的集合,例如科学论文集,或相关主题的新闻故事。实际上,信息检索的主要基准,the Text Retrieval Conference(),用小规模的、有组织结构的集合作为它们的基准。

大型文集基准只有20GB,相比之下,我们抓到的24000000个网页占147GB。在TREC上工作良好的系统,在Web上却不一定产生好的结果。例如,标准向量空间模型企图返回和查询请求最相近的文档,把查询请求和文档都看作由出现在它们中的词汇组成的向量。在Web环境下,这种策略常常返回非常短的文档,这些文档往往是查询词再加几个字。例如,查询"Bill Clinton",返回的网页只包含"Bill Clinton Sucks",这是我们从一个主要搜索引擎中看到的。网络上有些争议,用户应该更准确地表达他们想查询什么,在他们的查询请求中用更多的词。我们强烈反对这种观点。如果用户提出象"Bill Clinton"这样的查询请求,应该得到理想的查询结果,因为这个主题有许多高质量的信息。象所给的例子,我们认为信息检索标准需要发展,以便有效地处理Web数据。

3.2有组织结构的集合(Well Controlled Collections)与Web的不同点 Web是完全无组织的异构的大量文档的集合。Web中的文档无论内在信息还是隐含信息都存在大量的异构性。例如,文档内部就用了不同的语言(既有人类语言又有程序),词汇(email地址,链接,邮政编码,电话号码,产品号),类型(文本,HTML,PDF,图像,声音),有些甚至是机器创建的文件(log文件,或数据库的输出)。可以从文档中推断出来,但并不包含在文档中的信息称为隐含信息。隐含信息包括来源的信誉,更新频率,质量,访问量和引用。不但隐含信息的可能来源各种各样,而且被检测的信息也大不相同,相差可达好几个数量级。例如,一个重要主页的使用量,象Yahoo 每天浏览数达到上百万次,于此相比无名的历史文章可能十年才被访问一次。很明显,搜索引擎对这两类信息的处理是不同的。 Web与有组织结构集合之间的另外一个明显区别是,事实上,向Web上传信息没有任何限制。灵活利用这点可以发布任何对搜索引擎影响重大的信息,使路由阻塞,加上为牟利故意操纵搜索引擎,这些已经成为一个严重的问题。这些问题还没有被传统的封闭的信息检索系统所提出来。它关心的是元数据的努力,这在Web搜索引擎中却不适用,因为网页中的任何文本都不会向用户声称企图操纵搜索引擎。甚至有些公司为牟利专门操纵搜索引擎。
4 系统分析(System Anatomy)首先,我们提供高水平的有关体系结构的讨论。然后,详细描述重要的数据结构。

最后,主要应用:抓网页,索引,搜索将被严格地检查。 Figure 1. High Level Google Architecture 4.1Google体系结构概述这一节,我们将看看整个系统是如何工作的(give a high level),见图1。本节不讨论应用和数据结构,在后几节中讨论。为了效率大部分Google是用c或c++实现的,既可以在Solaris也可以在Linux上运行。

Google系统中,抓网页(下载网页)是由几个分布式crawlers完成的。一个URL服务器负责向crawlers提供URL列表。抓来的网页交给存储服务器storeserver。然后,由存储服务器压缩网页并把它们存到知识库repository中。每个网页都有一个ID,称作docID,当新URL从网页中分析出时,就被分配一个docID。由索引器和排序器负责建立索引index function。索引器从知识库中读取文档,对其解压缩和分析。每个文档被转换成一组词的出现情况,称作命中hits。Hits纪录了词,词在文档中的位置,最接近的字号,大小写。索引器把这些hits分配到一组桶barrel中,产生经过部分排序后的索引。索引器的另一个重要功能是分析网页中所有的链接,将有关的重要信息存在链接描述anchors文件中。该文件包含了足够的信息,可以用来判断每个链接链出链入节点的信息,和链接文本。 URL分解器resolver阅读链接描述anchors文件,并把相对URL转换成绝对URL,再转换成docID。为链接描述文本编制索引,并与它所指向的docID关联起来。同时建立由docID对组成的链接数据库。用于计算所有文档的PageRank值。用docID分类后的barrels,送给排序器sorter,再根据wordID进行分类,建立反向索引inverted index。这个操作要恰到好处,以便几乎不需要暂存空间。排序器还给出docID和偏移量列表,建立反向索引。一个叫DumpLexicon的程序把这个列表和由索引器产生的字典结合在一起,建立一个新的字典,供搜索器使用。这个搜索器就是利用一个Web服务器,使用由DumpLexicon所生成的字典,利用上述反向索引以及页面等级PageRank来回答用户的提问。

上一页 [1] [2] [3] [4] [5] [6] [7] [8] 下一页 




上一篇:名字的起法

下一篇:3721王朝灭亡记

google搜索原理论文上(内容枯燥但非常有用) 相关文章:
·socket编程原理
·IE7.0浏览器有用的9个使用技巧
·非常漂亮的按钮图片
·免费QQ秀(非常不错啊)
·做GOOGLE月入一万RMB提示交流
·非常漂亮的QQ资料,保证不会让你失望
·Photoshop教程:MM照片弄得非常脏特效
·Telnet高级入侵攻略及原理
·Google的秘密 招聘条件跟微软一样
·谈Google广告的单价与点击-Smart
google搜索原理论文上(内容枯燥但非常有用) 相关软件:
·海量免费毕业论文打包下载
·Google Earth 动态卫星地图 汉化版 带我们进入间谍时代 能看见你家院子
·卫星定位地图GoogleEarth 看全球每个平方角超级高清定位
·整形模拟软件_非常face V1.0
·精通.Net核心技术原理与构架
·城市规划原理模拟试题(附答案)
·卫星定位地图GoogleEarth 看全球每个平方角
·2006年考研政治强化班·马克思主义政治经济学原理 刘儒 08
·2006年考研政治强化班·马克思主义政治经济学原理 刘儒 07
·Google Earth 动态卫星地图 汉化版 能看见你家院子的车 电信做种

特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。
[打印本页] [关闭窗口] 转载请注明来源:http://www.vipcn.net
| 帮助(?) | 版权声明 | 友情连接 | 关于我们 | 信息发布
Copyright 2007 www.vipcn.net All Rights Reserved. 鄂ICP备05000083号Powered by:viphot