文章分类 | 推荐文章 | 最新文章 | 热点文章 | 最新软件 | 精品软件 | 下载排行 | 推荐下载 | 免费看大片 | WPS | 杀毒软件
清风网络
首 页 软件下载 网络学院 数码学院
QQ 电脑入门 游戏 操作系统 图形处理 办公软件 媒体动画 精文荟萃 工具软件 网络编程 程序开发 网络技术 认证考试 网站建设 文章专栏
当前位置:清风网络学院专栏Googlegoogle搜索原理论文上(内容枯燥但非常有用)
精品推荐
特别推荐
·十大AdSense工具! Top 10 Adsense Tools
·Google展示其内部使用的网络工具
·Gmail 小技巧
·11种途径将提升英文网站PR值
·google提交Sitemaps的常见问题解答
·提高Google域名信任度的8个方法
·使用Google工具条有助于网站收录
·Google搜索引擎介绍
·google沙盒效应产生的原因及其避免方法
·Google搜索技巧2007版
·总结:Google使用技巧
·技巧:GoogleTalk快捷键列表!
·教你如何解除“该网站可能会损害您的计算机”提示
·网站赚钱:Google关键词广告创建的十二高招
·十个值得推荐的Google搜索技巧
·狂想Google未来十大功能
·《Google排名技巧》共十五课学习笔记
·Google AdSense优化的5个最重点提示
·如何让你的网站远离“该网站可能会损害您的计算机”警告?
·Gmail帐号被盗怎么办?几步即可找回
热点TOP10
·做GOOGLE月入一万RMB提示交流
·Google的秘密 招聘条件跟微软一样
·谈Google广告的单价与点击-Smart
·Google广告优化技巧总结
·Google Adsense改变不了网站的命运
·王通:个人如何利用网络赚钱(1)
·十大AdSense工具! Top 10 Adsense Tools
·Google出售Performics服务 维护搜索承诺
·搜索内搜索 Google新工具震惊网络
·Google搜索技巧2007版
·Google Earth中文版-上帝之眼1.1测试版Beta2
·如何“上传图片”到 Google地图
·卫星地图Google中国 可能是一项“要命的创新”
·Google 全球偷窥真相调查
·Google关键词广告创建的十二高招
·Google Adwords优化技巧
·Google Adwords投放报告(一)
·英文视频:Google AdSense技巧视频教程
·GG网赚之:怎么样利用E文站轻松月入100刀
·Google AdSense 中文高价关键词一览

google搜索原理论文上(内容枯燥但非常有用)

日期:2006年9月18日 作者: 查看:[大字体 中字体 小字体]



4.2主要数据结构经过优化的Google数据结构,能够用较小的代价抓取大量文档,建立索引和查询。虽然近几年CPU和输入输出速率迅速提高。磁盘寻道仍然需要10ms。任何时候Google系统的设计都尽可能地避免磁盘寻道。这对数据结构的设计影响很大。

4.2.1大文件大文件BigFiles是指虚拟文件生成的多文件系统,用长度是64位的整型数据寻址。多文件系统之间的空间分配是自动完成的。BigFiles包也处理已分配和未分配文件描述符。由于操纵系统不能满足我们的需要,BigFiles也支持基本的压缩选项。

4.2.2知识库 Figure 2. Repository Data Structure 知识库包含每个网页的全部HTML。每个网页用zlib(见RFC1950)压缩。压缩技术的选择既要考虑速度又要考虑压缩率。我们选择zlib的速度而不是压缩率很高的bzip。知识库用bzip的压缩率接近4:1。而用zlib的压缩率是3:1。文档一个挨着一个的存储在知识库中,前缀是docID,长度,URL,见图2。访问知识库不需要其它的数据结构。这有助于数据一致性和升级。用其它数据结构重构系统,我们只需要修改知识库和crawler错误列表文件。

4.2.3文件索引文件索引保存了有关文档的一些信息。索引以docID的顺序排列,定宽ISAM(Index sequential access mode)。每条记录包括当前文件状态,一个指向知识库的指针,文件校验和,各种统计表。如果一个文档已经被抓到,指针指向docinfo文件,该文件的宽度可变,包含了URL和标题。否则指针指向包含这个URL的URL列表。这种设计考虑到简洁的数据结构,以及在查询中只需要一个磁盘寻道时间就能够访问一条记录。还有一个文件用于把URL转换成docID。它是URL校验和与相应docID的列表,按校验和排序。要想知道某个URL的docID,需要计算URL的校验和,然后在校验和文件中执行二进制查找,找到它的docID。通过对这个文件进行合并,可以把一批URL转换成对应的docID。URL分析器用这项技术把URL转换成docID。这种成批更新的模式是至关重要的,否则每个链接都需要一次查询,假如用一块磁盘,322'000'000个链接的数据集合将花费一个多月的时间。

4.2.4词典词典有几种不同的形式。和以前系统的重要不同是,词典对内存的要求可以在合理的价格内。现在实现的系统,一台256M内存的机器就可以把词典装入到内存中。现在的词典包含14000000词汇(虽然一些很少用的词汇没有加入到词典中)。它执行分两部分—词汇表(用null分隔的连续串)和指针的哈希表。不同的函数,词汇表有一些辅助信息,这超出了本文论述的范围。

4.2.5 hit list hit list是一篇文档中所出现的词的列表,包括位置,字号,大小写。Hit list占很大空间,用在正向和反向索引中。因此,它的表示形式越有效越好。我们考虑了几种方案来编码位置,字号,大小写—简单编码(3个整型数),紧凑编码(支持优化分配比特位),哈夫曼编码。Hit的详细信息见图3。我们的紧凑编码每个hit用2字节。有两种类型hit,特殊hit和普通hit。特殊hit包含URL,标题,链接描述文字,meta tag。普通hit包含其它每件事。它包括大小写特征位,字号,12比特用于描述词在文档中的位置(所有超过4095的位置标记为4096)。字号采用相对于文档的其它部分的相对大小表示,占3比特(实际只用7个值,因为111标志是特殊hit)。特殊hit由大小写特征位,字号位为7表示它是特殊hit,用4比特表示特殊hit的类型,8比特表示位置。对于anchor hit八比特位置位分出4比特用来表示在anchor中的位置,4比特用于表明anchor出现的哈希表hash of the docID。短语查询是有限的,对某些词没有足够多的anchor。我们希望更新anchor hit的存储方式,以便解决地址位和docIDhash域位数不足的问题。
因为搜索时,你不会因为文档的字号比别的文档大而特殊对待它,所以采用相对字号。 hit表的长度存储在hit前。为节省空间hit表长度,在正向索引中和wordID结合在一起,在反向索引中和docID结合存储。这就限制它相应地只占8到5比特(用些技巧,可以从wordID中借8bit)如果大于这些比特所能表示的长度,用溢出码填充,其后两字节是真正的长度。 Figure 3. Forward and Reverse Indexes and the Lexicon

4.2.6正向索引实际上,正向索引已经部分排序。它被存在一定数量的barrel中(我们用64个barrels)。每个barrel装着一定范围的wordID。如果一篇文档中的词落到某个barrel,它的docID将被记录到这个barrel中,紧跟着那些词(文档中所有的词汇,还是落入该barrel中的词汇)对应的hitlist。这种模式需要稍多些的存储空间,因为一个docID被用多次,但是它节省了桶数和时间,最后排序器进行索引时降低编码的复杂度。更进一步的措施是,我们不是存储docID本身,而是存储相对于该桶最小的docID的差。用这种方法,未排序的barrel的docID只需24位,省下8位记录hitlist长。

4.2.7反向索引除了反向索引由sorter加工处理之外,它和正向索引包含相同的桶。对每个有效的docID,字典包含一个指向该词所在桶的指针。它指向由docID和它的相应hitlist组成的doclish,这个doclist代表了所有包含该词的文档。 doclist中docID的顺序是一个重要的问题。最简单的解决办法是用doclish排序。这种方法合并多个词时很快。另一个可选方案是用文档中该词出现的次数排序。这种方法回答单词查询,所用时间微不足道。当多词查询时几乎是从头开始。并且当用其它Rank算法改进索引时,非常困难。我们综合了这两种方法,建立两组反向索引barrel,一组barrels的hitlist只包含标题和anchor hit,另一组barrel包含全部的hitlist。我们首先查第一组索引桶,看有没有匹配的项,然后查较大的那组桶。

上一页 [1] [2] [3] [4] [5] [6] [7] [8] 下一页 




上一篇:名字的起法

下一篇:3721王朝灭亡记

google搜索原理论文上(内容枯燥但非常有用) 相关文章:
·socket编程原理
·IE7.0浏览器有用的9个使用技巧
·非常漂亮的按钮图片
·免费QQ秀(非常不错啊)
·做GOOGLE月入一万RMB提示交流
·非常漂亮的QQ资料,保证不会让你失望
·Photoshop教程:MM照片弄得非常脏特效
·Telnet高级入侵攻略及原理
·Google的秘密 招聘条件跟微软一样
·谈Google广告的单价与点击-Smart
google搜索原理论文上(内容枯燥但非常有用) 相关软件:
·海量免费毕业论文打包下载
·Google Earth 动态卫星地图 汉化版 带我们进入间谍时代 能看见你家院子
·卫星定位地图GoogleEarth 看全球每个平方角超级高清定位
·整形模拟软件_非常face V1.0
·精通.Net核心技术原理与构架
·城市规划原理模拟试题(附答案)
·卫星定位地图GoogleEarth 看全球每个平方角
·2006年考研政治强化班·马克思主义政治经济学原理 刘儒 08
·2006年考研政治强化班·马克思主义政治经济学原理 刘儒 07
·Google Earth 动态卫星地图 汉化版 能看见你家院子的车 电信做种

特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。
[打印本页] [关闭窗口] 转载请注明来源:http://www.vipcn.net
| 帮助(?) | 版权声明 | 友情连接 | 关于我们 | 信息发布
Copyright 2007 www.vipcn.net All Rights Reserved. 鄂ICP备05000083号Powered by:viphot