文章分类 | 推荐文章 | 最新文章 | 热点文章 | 最新软件 | 精品软件 | 下载排行 | 推荐下载 | 免费看大片 | WPS | 杀毒软件
清风网络
首 页 软件下载 网络学院 数码学院
QQ 电脑入门 游戏 操作系统 图形处理 办公软件 媒体动画 精文荟萃 工具软件 网络编程 程序开发 网络技术 认证考试 网站建设 文章专栏
当前位置:清风网络学院专栏Googlegoogle搜索原理论文上(内容枯燥但非常有用)
精品推荐
特别推荐
·十大AdSense工具! Top 10 Adsense Tools
·Google展示其内部使用的网络工具
·Gmail 小技巧
·11种途径将提升英文网站PR值
·google提交Sitemaps的常见问题解答
·提高Google域名信任度的8个方法
·使用Google工具条有助于网站收录
·Google搜索引擎介绍
·google沙盒效应产生的原因及其避免方法
·Google搜索技巧2007版
·总结:Google使用技巧
·技巧:GoogleTalk快捷键列表!
·教你如何解除“该网站可能会损害您的计算机”提示
·网站赚钱:Google关键词广告创建的十二高招
·十个值得推荐的Google搜索技巧
·狂想Google未来十大功能
·《Google排名技巧》共十五课学习笔记
·Google AdSense优化的5个最重点提示
·如何让你的网站远离“该网站可能会损害您的计算机”警告?
·Gmail帐号被盗怎么办?几步即可找回
热点TOP10
·做GOOGLE月入一万RMB提示交流
·Google的秘密 招聘条件跟微软一样
·谈Google广告的单价与点击-Smart
·Google广告优化技巧总结
·Google Adsense改变不了网站的命运
·王通:个人如何利用网络赚钱(1)
·十大AdSense工具! Top 10 Adsense Tools
·Google出售Performics服务 维护搜索承诺
·搜索内搜索 Google新工具震惊网络
·Google搜索技巧2007版
·Google Earth中文版-上帝之眼1.1测试版Beta2
·如何“上传图片”到 Google地图
·卫星地图Google中国 可能是一项“要命的创新”
·Google 全球偷窥真相调查
·Google关键词广告创建的十二高招
·Google Adwords优化技巧
·Google Adwords投放报告(一)
·英文视频:Google AdSense技巧视频教程
·GG网赚之:怎么样利用E文站轻松月入100刀
·Google AdSense 中文高价关键词一览

google搜索原理论文上(内容枯燥但非常有用)

日期:2006年9月18日 作者: 查看:[大字体 中字体 小字体]



4.3抓网页运行网络爬行机器人是一项具有挑战性的任务。执行的性能和可靠性甚至更重要,还有一些社会焦点。网络爬行是一项非常薄弱的应用,它需要成百上千的web服务器和各种域名服务器的参与,这些服务器不是我们系统所能控制的。为了覆盖几十亿的网页,Google拥有快速的分布式网络爬行系统。一个URL服务器给若干个网络爬行机器人(我们采用3个)提供URL列表。URL服务器和网络爬行机器人都是用Python实现的。每个网络爬行机器人可以同时打开300个链接。抓取网页必须足够快。最快时,用4个网络爬行机器人每秒可以爬行100个网页。速率达每秒600K。执行的重点是找DNS。每个网络爬行机器人有它自己的DNS cache,所以它不必每个网页都查DNS。每一百个连接都有几种不同的状态:查DNS,连接主机,发送请求,接收回答。这些因素使网络爬行机器人成为系统比较复杂的部分。它用异步IO处理事件,若干请求队列从一个网站到另一个网站不停的抓取网页。运行一个链接到500多万台服务器的网页爬行机器人,产生1千多万登陆口,导致了大量的Email和电话。因为网民众多,总有些人不知道网络爬行机器人是何物,这是他们看到的第一个网络爬行机器人。几乎每天我们都会收到这样的Email"哦,你从我们的网站看了太多的网页,你想干什么?"还有一些人不知道网络搜索机器人避免协议(the robots exclusion protocol),以为他们的网页上写着"版权所有,勿被索引"的字样就会被保护不被索引,不必说,这样的话很难被web crawler理解。因为数据量如此之大,还会遇到一些意想不到的事情。例如,我们的系统曾经企图抓一个在线游戏,结果抓到了游戏中的大量垃圾信息。解决这个问题很简单。但是我们下载了几千万网页后才发现了这个问题。因为网页和服务器的种类繁多,实际上不在大部分Internet上运行它就测试一个网页爬行机器人是不可能。总是有几百个隐含的问题发生在整个web的一个网页上,导致网络爬行机器人崩溃,或者更糟,导致不可预测的不正确的行为。能够访问大部分Internet的系统必须精力充沛并精心测试过。由于象crawler这样大型复杂的系统总是产生这样那样的问题,因此花费一些资源读这些Email,当问题发生时解决它,是有必要的。

4.4Web索引分析—任何运行在整个Web上的分析器必须能够处理可能包含错误的大型集合。范围从HTML标记到标记之间几K字节的0,非ASCII字符,几百层HTML标记的嵌套,各种各样令人难以想象的错误。为了获得最大的速度,我们没有采用YACC产生上下文无关文法CFG分析器,而是采用灵活的方式产生词汇分析器,它自己配有堆栈。分析器的改进大大提高了运行速度,它的精力如此充沛完成了大量工作。把文档装入barrel建立索引—分析完一篇文档,之后把该文档装入barrel中,用内存中的hash表—字典,每个词汇被转换成一个wordID。当hash表字典中加入新的项时,笨拙地存入文件。一旦词汇被转换成wordID,它们在当前文档的出现就转换成hitlist,被写进正向barrel。索引阶段并行的主要困难是字典需要共享。

我们采用的方法是,基本字典中有140万个固定词汇,不在基本字典中的词汇写入日志,而不是共享字典。这种方法多个索引器可以并行工作,最后一个索引器只需处理一个较小的额外词汇日志。排序—为了建立反向索引,排序器读取每个正向barrel,以wordID排序,建立只有标题anchor hi t的反向索引barrel和全文反向索引barrel。这个过程一次只处理一个barrel,所以只需要少量暂存空间。排序阶段也是并行的,我们简单地同时运行尽可能多的排序器,不同的排序器处理不同的桶。由于barrel不适合装入主存,排序器进一步依据wordID和docID把它分成若干篮子,以便适合装入主存。然后排序器把每个篮子装入主存进行排序,并把它的内容写回到短反向barrel和全文反向barrel。

4.5搜索搜索的目标是提供有效的高质量的搜索结果。多数大型商业搜索引擎好像在效率方面花费了很大力气。因此我们的研究以搜索质量为重点,相信我们的解决方案也可以用到那些商业系统中。
Google查询评价过程见图4。
1. 分析查询。
2. 把词汇转换成wordID。
3. 在短barrel中查找每个词汇doclist的开头。
4. 扫描doclist直到找到一篇匹配所有关键词的文档
5. 计算该文档的rank
6. 如果我们在短barrel,并且在所有doclist的末尾,开始从全文barrel的doclist的开头查找每个词,goto 第四步
7. 如果不在任何doclist的结尾,返回第四步。
8. 根据rank排序匹配文档,返回前k个。图4 Google查询评价在有限的响应时间内,一旦找到一定数量的匹配文档,搜索引擎自动执行步骤8。这意味着,返回的结果是子优化的。我们现在研究其它方法来解决这个问题。过去根据PageRank排序hit,看来能够改进这种状况。

4.5.1 Ranking系统 Google比典型搜索引擎保存了更多的web信息。每个hitlish包括位置,字号,大小写。另外,我们还考虑了链接描述文字。Rank综合所有这些信息是困难的。ranking函数设计依据是没有某个因素对rank影响重大。首先,考虑最简单的情况—单个词查询。为了单个词查询中一个文档的rank,Goole在文档的hitlist中查找该词。Google认为每个hit是几种不同类型(标题,链接描述文字anchor,URL,普通大字号文本,普通小字号文本,……)之一,每种有它自己的类型权重。类型权重建立了一个类型索引向量。Google计算hitlist中每种hit的数量。然后每个hit数转换成count-weight。Count-weight开始随hit数线性增加,很快逐渐停止,以至于hit数与此不相关。我们计算count-weight向量和type-weight向量的标量积作为文档的IR值。最后IR值结合PageRank作为文档的最后rank 对于多词查询,更复杂些。现在,多词hitlist必须同时扫描,以便关键词出现在同一文档中的权重比分别出现时高。相邻词的hit一起匹配。对每个匹配hit 的集合计算相邻度。相邻度基于hit在文档中的距离,分成10个不同的bin值,范围从短语匹配到根本不相关。不仅计算每类hit数,而且要计算每种类型的相邻度,每个类型相似度对,有一个类型相邻度权type-prox-weight。Count转换成count-weight,计算count-weight type-proc-weight的标量积作为IR值。应用某种debug mode所有这些数和矩阵与查询结果一起显示出来。这些显示有助于改进rank系统。

上一页 [1] [2] [3] [4] [5] [6] [7] [8] 下一页 




上一篇:名字的起法

下一篇:3721王朝灭亡记

google搜索原理论文上(内容枯燥但非常有用) 相关文章:
·socket编程原理
·IE7.0浏览器有用的9个使用技巧
·非常漂亮的按钮图片
·免费QQ秀(非常不错啊)
·做GOOGLE月入一万RMB提示交流
·非常漂亮的QQ资料,保证不会让你失望
·Photoshop教程:MM照片弄得非常脏特效
·Telnet高级入侵攻略及原理
·Google的秘密 招聘条件跟微软一样
·谈Google广告的单价与点击-Smart
google搜索原理论文上(内容枯燥但非常有用) 相关软件:
·海量免费毕业论文打包下载
·Google Earth 动态卫星地图 汉化版 带我们进入间谍时代 能看见你家院子
·卫星定位地图GoogleEarth 看全球每个平方角超级高清定位
·整形模拟软件_非常face V1.0
·精通.Net核心技术原理与构架
·城市规划原理模拟试题(附答案)
·卫星定位地图GoogleEarth 看全球每个平方角
·2006年考研政治强化班·马克思主义政治经济学原理 刘儒 08
·2006年考研政治强化班·马克思主义政治经济学原理 刘儒 07
·Google Earth 动态卫星地图 汉化版 能看见你家院子的车 电信做种

特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。
[打印本页] [关闭窗口] 转载请注明来源:http://www.vipcn.net
| 帮助(?) | 版权声明 | 友情连接 | 关于我们 | 信息发布
Copyright 2007 www.vipcn.net All Rights Reserved. 鄂ICP备05000083号Powered by:viphot