google搜索原理论文上(内容枯燥但非常有用)
|
日期:2006年9月18日 作者: 查看:[大字体
中字体 小字体]
|
⑤URL分析器(URL Resolver)读取Anchor文档中的信息,然后做⑥中的工作。 ⑥(a)将其锚文本(Anchor Text)所指向的URL转换成网页的docID;(b)将该docID与原网页的docID形成"链接对",存入Link数据库中;(c)将Anchor Text指向的网页的docID与顺排档特殊索引项Anchor Hits相连接。 ⑦数据库Link记录了网页的链接关系,用来计算网页的PageRank值。 ⑧文档索引(Document Index)把没有进行索引分析的网页传递给URL Server,URL Server则向Crawler提供待遍历的URL,这样,这些未被索引的网页在下一次工作流程中将被索引分析。 ⑨排序器(Sorter)对数据桶(Barrels)的顺排档索引重新进行排序,生成以关键词(wordID)为索引的倒排档索引。倒排档索引结构如图4所示:
图4 倒排档索引结构 ⑩将生成的倒排档索引与先前由索引器产生的索引词表(Lexicon)相连接产生一个新的索引词表供搜索器(Searcher)使用。搜索器的功能是由网页服务器实现的,根据新产生的索引词表结合上述的文档索引(Document Index)和Link数据库计算的网页PageRank值来匹配检索。
在执行检索时,Google通常遵循以下步骤(以下所指的是单个检索词的情况): (1)将检索词转化成相应的wordID; (2)利用Lexicon,检索出包含该wordID的网页的docID; (3)根据与Lexicon相连的倒排档索引,分析各网页中的相关索引项的情况,计算各网页和检索词的匹配程度,必要时调用顺排档索引; (4)根据各网页的匹配程度,结合根据Link产生的相应网页的PageRank情况,对检索结果进行排序; (5)调用Document Index中的docID及其相应的URL,将排序结果生成检索结果的最终列表,提供给检索用户。 用户检索包含多个检索词的情况与以上单个检索词的情况类似:先做单个检索词的检索,然后根据检索式中检索符号的要求进行必要的布尔操作或其他操作。
(出处:清风网络学院)
上一篇:名字的起法
下一篇:3721王朝灭亡记
|
| google搜索原理论文上(内容枯燥但非常有用) 相关文章: |
|
|
|
| google搜索原理论文上(内容枯燥但非常有用) 相关软件: |
|
|
|