来源:黄永胜 教程 一、信息检索传统评价指标体系的缺陷 从1994年4月,Web上第一个搜索引擎Web Crawler问世到今日,网上搜索引擎已有数千种;同时,伴随着搜索引擎的广泛应用,人们对搜索引擎信息检索性能的比较与研究也从1995年开始逐渐重视。但由于Internet网络上存储的信息浩如烟海,且始终处于动态变化之中,这使得大多数传统的重要信息检索指标难以量化,如:“查全率”无法计量,这是因为整个互联网上相关文献信息总量处于动态变化之中难以计算;“查准率”也难以实际操作,这是因为对大多数课题来说,检察结果的返回数都比较大,相关性判断的工作量非常大,这就使得传统的“查准率”判断不具有现实可操作性;“响应时间”不能得到一致的、准确的数据,同一课题,在不同的时间段或不同的地点,“响应时间”都会不同,这是因为它受到通讯设备、网络的拥挤程度等外部因素的影响所致。
二、建立搜索引擎主要性能评价指标体系的若干原则
正因为信息检索传统的评价指标体系存在着比较大的缺陷,难以对现代网络信息检察工具———搜索引擎进行客观、科学的评价,由此有必要对传统信息检索评价指标体系进行扬弃;保留其合理的成分,克服其严重的缺陷,从而建立一套科学、合理、有效的搜索引擎评价指标体系。要建立一套搜索引擎主要性能的评价指标体系,首先就必须探讨建立搜索引擎评价指标体系的原则,以保证我们建立的搜索引擎评价指标体系有一个客观、统一的基础。我们认为搜索引擎评价指标体系的建立应该符合以下三原则:科学、合理、有效。
1.科学:就是指新建立的搜索引擎评价指标体系能客观、真实、全面地反映搜索引擎的主要性能及其同内在联系。
2.合理:就是指搜索引擎评价指标体系是对传统的信息检索评价指标体系的扬弃,继承信息检索传统评价指标体系中的有用部分,摈弃信息检索传统评价指标中存在严重缺陷的部分,增加新的适合互联网上信息检索评价需求的内容。使搜索引擎评价指标体系既继承传统评价指标体系,又符合当代科学技术发展的客观要求。
3.有效:有效是指搜索引擎评价指标体系既能比较准确地区分各搜索引擎的主要性能,又是简单易用、方便操作。
三、搜索引擎主要性能评价指标体系
根据建立搜索引擎评价指标体系的若干原则,我们认为可以建立以下搜索引擎主要性能评价指标,它包含以下几个部分:
1.搜索引擎索引库的相关评价指标索引数据库的构成是搜索引擎检索性能优劣的基础,由此我们把它摆在评价指标的第一部分来考虑。搜索引擎索引库的评价指标应该包括索引标引数量、标引的文件种类、标引深度和更新频率等方面。由于索引标引数量我们难以检测,可以通过本文后面提到的“相关查全率”来间接反映,故这里把它剔除。索引标引深度内含几方面的内容,如全面索引或部分索引、是否考虑超文本的不同标记所表示的不同含义和是否收集页面中的超链接等,而且索引数据库标引的深度直接影响检索效果,所以我们把它细分为三方面。
2 .搜索引擎检索功能的相关指标搜索引擎检索功能的评价指标主要包括:基本检索、高级检索、目录式浏览检索和其他功能检索。
首发加加网络营销 http://www.searchweb.cn
(出处:清风网络学院)
上一篇:构建免受 FSO 威胁虚拟主机
下一篇:用PHP实现自己的搜索引擎
|