1. 数据挖掘的体系结构 * 综合技术体系结构:Figure5-1(标准接口和接口定义语言),Figure5-3 * 功能体系结构:Figure5-4,Figure5-5 * 系统体系结构:ODBC/CORBA Figure5-8,Figure5-9,三层体系结构Figure5-10,封装对象:Figure5-11 Part II. Techniques and Tools for Data Mining
1. 数据挖掘过程 * 数据挖掘项目: 需求;合适的数据;工具;人员;资金。 * 例子 o 超市分析交易数据,安排货架上货物摆布,以提高销售 o 信用卡公司分析信用卡历史数据,判断哪些人有风险,哪些没有 o 调查局分析行为模式,判断哪些人对受保护的信息具有潜在威胁 o 药房分析医师的处方,判断哪些医师愿意购买他们的产品 o 保险公司分析以前的客户记录,决定哪些客户是潜在花费昂贵的 o 汽车公司分析不同地方人的购买模型,针对性地发送给客户喜欢的汽车的手册 o 人才中心分析不同客户的工作历史,发送客户潜在的感兴趣的工作信息 o 访问没有归类的竞争对手数据库,推断出潜在的归类信息 o 教育学院分析学生历史信息,决定哪些人愿意参加培训,发送手册给他们 o 核武器工厂分析历史核查信息记录,决定没有采用哪项预防措施将导致核灾难 o 广告公司分析人们购买模式,估计他们的收入和孩子数目, 作为潜在的市场信息 o 调查局分析不同团体的旅游模式,决定不同团体之间的关联 o 医师分析病人历史和当前用药情况,不仅诊断用药而且预测潜在的问题 o 税务局分析不同团体的交所得税的记录,发现异常模型和趋势 o 调查局分析罪犯记录,推断哪些人可能会犯恐怖罪和大的谋杀罪
o 分类 o Estimation: 例子,分析消费模型,估计个人收入和孩子数目 o 预言 例子,根据个人教育、当前工作、行业趋势,预言2005年工资 o Affinity Grouping(关联规则,Correlation ) o 聚集 o 偏差分析deviation o 异常检测 anomaly:fraud detection ; medical illness detection …
* 数据挖掘方法 Figure 7-3 o 自顶向下top-down:以假设开始 o 自下而上bottom-up:直接(supervised learning)- 提问;间接 o 混合方法
* 数据挖掘技术和算法 o market basket analysis: 智能搜索,超市 o 决策树:分类 o 神经网络:聚集,偏差分析… o 归纳逻辑程序 o link analysis, automatic cluster detection techniques ,nearest neighbor techniques o 遗传算法 o 模糊逻辑 o 约略集rough set o concept learning 概念学习 o 简单的基于规则的推理