第十四章 数据仓库与数据挖掘
1.数据仓库
(1) 特性:面向主题:设计方法
集成:数据的抽取,转换,(清洗),装载
不可更新
随时间变化
粒度:粒度与综合程度成正比
元数据:技术型和业务型
维护:实时延时和快照维护增量维护
(2) 设计方法:自底向上,自顶向下
2.OLAP:
即时OLAP,全局OLTP
基本操作:钻取,卷起
切片和切块,旋转
多维molap,关系rolap,混合 holap
3.数据挖掘
(1) 方法:关联规则挖掘:支持度和置信度
分类挖掘:监督学习,知道怎么分,
样本集,训练集,测试集,验证集:分类算法,分类器
聚类挖掘:无监督学习靠系统分析分类,K-means:同一集合尽可能大,不同尽可能小
时间序列分析
4.知识发现
步骤:数据准备,数据挖掘,结果的解释评估
目录
1 基本概念
2 决策支持系统(DSS)的发展
2.1 基本概念
2.2 基于数据仓库的决策支持系统
3 数据仓库技术概述
3.1 数据仓库的概念和特性
3.2 数据仓库的体系结构和环境
3.3 数据仓库的数据组织
3.4 元数据
3.5 操作型数据存储
4 设计与建造数据仓库
4.1 数据仓库设计的需求与方法
4.2 数据仓库的数据模型
4.3 数据仓库设计步骤
5 数据仓库的运行与维护
5.1 数据仓库数据的更新维护
5.2 数据仓库监控与元数据管理
6 联机分析处理(OLAP)与多维数据模型
6.1 基本概念
6.2 多维分析的基本操作
6.3 OLAP的实现方式
7 数据挖掘技术
7.1 数据挖掘的步骤
7.2 常见的数据挖掘任务
1 基本概念
数据仓库技术所解决的问题是如何更合理和更有效的组织企业的数据体系,以更好地满足企业信息型应用对数据的要求,降低对企业的数据管理、数据获取和数据集成的成本,提高数据系统响应速度,提高数据质量和数据的一致性。
数据挖掘技术所解决的问题是如何针对具体的分析对象和分析需求,尝试通过智能和自动化的手段把数据转换为有用的信息和知识
2 决策支持系统(DSS)的发展
2.1 基本概念
操作性数据是指由企业的基本业务系统所产生的数据,操作性数据及相应数据处理所处的环境,即用于支持企业基本业务应用的环境
使用DSS的目的是为了增加决策的有效性,而不是为了提高做出决策的效率
2.2 基于数据仓库的决策支持系统
这种体系结构以数据仓库为核心,数据仓库将企业决策支持所需的数据集成在一起,构成一个集成的、一致而稳定的数据源
存在两类数据
原始数据
一般来自于企业操作性系统,因此也可以称之为操作型数据
导出数据
为了提高数据查询和管理效率,根据操作型数据计算得到的数据,常用于支持分析型应用
3 数据仓库技术概述
3.1 数据仓库的概念和特性
建立数据仓库的主要目的是根据决策需求对企业的数据采取适当的手段进行集成,形成一个综合、面向分析的数据环境,用于支持企业的信息型、决策型的分析应用
四个特征
主题性
集成性
不可更新性
时间特性
3.2 数据仓库的体系结构和环境
数据仓库的体系结构
操作型数据
操作型数据存储
数据仓库
数据集市
个体层临时数据
体系的功能
数据处理
数据管理
数据应用
3.3 数据仓库的数据组织
数据分级别
早期细节级
当前细节级
轻度综合级
高度综合级
粒度
一般将综合级别称为粒度,粒度越大、表示综合程度越高,粒度越小,综合程度越低
粒度是一个重要的设计问题,它影响到数据仓库的数据量以及系统能回答的查询的数据类型
数据分区
数据分区问题是数据仓库的另一个重要问题,为了提高数据管理和查询的效率,分区是有效的办法
分区的方式
系统层分区
应用层分区
3.4 元数据
是数据仓库中的重要数据,是关于数据的数据,或者叫做描述数据的数据
描述存储操作型数据的关系数据库的结构、位置、表的结构、表间关系及各种视图等的数据都是元数据
建立元数据的目的是主要在于让用户能更快地找到所需的数据,让前台工具和管理员更好地理解和管理数据
分类
技术型元数据
业务型元数据
3.5 操作型数据存储
目的:为了支持一些特殊的应用功能
即时OLAP应用
全局型OLTP应用
在作为数据源的操作型系统与数据仓库之间存在着一个称为操作型数据存储的(ODS)的数据层
分类
ODS I第一类
数据更新频率是秒级
ODS II 第二类
数据更新频率是小时级
ODS III第三类
数据更新频率是天级
ODS IV第四类
不仅仅包括来自操作型环境的数据,也包括由数据仓库层和数据集市层的应用反馈给ODS的一些决策结果和一些报表信息
4 设计与建造数据仓库
4.1 数据仓库设计的需求与方法
数据仓库的设计
数据体系的设计
应用体系的设计
企业建立数据仓库的目的
实现大量的以数据仓库各层数据为基础的基本信息处理功能
设计方法
数据仓库的设计过程是按照一定的题域分别设计
数据仓库的设计过程是按逐个主题逐步建立的过程,那么就需要进行主题域选择
数据仓库系统设计目标主要在于建立主题数据环境,强调的是数据的集成性,目标在于建立一个全局的一致的数据环境,建立企业的信息资源体系结构的数据核心,并在此基础上,建立基本的觉得支持分析应用
4.2 数据仓库的数据模型
概念模型
是用于描述客观世界中的对象及其属性的一种概念性工具
逻辑模型
物理模型
4.3 数据仓库设计步骤
概念模型设计
技术评估与环境准备工作
逻辑模型设计
物理模型设计
数据生成与应用实现
数据仓库运行与维护
5 数据仓库的运行与维护
5.1 数据仓库数据的更新维护
维护的基本思路
根据某种维护策略,在 一定条件下出发维护操作
维护操作捕捉到数据源中的数据变化
通过一定策略对数据仓库中的数据进行相应的更新操作
维护策略
实时维护
延时维护
捕捉数据源的变化的方法
触发器
修改数据源应用程序
通过日志文件
快照比较法
导出数据的维护方法
一是根据维护对象的数据源对齐进行重新计算
二是根据数据源的变化量在维护对象原有数据的基础上进行数据添加和修改,即增量式维护
5.2 数据仓库监控与元数据管理
数据仓库监控
元数据管理
6 联机分析处理(OLAP)与多维数据模型
6.1 基本概念
OLAP主要用于支持复杂的分析操作,侧重对觉得人员和高层管理人员的决策支持
数据的多维分析是针对数据仓库中以多维形式组织起来的数据,从多个角度、不同层次、采用各种数据分析技术、对数据进行剖析,以使用户能从不同角度和不同层次观察和分析数据
6.2 多维分析的基本操作
钻取
切片
旋转
6.3 OLAP的实现方式
MOLAP基于多维数据库的OLAP
ROLAP基于关系数据库的OALP
HOLAP混合型的OLAP
7 数据挖掘技术
7.1 数据挖掘的步骤
数据准备
数据挖掘
结果解释评估
7.2 常见的数据挖掘任务
分类
估计
预测
相关性分组
关联规则
聚类
描述
评论区
欢迎你留下宝贵的意见,昵称输入QQ号会显示QQ头像哦~