ORACLE 的原来设计是基于事务型的,对处理分析型的就不地道了。最近的发展ORACLE相关技术开发都逐步适应OLAP的需求。
1 分区技术 2 压缩技术 3索引组织表 4 大块 5并行技术 6内存结果集。
原来的ORACLE设计基础是短小精悍的大规模并发事务。 而甲骨文凭借这一点占领了大部分数据库市场份额。微软的SQLSERVER以它的综合型,友好型和简单易用型占领了中小企业市场。
要设计个ORACLE 10G分析系统,不能选择默认安装法。连机器的存储也不能按OLTP的思维。
基于目前的RAC技术 它是为了OLTP的高可用型而设计的。不适合分析系统的驻留的机器系统。 ORACLE 还没有IBM的分库数据库,可以水平无限扩展。
选择一台分析系统的服务器,基本上是RAID0+RAID5+SSD&nboracle账号sp; 大内存+多CPU的单台机器。
选择SSD固态硬盘主要是用于分析即时型很强的报表需求。 而RAID0主要存储1个月的数据,这个基本上是很频繁访问的数据报表需求。 RAID5或者RAID10等主要存储历史数据了。
大内存主要用于做GROUP BY 运算, 多CPU用户并行查询。
分析系统的分层设计。 分层设计主要是把数据逐步的融缩精华。提供比较多的灵活型。
1 数据同步层, 设置个用户和模式 DATA_synch 主要从各个数据源中获取数据到该用户模式下。表空间 DATA_DAY,DATA_MON,DATA_HIS 三个时间段的空间。
2 数据拆分和汇总。 设置个用户和模式 data_split_sum 主要从源数据提取出部分字段的表,和从中提取时间等粒度的表,或者提取出部分用户的表。
比如活跃用户表
3 报表结果层: data_result 这一层主要存放最终想要的数据。
这三层可以在同一台数据库中,也可以安放在不同的机器上
表空间设计: 分为数据和索引表空间 同时在分为 SSD,RAID0 RAID5空间:ssd_index,ssd_data,raid0_index,raid0_data,raid5_index,raid5_data
注意把重要的表,重要的运算涉及到表,以及即时性要求高的表,领导每天要的表 放在SSD表空间中。
数据同步重要的放进SSD表空间中,其他的不重要的放进RAID0表空间里去。 超过一个月上的数据存进历史表空间。
所有的表要考虑做成索引组织表,因为组织表是有序存放的。 SSD还是存放的是日和周级别的重要表,可以采用原来的堆组织表。
RAID0表空间存放当月的数据,因此可以采用非压缩式索引组织表,块空间FREE为0-10 主要看该表的数据更新周期,也就是说稳定时间。比如说该表的数据从外面拖过来后,下一天再拖数据过来要修改前天数据的值。这就是稳定周期。如果硬盘空间有多余的话 可以再设个RAID0_DAY表空间,把那些需要一定时间才稳定下来的表存放此处。等它稳定后才同步到月表空间里去。这样块的FREE可以设置为0.
RAID5空间的表设计 要分区,双分区,压缩,索引组织表,块FREE为0.毕竟这个空间主要存放超过一个月上的历史数据。
最后所有的表的块应该设计为64KB-128KB
开发中使用并行技术 /*+paraller(4)*/
内存表: with _as 共用一张内存数据
拆分数据库中的表除了提取某些字段外, 还经常需要 新增用户,活跃用户,充值用户,购买用户等 有可能结果层统计数据时候要关联很多表造成速度缓慢。
这可以把这几张表做成聚族表。或者是把表做出列。
比如 用户名, 注册时间,第一次充值时间,第一次购买时间,第一次等。
总体来说 1数据量小化,2数据块读取少量化。 包含读取的次数和块的多少。