2022-12-08 02:33来源:m.sf1369.com作者:宇宇
PRM-DUL 可以直接从Oracle .DBF数据文件中抽取出表的数据。Oracle DBA神器:PRM灾难恢复工具,Schema级别数据恢复。
PRM For Oracle Database – schema级别oracle数据库数据恢复特性 ,PRM即ParnassusData Recovery Manager是企业级别Oracle数据库灾难恢复工具。
PRM可以在无备份的情况下恢复被truncated掉的表,也可以恢复无法打开的Oracle数据库(Alter Database Open失败)中的数据。
一、数据库性能指标
数据库性能一般用两个方面的指标来衡量:响应时间和吞吐量。响应越快,吞吐量越大,数据库性能越好。
1. 操作系统有关的指标:CPU平均利用率、内存平均占用率、硬盘占用率、I/O数量、网络时延
2. 数据库有关的指标:I/Owait、Mem平均使用率、cpu平均使用率、在一次I/O操作中所读的最大BLOCKS数、Log的增长情况、数据库的访问速度、数据库能支持的最大用户数、数据库CACHE命中率、不同数据库参数下的性能情况、锁的处理
二、Oracle
注:以下指标取自Oracle的性能分析工具Statspack所提供的性能分析指标。
1.关于实例效率(Instance Efficiency Percentages)的性能指标
(1)缓冲区未等待率(Buffer Nowait %)
指在缓冲区中获取Buffer的未等待比率。该指标的值应接近100%,如果该值较低,则可能要增大buffer cache。
(2)Redo缓冲区未等待率(Redo NoWait %)
指在Redo缓冲区获取Buffer的未等待比率。该指标的值应接近100%,如果该值较低,则有2种可能的情况:
1.online redo log没有足够的空间;
2.log切换速度较慢。
(3)缓冲区命中率(Buffer Hit %)
指数据块在数据缓冲区中的命中率。
(4)内存排序率(In-memory Sort %)
指排序操作在内存中进行的比率。当查询需要排序的时候,数据库会话首先选择在内存中进行排序,当内存大小不足的时候,将使用临时表空间进行磁盘排序,但磁盘排序效率和内存排序效率相差好几个数量级。
(5)共享区命中率(Library Hit%)
该指标主要代表sql在共享区的命中率。
(6)软解析的百分比(Soft Parse %)
该指标是指Oracle对sql的解析过程中,软解析所占的百分比。软解析(soft parse)是指当Oracle接到Client提交的Sql后会首先在共享池(Shared Pool)里面去查找是否有之前已经解析好的与刚接到的这一个Sql完全相同的Sql。当发现有相同的Sql就直接用之前解析好的结果,这就节约了解析时间以及解析时候消耗的CPU资源。
(7)闩命中率(Latch Hit%)
指获得Latch的次数与请求Latch的次数的比率。
数据来源于Kaggle的电商数据集 The UCI Machine Learning Repository ,英国在线零售商在2010年12月1日到2011年12月9日的在线销售数据,该电商公司主要以销售各类礼品为主,多数客户都是批发商。
使用Oracle 对数据进行处理与清洗,通过RFM模型、复购率、消费生命周期等对用户维度进行分析,利用ABC分类、退货率等维度展开剖析,结合Excel图表进行可视化展示,为精准营销与个性化服务提供支持。
根据分析目的选择字段,数据集共8个字段,如果表格字段较多,视情根据分析目的的需要选择合适的字段。
创建备用表new_ecommerce,将旧表的数据去重添加进备用表。原有数据541909条, 去重后数据536641条,删除重复值5268条。
检查缺失值
CustomerID存在缺失值135037条,Description出现缺失值1454条。数据都很大,不可能全部删除。Description产品描述不是项目分析,不用处理。
在实际工作中,像CustomerID客户ID缺失,首先找业务部门或者数据来源部门确认信息并且补上。本项目只有单一数据,无法找到相关人员确认,暂且把NULL值替换为0。
5.1检查日期是否在范围内(2010年12月1日到2011年12月9日)
交易成功,销量不可能为负值或零值。如果销量为零或者负值情况,那么需要和业务/数据来源部门确认具体的原因。这里假设出现负值是客户退货情况。
检查发现交易销量小于0的发票编号大都是C”开头的,有部分异常销量小于0但不是以C开头,这里做删除处理。
检查发现有单价为0的免费单,共计1174。暂且不分析免费单,直接删除免费单的数据。
检查发现两笔坏账,单价都是负值,故把它删除。
根据分析目的,我们处理InvoiceDate日期数据。这里只做日期分析,不分析小时分钟,故转换为日期格式。
根据分析目的,本次分析将采用RFM模型
在RFM模式中:
R:最近一次消费时间(最近一次消费到参考时间的间隔)
F:消费的频率(消费了多少次)
M:消费的金额 (总消费金额)
一般的分析型RFM强调以客户的行为来区分客户。
根据最近一次消费与客户数的分析结果显示最长的天数差是373天,最短0天;80%的客户在200天内都有交易记录,说明客户忠诚度不错。
分析显示,10次交易记录以内的客户占绝大部分,说明客户是很认可产品和服务。
在2010年12月1日到2011年12月9日期间,交易金额主要集中在 1000英镑以内和1000-3000英镑这两个范围内。
分析发现,该电商平台总交易客户数4372位。交易客户中,一般发展客户(可以说是新客户)最多,占总数的34%,其次是一般挽留客户(流失客户)29%,重要发展客户22%,重要价值客户10%,重要挽留客户5%和重要挽回客户0.16%。
每月新客数量及其占比
每月的新老客户的销售数量与销售金额
用户生命周期 = 最近一次购买时间 - 第一次购买时间
商品退货分析
结合ABC分类进行分析,选取退货率大于均值且为A级的商品(主要是综合上文提及的ABC分类和退货率计算,通过创建view的形式进行联结后筛选,创建退货率视图为view_return_rate,ABC分类视图为view_class),这里筛选出64个商品。