2022-11-29 07:39来源:m.sf1369.com作者:宇宇
CUBEKPIMEMBER 返回重要性能指标 (KPI) 名称、属性和度量,并显示单元格中的名称和属性。
KPI 是一项用于监视单位业绩的可量化的指标,如每月总利润或每季度雇员调整。CUBEMEMBER 返回多维数据集层次结构中的成员或元组。用于验证多维数据集内是否存在成员或元组。CUBEMEMBERPROPERTY 返回多维数据集内成员属性的值。用于验证多维数据集内是否存在某个成员名并返回此成员的指定属性。CUBERANKEDMEMBER 返回集合中的第 n 个或排在一定名次的成员。用于返回集合中的一个或多个元素,如业绩排在前几名的销售人员或前 10 名学生。CUBESET 通过向服务器上的多维数据集发送集合表达式来定义一组经过计算的成员或元组(这会创建该集合),然后将该集合返回到 Microsoft Office Excel。CUBESETCOUNT 返回集合中的项数。CUBEVALUE 返回多维数据集内的汇总值。
多维数据库集就像一座楼,这座楼是由一个一个往后延伸的平面组成,一个平面就是二维,再加上一个描述第几个平面的就属于三维了,如果是很多这样的楼(比如一个小区)你需要定位一家楼房的位置,是不是还要描述在小区的位置,那这就是四维,如果是一个城市的分区呢(比如越秀区)你又需要描述小区的位置,依次叠加,纬度也越来越多。
一、什么是回归分析法
“回归分析”是解析“注目变量”和“因于变量”并明确两者关系的统计方法。此时,我们把因子变量称为“说明变量”,把注目变量称为“目标变量址(被说明变量)”。清楚了回归分析的目的后,下面我们以回归分析预测法的步骤来说明什么是回归分析法:
回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。
二、回归分析的目的
回归分析的目的大致可分为两种:
第一,“预测”。预测目标变量,求解目标变量y和说明变量(x1,x2,…)的方程。
y=a0+b1x1+b2x2+…+bkxk+误差(方程A)
把方程A叫做(多元)回归方程或者(多元)回归模型。a0是y截距,b1,b2,…,bk是回归系数。当k=l时,只有1个说明变量,叫做一元回归方程。根据最小平方法求解最小误差平方和,非求出y截距和回归系数。若求解回归方程.分別代入x1,x2,…xk的数值,预测y的值。
第二,“因子分析”。因子分析是根据回归分析结果,得出各个自变量对目标变量产生的影响,因此,需要求出各个自变量的影响程度。
希望初学者在阅读接下来的文章之前,首先学习一元回归分析、相关分析、多元回归分析、数量化理论I等知识。
根据最小平方法,使用Excel求解y=a+bx中的a和b。那么什么是最小平方法?
分别从散点图的各个数据标记点,做一条平行于y轴的平行线,相交于图中直线(如下图)
平行线的长度在统计学中叫做“误差”或者‘残差”。误差(残差)是指分析结果的运算值和实际值之间的差。接这,求平行线长度曲平方值。可以把平方值看做边长等于平行线长度的正方形面积(如下图)
最后,求解所有正方形面积之和。确定使面积之和最小的a(截距)和b(回归系数)的值(如下图)。
使用Excel求解回归方程;“工具”→“数据分析”→“回归”,具体操作步骤将在后面的文章中具体会说明。
线性回归的步骤不论是一元还是多元相同,步骤如下:
1、散点图判断变量关系(简单线性);
2、求相关系数及线性验证;
3、求回归系数,建立回归方程;
4、回归方程检验;
5、参数的区间估计;
6、预测;
一元线性回归操作和解释
摘要
一元线性回归可以说是数据分析中非常简单的一个知识点,有一点点统计、分析、建模经验的人都知道这个分析的含义,也会用各种工具来做这个分析。这里面想把这个分析背后的细节讲讲清楚,也就是后面的数学原理。
什么是一元线性回归
回归分析(Regression Analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。举个例子来说吧:
比方说有一个公司,每月的广告费用和销售额,如下表所示:
案例数据
如果我们把广告费和销售额画在二维坐标内,就能够得到一个散点图,如果想探索广告费和销售额的关系,就可以利用一元线性回归做出一条拟合直线:
拟合直线
这条线是怎么画出来的
对于一元线性回归来说,可以看成Y的值是随着X的值变化,每一个实际的X都会有一个实际的Y值,我们叫Y实际,那么我们就是要求出一条直线,每一个实际的X都会有一个直线预测的Y值,我们叫做Y预测,回归线使得每个Y的实际值与预测值之差的平方和最小,即(Y1实际-Y1预测)^2+(Y2实际-Y2预测)^2+ …… +(Yn实际-Yn预测)^2的和最小(这个和叫SSE,后面会具体讲)。
现在来实际求一下这条线:
我们都知道直线在坐标系可以表示为Y=aX+b,所以(Y实际-Y预测)就可以写成(Y实际-(aX实际+b)),于是平方和可以写成a和b的函数。只需要求出让Q最小的a和b的值,那么回归线的也就求出来了。
简单插播一下函数最小值怎么求:
首先,一元函数最小值点的导数为零,比如说Y=X^2,X^2的导数是2X,令2X=0,求得X=0的时候,Y取最小值。
那么实质上二元函数也是一样可以类推。不妨把二元函数图象设想成一个曲面,最小值想象成一个凹陷,那么在这个凹陷底部,从任意方向上看,偏导数都是0。
因此,对于函数Q,分别对于a和b求偏导数,然后令偏导数等于0,就可以得到一个关于a和b的二元方程组,就可以求出a和b了。这个方法被称为最小二乘法。下面是具体的数学演算过程,不愿意看可以直接看后面的结论。
先把公式展开一下:
Q函数表达式展开
然后利用平均数,把上面式子中每个括号里的内容进一步化简。例如
Y^2的平均
则:
上式子两边×n
于是
Q最终化简结果
然后分别对Q求a的偏导数和b的偏导数,令偏导数等于0。
Q分别对a和b求偏导数,令偏导数为0
进一步化简,可以消掉2n,最后得到关于a,b的二元方程组为
关于a,b的 二元方程组
最后得出a和b的求解公式:
最小二乘法求出直线的斜率a和斜率b
有了这个公式,对于广告费和销售额的那个例子,我们就可以算出那条拟合直线具体是什么,分别求出公式中的各种平均数,然后带入即可,最后算出a=1.98,b=2.25
最终的回归拟合直线为Y=1.98X+2.25,利用回归直线可以做一些预测,比如如果投入广告费2万,那么预计销售额为6.2万
评价回归线拟合程度的好坏
我们画出的拟合直线只是一个近似,因为肯定很多的点都没有落在直线上,那么我们的直线拟合程度到底怎么样呢?在统计学中有一个术语叫做R^2(coefficient ofdetermination,中文叫判定系数、拟合优度,决定系数,系统不能上标,这里是R^2是“R的平方”),用来判断回归方程的拟合程度。
首先要明确一下如下几个概念:
总偏差平方和(又称总平方和,SST,Sum of Squaresfor Total):是每个因变量的实际值(给定点的所有Y)与因变量平均值(给定点的所有Y的平均)的差的平方和,即,反映了因变量取值的总体波动情况。如下:
SST公式
回归平方和(SSR,Sum of Squares forRegression):因变量的回归值(直线上的Y值)与其均值(给定点的Y值平均)的差的平方和,即,它是由于自变量x的变化引起的y的变化,反映了y的总偏差中由于x与y之间的线性关系引起的y的变化部分,是可以由回归直线来解释的。
SSR公式
残差平方和(又称误差平方和,SSE,Sum of Squaresfor Error):因变量的各实际观测值(给定点的Y值)与回归值(回归直线上的Y值)的差的平方和,它是除了x对y的线性影响之外的其他因素对y变化的作用,是不能由回归直线来解释的。
这些概念还是有些晦涩,我个人是这么理解的:
就拿广告费和销售额的例子来说,其实广告费只是影响销售额的其中一个比较重要的因素,可能还有经济水平、产品质量、客户服务水平等众多难以说清的因素在影响最终的销售额,那么实际的销售额就是众多因素相互作用最终的结果,由于销售额是波动的,所以用上文提到的每个月的销售额与平均销售额的差的平方和(即总平方和)来表示整体的波动情况。
回归线只表示广告费一个变量的变化对于总销售额的影响,所以必然会造成偏差,所以才会有实际值和回归值是有差异的,因此回归线只能解释一部分影响
那么实际值与回归值的差异,就是除了广告费之外其他无数因素共同作用的结果,是不能用回归线来解释的。
因此SST(总偏差)=SSR(回归线可以解释的偏差)+SSE(回归线不能解释的偏差)
那么所画回归直线的拟合程度的好坏,其实就是看看这条直线(及X和Y的这个线性关系)能够多大程度上反映(或者说解释)Y值的变化,定义
R^2=SSR/SST 或 R^2=1-SSE/SST, R^2的取值在0,1之间,越接近1说明拟合程度越好
假如所有的点都在回归线上,说明SSE为0,则R^2=1,意味着Y的变化100%由X的变化引起,没有其他因素会影响Y,回归线能够完全解释Y的变化。如果R^2很低,说明X和Y之间可能不存在线性关系
还是回到最开始的广告费和销售额的例子,这个回归线的R^2为0.73,说明拟合程度还凑合。
四、相关系数R和判定系数R^2的区别
判定系数R^2来判断回归方程的拟合程度,表示拟合直线能多大程度上反映Y的波动。
在统计中还有一个类似的概念,叫做相关系数R(这个没有平方,学名是皮尔逊相关系数,因为这不是唯一的一个相关系数,而是最常见最常用的一个),用来表示X和Y作为两个随机变量的线性相关程度,取值范围为【-1,1】。
当R=1,说明X和Y完全正相关,即可以用一条直线,把所有样本点(x,y)都串起来,且斜率为正,
当R=-1,说明完全负相关,及可以用一条斜率为负的直线把所有点串起来。
如果在R=0,则说明X和Y没有线性关系,注意,是没有线性关系,说不定有其他关系。
就如同这两个概念的符号表示一样,在数学上可以证明,相关系数R的平方就是判定系数。
变量的显著性检验
变量的显著性检验的目的:剔除回归系数中不显著的解释变量(也就是X),使得模型更简洁。在一元线性模型中,我们只有有一个自变量X,就是要判断X对Y是否有显著性的影响;多元线性回归中,验证每个Xi自身是否真的对Y有显著的影响,不显著的就应该从模型去掉。
变量的显著性检验的思想:用的是纯数理统计中的假设检验的思想。对Xi参数的实际值做一个假设,然后在这个假设成立的情况下,利用已知的样本信息构造一个符合一定分布的(如正态分布、T分布和F分布)的统计量,然后从理论上计算得到这个统计量的概率,如果概率很低(5%以下),根据“小概率事件在一次实验中不可能发生”的统计学基本原理,现在居然发生了!(因为我们的统计量就是根据已知的样本算出来的,这些已知样本就是一次实验)肯定是最开始的假设有问题,所以就可以拒绝最开始的假设,如果概率不低,那就说明假设没问题。
其实涉及到数理统计的内容,真的比较难一句话说清楚,我举个不恰当的例子吧:比如有一个口袋里面装了黑白两种颜色的球一共20个,然后你想知道黑白球数量是否一致,那么如果用假设检验的思路就是这样做:首先假设黑白数量一样,然后随机抽取10个球,但是发现10个都是白的,如果最开始假设黑白数量一样是正确的,那么一下抽到10个白的的概率是很小的,但是这么小概率的事情居然发生了,所以我们有理由相信假设错误,黑白的数量应该是不一样的……
总之,对于所有的回归模型的软件,最终给出的结果都会有参数的显著性检验,忽略掉难懂的数学,我们只需要理解如下几个结论:
T检验用于对某一个自变量Xi对于Y的线性显著性,如果某一个Xi不显著,意味着可以从模型中剔除这个变量,使得模型更简洁。
F检验用于对所有的自变量X在整体上看对于Y的线性显著性
T检验的结果看P-value,F检验看Significant F值,一般要小于0.05,越小越显著(这个0.05其实是显著性水平,是人为设定的,如果比较严格,可以定成0.01,但是也会带来其他一些问题,不细说了)
下图是用EXCEL对广告费和销售额的例子做的回归分析的结果(EXCEL真心是个很强大的工具,用的出神入化一样可以变成超神),可以看出F检验是显著的(Significance F为0.0017),变量X的T检验是显著的(P-value为0.0017),这俩完全一样也好理解,因为我们是一元回归,只有一个自变量X。
用Excel做线性回归分析
还有一点是intercept(截距,也就是Y=aX+b中的那个b)的T检验没有通过,是不显著的,一般来说,只要F检验和关键变量的T检验通过了,模型的预测能力就是OK的。
excel进行显著性检验的方法与步骤:
1.先找ADD-IN,添加数据分析工具data analysis tool。 Add-in的选项在File-> Option->Add Ins, 选择analysis tool pack。
2.会跳出来一个窗口,再选中analysis tookpack ,确定就好了。
3.把得到的两组数据输入EXCEL里。
4.在DATA里面,选择data analysis,跳出来新窗口,选中correlation(相关性)。然后按照提示,选中要分析的数据。
5.EXCEL会自动运行回归分析,给出分析报告。分析报告里mutiple R 接近1,就说明两个的相关性比较大。拟合关系要看R2,显著性看signifnance F。
一、ROLAP 与 MOLAP 与 HOLAP 之间的区别
ROLAP 与 MOLAP 与 HOLAP 是表示逻辑数据模型的数据仓库的相关术语。
ROLAP 是指关系数据的关系在线分析处理。
MOLAP 被称为多维在线分析处理,它通过多个数据维度来实现。
HOLAP 被称为混合在线分析处理,适用于 ROLAP 和 MOLAP 概念。
数据仓库中的数据存储和数据安排、设计的视图访问取决于 OLAP 实现的类型。ROLAP SQL 是查询技术,而 MOLAP 使用稀疏矩阵,而 HOLAP 使用 SQL 和稀疏矩阵技术。
二、ROLAP 与 MOLAP 与 HOLAP 之间的主要区别
2.1、ROLAP 是 关系型 OLAP
其中数据以传统方法排列,如数据仓库中的行和列。它以多维形式对用户可见和访问。为了将其显示为多维视图,数据被设计为支持数据收集和存储的元数据的相关层。它动态地处理复杂的查询。它比 MOLAP 慢,其中 ROLAP 以更高的速度处理大量数据。
2.2、MOLAP 是一种多维 OLAP
其中在注册系统上分析数据。数据排列在多维数组中。在数据库管理中加载数据时,该数组携带预定义的数据。MOLAP 系统是在应用层实现的,当用户发送任何请求时,它以最短的响应时间获取数据。
关系模型的表达能力不包括创建特定数据类型的维度和度量主题。基本元素包括完整性、属性、关系,主要应用于星型模式。
ROLAP 使用 SQL 作为其功能语言来获取数据并对其进行处理,而MOLAP 使用稀疏矩阵技术以多维数据立方体的形式从多维数组中获取数据。
ROLAP 响应时间慢,因为它显示任何数据的多维形式,但 MOLAP 非常快,因为它不显示任何多维视图。
ROLAP 和 MOLAP 都处理复杂的查询,并有其独特的性能。如果用户想要任何快速响应系统,他可以采用 MOLAP
2.3、HOLAP
ROLAP 和 MOLAP 致力于优化技术并因其稀疏性而创建。这里形成了中间结构 HOLAP,混合了 MOLAP 和 ROLAP 的优点。
大量数据处理能力取自 ROLAP,
查询速度方法取自 MOLAP,MOLAP 提供给作为标准化模型的 HOLAP。
HOLAP 依靠其庞大的数据应该保存在关系数据库管理系统中,以摆脱稀疏性和多维引擎所造成的缺陷,该引擎只存储用户所需的信息并提供他们频繁访问。但是,如果用户请求更多相关数据来解决任何复杂的查询,它会提供对关系数据库该部分的透明访问。
2.3.1、但是在这个设计中,为了获得高性能,我们需要克服一些困难
应提高处理的质量以满足客户的要求。数据仓库从初始阶段到结束阶段的质量应该是一致的。
重要的指标是准确性、更新的数据、完整的数据、一致性、可追溯性、可用性和清晰度。
在准确性中,数据应该具有正确和真实的值,因为在 ETL时缺失值的可能性很高,并且应避免对任何属性赋予非标准值
数据应定期更新,不应包含任何旧数据
不应错过数据立方体。因为每个数据集都代表唯一的主键,所有的值都应该从上到下存储,并且应该作为完整的数据可用
数据的表示应该以有序的方式进行适当的排列,从而为用户提供高一致性性能。
数据应易于用户随时获取和访问
数据池应该有关于源的正确导航,以便用户可以轻松地直接访问该部分数据,而不会浪费任何时间
数据应具有高度的清晰度,并应易于理解。
三、ROLAP vs MOLAP vs HOLAP 对比
对比 ROLAP MOLAP HOLAP
首字母缩略词 关系在线分析处理 多维在线分析处理 混合在线分析处理
储存方法 数据存储在主数据仓库中 数据存储在注册数据库MDDB上 数据存储在关系数据库中
获取方法 从主存储库获取数据 从专有数据库中获取数据 从关系数据库中获取数据
数据整理 数据以带有行和列的表格形式排列和保存 数据以数据立方体的形式排列和存储 数据以多维形式排列
体积 处理大量数据 处理保留在专有中的有限数据 可处理大数据
技术 它适用于 SQL 它适用于稀疏矩阵技术 它同时使用稀疏矩阵技术和 SQL
设计意图 动态访问 静态访问 动态访问
响应时间 它具有最大响应时间 它具有最短响应时间 需要最短的响应时间
总结
这里要讨论的主题是信息安全,它应该从开发阶段进行到实施阶段,并在其维护阶段进行。安全性是数据仓库的关键要素,因为这是解决关键问题并完成大量数据交易和处理的地方。管理及其审计系统对于与安全系统一样重要的数据仓库至关重要。企业利用这个在线分析处理系统,根据需求而定。
1一、第一步先打开一个你需要编辑数据分析图表的excel文档,或者新建一个空白excel文档重新开始编辑。我们以点击右键新建为例(如图所示)。
2二、在新建的空白excel文档里先编辑好你需要的数据(如图红色标识区)。然后在excel第一条开始菜单栏内找到“插入”选项卡。点击“插入”选项卡切换到插入选项卡菜单栏界面。(如图操作)
3三、在插入选项卡菜单栏界面找到“图表”菜单框,图表菜单框内分为七种图表类型可供选择,我们以第一种“柱形图”为例。点击“柱形图”按钮,在弹出的柱形图下拉菜单中选择第一种二维柱形图。
4四、点击选择第一种二维柱形图后,表格中就会插入一个空白图表编辑区,(如图中红色区域标识),在空白区域内双击,然后任务栏上方会切换到图表工具下的设计选项卡菜单栏。
5五、在设计选项卡菜单栏内找到“选择数据”按钮,点击选择数据按钮会弹出一个“选择数据源”窗口。然后用鼠标选择excel单元格内刚刚编辑好的数据区域。(如图所示)
6六、选好数据区域后,在选择数据源窗口内会自动编算出数据的样式,同时你也可以在里面修改水平和纵列的标签,对不符合的标签进行文字的编辑,如果在选择的区域内有空白的单元格你可以点击数据源窗口的左下方来设置隐藏和空白单元格。(如图所示)
7七、在确认好数据源后,我们点击确定按钮。数据分析对比的图表就完成了,当然我们还可以在完成的图表上进行界面美观的拉伸排版,修改图表上的标题和标签。(如图所示)。
合并计算:汇总报表不同单元格区域中的数据,在单个输出区域中显示合并计算结果。合并计算这个功能在excel的各个版本都有,能够帮助用户将制定的单元格区域中的数据,按照项目的匹配,对同类数据进行汇总。数据汇总的方式包括求和、计数、平均值、最大值、最小值等等。
分类汇总:对所有资料分类进行汇总。(把资料进行数据化后,先按照某一标准进行分类,然后在分完类的基础上对各类别相关数据分别进行求和、求平均数、求个数、求最大值、求最小值等方法的汇总。)我们日常工作中经常接触到Excel二维数据表格,我们经常需要通过需要根据表中某列数据字段(如“工程类型”)对数据进行分类汇总。
Kingbases是一款优秀的中国国产数据库之一
KingbaseES是北京人大金仓信息技术股份有限公司研发的,具有自主知识产权的通用数据库产品。该产品面向事务处理类应用,兼顾各类数据分析类应用,可用做管理信息系统、业务及生产系统、决策支持系统、多维数据分析、全文检索、地理信息系统、图片搜索等的承载数据库。
在过去的二十年中,大量的企业利用关系型数据库来存储和管理业务数据,并建立相应的应用系统来支持日常业务运作。
这种应用以支持业务处理为主要目的,被称为联机事务处理(OLTP,On-line Transaction Processing)应用,它所存储的数据被称为操作数据或者业务数据。
随着市场竞争的日趋激烈,企业更加强调决策的及时性和准确性,这使得以支持决策管理分析为主要目的的应用迅速崛起,这类应用被称为联机分析处理,它所存储的数据被称为信息数据。
联机分析处理的用户是企业中的专业分析人员及管理决策人员,他们在分析业务经营的数据时,从不同的角度来审视业务的衡量指标是一种很自然的思考模式。
例如分析销售数据,可能会综合时间周期、产品类别、分销渠道、地理分布、客户群类等多种因素来考量。
这些分析角度虽然可以通过报表来反映,但每一个分析的角度可以生成一张报表,各个分析角度的不同组合又可以生成不同的报表,使得IT人员的工作量相当大,而且往往难以跟上管理决策人员思考的步伐。
联机分析处理的主要特点,是直接仿照用户的多角度思考模式,预先为用户组建多维的数据模型,在这里,维指的是用户的分析角度。
例如对销售数据的分析,时间周期是一个维度,产品类别、分销渠道、地理分布、客户群类也分别是一个维度。
一旦多维数据模型建立完成,用户可以快速地从各个分析角度获取数据,也能动态的在各个角度之间切换或者进行多角度综合分析,具有极大的分析灵活性。
这也是联机分析处理被广泛关注的根本原因,它从设计理念和真正实现上都与旧有的管理信息系统有着本质的区别。
事实上,随着数据仓库理论的发展,数据仓库系统已逐步成为新型的决策管理信息系统的解决方案。
数据仓库系统的核心是联机分析处理,但数据仓库包括更为广泛的内容。
概括来说,数据仓库系统是指具有综合企业数据的能力,能够对大量企业数据进行快速和准确分析,辅助做出更好的商业决策的系统。
它本身包括三部分内容:1、数据层:实现对企业操作数据的抽取、转换、清洗和汇总,形成信息数据,并存储在企业级的中心信息数据库中。
2、应用层:通过联机分析处理,甚至是数据挖掘等应用处理,实现对信息数据的分析。
3、表现层:通过前台分析工具,将查询报表、统计分析、多维联机分析和数据发掘的结论展现在用户面前。
从应用角度来说,数据仓库系统除了联机分析处理外,还可以采用传统的报表,或者采用数理统计和人工智能等数据挖掘手段,涵盖的范围更广;就应用范围而言,联机分析处理往往根据用户分析的主题进行应用分割,例如:销售分析、市场推广分析、客户利润率分析等等,每一个分析的主题形成一个OLAP应用,而所有的OLAP应用实际上只是数据仓库系统的一部分。
第一步:在excel中框选数据后,在【插入】选项卡中点击【插入柱形图或条形图】
第二步:点击【三维柱形图】中的第一个
第三步:在【设计】选项卡中点击【更改颜色】,选择一个自己喜欢的颜色
第四步:点击图标右上侧的+号,勾选【坐标轴标题】
第五步:如果需要,可以继续勾选其它图表元素
这样就给数据制作好了三维条形图了。