2022-11-16 18:15来源:m.sf1369.com作者:宇宇
数据使用是有关使用数据的议题。信息技术是有关使用信息的议题。数据是信息最重要的载体之一。是不是突然发现其实很接近?如果除开非数据类型的信息。大数据”作为一个互联网产业的新概念再 次时髦了起来,它的支点是数据使用。在程序工程师叫做“码农”的时代,代码似乎不成问题,而数据的使用也更加引人注目。但数据使用的本质,其实和多年前的信息技术相差无几,必须经历一个从业务价值到具体实现的转换过程。
一.探索分析类型 1、观察数据的分布特征:通过绘制箱锁图和茎叶图等图形,直观地反映数据的分布形式和数据的一些规律,包括考察数据中是否存在异常值等。
过大或过小的数据均有可能是奇异值、影响点或错误数据。寻找异常值,并分析原因,然后决定是否从分析中删除这些数据。因为奇异值和影响点往往对分析的影响较大,不能真实地反映数据的总体特征。2、正态分布检验:检验数据是否服从正态分布。很多检验能够进行的前提即总体数据分布服从正态分布。因此,检验数据是否符合正态分布,就决定了它们是否能用只对正态分布数据适用的分析方法; 3、方差齐性检验:用Levene检验比较各组数据的方差是否相等,以判定数据的离散程度是否存在差异。例如在进行独立右边的T检验之前,就需要事先确定两组数据的方差是否相同。如果通过分析发现各组数据的方差不同,还需要对数据进行方差分析,那么就需要对数据进行转换使得方差尽可能相同。Levene检验进行方差齐性检验时,不强求数据必须服从正态分布,它先计算出各个观测值减去组内均值的差,然后再通过这些差值的绝对值进行单因素方差分析。如果得到的显著性水平(Significance)小于0.05,那么就可以拒绝方差相同的假设。二、具体操作步骤 1、打开数据文件,选择【分析】(Analyze)菜单,单击【描述统计】(Descriptive Statistics)命令下的【探索】(Explore)命令,SPSS将弹出“探索”(Explore)对话框。2、单击【统计量】(Statistics)按钮,打开“探索:统计量(Explore:Statistics)”对话框,用户在“探索:统计量”对话框中进行选择后,单击【继续】(Continue)按钮 3、单击【绘制】(Plots)按钮,打开“探索:图”(Explore:Plots)对话框,用户在“探索:图”对话框中进行选择后,单击【继续】(Continue)按钮; 4、单击【选项】(Options)按钮,打开“探索:选项”(Explore:Options)对话框; 5、单击【确定】(OK)按钮,即可在结果输出窗口中得到探索分析过程的数据概述、基本统计描述表、极端值列表、正态分布检验、方差齐性检验、茎叶图、直方图、箱锁图、正态分布Q-Q图、离散正态分布Q-Q图等图表; 6、数据结果显示,见下图。数据分析通常有两种出路:对算法做深入的研究然后去做数据挖掘、对业务有比较深刻的理解然后转去做业务。除此之外,无其他出路。
而说实话,我不看好数据分析本身这个岗位。为什么不看好?首先我们对数据分析的工作做个拆解。大部分的数据分析有50%的时间在取数,还有40%的时间在跟产品经理沟通:做AB实验以及做做效果回归,最后还有10%的时间在做探索性分析。现在在担任数据分析岗的,可以跳出来说一说是不是。
可是上面这些工作其实大多是可以替代的,机械性的工作。看写SQL取数这个活就是个脏活、累活,会的人都能取,雇一个干了五年的数据分析跟一个刚毕业的数据分析写SQL基本没啥区别。无非就是开始可能没法做到100%准确性。
做AB实验以及效果回归这件事情,现在自助式的平台越来越多了,等以后的这种自助式的AB平台越来越成熟的时候,根本不需要数据分析师来干这件事情。产品经理想做实验,傻瓜式的操作操作,实验之后,想看数据,仍然是傻瓜式的操作。期间不需要任何分析师参与。
探索性分析这个活本来才应该是数据分析干得活,但是我知道在目前大部分的企业数据分析却没在干这个活。探索性的分析一般都要求过硬的技术能力,或者非常熟悉业务,两者有其一才能发挥出探索性项目的价值。
最后,技术过硬的后来基本是去做算法的数据挖掘去了,因为他们发现在数据分析这个岗位因为不断的取数需求磨灭人的意志。而且这些人过的会不错,因为以前单纯做数据挖掘的人,他们大多脱离业务。但是数据分析转过去的对业务就更敏感。
业务过硬的就去做业务的产品经理了,因为本来业务能力就很强,数据意识也很强,却需要跟着业务不强、数据不强的人后面听他瞎指挥,谁能受得了。而且本身数据和业务的结合才能带来更大的价值。所以数据分析转过来的业务人一般也比正常的产品经理好一些。
所以,回到问题数据分析师的前景到底怎么样。我的看法是:数据分析本身的发展前景不怎样,但是有数据分析的经历,走算法和业务两个方向,以后发展都不会太差。
探索性分析,是指因素分析一种。与“验证性因素分析”相对。这种分析从一组变量中抽取公共因素时,没有或不用先前的经验,有多少个公共因素影响观测变量,公共因素之间、特殊因素之间的关系等,都需要通过对观测数据的分析来探知。
这种因素分析假定:
(1)各观测变量均直接受全部公共因素影响(2)各观测变量都只受一个特殊因素影响;
(3)特殊因素之间互不相关;
(4)所有公共因素与所有特殊因素都不相关:
(5)所有的公共因素之间均不相关或均相关。
1、首先,我们导入探索分析需要的测试数据,单击菜单上的文件-打开-数据(也可以写语法打开数据源,方法很多)。
2、然后,我们依次单击菜单上的分析-描述统计-探索分析。
3、在打开的探索分析窗口,分别把左侧的变量拖入右侧的因变量列表和因子列表。
4、在单击图示的统计量-设置置信区间(默认95%,可以自行设置),M估计值等。设置完后点击继续。
5、接着,单击图示的绘制,在弹出的窗口选择我结果需要绘制的图表,如图所示,我们选择了直方图和带检验的正态图。选择完后,单击继续。
6、最后,我们在依次点击选项,设置缺失值报告类型,单击继续,点击确定即可。
1基本思想不同
探索性因子分析主要是为了找出影响观测变量的因子个数,以及各个因子和各个观测变量之间的相关程度,以试图揭示一套相对比较大的变量的内在结构。研究者的假定是每个指标变量都与某个因子匹配,而且只能通过因子载荷凭知觉推断数据的因子结构。
验证性因子分析的主要目的是决定事前定义因子的模型拟合实际数据的能力,以试图检验观测变量的因子个数和因子载荷是否与基于预先建立的理论的预期一致。验证性因子分析的主要目的是决定事前定义因子的模型拟合实际数据的能力,以试图检验观测变量的因子个数和因子载荷是否与基于预先建立的理论的预期一致。其先验假设是每个因子都与一个具体的指示变量子集对应,并且至少要求预先假设模型中因子的数目,但有时也预期哪些变量依赖哪个因子。
2应用前提不同
在进行探索性因子分析之前,不必知道要用几个因子,以及各因子和观测变量之间的关系。在进行探索性因子分析时,由于没有先验理论,只能通过因子载荷凭知觉推断数据的因子结构。上述数学模型中的公共因子数m在分析前并未确定,而是在分析过程中视中间结果而决定,各个公共因子Ni统一地规定为均影响每个观测变量xi。探索性因子分析更适合于在没有理论支持的情况下对数据的试探性分析。
验证性因子分析则是基于预先建立的理论,要求事先假设因子结构,其先验假设是每个因子都与一个具体的指示变量子集对应,以检验这种结构是否与观测数据一致。也就是在上述数学模型中,首先要根据先验信息判定公共因子数m,同时还要根据实际情况将模型中某些参数设定为某一定值。这样,验证性因子分析也就充分利用了先验信息,在已知因子的情况下检验所搜集的数据资料是否按事先预定的结构方式产生作用。
3理论假设不同
探索性因子分析的假设主要包括:①所有的公共因子都相关(或都不相关);②所有的公共因子都直接影响所有的观测变量;③ 特殊(唯一性)因子之间相互独立;④ 所有观测变量只受一个特殊(唯一性)因子的影响;⑤ 公共因子与特殊因子(唯一性)相互独立。验证性因子分析克服了探索性因子分析假设条件约束太强的缺陷,其假设主要包括:① 公共因子之间可以相关,也可以无关;② 观测变量可以只受一个或几个公共因子的影响,而不必受所有公共因子的影响;③特殊因子之间可以相关,还可以出现不存在误差因素的观测变量;④ 公共因子与特殊因子之间相互独立。
4主要应用范围不同
探索性因子分析主要应用于三个方面:①寻求基本结构,解决多元统计分析中的变量间强相关问题;② 数据化简;③发展测量量表。验证性因子分析允许研究者将观察变量依据理论或先前假设构成测量模式,然后评价此因子结构和该理论界定的样本资料间符合的程度。因此,主要应用于以下三个方面:① 验证量表的维度或面向性(dimensionality),或者称因子结构,决定最有效因子结构;② 验证因子的阶层关系;③ 评估量表的信度和效度。
探索性搜索是一种通过搜索进行知识的获取、概念的理解、数据的比较以及对信息的分析和合成等为目的的搜索活动
探索性搜索是一种专门的信息搜索(通过查询和聚集浏览相结合的方式获取信息)。
进行探索性搜索的用户的特征
(1)不熟悉他们的目标领域(即,需要了解的主题,以便了解如何实现自己的目标)
原文:unfamiliar with the domain of their goal (i.e., need to learn about the topic in order to understand how to achieve their goal)
(2)不确定实现目标的方式(技术或过程)
原文:unsure about the ways to achieve their goals (either the technology or the process)
(3)不确定自己的目标。