2022-02-09 22:19来源:m.sf1369.com作者:宇宇
大数据处理流程主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化、数据应用等环节,其中数据质量贯穿于整个大数据流程,每一个数据处理环节都会对大数据质量产生影响作用。通常,一个好的大数据产品要有大量的数据规模、快速的数据处理、精确的数据分析与预测、优秀的可视化图表以及简练易懂的结果解释,本文将基于以上环节分别分析不同阶段对大数据质量的影响及其关键影响因素。
1.人工管理阶段 在20世纪50年代中期以前,计算机主要用于数值计算,只能使用卡片、纸带、磁带等存储数据。数据的输入、输出和使用应随程序一起调入内存,用完撤出。造成数据冗余度大!而且,数据的存储格式、存取方式、输入输出方式都要由程序员自行设计!2、文件系统阶段 20世纪60年代中期,大量大容量的存储设备出现,使数据不再是程序的组成部分,它可以直接存储在外存储器上,通过文件名来调入使用。但是除了对数据的存取由文件系统来完成以外,数据的内部结构、数据的维护却仍由程序来定义和完成!因而,数据文件与使用数据的程序之间仍存在很强的依赖关系。3、数据库系统阶段 20世纪60年代后期,大容量磁盘的使用和数据处理的急剧增长,使联机存储大量数据成为可能,为了解决数据的独立性问题,实现数据的统一管理,达到数据共享的目的,数据库得到了极大的发展,进入数据库系统阶段
1.数据采集了解数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条件、格式、内容、长度、限制条件等。这会帮助数据分析师更有针对性的控制数据生产和采集过程,避免由于违反数据采集规则导致的数据问题;同时,对数据采集逻辑的认识增加了数据分析师对数据的理解程度,尤其是数据中的异常变化。在数据采集阶段,数据分析师需要更多的了解数据生产和采集过程中的异常情况,如此才能更好的追本溯源。另外,这也能很大程度上避免“垃圾数据进导致垃圾数据出”的问题。2.数据的加工整理在明确数据分析目标基础上收集到的数据,往往还需要进行必要的加工整理后才能真正用于分析建模。数据的加工整理通常包括数据缺失值处理、数据的分组、基本描述统计量的计算、基本统计图形的绘制、数据取值的转换、数据的正态化处理等,它能够帮助人们掌握数据的分布特征,是进一步深入分析和建模的基础。3.数据分析数据分析相对于数据挖掘更多的是偏向业务应用和解读,当数据挖掘算法得出结论后,如何解释算法在结果、可信度、显著程度等方面对于业务的实际意义,如何将挖掘结果反馈到业务操作过程中便于业务理解和实施是关键。4.数据展现数据展现即数据可视化的部分,数据分析师如何把数据观点展示给业务的过程。数据展现除遵循各公司统一规范原则外,具体形式还要根据实际需求和场景而定。基本素质要求如下:工具:PPT、Excel、Word甚至邮件都是不错的展现工具,任意一个工具用好都很强大。形式:图文并茂的基本原则更易于理解,生动、有趣、互动、讲故事都是加分项。原则:领导层喜欢读图、看趋势、要结论,执行层欢看数、读文字、看过程。场景:大型会议PPT最合适,汇报说明Word最实用,数据较多时Excel更方便。最重要一点,数据展现永远辅助于数据内容,有价值的数据报告才是关键。