2023-01-17 15:27来源:m.sf1369.com作者:宇宇
提到大数据,无可避免的就会提到Hadoop。尽管大数据并不等同于Hadoop,但Hadoop确实是最热门的大数据技术。下面是最常用的混搭架构,来看一下大数据平台可以怎么搭建,支撑企业应用:
通过Kafka作为统一采集平台的消息管理层,灵活的对接、适配各种数据源采集(如集成flume),提供灵活、可配置的数据采集能力。
利用Spark和Hadoop技术,构建大数据平台最为核心的基础数据的存储、处理能力中心,提供强大的数据处理能力,满足数据的交互需求。同时通过Sparkstreaming,可以有效满足企业实时数据的要求,构建企业发展的实时指标体系。
同时为了更好的满足的数据获取需求,通过RDBMS,提供企业高度汇总的统计数据,满足企业常规的统计报表需求,降低使用门槛。对大数据明细查询需求,则通过构建HBase集群,提供大数据快速查询能力,满足对大数据的查询获取需求。
这个就比较负责了,可以用hadoop+hbase+spark/storm进行平台构建,spark用于数据分析和处理、hbase用于将处理后的数据保存、hadoop用于离线分析和原始数据存储,具体的还得结合应用场景
阿里巴巴在08年就把大数据作为一项公司基本战略,要知道那个时候甚至还没几个人开始谈论“大数据”,可以说在大数据方面相比于国内其他互联网公司,阿里是走在前面的。
按马云的话讲,我们正从information technology转向data technology。数据是灵魂。也许并不能保证大数据能给阿里巴巴赚很多钱,但是阿里认为数据对人类有用,所以他们做了。
举一个阿里CTO认为大数据应用和价值的例子:淘宝小贷团队,很小的队伍,完全依赖数据对客户的信用程度作分析,将数据转化为信用,将信用转化为财富,这是传统商业银行冗杂的审核程序,低效和高成本所不能比的。更重要的是,这个项目给近百万的小商户提供了生命线,哪怕只贷一元钱。没有哪个银行会这么做。
我认为阿里巴巴已经是国内互联网大数据的先驱,他们在做有意义的事情。