2021-11-13 10:20来源:m.sf1369.com作者:宇宇
怎么计算的?用于计算什么的?问题描述不是很清楚。
大数据最早可以追溯到Google提出的MapReduce计算方式,Apache通过Hadoop实现了一个基于MapReduce算法的实现,主要用于大规模数据的处理。它与传统的并行计算有很大的不同,传统的并行计算主要利用的是单台服务器的性能,通过不断的扩展服务器的硬件资源来提高运算效率。而MapReduce主要就是利用多台机器甚至可以是废弃的机器组成集群来将任务分配在不同节点上同时进行运算,以此来提高运算效率。
由于性能方面可以通过不断的扩充节点而得到提升,因此使用成本、扩展性方面都比传统的并行计算要出色得多。
其运算过程如下图:
整个过程可以分成两步:
第一步:Map,将整个计算过程细分,典型的如基因序列比对算法,需要从基因库中查找到匹配的基因;在Map这一步中,会将查找的库中的基因进行细分,每个节点分配一个指定数目的基础序列;然后在每个节点上同时进行序列比较;每个节点上会出来一个比对结果。
第二步:Reduce,将每个节点运算的结果进行汇总,最终返回给调用方。
基于这种原理,再加上目前互联网产生的数据量越来越大,而传统的并行计算所需的硬件资源过于昂贵,因此Hadoop的应用已经越来越广泛。它可以用于文件存储,也可以用于替换传统的数据库来进行数据的收集与统计,也可以用于日志存储分析等方面。