2021-11-13 09:34来源:m.sf1369.com作者:宇宇
差别就在于算法模型的使用,数据分析师一般都是偏业务的,首先要非常精通业务,数据分析师一般不需要很高深的算法基础,甚至都不需要计算机功底,日常用到的可能更多的统计分析,Excel都能满足绝大部分的工作,而且数据量级不大,是对已经发生的运营数据的处理和规整。
算法工程师面对的数据量一般都会比数据分析师面对的多几个数量级,日常工作中数据处理和建模及验证占据大部分工作,这仅仅依赖Excel是不可能完成的,所以算法工程师都要求一定的代码功底,尤其是处理数据的代码要会写,另外,不仅仅是对过往数据的处理,还要根据算法建立模型来预测未知的数据。
算法并不会取代数据分析,只会长期并行,原则上任何人只要精通业务都可以成为数据分析师,但是成为算法工程师则要具备数学功底。
大数据——当下人人津津乐道的话题。然而对于大数据的公认定义以及完美体系还没有完全诞生,但大街小巷已遍布云计算、大数据,这些领域的经典案例更是层出不穷。由于认知的有限,就不继续发表拙见了。只是因为很喜欢算法和DM,加上最近在MOOC上学习一门HIT的《大数据算法》课程,收获很多特记录于此,也推荐一下MOOC的学习资源和学习平台。虽然开始算法的旅程太短,但它的神奇魔力深深吸引了我。在互联网时代发挥巨大而神奇作用的算法,在即将到来的大数据时代又该如何适应,以何种方式体现?成为了我探寻的最大乐趣。
大数据算法定义:在给定的资源约束下,以大数据为输入,在给定的时间约束内可以生成满足给定约束结果的算法。
当然关于大数据的定义也有很多,但目前还未完全统一。不管是哪一种定义关键在于自己能够真正去理解的,才是好的定义。
大数据的应用:
1.预测:时间序列等;
2.推荐:协同过滤等;
3.商业情报分析:机器学习等;
4.科学研究:机器学习,高可扩展、非线性时间算法等。
大数据应用直接度娘就遍地都是了,这里就不赘述了。
大数据特点(4V):
Ø variety:多样性、复杂性;
Ø velocity:速度;
Ø volume:数据量;
Ø value:基于高度分析的新价值。
特点应该是耳熟能详了,这里只是提一下这门课程中的在于velocity和volume上的。
大数据算法概述:
Ø 时间亚线性算法:访问全部数据时间过长。可采取读取部分数据或者预处理等方式。
Ø 空间亚线性算法:数据难于放入内存进行计算,则可采取仅基于少量数据进行计算。
Ø 外存算法:数据难于放入内存计算,也可采取将数据存储在磁盘上,再进行调用计算。
Ø 并行算法:单个计算机难以保存全部数据,计算需要整体数据。则可以采用并行计算。
Ø 众包算法:计算机能力不足或知识不足,此时可以采取“人多势众”的策略来解决。
这是这门课程的算法主要概述了,比较全面也比较实用。可以从里面学到很多不一样的算法思想,以及算法的应用的。目前这部分算是没有到发展瓶颈的,很有发展潜力的哦。
大数据的算法分析:时间空间复杂性、IO复杂性、结果质量(近似比、competitive ratio等)、通讯复杂性等,更加全面和更多的因素分析了。
大数据的算法设计技术:精确算法设计方法、并行算法、近似算法、随机算法、在线算法/数据流算法、外存算法、面向新型体系结构的算法、现代优化算法等等。你想得到的和想不到的都在这里了。