2021-12-25 09:55来源:m.sf1369.com作者:宇宇
大数据技术专业属于交叉学科:以统计学、数学、计算机为三大支撑性学科;生物、医学、环境科学、经济学、社会学、管理学为应用拓展性学科。此外还需学习数据采集、分析、处理软件,学习数学建模软件及计算机编程语言等,知识结构是二专多能复合的跨界人才(有专业知识、有数据思维)。
有这么几个重要的框架,批处理框架 Hadoop、流处理框架 Storm 、混合框架 Spark,这几个都是必会的,不过想从事大数据开发只学这几个还不够,像hbase、hive等都需要学习,具体的学习路线你可以找一个平 台看看 , 选择八斗学 院
我现在在一家比较牛的数据软件开发公司灵玖软件做工程师,目前能想到的一是数据处理的长尾问题,比如搜索引擎中,经常会出现大部分Instance已经结束,可是还有那么几个就是需要花费很长时间,这是由机器环境和各个Partition的处理时间不均衡导致的。
再一个是数据的存储,一般需要处理的数据将会很庞大的,硬件设施要过关。
再就是数据清洗了,说白了利用一些算法清洗掉我们不需要的数据。
最后就是可视化,利用各种表现形式,从不同角度呈现数据分析的结果。