2021-11-13 10:04来源:m.sf1369.com作者:宇宇
目前大家想要学习大数据或者人工智能的东西,都是听过不少,但是又不知道如何下手,感觉是一个非常模糊、抽象难懂的东西。我常举一个例子:水果大家都听过,但是没见过,你肯定会反驳我,我见过啊:香蕉、苹果、橘子都是水果啊。对,今天今天我们就来聊聊,大数据,聊聊大数据里面的“香蕉”、“苹果”、“橘子”;
如何找到这些“水果”?
我建议最有效的就是去看大数据相关岗位的招聘要求,简单用近期一个朋友在朋友圈的招聘贴来找“水果”【有兴趣的,赶紧简历砸过去】:
看上图,解释下:
1、2、3这些基础知识就不说了,任何一个计算机相关的同学肯定都知道这些基础能力:计算机原理、数据结构、网络技术、信息论 等等。
下面重点讲讲如下核心的“苹果”:
一、机器学习和模式识别:常用的算法,主要有以下几个,工程中很多应用都是从这些基础算法改进整合来的,(想快速了解这些基础算法,推荐一本超薄的书:李航《统计学习方法》,可以用来overview,或者精读都可以):
1、回归算法 2、神经网络 3、SVM(支持向量机) 4、聚类算法 5、降维算法
6、推荐算法
除了如上几种算法外,机器学习界还有其他的如高斯判别,朴素贝叶斯,决策树等等算法。但是上面列的六个算法是使用最多,影响最广,种类最全的典型。
下面做一个总结,按照训练的数据有无标签,可以将上面算法分为监督学习算法和无监督学习算法,但推荐算法较为特殊,既不属于监督学习,也不属于非监督学习,是单独的一类。
监督学习算法: 线性回归,逻辑回归,神经网络,SVM
无监督学习算法: 聚类算法,降维算法
特殊算法: 推荐算法
除了这些算法以外,有一些算法的名字在机器学习领域中也经常出现。但他们本身并不算是一个机器学习算法,而是为了解决某个子问题而诞生的。你可以理解他们为以上算法的子算法,用于大幅度提高训练过程。其中的代表有:梯度下降法,主要运用在线型回归,逻辑回归,神经网络,推荐算法中;牛顿法,主要运用在线型回归中;BP算法,主要运用在神经网络中;SMO算法,主要运用在SVM中
二、自然语言处理:一般来说,自然语言处理的目的是让机器能够执行人类所期望的某些语言功能自然语言处理是人工智能的终极发展目标,大概可以分为人类语言的处理(语言学)和机器语言的翻译。其大致流程是语音识别与合成---语音分析、词法分析、句法分析、语义分析、语用分析。算法可以参考:
应用中常常会用到这个算法:
TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
三、知识图谱:这一块我没有认真深入了解过,算法的部分,感兴趣可以去检索下。
以上 ,千里之行始于足下,大数据算法也不例外,把基础扎实了,遇到工程问题,你自然会抽象出需要解决的问题,然后将其分解成基础的算法问题,你可以作出你自己的算法。