2022-11-08 18:44来源:m.sf1369.com作者:宇宇
1.Hadoop分布式存储与计算
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算,因此,需要重点掌握,除此之外,还需要掌握Hadoop集群、Hadoop集群管理、YARN以及Hadoop高级管理等相关技术与操作!
2.Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。相对于用Java代码编写MapReduce来说,Hive的优势明显:快速开发,人员成本低,可扩展性(自由扩展集群规模),延展性(支持自定义函数)。十分适合数据仓库的统计分析。对于Hive需掌握其安装、应用及高级操作等。
3.ZooKeeper
ZooKeeper 是一个开源的分布式协调服务,是Hadoop和HBase的重要组件,是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组件服务等,在大数据开发中要掌握ZooKeeper的常用命令及功能的实现方法。
4.HBase
HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,更适合于非结构化数据存储的数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,大数据开发需掌握HBase基础知识、应用、架构以及高级用法等。
5.Redis
Redis是一个Key-Value存储系统,其出现很大程度补偿了Memcached这类Key/Value存储的不足,在部分场合可以对关系数据库起到很好的补充作用,它提供了Java,C/C++,C#,PHP,JavaScript,Perl,Object-C,Python,Ruby,Erlang等客户端,使用很方便,大数据开发需掌握Redis的安装、配置及相关使用方法。
6.Kafka
Kafka是一种高吞吐量的分布式发布订阅消息系统,其在大数据开发应用上的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。大数据开发需掌握Kafka架构原理及各组件的作用和使用方法及相关功能的实现。
7.Neo4j
Neo4j是一个高性能的,NoSQL图形数据库,具有处理百万和T级节点和边的大尺度处理网络分析能力。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j因其嵌入式、高性能、轻量级等优势,越来越受到关注。
8.Cassandra
Cassandra是一个混合型的非关系的数据库,类似于Google的BigTable,其主要功能比Dynamo(分布式的Key-Value存储系统)更丰富。这种NoSQL数据库最初由Facebook开发,现已被1500多家企业组织使用,包括苹果、欧洲原子核研究组织(CERN)、康卡斯特、电子港湾、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netflix、Reddit等。是一种流行的分布式结构化数据存储方案。
9.SSM
SSM框架是由Spring、Spring MVC、MyBatis三个开源框架整合而成,常作为数据源较简单的Web项目的框架。大数据开发需分别掌握Spring、Spring MVC、MyBatis三种框架的同时,再使用SSM进行整合操作。
栈内存:某一个函数被调用时,这个函数会在栈内存里面申请一片空间,以后在这个函数内部定义的变量,都会分配到这个函数所申请到的栈。当函数运行结束时,分配给函数的栈空间被收回,在这个函数中被定义的变量也随之被释放和消失。
堆内存:通过new产生的数组和对象分配在堆内存中。堆内存中分配的内存,由JVM提供的GC(垃圾回收机制)来管理。在堆内存中产生了一个数组对象后,我们还可以在栈中定义一个变量,这个栈中变量的取值等于堆中对象的首地址。栈内存中的变量就成了堆内存中数组或者对象的引用变量。我们以后就可以在程序中直接使用栈中的这个变量来访问我们在堆中分配的数组或者对象,引用变量相当于数组或者对象起的一个别名,或者代号。
引用变量是一个普通的变量,定义时在栈中分配;引用变量在被运行到它的作用域之外时就被释放,而我们的数组和对象本身是在堆中分配的,即使程序运行到使用new产生对象的语句所在的函数或者代码之后,我们刚才被产生的数组和对象也不会被释放。数组和对象只是在没有引用变量指向它,也就是没有任何引用变量的值等于它的首地址,它才会变成垃圾不会被使用,但是它任然占据着内存空间不放(这也就是我们Java比较吃内存的一个原因),在随后一个不确定的时间被垃圾回收器收走。
导入java.util.Scanner;使用Scanner来接收;例如:import java.util.Scanner;public class AAA { public static void main(String[] args) { Scanner scan=new Scanner(System.in); String str=scan.next(); System.out.println(str); }}执行时,在控制台输入字符串,会将输入的数据打印出来
1、首先在项目下创建一个新的文件夹,用来保存jar包。在项目名上点击鼠标右键,按顺序点击【New】→【Floder】,打开新建文件夹的窗口
2、输入文件夹名称【lib】,点击【ok】。通常在lib文件夹中存放从外部引入的jar包
3、找到要引入的jar包,鼠标选中需要用的jar包,然后按住鼠标左键不放,把jar包拖动到lib文件夹中。又或者是先复制jar包,接着在lib文件夹上右击,选择复制。打开选择框,在弹出的选择框中选择默认的【copyfiles】,点击【OK】关闭。接着就可以在lib文件夹下看到复制成功的jar包。
4、这时,只是把jar包复制到项目中,还不能够使用。需要再在项目名上点击鼠标右键,按顺序选择
【BuildPath】→【ConfigureBuildPath...】。
5、在打开的窗口中,选中【Libraries】页,从右边一栏的按钮中点击【addJARs...】
6、在打开的窗口中,按照顺序展开本项目和lib文件夹,然后选中刚刚复制到项目中的jar包,点击【OK】关闭窗口
7、在刚刚打开的【Libraries】页面中,可以看到刚刚引入的jar包名称。点击【OK】确认。
8、这个时候,在【Eclipse】中,就可以找到并且开始使用这个jar包了。
FileInputStream fis = FileInputStream(File file)
;指定文件 fis.skip(long n);指定位置 byte[] bs = new byte[int length]
; 指定长度 fis.read(bs); 得到内容
设置工作空间的编码:
编辑器的编码会影响到所有的项目中的字符的显示,可以说是作用最为广泛的设置,每一个项目都会受到这个设置的影响。点击菜单栏中的窗口(Window)— —选项(Preferences)。
点击常规(General)— —工作空间(Wordspace),然后在右侧的文本文件编码格式(Text file encoding)中选择你想要设置的编码格式,系统默认的格式为GBK。
设置项目的编码:
如果其他的项目中不存在乱码问题,只是个别项目显示时出现乱码,那么我们不需要设置工作空间的编码,只需要修改项目的编码即可。
选中项目后,右键点击,在弹出的菜单中点击属性(Properties)。
在弹出的属性窗口中,选择资源(Resource)— —点击选择Other(其他),然后选择你想要的编码格式。
设置单个文件的编码:
只是个别文件出现了乱码,那么设置个别文件的编码格式就可以解决问题了。选中有乱码的文件,然后点击右键。
在弹出的菜单中选择属性(Properties)。
在弹出的属性窗口中选择资源,点击Other(其他)后设置个别文件的编码方式
import java.io.*; public class FileCopyDemo{ public static void main(String[] args)throws IOException{ FlileInputStream read = new FileInputStream(new File("D:\1.txt"))
; FileOutputStream write = new FileOutputStream(new File("D:\copy.txt"))
; byte[] b = new byte[1024]; int len = 0; while((len=read.read(b))!=-1){ write(read,0,len)
; write.flush(); } write.close(); read.close(); } }
在JAVA中,向MYSQL插入多条数据如果主键,mysql是会报错不让插入的。