2023-11-08 00:54来源:m.sf1369.com作者:宇宇
GIS的研究对象是地理实体,即指自然界现象和社会经济事件中不能再分割的单元。
地理实体类别及实体内容的确定是从具体需要出发的,例如,在全国地图上由于比例尺很小,福州就是一个点,这个点不能再分割,可以把福州定为一个空间实体,而在大比例尺的福州市地图上,福州的许多房屋,街道都要表达出来,所以福州必须再分割,不能作为一个空间实体,应将房屋,街道等作为研究的地理实体,由此可见,GIS中的地理实体是一个概括,复杂,相对的概念。 地理实体以什么形式存储和处理反映了实体的三个特征:
属性特征:对空间实体的属性定义和说明信息。
空间特征:对空间实体的分布位置、几何特征和空间关系的定义。
时间特征:空间实体的时间尺度。
以上内容均根据学员实际工作中遇到的问题整理而成,供参考,如有问题请及时沟通、指正。
HDFS是基于流数据模式访问和处理超大文件的需求而开发的,它可以运行于廉价的商用服务器上。总的来说,可以将 HDFS的主要特点概括为以下几点:
(1 )处理超大文件
这里的超大文件通常是指数百 MB、甚至数百TB 大小的文件。目前在实际应用中, HDFS已经能用来存储管理PB(PeteBytes)级的数据了。在 Yahoo!,Hadoop 集群也已经扩展到了 4000个节点。
(2 )流式地访问数据
HDFS的设计建立在更多地响应“一次写入,多次读取”任务的基础之上。这意味着一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务请求。在多数情况下,分析任务都会涉及数据集中的大部分数据,也就是说,对HDFS 来说,请求读取整个数据集要比读取一条记录更加高效。
(3 )运行于廉价的商用机器集群上
Hadoop设计对硬件需求比较低,只须运行在廉价的商用硬件集群上,而无须昂贵的高可用性机器上。廉价的商用机也就意味着大型集群中出现节点故障情况的概率非常高。这就要求在设计 HDFS时要充分考虑数据的可靠性、安全性及高可用性。
正是由于以上的种种考虑,我们会发现现在的 HDFS在处理一些特定问题时不但没有优势,而且有一定的局限性,主要表现在以下几个方面。
(1 )不适合低延迟数据访问
如果要处理一些用户要求时间比较短的低延迟应用请求,则 HDFS不适合。HDFS 是为了处理大型数据集分析任务的,主要是为达到高的数据吞吐量而设计的,这就可能要求以高延迟作为代价。目前有一些补充的方案,比如使用HBase,通过上层数据管理项目来尽可能地弥补这个不足。
(2 )无法高效存储大量小文件
在Hadoop 中需要用 NameNode来管理文件系统的元数据,以响应客户端请求返回文件位置等,因此文件数量大小的限制要由 NameNode来决定。例如,每个文件、索引目录及块大约占 100字节,如果有100 万个文件,每个文件占一个块,那么至少要消耗 200MB内存,这似乎还可以接受。但如果有更多文件,那么 NameNode的工作压力更大,检索处理元数据的时间就不可接受了。
(3 )不支持多用户写入及任意修改文件
在HDFS 的一个文件中只有一个写入者,而且写操作只能在文件末尾完成,即只能执行追加操作。目前 HDFS还不支持多个用户对同一文件的写操作,以及在文件任意位置进行修改。
高性能是更小但是速度更快的你是不是说高可用是容量更大但是速度慢?
看实际需求咯,如果网站的SQL需求能用高性能满足的,那自然用高性能
数据存储单位, 1KB (Kilobyte 千字节)=1024B, 1MB (Megabyte,兆字节,简称“兆”)=1024KB, 1GB (Gigabyte,吉字节,又称“千兆”)=1024MB, 1TB (Terabyte,太字节,或百万兆字节)=1024GB 这个是规范,但是你在市面上购买2G的U盘 其实是不到2G的 因为生产商是按照 1KB (Kilobyte 千字节)=1000B, 1MB (Megabyte,兆字节,简称“兆”)=1000KB, 1GB (Gigabyte,吉字节,又称“千兆”)=1000MB, 1TB (Terabyte,太字节,或百万兆字节)=1000GB