• www888gbgbcom|www888gbgbcom【微信快捷支付】

  • 发布时间:2016-01-13 11:50 | 作者:yc | 来源:互联网 | 浏览:1200 次
  • www888gbgbcom|www888gbgbcom【微信快捷支付】在这种环境下,平日把存储在NFS上的NN元数据复制到SNN并作为新的NN运转

    一、hadop的项目

    Common:一系列组件和接品口,用于散播式文件体系和通用I/O(序列化,Java RPC 和历久化数据构造)

    Avro:一种序列化体系,用于支技高效,跨言语的RPC和历久化的数据存储

    MapRedue:散播式数据处置惩罚模型和实行情况,运转于大年夜型商用机集群

    HDFS:散播式文件体系,运转于大年夜型商用机集群

    Pig:数据流言语和运转情况,用以寻找十分伟大年夜的的数据集Pig运转在MapReduce和HDFS集群上

    Hive:一种散播式,按列存储的数据仓库Hive解决HDFS中存储数据,并提供根据SQL的查询言语(由运转时引擎翻译成MapReduce功课)用以查询数据

    HBase:一种散播式,按列存储的数据库HBase运用HDFS作为底层存储,一路支MapReduce的批量式核算和点查询(随机读取)

    Zookeeper:一种散播式,可用性高的折衷效劳Zeekeeper提供散播式锁之类的根本效劳用于构建散播式运用

    Sqooq:该器械用于在构造化数据存储(如联系型数据库)和HDFS之间高效批量传输数据

    Oozie:该效劳用于运转和调整Hadoop功课(如MapReduce,Pig,Hive及sqoop)

    二、hadoop散播式文件体系

    1、HDFS筹划

    存府超大年夜文件

    流式数据拜访(一次写入屡次读取)

    商用硬件(不需求奢华设置设备摆设)

    低光阴延迟的数据拜访

    很多的小文件

    多用户写入,任意修正文件

    2、数据块

    磁盘平日512字节

    HDFS默许64M

    与其他文件体系不一样的是,HDFS中小于一块巨细的文件不会占领悉数块的空间

    HDFS的块比磁盘的块大年夜,重要为了最小化寻址开支

    块笼统优点(一,一个文件的巨细能够大年夜于收集任意一个磁盘的容量因为文件的统统块并不需求存储在同一个磁盘上二,运用笼统块而非悉数文件作为存储单元,简化了存储子体系的筹划三,块适用于数据备份,提供数据容错才能和进步可用性)

    三、namenode和datanode

    HDFS以解决者-功课者形式运转,一个NN和www.hljtcp.com多个DN,NM解决文件体系的命名空间,掩护着文件体系树及整棵树内的统统文件和目录这些信息保存在(命名镜像文件)和(改动日志文件);存储元数据与文件到数据块映射确当地

    DN是文件体系功课节点,存储并检索数据块,准时向NN发送它们存储块列表

    NN很主要,要是运转NM效劳器损块,文件体系上的统统文件将会损掉落以是对NM容错,提供两种机制一,备份那些构成文件体系元数据历久状况文件hadoop能够设置设备摆设使NN在多个文件体系上保存元数据的历久状况写操作实时同步,是原子操作平日设置设备摆设,将历久状况写入本地磁盘的一路,写入一个长途挂载的收集文件体系(NFS)二;

    运转一个辅佐NN,但它不能被用作NN,这个辅佐NN的主要感化是准时颠末改动日志吞并命名空间镜像,以避免改动日志过大年夜这个SNN平日在另一台独自的无力核算机上运转,觉得他需求占用很多的cpu和NN一样容量的内存来实行吞并操作它会保存吞并后的命名空间镜像的副本,并在NN发生发火搭档时启用可是SNN滞后与NN,以是要是NN悉数掉效,难免会损掉落有些数据

    四、收集拓扑与hadoop

    将两个节点间带宽作为距离的衡量标准,以了局景,能够可用带宽顺次递减

    同一节点长进程

    同一机架上的不一样节点

    同一数据中间不一样机架上的节点

    不一样数据中间的节点

    五、数据流

    阐发文件读取

    650) this.width=650;" src="/html/uploads/allimg/160113/11510L941-0.jpg" title="1.jpg" alt="wKioL1Y_IRegdoBxAAM1tO9HHJc204.jpg" />

    客户端调用FileSystem 目标的open()法子来翻开期望读取的文件,

    1.重要调用FileSystem目标的open法子,着实是一个DistributedFileSystem的实例

    2.DistributedFileSystem颠末rpc取得文件的榜首批个block的locations,同一block依照重复数会回来多个locations,这些locationswww888gbgbcom|www888gbgbcom【微信快捷支付】万象城娱乐官网依照hadoop拓扑构造排序,距离客户端近的排在前面.

    3.前两步会回来一个FSDataInputStream目标,该目标会被封装成DFSInputStream目标,DFSInputStream能够便利的解决datanode和namenode数据流客户端调用read法子,DFSInputStream最会找出离客户端迩来的datanode并毗连(参阅榜首末节)

    4.数据从datanode连绵赓续的流向客户端

    5.要是榜首块的数据读完了,就会封闭指向榜首块的datanode毗连,接着读取下一块这些操刁难客户端来说是通明的,客户真个视点看来只是读一个继承赓续的流

    www888gbgbcom|www888gbgbcom【微信快捷支付】

    6.要是榜首批block都读完了,DFSInputStream就会去namenode拿下一批blocks的location,然后继承读,要是统统的块都读完,这时就会封闭掉落统统的流

    要是在读数据的时分,DFSInputStream和datanode的通讯发生发火反常,就会测验正在读的block的排第二近的datanode,而且会纪录哪个datanode发生发火同伴,剩下的blocks读的时分就会直接超出该datanodeDFSInputStream也会查看block数据校验和,要是发明一个坏的block,就会先述说到namenode节点,然后DFSInputStream在其他的datanode上读该block的镜像

    该筹划的偏向等于客户端直接毗连datanode来检索数据而且namenode来担负为每一个block提供最优的datanode,namenode只是处置惩罚block location的请求,这些信息都加载在namenode的内存中,hdfs颠末datanode集群能够吸收很多客户真个并发拜访

    这篇文章出自 “散人” 博客,请必须保存此出处http://zouqingyun.blog.51cto.com//

  • 相关内容

友情链接: