• 中文核心期刊
  • 中国科技核心期刊
  • 中国科学引文数据库核心期刊

基于Hadoop的地质矿产大数据分布式存储方法

赵亚楠, 李朝奎, 肖克炎, 范建福

赵亚楠, 李朝奎, 肖克炎, 范建福. 2019: 基于Hadoop的地质矿产大数据分布式存储方法. 地质通报, 38(2-3): 462-470.
引用本文: 赵亚楠, 李朝奎, 肖克炎, 范建福. 2019: 基于Hadoop的地质矿产大数据分布式存储方法. 地质通报, 38(2-3): 462-470.
ZHAO Ya'nan, LI Chaokui, XIAO Keyan, FAN Jianfu. 2019: Research on distributed storage method of geological and mineral big data based on Hadoop. Geological Bulletin of China, 38(2-3): 462-470.
Citation: ZHAO Ya'nan, LI Chaokui, XIAO Keyan, FAN Jianfu. 2019: Research on distributed storage method of geological and mineral big data based on Hadoop. Geological Bulletin of China, 38(2-3): 462-470.

基于Hadoop的地质矿产大数据分布式存储方法

基金项目: 

国土资源部公益性行业科研专项《地质大数据技术研究与应用试点》 201511079-04

国家自然科学基金项目《大范围三维城市模型快速构建方法及其泛在应用建模》 41571374

国家重点研发计划项目《基于“地质云”平台的深部找矿知识挖掘》 2016YFC0600510

湖南省教育厅重点科技项目《城市三维复杂场景泛在感知建模与应用》 16A070

详细信息
    作者简介:

    赵亚楠(1992-), 女, 在读硕士生, 从事地质大数据技术研究。E-mail:136417611s2@qq.com

    通讯作者:

    李朝奎(1967-), 男, 教授, 博士生导师, 从事三维地理信息建模与应用研究。E-mail:chkl_hn@163.com

  • 中图分类号: P628

Research on distributed storage method of geological and mineral big data based on Hadoop

  • 摘要:

    随着TB级乃至PB级地质矿产大数据时代的到来,地质大数据的存储难题一直困扰着地质界,传统的地质数据存储与服务模式面临诸多难题。结合Hadoop提出了一种新的基于云计算环境的地质矿产数据存储方法,将该方法与传统Oracle数据库存储方法进行了数据存储实验对比。实验结果表明,该存储方法比传统方法更高效,同时有效地解决了Hhadoop存储中出现的小文件存储问题。研究成果为地质矿产数据的存储与管理提供了一种新的管理方法。

    Abstract:

    With the advent of the era of big data of geology and mineral resources of terabytes and petabytes grades, geological large data storage problem has been bothering geologists. The traditional pattern of geological data storage and service faces many problems. In this paper, based on Hadoop, the authors put forward a new kind of geological and mineral resources data storage method based on cloud computing environment, and a comparative study of this method and the traditional storage method of the Oracle database data storage experiment was carried out. The experimental results show that the method proposed in this paper is more efficient than the traditional method and can effectively solve the problem of small file storage in Hadoop storage. The research results provide a new management method for the storage and management of geological and mineral data.

  • 致谢: 在本研究中中国地质调查局发展研究中心朱月琴老师给予了悉心指导,中国地质科学院矿产资源研究所提供了实验数据,在此一并表示感谢。
  • 图  1   Hadoop系统框架

    Figure  1.   Hadoop system framework

    图  2   数据库系统架构

    Figure  2.   Database system architecture

    图  3   HDFS体系结构

    Figure  3.   HDFS architecture

    图  4   潜力评价数据(以重庆市金矿种为例)

    Figure  4.   Potential evaluation data exemplified by a gold mine in Chongqing

    图  5   产状注记.WT节点信息

    Figure  5.   Occurrence note. WT file Information

    图  6   写操作性能实验结果

    Figure  6.   Performance test results of write operations

    图  7   内存占用实验结果

    Figure  7.   Memory occupancy test results

    图  8   数据导入实验结果

    Figure  8.   Data import experimental results

    图  9   数据导出实验结果

    Figure  9.   Data export experimental results

    表  1   HBase列式存储设计

    Table  1   HBase column storage design table

    行健 时间戳 列族SPE 列族S_SPE
    矿种ID 专题ID 图件ID 路径 其他属性 矿种ID 专题ID 图件ID 路径 其他属性
    矿种RowKey TimeStamp MID SID FID LCT MID SID FID LCT
    下载: 导出CSV

    表  2   集群配置情况

    Table  2   Cluster configuration

    组件 配置
    Hadoop版本 Hadoop2.7.2
    操作系统 Red Hat Enterprise Linux Server release 6.7(Santiago)
    Linux内核版本 2.6.32-573.e16.x86_64
    JDK 1.7.0_91
    网络带宽 100MB
    NameNode 八核2.4.0GHzCPU, 16G内存,600G硬盘,数量1
    DataNode 八核2.4.0GHzCPU, 8G内存,600G硬盘,数量3
    下载: 导出CSV

    表  3   测试数据库硬件环境

    Table  3   Test database hardware environment

    组件 Oracle Hadoop
    操作系统 Windows7专业版 Red Hat Enterprise Linux Server release 6.7(Santiago)
    服务器数量 1台(单节点) 4台(Hadoop集群)
    网络带宽 100MB 100MB
    CPU性能 四核 八核
    CPU主频 2.80GHz 2.40GHz
    内存 8GB 8GB
    下载: 导出CSV
  • 朱月霞, 侯建光.基于大数据的地质数据存储与管理研究[C]//南京: 江苏省测绘地理信息学会2014年学术年会论文集, 2014: 105-107.
    陈建平, 李婧, 崔宁, 等.大数据背景下地质云的构建与应用[J].地质通报, 2015, 34(7):1260-1265. doi: 10.3969/j.issn.1671-2552.2015.07.002
    赵向前, 张东阳.试析地质勘探在地质找矿中的应用[J].洛阳:河南科技, 2014(4):56-56. http://d.old.wanfangdata.com.cn/Periodical/hnkj201404039
    张博.基于ArcGIS的府谷县地质灾害数据库建立及易发区评价研究[D].长安大学硕士学位论文, 2009: 1-60. http://cdmd.cnki.com.cn/Article/CDMD-11941-2009211120.htm
    蒲凯.多源地质空间数据库存储管理系统设计与实现[D].电子科技大学硕士学位论文, 2009: 1-80. http://cdmd.cnki.com.cn/Article/CDMD-10614-2009166304.htm
    刘灿娟.综合地质数据库管理系统的研究与开发[D].中南大学硕士学位论文, 2011: 1-64. http://cdmd.cnki.com.cn/Article/CDMD-10533-1011176226.htm
    翟永东.Hadoop分布式文件系统(HDFS)可靠性的研究与优化[D].华中科技大学硕士学位论文, 2011: 1-23. http://cdmd.cnki.com.cn/Article/CDMD-10487-1012012950.htm
    李婧, 陈建平, 王翔.地质大数据存储技术[J].地质通报, 2015, 34(8):1589-1594. doi: 10.3969/j.issn.1671-2552.2015.08.018
    郝树魁.Hadoop HDFS和MapReduce架构浅析[J].邮电设计技术, 2012, (7):37-42. doi: 10.3969/j.issn.1007-3043.2012.07.008
    陈康, 郑纬民.云计算:系统实例与研究现状[J].软件学报, 2009, 20(5):1337-1348. http://d.old.wanfangdata.com.cn/Conference/7907235

    Armbrust M, Fox A, Griffith R, et al.A view of cloud computing[J]. Communications of the ACM, 2010, 53(4):50-58. doi: 10.1145/1721654

    马浩田.基于HBase的嵌套式数据存储系统设计与实现[D].浙江大学硕士学位论文, 2015: 1-79. http://cdmd.cnki.com.cn/Article/CDMD-10335-1015626130.htm
    李新安.数据库技术发展前景展望[J].国网技术学院学报, 2005, 8(2):40-43. doi: 10.3969/j.issn.1008-3162.2005.02.014
    崔俊生.地理信息系统和遥感结合的现状及发展趋势[J].投资与合作, 2014, (10):247-247. http://www.cnki.com.cn/Article/CJFDTOTAL-YGJS199103005.htm
    李朝奎, 严雯英, 肖克炎.基于MapGIS与Oracle的地质数据库建设[J].地质通报, 2015, 34(7):1359-1364. doi: 10.3969/j.issn.1671-2552.2015.07.014

    Shvachko K, Kuang H, Radia S.The hadoop distributed filesystem[C]//Mass Storage Systems and Technologies(MSST), IEEE 26th Symposium.2010: 1-10.

    Chang F, Dean J, Ghemawat S, et al.Bigtable:A Distributed Storage System for Structured Data[J]. Acm Transactions on Computer Systems, 2008, 26(2):205-218. http://d.old.wanfangdata.com.cn/Periodical/jsjgcysj201005061

    李孟, 曹晟, 秦志光.基于Hadoop的小文件存储优化方案[J].电子科技大学学报, 2016(1):141-145. doi: 10.3969/j.issn.1001-0548.2016.01.024

    Henzinger T A, Jhala R, Majumdar R, et al.Lazy Abstraction[C]//Acm Sigplan-sigact Conference on Principles of Programming Languages. ACM, 2002: 58-70.

    Godefroid P. Model checking for programming languages using VeriSoft[C]//Proc.24th Annual ACM Symposium on the principles of Programming Languages(POPL) 1997: 174-186.

    陆嘉恒. Hadoop实践: 第2版[M].机械工业出版社, 2012: 36-38.
图(9)  /  表(3)
计量
  • 文章访问数:  3889
  • HTML全文浏览量:  530
  • PDF下载量:  2200
  • 被引次数: 0
出版历程
  • 收稿日期:  2017-02-24
  • 修回日期:  2017-08-08
  • 网络出版日期:  2023-08-15
  • 刊出日期:  2019-03-14

目录

    /

    返回文章
    返回