Research on distributed storage method of geological and mineral big data based on Hadoop
-
摘要:
随着TB级乃至PB级地质矿产大数据时代的到来,地质大数据的存储难题一直困扰着地质界,传统的地质数据存储与服务模式面临诸多难题。结合Hadoop提出了一种新的基于云计算环境的地质矿产数据存储方法,将该方法与传统Oracle数据库存储方法进行了数据存储实验对比。实验结果表明,该存储方法比传统方法更高效,同时有效地解决了Hhadoop存储中出现的小文件存储问题。研究成果为地质矿产数据的存储与管理提供了一种新的管理方法。
Abstract:With the advent of the era of big data of geology and mineral resources of terabytes and petabytes grades, geological large data storage problem has been bothering geologists. The traditional pattern of geological data storage and service faces many problems. In this paper, based on Hadoop, the authors put forward a new kind of geological and mineral resources data storage method based on cloud computing environment, and a comparative study of this method and the traditional storage method of the Oracle database data storage experiment was carried out. The experimental results show that the method proposed in this paper is more efficient than the traditional method and can effectively solve the problem of small file storage in Hadoop storage. The research results provide a new management method for the storage and management of geological and mineral data.
-
Keywords:
- geological and mineral data /
- Hadoop /
- Oracle /
- storage of small files
-
致谢: 在本研究中中国地质调查局发展研究中心朱月琴老师给予了悉心指导,中国地质科学院矿产资源研究所提供了实验数据,在此一并表示感谢。
-
表 1 HBase列式存储设计
Table 1 HBase column storage design table
行健 时间戳 列族SPE 列族S_SPE 矿种ID 专题ID 图件ID 路径 其他属性 矿种ID 专题ID 图件ID 路径 其他属性 矿种RowKey TimeStamp MID SID FID LCT … MID SID FID LCT … 表 2 集群配置情况
Table 2 Cluster configuration
组件 配置 Hadoop版本 Hadoop2.7.2 操作系统 Red Hat Enterprise Linux Server release 6.7(Santiago) Linux内核版本 2.6.32-573.e16.x86_64 JDK 1.7.0_91 网络带宽 100MB NameNode 八核2.4.0GHzCPU, 16G内存,600G硬盘,数量1 DataNode 八核2.4.0GHzCPU, 8G内存,600G硬盘,数量3 表 3 测试数据库硬件环境
Table 3 Test database hardware environment
组件 Oracle Hadoop 操作系统 Windows7专业版 Red Hat Enterprise Linux Server release 6.7(Santiago) 服务器数量 1台(单节点) 4台(Hadoop集群) 网络带宽 100MB 100MB CPU性能 四核 八核 CPU主频 2.80GHz 2.40GHz 内存 8GB 8GB -
朱月霞, 侯建光.基于大数据的地质数据存储与管理研究[C]//南京: 江苏省测绘地理信息学会2014年学术年会论文集, 2014: 105-107. 陈建平, 李婧, 崔宁, 等.大数据背景下地质云的构建与应用[J].地质通报, 2015, 34(7):1260-1265. doi: 10.3969/j.issn.1671-2552.2015.07.002 赵向前, 张东阳.试析地质勘探在地质找矿中的应用[J].洛阳:河南科技, 2014(4):56-56. http://d.old.wanfangdata.com.cn/Periodical/hnkj201404039 张博.基于ArcGIS的府谷县地质灾害数据库建立及易发区评价研究[D].长安大学硕士学位论文, 2009: 1-60. http://cdmd.cnki.com.cn/Article/CDMD-11941-2009211120.htm 蒲凯.多源地质空间数据库存储管理系统设计与实现[D].电子科技大学硕士学位论文, 2009: 1-80. http://cdmd.cnki.com.cn/Article/CDMD-10614-2009166304.htm 刘灿娟.综合地质数据库管理系统的研究与开发[D].中南大学硕士学位论文, 2011: 1-64. http://cdmd.cnki.com.cn/Article/CDMD-10533-1011176226.htm 翟永东.Hadoop分布式文件系统(HDFS)可靠性的研究与优化[D].华中科技大学硕士学位论文, 2011: 1-23. http://cdmd.cnki.com.cn/Article/CDMD-10487-1012012950.htm 李婧, 陈建平, 王翔.地质大数据存储技术[J].地质通报, 2015, 34(8):1589-1594. doi: 10.3969/j.issn.1671-2552.2015.08.018 郝树魁.Hadoop HDFS和MapReduce架构浅析[J].邮电设计技术, 2012, (7):37-42. doi: 10.3969/j.issn.1007-3043.2012.07.008 陈康, 郑纬民.云计算:系统实例与研究现状[J].软件学报, 2009, 20(5):1337-1348. http://d.old.wanfangdata.com.cn/Conference/7907235 Armbrust M, Fox A, Griffith R, et al.A view of cloud computing[J]. Communications of the ACM, 2010, 53(4):50-58. doi: 10.1145/1721654
马浩田.基于HBase的嵌套式数据存储系统设计与实现[D].浙江大学硕士学位论文, 2015: 1-79. http://cdmd.cnki.com.cn/Article/CDMD-10335-1015626130.htm 李新安.数据库技术发展前景展望[J].国网技术学院学报, 2005, 8(2):40-43. doi: 10.3969/j.issn.1008-3162.2005.02.014 崔俊生.地理信息系统和遥感结合的现状及发展趋势[J].投资与合作, 2014, (10):247-247. http://www.cnki.com.cn/Article/CJFDTOTAL-YGJS199103005.htm 李朝奎, 严雯英, 肖克炎.基于MapGIS与Oracle的地质数据库建设[J].地质通报, 2015, 34(7):1359-1364. doi: 10.3969/j.issn.1671-2552.2015.07.014 Shvachko K, Kuang H, Radia S.The hadoop distributed filesystem[C]//Mass Storage Systems and Technologies(MSST), IEEE 26th Symposium.2010: 1-10.
Chang F, Dean J, Ghemawat S, et al.Bigtable:A Distributed Storage System for Structured Data[J]. Acm Transactions on Computer Systems, 2008, 26(2):205-218. http://d.old.wanfangdata.com.cn/Periodical/jsjgcysj201005061
李孟, 曹晟, 秦志光.基于Hadoop的小文件存储优化方案[J].电子科技大学学报, 2016(1):141-145. doi: 10.3969/j.issn.1001-0548.2016.01.024 Henzinger T A, Jhala R, Majumdar R, et al.Lazy Abstraction[C]//Acm Sigplan-sigact Conference on Principles of Programming Languages. ACM, 2002: 58-70.
Godefroid P. Model checking for programming languages using VeriSoft[C]//Proc.24th Annual ACM Symposium on the principles of Programming Languages(POPL) 1997: 174-186.
陆嘉恒. Hadoop实践: 第2版[M].机械工业出版社, 2012: 36-38.