作者
宋杰, 郭朝鹏, 王智, 张一川, 于戈, Jean-Marc PIERSON
发表日期
2014/4
期刊
软件学报
卷号
4
简介
大数据的规模效应给数据存储, 管理以及数据分析带来了极大的挑战, 学界和业界广泛采用分布式文件系统和 MapReduce 编程模型来应对这一挑战. 提出了大数据环境中一种基于 Hadoop 分布式文件系统 (HDFS) 和 MapReduce 编程模型的分布式 MOLAP 技术, 称为 DOLAP (distributed OLAP). DOLAP 采用一种特殊的多维模型完成维和度量的映射; 采用维编码和遍历算法实现维层次上的上卷下钻操作; 采用数据分块和线性化算法将维和度量保存在分布式文件系统中; 采用数据块选择算法优化 OLAP 的性能; 采用 MapReduce 编程模型实现 OLAP 操作. 描述了 DOLAP 在科学数据分析的应用案例, 并与主流的非关系数据库系统进行性能对比. 实验结果表明, 尽管数据装载性能略显不足, 但 DOLAP 的性能要优于基于 HBase, Hive, HadoopDB, OLAP4Cloud 等主流非关系数据库系统实现的 OLAP 性能.
引用总数
2014201520162017201820192020242151
学术搜索中的文章
宋杰, 郭朝鹏, 王智, 张一川, 于戈, JM PIERSON - 软件学报, 2014