大数据技术专题

编者按

近年来,随着物联网,云计算,移动互联网,车联网等技术的成熟和迅速普及,人类社会正在以更快的速度产生不同类别如图像,视音频,健康档案等海量数据.据国际数据公司IDC预计,到2025年全球数据量将达到175 ZB(约1 750亿TB),这意味着在人类文明的所有数据中,超过99%是近几年产生的.毫无疑问,历经机械时代,信息时代后,人类正步入一个崭新且充满挑战的新时期——大数据智能时代. 本刊从宽广的范围内组织了一期大数据技术专题，报道了国内学者在大数据技术方面的研究成果，包括大数据存储、数据挖掘算法、大数据平台、视觉大数据处理芯片体系结构和超高分辨率图像大数据处理框架等方面。

本期客座编辑

喻之斌研究员

中国科学院深圳先进技术研究院先进计算与数字工程研究所副所长,主要研究方向为异构智能计算系统、处理器架构设计、计算机体系结构支持的云计算、大数据分析、人工智能系统、和边缘计算平台构建与优化。

殷鹏 副研究员

中国科学院深圳先进技术研究院,主要研究方向为生物医疗大数据、多组学机器学习研究、计算生物学等。

文章列表

全选

导出

显示方式：

简洁模式

摘要模式

1 序言：大数据及其应用方兴未艾

喻之斌 , 殷鹏

2019, 8(5):1-2.

[摘要](618) [HTML](0) [PDF 408.08 K](2298)

摘要:

2 非负子空间聚类指导下的非负矩阵分解

崔国盛 , 李烨

2019, 8(5):3-12. DOI: 10.12146/j.issn.2095-3135.20190702001

[摘要](958) [HTML](0) [PDF 1.70 M](3049)

摘要:
非负矩阵分解作为一种有效的数据表示方法被广泛应用于模式识别和机器学习领域。为了得到原始数据紧致有效的低维数据表示，无监督非负矩阵分解方法在特征降维的过程中通常需要同时发掘数据内部隐含的几何结构信息。通过合理建模数据样本间的相似性关系而构建的相似度图，通常被用来捕获数据样本的空间分布结构信息。子空间聚类可以有效发掘数据内部的子空间结构信息，其获得的自表达系数矩阵可用于构建相似度图。该文提出了一种非负子空间聚类算法来发掘数据的子空间结构信息，同时利用该信息指导非负矩阵分解，从而得到原始数据有效的非负低维表示。同时，该文还提出了一种有效的迭代求解方法来求解非负子空间聚类问题。在两个图像数据集上的聚类实验结果表明，利用数据的子空间结构信息可以有效改善非负矩阵分解的性能。

3 基于堆叠式分布式文件系统的端到端校验

李诗逸 , 古亮 , 喻之斌

2019, 8(5):13-25. DOI: 10.12146/j.issn.2095-3135.20190729002

[摘要](727) [HTML](0) [PDF 1.21 M](2845)

摘要:
端到端校验是一种有效的数据完整性检测手段，可为分布式存储系统提供基本的可靠性保证。Glusterfs 是一种常用的堆叠式分布式文件系统，但缺乏有效的数据完整性检测机制，存在用户数据遭受破坏而无法被发现的风险，即返回错误数据给用户。这种风险在某些情况还会扩散，造成多副本或灾备、双活情况下的数据丢失。针对这一问题，该文提出了一种高性价比的基于 Glusterfs 的端到端校验方案(命名为 Glusterfs-E2E)，可以有效解决 Glusterfs 文件系统中存在的数据完整性风险。该方案不但可以提供全路径的保护，具备 2%～8% 的高性能开销，而且还可以提供软件故障的定位功能。

4 基于时空相似性的大规模轨迹数据融合技术

熊文 , 周钱梅 , 杨昆 , 代浩 , 孙黎

2019, 8(5):26-33. DOI: 10.12146/j.issn.2095-3135.20190729001

[摘要](907) [HTML](0) [PDF 1.14 M](4189)

摘要:
如何利用大数据技术来支撑地铁路网规划、运营调度、应急管理和公共服务是当前学术界和工业界的研究热点。该文使用集成电路(Integrated Circuit，IC)卡交易记录和手机 WiFi 信号记录两种不同的数据，提出一种基于时空相似性的设备关联方法来重现乘客的完整轨迹。通过计算 IC 卡和手机两种不同设备历史轨迹的时空相似性，来关联同一乘客的 IC 卡和对应的手机。基于这种关联可以融合粗粒度的 IC 卡轨迹和细粒度的手机站内轨迹，进而重现乘客在地铁网络里的完整轨迹。实验通过对深圳地铁连续两个月智能 IC 卡刷卡数据和 WiFi 信号数据进行分析，同时利用最长公共子序列方法，在Spark 集群计算了 728 万张 IC 卡轨迹数据和 4 010 万个移动设备轨迹数据的时空相似性。实验结果显示，该方法可以重现 20.3 万乘客的完整轨迹，足以用来支撑地铁清分和智慧警务等应用。

5 基于网络嵌入方法的肠道微生物组大数据网络分析

李倩莹 , 蔡云鹏 , 张凯

2019, 8(5):34-48. DOI: 10.12146/j.issn.2095-3135.20190704001

[摘要](849) [HTML](0) [PDF 1.92 M](3350)

摘要:
厘清菌群群落与环境的相互关系及其潜在的驱动机理是肠道微生物研究的一项关键任务。通过微生物组高通量测序和大数据分析辨识微生物组分及功能是目前微生物群落分析的主要方法。现有人体肠道微生物的研究主要侧重于描述肠道菌群多样性和组成特征，缺少更深层次的菌群内部互利共生关系及其生态演替的探索。如何由微生物组数据从分子网络角度来研究肠道菌群分布的关联模式是目前亟待解决的问题。该文使用机器学习领域的网络嵌入方法改进传统生物网络结构学习技术过于依赖节点间的个体相关关系的弊端，更准确地捕捉微生物网络关联的异构性、隐变量和不均衡性等特征。通过对生成的模块与环境变量以及关键代谢物的进行相关性分析，证实了新的网络模块挖掘方法可以更好地提取肠道菌群结构中之前较少被认识到的特征模块，从而更好地评估菌群与菌群之间、菌群与环境之间的制约关系以及菌群代谢功能之间的潜在耦合机制。该研究中描述的方法不仅给肠道微生物群落结构的解析提供了新视角，还可以拓展应用到其他环境微生物领域的研究，通过数据的多阶信息更好地反映群落结构的驱动过程。

6 一种高效的多模型图像超分辨率框架

伍新洲 , 袁宁徽 , 沈立

2019, 8(5):49-57. DOI: 10.12146/j.issn.2095-3135.20190810001

[摘要](729) [HTML](0) [PDF 1.51 M](2966)

摘要:
图像超分辨率(Super Resolution，SR)技术能够从低分辨率图像中恢复出高分辨率图像，已被广泛应用于遥感、医学影像、目标跟踪与识别等多个领域。随着深度学习研究的深入，该技术也被成功应用于 SR 相关研究中，但现有工作往往只关注输出图像的质量，而忽略了训练和重构效率。该文基于对图像特征和训练效率的观察，提出了一种基于多模型的 SR 框架——MMSR，能够根据不同的图像特征选择合适的网络模型，从而在不影响输出图像质量的情况下有效缩短训练时间。面向 DIV_2K 图像集的测试结果表明，该框架能够实现平均 66.7% 的性能提升，同时具有良好的可扩展性。

7 一种用于加速神经视觉识别的硬件架构

田烁 , 李石明 , 王蕾 , 徐实 , 徐炜遐

2019, 8(5):58-71. DOI: 10.12146/j.issn.2095-3135.20190729003

[摘要](624) [HTML](0) [PDF 1.84 M](3112)

摘要:
深度学习的广泛应用带来了视觉分析中许多类似人类认知任务的实现。HMAX 是基于视觉皮层的生物启发模型，已在多类物体识别中被证明优于标准计算机视觉方法。但是，由于神经形态算法的高复杂性，在边缘设备上实现 HMAX 模型仍然面临巨大挑战。已有研究表明，HMAX 的 S2 阶段是运行最耗时的阶段。该文提出了一种基于脉动阵列的新架构来加速 HAMX 模型的 S2 阶段。仿真结果表明，与基准模型相比，HMAX 模型最耗时的 S2 阶段执行时间平均减少了 14.65％、内存所需的带宽减少了 3.34 倍。

8 基于多步筛选法的心脑血管疾病全基因组关联研究

胡奕绅 , 朱木春 , 殷鹏

2019, 8(5):72-85. DOI: 10.12146/j.issn.2095-3135.20190702002

[摘要](648) [HTML](0) [PDF 1.64 M](2883)

摘要:
全基因组关联研究是研究复杂疾病和性状遗传效应的一种有效手段。现有关联分析主要用的是边缘统计检验的方法，但未考虑特征间相关性、阈值选取不稳定等问题。该文以心脑血管疾病为研究对象，提出了一种基于多步筛选法的全基因组关联分析新方法。该方法可以简要概括为以下两步：首先利用 Gini 指数做特征初始筛选，获得一个候选单核苷酸多态性子集，再用基于随机森林的递归聚类消除法从单核苷酸多态性子集中发现关联单核苷酸多态性。实验结果表明，多步筛选法比单步特征选择的效果更好，基于 Gini 指数的基于随机森林的递归聚类消除法筛选的单核苷酸多态性子集与疾病的关联性更高。

9 面向医疗临床科研的大数据平台

王持 , 李超 , 陈旭 , 洪平 , 郑文立 , 沈耀 , 齐开悦 , 过敏意

2019, 8(5):86-96. DOI: 10.12146/j.issn.2095-3135.20190729004

[摘要](1295) [HTML](0) [PDF 1.10 M](5469)

摘要:
目前我国医疗信息化建设已有一定历史，各医院积累了大量电子病历临床数据，但数据结构多样。如何利用这些数据以辅助临床诊疗、科研、节约医疗资源、提升医疗效率和医疗质量，成为各医疗科研机构普遍关注的问题。该文提出了一种面向临床科研的大数据平台，构建多源数据采集方式解决信息基础设施不一致的问题：统一化存储方式应对不同数据类型、分布式计算平台提升效率与可拓展性，并对敏感数据去隐私处理；同时，构建临床科研平台辅助临床科研人员进行科研分析。根据架构搭建集群，在专病分析流程上将原本人工约 4 个月的工作简化到 15 秒左右；数据处理效率方面，由已有平台的 5 天导入 16 692 条数据提升到 10 分钟导入 15 217 026 条数据，速度与数量有了显著提升。该平台有助于完成临床数据采集，建立专病数据库、临床科研、辅助临床诊疗的闭环，为临床科研提供高效一体化的数据平台支持。