大数据专题

大数据专题

编者按

大数据正引领新一轮科技创新,并为社会经济转型升级、国家竞争力提升提供了新动力和新机遇。为此,许多国家都提出了大数据发展计划。我国国务院于 2015 9 月份颁布了《促进大数据发展行动纲要》,要求政府各部门促进数据共享,并提出“推动大数据发展与科研创新有机结合,推进基础研究和核心技术攻关, 形成大数据产品体系,完善大数据产业链”。大数据具有深刻的科学和技术内涵, 近年来已经引发了各个学科领域的广泛研究,为许多产业带来了技术、模式乃至思想上的变革。 本期大数据专题收录的文章来自于中国科学院深圳先进技术研究院、中国科学院计算技术研究所、中国科技大学、深圳大学等单位。 专刊的内容围绕大数据平台和支撑技术、大数据应用以及大数据安全和隐私等主题来组织,展示了大数据工程与科学的若干重要方向上的最新成果,体现了国内部分科研机构和高校在此领域所做的探索 。

本期客座编辑

须成忠 教授

澳门大学科技学院院长、协同创新研究院代院长,国家科技部重点研发计划首席科学家

主要研究方向为并行与分布式系统、云计算和大数据、智能交通和智慧城市,及无人驾驶技术。

 

谭光 教授

中山大学智能工程学院“百人计划”教授

主要研究方向为感知与网络系统的研究。

文章列表

  • 显示方式:
  • 简洁模式
  • 摘要模式
  • 1  刊首语
    须成忠,谭 光
    2016, 5(2):0-0.
    [摘要](311) [HTML](0) [PDF 147.93 K](185)
    摘要:
    大数据正引领新一轮科技创新,并为社会经济转型升级、国家竞争力提升提 供了新动力和新机遇。为此,许多国家都提出了大数据发展计划。我国国务院于 2015 年 9 月份颁布了《促进大数据发展行动纲要》,要求政府各部门促进数据共 享,并提出“推动大数据发展与科研创新有机结合,推进基础研究和核心技术攻关, 形成大数据产品体系,完善大数据产业链”。大数据具有深刻的科学和技术内涵, 近年来已经引发了各个学科领域的广泛研究,为许多产业带来了技术、模式乃至 思想上的变革。 本期大数据专刊收录的文章来自于中国科学院深圳先进技术研究院(以下简 称“先进院”)、中国科学院计算技术研究所、中国科技大学、深圳大学等单位。 专刊的内容围绕大数据平台和支撑技术、大数据应用以及大数据安全和隐私等主 题来组织。深圳大学陈国良院士和黄哲学教授在《大数据分析平台建设与应用研 究》中,对大数据平台基础设施的关键问题和行业经验进行了探讨。先进院须成 忠和王洋研究员在《大规模分布式文件系统元数据管理综述》中,对大数据文件 系统中的一个关键问题——元数据管理进行了详尽的分析和工作梳理。先进院张 云博士、李晴岚博士、周丰丰研究员以及林裕杰等分别介绍了大数据在多媒体、 气象、生物和互联网方面的研究进展,并展示了他们的近期成果。大数据应用的 推广使得安全与隐私问题日益突出,为此本期专刊特别组织了两篇相关论文。其 中,姜青山研究员针对当前移动恶意软件带来的安全问题,研究了一种新的方法, 对安卓平台的恶意软件提供了有效的检测手段。尹凌博士则考虑手机位置大数据 研究中带来的隐私暴露问题,研究了个体重识别风险和数据可用性之间的关系。 本期专刊展示了大数据工程与科学的若干重要方向上的最新成果,体现了国 内部分科研机构和高校在此领域所做的探索。目前,我国的互联网以及多种应用 市场规模均达到了全球第一,这为大数据研究提供了珍贵的素材和实证机会。我 们相信,在科研人员和产业界的密切合作和不懈努力下,我国的大数据科研水平 和应用能力将迎来更广阔的发展空间。
    2  大数据分析平台建设与应用综述
    王 强 李俊杰 陈小军 黄哲学 陈国良
    2016, 5(2):2-18.
    [摘要](603) [HTML](0) [PDF 6.63 M](3143)
    摘要:
    大数据分析平台是开展大数据处理与分析应用所必需的基础设施。文章基于课题组开展大数据分析平台建设的科研成果与实践经验,结合大型企业实施行业应用项目的切身感受,从大数据分析平台设计、主流热点技术、行业应用案例三个方面进行介绍。文章首先分析了大数据分析平台的主要功能和体系架构,然后介绍了大数据分析平台的关键技术,重点介绍了 Spark 技术的体系架构及核心组件,最后介绍了大数据技术在大规模制造业、零售业和智能电网三个领域的应用案例。
    3  大规模手机位置数据研究中的个体重识别风险 及其与数据可用性的关系
    尹 凌 胡金星 王 倩 汪 伟 蔡芷铃
    2016, 5(2):19-28.
    [摘要](144) [HTML](0) [PDF 641.74 K](577)
    摘要:
    手机位置数据是一种新兴的轨迹数据源,在支持人类移动研究方面具有巨大的潜力。近期研究指出,基于手机用户独特的活动特征,许多用户能够被轻易地重识别。然而,隐私保护处理对原始数据的改变会导致数据可用性的损失。因此,使用详细位置数据进行活动分析的同时避免隐私风险成为一个挑战。本研究旨在揭示中国一个大型城市的手机用户重识别风险,以及将该数据用于人群移动分析时,用户重识别风险和数据可用性之间的量化关系。首先,以深圳市为例,评估全市某一主要运营商手机用户的重识别风险;然后,提出并实现一种空间泛化方法以保护用户隐私;最后,使用人群移动分析为例,评估隐私保护后数据可用性的损失。结果显示,深圳市的重识别风险不同于西方城市,证明了基于手机位置数据的重识别风险具有空间异质性。其次,发现了重识别风险(x)和数据可用性(y)之间的数学关系 y=-axb+c(a, b, c>0; 0<x<1)。该关系的发现,为数据发布者在权衡隐私风险和数据可用性之间的关系时提供了科学依据。本研究有助于更好地理解大规模轨迹数据中的个体重识别风险,以及隐私风险与数据可用性之间的权衡基准,有助于降低共享轨迹数据时的隐私风险。
    4  基于移动软件行为大数据挖掘的恶意软件检测技术
    张 巍 任 环 张 凯 李成明 姜青山
    2016, 5(2):29-40.
    [摘要](498) [HTML](0) [PDF 1.09 M](597)
    摘要:
    目前移动恶意软件数量呈爆炸式增长,变种层出不穷,日益庞大的特征库增加了安全厂商在恶意软件样本处理方面的难度,传统的检测方式已经不能及时有效地处理软件行为样本大数据。基于机器学习的移动恶意软件检测方法存在特征数量多、检测准确率低和不平衡数据的问题。针对现存的问题,文章提出了基于均值和方差的特征选择方法,以减少对分类无效的特征;实现了基于不同特征提取技术的集合分类方法,包括主成分分析、Kaehunen-Loeve 变换和独立成分分析,以提高检测的准确性。针对软件样本的不平衡数据,文章提出了基于决策树的多级分类集成模型。实验结果表明,文章提出的三种检测方法都可以有效地检测 Android 平台中的恶意软件样本,准确率分别提高了6.41%、3.96% 和 3.36%。
    5  视频大数据研究综述
    刘祥凯 张 云 张 欢 李 娜 樊春玲 谢祖庆 朱林卫
    2016, 5(2):41-56.
    [摘要](214) [HTML](0) [PDF 1.68 M](1162)
    摘要:
    科学技术与生产力的发展带来了数据量的高速增长,其中视频图像等多媒体数据占了很大的比重。如何高效处理这些海量数据并从中快速挖掘有价值的信息是当前的研究热点。通常大数据具有四个特点,即数据量大、需要快速响应、数据类型多样和价值密度低。视频大数据同样具有以上特点,但其特殊性在于数据冗余更大,需要进行高效的压缩编码与分析处理。总的来说,视频大数据的研究内容包括了视频数据表示、智能视频分析、视频压缩与传输、视频显示与评价等方面。在发展趋势上,视频数据的表示将向真实感与智能化两个方向发展;智能视频分析技术将会借助深度神经网络获得更准确的识别分类结果;视频压缩技术在提升压缩效率的同时也会探索降低编码复杂度的方法,并通过结合人眼视觉感知特性的编码算法来减少视频大数据的视觉冗余;视频显示设备将伴随着视频数据表示形式的改变而进行相应的升级换代;视频质量的评价准则将由单一的图像质量评价向更加综合全面的用户体验质量评价发展。
    6  大规模分布式文件系统元数据管理综述
    王 洋 刘 星 须成忠 江 松 王 刚 文 韬 范小朋 陆 平
    2016, 5(2):57-72.
    [摘要](567) [HTML](0) [PDF 609.32 K](753)
    摘要:
    文件系统的元数据主要是用来描述它的命名空间,访问权限和数据定位等信息的数据。由于50%~80% 的文件系统访问要涉及到元数据,元数据服务的性能将极大地影响整个分布式文件系统的性能。为此,文章重点讨论元数据管理面临的问题,从元数据服务的高可扩展技术、高性能技术和高可用技术三个主要方向进行综述,重点分析了各自的主要问题以及目前发展起来的一些主流技术,同时对未来分布式文件系统的元数据管理一些值得关注的问题进行了梳理和展望,为相关研究提供一定的参考。
    7  基于气象大数据的台风强度预测统计模型研究
    汤婷婷 李晴岚 李广鑫 彭玉龙
    2016, 5(2):73-84.
    [摘要](387) [HTML](0) [PDF 1.51 M](670)
    摘要:
    台风是一种破坏力极强的灾害性天气系统,做好台风路径和强度预报是防灾减灾的关键。除了气候性因子、台风持续性因子以及环境背景场因子,文章还考虑了在近海时,受陆地影响下,台风强度演变的情况,引入了新变量,即海陆比。将 2000—2014 年西北太平洋的所有台风样本分成海盆样本和近海样本,研究它们在 12、24、36 和 48 小时间隔的强度演变规律。本研究利用 1°×1°美国国家环境预报中心/美国国家大气研究中心提供的 FNL 全球再分析资料(Final Operational Global Analysis)数据,采用逐步回归和主成分分析法的多元统计回归模型预测台风强度,并比较了两种模型在台风强度预测上的表现。综合深海盆和近海台风强度的预测结果可以看出,文章提供的近海台风强度预报方法,比国内外的其他研究更具有防台减灾的实际应用价值。
    8  宏基因组中可移动序列的精确检测问题研究
    彭 超 王 普 葛瑞泉 周丰丰
    2016, 5(2):85-96.
    [摘要](344) [HTML](0) [PDF 1.52 M](968)
    摘要:
    基因组组装是宏基因组分析的主要挑战之一。通常假设所有测序序列均来源于同一个基因组,微生物中非常活跃的可移动元件给这个前提假设提出了重大质疑。文章将该质疑抽象为可移动元件与宿主染色体之间的二分类问题,准确的二分类性能将进一步促进宏基因组学方面的研究。基于宏基因组测序数据的数值化特征,详细考察特征选择算法 ReliefF、卡方检验和 Fisher 判别 t 检验,并结合分类模型逻辑回归、极限学习机、支持向量机和随机森林,验证最优可移动元件检测模型的性能。实验结果表明,ReliefF 特征选择算法和随机森林分类算法的融合模型,使用 100 个特征即可正确分类95% 以上的宏基因组测序数据,优于使用全部的 690 个特征。
    9  Geeking:基于胜者表的体育新闻搜索引擎系统
    林裕杰 陈新荃 高 妍 肖卡飞 胡红祥 花 强
    2016, 5(2):97-108.
    [摘要](450) [HTML](0) [PDF 1.44 M](935)
    摘要:
    文章介绍了体育新闻搜索引擎系统 Geeking 的框架结构和各项功能,其结构分为网页爬取、胜者表构建、检索处理、用户界面 4 个部分,其主要功能包含查询词校正、自动补全、检索结果排序、相似新闻聚类以及显示页面中关键词高亮并提供网页快照。输入查询请求时,系统根据搜索日志和新闻热词自动补全查询词,搜索不到相关结果时校正查询,给出推荐的查询词。检索新闻文档时,使用胜者表快速查找查询词项的相关文档,综合 tf-idf 权重和新闻标题、发布时间等因素计算文档的相关性并按得分排序。在相似新闻聚类中,结合最长公共子序列和编辑距离衡量新闻标题之间的相似度,以新闻标题相似度代表新闻文档的相似度。测试结果表明,基于胜者表的 Geeking 搜索引擎系统各项功能协调效果好,检索响应速度快。

    当期目录


    年第卷第

    文章目录

    过刊浏览

    年份

    刊期

    浏览排行

    引用排行

    下载排行