2024, 13(5):1-2. DOI: 10.12146/j.issn.2095-3135.202405000
摘要:
2024, 13(5):3-18. DOI: 10.12146/j.issn.2095-3135.20240202001
摘要:卷积神经网络作为深度学习的典型代表,是计算机视觉等任务中最常用的神经网络,然而,卷积运算通常占整个卷积神经网络运行时的 90% 以上,成为卷积神经网络的性能瓶颈。此外,由于当下硬件的复杂性及工作负载的多样性,之前工作中的一些特定优化往往缺乏性能可移植性。对此,作者提出 BlazerML,一个基于张量虚拟机(TVM)模板代码自动生成的开源卷积计算库,可为任何输入形状自动生成高性能的卷积实现。BlazerML 是基于 Winograd 算法实现的,因为该算法是快速卷积算法中性能最高的算法。实验结果表明:BlazerML 显著优于当下最先进的开源库。在 x86 CPU 上运行常见的深度学习网络前向推理分别比 OnnxRuntime、MNN 和 TVM 社区版本快 1.18~2.47 倍、1.18~2.27 倍和 1.01~1.66 倍。在 ARM CPU 上运行常见深度学习网络的单层推理分别比 ACL 和 FastConv 快 1.26~6.11 倍、1.04~4.28 倍。
2024, 13(5):19-29. DOI: 10.12146/j.issn.2095-3135.20240124002
摘要:现有的视频流量识别方法主要针对特定平台,且大多需要捕获完整的流量,不适合高速网络管理。研究提出一种在采样后的高速流量中识别来自多个平台视频流量的方法。基于多个视频平台传输协议的普遍特性提取特征构建复合特征空间,并进一步处理这些特征,以消除采样对特征稳定性的影响,最后提取特征向量,并训练分类模型。研究使用带宽为 10 Gbps、采样率为 1∶32 的高速网络流量进行试验验证,结果表明:该方法可在高速网络中快速识别多平台的视频流量,且识别准确率大于 98%。
2024, 13(5):30-39. DOI: 10.12146/j.issn.2095-3135.20240205001
摘要:针对电厂开关检测方法无法应对现实开集环境,对稀有类别识别准确率低的现状,将目标识别问题转化为相似性度量问题,并提出新算法。新算法基于深度度量学习的三元组网络,利用加入 SE Block 的 ResNet-18 提取特征,并利用跨批次挖掘增强学习效果。为评估算法性能,创建了一个包含3 300 张开关图片的数据集,并使用新算法在该数据集上进行了闭集测试、开集测试、小样本测试。结果表明:新算法在闭集状态下具有良好的区分能力,不仅能准确识别训练集中的类别,还能有效区分训练时未遇到的及出现频率较低的状态。由此表明,该算法不仅适用于现实世界的开集环境,而且能显著提升对小样本数据的识别精度。
2024, 13(5):40-52. DOI: 10.12146/j.issn.2095-3135.20240128003
摘要:在加密移动应用程序流量分类领域,传统方法均基于双向流量的特征对流量进行分类,但在实际场景中,非对称路由会导致远程网络管理员仅能获得单向流量,使得传统方法分类准确率下降。因此设计了一种仅使用单向流量特征的加密移动应用程序流量分类方法。由于下行流量包含的信息多于上行流量,因此选择对下行流量的有效负载进行分析。同时,由于移动应用程序流量具有时间、空间相关性,因此提出利用双向长短期记忆网络捕获数据流的时序相关性,并利用卷积神经网络学习特征的空间相关性,通过引入注意力层关注重要特征,进一步提高分类准确率。该方法比之前方法的使用范围广,可用于单向流量和双向流量场景,并可通过更少的特征获取更高的准确率。
2024, 13(5):53-63. DOI: 10.12146/j.issn.2095-3135.20240131001
摘要:在多方会话中,判断消息之间的回复关系是对话领域的一项重要任务。现有的相关工作还未关注、解决以下两个数据分布方面的问题:长度较短的消息往往出现的频率更高,而短文本包含的语义信息较少,限制了模型的学习能力;存在回复关系的正样本数量往往远少于负样本数量,导致模型在训练过程中容易出现数据偏斜问题,降低了模型处理正样本的性能。针对上述两个问题,作者提出一个基于预训练语言模型的改进模型,首先通过动态查询窗口建模缓解短文本相关问题;然后通过位置驱动的正样本权重优化缓解正样本相关问题。与前人研究工作进行比对,实验结果表明,与基于预训练语言模型的基线模型相比,改进模型将召回率平均提升了 15.7%。此外,还构建了一个采集自 Telegram 平台的新数据集,可为后续相关研究提供数据支持。
2024, 13(5):64-73. DOI: 10.12146/j.issn.2095-3135.20240124001
摘要:隐喻的目的是启发理解、说服他人。目前,隐喻呈现文本、图像、视频等多模态融合的趋势,因此,识别多模态信息中蕴含的隐喻语义对互联网内容安全具有研究价值。由于缺乏多模态隐喻数据集,难以建立研究模型,因此,当前学者更关注基于文本的隐喻检测。针对这一不足,作者首先从图像-文本、隐喻出现、情感表达和作者意图等角度构建新型多模态隐喻数据集;其次,对数据集的标注者进行 Kappa 分数计算;最后,借助预训练模型和注意力机制融合图像属性特征、图像实体对象特征和文本特征,构建多模态隐喻检测模型,验证多模态数据集的质量和价值。实验结果表明:具有情感和意图表达的隐喻数据集可提升隐喻模型检测效果,多模态信息间相互关系有助于隐喻的理解。
2024, 13(5):74-92. DOI: 10.12146/j.issn.2095-3135.20240130001
摘要:随着互联网技术的快速发展,网络安全问题日益突出,加密流量的识别与分类成为一个重要研究方向。作者对当前基于机器学习的加密流量分类技术进行全面综述。首先,从分层的角度简要介绍常见的加密协议及特点;其次,对加密流量分析领域的数据集和评估指标进行概览;再次,对基于传统机器学习的加密流量分析方法和基于深度学习的方法进行讨论,对其中的特征工程、分类器模型等关键技术进行分析;最后,总结该领域目前面临的可解释性不足、对抗样本风险等挑战,对未来的可解释性加强、自动化特征提取和模型结构优化等研究方向进行展望。
2024, 13(5):93-102. DOI: 10.12146/j.issn.2095-3135.20240128001
摘要:独有的金融特性使得广泛嵌套于各种区块链平台上的智能合约成为区块链技术最成功的应用之一。由于承载着大量的资产及虚拟货币,具有极高的经济价值,因此,智能合约不断受到各种安全攻击。此外,匿名与自动执行等特点使得智能合约被用于多种违法交易与恶意应用。基于此,作者首先介绍智能合约在区块链相关技术方面的运行机制和原理,探讨智能合约技术的应用场景及发展中存在的潜在安全漏洞,以及可能引发的安全问题,然后根据对现有研究工作的总结,探讨智能合约漏洞检测领域面临的挑战,并结合深度学习技术展望智能合约的未来研究方向。
《集成技术》官网
《集成技术》公众号