基于随机森林的实体识别方法
作者:
作者单位:

作者简介:

通讯作者:

基金项目:

国家自然科学基金项目(61672142);中央高校基本科研业务费项目(N150408001-3、N150404013)

伦理声明:



An Entity Resolution Approach Based on Random Forest
Author:
Ethical statement:

Affiliation:

Funding:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
    摘要:

    实体识别是将一个或多个数据源中描述同一现实世界实体的数据对象分到同一组的过程,它 在数据清洗、数据集成、数据挖掘中起着至关重要的作用。然而,实体的特征具有随时间演化的特性,这使得实体识别面临巨大的挑战。传统的实体识别方法解决了特征随着时间规律性的改变问题,但没有考虑到数据的不规律变化。该文提出了基于分类的方法解决特征不规律演化的实体识别问题。该方法首先利用机器学习中改进的随机森林的方法计算记录的相似性,接着提出了一个新型的两阶段 聚类算法完成记录聚类过程,最后通过在真实数据集上的对比试验证明了该算法的有效性。通过在真实数据集上的实验,证明了该方法能够有效提高演化实体的识别准确性。

    Abstract:

    Entity Resolution assigns data objects corresponding to the same real world entity described in one or more data sources into the same group, which plays an important role in data cleaning, data integration, and data mining. However, the features of the entity may evolve over time irregularly, which makes the entity resolution significantly challenging. Traditional approaches can only tackle the issue that the feature of an entity changes regularly with time but can not deal with the case that the feature changes irregularly over time. An approach based on classification was proposed to solve this problem. Firstly, the random forest, a machine learning algorithm, was used to calculate the similarity of records. Consequently, new two-stage clustering algorithm was employed to perform the record clustering. Finally, the evaluation on real data sets shows that the approach can effectively improve the resolution accuracy of the evolutionary entity.

    参考文献
    相似文献
    引证文献
引用本文

引文格式
杨 萌,聂铁铮,申德荣,等.基于随机森林的实体识别方法 [J].集成技术,2018,7(2):57-68

Citing format
YANG Meng, NIE Tiezheng, SHEN Derong, et al. An Entity Resolution Approach Based on Random Forest[J]. Journal of Integration Technology,2018,7(2):57-68

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2018-03-20
  • 出版日期: