杨 萌,聂铁铮,申德荣,寇 月,于 戈.基于随机森林的实体识别方法[J].集成技术,2018,7(2):57-68
基于随机森林的实体识别方法
An Entity Resolution Approach Based on Random Forest
  
DOI:
中文关键词:  实体识别;聚类;随机森林;记录相似度
英文关键词:entity resolution; clustering; random forest; record similarity
基金项目:国家自然科学基金项目(61672142);中央高校基本科研业务费项目(N150408001-3、N150404013)
作者单位
杨 萌 东北大学计算机科学与工程学院 沈阳 110819 
聂铁铮 东北大学计算机科学与工程学院 沈阳 110819 
申德荣 东北大学计算机科学与工程学院 沈阳 110819 
寇 月 东北大学计算机科学与工程学院 沈阳 110819 
于 戈 东北大学计算机科学与工程学院 沈阳 110819 
摘要点击次数: 126
全文下载次数: 213
中文摘要:
      实体识别是将一个或多个数据源中描述同一现实世界实体的数据对象分到同一组的过程,它 在数据清洗、数据集成、数据挖掘中起着至关重要的作用。然而,实体的特征具有随时间演化的特性,这使得实体识别面临巨大的挑战。传统的实体识别方法解决了特征随着时间规律性的改变问题,但没有考虑到数据的不规律变化。该文提出了基于分类的方法解决特征不规律演化的实体识别问题。该方法首先利用机器学习中改进的随机森林的方法计算记录的相似性,接着提出了一个新型的两阶段 聚类算法完成记录聚类过程,最后通过在真实数据集上的对比试验证明了该算法的有效性。通过在真实数据集上的实验,证明了该方法能够有效提高演化实体的识别准确性。
英文摘要:
      Entity Resolution assigns data objects corresponding to the same real world entity described in one or more data sources into the same group, which plays an important role in data cleaning, data integration, and data mining. However, the features of the entity may evolve over time irregularly, which makes the entity resolution significantly challenging. Traditional approaches can only tackle the issue that the feature of an entity changes regularly with time but can not deal with the case that the feature changes irregularly over time. An approach based on classification was proposed to solve this problem. Firstly, the random forest, a machine learning algorithm, was used to calculate the similarity of records. Consequently, new two-stage clustering algorithm was employed to perform the record clustering. Finally, the evaluation on real data sets shows that the approach can effectively improve the resolution accuracy of the evolutionary entity.
查看全文  查看/发表评论  下载PDF阅读器
关闭
微信关注二维码 用微信扫一扫

美女

美女图片

美女

美女图片