一种流数据多播接口的设计、实现与应用
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:


On the Design, Implementation and Application of a Multicast Interface for Streaming Data
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    海量流数据的分析与处理是信息社会面对的一个基本问题。各种传感器汇聚的数据是流数据,人们发出的短信对于移动通信运营商的数据中心来说是流数据,人们写的微博对于新浪或者腾讯来说是流数据,搜索引擎网页爬取子系统传给后台处理的数据也可以看成是流数据。尽管它们的应用背景不同,但有共同的特征,即存在一个网络上的汇聚节点,从该节点的角度看,数据源源不断地到来。通常,这些数据会以某种特定的格式缓存起来,待某个特定的后续系统处理。启发本文工作的问题是:那些数据常常是有多方面价值的,有些甚至是当前没有想到的,我们有必要同时开放一个流数据接口供未来可能出现的新应用调用。该接口应该具有如下特征:(1)向外输出原始流数据;(2)允许其他(多个)应用程序动态接入和退出;(3)接入的应用程序的行为不影响数据搜集和最初设计的后续系统的功能。本文以连续运行了10年以上的天网搜索引擎和中国Web博物馆(WebInfomall)为例,讨论其网页搜集子系统的改造以适应上述需求,IP多播是采用的基本技术。在介绍了设计思想和实现要点后,我们也给出一个“新应用”的实际例子。这样一个接口的实现,为各种网页流信息分析应用打开了一扇窗口。该接口的设计思想也可以用于其他流数据汇聚系统中。

    Abstract:

    A novel programming interface (API) is introduced in this paper. The basic requirement is for multiple and asynchronous calling processes to capture a data stream without affecting each other. IP multicasting is the primary tool employed for this purpose. UDP is used at transport layer. The current implementation is based on the stream of web pages produced by a high performance web crawler. Along with the interface, a demo application (WordCount) is also implemented. Experiments have verified the robustness of the design, and preliminary measurement shows 1-3% data loss is observed, which is acceptable for many streaming data applications.

    参考文献
    相似文献
    引证文献
引用本文

引文格式
谢正茂,张帆,李晓明.一种流数据多播接口的设计、实现与应用 [J].集成技术,2012,1(1):43-47

Citing format
XIE Zheng-mao, ZHANG Fan, LI Xiao-ming. On the Design, Implementation and Application of a Multicast Interface for Streaming Data[J]. Journal of Integration Technology,2012,1(1):43-47

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2012-07-12
  • 出版日期:
文章二维码