|
|
|
|
在新兴世界的数据流处理 |
(转载:www.idcew.com)在现代世界的数据系统不是站在自己的岛屿,数据经常流的数据库,离线数据存储和搜索系统,以及流处理系统。但很长一段时间,数据技术公司是相当均匀,大多居住在两个受欢迎的地点:业务数据存储和数据仓库的数据。和很大一部分的数据采集与处理,公司都跑大批量工作——CSV文件淘汰数据库、日志文件收集在一天结束的时候,等 但企业在实时操作,他们运行的软件正在赶上。而不是处理数据,只是在一天结束时,为什么不连续反应的数据到达?这个想法支撑新兴世界的流处理。 得到真正的(时间) 流处理最明显的优点是它能够将许多分析或报告过程转化为实时。流处理应用程序处理数据不是静态的表或文件,但作为一个永无止境的无限流,从过去发生的事情发生在未来。在数据库方面,而不是运行在收集的数据,在过去的查询,流处理涉及到运行的数据,因为它通过查询到达,因此,结果增量产生的连续操作。 对数据流处理的刺激远远超出了分析或报告的速度。真正实现的是一个能够建立一个公司的业务逻辑和应用程序,数据,以前只在批处理形式,从数据仓库,并以连续的方式,而不是一天一天的数据。例如,零售商可以实时分析和报告他们的销售,并建立核心应用程序,重新订购的产品,并调整价格的地区,在响应传入的销售数据。 这是小溪吗? 但流处理只时,就有可能是基本数据采集做流媒体的方式,毕竟,你不能每天批CSV转储过程流。这种转变对处理流驱动的Apache Kafka的普及。卡夫卡的收养已显著。从——硅谷高科技人群的ubers,airbnbs,netflixes Ebay和雅虎的世界--零售、金融、医疗保健、电信所出的种。对于全球数以千计的公司,卡夫卡已成为其数据架构的关键基石。 信用:汇合 我自己的经验,在这个地区是同时工作在LinkedIn在其早期的日子里。早在2009年,我和我的同事们创造了Apache Kafka帮助LinkedIn收集所有的数据和提供的各种产品和系统建立过程。这个想法是为用户提供一个实时的经验-毕竟,该网站是每天使用24小时,所以没有理由处理和分析数据,只有一天一次。在随后的几年里,我们把卡夫卡投产在LinkedIn,运行在规模越来越大,建立了LinkedIn的数据流平台的休息。我们为公司的每一件事,每一次点击,搜索,电子邮件,更新等信息都投入到了数据流中。这些天,卡夫卡在LinkedIn处理超过1万亿每天更新。 喝了它 这种转变对数据流和处理在LinkedIn是任何行业中的每一个组织有关;到处都是流是流,他们的金融公司的股票数据,永无止境的订单和发货零售公司,或用户点击网络公司。使所有组织的数据集中,作为自由流动的流,使业务逻辑被表示为流处理操作。这有着深远的影响,现在可能与所有的数据,被锁在筒仓。 现在可以进行数据流处理的相同的数据,进入脱机的数据仓库。所有收集的数据,可用于存储或访问在不同的数据库,搜索索引,和其他系统在该公司。数据驱动的关键业务决策是在连续的时尚与一天一次在午夜。异常和威胁检测,分析和响应失败,可以在实时与当它是太晚了。和所有这一切是可能的通过部署一个单一的平台在你的数据中心的心脏,大大简化您的操作足迹。 汇合,我们相信强烈,这种新型数据架构,围绕实时数据流和数据流处理,将成为无处不在的岁月。(转载:www.idcew.com) |
|
|