博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Yelp开源数据管道项目最新组件——数据管道客户端库
阅读量:7045 次
发布时间:2019-06-28

本文共 1012 字,大约阅读时间需要 3 分钟。

2016年底,Yelp了他们基于Python和Apache Kafka的数据管道客户端库。该库提供了一个发布和消费数据管道主题的接口。之前的涉及Yelp的数据组件以及分布式服务数据集成所面临的挑战,也就是和。

\\

客户端库只是最新发布的一个Yelp数据管道组件。对于创建Yelp数据管道的动机和原因,据Yelp报道,切换到新的数据管道每年为他们节省了1000万美元。Yelp工程副总裁Jason Fennel表示:

\\
\

我们的动力产生于我们考察自己的数据仓库时。我们将所有的数据都集中在一起,供业务和战略人员以数据为驱动制定销售战略或产品战略。过去,那个过程极其费力。对于MySQL中的每一张表,我们的工程师都必须把它取出来存入那个数据仓库。那需要几天甚至是几周的工作……我们开始考察我们的数据仓库。把我们所有的数据都存进去需要10到15年的时间,但我们希望可以快点。即使把我们在这个管道上投入的时间和精力考虑在内,我认为,我们通过构建这个系统节省了1000万的工程成本。一旦我们接入了Salesforce,那个数值就更大了。

\
\\

服务通过客户端库从管道消费数据,在Yelp,我们将这些数据输入类似、和这样的目标。据报道,该库处理Kafka主题名称、加密和客户划分。通过一个消息代理来集中化服务通信并执行不可变的版本方案,这有助于保护下游消费者,也是更广泛的数据管道方案背后一个主要的动机。

\\

例如,服务背后的物理变化或者从上游MySQL数据库加载数据的业务逻辑可以通过Yelp的MySql 以流的方式传输到Kafka。和数据管道客户端主题的模式、数据类型和格式,将消息封装到相关元数据中,并为下游消费实现版本控制。元数据封装器可以确保各种负载类型的消息和kafka主题的一致性,但是,负载内容本身可以用于变更数据捕获,并针对下游更新使用了Kafka和日志。

\\

新管道大大缩短了上游更新和数据库更新之间的端到端时间。Fennell指出:

\\
\

我们设法将一个需要用长达三周的时间获取数据的过程压缩到了几秒……我们开始加入其他类型的东西。不只是Salesforce,还有Redshift,我们的许多业务战略人员都在使用它。随着我们连接其他类似MySQL的东西,日志也进入了我们的数据管道,Kafka构成了这一核心路由层,这意味着,我们每额外增加一个数据源受到的影响就会倍增。

\
\\

查看英文原文

转载地址:http://tohal.baihongyu.com/

你可能感兴趣的文章
python中用try来处理程序异常的集中常用方法
查看>>
[CTO札记]惊讶于警察尚未用LBS(手机定位服务)来追踪疑犯
查看>>
HP MSL2024带库无法弹出Media Slot,无法更换磁盘尝试
查看>>
打开磁盘管理器,提示:RPC服务器不可用
查看>>
MIX 2008与ASP.NET MVC框架的Road-Map
查看>>
git忽略文件【转】
查看>>
sklearn的train_test_split,果然很好用啊!
查看>>
什么是域(domain)
查看>>
在VisualStudio中应该使用什么字体
查看>>
一个C#的加锁解锁示例
查看>>
Android应用在不同版本间兼容性处理
查看>>
Win8:WinJS.UI.AppBar 工具栏
查看>>
Java中的强引用、软引用、弱引用和虚引用
查看>>
ios: NSConditionLock
查看>>
FreeMarker整合Spring 3
查看>>
云计算与网格计算的深入比较
查看>>
Mybatis oracle多表联合查询分页数据重复的问题
查看>>
oc83--自定义类实现copy方法
查看>>
What's New in iOS7,iOS7新特性介绍
查看>>
电源管理里的休眠选项卡没了
查看>>