|
|
|
|
公众号矩阵

Flink SQL 知其所以然之去重不仅仅有 Count Distinct 还有强大的 Deduplication

熟悉离线计算的小伙伴可能很快就能给出答案。没错,hive sql 中的 row_number = 1。flink sql 中也是提供了一模一样的功能,xdm,完美的解决这个问题。

作者: antigeneral了呀 来源:大数据羊说|2021-11-25 07:01

1.序篇

源码公众号后台回复1.13.2 deduplication 的奇妙解析之路获取。

下面即是文章目录,也对应到了本文的结论,小伙伴可以先看结论快速了解博主期望本文能给小伙伴们带来什么帮助:

  • 背景及应用场景介绍:博主期望你了解到,flink sql 的 deduplication 其实就是 row_number = 1,所以它可以在去重的同时,还能保留原始字段数据
  • 来一个实战案例:博主以一个日志上报重复的场景,来引出下文要介绍的 flink sql deduplication 解决方案
  • 基于 Deduplication 的解决方案及原理解析:博主期望你了解到,deduplication 中,当 row_number order by proctime(处理时间)去重的原理就是给每一个 partition key 维护一个 value state。如果当前 value state 不为空,则说明 id 已经来过了,当前这条数据就不用下发了。如果 value state 为空,则 id 还没还没来过,把 value state 标记之后,把当前数据下发。
  • 总结及展望篇

2.背景及应用场景介绍

你是否遇到过一下的场景:

由于上游发过来的数据有重复或者日志源头数据有重复上报,导致下游计算 count,sum 时算多

想做到去重计算的同时,原始表的所有字段还能正常保留且下发

那么你能想到哪些解决方案呢?

熟悉离线计算的小伙伴可能很快就能给出答案。没错,hive sql 中的 row_number = 1。flink sql 中也是提供了一模一样的功能,xdm,完美的解决这个问题。

下面开始正式篇章。

3.来一个实战案例

先来一个实际案例来看看在具体输入值的场景下,输出值应该长啥样。

场景:埋点数据上报的的字段有 id(标识唯一一条日志),timestamp(事件时间戳),page(时间发生的当前页面),param1,param2,paramN...。但是日志上报时由于一些机制导致日志上报重复,下游算多了,因此需要做一次去重,下游再去消费去过重的数据。

来一波输入数据:

id timestamp page param1 param2 paramN
1 2021-11-01 00:01:00 A xxx1 xxx2 xxxN
1 2021-11-01 00:01:00 A xxx1 xxx2 xxxN
2 2021-11-01 00:01:00 A xxx3 xxx2 xxxN
2 2021-11-01 00:01:00 A xxx3 xxx2 xxxN
3 2021-11-01 00:03:00 C xxx5 xxx2 xxxN

其中第二条和第四条是重复上报的数据,则预期输出数据如下:

id timestamp page param1 param2 paramN
1 2021-11-01 00:01:00 A xxx1 xxx2 xxxN
2 2021-11-01 00:01:00 A xxx3 xxx2 xxxN
3 2021-11-01 00:03:00 C xxx5 xxx2 xxxN

4.基于 Deduplication 的解决方案及原理解析

4.1.sql 写法

还是上面的案例,我们来看看最终的 sql 应该怎么写:

  1. select id, 
  2.        timestamp
  3.        page, 
  4.        param1, 
  5.        param2, 
  6.        paramN 
  7. from ( 
  8.       SELECT 
  9.           id, 
  10.           timestamp
  11.           page, 
  12.           param1, 
  13.           param2, 
  14.           paramN 
  15.           -- proctime 代表处理时间即 source 表中的 PROCTIME() 
  16.           row_number() over(partition by id order by proctime) as rn 
  17.       FROM source_table 
  18. where rn = 1 

上面的 sql 应该很好理解。其中由于我们并不关心重复数据上报的时间前后,所以此处就直接使用 order by proctime 进行处理,按照数据来的前后时间去第一条。

4.2.proctime 下 flink 生成的算子图及 sql 算子语义

算子图如下所示:

deduplication

  • source 算子:source 通过 keyby 的方式向 deduplication 算子发数据时,其中 keyby 的 key 就是 sql 中的 id
  • deduplication 算子:deduplication 算子为每一个 partition key 都维护了一个 value state 用于去重。每来一条数据时都从当前 partition key 的 value state 去获取 value, 如果不为空,则说明已经有数据来过了,当前这一条数据就是重复数据,就不往下游算子下发了, 如果为空,则说明之前没有数据来过,当前这一条数据就是第一条数据,则把当前的 value state 值设置为 true,往下游算子下发数据

4.3.proctime 下 deduplication 原理解析

具体的去重算子为 deduplication。我们通过 transformation 可以看到去重算子为下图所示:

transformation

上述的去重逻辑集中在 org.apache.flink.table.runtime.operators.deduplicate.ProcTimeDeduplicateKeepFirstRowFunction 的 processFirstRowOnProcTime,如下图所示:

ProcTimeDeduplicateKeepFirstRowFunction

5.总结与展望

源码公众号后台回复1.13.2 deduplication 的奇妙解析之路获取。

本文主要介绍了 deduplication 的应用场景案例以及其运行原理,主要包含下面两部分:

背景及应用场景介绍:博主期望你了解到,flink sql 的 deduplication 其实就是 row_number = 1,所以它可以在去重的同时,还能保留原始字段数据

来一个实战案例:博主以一个日志上报重复的场景,来引出下文要介绍的 flink sql deduplication 解决方案

基于 Deduplication 的解决方案及原理解析:博主期望你了解到,deduplication 中,当 row_number order by proctime(处理时间)去重的原理就是给每一个 partition key 维护一个 value state。如果当前 value state 不为空,则说明 id 已经来过了,当前这条数据就不用下发了。如果 value state 为空,则 id 还没还没来过,把 value state 标记之后,把当前数据下发。

【编辑推荐】

  1. 鸿蒙官方战略合作共建——HarmonyOS技术社区
  2. 四款超强大易用的管理工具,助你轻松玩转 Kubernetes
  3. Kodex:一款功能强大的隐私和安全工程工具包
  4. 在网络攻防的战场上,你需要一款All in One的应急处置工具
  5. 黑客工具 Burpsuite 插件开发
  6. UCSD研究团队介绍SugarCoat开源隐私保护工具 助你安全上网冲浪
【责任编辑:武晓燕 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

带你轻松入门 RabbitMQ

带你轻松入门 RabbitMQ

轻松入门RabbitMQ
共4章 | loong576

58人订阅学习

数据湖与数据仓库的分析实践攻略

数据湖与数据仓库的分析实践攻略

助力现代化数据管理:数据湖与数据仓库的分析实践攻略
共3章 | 创世达人

14人订阅学习

云原生架构实践

云原生架构实践

新技术引领移动互联网进入急速赛道
共3章 | KaliArch

42人订阅学习

视频课程+更多

linux基础知识和项目实战部署课程

linux基础知识和项目实战部署课程

讲师:陈槐15500人学习过

AD活动目录管理 - 理论与实战

AD活动目录管理 - 理论与实战

讲师:杰森洋64599人学习过

汇编语言教程

汇编语言教程

讲师:杨大毛769人学习过

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO官微