Flink watermark 发表于 2023-01-11 | 分类于 大数据 | 字数统计: 8.2k | 阅读时长 ≈ 32关于 watermark Nicki 是某一线互联网大厂的数据开发 最近 由于公司业务的发展, 以及业务对数据实时性要求变高 Nicki 开始使用 flink 进行实时数据开发 今天 Nicki 在使用 flink datastream api 进行开发 当她写完 watermark 分配器之后 脑 ...阅读全文 »
生产实践 | Flink + 直播(三)| 如何建设当前正在直播 xx 数 发表于 2023-01-11 | 分类于 大数据 | 字数统计: 2.3k | 阅读时长 ≈ 8整体架构 本文是 「直播实时数据建设」系列的第三篇,主要介绍「生产侧指标的建设」,比如当前正在直播直播间数,或者主播数等。在介绍生产侧指标的建设过程之前,先回顾下上一节的 「架构」 图。 架构 而本篇要介绍的 「生产侧指标」 的数据链路主要对应以下几个模块。 数据源:读取直播生产,比如开播,关播 ...阅读全文 »
生产实践 | Flink + 直播(二)| 如何建设实时公共画像维表 发表于 2023-01-11 | 分类于 大数据 | 字数统计: 2.8k | 阅读时长 ≈ 10技术架构 附上一篇。 生产实践 | 基于 Flink 的直播实时数据建设 (一)| 需求和架构篇 回顾上一节的 「技术架构」 图。 技术架构 从数据源到数据处理以及最后到数据汇部分,整个架构相对来说是比较好理解的。 但是大家的疑惑点可能就集中在三个维表的建设上,包含 「主播用户画像维表,观众用户 ...阅读全文 »
指标和维度 发表于 2023-01-11 | 分类于 大数据 | 字数统计: 1.4k | 阅读时长 ≈ 4指标与维度是数据分析中最常用到的术语,它们是非常基础的,但是又很重要,经常有朋友没有搞清楚它们之间的关系,只有掌握理解了,我们的数据分析工作开展就就容易多了。现在就来说说指标与维度的那些事。 1、指标 指标,用于衡量事物发展程度的单位或方法,它还有个IT上常用的名字,也就是度量。例如:人口数、GDP ...阅读全文 »
生产实践 | 基于 Flink 的直播实时数据建设 (一)| 需求和架构篇 发表于 2023-01-11 | 分类于 大数据 | 字数统计: 2.3k | 阅读时长 ≈ 7首先思考几个问题 「WHAT:相信大家或多或少都观看过直播,甚至自己就是一名主播或负责的业务就是直播相关的,那大家有没有思考过,在直播业务场景中,你最关心什么指标以及需要关注、建设什么直播数据?」 「WHY:为什么需要建设实时的直播数据?离线不能满足吗?」 「HOW:实时的直播数据可以怎样赋能业务 ...阅读全文 »
Flink sink schema 字段设计小技巧 发表于 2023-01-11 | 分类于 大数据 | 字数统计: 2.9k | 阅读时长 ≈ 111.1sink schema 中添加 version 版本字段 如 title,直接上实践案例和使用方式。 实践案例及使用方式 「非故障场景下产出的每条记录的 version 字段值为 1」 「故障场景下,可以在同一 sink 中产出 version > 1(非 1)的数据,代表故障修复数据 ...阅读全文 »
Flink合流与分流 发表于 2023-01-11 | 分类于 大数据 | 字数统计: 1.8k | 阅读时长 ≈ 101.Flink转换算子之合流(Union/Connect) 合流就是将多个流合并成一个流。 1、基于Union 注意: Union可以将两个或多个同数据类型的流合并成一个流。 12345678910111213141516171819202122232425262728293031323334353 ...阅读全文 »
flink 双流join原理(2)-优化篇 发表于 2023-01-11 | 分类于 大数据 | 字数统计: 5.3k | 阅读时长 ≈ 222w 字详述双流 Join 3 种解决方案 + 2 种优化方案 这一期的面试题主要是介绍 Flink 面试中的高频面试题,Flink 流 Join 相关内容,相信大家在面试中遇到的太多了,本节包含的主要内容如下: ⭐ Join 的应用场景 ⭐ 为什么流式计算中提到 Join 小伙伴萌就怕呢? ...阅读全文 »
flink 双流join原理(1) 发表于 2023-01-11 | 分类于 大数据 | 字数统计: 1.8k | 阅读时长 ≈ 8flink 双流join原理(1) 简介: 在数据库中的静态表上做 OLAP 分析时,两表 join 是非常常见的操作。同理,在流式处理作业中,有时也需要在两条流上做 join 以获得更丰富的信息。Flink DataStream API 为用户提供了3个算子来实现双流 join,分别是:1、jo ...阅读全文 »
ClickHouse集群部署 全网最佳实践 发表于 2023-01-10 | 分类于 大数据 | 字数统计: 3.1k | 阅读时长 ≈ 12一、准备工作: 1.机器准备: 我们准备了6台机器用来部署clickhouse,准备搭建一个3分片2副本集群,当然也可根据你自己实际情况选择机器数量。 2.在每台机器上安装clickhouse 依次执行以下命令(来源于官网文档): 1234sudo yum install yum-utilssudo ...阅读全文 »