风起半山

不登高山,不知天之高也;不临深溪,不知地之厚也


  • 首页

  • pdf

  • 标签

  • 分类

  • 归档

  • 友链

  • 说说

  • 相册

  • 朋友圈

  • 留言

  • 搜索

Flink watermark

发表于 2023-01-11 | 分类于 大数据 |
字数统计: 8.2k | 阅读时长 ≈ 32
关于 watermark Nicki 是某一线互联网大厂的数据开发 最近 由于公司业务的发展, 以及业务对数据实时性要求变高 Nicki 开始使用 flink 进行实时数据开发 今天 Nicki 在使用 flink datastream api 进行开发 当她写完 watermark 分配器之后 脑 ...
阅读全文 »

生产实践 | Flink + 直播(三)| 如何建设当前正在直播 xx 数

发表于 2023-01-11 | 分类于 大数据 |
字数统计: 2.3k | 阅读时长 ≈ 8
整体架构 本文是 「直播实时数据建设」系列的第三篇,主要介绍「生产侧指标的建设」,比如当前正在直播直播间数,或者主播数等。在介绍生产侧指标的建设过程之前,先回顾下上一节的 「架构」 图。 架构 而本篇要介绍的 「生产侧指标」 的数据链路主要对应以下几个模块。 数据源:读取直播生产,比如开播,关播 ...
阅读全文 »

生产实践 | Flink + 直播(二)| 如何建设实时公共画像维表

发表于 2023-01-11 | 分类于 大数据 |
字数统计: 2.8k | 阅读时长 ≈ 10
技术架构 附上一篇。 生产实践 | 基于 Flink 的直播实时数据建设 (一)| 需求和架构篇 回顾上一节的 「技术架构」 图。 技术架构 从数据源到数据处理以及最后到数据汇部分,整个架构相对来说是比较好理解的。 但是大家的疑惑点可能就集中在三个维表的建设上,包含 「主播用户画像维表,观众用户 ...
阅读全文 »

指标和维度

发表于 2023-01-11 | 分类于 大数据 |
字数统计: 1.4k | 阅读时长 ≈ 4
指标与维度是数据分析中最常用到的术语,它们是非常基础的,但是又很重要,经常有朋友没有搞清楚它们之间的关系,只有掌握理解了,我们的数据分析工作开展就就容易多了。现在就来说说指标与维度的那些事。 1、指标 指标,用于衡量事物发展程度的单位或方法,它还有个IT上常用的名字,也就是度量。例如:人口数、GDP ...
阅读全文 »

生产实践 | 基于 Flink 的直播实时数据建设 (一)| 需求和架构篇

发表于 2023-01-11 | 分类于 大数据 |
字数统计: 2.3k | 阅读时长 ≈ 7
首先思考几个问题 「WHAT:相信大家或多或少都观看过直播,甚至自己就是一名主播或负责的业务就是直播相关的,那大家有没有思考过,在直播业务场景中,你最关心什么指标以及需要关注、建设什么直播数据?」 「WHY:为什么需要建设实时的直播数据?离线不能满足吗?」 「HOW:实时的直播数据可以怎样赋能业务 ...
阅读全文 »

Flink sink schema 字段设计小技巧

发表于 2023-01-11 | 分类于 大数据 |
字数统计: 2.9k | 阅读时长 ≈ 11
1.1sink schema 中添加 version 版本字段 如 title,直接上实践案例和使用方式。 实践案例及使用方式 「非故障场景下产出的每条记录的 version 字段值为 1」 「故障场景下,可以在同一 sink 中产出 version > 1(非 1)的数据,代表故障修复数据 ...
阅读全文 »

Flink合流与分流

发表于 2023-01-11 | 分类于 大数据 |
字数统计: 1.8k | 阅读时长 ≈ 10
1.Flink转换算子之合流(Union/Connect) 合流就是将多个流合并成一个流。 1、基于Union 注意: Union可以将两个或多个同数据类型的流合并成一个流。 12345678910111213141516171819202122232425262728293031323334353 ...
阅读全文 »

flink 双流join原理(2)-优化篇

发表于 2023-01-11 | 分类于 大数据 |
字数统计: 5.3k | 阅读时长 ≈ 22
2w 字详述双流 Join 3 种解决方案 + 2 种优化方案 这一期的面试题主要是介绍 Flink 面试中的高频面试题,Flink 流 Join 相关内容,相信大家在面试中遇到的太多了,本节包含的主要内容如下: ⭐ Join 的应用场景 ⭐ 为什么流式计算中提到 Join 小伙伴萌就怕呢? ...
阅读全文 »

flink 双流join原理(1)

发表于 2023-01-11 | 分类于 大数据 |
字数统计: 1.8k | 阅读时长 ≈ 8
flink 双流join原理(1) 简介: 在数据库中的静态表上做 OLAP 分析时,两表 join 是非常常见的操作。同理,在流式处理作业中,有时也需要在两条流上做 join 以获得更丰富的信息。Flink DataStream API 为用户提供了3个算子来实现双流 join,分别是:1、jo ...
阅读全文 »

ClickHouse集群部署 全网最佳实践

发表于 2023-01-10 | 分类于 大数据 |
字数统计: 3.1k | 阅读时长 ≈ 12
一、准备工作: 1.机器准备: 我们准备了6台机器用来部署clickhouse,准备搭建一个3分片2副本集群,当然也可根据你自己实际情况选择机器数量。 2.在每台机器上安装clickhouse 依次执行以下命令(来源于官网文档): 1234sudo yum install yum-utilssudo ...
阅读全文 »
上一页1…789…14下一页

137 日志
16 分类
34 标签
RSS
近期文章
  • Sqlite3 net平台
  • 输出信号
  • halcon OCR
  • halcon拟合圆
  • Costura_Fody插件程序打包
0%
© 2024 [email protected] | Site words total count: 249.2k