Clickhouse分区与副本 发表于 2023-01-10 | 分类于 大数据 | 字数统计: 1.5k | 阅读时长 ≈ 5一、表分区(Partition)概念 表中的数据可以按照指定的字段分区存储,每个分区在文件系统中都是都以目录的形式存在。常用时间字段作为分区字段,数据量大的表可以按照小时分区,数据量小的表可以在按照天分区或者月分区,查询时,使用分区字段作为Where条件,可以有效的过滤掉大量非结果集数据。 Clic ...阅读全文 »
Clickhouse副本与分片 发表于 2022-12-24 | 分类于 大数据 | 字数统计: 3.3k | 阅读时长 ≈ 14一 副本与分片概述 副本(replica) 是指两个相同数据的表或表一部分,作用是为了数据备份与安全 分片(shard) 是指不同的服务器存储同一张表的不同部分,作用是为了水平切分表,缓解单一服务的压力. 针对于副本的需求,有两种不同的方式,后面会一一概述. 二 下载并安装zookeeper cli ...阅读全文 »
ClickHouse核心引擎MergeTree解读 发表于 2022-12-24 | 分类于 大数据 | 字数统计: 2.8k | 阅读时长 ≈ 10ClickHouse 是俄罗斯最大的搜索引擎Yandex在2016年开源的数据库管理系统(DBMS),主要用于联机分析处理(OLAP)。其采用了面向列的存储方式,性能远超传统面向行的DBMS,近几年受到广泛关注。 本文将介绍 ClickHouse MergeTree系列表引擎的相关知识,并通过示例分 ...阅读全文 »
hdfs介绍 发表于 2022-12-23 | 分类于 大数据 | 字数统计: 947 | 阅读时长 ≈ 3HDFS:我们至少应该学习以下内容 Hdfs架构设计 Hdfs优缺点 Hdfs如何读取文件 Hdfs如何写入文件 Hdfs副本存放策略 hdfs访问命令 Hdfs数据复制 Hdfs空间回收 Namenode的热备 NN&2NN关系 DataNode工作机制 Hdfs面试重点 介绍 HDF ...阅读全文 »
Flink的安装部署的几种模式详解 发表于 2022-12-23 | 分类于 大数据 | 字数统计: 2.7k | 阅读时长 ≈ 11Flink的安装部署:Local本地模式|Standalone独立集群模式|Standalone-HA高可用集群模式|Flink On Yarn模式** **我这里电脑上有三台安装好的虚拟机分别是node1、node2、node3 Local本地模式: ** 原理:主节点JobManag ...阅读全文 »
基于 Flink和ClickHouse 构建实时数据分析平台 发表于 2022-12-23 | 分类于 大数据 | 字数统计: 3.6k | 阅读时长 ≈ 13作者:王金海@趣头条 摘要:本文由趣头条数据平台负责人王金海分享,主要介绍趣头条 Flink-to-Hive 小时级场景和 Flink-to-ClickHouse 秒级场景,内容分为以下四部分: 一、业务场景与现状分析 二、Flink-to-Hive 小时级场景 三、Flink-to-ClickH ...阅读全文 »
各个系统V2ray客户端 发表于 2022-12-23 | 分类于 杂项 | 字数统计: 950 | 阅读时长 ≈ 3摘要:这是一篇转载文章,原文出处V2Ray客户端。 V2Ray是近几年兴起的科学上网技术,采用新的协议,因功能强大、能有效抵抗墙的干扰而广受好评。V2Ray官网是 https://v2ray.com(V2fly社区官网是 https://www.v2fly.org/),目前已无法直接打开。V2Ray ...阅读全文 »
如何重新分布kafka分区、增加分区副本数 发表于 2022-12-22 | 分类于 中间件 | 字数统计: 2k | 阅读时长 ≈ 9放弃不难,但坚持很酷~ 前言: 前几天,我通过 Kafka 自带的 kafka-reassign-partitions.sh 脚本工具,完成了对 topic 分区副本数的增加。其实 kafka-reassign-partitions.sh 不仅可以实现分区副本数的增加,它还可以实现对 topic ...阅读全文 »
over窗口聚合函数 发表于 2022-12-22 | 分类于 大数据 | 字数统计: 1.2k | 阅读时长 ≈ 4在标准 SQL 中还有另外一类比较特殊的聚合方式,可以针对每一行计算一个聚合值。比如说,我们可以以每一行数据为基准,计算它之前 1 小时内所有数据的平均值;也可以计算它之前 10 个数的平均值。就好像是在每一行上打开了一扇窗户、收集数据进行统计一样,这就是所谓的“开窗函数”。开窗函数的聚合与之前两种 ...阅读全文 »
Flinksql upsert-MysqlSink时primary key 根据主键更新失效问题,Mysql报错duplicate Key主键冲突 发表于 2022-12-21 | 分类于 大数据 | 字数统计: 1.3k | 阅读时长 ≈ 7注意的点 网上有很多文章只写了一个字段做测试,所以Flink sql 在写mysql sink的时候 primary key (uid) NOT ENFORCED 是生效的。 但是前提是只有一个字段,flinksql检测数据的时候就不需要关心其是否重复。 而当我们的数据源有多个字段时,这时候再需要u ...阅读全文 »