风起半山

不登高山,不知天之高也;不临深溪,不知地之厚也


  • 首页

  • pdf

  • 标签

  • 分类

  • 归档

  • 友链

  • 说说

  • 相册

  • 朋友圈

  • 留言

  • 搜索

全方位测评Hive、SparkSQL、Presto 等七个大数据查询引擎

发表于 2023-02-07 | 分类于 大数据 |
字数统计: 4.4k | 阅读时长 ≈ 15
2019-04-28 17:26 现在大数据组件非常多,众说不一,那么每个企业在不同的使用场景里究竟应该使用哪个引擎呢?易观Spark实战营团队选取了Hive、SparkSQL、Presto、Impala、HAWQ、ClickHouse、Greenplum七个大数据查询引擎,在原生推荐配置情况下, ...
阅读全文 »

Alink单表操作和UDF操作

发表于 2023-01-17 | 分类于 大数据 |
字数统计: 148 | 阅读时长 ≈ 1
Alink 支持 Flink sql操作, SQL 语句中对数据的操作都是通过表名进行的,要对某个Alink 批式组件 BatchOperator 输出的 Table 类型数据进行操作,需要先为其注册一个名称。下面内容包括 1. 内置函数介绍; 2. 单表操作和多表Join操作;2. 用户定义函数( ...
阅读全文 »

Flink Catalog介绍

发表于 2023-01-17 | 分类于 大数据 |
字数统计: 1k | 阅读时长 ≈ 4
1.FlinkCatalog介绍 1.18.3.1.引言 以下转自:http://legendtkl.com/2020/07/26/flink-catalog/ 这篇文章我们介绍了一下Flink的Catalog,基于Flink1.11,熟悉Flink或者Spark等大数据引擎的同学应该都知道这两个计 ...
阅读全文 »

Alink基本概念-Pipline

发表于 2023-01-15 | 分类于 大数据 |
字数统计: 18 | 阅读时长 ≈ 1
Alink管道 主要分为:转换器(Transformer) 、Model(模型)、估计器(Estimator)
阅读全文 »

Alink数据预处理

发表于 2023-01-15 | 分类于 大数据 |
字数统计: 878 | 阅读时长 ≈ 3
预处理:对数据的一种简单的按特征的缩放和移动。 不同类型的预处理 这是一个有两个特征(x/y)的二分类数据集,四种预处理方法: StandardScaler:确保每个特征的平均值为0,方差为1。 RobustScaler:使用中位数和四分位数(四分之一),确保每个特征的统计属性都位于同一范围。 ...
阅读全文 »

Alink漫谈一_从KMeans算法实现不同看Alink设计思想

发表于 2023-01-13 | 分类于 大数据 |
字数统计: 5.4k | 阅读时长 ≈ 21
0x00 摘要 Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文将带领大家从多重角度出发来分析推测Alink的设计思路。 因为Alink的公开资料太少,所以以下均为自行揣测,肯定会有疏漏错误,希望大家指出,我会 ...
阅读全文 »

基于实时计算Flink的机器学习算法平台及场景介绍

发表于 2023-01-13 | 分类于 大数据 |
字数统计: 2.2k | 阅读时长 ≈ 7
简介: 后疫情时代的新社会模式及经济形态必将催生出新的商业模式,在线业务及相关应用场景的流量呈现井喷式发展,常规的离线系统及离线机器学习平台已无法满足业务发展要求。 1. 前言 随着互联网“人口红利”的“消耗殆尽”,基于“T+1”或者离线计算的机器学习平台及推荐系统转化率与效果日趋“平淡”。后疫 ...
阅读全文 »

ClickHouse-分片集群

发表于 2023-01-13 | 分类于 大数据 |
字数统计: 3.4k | 阅读时长 ≈ 15
ClickHouse-分片集群 副本虽然能够提高数据的可用性,降低丢失风险,但是每台服务器实际上必须容纳全量数据,对数据的横向扩容没有解决。 要解决数据水平切分的问题,需要引入分片的概念。通过分片把一份完整的数据进行切分,不同的分片分布到不同的节点上,再通过 Distributed 表引擎把数据拼接 ...
阅读全文 »

clickhouse配置多块磁盘

发表于 2023-01-13 | 分类于 大数据 |
字数统计: 560 | 阅读时长 ≈ 2
1.概述 转载:clickhouse配置多块磁盘 最近让运维同学新搭了一个clickhouse集群,每台服务器都配置了多块磁盘,但是使用的时候还是按照以前的方式是使用的,导致系统盘空间不够。特此记录一下配置和使用方法。 2.集群配置 执行lsblk命令,可以看到本地机器的磁盘信息: ** 主要需要修 ...
阅读全文 »

使用新的 TTL move,将数据存储在合适的地方

发表于 2023-01-13 | 分类于 大数据 |
字数统计: 4.2k | 阅读时长 ≈ 17
前言 本文翻译自 Altinity 针对 ClickHouse 的系列技术文章。面向联机分析处理(OLAP)的开源分析引擎 ClickHouse,因其优良的查询性能,PB 级的数据规模,简单的架构,被国内外公司广泛采用。 阿里云 EMR-OLAP 团队,基于开源 ClickHouse 进行了系列优化 ...
阅读全文 »
上一页1…678…14下一页

137 日志
16 分类
34 标签
RSS
近期文章
  • Sqlite3 net平台
  • 输出信号
  • halcon OCR
  • halcon拟合圆
  • Costura_Fody插件程序打包
0%
© 2024 [email protected] | Site words total count: 249.2k