Pinot OLAP 存储和分析系统

开源网站开源项目 24-06-16 09:57:17

Pinot 是一个实时分布式的 OLAP 数据存储和分析系统。LinkedIn 使用它实现低延迟可伸缩的实时分析。Pinot 从离线数据源(包括 Hadoop 和各类文件)和在线数据源(如 Kafka)中攫取数据进行分析。Pinot 被设计是可以进行水平扩展的。

Pinot 特别适合这样的数据分析场景:分析模型固定,数据只追加以及低延迟,以及分析结果可查询。

关键特性:

面向列的数据库,提供多种压缩模式,如运行长度、固定比特长度

可插入式的索引技术,包括可排序索引、Bitmap 索引和反向索引

可根据查询和段元数据对查询和执行进行优化

近乎实时的从 Kafka 获取数据,以及批量从 Hadoop 获取数据

类 SQL 的语言支持查询、聚合、过滤、分组、排序和去重

支持多值字段

水平伸缩以及容错

Pinot 非常使用用来查询时许数据以及大维度的数组。

Pinot 的组件架构:

Pinot 核心概念:

示例查询:

/*Totalnumberofdocumentsinthetable*/selectcount(*)frombaseballStatslimit0/*Top5runscorersofalltime*/selectsum('runs')frombaseballStatsgroupbyplayerNametop5limit0/*Top5runscorersoftheyear2000*/selectsum('runs')frombaseballStatswhereyearID=2000groupbyplayerNametop5limit0/*Top10runscorersafter2000*/selectsum('runs')frombaseballStatswhereyearID>=2000groupbyplayerNamelimit0/*SelectplayerName,runs,homeRunsfor10recordsfromthetableandorderthembyyearID*/selectplayerName,runs,homeRunsfrombaseballStatsorderbyyearIDlimit1
[Pinot OLAP 存储和分析系统]相关推荐
grain 组件式 RPC 框架

grain 组件式 RPC 框架

grain 是一个极简的、组件式的 RPC 框架,灵活且适合渐进学习,可与任何框架整合。同时包含(系统通用多……...

Creeper Go 版本开源爬虫框架

Creeper 是一个基于简单脚本( Creeper Script ,扩展名 .crs )的下一代开源爬虫框架。 需要配合一门正……...

Monolog PHP日志工具

Monolog 是一种支持PHP5.3+以上的日志记录工具。并为Symfony2默认支持。 示例代码: <?phpuse Monolog……...

GOP Go 应用开发的管理工具

GOP 是一个专为在 GOPATH 之外的 Go 应用开发的管理工具。当然他肯定不支持Go Get了。GOP 会将所有的依赖……...

今日开源
  1. Python 面向对象编程语言

    Python 面向对象编程语言

    Python (发音:[ 'paiθ(ə)n; (US) 'paiθɔn ]n.蟒蛇,巨蛇 ),是一种面向对象的解释性的计算机程序设计语言,也是一种功能强大而完善的通用型语言,已经具有十多年的发展历史,成熟且稳定。Python 具有脚本语言中最……

    开源软件 2024-06-23

  2. Min Browser 开源的极简浏览器

    Min Browser 开源的极简浏览器

    Min是一款开源的极简浏览器,拥有智能、快速的特点。一些特性: 通过使用DuckDuckGo在搜索栏中显示搜索结果 拦截网页内置广告和跟踪 模糊搜索 支持书签的全文搜索 阅读列表 标签页改进(标签页在右边打开并会……

    开源软件 2024-06-23

  3. BitSail 高性能数据集成引擎

    BitSail 高性能数据集成引擎

    BitSail 是字节跳动开源的基于分布式架构的高性能数据集成引擎,支持多种异构数据源间的数据同步,并提供离线、实时、全量、增量场景下的全域数据集成解决方案,目前服务于字节内部几乎所有业务线,包括抖音、今日……

    开源软件 2024-06-23

返回顶部小火箭