高手问答第 247 期 —— 面对海量数据,你可否安闲应对?

xplanet 发布于 06/17 08:38
浏览 4K+
收藏 6

精选30+云产品,助力企业轻松上云!>>>

数智时代,数据量出现爆炸式增长,根据 IDC 猜想,到 2025 年,全球数据将增长 61%,达到 175ZB。海量数据不只带来了数据红利,也让企业的数据体系不堪重负,没有一款性能强大年夜的数据库引擎傍身,何故洞悉数据眼前的价值?

面对海量数据,您经常使用的数据库体系或查询引擎有哪些?它们有哪些优势?在平常任务中碰到过哪些困难?欲望社区能供给哪些赞助?有没有想亲身上阵来完美某个开源数据引擎?

OSCHINA 本期高手问答(2020 年 6 月 17 日——2020 年 6 月 23 日),约请到来自百度的资深研发工程师陈明雨师长教员,他将与大年夜家一路,环绕「海量数据的处理」,特别是「海量数据的报表和多维分析」这一方面展开评论辩论,定是各抒己见言无不尽,迎接大年夜家提问。

佳宾简介

陈明雨百度资深研发工程师,Apache Doris(Incubating) PPMC,重要从事 Doris 项目标核心研发任务。

为了鼓励大年夜家积极提问与进修,本期高手问答将抽取 3 名参与者分别赠予 Doris 联名 T 恤 一件

OSCHINA 高手问答一向的风格,不迎接任何与主题有关的评论辩论和喷子。

下面迎接大年夜家向陈明雨师长教员 @morningman  & @ApacheDoris 积极提问,直接回帖提问便可。

加载中
0
xplanet
xplanet

高手问答第 247 期 —— 面对海量数据,你可否安闲应对?
@yooh_o @whaon @fightingAllTheDay
祝贺以上三位网友分别取得 Doris 联名 T 恤 一件
请私信 @xplanet  告诉快递信息(格局:姓名+德律风+地址)

1
m
morningman

援用来自“开源中国首席罗纳尔多”的评论

@ApacheDoris 您好,请问大年夜数据如今都是怎样处理的?用mysql存储然后用hadoop分析吗?

您好,这个成绩能够稍微有点广泛。普通营业场景下,都邑应用mysql等一些事务数据库来处理营业相干的事务请求,这些请求普通是高频的、大批的。以后这些数据会经过过程一些数据管道,如kafka等流入到分析体系。固然,也有一些HTAP数据库,如TiDB可以在必定程度上同时支撑TP和AP场景。

后真个分析体系不一而足,市情上有异常多的分析体系,如hadoop、spark、kylin、druid、clickhouse等等,固然Doris也是个中之一,详细的还要看营业需求,应用合适的体系来满足需求。

1
m
morningman

援用来自“whaon”的评论

@ApacheDoris

你好,doris的存储是怎样做的怎样扩容

Doris今朝是以数据分片为粒度停止数据管理的,数据分片是用户在建表时,经过过程分区和分桶对表数据停止程度划分构成的。

再扩容时,Doris会根据机械的负载(今朝会综合推敲数据分片数量和磁盘应用量),对数据分片停止主动的均衡,将部分分片迁徙到新参加的节点中,直到全部集群重新达到均衡状况。全部过程不须要人工干涉,并且不影响集群的正常应用。

1
m
morningman

援用来自“开源中国停息”的评论

@ApacheDoris   Doris 都和mysql,简直分歧了,还分布式,还要其他的大年夜数据组件吗?就用 Doris 一个就好了吗? Doris 要和其他的大年夜数据组件结合应用吗??

Doris 不克不及替换MySQL哦。

MySQL有丰富的事务支撑,平日用于OLTP范畴,处理前端营业的一些高频的增删改请求。平日会把MySQL的数据同步到Doris,或许其他OLAP型的数据库中,再停止OLAP相干的数据分析需求。由于MySQL会受限于单机的处理才能,在处理大年夜数据量的分析请求时会比较费力。而Doris具有横向扩大才能,并且是针对分析需求设计的,可以或许更好地办事于AP需求。

Doris可以和很多其他大年夜数据组件、如Spark、ES等停止结合应用,并且有些场景下是异常须要的。比如Spark可以或许处理更高数量级的数据分析请求。而不合的大年夜数据组件都有各自不合的实用处景。须要结合营业停止弃取。

固然,Doris也努力于扩大本身的实用处景,增添用户须要保护多套大年夜数据组件的运维压力。

0
大年夜盘
大年夜盘

@ApacheDoris   海量数据要怎样存储 ?数据库方面有推荐吗?TiDB吗 ?

0
芳华天
芳华天

@ApacheDoris 甚么样的数据可以定义为海量的数据?须要达到若干的量级?这些数据是怎样产生的,大年夜概根据甚么样的频次产生?其价值可以保持多久?

0
Li_Peng
Li_Peng

@ApacheDoris 您好,就教2个成绩:

1、 Doris后续会支撑HTAP吗?假设想支撑HTAP,Doris结合哪些分布式存储会比较好呢?

2、关于高并发的拜访场景,Doris有哪些优化思路?

0
A
ApacheDoris

援用来自“Li_Peng”的评论

@ApacheDoris 您好,就教2个成绩:

1、 Doris后续会支撑HTAP吗?假设想支撑HTAP,Doris结合哪些分布式存储会比较好呢?

2、关于高并发的拜访场景,Doris有哪些优化思路?

1. Doris 今朝没有支撑HTAP的筹划,Doris里今朝有多版本并发控制的才能,可以支撑写入事务在100qps以内的并发。

2. 今朝Doris可以支撑高并发的读取,实际测试中可以达到10000qps以上,经过过程扩大FE可以支撑10w以上的qps。

m
morningman
答复 @Li_Peng : 可以的,Doris不担任管理ES的数据,所以其实你本身具有es的全部功能。Doris只是供给一个MPP的SQL查询层。 别的,Doris社区曾经着手开端支撑及时的增删改功能,这个有关事务,然则也能够满足大年夜部分更新需求场景。
Li_Peng
Li_Peng
感激答复,想再就教一下,假设采取Doris on ES的形式,可否直接完成HTAP?例如,数据经过过程ES停止逐条写入或删除,经过过程Doris停止批量查询。
0
A
ApacheDoris

援用来自“大年夜盘”的评论

@ApacheDoris   海量数据要怎样存储 ?数据库方面有推荐吗?TiDB吗 ?

海量数据存储的选型要看下层的营业,假设是分析型的营业,那么Doris最合适不过了。Doris今朝既支撑大年夜批量的数据处理,也支撑高并发的小查询,所以我们建议只如果分析型的营业都可以应用Doris。

0
A
ApacheDoris

援用来自“芳华天”的评论

@ApacheDoris 甚么样的数据可以定义为海量的数据?须要达到若干的量级?这些数据是怎样产生的,大年夜概根据甚么样的频次产生?其价值可以保持多久?

在一些传统企业中TB级就是海量了,在互联网公司普通认为PB级吧。 数据的产生是多种多样的,比如可以来自于关系型数据库【像企业中的ERP,CRM体系】,可所以IoT数据,也可所以应用产生的日记数据,这些数据产生的频次都不合,价值保持的时间也不一样,比如ERP的数据是经久有效的,然则一些IoT的数据能够就1个月。

前往顶部
顶部