海盒MPP数据库系统——高效数据集成

SeaboxMPP数据库系统内置多种数据源的数据加载与数据联邦功能,不依赖其它组件,部署简单;直接读写外部数据源,利用集群的分布式执行,无单点瓶颈;直接使用SQL操作,适用所有API。支持从Oracle、MySQL等OLTP数据库通过CDC机制准实时同步增量数据,且支持流批结合模式,更好支持企业数仓建设。

SeaboxMPP数据集成能力
  • 集群直接读写外部数据源,利用集群的分布式执行,无单点瓶颈
  • 内置功能,不依赖其它组件,部署简单
  • 直接使用SQL操作,适用所有API
  • 数据源支持scfs、http(s)、(s)ftp、HDFS、HIVE、HBASE等,支持SeaboxMPP、Greenplum集群
  • 支持csv、json、avro、ORC、Parquet等格式文本
  • 单节点加载速度可达 >1TB/小时
  • 集群加载速度可随节点数增加接近线性提升

SeaboxMPP提供多种方式的数据导入方式,提供copy、外部表方式加载txt、csv等格式的文件,实现快速批量入库,命令执行后会显示导入成功的行数、skip的行数,如果出现错误,可以通过sc_read_error_log进行查询。

SeaboxMPP支持SQL查询结果导出为文本文件,提供copy、外部表写出的方式到指定目录,可以设定文件的格式(分隔符等)、大小、命名。

SeaboxMPP提供多种FDW,支持数据导出到Hadoop的分布式文件系统或分布式数据库中,支持kerberos认证方式。

SeaboxMPP支持通过 Kafka 消息队列流式数据加载,支持从Oracle、MySQL等OLTP数据库通过CDC机制准实时同步增量数据,数据延迟可控制在秒级。

SeaboxMPP也支持通用的ETL工具(包含Informatica)进行加载调度,提供scfs服务,ETL工具可进行微批次文件导出后,利用scfs服务,调用copy命令或通过外部表insert方式,实现小批次加载到SeaboxMPP数据库。准实时加载和实时加载批次数据相对较小,不会对数据库造成大的负载和压力。