SeaboxMPP支持超过1000节点大规模集群部署,支持多实例部署,单集群内支持 300 及以上实例部署,支持海量业务表,单集群支持百万级别业务表,单集群支持10PB以上数据管理。支持在线扩容、缩容;支持多种外部数据源联邦查询、机器学习算法等功能扩展。
SeaboxMPP管理节点支持多活,同时具备横向扩展能力,每个管理节点均可对外提供相同的服务,且多个管理节点具有负载均衡能力。
SeaboxMPP集群能够通过增加服务器节点对系统的计算进行扩容,扩容后性能近线性提升,一次可以扩容任意数量的节点。
支持在线扩容,不中断当前系统的运行,扩容过程中允许DQL、DML操作;
扩容过程可监控、恢复、取消等灵活的监控及管理。
SeaboxMPP集群能够支持在线不停机情况下,进行水平节点扩容,扩容时现有系统可以不间断正常运行,不受扩容影响,一次可以扩容任意数量的节点。扩容后的集群支持扩容前的表与扩容后的表进行关联等操作,扩容按表级别设置扩容并发度,扩容过程可监控、恢复、取消等灵活的监控及管理,扩容全部由数据库自动完成数据均衡,分区表也支持自动扩容和数据均衡,无需额外人工迁移数据。
SeaboxMPP支持对海量数据的统一检索能力,支持不同类型的分类检索,支持自定义中文分词器。SeaboxMPP 提供的全文检索功能如下图:
SeaboxMPP结合MADLib算法库,为机器学习提供并行计算能力和线性扩展能力,用更全量的数据和更少的数据移动来进行模型训练,深度学习函数库能以扩展插件的形式嵌入到SeaboxMPP数据库中,提供SQL层的接口,用户可以通过SQL语言调用MADlib的接口完成机器学习的各个过程。
ML-In-Database数据库内机器学习的优势如下:
- 数据库内机器学习
- 库内提供算法支持
- 类SQL调用方式,简单易用
- 分布式运行框架,性能优异
- 数据内部流转,高效安全
- 算法丰富
- 可扩展框架
SeaboxMPP支持多种异构数据源进行联邦查询,直接使用数据库内置扩展能力,直接使用SQL操作,并不断进行扩展。
- 集群直接读写外部数据源,利用集群的分布式执行,无单点瓶颈
- 内置功能,不依赖其它组件,部署简单
- 直接使用SQL操作,适用所有API
- 数据源支持scfs、http(s)、(s)ftp、HDFS、HIVE、HBASE等,支持SeaboxMPP、Greenplum集群
- 支持csv、json、avro、ORC、Parquet等格式文本