一、为什么使用分片集群

  • 数据容量日益增大,访问性能日渐降低,怎么破?
  • 新品上线异常火爆,如何支撑更多的并发用户?
  • 单库已有 10TB 数据,恢复需要 1-2天,如何加速?
  • 地理分布数据

二、如何解决以上问题

2.1 原始结构

  • 银行交易单表内 10亿笔资料
  • 超负荷运转

2.2 把数据分成两半

2.3 把数据分成 4部分

三、分片架构介绍

下图描述了分片集群内组件的交互:

分片集群由以下组件组成 :shard/mongos/configServer #Mongos 路由节点

提供集群单一入口

转发应用端请求

选择合适数据节点进行读写

合并多个数据节点的返回

无状态

建议至少 2个

Config Servers配置节点

提供集群元数据存储

分片数据分布的映射

Shards 数据节点

以复制集为单位

横向扩展

最大 1024分片

分片之间数据不重复

所有分片在一起才可完整工作

四、MongoDB 分片集群特点

  • 应用全透明,无特殊处理
  • 数据自动均衡
  • 动态扩容,无须下线
  • 提供三种分片方式

4.1 分片和非分片集合

Unsharded 集合 - 存储在主分片上

sharded 集合

  • 分布在集群中的分片上

五、分片集群数据分布方式

  • 基于范围
  • 基于 Hash
  • 基于 zone / tag

5.1 分片集群数据分布方式 – 基于范围

缺点:容易有热点。

比如 2个分片,一个分片存 1-500w,一个分片存 500w-1000w

但是热点数据是 300w-400w。虽然数据是均衡的,但还是有热点数据,总有很忙 /很闲的分片。 也可以建议做多条件的范围分区。

5.2 分片集群数据分布方式 – 基于哈希

优点:数据分布非常均匀,适合等值查询。

缺点:范围查询的效率低(因为分布的过于零散),将来 mongos的合并 merge会比较多。

5.3 分片集群数据分布方式 – 自定义 Zone

适合:跨地域的多写场景。读写请求落到就近的节点上。