Dell PowerStore 10 的搭建,说白了就是给硬盘找个“家”,再找个大脑让它们跑起来。别想着按啥流程图一步步写,这玩意儿目前更像是在搭积木,先把邻居(RAID0)建好,再挖个坑(RAID10)放点肉,最终让 CPU 和内存去指挥大家干活。 先说 RAID0,这是个纯粹的组合型。Dell 的文档里别看写着,但实际部署的时候你会发现,自己写脚本是最稳妥的。

比如你手头有两块 480GB 的 NVMe SSD,一块 4TB 的机械硬盘,想做个 RAID0。

起初别去搜教程了,直接去 Dell 官网的社区要么 GitHub 找现成的配置文件,像 `raid0.sh` 这种脚本,传两块硬盘的名字路径,回车就搞定。

这时候不需求管 RAID 级别,出于 RAID0 本来就没有那一层保护,它就是单纯的体积叠加。 算笔账吧,480GB 两块拼出来就是 960GB,4TB 那个机械盘随意拖进去,总容量直接翻倍。

这时候你心里要有数,这个 RAID0 副本数等于 2,每块盘都能装一半的数据。

要是 RAID0 挂了,数据直接全丢,出于没有任何镜像备份。

故此一旦 RAID0 编好,千万别动它。 接下来才是重点,RAID10。大量人一听到 RAID 就想到 RAID1(镜像)要么 RAID5(分布式),实际上 10 是个混合体,既要有 100% 的冗余,又要有 100% 的利用空间。它的底层是 RAID10,上层是 RAID5。 想象一下,先把两块 480GB 的 NVMe 做成 RAID1(复制一份),再把这个副本池和一块 4TB 的机械盘一起做成 RAID5。

这样,原本只能占 480G 的磁盘空间,目前能撑 960G。益处是数据被分散到了所有盘上,单盘坏了要么阵列降级,影响范围就小。Dell 的 `raid10.sh` 脚本参数里,`device1` 是第一个 NVMe,`device2` 是第二个 NVMe,`device3` 放那个机械盘。 有些配置可能会把 RAID0 和 RAID10 放一起,但这在 Dell 体系里比较罕见。

一般的做法是:两块 4 盘做 RAID1,再整体 RAID10;要么两块 4 盘做 RAID0,再整体 RAID10。后者在 Dell PowerStore 里更常见,出于它能更好地平衡读写,机械盘在上面做 RAID5 时,出于上面压了 RAID0 的镜像层,读取速度会略微快一点,而写入反而受物理层 RAID10 的限制。 这里有个细节要注意,RAID10 的底层 RAID1 意味着两块 480G 的 NVMe 务必时刻运转着。

要是那两块 NVMe 的 IO 做得忒猛,要么散热哪儿出了难题,RAID10 会立马崩盘。

故此我建议在 RAID10 里放个监控脚本,要么直接让 Lenovo Vantage(Dell 数据中心管理软件)里的那个 RAID 状态检查一直跑着。一旦发现某块卡了,脚本立马提示你,你才有工夫在机械盘和 NVMe 之间做切换。 数据倾斜是 RAID5 的克星,也是 RAID10 务必处理的硬伤。假设你的机械盘里存了 80% 的冷数据,NVMe 里存了 20% 的热数据,RAID10 的成绩单会变难看。

这时候得给冷盘配个更大的 IO 管住器,特别是 NVMe 管住器,带宽得够宽。

要是冷数据盘带宽配小了,写入时会让 NVMe 忙上加忙,害得延迟飙升。

反过来,要是热数据盘带宽配小了,读取时机械盘就卡死了。 数据倾斜如何调?Dell 的 `raid10.sh` 脚本里有 `device1` 和 `device2` 的带宽参数。

比如把 `storage.device1.opt.bandwidth` 设得高一点,把 `storage.device2.opt.bandwidth` 设得低一点,情愿机械盘读得慢一点,也不能 NVMe 写得忒快帮不上忙。

与此同时,别忘了给那个冷盘加一个 ECC 主控卡,哪怕它读写速度再慢,只要它能存住数据,冷盘环境就稳了。 还有,RAID10 对随机读取不友好,别看它不在乎顺序,但日常业务里,管理员查日志、审核敏感信息,顺序读多,随机读少。

这时候得把 `storage.device1.opt.iowordsize` 设成 16 或 32 字节,不要设成默认的 512 字节,否则 NVMe 的随机 IO 效率会大打折扣。 最终是主机端的配置。Dell PowerStore 10 在 Linux 上跑,务必装 3.16 或更高版本,NFS 赞成要开。

要是在 Windows 上,Dell 自带的 Hyper-V 引擎兼容性最好,但要是是 ProLiant 服务器直连,就得用 Linux 版要么 OpenStack。记得在 BIOS 里把 RAID 模式设成 IDE 模式要么 AHCI,Intel 架构的服务器一般默认是 AHCI,别弄错,否则 RAID 卡收不到命令就白搭。 监控方面,别光依赖 Dell 自带的,建议装个 Grafana 要么 Prometheus 的数据采集组件,把每个 RAID 卡的 IO 利用率、延迟、毛病率都拉出来画个图。RAID10 的异常一般不会立马报错,往往是 IO 队列排队满要么延迟突增。

这时候看图讲话,准没错。 折腾完这些,这就叫“活”了。

不用揪心 RAID10 会乱,只要管好带宽、管好冷盘、管好监控,它就能稳稳地扛着你的业务。