Configurar un NAS HA con Supermicro
Descripción
NAS con controlador dual vs. Servidor de almacenamiento:
Como habíamos conversado, esta unidad SSG-221E-DN2R24R es esencialmente un servidor de almacenamiento con una arquitectura de "controlador dual" integrada (los dos nodos). Ofrece alta fiabilidad y disponibilidad para almacenamiento de archivos con una configuración relativamente sencilla en comparación con construir un clúster HA desde cero con servidores estándar, aprovechando su diseño SBB.
El Supermicro SSG-221E-DN2R24R es una unidad ideal para configurar un NAS de alta disponibilidad (HA) gracias a su diseño de "Storage Bridge Bay" (SBB) con dos nodos independientes que comparten 24 bahías para NVMe PCIe Gen5. Esto significa que ya viene preparado para la redundancia a nivel de hardware.
Aquí te presento una configuración detallada para un NAS HA con esta unidad, considerando los componentes principales y el software necesario:
1. Componentes Físicos (Hardware):
- Supermicro SSG-221E-DN2R24R: Esta es la base de nuestra solución. Contiene:
- Dos nodos de servidor independientes (Dual Node): Cada nodo es un servidor completo con su propia CPU (Intel Xeon Scalable de 4ª/5ª Generación), RAM (hasta 2TB DDR5 por nodo), y puertos de red (2x 10GbE por nodo).
- 24 bahías U.2 NVMe de doble puerto Gen 5: Crucial para la alta disponibilidad, ya que cada unidad NVMe es accesible por ambos nodos.
- Fuente de alimentación redundante (2x 2000W Titanium): Para garantizar que el sistema siga funcionando incluso si una fuente falla.
- Conexión Ethernet privada de 1GbE para comunicación entre nodos (Heartbeat): Esencial para la sincronización y la detección de fallos en el clúster HA.
- Discos NVMe:
- Tipo: NVMe U.2 PCIe Gen 5 de doble puerto. Es fundamental que sean de doble puerto para que ambos nodos puedan acceder a ellos simultáneamente. La cantidad y capacidad dependerá de tus requisitos de almacenamiento.
- Configuración de RAID: Aunque la unidad permite acceder a todos los discos desde ambos nodos, necesitarás una solución de software RAID (o ZFS) para crear volúmenes de almacenamiento redundantes. Considera configuraciones como RAID10 o RAID6 para un buen equilibrio entre rendimiento y protección de datos.
- Memoria RAM:
- Para cada nodo, se recomienda configurar una cantidad adecuada de RAM DDR5 ECC. El datasheet menciona hasta 2TB por nodo, pero la cantidad real dependerá de la carga de trabajo y el sistema operativo/software NAS que utilices. Para un NAS HA, es prudente tener al menos 64GB-128GB por nodo, y más si planeas usar deduplicación, compresión, o virtualización.
- Adaptadores de Red (NICs):
- Cada nodo ya trae 2 puertos 10GbE integrados (Intel X710). Estos son excelentes para el tráfico de datos del NAS.
- Para una mayor redundancia y ancho de banda, puedes considerar añadir tarjetas PCIe 5.0 adicionales (por ejemplo, 25GbE o 100GbE) si el rendimiento de la red es crítico. La unidad tiene 2x PCIe 5.0 x16 HHHL slots y 2x PCIe 5.0 x8 HHHL slots por nodo para expansión.
- Asegúrate de configurar el bonding o "link aggregation" (LACP) para los puertos de red de cada nodo que se conecten a la red principal, proporcionando redundancia y mayor ancho de banda.
- Conectividad de Gestión:
- Cada nodo cuenta con un puerto LAN dedicado de 1GbE para el BMC (Baseboard Management Controller - IPMI). Esto es crucial para la gestión remota, monitoreo y para configurar STONITH (Shoot The Other Node In The Head), una técnica de fencing esencial en clústeres HA.
2. Software para NAS HA:
Para un NAS de alta disponibilidad en esta plataforma, las opciones más comunes y robustas son:
- Sistema Operativo Base (por nodo):
- Linux (Recomendado): Distribuciones como Ubuntu Server LTS, Red Hat Enterprise Linux (RHEL), CentOS Stream, o SUSE Linux Enterprise Server. Son flexibles, estables y ofrecen un excelente soporte para soluciones de alta disponibilidad.
- FreeBSD: Si prefieres un entorno más tipo BSD, puedes considerar FreeNAS/TrueNAS CORE o SCALE. TrueNAS SCALE es una opción interesante por su base Linux y soporte de contenedores/VMs.
- Solución de Almacenamiento y Alta Disponibilidad:
- ZFS (Zettabyte File System) + Pacemaker/Corosync (Recomendado para Linux):
- ZFS: Es el sistema de archivos de facto para soluciones de almacenamiento de alto rendimiento y fiabilidad. Permite crear pools de almacenamiento sobre los NVMe, con características como checksums para integridad de datos, snapshots, clones, compresión, deduplicación y niveles de RAID (RAIDZ, RAIDZ2, RAIDZ3).
- Pacemaker y Corosync: Son los componentes clave para la gestión del clúster de alta disponibilidad en Linux.
- Corosync: Proporciona el "heartbeat" y la comunicación entre los nodos, detectando fallos y manteniendo el quorum.
- Pacemaker: Es el gestor de recursos del clúster. Se encarga de monitorizar el estado de los servicios (ej. NFS, Samba, iSCSI), los volúmenes ZFS, y de orquestar el failover automático en caso de fallo de un nodo.
- DRBD (Distributed Replicated Block Device) + Pacemaker/Corosync (Alternativa):
- DRBD replica datos a nivel de bloque entre los dos nodos en tiempo real, creando un dispositivo lógico espejo. En caso de fallo de un nodo, el otro asume la propiedad del dispositivo. Es un enfoque diferente a ZFS, pero también muy robusto.
- TrueNAS SCALE (Basado en Linux/FreeBSD con ZFS):
- TrueNAS SCALE es una distribución NAS basada en Debian Linux que incorpora ZFS y proporciona una interfaz de gestión unificada para configurar almacenamiento, servicios y HA. Simplifica mucho la configuración de ZFS y la gestión del clúster.
- Soluciones de software-defined storage (SDS) de terceros: Algunas soluciones como Xinnor xiRAID o Storage Spaces Direct (Microsoft) para entornos Windows Server (aunque el SSG-221E-DN2R24R está más optimizado para Linux). Supermicro tiene un white paper específico para el SSG-221E-DN2R24R con xiRAID.
3. Pasos Clave para la Configuración:
- Instalación del Sistema Operativo: Instala el mismo sistema operativo (ej. Ubuntu Server LTS) en ambos nodos. Asegúrate de instalarlo en una unidad de arranque independiente (ej. los M.2 NVMe internos si los usas, o un pequeño NVMe para el SO) para no ocupar las bahías principales de datos.
- Configuración de Red:
- Configura las interfaces de red de 10GbE para el tráfico de datos y crea un "bond" (LACP) para redundancia y rendimiento.
- Configura la interfaz de 1GbE dedicada como red de "heartbeat" privada entre los dos nodos.
- Configura las interfaces IPMI (BMC) para la gestión remota y STONITH. Asegúrate de que las IPMI puedan comunicarse entre sí.
- Configuración de Almacenamiento (ZFS):
- En cada nodo, detecta los 24 NVMe de doble puerto.
- Instala ZFS en ambos nodos.
- Crea un pool ZFS compartido. Los NVMe de doble puerto permiten que ambos nodos vean las mismas unidades, pero solo un nodo puede tener el pool montado y exportado activamente en un momento dado en un setup de cluster activo-pasivo.
- Crea los datasets y zvols necesarios dentro del pool ZFS.
- Configuración del Clúster HA (Pacemaker/Corosync):
- Instala Corosync y Pacemaker en ambos nodos.
- Configura Corosync para la comunicación del clúster, utilizando la red de heartbeat dedicada.
- Configura Pacemaker para gestionar los recursos del NAS:
- Define el pool ZFS como un recurso que puede ser montado en un nodo a la vez.
- Configura los servicios de red (NFS, Samba/CIFS, iSCSI) como recursos que dependen del pool ZFS.
- Define una dirección IP flotante (Virtual IP) para el NAS, que se moverá entre los nodos en caso de failover.
- Configura STONITH (fencing): Esto es crítico. Utiliza el IPMI de Supermicro (fence_ipmilan) para asegurar que, si un nodo falla, el otro pueda apagarlo forzosamente para evitar un "brain split" (ambos nodos intentando escribir en los mismos discos simultáneamente).
- Pruebas de Failover y Failback:
- Una vez configurado, realiza pruebas exhaustivas de failover (apaga un nodo, desconecta la red, etc.) para asegurarte de que el otro nodo asuma el control correctamente y que los servicios se restablezcan sin interrupciones significativas.
- Prueba el failback para asegurar que el nodo original pueda reintegrarse al clúster y retomar los servicios si es necesario.
Consideraciones Adicionales:
- Rendimiento NVMe: Los NVMe PCIe Gen5 ofrecen un rendimiento excepcional. Asegúrate de que tu red y las aplicaciones cliente puedan aprovechar este ancho de banda.
- Monitoreo: Implementa un sistema de monitoreo robusto (ej. Prometheus + Grafana, Zabbix) para supervisar el estado de los nodos, el almacenamiento, la red y los servicios del NAS.
- Backups: Aunque sea HA, la redundancia no es un sustituto de los backups. Implementa una estrategia de copias de seguridad regular para proteger tus datos de corrupción lógica, errores humanos o desastres mayores.
- Super Latam: Recuerda que para Chile, Super Latam es el distribuidor autorizado más importante de Supermicro. Ellos podrán proporcionarte los componentes, soporte y asesoramiento técnico específico para esta configuración.
NAS con controlador dual vs. Servidor de almacenamiento:
Como habíamos conversado, esta unidad SSG-221E-DN2R24R es esencialmente un servidor de almacenamiento con una arquitectura de "controlador dual" integrada (los dos nodos). Ofrece alta fiabilidad y disponibilidad para almacenamiento de archivos con una configuración relativamente sencilla en comparación con construir un clúster HA desde cero con servidores estándar, aprovechando su diseño SBB.
SKU:
Puede que te interesen estos