Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Wbstitle
DocVersion1.0
AuthorJorge Gea
ProductWBSAirback ®
TitleDeduplicación Global
Date11/02/2015
DocTypeWhitepaper

 


Panel
bgColor#ffffff
titleBGColor#f4f4f4
titleIndice

Table of Contents
maxLevel2
stylesquare

...

Panel
borderColororange
bgColorwhite

WBS Airback®  provee una solución unificada para la consolidación de almacenamiento y archivado de datos, así como la gestión de la seguridad de los mismos, permitiendo establecer diferentes niveles de acceso a estos en virtud de sus requerimientos de disponibilidad.

...


WBS Airback®  supone una nueva generación en los sistemas de gestión y protección del almacenamiento, incluyendo funcionalidades capaces de gestionar almacenamiento heterogéneo para su uso como almacenamiento primario o como repositorio de backup, así como funcionalidades para la gestión del ciclo de vida del backup. Dichas funciones son gestionadas de una manera muy sencilla debido a que abstraen parte de la complejidad técnica y conceptual de los mencionados servicios.

...

Figura 1: Esquema de funcionamiento de WBSAirback ®

...


En el presente documento se describe la estrategia y técnicas apropiadas para abordar el backup utilizando la técnica de Deduplicación Global, que permite grandes ahorros en cuanto a espacio de almacenamiento y tiempo de backup en la mayoría de situaciones.

...

Panel
bgColorwhite
titleBGColor#f4f4f4
titleBeneficios
  • Los backups de tipo VirtualFull tienen un rendimiento muy superior con Deduplicación Global respecto al uso de Deduplicación ZFS, ya que cada virtual no intentará mover todos los datos en disco para hacer un nuevo Full. En oposición, computará códigos hash y creará solamente punteros de referencia con respecto a los datos ya existentes en los Incrementales o Full anteriores.
  • Los backups con agente pueden mejorar considerablemente su rendimiento al necesitar transmitir menos datos por la red cuando activamos la deduplicación en origen.
  • Las recuperaciones con el modo 'Rehidratación de datos' activo pueden funcionar de forma más rápida y transmitir menos datos por la red.
  • La deduplicación se produce entre todos los backups del sistema que activen deduplicación, independientemente de su organización en conjuntos o repositorios de backup. Por lo tanto, se puede lograr deduplicar más bloques al compartir el espacio de todos los agregados del sistema, además de no necesitar configuración específica por sistema de almacenamiento.
  • Si la naturaleza de los datos lo permite, se puede deduplicar cualquier tipo de backup. Esto incluye: backups VSS, backups de SystemState, plugins de BBDD, etc.
  • Es posible ejecutar réplica deduplicada entre equipos WBS Airback® remotos, ahorrando espacio, computación y carga de red.

...


4 Limitaciones  

Hay que tener en cuenta las siguientes limitaciones:

Panel
bgColorwhite
titleBGColor#f4f4f4
titleLimitaciones
  • Solamente podemos utilizar un tipo de deduplicación de forma concurrente en los mismos dispositivos de almacenamiento de  WBS Airback® : Deduplicación Global ó Deduplicación ZFS.
  • Al tratarse de una deduplicación que trabaja de forma global, no es posible agrupar los datos de deduplicación de forma separada por dispositivo de almacenamiento. Es decir, si tenemos 2 conjuntos que deduplican bien por separado, pero no juntos, la Deduplicación Global en un sólo WBSAirback ® no sería una buena solución.
    • Si disponemos de más de un  WBS Airback® , sí podríamos organizar los datos en distintos equipos para que cada elemento (Director o MediaServer) deduplicase fuentes de datos diferentes.
  • Es posible realizar copias de jobs con Deduplicación Global, obviamente, estas copias ocuparán el espacio 'original' sin deduplicar en el disco de destino. Por lo tanto, no hay inconveniente tampoco para pasar a cinta. 
    • Sin embargo, no podemos hacer copia de los datos sin usar un job de copia. En otras palabras, No es posible realizar una copia de datos consistente usando RSYNC ó ZFS Send.
    • Este inconveniente implica que actualmente no podemos replicar volúmenes de backup entre dos sistemas  WBS Airback®  en ningún entorno, incluyendo entornos de HA. 
      • **Esta problemática será abordada en el futuro por WhitebearSolutions ®  para hacerla posible.
  • Si se perdiesen de manera irrecuperable los datos contenidos en el almacén de Meta-Datos de deduplicación, sería posible llevar a cabo recuperaciones de los datos existentes. Sin embargo, no sería posible continuar haciendo backup.
    • **A medio plazo serán incluidas en la solución herramientas para poder recupera almacenes de Meta-Datos de deduplicación perdidos, inconsistentes o corruptos.
  • No es posible deduplicar backups Cifrados.

 


5 Requisitos y Arquitectura Hardware

...

Panel
bgColorwhite
titleBGColor#f4f4f4
titleRequisitos mínimos

Para cada 1TB de dato único gestionado en el sistema necesitaremos

  • 20 16 Gb de disco SSD
  • 12.8 Gb de RAM

Por cada ejecución de un job con GED, se necesitan 4Mb de memoria adicionales.

...


Teniendo en consideración, además, los elementos externos a al sistema de deduplicación que deben funcionar en el sistema (Servidor Web, Watchdog, Auditoría, NFS, CIFS, Otros backups sin deduplicación, CDP, StorageCloud, etc), necesitamos añadir un margen adicional de memoria para el sistema. En un equipo WBS Airback®  de 128Gb de RAM podríamos deduplicar, teóricamente, 10TB de datos. Sin embargo, aplicando el margen de memoria comentado, se han establecido 9TB de datos.

...

Panel
titleArquitecturas Deduplicación Global
  • 128Gb de RAM
    • Podrá deduplicar 9TB 16TB de datos únicosdato único
    • Necesitará un disco SSD de 180Gb256Gb para gestionar ese total de 16TB
  • 256Gb de RAM
    • Podrá deduplicar 18TB 32TB de datos únicosdato único
    • Necesitará un disco SSD de 360Gb512Gb para gestionar ese total de 32TB

El rendimiento del sistema de Deduplicación Global puede ser optimizado en base al establecimiento correcto de la tabla de índices. Esto se controla estableciendo los parámetros que limitan, inferior y superiormente. El tamaño de esta tabla puede ser configurado en la pantalla de configuración de la Deduplicación Global en la sección de parámetros avanzados. El sistema hace los cálculos para un rendimiento óptimo en este sentido, para tamaños de memoria RAM estándar. En casos no estándar y ante una situación de bajo rendimiento, será aconsejable revisar estos valores.

...

Para la activación del plugin, será necesario ir a la opción SUSCRIPCIÓN e insertar el código de servicio que se haya proporcionado desde WhiteBearSolutions ®  Al hacer click en Guardar, el plugin quedará activado. 



Figura 2: Menú de Servicios de suscripción

...

Una vez añadido el código de servicio correspondiente, lo veremos en el listado de códigos registrados de un modo similar a éste: 



Figura 3: Código de servicio de Deduplicación Global Activado

...

Con el código de servicio registrado, ya podemos acceder a los menús particulares de esta funcionalidad, accesibles desde el menú general en árbol, situado a la izquierda de la aplicación: 



Figura 4: Menú de Deduplicación Global

...

Para ello, en la pantalla de cada repositorio, hay que seleccionar el check 'Deduplicación Global': 



Figura 7: Configuración de un repositorio con Deduplicación Global

...

Un detalle que puede llamar la atención, es el tamaño** y velocidades obtenidas de un backup configurado para deduplicar en origen y en WBS Airback® . Si se consigue deduplicar ampliamente, veremos que los tamaños son muy pequeños, pero esto es normal, ya que, realmente, están viajando muy pocos datos por la red, y el valor que muestra la interfaz del listado de trabajos se corresponde con los datos enviados por el demonio File Daemon, situado en el cliente de backup. 




Figura 10: Trabajos con Deduplicación Global

...

En cualquier momento podremos consultar el estado del sistema de deduplicación y del almacenamiento asociado. Basta con acceder a la pantalla de 'Estado de Deduplicación Global':

 



Figura 11: Estado de Deduplicación Global

...

8.1 Indicadores de almacenamiento y memoria

...


x1x3x6x9x12
Factor deduplicación1.07x3.12x5.7x9.25x12.2x
Factor compresión1.64x1.66x1.68x1.64x1.64x
Factor ahorro1.75x5.18x9.55x15.2x20.03x     






Datos únicos
875 GB896.1 GB911.2 GB963.3 GB988.4 GB
Ocupación teórica1.54 TB4.64 TB8.7 TB14.64 TB18.8 TB
Datos ahorrados696.41 GB3.77 TB7.81 TB13.7 TB17.81 TB     






Duración de proceso de optimizado177s339s623s1228x1447s     






Volumen Datos4 GB12.38 GB24.21 GB40.29 GB48.2 GB
Almacén Datos Deduplicación0.8 TB0.82 TB0.83 TB0.85 TB0.86 TB
Ocupación Física Datos Agregado (sin metadatos)
823 GB848 GB873 GB910 GB931 GB
Almacén MetaDatos Deduplicación1,76 GB1.80 GB1.84 GB1.87 GB1.94 GB






     Conjunto VM4 GB12 GB24 GB40 GB48 GB
Conjunto Windows297 MB894 MB1 GB2 GB3 GB

 


Con estos datos podemos apreciar que los datos se consiguen deduplicar en un porcentaje cercano al 100% en cada una de las iteraciones. Cada iteración adicional, a pesar de los casi 2TB de datos originales, no incrementa la cantidad de datos únicos.

...

8.1 Indicadores de tamaño y tiempo de backup

...

 

Tipo Nivel Tamaño inicialTiempo Equipo ZFS
Tiempo Dedup Global
backup01Máquina VirtualFull166 GB1h 34m 46s2h 11m 7s
backup02Máquina VirtualFull32 GB33m 21s44m 5s
backup03Máquina VirtualFull20 GB36m 9s32m 27s
backup04Máquina VirtualFull100 GB1h 17m 43s2h 2m 52s
backup05Máquina VirtualFull74.47 GB41m 4s1h 56m 14s
backup06Máquina VirtualFull16 GB9m 20s25m 6s
backup07Máquina VirtualFull16 GB13m 14s13m 51s
backup08Máquina VirtualFull64 GB1h 14m 58s1h 20m 3s
backup09Máquina VirtualFull790 GB9h 10m 28s10h 51m 14s
backup10Máquina VirtualFull250 GB5h 32m 14s4h 31m 25s
backup11Máquina VirtualFull64 GB1h 3m 22s1h 1m 3s
backup12Máquina VirtualFull200 GB5h 25m 37s5h 19m 18s
backup13Máquina VirtualFull7.54 GB11m 21s11m 25s
backup14Máquina VirtualFull40 GB22m 16s22m 10d
backup15Máquina VirtualFull90 GB1h 4s1h 40s
backup16Máquina VirtualFull16 GB14m 6s13m 32s
backup17Windows FileSystemFull24.44 GB2h 23m 12s2h 17m 26s
      






17 Fuentes de backup 

1.924 TB31h 43m 15s35h 13m 8s

...


En los tiempos de backup, vemos diversas fluctuaciones: algunos necesitan más tiempo, mientras que otros necesitan menos. En conjunto, el backup de todo el conjunto de datos, lleva más tiempo con Deduplicación Global que con Deduplicación ZFS.

...