O suprimento de recuperação de desastres em TI

John Morency e Ted Chamberlin, do Gartner
15 de maio de 2009

O suprimento de recuperação de desastres em TI

Nos últimos cinco anos, várias novas alternativas para o suprimento de recuperação de desastres se tornaram disponíveis e tecnologias emergentes, tais como a virtualização de servidores e a computação “nas nuvens”, passaram a ser adotadas. Nesta pesquisa, explicamos como os clientes devem avaliar as alternativas ao formular uma estratégia para o suprimento de recuperação de desastres (RD).

Descobertas Chave
- Uma estratégia eficaz para o suprimento de RD precisa focar a responsabilidade pela entrega dos serviços em cada uma das seis categorias chave de gestão, assim como os critérios de avaliação específicos de cada cliente com relação aos quais cada provedor será mensurado.

- No mínimo uma divisão interna de TI ainda detém a responsabilidade pela definição da estratégia de suprimento de RD, assegurando que o conteúdo do programa de suporte esteja atualizado e administrando o exercício do plano de forma eficaz.

Recomendações
- Avalie todas as opções externas viáveis, incluindo os provedores de RD já estabelecidos, os provedores de compartilhamento de localizações, os tradicionais provedores de hospedagem, os revendedores especializados de backup e recuperação de dados, e os provedores de recursos baseados em computação em nuvem, ao determinar o mix de suprimento interno e externo que melhor atenda aos seus requisitos de recuperação de aplicações e dados da forma mais financeiramente acessível.

- Cuidado ao usar a tomada de decisões sobre provedores com base em critérios voltados para os melhores sistemas, pois isso poderá resultar em um complexo ecossistema de recuperação que poderá ser mais difícil de orquestrar durante uma recuperação ao vivo e em tempo real. Equilibrar a excelência na entrega, a simplicidade logística e os custos acessíveis é fundamental para se obter uma estratégia de suprimento bem sucedida.

- Assegure-se de que os resultados corporativos exigidos, conforme o definido pelos níveis de serviço de objetivo sustentável de tempo de recuperação (RTO) e de objetivo do ponto de recuperação (RPO), estejam guiando o processo de tomada de decisões.

O que você precisa saber

As categorias mais críticas de responsabilidade para com a gestão da recuperação de desastres na TI (DRM) incluem a gestão do centro de dados de recuperação, a reativação de equipamentos, a transferência automática de serviços da rede, a restauração de aplicações para produção, o restauração da disponibilidade de dados de produção e a gestão de testes/exercícios de recuperação. Cada uma dessas seis categorias de responsabilidade pode ser considerada de forma independente umas das outras; porém, alguns critérios abrangentes— tais como custo, menor complexidade de gestão, eficiência operacional e melhor qualidade dos serviços fornecidos ao cliente — também devem ser incluídos na decisão geral sobre suprimento para garantir que os relativos resultados não estejam abaixo do ótimo esperado.




White Papers
VEJA

O suprimento de recuperação de desastres em TI

John Morency e Ted Chamberlin

15 de maio de 2009


Descobertas Chave
- Uma estratégia eficaz para o suprimento de RD precisa focar a responsabilidade pela entrega dos serviços em cada uma das seis categorias chave de gestão, assim como os critérios de avaliação específicos de cada cliente com relação aos quais cada provedor será mensurado.

- No mínimo uma divisão interna de TI ainda detém a responsabilidade pela definição da estratégia de suprimento de RD, assegurando que o conteúdo do programa de suporte esteja atualizado e administrando o exercício do plano de forma eficaz.

Recomendações
- Avalie todas as opções externas viáveis, incluindo os provedores de RD já estabelecidos, os provedores de compartilhamento de localizações, os tradicionais provedores de hospedagem, os revendedores especializados de backup e recuperação de dados, e os provedores de recursos baseados em computação em nuvem, ao determinar o mix de suprimento interno e externo que melhor atenda aos seus requisitos de recuperação de aplicações e dados da forma mais financeiramente acessível.

- Cuidado ao usar a tomada de decisões sobre provedores com base em critérios voltados para os melhores sistemas, pois isso poderá resultar em um complexo ecossistema de recuperação que poderá ser mais difícil de orquestrar durante uma recuperação ao vivo e em tempo real. Equilibrar a excelência na entrega, a simplicidade logística e os custos acessíveis é fundamental para se obter uma estratégia de suprimento bem sucedida.

- Assegure-se de que os resultados corporativos exigidos, conforme o definido pelos níveis de serviço de objetivo sustentável de tempo de recuperação (RTO) e de objetivo do ponto de recuperação (RPO), estejam guiando o processo de tomada de decisões.

O que você precisa saber

As categorias mais críticas de responsabilidade para com a gestão da recuperação de desastres na TI (DRM) incluem a gestão do centro de dados de recuperação, a reativação de equipamentos, a transferência automática de serviços da rede, a restauração de aplicações para produção, o restauração da disponibilidade de dados de produção e a gestão de testes/exercícios de recuperação. Cada uma dessas seis categorias de responsabilidade pode ser considerada de forma independente umas das outras; porém, alguns critérios abrangentes— tais como custo, menor complexidade de gestão, eficiência operacional e melhor qualidade dos serviços fornecidos ao cliente — também devem ser incluídos na decisão geral sobre suprimento para garantir que os relativos resultados não estejam abaixo do ótimo esperado.

|quebra|

ANÁLISE

Considerações sobre as responsabilidades de TI-DRM e avaliação específica de provedores

As maiores opções de provedores, combinadas ao fato de que a TI-DRM é uma disciplina mais complexa do que nunca antes, resultaram em uma abordagem diferente para a tomada de decisões sobre suprimento. Ao invés de focar qual provedor deve assumir todas as responsabilidades para com a gestão da recuperação, o foco mudou para as responsabilidades específicas para com a gestão da recuperação, com diferentes responsabilidades sendo potencialmente administradas por diferentes provedores.

As categorias de responsabilidades específicas incluem:

1. Disponibilidade do centro de dados de recuperação

2. Equipamentos (servidor, armazenagem e rede, por exemplo) restauração, re-configuração (se necessário) e reativação da infraestrutura de TI

3. Transferência automática dos serviços de rede

4. Restauração e ativação das aplicações para produção

5. Restaurar a disponibilidade de dados sobre produção

6. Gestão de testes/exercícios de recuperação

|quebra|
Disponibilidade do centro de dados de recuperação

Os centros de dados de recuperação são os centros de dados onde ocorrem os testes de RD e as recuperações das operações de TI. Uma das mudanças mais significativas nos últimos anos foi a crescente necessidade de testes de recuperação mais frequentes em um local mais próximo dos principais centro de dados sobre produção. Além disso, os maiores custos dos serviços para os serviços de “warm” e “hot-site” levaram muitas empresas a avaliar o modo como provedores alternativos podem reduzir os recorrentes custos mensais com instalações, assim como oferecer testes de recuperação mais freqüentes e mais criteriosos.

Um outro ponto chave específico para as instalações é que, até bem recentemente, o espaço no centro de dados de recuperação era em grande parte um recurso fixo, e tinha seus preços estabelecidos do mesmo modo pelos provedores de serviços de recuperação, assim como pelos provedores de compartilhamento de localizações e de hospedagem. Porém, o crescente número de provedores de serviços baseados na computação em nuvem está mudando o modelo de preços dos serviços de um modelo fixo para um modelo variável. O suporte a uma capacidade de computação e armazenagem altamente elástica, sob demanda, combinado a um modelo de preços variável do tipo “pague pelo que usar”, têm permitido que os provedores de computação em nuvem reduzam significativamente os pontos dos preços iniciais para as configurações de recuperação, especialmente para aquelas baseadas em Windows ou Linux.

Embora as instalações baseadas na computação em nuvem certamente apresentem significativos potenciais positivos, a maturidade das operações de TI de alguns provedores de computação em nuvem não se encontra atualmente nos níveis necessários para prover serviços de suporte 24/7 para aplicações críticas para a missão. Porém, dado que alguns dos provedores de hospedagem já estabelecidos, tais como Rackspace e Terremark, estão também começando a oferecer serviços de computação e armazenagem baseados na computação em nuvem, essa insuficiência poderá se tornar uma questão menos importante nos próximos 18 a 24 meses.

|quebra|

Equipamentos da infraestrutura de TI

Em geral, os provedores de serviços de RD têm estabelecido preços mensais pelos serviços de recuperação para unidades de processamento (as plataformas zSeries ou iSeries da IBM), sistemas legados medianos (e.g., DEC VAX, HP 3000 e Tandem Non-Stop), e servidores baseados em Unix/Linux e Windows, de forma diferente. Dependendo da configuração, os serviços de recuperação para unidades de processamento “warm” e “hot-site” podem facilmente variar entre $7.000 e $15.000 ou mais por mês por unidade de processamento em escopo. Os serviços de “warm” e “hot-site” para servidores Unix ou Linux costumam ter preços um pouco mais baixos, e podem variar entre $600 e $1.200 por mês ou mais por servidor em escopo.

Do mesmo modo, o Gartner descobriu que o preço pelo serviço de “warm” e “hot-site” de um provedor de RD para servidores baseados em Windows costuma variar entre 55 e 175 dólares por mês por servidor. Atualmente, nossa melhor estimativa é que os preços por tipo de sistema para equipamentos de “cold-site” correspondentes estejam entre 45% e 65% dos preços de equipamentos para “warm-site” específicos de uma plataforma. Além disso, a armazenagem administrada para serviços de “warm” ou “hot-site” costuma variar entre 50 centavos e 1 dólar por gigabyte por mês. Além disso, esses preços para servidor e armazenagem referem-se somente ao custo da assinatura mensal e não incluem taxas para a declaração de desastres específicas para um evento, taxas para uso diário pós-declaração ou taxas para configuração de instalações uma única vez, que devem também variar com base no tamanho e escopo da configuração de recuperação.

O ponto central é que a disponibilidade de equipamentos para recuperação pode ampliar ou limitar a gama de opções de provedores. Quanto maior o número de plataformas de computação (especialmente se unidades de processamento e sistemas legados fizerem parte do mix), mais provavelmente os provedores de recuperação já estabelecidos serão as únicas alternativas realistas. Por outro lado, as configurações de recuperação que forem compostas essencialmente de servidores baseados em Windows e Linux poderão receber suporte de mais provedores, incluindo os revendedores originais de produtos para servidores e armazenagem, além de provedores terceiros.

|quebra|

Transferência automática dos serviços de rede

Devido à ubiquidade e à forte dependência corporativa das redes baseadas em IP, administrar sua flexibilidade e transferência automática se tornou um fator de sucesso cada vez mais importante para a TI-DRM. Garantir que o redirecionamento das rotas do centro de dados, o remapeamento dos endereços de IP, a transferência automática do sistema de nome do domínio e outras reinicializações de serviços de rede associados ocorram de forma pontual é fundamental para facilitar RTOs mais rápidos.

Pequenos e grandes provedores de RD provêem suporte à flexibilidade da infraestrutura de rede em diferentes graus. Porém, no caso dos serviços de compartilhamento de localizações ou de hospedagem, implementar e administrar a transferência automática dos serviços de rede poderá ser responsabilidade do cliente provedor. Por outro lado, a gestão da flexibilidade dos serviços de rede poderá ser uma das vantagens mais claras dos provedores de computação em nuvem.

Com a possível exceção do suporte à conectividade de rede redundante e da última milha de acesso, a inerente elasticidade do serviço e a redundância das arquiteturas dos provedores de computação em nuvem oferecem o potencial de uma robusta flexibilidade das operações dos centro de dados.

Porém, é sempre importante compreender a variedade das plataformas de computação e dos estilos de aplicações que contem com suporte do provedor de computação em nuvem (segundo a discussão sobre equipamentos para infraestrutura), assim como o nível do esforço de gestão que poderá ser exigido para a transferência automática transparente dos serviços de redes internos para seus equivalentes baseados na computação em nuvem.

|quebra|

Restauração e ativação de aplicações para produção

Ao apoiar as metas de RTO mensuradas por horas, a restauração rápida e escalável de imagens do servidor se torna uma exigência. Se a restauração rápida de imagens do servidor (físicas ou virtuais) de diferentes plataformas de computação for uma exigência fundamental da recuperação, então o uso de softwares de gestão costuma ser uma alternativa superior ao uso das ofertas dos provedores de serviços. No caso dos softwares licenciados, as duas principais alternativas funcionais incluem restauração de “puro metal” e recuperação de máquina virtual.

Os produtos para restauração de “puro metal” oferecem uma maneira de recuperar (ou reativar) o sistema, aplicações e dados de um PC ou servidor que seja de "puro metal" — que não possua nenhum software ou sistema operacional já instalado. A tecnologia de restauração de “puro metal” é compatível com uma gama consideravelmente ampla de plataformas de computação (incluindo Windows, e as principais variantes de Unix e Linux). Por outro lado, a recuperação da máquina virtual está voltada para a proteção e recuperação de dados de máquinas virtuais, em oposição ao servidor físico no qual as máquina virtuais rodam.

Poucos provedores de qualquer tipo oferecem serviços específicos de restauração de “puro metal”, especialmente para plataformas de servidores heterogêneos, tornando as divisões internas de TI as opções mais prováveis de provedores nessa categoria de gestão. Um crescente número de provedores — provedores de serviços de RD, e provedores de hospedagem e de computação em nuvem — está oferecendo serviços de backup e restauração de máquinas virtuais, principalmente para máquinas virtuais específicas da VMware. É provável que mais opções de serviços para máquinas virtuais baseadas em Microsoft Hyper-V e Xen se tornem disponíveis nos próximos anos.

|quebra|

Restaurando a Disponibilidade de Dados Sobre Produção

A restauração da disponibilidade de dados sobre produção é a categoria que possui a maior diversidade de opções de provedores. Todos os tipos de provedores citados nesta pesquisa são certamente candidatos viáveis para assumir essa responsabilidade.

Porém, os critérios chave que impulsionam a decisão sobre o suprimento da gestão da disponibilidade de dados têm menos a ver com a gama de opções de provedores e o custo mensal por terabyte administrado, e mais a ver com o modo como os provedores podem lidar de forma eficaz com as três questões chave reportadas na pesquisa "Análise da Pesquisa Com Usuários: Pesquisa em Cinco Países Classifica a Recuperação de Desastres como um dos Maiores Desafios em Termos de Armazenagem em 2009." Aquelas três principais questões sobre a gestão da armazenagem são:

- O alto custo e complexidade da gestão de backup e da recuperação

- Minimizar o impacto do tempo ocioso planejado e não planejado do sistema de armazenagem sobre a disponibilidade de dados sobre produção

- A necessidade de reduzir as janelas de tempo de backup e recuperação sem aumentar significativamente o custo de outros serviços, tais como telecomunicações

Esses requisitos não dependem do tipo de dados. Eles se aplicam igualmente a documentos de escritório, bases de dados de produção de todos os tipos, arquivos de e-mail e depósitos de dados, entre outros. O desafio que eles impõem ao provedor é a criação de um modelo de entrega de serviços que seja similar a uma armazenagem em nuvem, mas que também possa ser amplamente independente da plataforma de computação e do tipo dos dados. As arquiteturas de aplicações que dependam de tecnologias de sistemas básicos, tais como virtualização de servidores, também poderão prover meios alternativos para melhorar a disponibilidade de dados sem requerer necessariamente investimentos recorrentes para melhorar o backup e a replicação da armazenagem. Por esse motivo, geralmente é uma boa idéia assegurar que as arquiteturas de aplicações e armazenagem complementem umas às outras como parte de uma estratégia geral de suporte à disponibilidade de serviços, ao invés de atuarem umas contra as outras.

|quebra|
Gestão de Testes/Exercícios de Recuperação

Equilibrar a recuperabilidade e custos acessíveis significa que a decisão sobre suprimento deve apoiar os meios através dos quais os custos dos testes/exercícios de RD exigidos possam ser incluídos de forma eficaz. O motivo para assegurar esse equilíbrio é que o custo de um único exercício de RD, que pode variar geralmente entre 25.000 e 50.000 dólares (veja "Corte de Custos na TI: Você Deveria Reduzir as Despesas com Seu Exercício de Recuperação de Desastres?"), tem o potencial de aumentar significativamente na medida em que aumentarem o número de aplicações em escopo, a quantidade de dados de suporte e o número de participantes dos testes de recuperação.

Isso não significa que você deveria ignorar os procedimentos de testes para aplicações e dados menos críticos para a missão ao formular a estratégia de suprimento. Pelo contrário, significa, no espírito de aprender a caminhar antes que você possa correr, que poderá ser essencial para as divisões de TI assegurar que a execução da recuperação dos processos e aplicações corporativos mais críticos para a missão sejam a mais confiável possível.

As exigências dos clientes por maiores tempos de teste, combinadas ao fato de que os provedores, independente do tipo, não têm sido vistos como os parceiros preferidos para a gestão eficaz de testes, significa que a execução e o aperfeiçoamento da gestão dos testes de recuperação continuarão a ser uma responsabilidade específica da TI.

|quebra|
Temas abrangentes

Embora cada uma das seis categorias de responsabilidade de TI-DRM possam ser consideradas de forma independente umas das outras, alguns temas abrangentes devem orientar a tomada de decisões sobre suprimento de forma geral para garantir que a decisão sobre suprimento resultante não esteja abaixo do ótimo esperado. Esses temas são:

- Primeiro, a decisão sobre suprimento deve fundamentalmente apoiar os meios através dos quais níveis de serviços RTO e RPO eficazes e previsíveis para as aplicações críticas para a missão mais importantes possam ser realizados e mantidos.

- Segundo, o Gartner recomenda que as empresas usem de forma pragmática a regra do 80/20 para garantir que a maioria dos atuais orçamentos de TI-DRM seja usada para apoiar a infra-estrutura, os processos e os recursos de pessoal necessários para prover suporte às metas de RTO e RPO das aplicações críticas para a missão. Esse deve ser o requisito de suprimento mais importante.

Finalmente, independente da estratégia de suprimento específica que uma empresa decida implementar, a divisão interna de TI ainda detém a responsabilidade de definir a estratégia de suprimento de RD, assegurando que o conteúdo do programa de suporte esteja atualizado, e administrando o exercício do plano de forma eficaz. Essas responsabilidades são um complemento, e não substituem, a gestão da qualidade da entrega de serviços pelo provedor.
Idealmente, a tomada de decisões sobre suprimento deve ser impulsionada por uma cuidadosa combinação de critérios econômicos, de eficiência e de eficácia, assim como pelos méritos específicos dos provedores de suprimentos.

INFO Online - Copyright © 2012, Editora Abril S.A. - Todos os direitos reservados. All rights reserved.