Continuidad de los Sistemas de Información Mediante Alta

Transcript Continuidad de los Sistemas de Información Mediante Alta

Proyecto de Ingeniería de Sistemas I
Eduardo Aldo Navarro Yataco
INCREMENTAR EL NIVEL DE RENTABILIDAD MEDIANTE LA
CONTINUIDAD DE LOS SISTEMAS DE INFORMACIÓN
MEDIANTE ALTA DISPONIBILIDAD Y PERFORMANCE EN
CASO
DE
DESASTRES
EN
SERVIDORES
INTRODUCCIÓN

Tradicionalmente se ha entendido por desastre un incendio o inundación, porque
este tipo de eventualidades destruía recursos físicos de la empresa como archivos,
máquinas o listados.

En la actualidad, eliminados en gran medida estos riesgos, los directivos se
enfrentan a una nueva forma de desastre, que afecta directamente a su activo
esencial: su información.

Es incalculable medir como afectaría al negocio y a la reputación, si las operaciones
más
importantes
de
su
compañía
se
suspendieran
repentinamente,
nos
preguntamos ¿Cuánto tiempo puede aguantar una compañía sin acceder a sus
activos básicos de información? Y, no menos importante, ¿cuánto tiempo
necesitarían las aplicaciones que proporcionan dicha información para volver a estar
disponibles?
INTRODUCCIÓN

El impacto que provoca un desastre informático, según datos de la consultora
internacional
ContingencyPlanningResearch,
es
mayor
sobre
las
empresas
financieras, mercados bursátiles, etcétera, que sobre cualquier otro tipo de negocio.
Se situarían en segundo lugar los negocios basados en los sistemas de autorización
de pagos como los cajeros automáticos y validación de tarjetas de crédito entre
otros.

Del tiempo que tarde en reaccionar, restaurando, recuperando y periódicamente
aumentando la performance de la información crítica que contienen, dependerá la
gravedad de las consecuencias económicas para su negocio.

La empresa debe prever posibles pérdidas de información irreparables en sus
instalaciones, que pueden llegar desde distintos frentes: virus, caídas eléctricas,
desastres naturales o medioambientales.
INTRODUCCIÓN

Por esta razón, es necesario aplicar un plan de alta disponibilidad de la información en
caso ocurra un desastre. Actualmente con la aplicación de herramientas tecnológicas es
posible implementar estas tecnologías para salvaguardar nuestra información y así evitar
pérdidas incalculables e irreparables a la compañía.
PLANTEAMIENTO DEL PROBLEMA

Disponibilidad de la información mediante la
implementación de tecnologías de alta
disponibilidad en caso de desastres y
performance de tiempos de respuesta
aumentando la performance de procesos,
que nos permita tener acceso a la
información las 24 horas del día con tiempos
de respuesta mínimos.
PLANTEAMIENTO DEL PROBLEMA
Parámetros
Carrera
Ingeniería de Sistemas
Área
Tecnología
Asignatura / Especialidad
Disponibilidad e Integridad de la Información.
Temas
Temas Específicos
Frecuencia de información y optimización de tiempos de
respuesta aplicando tecnologías de alta disponibilidad.
Acceso y alta performance de la información las 24 horas del
día.
Gestión de aplicaciones de misión crítica más exigentes,
reduciendo el tiempo y el coste de desarrollo mediante
tecnologías de alta disponibilidad y performance, debido a la
Situación Problemática
caída parcial o total de servidores como consecuencia de un
siniestro fortuito afectando incalculablemente a la compañía,
facilitando así a toda la empresa la información necesaria
para toma de decisiones.
ANTECEDENTES DE LA SOLUCIÓN

RedIT es una compañía internacional que ofrece a sus
clientes una variada gama de soluciones y servicios
integrados de Tecnología de Información, asistiéndolos para
MAXIMIZAR, el valor de su negocio.

Estas soluciones satisfacen los requerimientos de los
clientes en las áreas de continuidad de negocios y
recuperación ante desastres, administración y operación de
servicios administrados de TI y servicios profesionales.
CASO DE ÉXITO I
Perfil del Cliente

Compañía de BBVA Bancomer encargada de realizar, recibir y controlar pagos por Internet.
Situación

"Al ofrecer servicios de tipo bancario, los equipos que manejan dichas transacciones son críticos
y cada vez se incrementan por lo que mantenerlos siempre disponible es vital para el negocio. De
igual forma, en nuestro ambiente se requiere cumplir con los más elevados estándares de
seguridad para realizar las transacciones en horarios de 7X24".
Reto del negocio

BBVA busca una solución en términos de servicio que le ayude a mantener la disponibilidad de
los servidores a través de un servicio de monitoreo continuo y soporte técnico.
CASO DE ÉXITO I
Solución

"A través de las tecnologías de recuperación instantánea de información que ha implementado redIT,
tenemos alta disponibilidad y redundancia; el servicio de outsourcing nos brinda el costo-beneficio
requerido al contar con un solo proveedor, quien al tener infraestructura propia aumenta la
productividad de nuestro presupuesto".

"Gracias a su servicio de soporte y monitoreo de servidores con herramientas automatizadas y
personal especializado nos ayudan a mantener disponible el mayor tiempo posible los servicios que
brindamos a nuestros clientes y las mejores prácticas de trabajo necesarias para prevenir y reaccionar
en caso de fallas".
Beneficios

"Uno de los grandes beneficios de redIT es contar con sus certificaciones, lo cuál nos ahorra trabajo y
se convierten en un punto de referencia de que están haciendo las cosas bien. Además que son
extensiones de los servicios que ahora mismo ofrecemos y en muchos casos se traduce en tranquilidad
para nuestros clientes".
PROPUESTA DE SOLUCIÓN

Implementar tecnologías como Log Shipping, Replicación y Mirroring que nos brinda el
SQL Server 2008 R2 que nos permitirá obtener una alta disponibilidad en todos los
sistemas y servicio 24x7 con muy pocas incidencias, especialmente destacable el caso de
los portales web en los que soporte aplicaciones de tramitaciones que recibe más de
330.000 visitas mensuales (10.000 diarias). A través de esta implementación podremos
gestionar las aplicaciones de misión crítica más exigentes, reducir el tiempo y el coste de
desarrollo, facilitando así a toda la empresa la información necesaria para toma de
decisiones.

Implementar un Tunning al motor y a la base de datos de la empresa para optimizar los
tiempos de respuesta de las consultas y aumentar la performance de la base de datos en
gran medida.
ALCANCE DE LA PROPUESTA

Se aplicará las tecnologías de alta disponibilidad solo a los servidores de base
de datos críticos, midiéndolos por número de caídas mensuales, cantidad diaria
de transacciones.

Estableceremos independientemente de la tecnología los servidores principales
y secundarios.

Aplicaremos la tecnología Log shipping solo para usuarios de bases de datos,
no sistemas de bases de datos y que estén dentro del Active Directory. Esto
significa que debe tener un régimen estricto de backup las bases de datos
master y msdb en el servidor primario y restaurarlos en el secundario. Sin este
régimen, cualquier metadato cambiado será perdido en la falla del sistema,
resultando potencialmente en logins, trabajos y alertas perdidos.
ALCANCE DE LA PROPUESTA

Configuraremos Log Shipping en las horas donde exista menos carga de trabajo,
para que al momento de ejecutarse los jobs generados por esta tecnología no sature
el ancho de banda. Escogeremos el servidor como servidor secundario al que tenga
más de 250 GB de espacio disponible para almacenar los backups generados.

Aplicaremos replicación transaccional a los servidores de alto rendimiento en el
almacenamiento de datos, creación de informes y que contengas la integración de
datos procedentes de varios sitios.

Aplicaremos replicación de mezcla a las tablas de las aplicaciones móviles o de
servidores distribuidos que pueden encontrarse con conflictos de datos.

Aplicaremos Mirroring a los servidores donde las conexiones estén estables y
certificadas. Para esto necesitamos establecer 3 servidores (Principal, Espejo y
Testigo).
ALCANCE DE LA PROPUESTA

Reindexación o Defragmentación de todos los índices de la base de datos.

Análisis pormenorizado de las 30 sentencias que insumen más tiempo de ejecución
de modo de identificar la posibilidad de creación de índices que contribuyan al mejor
desempeño de las mismas.

Redefinición de la estrategia de respaldo así como también configuración de todos
los planes de mantenimiento necesarios para un correcto mantenimiento preventivo
de las diferentes bases de datos que residen en el servidor.

Realizar un análisis de posibles configuraciones en lo referente a filegroups si se
dispusiera de hardware (discos) como para lograr una redistribución de los mismos.
JUSTIFICACIÓN
¿Por qué?

Hoy en día muchas empresas requieren algunos o todos sus datos críticos a ser
altamente disponible. Por ejemplo, una empresa que requiere "24x7" disponibilidad
es un comerciante en línea, cuyo producto bases de datos y aplicaciones de ventas
en línea debe estar disponible en todo momento, de lo contrario las ventas se
pierden. Otro ejemplo es un hospital, donde los registros computarizados de
pacientes deben estar disponibles en todo momento o una vida humana se podría
perder.

En un mundo perfecto, los datos críticos seguirán estando disponibles y no pondría
en peligro su disponibilidad. En el mundo real, sin embargo, hay numerosos
problemas que pueden causar que los datos no estén disponibles.

Se trata de poner en marcha todos los recursos necesarios para permitir que los
sistemas funcionen las 24 horas del día, manteniéndolos a salvo de interrupciones y
con los niveles apropiados de dimensionamiento para garantizar tiempos de
respuesta adecuados
JUSTIFICACIÓN
¿Para qué?

Con la aplicación de las tecnologías que nos ofrece Microsoft SQL Server 2008 R2, las
cuales podremos utilizar para aumentar y / o mantener una alta disponibilidad de los
datos críticos.

Cabe señalar aquí que la alta disponibilidad no es la misma que la recuperación de
desastres,
aunque
los
dos
términos
son
a
menudo
(erróneamente)
intercambiados. La alta disponibilidad se trata de implementar un conjunto de
tecnologías en los servidores antes de que se produzca un fallo para evitar el fracaso
de afectar a la disponibilidad de datos. La recuperación de desastres es acerca de
tomar acción después de un fallo se ha producido la recuperación de datos perdidos
y hacer que los datos estén disponibles de nuevo.
JUSTIFICACIÓN

Esta investigación describe las tecnologías disponibles en
SQL Server 2008 R2 que se puede utilizar como parte de
una estrategia de alta disponibilidad para proteger datos
críticos. Además de describir las tecnologías en detalle, la
investigación también se analizan las diversas causas del
tiempo de inactividad y la pérdida de datos, y la forma de
evaluar y equilibrar los requisitos y limitaciones en la
planificación de una estrategia de alta disponibilidad que
implica SQL Server 2008 R2.
OBJETIVOS
Objetivo General

Determinar el nivel de rentabilidad económica, mediante la continuidad de los
Sistemas de Información aplicando tecnologías de alta disponibilidad y performance,
haciendo continúo las operaciones de la compañía.
Objetivos Específicos

Análisis de servidores de base de datos para determinar criticidad tanto en el motor como
en los objetos de base de datos.

Determinar la cantidad de caídas de los servidores de base de datos en un lapso de
tiempo determinado.

Análisis de la arquitectura de red.
OBJETIVOS
Objetivos Específicos

Maximizar el grado de protección de un sistema o aplicación ante un evento de falla del
sistema, permitiéndole continuar disponible cuando se presenta la falla.

Minimizar el impacto en los sistemas de información al momento de alguna caída en los
servidores y cuando recuperan su disponibilidad.

Continuar ofreciendo disponibilidad en los sistemas de información, en el caso de que los
servidores principales estén irrecuperables.

Prevenir y anticiparse a que ocurran fallas en los servidores.

Diseñar un sistema de Información para evaluar la mejora de alta disponibilidad.
Capitulo II
MARCO TEÓRICO
ANTECEDENTES DE LA INVESTIGACIÓN
CASO DE ÉXITO
Perfil del Cliente

Mercadotecnia Ideas y Tecnología, (MIT) es una compañía especializada en el desarrollo de
modelos y soluciones sustentadas en herramientas de tecnología y mercadotecnia, para medios
de pago electrónicos.
Situación

MIT desarrolla y opera soluciones para: aseguradoras, aerolíneas, TV por cable, ventas
telefónicas y hotelería. Actualmente MIT da servicio a 13,000 puntos de venta, realiza 120,000
transacciones diarias, cuenta con 2500 empresas medianas y 500 grandes empresas que dan
servicio a su vez a otras empresas.
Reto del negocio

La disponibilidad de sus aplicaciones así como la optimización de sus tiempos de respuesta de
procesos.
ANTECEDENTES DE LA INVESTIGACIÓN
Solución

Al principio solo buscaba alta disponibilidad de sus aplicaciones, sin embargo, la mejor solución estaba
acompañada de la optimización de sus consultas y administración de bases de datos.

"A través de los servicios que hemos contratado con redIT tenemos alta disponibilidad y tiempos de respuesta
mínimos de los procesos que se ejecutan en la base de datos".

"Gracias a su servicio de soporte y monitoreo de servidores con herramientas automatizadas y personal
especializado nos ayudan a mantener disponible el mayor tiempo posible los servicios que brindamos a
nuestros clientes y las mejores prácticas de optimización de consultas necesarias para prevenir y reaccionar
en caso de fallas, así como las mejoras en tiempo de respuesta".
Beneficios

Incremento de la disponibilidad de servicios de TI que soportan las transacciones de su negocio.

Confianza en un socio tecnológico que comprende los objetivos de MIT

Actualmente MIT ha entrado al modelo de governance, cuya operación descansa 100% en redIT.

Adicionalmente con redIT lograron la certificación PCI en 2006, misma que han mantenido desde entonces.
ALTA DISPONIBILIDAD

La disponibilidad es una de las características de las
arquitecturas empresariales que mide el grado con el que los
recursos del sistema están disponibles para su uso por el
usuario final a lo largo de un tiempo dado. Ésta no sólo se
relaciona con la prevención de caídas del sistema, sino incluso
con la percepción de "caída" desde el punto de vista del
usuario: cualquier circunstancia que nos impida trabajar
productivamente con el sistema es considerada como un
factor de baja disponibilidad.
MEDICIÓN DE LA DISPONIBILIDAD

Un sistema de 24×365 podríamos calcular su disponibilidad de la siguiente manera:
Disponibilidad = ((A – B)/A) x 100 por ciento)

Donde:
A = Horas comprometidas de disponibilidad: 24 x 365 = 8,760 Horas/año.
B = Número de horas fuera de línea (Horas de "caída del sistema" durante el tiempo
de disponibilidad comprometido).

Por ejemplo: 15 horas por falla en un disco; 9 horas por mantenimiento preventivo
no planeado.
Así entonces” 5:
Disponibilidad = ((8,760 – 24)/8,760) x 100 por ciento) = 99.726%
DISPONIBILIDAD PARA UN SISTEMA 24×7 Y
TIEMPOS DE CAÍDA PERMITIDOS
DISPONIBILIDAD (%)
TIEMPO OFFLINE/AÑO
TIEMPO OFFLINE/MES
TIEMPO OFFLINE/DÍA
90%
36.5 días
73 hrs
2.4 hrs
95%
18.3 días
36.5 hrs
1.2 hrs
98%
7.3 días
14.6 hrs
28.8 min
99%
3.7 días
7.3 hrs
14.4 min
99.5%
1.8 días
3.66 hrs
7.22 min
99.9%
8.8 hrs
43.8 min
1.46 min
99.95%
4.4 hrs
21.9 min
43.8 s
99.99%
52.6 min
4.4 min
8.6 s
99.999%
5.26 min
26.3 s
0.86 s
99.9999%
31.5 s
2.62 s
0.08 s
NIVELES DE DISPONIBILIDAD

Convencional: las funciones de negocios pueden verse interrumpidas y la integridad de los datos no es esencial.
Disponibilidad: 90%
Mecanismos: servidor de base de datos regular con respaldo tradicional

Media (High Reliable): las funciones de negocios pueden verse interrumpidas pero se debe mantener la integridad de
datos.
Disponibilidad de servicio: 95%
Mecanismos: bitácoras de operaciones.

Alta Disponibilidad: las funciones de negocios aceptan pequeñas interrupciones y al retomar se reprocesan
transacciones.
Disponibilidad: 99%
Mecanismos: bitácoras de operaciones, recuperación automática.

Resistencia a fallas: requiere de operación ininterrumpida en horario laboral, se retoma en caso de falla
automáticamente.
Disponibilidad: 99.9%
Mecanismos: mirroring.

Tolerancia a fallas: capacidad de procesamiento continuo y cualquier falla debe ser transparente para el usuario.
Disponibilidad: 99.99%
Mecanismos: duplicidad del sitio y redundancia.

Tolerancia a Desastres: disponibilidad en todo momento, capacidad para soportar desastres naturales y humanos.
Disponibilidad: 99.999%
Mecanismos: Los anteriores más dos sitios y mecanismos de recuperación.
TIEMPO FUERA DE SERVICIO
TIPOS DE DESASTRES

Fallas de hardware
Las fallas de hardware son fáciles de entender - el hardware falla y el trabajo se detiene.
Lo que es más difícil de entender es la naturaleza de las fallas y cómo se puede minimizar
su exposición a ellas.

Fallas de Software
Algunas fallas de software pueden resultar en largos tiempos fuera de servicio. Por
ejemplo, los dueños de cierta marca de computadores conocidos por sus funcionalidades
de alta disponibilidad, descubren esto a primeras. Un error en el código de manejo de
tiempo del sistema operativo del computador resultó en que los sistemas fallen a cierta
hora de cierto día.
Las fallas del software pueden golpear en dos áreas:
Sistema operativo
Aplicaciones
TIPOS DE DESASTRES

Fallas Ambientales
Los problemas pueden ocurrir aún cuando el hardware se está ejecutando perfectamente
y aunque el software esté configurado de la forma adecuada. Los problemas más
importantes que ocurren fuera del sistema mismo tienen que ver con el ambiente físico en
el cual reside el sistema.
Los problemas ambientales se pueden desglosar en cuatro categorías:
Integridad del edificio
Electricidad
Aire acondicionado
Tiempo y el mundo exterior

Errores Humanos
Se ha dicho que las computadoras son realmente perfectas. La razón detrás de esta
afirmación es que si usted profundiza lo suficiente, detrás de cada error computacional
encontrará el error humano que lo causó.
PLANIFICACIÓN DE UNA ARQUITECTURA DE ALTA DISPONIBILIDAD

Una exitosa estrategia de alta disponibilidad no puede planificarse únicamente
desde el punto de vista técnico, ya que los costos y los riesgos para el negocio de
los tiempos de inactividad y / o pérdida de datos debe ser entendido.

La primera respuesta de muchas personas en la planificación de una estrategia de
alta disponibilidad es algo así como "implementar un mirroring!”.

A pesar de que mirroring es una tecnología excelente, no es apropiada en todas las
situaciones, por lo que es importante elegir las tecnologías adecuadas y no sólo el
primero que me viene a la mente.

Ser capaz de elegir las tecnologías adecuadas significa comprender no sólo las
características de las tecnologías, sino también la lista de prioridades de las
necesidades, teniendo en cuenta las limitaciones que existen.
LIMITACIONES DE LA TECNOLOGÍA

Alimentación
(para
más
servidores,
discos
y
acondicionamiento de aire asociada)

Espacio (para más servidores y equipos auxiliares)

Aire acondicionado (para hacer frente a toda la
producción de calor extra de equipo original)

Manpower (para instalar y mantener cualquier sistema
agregado y equipos)

Política y / o problemas de gestión (si los equipos
están implicados múltiples)
EVALUACIÓN DE LA TECNOLOGÍA

El costo monetario de la aplicación de la tecnología.

La complejidad de la implementación, configuración y
gestión de la tecnología.

La tecnología de impacto en el rendimiento de carga de
trabajo (si lo hay).

El riesgo de pérdida de datos si se utiliza la tecnología.

El potencial de tiempo de inactividad si la tecnología se
utiliza
SQL SERVER 2008 R2 Y SUS ARQUITECTURAS TECNOLÓGICAS
DE ALTA DISPONIBILIDAD

Mirroring
SQL SERVER 2008 R2 Y SUS ARQUITECTURAS TECNOLÓGICAS
DE ALTA DISPONIBILIDAD

Replicación
SQL SERVER 2008 R2 Y SUS ARQUITECTURAS TECNOLÓGICAS
DE ALTA DISPONIBILIDAD

Log Shipping
GRACIAS