configuración cluster postgres

CLUSTER POSTGRESQL

Stalin Camino Santiago Morales

Junio de 2015

GENERALIDADESEn sentido genrico, un clster es un conjunto de mquinas funcionando como unidad y trabajando juntas para tratar una nica tarea, ahora bien, un Clster se refiere a un grupo de mquinas trabajando juntas usando el motor de almacenamiento NDB (Network Database) para implementar almacenamiento de datos, recuperacin y administracin distribuida entre varias mquinas, lo que nos permite soportar una base de datos distribuida en una arquitectura de comparticin nula usando almacenamiento en memoria.Como mnimo se necesitan tres mquinas para la ejecucin de un clster, sin embargo, el nmero mnimo recomendado en Clster es cuatro: una para el nodo de administracin y otra para el de SQL, y dos para servir como nodos de almacenamiento. El propsito de los dos nodos de datos es proporcionar redundancia; el nodo de administracin debe ejecutarse en una mquina separada para garantizar servicio de arbitracin continuo en caso que un nodo de datos falle.Para que un clster funcione como tal, no basta solo con conectar entre s los ordenadores, sino que es necesario proveer un sistema de manejo del clster, el cual se encargue de interactuar con el usuario y los procesos que corren en l para optimizar el funcionamiento.BENEFICIOS Transfiere los bloques de datos (la unidad de transferencia ms pequea en la base de datos) usando la red de interconexin de alta velocidad de la infraestructura. Antes de la fusin de cache, el disco se usa como un medio de transferencia de datos y que tiene desventajas evidentes. Permite a varias computadoras acceder a una base de datos individual, puede ser usado para dirigir varias reas de gestin de base de datos. Estas reas incluyen: Alta disponibilidad, Escalabilidad, Crecimiento Incremental, y Consolidacin de Base de datos. Mejora la disponibilidad de la base de datos de produccin durante las actualizaciones. Ejecuta todas las cargas de trabajo de la base de datos. La ms alta disponibilidad de la base de datos. Administracin flexible de cargas de trabajo.

Clustering Tambin conocido como agrupamiento, es una de las tcnicas de minera de datos, el proceso consiste en la divisin de los datos en grupos de objetos similares. Cuando se representan la informacin obtenida a travs de clsters se pierden algunos detalles de los datos, pero a la vez se simplifica dicha informacin.Tcnica en la que el aprendizaje realizado es no supervisado. Desde un punto de vista prctico. El clustering juega un papel muy importante en aplicaciones de minera de datos, tales como exploracin de datos cientficos, recuperacin de la informacin y minera de texto, aplicaciones sobre bases de datos espaciales (tales como GIS o datos procedentes de astronoma), aplicaciones Web, marketing, diagnstico mdico, anlisis de ADN en biologa computacional y muchas otras.

Algoritmos de Clustering

Simple K-Means

Este algoritmo debe definir el nmero de clsters que se desean obtener, as se convierte en un algoritmo voraz para particionar. Los pasos bsicos para aplicar el algoritmo son muy simples. Una vez encontrados los primeros centroides el algoritmo har los tres pasos siguientes: Determina las coordenadas del centroide. Determina la distancia de cada objeto a los centroides. Agrupa los objetos basados en la menor distancia. Finalmente quedarn agrupados por clsters, los grupos de simulaciones segn la cantidad de clsters que el investigador defini en el momento de ejecutar el algoritmoX-Means

Este algoritmo es una variante mejorada del K-Means. Su ventaja fundamental est en haber solucionado una de las mayores deficiencias presentadas en K-Means, el hecho de tener que seleccionar a priori el nmero de clsters que se deseen obtener, a X-Means se le define un lmite inferior K-min (nmero mnimo de clsters) y un lmite superior K-Max (nmero mximo de clsters) y este algoritmo es capaz de obtener en ese rango el nmero ptimo de clsters, dando de esta manera ms flexibilidad al usuario.

Cobweb

Pertenece a la familia de algoritmos jerrquicos. Se caracteriza por la utilizacin de aprendizaje incremental, esto quiere decir, que realiza las agrupaciones instancia a instancia. Durante la ejecucin del algoritmo se forma un rbol (rbol de clasificacin) donde las hojas representan los segmentos y el nodo raz engloba por completo el conjunto de datos. Al principio, el rbol consiste en un nico nodo raz. Las instancias se van aadiendo una a una y el rbol se va actualizando en cada paso. La clave para saber cmo y dnde se debe actualizar el rbol la proporciona una medida denominada utilidad de categora, que mide la calidad general de una particin de instancias en un segmento. Pertenece a los mtodos de aprendizaje conceptual o basado en modelos. Esto significa que cada cluster se considera como un modelo que puede describirse intrnsecamente, ms que un ente formado por una coleccin de puntos.

Adems en el algoritmo tambin hay que tener en cuenta dos parmetros muy importantes:

Acuity: es un parmetro muy necesario, pues la utilidad de categora est basada en la estimacin de la media y la desviacin estndar del valor de un atributo para un nodo en particular, el resultado es 0 si dicho nodo solo tiene una instancia; por lo que se puede decir que el valor que toma este parmetro es la medida del error de un nodo con una sola instancia (establece la varianza mnima de un atributo).Cut-off: este parmetro es usado para evitar el crecimiento descontrolado de la cantidad de segmentos. Indica el grado de mejor a que se debe producir en la utilidad de categora para que la instancia se pueda tener en cuenta de manera individual. Resumiendo, cuando se va a aadir un nuevo nodo y no es suficiente el crecimiento de la utilidad de categora, pues ese nodo se poda y la instancia pasa a otro nodo ya existente.

EM

Este algoritmo pertenece a una familia de modelos que se conocen como Finite Mixture Models, los cuales se pueden utilizar para segmentar conjuntos de datos. Est clasificado como un mtodo de particionado y recolocacin, o sea, Clustering Probabilstico. Se trata de obtener la FDP (Funcin de Densidad de Probabilidad) desconocida a la que pertenecen el conjunto completo de datos. El algoritmo EM, procede en dos pasos que se repiten de forma iterativa: Expectation: Utiliza los valores de los parmetros, iniciales o proporcionados por el paso Maximization, obteniendo diferentes formas de la FDP buscada. Maximization: Obtiene nuevos valores de los parmetros a partir de los datos proporcionados por el paso anterior.

Finalmente se obtendr un conjunto de clusters que agrupan el conjunto de proyectos original. Cada uno de estos cluster estar definido por los parmetros de una distribucin.

AplicacionesLas tcnicas de agrupamiento encuentran aplicacin en diversos mbitos. Enbiologapara clasificar animales y plantas. Enmedicinapara identificar enfermedades. Enmarketingpara identificar personas con hbitos de compras similares. Enteora de la sealpueden servir para eliminar ruidos. Enbiometrapara identificacin del locutor o de caras.FragmentacinEl problema de fragmentacin se refiere al particionamiento de la informacin para distribuir cada parte a los diferentes sitios de la redObjetivos de la fragmentacinEl objetivo de la fragmentacin consiste en dividir la relacin en un conjunto de relaciones ms pequeas tal que algunas de las aplicaciones de usuario slo hagan uso de un fragmento.Sobre este marco, una fragmentacin ptima es aquella que produce un esquema de divisin que minimiza el tiempo de ejecucin de las aplicaciones que emplean esos fragmentos.La unidad de fragmentacin ideal no es la tabla sino una subdivisin de sta.Esto es debido: Las aplicaciones usan vistas definidas sobre varias relaciones, es decir, se forman a partir de "trozos" de varias tablas. Si conseguimos que cada una de las vistas est definida sobre subtablas locales (o en su defecto lo ms "cerca" posible) a cada aplicacin, es de esperar un incremento en el rendimiento. Si mltiples vistas de diferentes aplicaciones estn definidas sobre una tabla no fragmentada, se tiene. Si la tabla no est replicada entonces se produce generacin de trfico por accesos remotos. Si la tabla est replicada en todos o algunos de los sitios donde residen cada una de las aplicaciones entonces la generacin de trfico innecesario es producida por la necesidad de la actualizacin de las copias.Tipos de fragmentacin de datosExisten tres tipos de fragmentacin: Fragmentacin horizontal. Fragmentacin vertical. Fragmentacin hbrida.

Fragmentacin horizontalLa fragmentacin horizontal de una relacin R produce una serie de fragmentos R1, R2,..., Rr, cada uno de los cuales contiene un subconjunto de las tuplas de R que cumplen determinadas propiedades (predicados).Fragmentacin horizontal primaria y derivadaLa Fragmentacin Horizontal Primaria (FHP) de una relacin se obtiene usando predicados que estn definidos en esa relacin.La Fragmentacin Horizontal Derivada (FHD) por otra parte, es el particionamiento de una relacin como resultado de predicados que se definen en otra relacin.Fragmentacin verticalLa fragmentacin vertical de una relacin R produce una serie de fragmentos R1, R2, ..., Rr cada uno de los cuales contiene un subconjunto de los atributos de R as como la clave primaria de R.Complejidad de la fragmentacin VerticalLa fragmentacin vertical resulta ms complicada que la horizontal. En el caso vertical, si una relacin tiene m atributos clave no primarios, el nmero de posibles fragmentos es igual a B (m), es decir el m-simo nmero de Bell [3]. Para valores grandes de m, B (m) (mm; por ejemplo, para m = 10, B (m) (115.000, para m = 15, B (m) (109, para m = 30, B (m) = 1023.Estos valores indican que la obtencin de una solucin ptima de la fragmentacin vertical resultar una tarea imposible, sino nos apoyamos en el uso de heursticas.Diseo e Implementacin Clustering\\inicioinitdb -D C:\Cluster\\asignacion d clusterpg-ctl start -D C:\Cluster

BibliografaCADAVID, J. I. (22 de 07 de 2012). BASE DE DATOS. Obtenido de https://carlosjacobo.wordpress.com/ECURED. (12 de 06 de 2012). ECURED. Obtenido de http://www.ecured.cu/index.php/ClusteringGaleon. (13 de 06 de 2014). TIPOS DE FRAGMENTACIN. Obtenido de http://bdjulian.galeon.com/aficiones1783659.htmlORACLE. (12 de 12 de 2014). ORACLE. Obtenido de http://www.oracle.com/lad/products/database/options/real-application-clusters/overview/index.htmlRI: CLUSTERING. (2012). Obtenido de http://clustering.jpmonge.com/

configuración cluster postgres

Documents