unidad 2 bdd temario desarrollado

49
Bases de Datos Distribuidas Unidad II: Diseño de Bases de Datos Distribuidas I.S.C. Emilio Carrete Mata

Upload: emilio-carrete-mata

Post on 09-Dec-2015

217 views

Category:

Documents


0 download

DESCRIPTION

Unidad 2 de BDD

TRANSCRIPT

Bases de Datos Distribuidas

Bases de Datos DistribuidasUnidad II: Diseo de Bases de Datos DistribuidasI.S.C. Emilio Carrete MataDiseo de bases de datos distribuidas.Su caracterstica principal de contener datos dispersos a travs de una red de computadoras provoca que quien la disee y, sobre todo, quien la administre deba observar algunos aspectos tanto del sistema computacional, como del sistema operativo y la red fsica que soportar las operaciones de los usuarios2.1 Consideraciones de diseo de bases de datos distribuidasDistancia fsica entre los usuariosCantidad de usuariosCantidad de operaciones de acceso a datos a travs del sistema que se realizan (o se requieren).Necesidades de transferencia de datos entre usuariosTiempos de consulta o acceso a datos y la variedad en las entidades de datos que son descritos en la BDVerdaderamente conviene o no trabajar bajo un esquema de distribucin de datos?2.1 Consideraciones de diseo de bases de datos distribuidasTodos esos aspectos citados debieran tener grandes valores, es decir, tasas altas de incidencia.Esas tasas altas de incidencia en cada uno de los aspectos sealados, son los que debe tomar en cuenta el administradorUna vez analizadas esas tasas de incidencia:Vienen los criterios a contemplar para la repeticin y la fragmentacin como:Replicacin/Repeticin es el proceso en el cual una BD es leda temporalmente en memoria con el objetivo de crear un nuevo archivo de datos que contendr la misma informacin, sin que esto altere el contenido de la original. Partimos del hecho que el administrador ya tiene conocimiento que hace falta distribuir su BD, tiene la idea de esa necesidad, pero no sabe an de qu manera replicar, fragmentar ni nada por el estilo; entonces, este tema se basa en decidir sobre la cantidad y ubicacin de rplicas de la BD en la red, de modo que el administrador debe bosquejar al menos cuntas rplicas se requieren y dnde conviene que se ubique cada una, de modo que la operacin del sistema distribuido (cuando est listo) sea ptima. Es necesario definir los criterios que toma en cuenta un buen administrador de BD para establecer un nmero (al menos inicial) de rplicas requeridas y su ubicacin, lo que ms interesa es lo siguiente:

Cantidad exacta de accesos que realizan a la BD cada usuario ), esto es til para identificar si la cantidad de usuarios es cercana a la capacidad mxima permitida por un SMBD para accesos simultneos en una misma localidad; evidentementeFrecuencia con la que ocurre cada uno de esos accesos por usuario.De modo que lo interesante es identificar quines son los que comnmente demandan informacin de la BD, porque eso da una mejor idea respecto a quines podran requerir una rplica Tipo de operaciones que lleva a cabo lectura o escritura: cuando los usuarios realizan mayormente operaciones slo de lectura, es ms fcil y conveniente que se le proporcionen rplicas, ya que si generalmente no modifica datos, no contribuira a que la red tuviese mucho trficoEn el caso contrario, si las operaciones que efecta son mayormente de escritura, no es 100% conveniente que se haga una rplica por usuario, porque cada uno estara modificando datos constantemente y se tendran que realizar muchas ms actualizaciones remotasLo que conviene es colocar rplicas en ciertos sectores donde las accedan un conjunto de usuarios con necesidades comunesConjuntos/grupos de usuarios que realizan operaciones similares y su ubicacin fsica.Para que un conjunto de usuarios se considere con caractersticas similares, debe tener un margen mximo de + 10% de diferencia entre s en mtricas como frecuencia de accesos, tipos de operaciones (L/E), datos con los que trabaja cotidianamente, entre otras ms.

Caractersticas de los equipos de cmputo y medios de conexin que emplean los usuarios para enlazarse a la red.Las potencialidades de cmputo de los nodos, tanto en procesamiento como almacenamiento primario y secundario, de igual modo el ancho de banda y tipo de medios de conexinFragmentacin horizontal Un fragmento horizontal es la extraccin de ciertos registros de una BD, conteniendo todos los atributos que describen a las entidadesPero lo importante es:Conocer la cantidad y tipo de registros que guarda cada tabla original, as como si las consultas de los usuarios implican que se arrojen salidas de todos los registros o slo algunos de ellos, para que, apoyndose en los criterios de seleccin de las consultas, pueda establecer qu tipo de fragmentos podra convenirle realizar.

Fragmentacin VerticalEs la extraccin de algunos de los atributos descriptivos de una entidad, pero con todos los registros contenidos en una BDLo importante es:Que aunque una entidad de datos tenga 50 atributos descriptivos, la mayor parte de las veces se emplean slo algunos de ellos para las consultas y reportes.Fragmentacin mixta Un fragmento mixto es aquel que resulta de la aplicacin de ciertos criterios de seleccin y proyeccin de datos a una misma tabla o BD.Lo ms comn es que se tengan que fragmentar los datos de manera horizontal, en primera instancia.

Diccionario de DatosEste documento es de vital importancia para tener registro de como estn diseadas las bases de datos, incluye informacin de diseo como, nombre del archivo, ruta donde se encuentra el archivo, y detalles de la composicin como: nombre de campo, tipo de dato, tamao de campo, adems de una descripcin de cada campo acerca del dato que va a representar y las relaciones que tienen cada una de ellas por los campos en comn. Debe estar diseado de una forma que pueda ser comprensible para cualquier persona que necesita consultar dicho diccionario, a continuacin se presentar un ejemplo de este:

Ejemplo

Razones para su utilizacinPara manejar los detalles en sistemas muy grandes los sistemas al sufrir cambios continuos, es muy difcil manejar todos los detalles. Por eso se registra la informacin, ya sea sobre hoja de papel o usando procesadores de texto. Los diccionarios de datos proporcionan asistencia para asegurar significados comunes para los elementos y actividades del sistema y registrando detalles adicionales relacionados con el flujo de datos en el sistemaRazones para su utilizacinDetermina si son necesarias nuevas caractersticas o si estn en orden los cambios de cualquier tipo.

Localizar errores y omisiones en el sistema, detectan dificultades, y las presentan en un informe.Razones para su utilizacin2.3 Niveles de TransparenciaTransparencia es la caracterstica de una BDD y/o un sistema distribuido en general, que consiste en estar estructurada(o) de modo tal que los usuarios finales puedan trabajar con ella sin que necesariamente sepan cmo fue diseada y cmo est operando internamente al momento de su uso/ejecucin.Conceptos necesariosAutonoma es la caracterstica de una BDD o un sistema distribuido en general, que consiste en que su diseador/administrador tenga independencia parcial o total (preferentemente) respecto al resto de los elementos que intervienen en su usoConceptos necesariosAutonoma es la caracterstica de una BDD o un sistema distribuido en general, que consiste en que su diseador/administrador tenga independencia parcial o total (preferentemente) respecto al resto de los elementos que intervienen en su usoConceptos necesariosLa independencia de datos es la inmunidad de las aplicaciones de usuario a los cambios en la definicin y/u organizacin de los datos y viceversa.

Se da en 2 aspectos:Conceptos necesariosIndependencia lgica de datos. Se refiere a la inmunidad de las aplicaciones de usuario a los cambios en la estructura lgica de la base de datos.

Independencia fsica de datos. Se refiere al ocultamiento de los detalles sobre las estructuras de almacenamiento a las aplicaciones de usuario.Transparencia de fragmentacin

No se exige a los usuarios que conozcan el modo en que se ha fragmentado la relacinTransparencia de LocalizacinNo se exige a los usuarios que conozcan la ubicacin fsica de los datos. El sistema de BDD debe poder hallar los datos siempre que la transaccin del usuario facilite el identificador de los datosTransparencia de RplicaLos usuarios ven cada objeto de datos como lgicamente nico. Puede que el sistema replique los objetos para incrementar el rendimiento del sistema o la disponibilidad de los datos. Los usuarios no deben preocuparse por los objetos replicados ni por la ubicacin de esas rplicasFragmentacin de DatosLa fragmentacin es la forma en como se pueden extraer los datos al ser consultados en un ambiente distribuido, se puede hacer una fragmentacin de distintas tablas, pertenecientes a diversas BD localizadas en diversos servidoresFragmentar significa tomar lgicamente datos de una tabla para formar otraFragmentacin HorizontalLa divisin o fragmentacin horizontal trabaja sobre las tuplas, dividiendo la relacin en subrelaciones que contienen un subconjunto de las tuplas que alberga la primeraFragmentacin HorizontalUna tabla T se divide en subconjunto t1,t2,..tn. Los fragmentos se dividen atreves de una operacin de una operacin de seleccin y su reconstruccin se realizara con una operacin de unin de los fragmentos componentesEjemplo

Fragmentacin VerticalLa fragmentacin vertical, se basa en los atributos de la relacin para efectuar la divisin.Una tabla T se divide en subconjuntos t1,t2,.tn. Y se dividen atreves de una operacin de proyeccinEjemplo

Fragmentacin MixtaFundamentalmente, se habla de fragmentacin mixta o hbrida cuando el proceso de particin hace uso de los dos tipos anteriores. La fragmentacin mixta puede llevarse a cabo de tres formas diferentes:Fragmentacin Mixta VHDesarrollando primero la fragmentacin vertical y, posteriormente, aplicando la particin horizontal sobre los fragmentos verticales (denominada particin VH)Fragmentacin Mixta HVAplica primero una divisin horizontal para luego, sobre los fragmentos generados, desarrollar una fragmentacin vertical (llamada particin HV)Distintos tipos de Fragmentacin

2.5 Distribucin de Datos2.5.1 Algoritmos de Distribucin de Datos No Replicados

Debido al uso que se da a las redes de computadoras en la actualidad incluyendo Internet, cada vez es mas factible implementar Sistemas de Bases de Datos Distribuidas, sin embargo, esta tecnologa lleva a los desarrolladores a enfrentar un problema, la carencia de metodologas y herramientas de apoyo para su diseo que permitan decidir la ubicacin de los datos en cada uno de los diferentes sitios que componen la red de computadoras.Este problema se conoce como Diseo de la Distribucin y nace de la necesidad de especificar las unidades de almacenamiento adecuadas, ya sea fragmentos verticales, horizontales o mixtos, junto con su ubicacin dentro de la aplicacin.2.5.1 Algoritmos de Distribucin de Datos Replicados y No ReplicadosEl Modelo FURD, ha sido desarrollado para resolver el problema del diseo de las Bases de Datos Distribuidas, el cual esta divido en dos etapas o fases: la fragmentacin y la ubicacin de fragmentos. Estas fases ya se concentran en el Modelo FURD.2.5.1 Algoritmos de Distribucin de Datos Replicados y No Replicados2.5.1 Algoritmos de Distribucin de Datos Replicados y No ReplicadosUna vez que se resuelve el Modelo FURD se puede dar solucin al problema del diseo. Sin embargo la dificultad radica precisamente en la forma de resolverlo, pues es un problema de optimizacin muy complejo que a medida que va creciendo su tamao, se va haciendo mas difcil la forma de resolverse.El modelo Furd modela los costos de transmisin y el acceso a los datos usando cuatro trminos.

El primer trmino modela los costos de transmisin ocasionados por la transmisin de los datos necesarios para satisfacer las consultas de todos los sitios. Modelo FurdEl segundo trmino modela los costos en los que se incurre en consultas que acceden a varios fragmentos; en este caso, el diseador tiene que proporcionar el valor de un parmetro que indique el costo de acceder a varios fragmentos.

Modelo FurdEl tercer trmino modela los costos de almacenamiento de los fragmentos en los sitios. Debido a que este costo puede variar de un sistema administrador de bases de datos a otro, este aspecto se incluye como un parmetro cuyo valor tiene que ser provedo por el diseador de la base de datos. Modelo FurdModelo FurdEl cuarto trmino modela los costos de transmisin requeridos para migrar los datos de un nodo a otro.