tesis de maestr a - uniandes

UNIVERSIDAD DE LOS ANDES

Tesis de Maestrıa

Simulacion 3D de etiquetas SAWRFID en el dominio del tiempousando Computacion de Alto

Desempeno

Fecha: Junio 25 del 2015

Asesor: Nestor Pena Estudiante: Luis E. Romero

Ano Academico 2015

INDICE 3

Indice

Indice 3

1. Revision Bibliografica 51.1. Sistemas RFID . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.1. Etiquetas RFID . . . . . . . . . . . . . . . . . . . . . . 61.2. Etiquetas SAW RFID . . . . . . . . . . . . . . . . . . . . . . . 7

1.2.1. Codificacion por posicionamiento en el tiempo . . . . . 91.2.2. Codificacion por fase . . . . . . . . . . . . . . . . . . . 101.2.3. Codificacion por frecuencia ortogonal (OFC) . . . . . . 10

1.3. Metodos numericos . . . . . . . . . . . . . . . . . . . . . . . . 111.4. Computacion de alto desempeno . . . . . . . . . . . . . . . . . 13

2. Ondas Electroacusticas en Medios Piezoelectricos 172.1. Ondas Elasticas en Solidos . . . . . . . . . . . . . . . . . . . . 172.2. Ecuaciones Gobernantes en un Piezoelectrico . . . . . . . . . . 21

3. Modelo de Diferencias Finitas en el Dominio del Tiempo 233.1. Presentacion del problema . . . . . . . . . . . . . . . . . . . . 233.2. Concepto de diferencia finita . . . . . . . . . . . . . . . . . . . 233.3. Discretizacion en el espacio y el tiempo . . . . . . . . . . . . . 263.4. Fronteras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.4.1. Superficie libre . . . . . . . . . . . . . . . . . . . . . . 303.4.2. Superficie libre con metalizacion . . . . . . . . . . . . . 323.4.3. Fronteras absorbentes con PML . . . . . . . . . . . . . 33

3.5. Analisis Numerico del Modelo . . . . . . . . . . . . . . . . . . 353.5.1. Estabilidad Temporal . . . . . . . . . . . . . . . . . . . 363.5.2. Dispersion numerica . . . . . . . . . . . . . . . . . . . 39

3.6. Energıa del Sistema . . . . . . . . . . . . . . . . . . . . . . . . 42

4. Modelo FDTD de Alto Desempeno 444.1. Optimizaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.1.1. Operaciones Aritmeticas . . . . . . . . . . . . . . . . . 454.1.2. Manejo de la Memoria . . . . . . . . . . . . . . . . . . 46

4.2. Aceleracion con VALU . . . . . . . . . . . . . . . . . . . . . . 474.3. FDTD Paralelo . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.3.1. Librerıa MPI . . . . . . . . . . . . . . . . . . . . . . . 504.3.2. Intercambio de informacion . . . . . . . . . . . . . . . 514.3.3. Descomposicion del dominio . . . . . . . . . . . . . . . 52

4 INDICE

4.3.4. Minimizacion del flujo de informacion . . . . . . . . . . 534.3.5. Pseudo algoritmo . . . . . . . . . . . . . . . . . . . . . 55

5. Resultados 575.1. Sintonizacion de la PML . . . . . . . . . . . . . . . . . . . . . 575.2. Estabilidad Temporal . . . . . . . . . . . . . . . . . . . . . . . 585.3. Desempeno del metodo . . . . . . . . . . . . . . . . . . . . . . 63

5.3.1. Desempeno de la aceleracion con AVX . . . . . . . . . 635.3.2. Desempeno del FDTD Paralelo . . . . . . . . . . . . . 63

5.4. Simulacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

6. Conclusiones 72

7. Trabajo Futuro 73

Appendices 74

A. Propiedades Electromecanicas de los Sustratos 74A.1. Oxido de Bismuto-Germanio . . . . . . . . . . . . . . . . . . . 74A.2. Niobato de Sodio-Bario . . . . . . . . . . . . . . . . . . . . . . 75A.3. Rutile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75A.4. Sulfuro de Cadmio . . . . . . . . . . . . . . . . . . . . . . . . 76

Bibliografıa 78

1. Revision Bibliografica 5

1. Revision Bibliografica

1.1. Sistemas RFID

Identificacion por radio-frecuencia o RFID (Radio Frequency IDentification)es un metodo automatico de identificacion, consistente en almacenar y re-cuperar informacion de manera inalambrica usando dispositivos llamadosetiquetas RFID, los cuales pueden ser incorporados a productos, animales opersonas [1].

Aunque esta tecnologıa aparecio hace ya varias decadas, solo recientementeha habido un interes creciente en el uso y masificacion de la tecnologıa. Acontinuacion se listan algunos ejemplos de la aplicacion de esta tecnologıa:

Control de acceso en edificios [2].

Logıstica de la produccion [3].

Rastreo de productos en cadenas de suministro y en manejo de inventa-rio [4], como lo hace Wal-Mart y el departamento de defensa de EstadosUnidos (DoD) [5].

Rastreo de animales [6].

Red de sensores inalambricos [7].

y el numero de aplicaciones sigue en aumento.

Un sistema RFID puede ser subdividido en tres componentes, como es suge-rido en [5]:

1. Etiqueta: Es un dispositivo electronico con antena, y en algunas oca-siones con baterıa, que almacena cierta informacion y la transmiteinalambricamente cuando el interrogador la solicita.

2. Interrogador: El interrogador actua como un puente entre la etiquetaRFID y el controlador, y tiene unas funciones basicas: leer la infor-macion contenida en la etiqueta RFID, almacenar informacion en laetiqueta (en el caso de etiquetas Smart), llevar informacion desde yhacia el controlador, suministrar energıa a la etiqueta (en el caso deetiquetas pasivas).

6 1.1 Sistemas RFID

3. Controlador: Es el “cerebro” de cualquier sistema RFID. Se usa paraponer en red multiples interrogadores RFID y centralizar y procesar lainformacion. La informacion recopilada en campo por los interrogadorespuede usarse para:

Mantener inventario y alertar a los proveedores cuando se requierenuevo inventario.

Rastrear el movimiento de objetos a traves de un sistema, y po-siblemente redireccionarlos, como en una banda de transporte enuna aplicacion de manufactura.

Verificar la identificacion y conceder autorizacion, como en siste-mas de acceso sin llaves.

Debitar una cuenta, como en aplicaciones de punto de venta.

1.1.1. Etiquetas RFID

La funcion basica de una etiqueta es almacenar informacion, y transmitirdicha informacion cuando esta sea solicitada por el interrogador. La etiquetamas basica consiste unicamente de un chip y de una antena, sin embargo,dependiendo de la aplicacion, una etiquetas puede tener componentes adicio-nales como un sensor de temperatura y baterıa. Las etiquetas RFID puedenser categorizadas de acuerdo a dos de sus caracterısticas [8]: a) la formaen que obtienen la energıa para su operacion, y b) el tipo de memoria queutilizan para almacenar la informacion.

De acuerdo a la forma en que obtienen energıa, las etiquetas se clasifican enactivas o pasivas. Las etiquetas activas son aquellas que tienen incorporadouna fuente de alimentacion, que puede ser una baterıa. Al tener una fuentede energıa incorporada, da ciertas ventajas como requerir un interrogadorde menor potencia, transmitir informacion a mayor distancia, y tener unamemoria de mayor capacidad. Las desventajas de estas etiquetas es que tie-nen un costo mucho mayor. En el caso de etiquetas pasivas, estas obtienenla energıa necesaria para su funcionamiento de la senal enviada por el inte-rrogador. Estas etiquetas son mas sencillas y pequenas, y por tanto menoscostosas que las activas.

De acuerdo al tipo de memoria que usan, pueden ser de memoria de sololectura o de memoria re-escribible. Las etiquetas de solo lectura, son etique-tas que son programadas una sola vez, posiblemente por el fabricante de la

1.2 Etiquetas SAW RFID 7

etiqueta, y la etiqueta no puede volver a ser programada. Las etiquetas re-escribibles, tambien conocidas como Smart, tienen una mayor flexibilidad quesu contraparte de solo lectura, puesto que la informacion contenida puede sermodificada.

1.2. Etiquetas SAW RFID

Las etiquetas SAW RFID son etiquetas que su principio de operacion se basaen la micro-acustica de cristales piezoelectricos, mas aun, hace uso de lasondas acusticas superficiales (Surface Acoustic Waves), de ahı su nombre, ydel acople entre las propiedades electricas y mecanicas en estos cristales.

Las etiquetas SAW RFID no hacen uso de circuitos integrados, por tanto sonetiquetas totalmente pasivas que no requieren de ninguna fuente de poderDC, ya que lo unico que hacen es reflejar la senal de interrogacion de unaforma codificada. Esta es la principal ventaja de las etiquetas SAW REFID,y como consecuencia la potencia de la senal de interrogacion requerida es me-nor, la potencia es del orden de 100 veces menor a la requerida por etiquetasbasadas en circuitos integrados.[9]

Otras ventajas de las etiquetas SAW RFID, respecto a las etiquetas pasivasbasadas en circuitos integrados, que la hacen atractivas son[10]:

Las etiquetas SAW RFID operan con pulsos de radiofrecuencia de bajonivel del orden de 10mW. Las etiquetas basadas en circuitos integradosrequieren una radiacion continua de algunos vatios.

Las etiquetas SAW RFID operan en la banda de 2.45 GHz, cumplien-do con las regulaciones de emision en todo el mundo. Las basadas encircuitos integrados requieren certificaciones especıficas.

Las etiquetas SAW RFID se pueden colocar en objetos metalicos. Lossistemas de etiquetas SAW RFID logran mayor penetracion dentro deestantes que contienen objetos metalicos o con lıquidos.

Debido a la baja potencia de radiacion, los lectores de etiquetas SAWtienen sustancialmente mayor resistencia a la interferencia.

El proceso de lectura de una etiqueta SAW permite una medida directay precisa de la temperatura de la etiqueta. Las etiquetas SAW hanmostrado tener una capacidad inherente para operar como sensores.

8 1.2 Etiquetas SAW RFID

Las etiquetas SAW son muy robustas y pueden operar en ambientesagresivos, por ejemplo, puede soportar rayos gamma y operar en altastemperaturas.

El principio fısico que rige el funcionamiento de los dispositivos SAW es lapiezoelectricidad. En terminos generales, esto es un acople entre las propie-dades electricas y mecanicas del material. En ciertos cristales dielectricos,la aplicacion de un esfuerzo mecanico genera una polarizacion electrica, yanalogamente, la aplicacion de un campo electrico resulta en una deforma-cion mecanica. Esta propiedad es usada en muchos dispositivas para obteneruna respuesta mecanica a partir de una electrica, o vice versa[9]. En los dis-positivos SAW la transduccion entre senales acustica y electricas se logra uti-lizando un transductor interdigital (IDT), que consistente en dos estructurasmetalicas con forma de peinilla entrelazadas en la superficie del piezoelectrico[11].

El principio de operacion de una etiqueta SAW RFID basada en reflectores semuestra de manera esquematicamente en la figura 1. El lector envıa un pulsoelectromagnetico, la senal de interrogacion, y es captada por la antena de laetiqueta, que esta conectada directamente al IDT. El IDT transforma la senalelectrica en una onda acustica superficial, la cual es una onda mecanica. Elpulso SAW se propaga en la superficie del sustrato, que usualmente esta hechode un material con una fuerte piezoelectricidad, como por ejemplo el niobatode litio. El pulso SAW es parcialmente reflejado y parcialmente transmitidopor cada uno de los reflectores ubicados en determinadas posiciones precisas,posiciones que determinan el codigo de la etiqueta. Estos reflectores consistenen bandas metalicas en la superficie del sustrato. Los pulsos SAW reflejadosque regresan al IDT contienen la codificacion basada en la posicion de losreflectores. Es decir, este metodo de codificacion es basado en el tiempo deretraso de los pulsos reflejados, y se conoce como modulacion por posicionde pulso (PPM). Mas adelante se explicaran otras formas de codificar unaetiqueta SAW, pero la de mayor interes son las etiquetas codificadas conPPM. Finalmente, cuando el tren de pulsos SAW reflejado regresa al IDT,la senal acustica se reconvierte en una senal electrica y retransmitida por laantena. [9]

Estas etiquetas emplean lıneas de retrasos de SAW y simplemente reflejan lasenal de interrogacion en una forma modificada de acuerdo con la informacionde identificacion almacenada en la etiqueta [9]. Las etiquetas SAW generan

1.2 Etiquetas SAW RFID 9

Figura 1: Principio de funcionamiento de una etiqueta SAW. Tomado de [9]pag. 15.

una respuesta a cualquier nivel de potencia, usualmente 3 ordenes de mag-nitud por debajo que la requerida por las etiquetas con circuitos integrados[12].

1.2.1. Codificacion por posicionamiento en el tiempo

La codificacion por posicionamiento en el tiempo (PPM) es la mas sencilla ydirecta, y es el metodo mas usado en etiquetas SAW comerciales [13].

En este esquema de codificacion, el tiempo total de retraso es dividido enespacios de tiempo de cierta duracion. La duracion de cada espacio de tiempoes aproximadamente igual a la duracion de los pulsos. A 2.45 GHz, la bandatıpica usada es de 40 MHz, por tanto el ancho de los espacios de tiempo de 25ns. Los espacios de tiempo forman grupos de por ejemplo 5 espacios. En unaetiqueta con estos grupos, los primeros 4 espacios de cada grupo es ocupadopor un reflector, mientras que el quinto espacio se deja vacıo. De esta forma,cada grupo tiene 4 posibles posiciones y el total de codigos diferentes posibleses 4n, donde n es el numero de reflectores que posee la etiqueta. Ası, diezreflectores podran dar alrededor de 106 codigos diferentes. Cuando todos losreflectores son colocados en lınea en un camino acustico, la longitud de unaetiqueta con 10 reflectores es de aproximadamente 2.5 mm. Las ventajas deesta codificacion es que siempre se tiene la misma cantidad de reflectores,haciendo facil el diseno de la etiqueta con amplitudes uniformes de la senal

10 1.2 Etiquetas SAW RFID

de respuesta, y para el lector el problema se simplifica a buscar respuestasindividuales en un grupo de espacios de tiempo. [14]

Para maximizar el numero de codigos, en la modulacion PPM, se deben usarde 3 a 4 espacios de tiempo. Sin embargo, en etiquetas reales se utilizan gru-pos decimales. En esos esquemas, un reflector puede ocupar diez posicionesdiferentes. Las etiquetas SAW comerciales disponibles tienen una capacidadde 10000 codigos diferentes, lo que corresponde a 4 reflectores en un posicio-namiento decimal.

1.2.2. Codificacion por fase

Para la modulacion PPM la posicion exacta de un reflector, basta con queel reflector este dentro del espacio de tiempo correspondiente. Un reflectorusualmente consiste en unos cuantos electrodos que tıpicamente tienen de 0.4a 0.6 µm de ancho, por tanto mucho mas angosto que el espacio de tiempoque ocupa. Un espacio de tiempo de 25 ns corresponde a alrededor de 50 µm.

Si la fase de los pulsos reflejados puede medirse con precision, la capacidad decodificacion puede incrementarse significativamente. La codificacion por fasese ha discutido por mucho anos pero aun no se ha implementado en productosactuales. La idea de la codificacion por fase es sencilla: haciendo un pequenodesplazamiento de los reflectores, la fase se puede cambiar implementandoası la codificacion por fase. Si se desplaza los reflectores multiplos de λ/8se tendran cambios de fase de 90°, ası cada reflector podra tener 4 fasesdiferentes y la cantidad de codigos posibles para la etiqueta con 4 reflectoresy diez espacios de tiempo es de 2.56 millones [15].

1.2.3. Codificacion por frecuencia ortogonal (OFC)

La codificacion por frecuencia ortogonal (OFC) fue propuesta y descrita porMalocha en [16]. En esta metodologıa se utilizan reflectores de banda angostacuidadosamente disenados de tal forma que cuando un reflector tiene maximareflexion, la reflexion de los otros es cercana a cero. Este sistema permite unareduccion en las perdidas, debido a que los reflectores pueden ser fuertes. Estaaproximacion difıcilmente se puede usar para etiquetas SAW que requieranun gran numero de codigos [11].

1.3 Metodos numericos 11

1.3. Metodos numericos

Para poder disenar un dispositivo SAW, es necesario caracterizar de maneraprecisa los parametros de propagacion y cuantificar los efectos de las varia-ciones de manufactura. Una estrategia clasica consiste en una caracterizacionexperimental usando un conjunto de dispositivos de prueba. Una de las prin-cipales dificultades de esta estrategia experimental es la exactitud/precisionde las mediciones tanto geometricas como electricas. Esta estrategia implicala manufactura de nuevos dispositivos de prueba, cada vez que sea usada unanueva configuracion. Metodos numericos precisos ventajosamente reemplazanlos experimentos [17]. La limitacion esta en el tamano maximo posible delproblema que se pueda solucionar, que dependera en gran medida del metodoescogido y de los recursos computacionales disponibles.

El objetivo de este trabajo de grado de maestrıa es lograr la simulacion 3Dde etiquetas SAW RFID (codificadas en tiempo) en el dominio del tiempousando computacion de alto desempeno, el cual es un problema computacio-nalmente grande debido a que el tamano de las etiquetas es del orden de 103

veces la longitud de la onda acustica [18], por tanto el metodo usado pararesolver el problema debe cumplir con las siguientes tres caracterısticas: queel metodo solucione el problema en el dominio del tiempo, que el numero deoperaciones necesarias incremente lentamente con el numero de variables, yque permita el uso de computacion de alto desempeno.

Los softwares disponibles para la simulacion de dispositivos SAW son SAWLAB-CU y FemSaw. SAWLAB-CU es un software de libre distribucion desarro-llado en los laboratorios de la Universidad de Chiba para la simulacion dedispositivos SAW y STW. El software completo, incluyendo las subrutinasmatematicas, es distribuido en forma de codigo fuente en FORTRAN, inclu-yendo los ejemplos de prueba y el manual de uso. Las funciones y aplicacionesdel software son discutidas en detalle en [19]. Este software tiene la limitanteque solo permite la caracterizacion en frecuencia de dispositivos con estruc-tura periodica en 2D. Por el otro lado, FemSaw es un software licenciadodesarrollado por GVR Trade SA1. Este software se desarrollo para el analisisde dispositivos SAW. Debido a que este software utiliza el metodo FEM/-BEM, solo permite el analisis directo en frecuencia, por tanto para el analisistemporal se realiza a traves de la transformada rapida de Fourier, y tambientiene la limitante de realizar simulaciones en dos dimensiones.

Los principales metodos usados para la simulacion de piezoelectricos son:

1http://www.gvrtrade.com

http://www.gvrtrade.com/index2.html

12 1.3 Metodos numericos

Metodo de elementos finitos (FEM: Finite Element Method): Rahman,Langtangen y Barnes en [20] describen y evaluan una estrategia desolucion numerica para simular ondas acusticas superficiales. El modelopropuesto discretiza las escuaciones espacialmente usando FEM, y enel tiempo usando diferencias finitas. Y finalmente presentan resultadossatisfactorios de simulaciones tanto en 2D como en 3D.

Tecnica de integracion finita (FIT: Finite Integration Technic): Mar-klein en [21] realiza una revision unificada del modelamiento numerico,en el dominio del tiempo, para ondas acusticas, electromagneticas, elas-todinamicas y de la combinacion de ellas, usando FIT.

Diferencias finitas en el dominio del tiempo (FDTD: Finite Differen-ce Time Domain): Peter Smith en [22] muestra como FDTD puedeser aplicado para el analisis de propagacion de SAWs en sustratos pie-zolectricos. King-Yuen Wong en [23] usa FDTD para la simulacion defiltros SAW. Omar Nova en [18] presenta la simulacion de una etiquetaSAW RFID usando FDTD. Sin embargo, hasta el momento las publica-ciones relacionadas con simulacion de piezoelectricos usando FDTD selimitan a dos dimensiones. En [24] se presenta simulaciones con FDTDpara Ba2NaNb5O15, Bi4Ge3O12 y Bi12GeO20, mostrando inestabilidadpara Bi4Ge3O12. A la fecha, el autor no consiguio publicaciones en elque se haga un estudio y analisis de la estabilidad metodo. Otro temaimportante en el metodo son las condiciones de frontera absorbente.En FDTD la mas usada es el PLM (Perfect Matching Layer), que fuepropuesto por primera vez por Berenger en 1994 en [25] para ondas elec-tromagneticas, y posteriormente, W. C. Chew en [26] aplica la mismaidea de Berenger para las ondas elastodinamicas.

Actualmente, el metodo de FDTD es el mas popular para la solucion deproblemas en el dominio del tiempo. Un indicativo del interes que ha gana-do el metodo, son los cientos de artıculos, relacionados al tema, publicadoscada ano alrededor del mundo [27]. Las principales caracterıstica que hacenatractivo al metodo son [27]:

FDTD no usa algebra lineal. Al usar expresiones completamente explıci-tas, FDTD evita las dificultades con el algebra lineal que limita el ta-mano de los modelos de elementos finitos y de ecuaciones integrales enel dominio de la frecuencia.

1.4 Computacion de alto desempeno 13

FDTD es una aproximacion sistematica. Con FDTD, modelar una nue-va estructura solo requiere de la generacion del mallado del problema,y no la reformulacion de ecuaciones, como en los metodos que utilizanfunciones de Green.

FDTD modela de forma natural el comportamiento impulsivo. Por seruna tecnica en el dominio del tiempo, FDTD calcula la respuesta alimpulso de un sistema.

Paralelizacion del metodo. En el metodo FDTD la actualizacion decada celda solo requiere la informacion de los campos en el pasado, portanto todas las celdas pueden ser actualizadas al mismo tiempo.

Escalabilidad. La cantidad de operaciones requeridas en FDTD es delorden de N4/3, donde N es la cantidad de celdas. En problemas gran-des resulta en muchas menos operaciones que en otros metodos que lacantidad de operaciones requeridas es del orden de N2

Crecimiento rapido de la capacidad de memoria de los computadores.Aunque esto influencia positivamente a todos los metodos numericos,es particularmente ventajoso para el FDTD, ya que se basa en la dis-cretizacion del volumen y requiere del muso de una gran cantidad dememoria RAM.

No se encuentran publicaciones en simulacion de piezoelectricos usando FDTDcon computacion de alto desempeno, pero si para ondas electromagneticas,por ejemplo en [27], [28] y [29], y para ondas elasticas, por ejemplo en [30],sin embargo, la idea subyacente es la misma.

1.4. Computacion de alto desempeno

Computacion de Alto Desempeno (HPC) hace referencia a todas las herra-mientas, tanto hardware como software, que se utilizan para lograr solucionarproblemas computacionalmente pesados, que usando una computadora con-vencional (una computadora de hogar o un portatil) no serıa viable. Porejemplo, la radicacion en la cabeza por un celular es un problema que requie-re del uso de computacion de alto desempeno [29], ver Figura 2. El tamanode este problema es aproximadamente de 50× 50× 50 longitudes de ondas,el cual es un tamano comparable a la de la etiqueta de aproximadamente

14 1.4 Computacion de alto desempeno

Figura 2: Radiacion en la cabeza por un celular a 2.5 GHz (50× 50× 50λEM ). Tomado de [29].

∼ 1000λa

∼ 60λa

∼ 3λa

Figura 3: Tamano de una etiqueta SAW RFID.

1000× 60× 3 longitudes de ondas, ver Figura 3, mostrando la necesidad deusar computacion de alto desempeno en la simulacion de la etiqueta.

La tendencia actual en la industria de semiconductores es doblar el numero deunidades de procesamiento, en ves de duplicar la velocidad de procesamiento,debido a limitaciones fısicas en la disipacion de calor. Lo que ha llevado a unaarquitectura de centros de computo masivamente paralelos. Esto refleja queel paradigma tradicional de programas secuenciales no son adecuados bajoesta nueva arquitectura [31].

Los dispositivos de procesamiento con los que se cuenta hoy dıa son chipsmulti-procesadores (hasta 12 procesadores en un solo chip), GPU, FPGA,Co-procesadores (Intel), entre otros. Los de uso mas comun son los chipsmultiprocesadores y GPUs [29]. El uso de FPGA en computacion de altodesempeno no es muy comun debido a que un desarrollo en una FPGA es mascomplejo, en especial cuando se trata de operaciones con numeros flotantes,sin embargo, el diseno e implementacion de FPGA en computacion de alto

1.4 Computacion de alto desempeno 15

desempeno se describe en [32], y en [27] se describe el uso de FPGAs paraFDTD.

Los principales fabricantes de GPUs son Nvidia Y AMD. Nvidia tiene unalinea de GPUs especializadas para computacion cientıfica y es la serie deGPUs Tesla. En cuanto a la programacion se cuenta principalmente con dosalternativas: OpenCL 2 (Open Computing Languaje) y CUDA 3 (ComputeUnified Device Architecture). La segunda (CUDA) solo funciona con GPUsde Nvidia.

Para paralelizar entre diferentes procesadores se cuenta principalmente condos librerıas: OpenMP4 (Open Multiprocesing) y MPI (Message Passing In-terface). En la siguiente tabla se resumen las principales caracterısticas decada una [29]

Dificultad deprogramacion

Tipo de memoria Escalabilidad

OpenMP Baja Compartida BajaMPI Media Distribuida Alta

Las principales ventajas de OpenMP es que es facil de programar y depu-rar, las directivas pueden ser agregadas progresivamente, el programa puedeseguir ejecutandose como codigo serial, el codigo es facil de entender y mante-ner, sin embargo, solo puede correr en computadores con memoria compartiday su principal uso es en la paralelizacion de bucles. [33]

Las principales ventajas de MPI es que puede correr en arquitecturas conmemoria compartida o distribuida, cada proceso tiene su propia memoria, yel costo de un servidor con memoria distribuida es menor que el de un servidorcon una sola memoria compartida. Las desventajas estan en que requiere demas cambios en el codigo para pasar de serial a paralelo, la dificultad dedepuracion del codigo es mayor, y el desempeno es limitado por la red decomunicacion entre los diferentes nodos. [29]

Actualmente una gran limitante en los cluster HPC esta en la transferenciade datos, desde la transferencia de datos en el procesador desde los regis-tros hasta las ALUs, hasta la transferencia de datos de un nodo a otro. Elcuello de botella suele estar en la red que comunica los diferentes nodos en

2 https://www.khronos.org/opencl/3http://www.nvidia.com/object/cuda home new.html4http://www.openmp.org/

http://www.openmp.org



16 1.4 Computacion de alto desempeno

un cluster. Actualmente los cluster de computacion de alto desempeno usanInfiniBand (IB). Las especificaciones de esta tecnologıa permite una trans-ferencia de datos de 25[Gb/s] en cada sentido, aunque comercialmente seconsiguen modems y adaptadores que duplican y cuadruplican la capacidaddel canal [34].

El desempeno de un cluster se mide por la cantidad de operaciones de puntoflotantes (flop) por segundo capaz de realizar. Para evaluar el desempeno deun cluster hay pruebas de referencia permiten medir los flops por segundopico. La metrica inicial que se utilizaba para medir el desempeno de los su-percomputadores era la cantidad de nucleos, sin embargo, a inicios de los 90sse vio la necesidad de una nueva medida para medir de manera mas precisa eldesempeno de un supercomputador. Ası que en 1993 fue propuesto un bench-mark usando LINPACK, y la lista de los supercomputadores mas rapidos sepublican en TOP500 5. En la lista de noviembre de 2013, el primer puestolo tiene el Tianhe-2 con un desempeno de 33862[Tflop/s]. Este supercompu-tador fue desarrollado por la Universidad Nacional de Defensa Tecnologicade China, cuenta con un total de 3’120.000 nucleos y un consumo de potenciade 17808[kW ].

5http://www.top500.org

http://www.top500.org

2. Ondas Electroacusticas en Medios Piezoelectricos 17

2. Ondas Electroacusticas en Medios Piezo-

electricos

2.1. Ondas Elasticas en Solidos

Con un entendimiento de la propagacion de ondas elasticas y una revisionde las ecuaciones parciales gobernantes explican la complejidad de resolverproblemas de ondas acusticas superficiales.

Las ondas no son mas que energıa que se propaga de un punto a otro enun medio. Las ondas elasticas en particular son las que se propagan a travesde un medio sin causar una deformacion permanente en el. Una clasificacionmuy basica de las ondas elastica resulta en dos tipos, las ondas longitudinalesy las ondas transversales [35]. Esta clasificacion es basada en la polarizaciondel desplazamiento de partıcula en el medio.

Ondas longitudinales: Estas tambien son conocidas como ondas de com-presion, y la propagacion de la onda toma lugar en la misma direccionque el desplazamiento de partıcula.

Ondas transversales: En las ondas transversales el desplazamiento departıcula es perpendicular al vector de onda, y a diferencia de las ondaslongitudinales, no hay variacion en el volumen.

Sin embargo, en muchos casos practicos, como el de las ondas acusticas super-ficiales, la aproximacion sencilla de propagacion de ondas antes mencionadano es suficiente, el desplazamiento de partıcula en el medio usualmente escomplejo y es una combinacion de estos dos tipos de ondas.

La elasticidad es concerniente a las fuerzas internas en un solido cuando laspartıculas de un solido se han desplazado por fuera de su punto de equilibrio.En este contexto, partıcula hace referencia a un volumen muy pequeno delmaterial, pero lo suficientemente grande que solo se tiene en cuenta los efectosmacroscopicos de las interacciones atomicas. Este desplazamiento se puederepresentar con el campo u(r, t), el cual es una variable continua que indicael desplazamiento de la partıcula ubicada en la posicion r. Y la deformaciondel material en terminos del desplazamiento de partıcula se define como

Sij(r, t) =1

2

(∂ui(r, t)

∂rj+∂uj(r, t)

∂ri

), i, j = x, y, z. (2.1)

18 2.1 Ondas Elasticas en Solidos

Con esta definicion, cualquier desplazamiento o rotacion del material como untodo no causa deformacion, y la deformacion esta relacionada con las fuerzasinternas. La deformacion es un tensor de segundo orden y es simetrico, talque

Sij(r, t) = Sji(r, t). (2.2)

Por tanto, solo seis de los nueve componentes son independientes.

En un material lineal las fuerzas internas son proporcionales a la deformaciondel material, por tanto el esfuerzo tambien debe ser un tensor de segundoorden representado por T(r, t). La componente Tij(r, t) es la fuerza por uni-dad de area que se aplica al plano normal a j en la direccion i, por tanto, losesfuerzos cortantes son cuando i 6= j, y los esfuerzo axiales son cuando i = j.La relacion entre el tensor de deformacion y el tensor de esfuerzos, la ley deHook generalizada, en la notacion abreviada de Einstein, esta dada por

Tij = cijklSkl, i, j, k, l = x, y, z, (2.3)

donde cijkl es el tensor de rigidez del material, y es un tensor de cuarto ordencon 81 elementos. La simetrıa de S y de T implica que

cijkl = cjikl = cjilk = cijlk = cklij. (2.4)

Por tanto, solo 21 elementos de los 81 son independientes. Estos elementosson propiedades fısicas del material en consideracion, ası que el numero deelementos independientes puede ser reducido aun mas dependiendo de lasimetrıa del material, hasta dos elementos independientes en el caso de unmaterial isotropico.

Ademas de la ley de Hook, en un material tambien se debe cumplir las leyesde Newton, que en terminos del desplazamiento de partıcula y del tensor deesfuerzos, la ecuacion de movimiento queda expresada como

ρ∂2ui∂t2

=∂Tij∂rj

, (2.5)

donde ρ es la densidad del material. El lado izquierdo de la ecuacion vienede la masa por la aceleracion, y el lado derecho de la suma de fuerzas. Alcombinar la ecuacion del movimiento con las relaciones constitutivas dadasen las ecuaciones 2.1 y 2.3, se obtiene la ecuacion de onda

ρ∂2ui∂t2

= cEijkl∂2uk∂rj∂rl

. (2.6)

2.1 Ondas Elasticas en Solidos 19

En la anterior ecuacion de onda la velocidad de los diferentes tipos de ondasesta dada por la raız de los valores propios de cE divididos por la densidad delmaterial. Y las diferentes polarizaciones estan dadas por los vectores propiosde cE.

En algunos casos la ley de Hooke no describe completamente las respues-ta de un solido cuando este es deformado. Algunos materiales se polarizanelectricamente cuando son deformados, este fenomeno es llamado efecto pie-zoelectrico directo. El efecto piezoelectrico inverso, es cuando un solido esdeformado cuando es sometido a un campo electrico. Las relaciones consti-tutivas en un material piezoelectrico estan dadas por

Tij = cEijklSkl − ekijEk, (2.7)

Di = εSijEj + eijkSjk, (2.8)

donde E es el campo electrico, D es el desplazamiento electrico, εS es lapermitividad del material a deformacion constante, y eijk son las constantespiezoelectricas de esfuerzos.

Si se combinan las anteriores relaciones constitutivas de los piezoelectricos(ecuaciones 2.7 y 2.8) con la ecuacion de movimiento 2.5 se obtiene la si-guiente ecuacion de onda

ρ∂2ui∂t2

= cEijkl∂2uk∂rj∂rl

+∂ekijEk∂rj

. (2.9)

Esta ecuacion de onda describe completamente la propagacion de ondas encualquier material piezoelectrico.

Aprovechando la simetrıa en los tensores involucrados, las anteriores ecua-ciones pueden ser escritas de forma matricial. La forma matricial es fre-cuentemente usada porque reduce la cantidad de elementos que deben serespecificados. De esta forma los tensores de rango 2 se convierten en vectoresy solo requieren de un ındice para especificar un elemento. La notacion quegeneralmente se sigue se muestra en la siguiente tabla.

I ij1 xx2 yy3 zz4 yz, xy5 xz, zx6 xy, yx

Cuadro 1: Reduccion de subındices.

20 2.1 Ondas Elasticas en Solidos

De esta forma, el tensor de esfuerzos pasa de ser una matriz de 3 × 3 connueve elementos a un vector de 6 elementos como se muestra a continuacion

T =

Txx Txy TxzTyx Tyy TyzTzx Tzy Tzz

=

T1 T6 T5

T6 T2 T4

T5 T4 T3

−→ T =

T1

T2

T3

T4

T5

T6

. (2.10)

Y el tensor de rigidez de rango 4 es ahora una matriz de 6 × 6, donde elelemento cEIJ de la matriz de rigidez corresponde al elemento cEijkl del tensorde rigidez, por ejemplo, cE14 = cExxyz.

Utilizando la notacion matricial la ecuacion 2.1 puede ser escrita de la si-guiente forma

S = ∇su, (2.11)

donde el operador de gradiente simetrico (∇s) se define como

∇s :=

∂

∂x0 0

0∂

∂y0

0 0∂

∂z

0∂

∂z

∂

∂y∂

∂z0

∂

∂x∂

∂y

∂

∂x0

. (2.12)

Siguiendo la notacion matricial, las relaciones constitutivas de las ecuaciones2.7 y 2.8 quedan expresadas como

T = cES− e′E, (2.13)

D = εSE + eS. (2.14)

Y la ecuacion de movimiento en 2.5 queda

ρ∂2u

∂t2= ∇ ·T, (2.15)

2.2 Ecuaciones Gobernantes en un Piezoelectrico 21

donde (∇·) es el operador de divergencia definido como

(∇· ) :=

∂

∂x0 0 0

∂

∂z

∂

∂y

0∂

∂y0

∂

∂z0

∂

∂x

0 0∂

∂z

∂

∂y

∂

∂x0

. (2.16)

2.2. Ecuaciones Gobernantes en un Piezoelectrico

En un material piezoelectrico, el acople entre los campos elasticos y los cam-pos electromagneticos introduce terminos electricos en el desarrollo de lasecuaciones mecanicas, y terminos mecanicos en el desarrollo de las ecua-ciones de Maxwell, como ya se mostro anteriormente. La distribucion deestos campos puede ser determinada solo resolviendo de forma simultaneaestas ecuaciones acopladas. En la practica, como los campos elasticos im-plican desplazamientos del material, la velocidad con la que los esfuerzos ydeformaciones se propagan son mucho menor que la de los campos electro-magneticos. La velocidad de las ondas elasticas es de 104 a 105 veces menorque la velocidad de las ondas electromagneticas [35]. Por consiguiente, elcampo magnetico asociado con las vibraciones mecanicas son despreciables,implicando que el campo electromagnetico asociado a un campo elastico escuasiestatico, ası que la ecuacion de Maxwell se reduce a

∇× E = −∂B

∂t≈ 0. (2.17)

Las unicas variables electromagneticas necesarias para la descripcion de ma-terial piezoelectrico son el campo electrico E y la densidad de flujo electricoD. Y al igual que en el caso electrostatico, el campo electrico es derivado delpotencial escalar Φ como

E = −∇Φ. (2.18)

Introduciendo la variable de velocidad de partıcula v, definido como v :=∂u/∂t, y derivando y combinando la ecuacion 2.13 con 2.14 se obtiene elsiguiente par de ecuaciones que permiten evolucionar el sistema en el tiempo

ρ∂v

∂t= ∇ ·T, (2.19)

∂T

∂t= cD∇sv − e′βS

∂D

∂t, (2.20)

22 2.2 Ecuaciones Gobernantes en un Piezoelectrico

∂E

∂t= −βSe∇s

∂v

∂t+ βS

∂D

∂t, (2.21)

donde cD = cE + e′βSe, y βS es el inverso de la permitividad electrica(βiεj = δij).

3. Modelo de Diferencias Finitas en el Dominio del Tiempo 23

3. Modelo de Diferencias Finitas en el Domi-

nio del Tiempo

Con el objetivo de caracterizar etiquetas SAW RFID se desarrollo un modelotridimensional de diferencias finitas en el dominio del tiempo. A continuacionse procede a describir el modelo desarrollado.

3.1. Presentacion del problema

La geometrıa del problema corresponde a la de una etiqueta SAW en unsustrato de tamano infinito. Se asume que el sustrato de la etiqueta es lamitad del espacio (z ≥ 0) limitado por una superficie libre en contacto conel aire. En la superficie de la etiqueta se ubican el IDT y los reflectores. ElIDT transduce las senales electricas en ondas mecanicas, y viceversa, y losreflectores codifican la etiqueta de acuerdo a la posicion de los mismos. Paraadaptar este problema a un modelo numerico se deben hacer supuestos pa-ra simplificar el modelo y hacer posible su implementacion. Para el modelonumerico, se asume que la etiqueta es la mitad del espacio semiinfinito, limi-tado solo por el plano z = 0. Ası, los efectos debidos a las dimensiones finitasde las etiquetas reales no son tenidas en cuenta. El sustrato de la etiqueta seasume lineal y sin perdidas. En el modelo numerico las variables mecanicasy electricas son evaluadas en un conjunto de puntos discretos del espacio.Para el esquema del modelo de diferencias finitas, una grilla cubica regulares usada. Para el modelo numerico, el medio espacio semiinfinito debe sertruncado y debe implementarse las condiciones de fronteras adecuadas paraevitar reflexiones artificiales de las celdas exteriores. La figura 4 muestra deforma esquematica el modelo de diferencias finitas tridimensional. El espaciode solucion esta limitado en la parte superior por una superficie libre, y entodos los otros lados por una capa perfectamente adaptada (PML).

3.2. Concepto de diferencia finita

El metodo FDTD es una tecnica numerica basada en el concepto de diferenciadiferencia finita usado para resolver ecuaciones diferenciales en el dominiodel espacio y del tiempo. Primero se introduce el concepto de diferencia

24 3.2 Concepto de diferencia finita

PML

IDT

Re ectores

SAW

Super cie libre

xy

z

Figura 4: Geometrıa del problema.

finita, para luego desarrollar el modelo FDTD del problema en cuestion. Elincremento de una funcion f(ξ) en el punto ξ puede ser expresado como

∆f(ξ) = f(ξ + ∆ξ)− f(ξ). (3.1)

La razon de incremento de la funcion f(ξ) respecto a la variable ξ puede serescrita como

∆f(ξ)

∆ξ=f(ξ + ∆ξ)− f(ξ)

∆ξ. (3.2)

Permitiendo que el incremento ∆ξ de la variable independiente se aproximea cero, la derivada de la funcion f(ξ) respecto a ξ puede se escrita como

df(ξ)

dξ= lım

∆ξ→0

∆f(ξ)

∆ξ= lım

∆ξ→0

f(ξ + ∆ξ)− f(ξ)

∆ξ. (3.3)

Ası que, cuando el incremento ∆ξ es lo suficientemente pequeno, la deriva-da de la funcion f(ξ) respecto a ξ puede ser aproximada por la razon dediferencias, esto es

df(ξ)

dξ≈ ∆f(ξ)

∆ξ. (3.4)

Hay tres formas diferentes con las que se puede aproximar la derivada de unafuncion f(ξ), estas son

3.2 Concepto de diferencia finita 25

Diferencia hacia adelante:

∆f

∆ξ

∣∣∣∣ξ

=f(ξ + ∆ξ)− f(ξ)

∆ξ(3.5)

Diferencia hacia atras:

∆f

∆ξ

∣∣∣∣ξ

=f(ξ)− f(ξ −∆ξ)

∆ξ(3.6)

Diferencia centrada:

∆f

∆ξ

∣∣∣∣ξ

=f(ξ + ∆ξ/2)− f(ξ −∆ξ/2)

∆ξ(3.7)

Expresando las funciones f(ξ + ∆ξ/2) y f(ξ −∆ξ/2) en el punto ξ en seriesde Taylor se obtiene

f(ξ + ∆ξ/2) = f(ξ) +∆ξ

2

df(ξ)

dξ+

1

2!

∆ξ2

22

d2f(ξ)

dξ2+

1

3!

∆ξ3

23

d3f(ξ)

dξ3+ . . . (3.8)

f(ξ−∆ξ/2) = f(ξ)− ∆ξ

2

df(ξ)

dξ+

1

2!

∆ξ2

22

d2f(ξ)

dξ2− 1

3!

∆ξ3

23

d3f(ξ)

dξ3+ . . . (3.9)

Sustituyendo las ecuaciones 3.8 y 3.9 en la ecuacion de diferencia centrada3.7 se obtiene

∆f

∆ξ

∣∣∣∣ξ

=df(ξ)

dξ+

1

3!

∆ξ2

22

d3f(ξ)

dξ3+ . . . (3.10)

De la anterior ecuacion se puede observar que en la diferencia centrada elerror es una funcion cuadratica en ∆ξ. De forma similar, cuando se realizalas series de Taylor para las diferencias en adelanto y atraso, se llega que elerror es lineal con ∆ξ. Ademas, la diferencia en adelanto es siempre inestable,porque trata de predecir el comportamiento futuro de una funcion con elvalor actual y un valor conocido en el pasado. La diferencia centrada, que esla usada comunmente en el metodo de FDTD, es condicionalmente estable.Y la diferencia hacia atras es incondicionalmente estable, pero resulta enun esquema implıcito para la actualizacion de los campos en el que se hacenecesario resolver una ecuacion matricial en cada iteracion. Por lo anterior,el esquema a escoger sera el de diferencias centradas.

26 3.3 Discretizacion en el espacio y el tiempo

3.3. Discretizacion en el espacio y el tiempo

Como ya se describio en el Capıtulo 2, las ondas acusticas propagadas en unpiezoelectrico, en la aproximacion cuasiestatica, son descritas por las ecua-ciones 2.19, 2.20 y 2.21. Con este conjunto de ecuaciones se puede determinarla evolucion temporal de los campos. Tambien es evidente que la derivadaparcial respecto al tiempo de una variable depende de las derivadas parcialesrespecto al espacio de las otras variables. Al usar las diferencias centradas sellega a un esquema en el que las variables no son conocidas en el mismo puntodel tiempo ni del espacio. En la figura 5 se muestra el esquema de evoluciontemporal al que se llega. Como se puede ver en la figura, el sistema evolucio-na en medios pasos de tiempo (∆t/2). Las variables v y T se actualizan deforma intercalada, cada medio paso de tiempo, usando la informacion actualy la informacion medio paso de tiempo atras. Por otra parte, la densidad decampo electrico D es impuesta, y se asume que tiene la siguiente forma

D(t) = D0 f(t), (3.11)

donde D0 se obtiene de una simulacion electrostatica, y f(t), es una funcionescalar que depende del tiempo, usada para variar la densidad de campoelectrico en el tiempo.

Figura 5: Evolucion temporal del esquema FDTD.

De forma similar al desfase en el tiempo de las variables v y T, el esquemade diferencias centradas lleva a que las variables se conozcan en puntos des-fasados medio delta espacial. El espacio puede ser visto como una nube enlos que se ubica una variable, y alrededor de esta, a medio delta espacial, seencuentra su variable analoga. Es decir, las componentes de v estan rodeadas

3.3 Discretizacion en el espacio y el tiempo 27

de las componentes T, y viceversa, de forma regular, por tanto, es como si elespacio estuviera compuesto de celdas bases, similar a la llamada celda Yeeintroducida en [27].

La distribucion de los campos al interior de la celda se escoge de tal forma queuna componente siempre este rodeada de las componentes que se necesitanpara su actualizacion. De esta forma, se puede llegar a la celda base conun distribucion de los campos mecanicos como se muestra en la figura 6. Laubicacion de los campos electricos depende de las propiedades piezoelectricasdel cristal.

x

y

z

Vx

Vy

Vz

T1, T2, T3

T4

T5

T6

x

z

y

Figura 6: Variables mecanicas en la celda base.

Para cristales con simetrıa Cubica 23 y 43m, Ortorombica 222, Tetragonal42m y 422, y Hexagonal 622, la celda base a la que se llega se muestra en lafigura 7.

x

y

z

Vx

Vy

Vz

T1, T2, T3

T4, Ex, Dx

T5, Ey, Dy

T6, Ez, Dz

x

z

y

Figura 7: Celda base A.

Para cristales con simetrıa Ortorombica 2mm, Tetragonal 4mm, Hexagonal6mm, la celda base a la que se llega se muestra en la figura 8.

28 3.3 Discretizacion en el espacio y el tiempo

x

y

z

Vx

Vy

Vz

T1, T2, T3, Ez, Dz

T4, Ey, Dy

T5, Ex, Dx

T6

x

z

y

Figura 8: Celda base B.

Cada celda, con sus variables, pueden ser identificadas unıvocamente con tresındices (i, j, k), de tal forma que el centro de la celda (i, j, k) se encuentraen el punto del espacio con coordenadas (i∆x, j∆y, ∆z). De esta forma seutilizara la nomenclatura f l

∣∣i,j,k

para designar el valor de la variable f en la

celda (i, j, k) en el instante de tiempo l∆t.

La ecuacion 2.19 siempre tiene la misma forma, ya que no depende de laspropiedades del material, y se puede reescribir en las siguientes 3 ecuacionesparciales

∂vx∂t

=1

ρ

(∂T1

∂x+∂T5

∂z+∂T6

∂y

), (3.12)

∂vy∂t

=1

ρ

(∂T2

∂y+∂T4

∂z+∂T6

∂x

), (3.13)

∂vz∂t

=1

ρ

(∂T3

∂z+∂T4

∂y+∂T5

∂x

). (3.14)

Utilizando la notacion f l∣∣i,j,k

, descrita anteriormente, la forma discreta y

explıcitas de las anteriores ecuaciones, aplicando las diferencias centradas,

3.3 Discretizacion en el espacio y el tiempo 29

quedan escritas como

vl+1x

∣∣i,j,k

= vlx∣∣i,j,k

+∆t

ρ

Tl+1/21

∣∣∣i+1,j,k

− Tl+1/21

∣∣∣i,j,k

∆x

+Tl+1/25

∣∣∣i,j,k− T

l+1/25

∣∣∣i,j,k−1

∆z

+Tl+1/26

∣∣∣i,j,k− T

l+1/26

∣∣∣i,j−1,k

∆y

, (3.15)

vl+1y

∣∣i,j,k

= vly∣∣i,j,k

+∆t

ρ

Tl+1/22

∣∣∣i,j+1,k

− Tl+1/22

∣∣∣i,j,k

∆y

+Tl+1/24

∣∣∣i,j,k− T

l+1/24

∣∣∣i,j,k−1

∆z

+Tl+1/26

∣∣∣i,j,k− T

l+1/26

∣∣∣i−1,j,k

∆x

, (3.16)

vl+1z

∣∣i,j,k

= vlz∣∣i,j,k

+∆t

ρ

Tl+1/23

∣∣∣i,j,k+1

− Tl+1/23

∣∣∣i,j,k

∆z

+Tl+1/24

∣∣∣i,j,k− T

l+1/24

∣∣∣i,j−1,k

∆y

+Tl+1/25

∣∣∣i,j,k− T

l+1/25

∣∣∣i−1,j,k

∆x

. (3.17)

Las ecuaciones de actualizacion para los esfuerzos se derivan de la ecuacionen 2.20, sin embargo el desarrollo de las ecuaciones, la cantidad de elementosen la expresion, depende de las propiedades elasticas y piezoelectricas delmaterial en cuestion. Por ejemplo, en el caso mas sencillo, un cristal con

30 3.4 Fronteras

simetrıa cubica 23, la ecuaciones de actualizacion para T1 y de T4 quedan

Tl+1/21

∣∣∣i,j,k

= Tl−1/21

∣∣∣i,j,k

+ ∆t

[cE11

(vlx∣∣i,j,k− vlx

∣∣i−1,j,k

∆x

)

+ cE12

(vly∣∣i,j,k− vly

∣∣i,j−1.k

∆y

)

+cE13

(vlz∣∣i,j,k− vlz

∣∣i,j,k−1

∆z

)], (3.18)

Tl+1/24

∣∣∣i,j,k

= Tl−1/24

∣∣∣i,j,k

+ ∆t

[cE44

(vly∣∣i,j,k+1

− vly∣∣i,j,k

∆z

+vlz∣∣i,j+1,k

− vlz∣∣i,j,k

∆y

)]− ex4βxx∆t

∂Dx

∂t

∣∣∣∣i,j,k

. (3.19)

3.4. Fronteras

Para la simulacion de una etiqueta SAW RFID es necesario derivar las ecua-ciones para cumplir con tres diferentes condiciones de frontera. Las tres con-diciones de frontera necesarias, como se ilustran a continuacion son: fronterasabsorbentes, superficie libre, y superficie libre con conductor.

Super cie libre

Fronteras

absorbentes Super cie libre

con metal

Figura 9: Condiciones de fronteras

3.4.1. Superficie libre

Una superficie libre es una superficie sobre la cual no hay fuerzas, o bienno hay esfuerzos. Asumiendo que la mitad del espacio definido por z+ es

3.4 Fronteras 31

de material piezoelectrico, y que la otra mitad del espacio es vacıo, el planoz = 0 es una superficie libre, y por tanto se cumple que

T3|z=0 = T4|z=0 = T5|z=0 = 0 (3.20)

En la celda Yee el esfuerzo axial, la componente T3, queda sobre el plano dela superficie libre, por tanto la ecuacion de actualizacion de queda

Tl+1/23

∣∣∣i,j,0

= 0 (3.21)

Mientras que los esfuerzos cortantes T4 y T5 estan al interior de la celda,media celda por debajo de la superficie, por tanto no se pueden forzar a 0.Una forma de lograrlo es agregar una capa de celdas en k = −1, y hacer queel promedio sobre la superficie sea cero, esto es

(Tl+1/24

∣∣∣i,j,−1

+ Tl+1/24

∣∣∣i,j,0

)2

= 0(Tl+1/25

∣∣∣i,j,−1

+ Tl+1/25

∣∣∣i,j,0

)2

= 0

(3.22)

Despejando para las componentes en k = −1 se obtienen las ecuaciones deactualizacion

Tl+1/24

∣∣∣i,j,−1

= −T l+1/24

∣∣∣i,j,0

(3.23a)

Tl+1/25

∣∣∣i,j,−1

= −T l+1/25

∣∣∣i,j,0

(3.23b)

Para lo cual se requiere que Tl+1/24

∣∣∣i,j,0

y Tl+1/25

∣∣∣i,j,0

se actualizan de la forma

habitual.

Usando los componentes del esfuerzo en la superficie y en la capa adicional,los componentes del vector de velocidad pueden ser actualizados, incluyendo

32 3.4 Fronteras

los componentes que quedan sobre la superficie. La unica componente que

no puede ser actualizada es vl+1z

∣∣i,j,−1

. Para obtener vl+1/2z

∣∣∣i,j,−1

se utiliza la

ecuacion de actualizacion de Tl+1/23

∣∣∣i,j,0

y se iguala a 0 para cumplir con las

condiciones frontera

Tl+1/23

∣∣∣i,j,0

= 0 =cD33∆l

∆z

(vl+1z

∣∣i,j,0− vl+1

z

∣∣i,j,−1

)+ cD32

∆t

∆y

(vl+1y

∣∣i,j+1,0

− vl+1y

∣∣i,j,0

)+ cD31

∆t

∆x

(vl+1x

∣∣i+1,j,0

− vl+1x

∣∣i,j,0

)(3.24)

Despejando vl+1z

∣∣i,j,−1

se obtiene

vl+1z

∣∣i,j,−1

= vl+1z

∣∣i,j,0

+∆z

cD33

[cD32

∆y

(vl+1y

∣∣i,j+1,0

− vl+1y

∣∣i,j,0

)+cD31

∆x

(vl+1x

∣∣i+1,j,0

− vl+1x

∣∣i,j,0

)](3.25)

3.4.2. Superficie libre con metalizacion

Si se tiene una superficie libre en z = 0 con metalizacion, las condiciones defrontera que se deben cumplir son

T3|z=0 = T4|z=0 = T5|z=0 = 0 (3.26a)

Ex|z=0 = Ey|z=0 = 0 (3.26b)

La ecuacion de actualizacion del campo electrico en la superficie z = 0 queda

El+0,5x

∣∣i,j,0

= El+0,5y

∣∣i,j,0

= 0 (3.27)

3.4 Fronteras 33

3.4.3. Fronteras absorbentes con PML

Para modelar la extension infinita del semiespacio, las ondas que alcancenlas caras exteriores de la grilla deben ser absorbidas. Para absorber dichasondas se puede utilizar una PML (Perfectly Matched Layer), que en generales considerada el estado del arte para la terminacion de una grilla FDTD.Hay algunas situaciones en las que condiciones de frontera absorbentes espe-cialmente disenadas tengan un mejor desempeno que la PML, pero por reglageneral la mejor condicion de frontera absorbente es la PML [36]. La teorıadetras de la PML tıpicamente es pertinente al mundo continuo. En el mundocontinuo la PML puede tener un comportamiento perfecto para ondas inci-dentes a cualquier angulo y frecuencia. Sin embargo, en el mundo discreto,como es el caso del FDTD, siempre se presentan imperfecciones, por ejemplopequenas reflexiones.

Hay muchas formulaciones diferentes para la PML. Sin embargo, en esenciatodas las PML actuan como un material adaptado y con perdidas. La capa dematerial adaptado y con perdida es usado para absorber las ondas que viajanhacia fuera del dominio de simulacion. La primera formulacion de la PML fuepropuesta originalmente por Berenger en 1994 para el caso electromagneticoen dos dimensiones. Berenger propuso dividir cada componente de campo endos partes, y la componente real del campo era la suma de estas dos partes.Con esta division logro crear un medio anisotropico con la velocidad de fasey conductividad necesarios para eliminar las reflexiones en la interfase entrela region PML y la region sin PML[36].

Siguiendo el trabajo de Berenger, Chew y Liu adaptaron la PML para el casoelastico. Chew y Liu interpretaron la PML como un cambio de coordenadasen el dominio de la frecuencia [26]. Esto es: dada una onda que se propaga enun medio sin perdidas y descrita por el fasor ejkx

′, el cambio de coordenada

representa un cambio de variable : x′ → (1 + jα)x, y como consecuencia laonda queda representada por el fasor e−αxejkx, y por tanto es atenuada [30].

La implementacion de la PML para la grilla se ejemplificara derivando laecuacion de actualizacion para vx de la ecuacion 3.12. Pasando la ecuacion3.12 del dominio del tiempo al de la frecuencia y realizando el cambio decoordenadas ζ ′ → (1 + jΩζ/ω)ζ se obtiene:

− jωρvx =1

1 + j Ωx

ω

∂T1

∂x+

1

1 + j Ωy

ω

∂T6

∂y+

1

1 + j Ωz

ω

∂T5

∂z(3.28)

34 3.4 Fronteras

Para amortiguar de forma independiente los campos en cada una de las di-recciones (x, y y z), la anterior ecuacion se divide en tres partes, una paracada termino del lado de la derecha resultando en:

−jωρvxx =1

1 + j Ωx

ω

∂T1

∂x(3.29a)

−jωρvxy =1

1 + j Ωy

ω

∂T6

∂y(3.29b)

−jωρvxz =1

1 + j Ωz

ω

∂T5

∂z(3.29c)

vx = vxx + vxy + vxz (3.29d)

y al volver al dominio del tiempo se obtiene:

(∂

∂t+ Ωx

)ρvxx =

∂T1

∂x(3.30a)(

∂

∂t+ Ωy

)ρvxy =

∂T6

∂y(3.30b)(

∂

∂t+ Ωz

)ρvxz =

∂T5

∂z(3.30c)

vx = vxx + vxy + vxz (3.30d)

El anterior conjunto de ecuaciones puede ser discretizado usando diferenciasfinitas centradas y usando la celda base anteriormente mostrada. Como eltermino de velocidad aparece dos veces, una diferenciada en el tiempo y laotra sin diferenciar, se hace necesario conocer la velocidad medio paso detiempo y un paso de tiempo atras, pero la velocidad en el medio paso detiempo puede ser calculada con el promedio de la velocidad en los pasos detiempo enteros, esto es, vxx|l+0,5

i,j,k = 0,5∗ (vxx|l+1i,j,k + vxx|li,j,k). De esta forma las

ecuaciones de actualizacion para vx quedan

vl+1x,x

∣∣i+0,5,j,k

= vlx,x∣∣i+0,5,j,k

2−∆tΩx|i,j,k2 + ∆tΩx|i,j,k

+2∆t

ρ∆x(2 + ∆tΩx|i,j,k)

(T l+0,5

1

∣∣∣i+1,j,k

− T l+0,51

∣∣∣i,j,k

)(3.31a)

3.5 Analisis Numerico del Modelo 35

vl+1x,y

∣∣i+0,5,j,k

= vlx,y∣∣i+0,5,j,k

2−∆tΩy|i,j,k2 + ∆tΩy|i,j,k

+2∆t

ρ∆y(2 + ∆tΩy|i,j,k)

(T l+0,5

6

∣∣∣i+0,5,j+0,5,k

− T l+0,56

∣∣∣i+0,5,j−0,5,k

)(3.31b)

vl+1x,z

∣∣i+0,5,j,k

= vlx,z∣∣i+0,5,j,k

2−∆tΩz|i,j,k2 + ∆tΩz|i,j,k

+2∆t

ρ∆z(2 + ∆tΩz|i,j,k)

(T l+0,5

5

∣∣∣i+0,5,j,k+0,5

− T l+0,55

∣∣∣i+0,5,j,k−0,5

)(3.31c)

vx|i+0,5,j,k = vx,x|i+0,5,j,k + vx,y|i+0,5,j,k + vx,z|i+0,5j,j,k (3.31d)

donde Ωξ(δ) es el perfil de la PML.

3.5. Analisis Numerico del Modelo

El objetivo principal de esta Tesis no es el analisis de estabilidad del mo-delo propuesto, sin embargo, no se puede pasar por alto una revision dela estabilidad del metodo, debido a que en resultados preliminares se pre-sento inestabilidad numerica en las simulaciones.

Revisando la literatura, se encontro la publicacion [24] donde el autor reportainestabilidad numerica con algunos cristales con el modelo propuesto por elmismo autor. Al revisar en detalle el modelo del autor se encuentra quela distribucion de las variables al interior de las celdas no es la adecuada,requiriendo el calculo de promedios de unas variables para la actualizacion delas otras variables, incurriendo en mayor uso de los recursos computacionalesy un mayor error numerico. Al realizar una distribucion de las variables alinterior de la celda adecuada, como en el modelo propuesto en esta Tesis,se obtuvo estabilidad numerica en las simulaciones para los cristales que elautor reporta inestabilidad.

Aun con la mejora de la ubicacion de las variables al interior de la celda, apa-recen inestabilidades numericas en las simulaciones, dichas inestabilidades seoriginan en la PML. La PML deriva de un artificio matematico en el que

36 3.5 Analisis Numerico del Modelo

se hace un ”stretching”de las coordenadas, resultando en una modificacionde las ecuaciones y representa un medio no fısico. Ası que, se hace necesarioinvestigar como afecta este cambio en la estabilidad del sistema. En la pu-blicacion [37] el autor hace un estudio de la propagacion y estabilidad de lasondas al interior de la PML para el caso elastodinamico 2D, y como resultadoencuentra unos criterios para determinar la estabilidad de la PML. Para elmodelo propuesto en esta Tesis, los resultados de Becache para determinarestabilidad han sido suficientes para determinar la estabilidad del sistema enla PML. Serıa interesante obtener un criterio de estabilidad para el caso pie-zoelectrico en 3D. El tema de estabilidad de los metodos numericos y de lascondiciones de frontera absorbentes sigue siendo un problema abierto de graninteres en el que se sigue investigando, pero que un estudio mas profundo deello se escapa de los alcances propuestos en la Tesis.

Debido a que los tiempos de simulacion son largos, hay la necesidad de usar elmayor paso de tiempo posible asegurando la estabilidad numerica del sistema,por consiguiente a continuacion se hace un desarrollo para determinar esepaso de tiempo crıtico.

3.5.1. Estabilidad Temporal

La discretizacion temporal de la ecuacion de movimiento, independiente dela discretizacion espacial que se realice, es siempre condicionalmente estable[38]. Por ello, es necesario hacer un analisis de la estabilidad del esquemade diferencias finitas desarrollado, para poder asegurar estabilidad de lassimulaciones que se desean realizar.

La integracion numerica de la ecuacion de onda por diferencias centradas escondicionalmente estable, y el correspondiente criterio de estabilidad parala discretizacion en el dominio del tiempo se deducira como funcion de laspropiedades del material y de la discretizacion geometrica. El problema esresuelto aplicando el metodo de Von Neumann.

Istvan Veres en [39] deduce un criterio de estabilidad para el modelo dediferencias finitas de propagacion de ondas en un medio ortotropico. En sumodelo, considera en la discretizacion espacial una aproximacion de segundoy cuarto orden, mientras que en la discretizacion temporal de segundo ordenen la ecuacion parcial de segundo orden.


Partiendo de las ecuaciones 2.19 y 2.20, haciendo D = 0, y al discretizar enel tiempo resultan las siguientes ecuaciones de actualizacion:

vl = vl−1 + ∆t/ρ∇ ·Tl−0,5 (3.32)

Tl+0,5 = Tl−0,5 + ∆tcD∇svl (3.33)

En el modelo usado el espacio es discretizado en una grilla regular dondecada celda tiene un tamano de ∆x ×∆y ×∆z en cada uno de los ejes (x, y,z). Para aplicar el metodo de Von Neumann se propone la siguiente solucionarmonica:

v = v0eI(ωl∆t−kxi∆x−kyj∆y−kzk∆z) (3.34)

T = T0eI(ωl∆t−kxi∆x−kyj∆y−kzk∆z) (3.35)

donde i, j y k denotan el numero de la celda en las direcciones x, y y z,respectivamente, I =

√−1, y kx, ky y kz son los numeros de onda en las

direcciones x, y y z, respectivamente. Y esta solucion es reemplazada en lasecuaciones de actualizacion 3.32 y 3.33. Despues de discretizar en el espacioy de realizar el algebra, haciendo uso de la identidad eIα − e−Iα = 2I sinα,se llega a las siguientes ecuaciones

Stv0 = 1/ρAT0 (3.36)

StT0 = cDA′v0 (3.37)

donde

A = 2I

Sx 0 0 0 Sz Sy0 Sy 0 Sz 0 Sx0 0 Sz Sy Sx 0

(3.38)

St = sin

(ω

∆t

2

)/∆t Sξ = sin

(kξ

∆ξ

2

)/∆ξ (3.39)

Combinando las ecuaciones 3.36 y 3.37, y reordenando se obtiene la siguienteecuacion

Γv0 = ρS2t v0 (3.40)

Γ = AcDA′ (3.41)

La anterior ecuacion obtenida presenta la misma forma que la ecuaion deChristoffel, por tal razon la llamo la ecuacion de Christoffel del medio dis-creto. El medio discreto se asemeja al medio continuo en la medida que las


celdas sean mas pequenas y el paso de tiempo menor (∆→ 0 y ∆t→ 0), esdecir,

lım∆→0, ∆t→0

(Γv0 = ρS2

t v0

)→ k2Γv0 = ρω2v0 (3.42)

donde Γij = cDikljnknl, y n es el vector unitario en la direccion de propagacion.Como era de esperarse, se obtuvo la ecuacion de Christoffel stiffened delmedio continuo. La ecuacion de Christofell es de interes porque permite hallarla relacion de dispersion de las ondas que se propagan en el medio, y por tantocomo se propaga el error. De la ecuacion de Christoffel del medio discreto sepuede escribir la siguiente ecuacion homogenea

(Γ− IρS2t )v0 = 0 (3.43)

que se reduce a un problema de valores propios, y por tanto, por lo menosuno de las valores propios de Γ cumple que

ν = ρS2t (3.44)

Siendo ν uno de los valores propios de la matriz Γ. De esta ecuacion es posibledespejar ω obteniendose

ω =2

∆tsin−1

(∆t

√ν

ρ

)(3.45)

Para la estabilidad del sistema se requiere que ω sea siempre real, por tanto,para asegurar la estabilidad del sistema, para cualquier valor propio ν, sedebe cumplir la siguiente desigualdad

∆t

√ν

ρ≤ 1 (3.46)

De donde se obtiene el siguiente paso de tiempo crıtico

∆tcr =

√ρ

νmax(3.47)

El valor propio maximo νmax de la matriz de Christoffel del medio discreto seobtiene cuando el vector de onda es el maximo vector de onda que se puederepresentar en el medio discreto, dicho vector de onda es

kmax =π

∆x

x +π

∆y

y +π

∆z

z (3.48)


3.5.2. Dispersion numerica

Es sabido que el metodo de diferencias finitas sufre de error por la dispersionnumerica. Es decir, si se trata de un medio isotropico, en el que la velocidad dela onda es independiente de la direccion de propagacion, en el modelo FDTDdel medio la velocidad de la onda depende de la direccion de propagacion yde la frecuencia.

La dispersion en el modelo FDTD es introducido en el momento en que lasderivadas son aproximadas con una diferencia finita. En el modelo propuestola derivada de una funcion f(ξ) respecto a ξ es aproximada de la siguienteforma

∂f(ξ)

∂ξ≈ f(ξ + ∆ξ/2)

∆ξ− f(ξ −∆ξ/2)

∆ξ. (3.49)

Al aplicar la transformada de Fourier a ambos lados se obtiene

ikF (k) ≈ 1

∆ξ(eik∆ξ/2 − e−ik∆ξ/2)F (k), i =

√−1. (3.50)

Aplicando identidades trigonometricas se obtiene

ikF (k) ≈ 2i sin (k∆ξ/2)

∆ξF (k). (3.51)

Comparando ambos lados de la anterior ecuacion de puede concluir que elvector de onda que el vector de onda del esquema FDTD es

k =2 sin (k∆ξ/2)

∆ξ. (3.52)

Es evidente que k∆ξ es una funcion periodica de k∆ξ con periodo de 4π, ycuando k∆ξ es muy pequeno, es decir, frecuencias bajas, el vector de ondaefectivo k se aproxima al vector de onda k. Otro hecho importante, es quela dispersion numerica es independiente de la fısica subyacente, solo dependede como se aproximen las derivadas. En la figura 10 se muestra el numero deonda efectivo del modelo FDTD normalizado en funcion del numero de ondareal. Cuando se utilizan 20 muestras por longitud de onda k∆ξ es 0,314 y elnumero de onda efectivo es el 99,59 % de k.

El error en la propagacion de la onda inducido por la discretizacion del medio,en las diferentes direcciones, se puede evaluar hallando las curvas de ”slow-ness”. Las curvas de ”sloweness”se pueden obtener de la ecuacion de relacionde dispersion, esta ecuacion es la ecuacion homogenea en la ecuacion (3.29).


Figura 10: Numero de onda efectivo normalizado en funcion del numero deonda real.

Debido a la complejidad de las ecuaciones resultantes, en la practica no esposible tener una expresion analıtica para k/ω, sin embargo, se puede evaluarnumericamente. Para un vector de onda k dado se reemplaza en la ecuacion(3.29) y numericamente se resuelve la ecuacion para ω, y de esta forma hacerla relacion k/ω.

En las Figuras 11 y 12 se muestran las graficas de las curvas de “slowness” delmedio continuo, en lınea continua, y del medio discreto para una longitudde onda igual a 4 veces el tamano lineal de la celda, en lınea discontinua.En estas graficas de “slowness” se puede observar que tomar 4 muestras porlongitud de onda no es un muestreo adecuado, ya que es evidente la diferenciaentre la curva del medio real y del medio discreto.

Para disminuir el error en la dispersion del medio discreto, sin cambiar elesquema de diferencias finitas usado, se debe aumentar el muestreo, como loindica la Figura 10. Con un muestreo de 20 muestras por longitud de onda,las curvas del medio real y del medio discreto son virtualmente iguales, comose puede apreciar en la Figura 13, en este caso el error es inferior al 0,5 %.


Figura 11: Curva de slowness para el sustrato niobato de sodio bario enel plano xy. Lınea continua medio real, lınea discontinua medio discreto conλ = 4∆.

Figura 12: Curva de slowness para el sustrato niobato de sodio bario enel plano xz. Lınea continua medio real, lınea discontinua medio discreto conλ = 4∆.

42 3.6 Energıa del Sistema

Figura 13: Curva de slowness para el sustrato niobato de sodio bario enel plano xy. Lınea continua medio real, lınea discontinua medio discreto conλ = 20∆.

3.6. Energıa del Sistema

En un sistema conservativo, como es el caso de estudio aquı, la energıa delsistema se conserva, es decir, solo puede ser introducida de forma externa yno se puede desvanecer del sistema. En otras palabras, despues del periodode excitacion, la energıa debe permanecer constante. Esta propiedad puedeser usada para evaluar la estabilidad del modelo propuesto en este trabajode grado.

La energıa cinetica (UK), de deformacion (US) y electrica (Ue) de un diferen-cial de volumen (δV ) es [40]

UK =ρ

2‖v‖2, (3.53)

US =1

2ScS, (3.54)

Ue =1

2E ·D, (3.55)

respectivamente, y la energıa total del sistema es

44 4. Modelo FDTD de Alto Desempeno

4. Modelo FDTD de Alto Desempeno

Un solo procesador con 8 gigabytes de memoria esta en la capacidad desolucionar un problema cuyo tamano este en el orden de las 10 longitudesde ondas [41], sin embargo, el problema que se quiere atacar aquı supera, ypor mucha, la capacidad de un solo procesador, tanto en tiempo de computocomo en la memoria requerida. Para sobrepasar este lımite, a continuacionse presenta un modelo FDTD de alto desempeno, con optimizaciones y dosniveles de paralelizacion.

Para evaluar el desempeno de un algoritmo paralelo, de acuerdo la literatura([29, 41, 42, 43]) se utilizan las siguientes tres metricas:

Escalabilidad (Aceleracion): La escalabilidad indica que tanto es masrapido el algoritmo cuando se ejecuta de forma paralela. Es la razonentre el tiempo de ejecucion usando un solo proceso T1 y el tiempo deejecucion utilizando n procesos Tn.

Sn =T1

Tn(4.1)

Eficiencia: La eficiencia se puede interpretar como el porcentaje deltiempo en que el el algoritmo esta realizando la tarea que realmenteimporta, y no en tareas adicionales como transfiriendo informacion deun proceso a otro. Es la razon entre la escalabilidad y el numero deprocesos (n).

En =Snn

(4.2)

Desempeno: En el caso del FDTD, el desempeno es la cantidad deceldas por unidad de tiempo que se logran actualizar en un sistemadeterminado.

Pn =# de Celdas×# iteraciones

T iempo total(4.3)

Estas mismas metricas seran usadas para evaluar el modelo propuesto en estetrabajo de grado.

4.1 Optimizaciones 45

4.1. Optimizaciones

En el momento de implementar la FDTD se hace evidente que se puedenrealizar algunas optimizaciones, siguiendo buenas practicas de programacion,permitiendo un mejor desempeno que en la implementacion directa. Se reali-zaron dos tipos de optimizaciones, unas a nivel de las operaciones aritmeticasy otras referentes al uso de la memoria.

4.1.1. Operaciones Aritmeticas

Revisando las ecuaciones de actualizacion se puede observar que las diferen-cias de las variables son siempre multiplicadas y divididas por las mismasconstantes, estas constates pueden ser reunidas en una sola constante im-plicando solo una operacion de multiplicacion. Por ejemplo, la ecuacion deactualizacion en 3.15 puede ser modificada a la siguiente ecuacion de actua-lizacion equivalente

vl+1x

∣∣i,j,k

= vlx∣∣i,j,k

+ A

(Tl+1/21

∣∣∣i+1,j,k

− Tl+1/21

∣∣∣i,j,k

)+B

(Tl+1/25

∣∣∣i,j,k− T

l+1/25

∣∣∣i,j,k−1

)+ C

(Tl+1/26

∣∣∣i,j,k− T

l+1/26

∣∣∣i,j−1,k

), (4.4)

donde las constantes A, B y C son calculadas una sola vez de la siguienteforma

A =∆t

ρ∆x

B =∆t

ρ∆y

C =∆t

ρ∆z.

La ecuacion de actualizacion en 4.4 requiere solo 9 operaciones aritmeticaspara ser evaluada, mientras que la ecuacion de actualizacion original en 3.15requiere de 11 operaciones aritmeticas, incluida por lo menos una division.

46 4.1 Optimizaciones

Ası, de esta forma no solo se gana en la disminucion de operaciones aritmeti-cas, si no que se esta evitando realizar divisiones. La division es una operacionlenta que puede tomar mas de 24 ciclos de reloj en completarse, mientras queuna multiplicacion esta altamente optimizada y solo toma uno o dos ciclosreloj en realizarse [44].

La cantidad de operaciones tambien se puede disminuir reutilizando los calcu-los que son comunes en las diferentes ecuaciones de actualizacion. Por ejem-plo, las ecuaciones de actualizacion de T1, T2 y T3 necesitan de las siguientestres diferencias:

vlx∣∣i+1/2,j,k

− vlx∣∣i−1/2,j,k

,

vly∣∣i,j+1/2,k

− vly∣∣i,j−1/2,k

,

vlz∣∣i,j,k+1/2

− vlz∣∣i,j,k−1/2

.

Las anteriores diferencias solamente necesitan ser evaluadas una sola vez,guardar en una variable el resultado parcial, y utilizarse cada vez que senecesiten.

4.1.2. Manejo de la Memoria

Sin importar que un arreglo sea unidimensional, bidimensional o tridimen-sional, en ultimas se esta usando un bloque de memoria continua donde cadaelemento tiene su propia direccion. En arreglos multidimensionales se utili-zan 2 o mas ındices para indicar el elemento de interes, pero, sin importarla cantidad de ındices que se utilicen, es realmente una unica direccion dememoria la que dice a cual memoria se accede. La conversion de multiplesındices a una sola direccion de memoria, es una tarea que se puede dejar alcompilador o puede ser realizada de forma manual por el programador. Esmas optimo hacerlo de forma manual, ya que el compilador agrega rutinasde comprobacion haciendo mas lenta la conversion.

4.2 Aceleracion con VALU 47

4.2. Aceleracion con VALU

Anteriormente los procesadores implementaban la arquitectura de una ins-truccion un dato (SISD), donde el procesador aplica una instruccion a unsolo dato. Sin embargo, los procesadores modernos vienen incorporados conunidades aritmeticologicas vectoriales (VALU), dandole la capacidad de rea-lizar la misma operacion a diferentes datos, es decir, poseen la arquitecturauna instruccion multiples datos (SIMD). SIMD es un de los paradigmas decomputacion en paralelo, que explota el paralelismo a nivel de los datos, ysera el primer nivel de paralelizacion del esquema FDTD de alto desempeno.En la siguiente figura se muestra de forma esquematica la arquitectura de unprocesador moderno.

Figura 14: Arquitectura de un procesador con VALU. Tomado de [33]

A traves de las Advanced Vector Extension (AVX) se puede hacer uso de lasVALUs del procesador. AVX es una extension del conjunto de instruccionesque opera en registros de 256 bits disenada para aplicaciones que son inten-sivas en operaciones flotantes [33]. Con estas instrucciones se puede operaral tiempo 8 flotantes de 32 bits, o 4 flotantes de 64 bits. Por ejemplo, parala actualizacion de vx, primero se convierten los punteros de flotantes doblesa punteros AVX de 256 bits ( m256d), y usando las instrucciones AVX sehallan las diferencias, se multiplican por los coeficientes, y se actualiza vx en4 celdas al mismo tiempo usando precision de 64 bits, como se muestra en el

48 4.2 Aceleracion con VALU

siguiente codigo de ejemplo.

void Vx Update AVX ( ) unsigned ix , iy , i z , i z 4 ;m256d ∗ sseVx ;m256d ∗ sseT1 , ∗ sseT5 , ∗ sseT6 ;m256d ∗ sseT1plusx , ∗ sseT6minusy ;m256d xmm0, xmm1, xmm2;m256d ∗coefA ,∗ coefB ,∗ coefC ;

ix =1;do

i y =1;do

coefA = ( m256d ∗) (CoefA [ i x ] [ i y ] ) ;coefB = ( m256d ∗) (CoefB [ i x ] [ i y ] ) ;coefC = ( m256d ∗) (CoefC [ i x ] [ i y ] ) ;sseVx = ( m256d ∗) (Vx [ i x ] [ i y ] ) ;sseT1 = ( m256d ∗) (T1 [ i x ] [ i y ] ) ;sseT1plusx = ( m256d ∗) (T1 [ i x +1] [ i y ] ) ;sseT5 = ( m256d ∗) (T5 [ i x ] [ i y ] ) ;sseT6 = ( m256d ∗) (T6 [ i x ] [ i y ] ) ;sseT6minusy = ( m256d ∗) (T6 [ i x ] [ iy −1]) ;

i z = i z 4 = 0 ;

xmm0 = mm256 shuf f le pd ( sseT5 [ 0 ] , sseT5 [ 0 ] ,mm256 SHUFFLE(2 , 1 , 0 , 0 ) ) ;

doxmm0 = mm256 sub pd ( sseT5 [ i z 4 ] ,xmm0) ;xmm0 = mm256 mul pd (xmm0, coefC [ i z 4 ] ) ;xmm1 = mm256 sub pd ( sseT1plusx [ i z 4 ] , sseT1 [ i z 4 ] ) ;xmm1 = mm256 mul pd (xmm1, coefA [ i z 4 ] ) ;xmm2 = mm256 sub pd ( sseT6 [ i z 4 ] , sseT6minusy [ i z 4 ] ) ;xmm2 = mm256 mul pd (xmm2, coefB [ i z 4 ] ) ;xmm1 = mm256 add pd (xmm1,xmm2) ;xmm0 = mm256 add pd (xmm0,xmm1) ;sseVx [ i z 4 ] = mm256 add pd (xmm0, sseVx [ i z 4 ] ) ;

i z += 4 ;i z 4++;

xmm0 = mm256 loadu pd(&T5 [ ix ] [ i y ] [ i z −1]) ;while ( i z<Nz−1) ;

4.3 FDTD Paralelo 49

i y++;while ( iy<Ny−1) ;i x++;while ( ix<Nx−1) ;

4.3. FDTD Paralelo

En la tecnica de procesamiento en paralelo, la tarea original es subdividida entareas mas pequenas, de tal forma que cada una de las tareas pequenas puedeser asignada a un determinado procesador de un cluster para realizarlas almismo tiempo. Esta tecnica de paralelizacion es conocida como un programamultiples datos (SPMD) [29], y sera el segundo nivel de paralelizacion delFDTD de alto desempeno.

La actualizacion de un determinado campo en el metodo de FDTD solo re-quiere de la informacion de los campos que lo rodean, como se puede observarde las ecuaciones de actualizacion en 3.15-3.19. Esto hace que el metodo deFDTD sea inherentemente altamente paralelizable. En principio, en un pasode tiempo determinado, todos los campos pueden ser actualizados al mismotiempo. En el metodo FDTD paralelo el espacio a simular es dividido ensubdominios que son asignados a cada procesador, como se muestra en lafigura 15. De esta forma, el metodo FDTD paralelo es N veces mas rapidoque su contraparte serial, siendo N la cantidad de procesos.

Figura 15: Idea basica de procesamiento en paralelo de una simulacionFDTD usando un cluster de computadores. Tomado de [41].

50 4.3 FDTD Paralelo

Al realizar esta subdivision del espacio, se crean nuevas celdas fronteras. Paraun procesador poder actualizar los campos en estas celdas fronteras necesitaconocer la informacion de la celda contigua que se encuentra en el subdominiocontiguo. Esta necesidad de comunicacion entre los diferentes procesos limitael desempeno del FDTD paralelo. Entre mas informacion se deba comunicarentre los procesos, la comunicacion se convierte en un cuello de botella quedisminuye drasticamente el desempeno del sistema. En el FDTD paralelo, sise hace la division de forma adecuada, la cantidad de informacion que cadaproceso debe compartir es del orden de N2/3, donde N es el numero de celdasque debe actualizar. Con N lo suficientemente grande, el tiempo requeridopara la comunicacion de la informacion sera mucho menor al tiempo que letoma al proceso actualizar la informacion de todas las celdas.

4.3.1. Librerıa MPI

La librerıa MPI es uno de los estandares de procesamiento en paralelo masampliamente usados, es una descripcion de librerıa mas no un nuevo lengua-je de programacion, y sus funciones pueden ser llamadas desde un programaescrito en C, C++ o Fortran. Antes de la estandarizacion de MPI, la mayorıade los codigos paralelos eran escritos para maquinas especıficas, lo que dificul-ta la portabilidad de los programas y aumenta el tiempo de implementacion.Las principales caracterısticas de la librerıa MPI son[41]:

Estandarizacion: La librerıa MPI es un estandar internacional para elpaso de informacion, y soporta todo tipo de plataforma de computacionde alto desempeno.

Portabilidad: No es necesario modificar el codigo fuente cuando unaaplicacion es portada a otra plataforma que soporta MPI.

Disponibilidad: Existen diferentes implementaciones de dominio publi-co, tanto para usuarios como para fabricantes.

Desempeno: Hay implementaciones realizadas por fabricantes que ex-plotan las caracterısticas del hardware disponible para lograr un mejordesempeno.

Funcionalidad: Incluye mas de 200 rutinas.


4.3.2. Intercambio de informacion

Como ya se habıa mencionado, cuando el dominio es dividido aparecen nue-vas condiciones de frontera, como se muestra en la figura 16 por las celdassombreadas de azul oscuro. Para la actualizacion de los campos en la interfaseentre dos subdominios, las celdas en azul oscuro, se puede seguir diferentestecnicas. Una tecnica, por ejemplo, es actualizar los campos en la interfaseusando como condicion de frontera los campos en el dominio adyacente.

Proc i Proc i+ 1

FDTD Serial

FDTD Paralelo

Figura 16: Division del dominio y nueva condicion de frontera.

La otra tecnica, y que se utilizara en el modelo propuesto en esta Tesis, esel de usar una capa de celdas adicional de solapamiento, para el intercambiode informacion entre subdominios adyacentes. Con esta tecnica todas lasceldas del dominio computacional original se actualizan de forma regular, yaque las celdas de las fronteras entre subdominios se vuelven celdas internas.Este esquema ofrece ventajas cuando se utiliza mallado no uniforme, malladoconforme y medios no homogeneos, y experimentos numericos han mostradoque esta tecnica es un poco mas rapida que las otras [41]. En la figura 17se ilustra la tecnica de agregar una capa de celdas adicional, y las flechasindican el flujo de informacion entre los subdominios.


Figura 17: Flujo de la informacion entre dos subdominios usando una capade celdas de solapamiento.

4.3.3. Descomposicion del dominio

La descomposicion del dominio puede realizarse en una, en dos, o en tresdimensiones. La descomposicion del dominio en las tres dimensiones es masflexible y la implementacion es esencialmente igual a la descomposicion enuna sola dimension. En las figuras 18, 19 y 20 se muestra de forma simbolica ladescomposicion del dominio en una, dos y tres dimensiones, respectivamente.

Figura 18: Procesamiento en paralelo en una dimension. Tomado de [41]

Teniendo en cuenta que la geometrıa del problema a tratar en esta Tesis, eldominio de simulacion sera extenso en solo dos de las tres dimensiones, enla tercera dimension permanecera pequena, tiene sentido que se realice unadivision bidimensional del dominio, como se ilustra en la figura 19.


Figura 19: Procesamiento en paralelo en dos dimension. Tomado de [41]

Figura 20: Procesamiento en paralelo en tres dimension. Tomado de [41]

4.3.4. Minimizacion del flujo de informacion

Como ya se ha mencionado, la comunicacion entre los diferentes procesos esla principal limitante del desempeno del procesamiento en paralelo, lo quemotiva a buscar como minimizar el flujo de informacion.

Revisando el “stencil” espacial del esquema de FDTD propuesto, se puedesaber los variables que se necesitan para actualizar todos los campos de unacelda. Debido a que la descomposicion del dominio se realizara a lo largo delos ejes x y y, se realizo el “stencil” en el plano xy. En la figura 21 se muestrael “stencil” obtenido. En la figura, los campos en azul son los campos quepertenecen a la propia celda, sombreada en azul, y en rojo los campos quepertenecen a las celdas vecinas, y la dependencia entre los campos se indicacon lıneas entre ellos.

Observando el “stencil” se hace evidente que para actualizar todos los camposde una celda, no es necesario conocer todos los campos de sus celdas vecinas,sino, solo tres campos de cada celda vecina. Esto quiere decir que no esnecesario copiar toda la informacion de una celda de un subdominio a otrosubdominio, sino, solo los tres campos necesarios y no todos los 9 campos.


Figura 21: “Stencil” del esquema FDTD en el plano xy.

Por otro lado, la forma en que se subdivide el dominio determina la superficiecompartida entre los subdominios. Entre mayor sea la superficie compartida,mayor sera la informacion que se deba comunicar entre los subdominios, portanto es necesario hacer la subdivision de forma optima. En la figura 22se ilustra dos divisiones del dominio. Si el dominio se debe dividir en dos,intuitivamente la forma optima es dividir el dominio en la direccion de mayortamano, como se ilustra en la figura 22. Sin embargo, en terminos generalesse debe solucionar un problema de optimizacion.

Si el dominio computacional tiene un tamano en celdas de Nx, Ny y Nz,en los ejes x, y y z, respectivamente, y es dividido en nx en el eje x y nyen el eje y, la superficie total compartida entre subdominios es S(nx, ny) =NzNy(nx − 1) + NzNx(ny − 1). De esta forma, el problema de optimizaciones

mınnx,ny

S(nx, ny), (4.5)

sujeto a

nx · ny ≤ Nmax

nx · ny ≥ Nmin,


donde Nmax es el numero maximo de procesos disponibles, y Nmin la cantidadmınima de procesos a utilizar. Este problema de optimizacion es sencillo deresolver, y en muchas ocasiones se puede resolver de forma intuitiva.

Figura 22: Division adecuada del dominio.

4.3.5. Pseudo algoritmo

El pseudo algoritmo de actualizacion seguido es el siguiente:

For each update

for all inner cells in the subgrid

update outgoing velocities in the cell

wait until all velocities are updated

for all faces in the subgrid

if computaional boundary


set boundary condition as normal

else

share velocity data at the face with the neighboor subgrid

wait

for all inner cells in the subgrid

update the variables T, E, D in the cell

wait until all variables are updated

for all faces in the subgrid

if computaional boundary

set boundary condition as normal

else

share T,E,D data at the face with the neighboor subgrid

wait

5. Resultados 57

5. Resultados

5.1. Sintonizacion de la PML

A continuacion se muestra el procedimiento y los resultados obtenidos parala sintonizacion de la PML, en este caso usando el sustrato oxido de bismutogermanio.

El perfil escogido para la PML, basado en [30] y [45], tiene la siguiente forma:

Ωξ(δ) = Ωmax

(δ

NPML

)m(5.1)

donde δ es la profundidad dentro de la PLM, Ωmax es una constante, NPML

es el numero de celdas de la PML que se escogio igual a 10 celdas, y m unexponente real positivo. El valor de las constantes Ωmax y m se escoge de talforma que optimice la PML.

Para poder optimizar es necesario tener una medida de la efectividad de laPML, y una forma estandar de medir la reflexion es con el error relativo [27]:

εr|ti,j,k =

∥∥∥v|ti,j,k − vref |ti,j,k∥∥∥∥∥∥vref |ti,j,k∥∥∥

max

(5.2)

donde vref |ti,j,k es la velocidad de partıcula en el caso ideal y v|ti,j,k es lavelocidad de partıcula de la simulacion con PML.

Se tomo el maximo valor del error relativo en un conjunto de celdas en unarea de 16×16 celdas en una superficie libre. Como fuente se utilizo una exci-tacion puntual en el centro de las celdas. Para obtener el campo de velocidadde partıcula para el caso ideal, PML sin reflexiones, se utilizo un dominiocomputacional lo suficientemente grande y un tiempo de simulacion tal queno haya reflexiones en el conjunto de celdas de interes (ver figura 23).

Para la simulacion se escogio un ∆x = ∆y = ∆z = 50[nm] ≈ λa/20 y elpaso del tiempo ∆t = 2[ps]. El tamano del dominio computacional usadopara el caso ideal, PML sin reflexiones, fue de 600× 600× 300 celdas en x, y

58 5.2 Estabilidad Temporal

600 celdas600 celdas

300 celdas

x y

z

16x16 celdas

Supercie Libre (z=0)

Fuente puntual

40 celdas40 celdas

20 celdas

PML de 10 celdas

Figura 23: Dominios computacionales usados para la optimizacion de laPML.

y z, respectivamente. Sabiendo que la velocidad de la onda de presion es deaproximadamente 3700[m/s], el tiempo de simulacion maximo para no tenerningun tipo de reflexion en las celdas de interes es de 4054 pasos de tiempo, yse tomo hasta el paso de tiempo 4000. El tamano del dominio computacionalusado para la PML real es de 40×40×20 celdas en x, y y z, respectivamente(ver figura 23).

En la figura 24 se ilustra la superficie de la atenuacion de la onda reflejadapor la PML como funcion de Ωmax y m, y el valor optimo encontrado fueuna atenuacion de −36dB, con Ωmax = 0,0021 y m = 1,55. Y en la figura 25se muestra las onda en la superficie libre generadas por la fuente puntual yabsorbidas por la PML. El dominio computacional simulado fue de 64×64×32celdas en x, y y z, respectivamente, con los mismos parametros de simulacion(∆x = ∆y = ∆z = 50[nm], ∆t = 2[ps]).

La atenuacion obtenida es similar a la reportada en [45] para el germanatode bismuto (cristal con simetrıa cubica), donde con una PML de 10 celdaslogran atenuaciones entre los −35dB y −40dB.

5.2. Estabilidad Temporal

El paso de tiempo crıtico de la ecuacion (3.33) se puso a prueba con si-mulaciones. Las simulaciones se realizaron con condiciones de frontera pe-riodicas, de tal forma que todas las celdas son celdas internas, el dominiocomputacional fue de 128 × 128 × 64 celdas, cada celda con un tamano de90,0 × 90,0 × 90,0[nm], con diferentes sustratos. La estabilidad del sistemafue evaluada con la energıa total del sistema.

5.2 Estabilidad Temporal 59

Ωmax

0.0000.0010.0020.0030.004

0.0050.006

0.0070.008 m1.2 1.4 1.6 1.8 2.0 2.2 2.4

Aten

uatio

n (d

B)

−40

−35

−30

−25

−20

−15

−10

−5

Figura 24: Atenuacion en funcion de Ωmax y m.

Oxido de bismuto germanio: Tiene simetrıa cubica y el paso de tiempocrıtico obtenido fue de 16,002577112[ps]

Figura 26: Sustrato: Oxido de bismuto germanio

Niobato de Sodio Bario: Tiene simetrıa ortorombica y el paso de tiempocrıtico obtenido fue de 8,20562446849[ps]


(a) paso de tiempo 600 (b) paso de tiempo 1000

(c) paso de tiempo 1400 (d) paso de tiempo 1800

Figura 25: Ondas en la superficie libre absorbidas por la PML

Figura 27: Sustrato: Niobato de Sodio Bario

5.2 Estabilidad Temporal 61

Rutile: Tiene simetrıa Tetragonal y el paso de tiempo crıtico obtenidofue de 5,33274054396[ps]

Figura 28: Sustrato: Rutile

Sulfuro de cadmio: Tiene simetrıa hexagonal y el paso de tiempo crıticoobtenido fue de 12,245712283[ps]

Figura 29: Sustrato: Sulfuro de cadmio

Como se puede observar de los resultados de las simulaciones, cuando seutiliza el paso de tiempo crıtico, las simulaciones son estables, la energıa del


sistema no crece de forma descontrolada. Mientras que con un pequeno incre-mento de este paso de tiempo, de solo del 0,05 %, la simulacion es inestable.

5.3 Desempeno del metodo 63

5.3. Desempeno del metodo

A continuacion se presentaran los resultados de desempeno obtenidos en cadanivel de paralelizacion. Las simulaciones fueron realizadas el servidor HPCde la Universidad de los Andes. Este servidor consta de 7 nodos conectadospor InfiniBand, cada nodo con 4x AMD Opteron de 8 nucleos fısicos conHyperThreading, para un total de 448 nucleos virtuales, con frecuencia dereloj de 2GHz. En cuanto a software, el sistema operativo del servidor HPCCentOS, una dsitribucion de linux, equipado con el compilador GCC y lalibrerıa OpenMPI 1.6.5.

5.3.1. Desempeno de la aceleracion con AVX

En la figura 30 se muestra la aceleracion obtenida usando las instruccionesAVX con diferentes tamanos del dominio computacional. Con las instruccio-nes AVX la aceleracion esperada en el caso ideal es de 4, ya que se actualizan4 celdas al tiempo, sin embargo, como se aprecia en la grafica la maximaaceleracion que se obtuvo fue de 3.16. Esta disminucion en la aceleracion esdebida a los tiempos de acceso a la memoria RAM [33]. Esta aceleracion escomparable con la reportada en [43], donde aceleran el metodo FDTD parael caso electromagnetico con instrucciones AVX, y obtienen una aceleracionmaxima de 3. Por otra parte, en [42], tambien en el caso electromagnetico,reportan una aceleracion de 7 usando las instrucciones AVX en precisionsencilla (32 bits).

5.3.2. Desempeno del FDTD Paralelo

En las figura 31 se muestra la escalabilidad del metodo obtenido en el clusterde la Universidad de los Andes. El dominio computacional usado fue de240×240×64 celdas y 10000 pasos de tiempo. En el caso ideal, la escalabilidades una lınea recta con pendiente igual a 1, sin embargo, en la practica seesta por debajo de esta lınea y es debido al tiempo que toma compartir lainformacion entre los diferentes procesos.

En la figura 32 se muestra la eficiencia obtenida, lınea azul. Se puede apreciarque hay una disminucion de la eficiencia a medida que aumenta el numero deprocesos, y esto es debido a que entre mas procesos se utilicen, la cantidad de

64 5.3 Desempeno del metodo

0 2 4 6 8 10 12 14 16 18

x 106

2.5

2.6

2.7

2.8

2.9

3

3.1

# Celdas

Ace

lera

ciÃ

³n

AceleraciÃ³n con AVX

Figura 30: Dominios computacionales usados para la optimizacion de laPML.

informacion que se de comunicar es mayor. Para mitigar este efecto se puedeaumentar el dominio computacional.

Otra medida es el desempeno, medido como la cantidad de celdas por unidadde tiempo que es capaz de actualizar el metodo. En la figura 33 se muestrael desempeno del metodo en celdas actualizadas por segundo.

5.3 Desempeno del metodo 65

0 10 20 30 40 50 600

10

20

30

40

50

60

n

Sn

Escalabilidad

Medido

Ideal

Figura 31: Aceleracion del metodo FDTD Paralelo.

0 10 20 30 40 50 600

0.2

0.4

0.6

0.8

1

n

En

Eficiencia

Figura 32: Eficiencia del metodo FDTD Paralelo.

66 5.3 Desempeno del metodo

0 10 20 30 40 50 600

2

4

6

8

10

12

14x 10

6

n

Pn (

celd

as/s

)

DesempeÃ±o

Figura 33: Desempeno del metodo FDTD Paralelo.

5.4 Simulacion 67

5.4. Simulacion

Para mostrar que el modelo FDTD de alto desempeno propuesto e imple-mentado funciona, se realizo una simulacion inicial excitando con una fuentepuntual, se deja propagar las ondas hasta ser absorbidas por la PML de 10celdas de profundidad.

El sustrato utilizado para la simulacion fue el oxido de bismuto germanio,con un tamano de celda de 90×90×90 [nm] y un paso de tiempo de ∆t = 10[ps]. El dominio computacional total fue de 1200×500×64 celdas en el eje x,y y z, respectivamente, para un total de 38.4 millones de celdas. El dominiocomputacional fue dividido en 12 × 5 em x y y, respectivamente, para untotal de 60 procesos. Se realizaron 10000 pasos de tiempo y el tiempo desimulacion total fue de 8.53 horas.

A continuacion se presentaran instantaneas de la velocidad de partıcula enla superficie libre, de la figura 34 a la 39. Se puede observar que las ondasse propagan y son absorbidas por la PML sin problema, manteniendo laestabilidad.

Figura 34: Instantanea de la velocidad de partıcula en la superficie libre enel instante t = 3 [ns].

68 5.4 Simulacion




5.4 Simulacion 69



70 5.4 Simulacion

En las siguientes figuras se muestra una simulacion con los mismos parame-tros de simulacion, pero en esta ocasion la fuente de perturbacion es un IDT.



5.4 Simulacion 71





72 6. Conclusiones

6. Conclusiones

Como resultado del trabajo de la Tesis se logro proponer e implementarun modelo FDTD tridimensional de alto desempeno para la simulacion dedispositivos SAW.

Inicialmente se propuso un modelo tridimensional de diferencias finitas en eldominio del tiempo capaz de simular la propagacion de ondas electroacusticasen un piezoelectrico. El modelo propuesto fue estudiado a profundidad, y atraves de un analisis numerico se logro acotar el error por dispersion numericay determinar un criterio de estabilidad temporal. El error por dispersionnumerica es inherente al metodo, y es introducido en el momento en que lasderivadas son aproximadas con una razon de diferencias finitas, y el unicocamino para disminuir el error es aumentando el muestreo, es decir, unacelda mas pequena. El criterio de estabilidad temporal encontrado mostro serla cota superior para el paso del tiempo para mantener la estabilidad delsistema, esto se puede explicar debido a que el criterio de estabilidad tieneen cuenta tanto la discretizacion espacial realizada como las propiedadeselectromecanicas del material.

Este modelo FDTD propuesto inicialmente es incapaz de simular una estruc-tura real, los requerimientos en memoria RAM y tiempo de computo lo haceinviable. Por esta razon se propuso e implemento un modelo FDTD de altodesempeno capaz de superar las limitaciones del FDTD tradicional. Con elconocimiento en la arquitectura de los procesadores se propuso un modeloFDTD de alto desempeno que consiste en una serie de optimizaciones y endos niveles de paralelizacion. El primer nivel explota la arquitectura SIMDde los procesadores modernos y se logro acelerar el metodo en 3.16 veces sinnecesidad de recurrir a recursos de hardware adicionales. El segundo nivel deparalelizacion basado en el paradigma SPMD que ofrecen multiples procesa-dores conectados en red. Con el desempeno logrado en la practica, se esperaque el desempeno maximo utilizando todo el cluster HPC de la Universidadde los Andes sea de 68 millones de celdas por segundo, y que la simulacion deuna etiqueta de 1000× 60× 3 longitudes de ondas acusticas y 100000 pasosde tiempo dure 5 dıas.

Si bien las anteriores tecnicas de computacion de alto desempeno son am-pliamente usadas en el caso electromagnetico, el autor, en el momento deldesarrollo de este trabajo de grado, no encontro publicaciones en las que seutilicen estas tecnicas para el caso piezoelectrico, por lo que pude considerarseun aporte en el area.

7. Trabajo Futuro 73

7. Trabajo Futuro

Como trabajo futuro de este trabajo de grado se puede proponer atacar loselementos que fueron limitantes durante el desarrollo del mismo.

La principal limitacion del modelo propuesto fue los datos de la simulacionelectrostatica que alimenta al sistema. Las simulaciones electrostaticas serealizaron con un software externo (COMSOL), el cual solo permitıa exportardatos para un dominio computacional de 40 millones de celdas. Por tanto,es indispensable incluir en el mismo programa la simulacion electrostatica.Y debido al volumen de la informacion generada en cada simulacion, se vela necesidad de tambien usar computacion de alto desempeno en el post-procesamiento de los resultados.

Adicionalmente, Para mejorar el desempeno del modelo FDTD de alto desem-peno, se propone balancear las cargas, ya que las celdas con PML son compu-tacionalmente mas pesadas, evaluar diferentes compiladores, evaluar diferen-tes implementaciones de la librerıa MPI, agregar otro nivel de paralelizacionutilizando OpenMPI, y explotar mejor el uso de la memoria cache. Por otrolado, una estrategia para disminuir el tiempo de simulacion podrıa ser la deproponer un modelo FDTD de direccion alternada implıcita (ADI-FDTD),y ası poder utilizar pasos de tiempos mas grandes.

74

Appendices

A. Propiedades Electromecanicas de los Sus-

tratos

A.1. Oxido de Bismuto-Germanio

El oxido de bismuto-germanio (Bi12GeO20) tiene una densidad ρ = 9200[kg/m3]y forma una estructura cristalina con simetrıa cubica de clase 23, por tantola matriz de rigidez, la matriz de constantes piezoelectricas y la matriz depermitividad electrica tienen la siguiente forma

cE =

cE11 cE12 cE12 0 0 0cE12 cE11 cE12 0 0 0cE12 cE12 cE11 0 0 00 0 0 cE44 0 00 0 0 0 cE44 00 0 0 0 0 cE44

(A.1)

e =

0 0 0 ex4 0 00 0 0 0 ex4 00 0 0 0 0 ex4

(A.2)

εS =

εSxx 0 00 εSxx 00 0 εSxx

(A.3)

con cE11 = 12,8×1010[N/m2], cE12 = 3,05×1010[N/m2], cE44 = 2,55×1010[N/m2],ex4 = 0,99[C/m2] y εSxx = 38ε0.

Los datos de las constantes fueron tomados de [35].

A.2 Niobato de Sodio-Bario 75

A.2. Niobato de Sodio-Bario

El niobato de sodio-bario (Ba2NaNb5O15) tiene una densidad ρ = 5300[kg/m3]y forma una estructura cristalina con simetrıa ortorombica de clase 2mm, portanto la matriz de rigidez, la matriz de constantes piezoelectricas y la matrizde permitividad electrica tienen la siguiente forma

cE =


(A.4)

e =

0 0 0 0 ex5 00 0 0 ey4 0 0ez1 ez2 ez3 0 0 0

(A.5)

εS =

εSxx 0 00 εSyy 00 0 εSzz

(A.6)

con cE11 = 23,9×1010[N/m2], cE22 = 24,7×1010[N/m2], cE33 = 13,5×1010[N/m2],cE44 = 6,5 × 1010[N/m2], cE55 = 6,6 × 1010[N/m2], cE66 = 7,6 × 1010[N/m2],cE12 = 10,4 × 1010[N/m2], cE13 = 5 × 1010[N/m2], cE23 = 5,2 × 1010[N/m2],ex5 = 2,8[C/m2], ey4 = 3,4[C/m2], ez1 = −0,4[C/m2], ez2 = −0,3[C/m2],ez3 = 4,3[C/m2], εSxx = 222ε0, εSyy = 227ε0, y εSzz = 32ε0.


A.3. Rutile

El rutile (TiO2) tiene una densidad ρ = 4260[kg/m3] y forma una estructuracristalina con simetrıa tetragonal de clase 4/mmm, por tanto la matriz derigidez, la matriz de constantes piezoelectricas y la matriz de permitividadelectrica tienen la siguiente forma

76 A.4 Sulfuro de Cadmio

cE =


(A.7)

e =

0 0 0 0 0 00 0 0 0 0 00 0 0 0 0 0

(A.8)

εS =

εSxx 0 00 εSxx 00 0 εSzz

(A.9)

con cE11 = 26,6 × 1010[N/m2], cE33 = 46,99 × 1010[N/m2], cE44 = 12,39 ×1010[N/m2], cE66 = 18,86 × 1010[N/m2], cE12 = 17,33 × 1010[N/m2], cE13 =13,62× 1010[N/m2], εSxx = 89ε0, y εSzz = 173ε0.


A.4. Sulfuro de Cadmio

El rutile (CdS) tiene una densidad ρ = 4820[kg/m3] y forma una estructuracristalina con simetrıa hexagonal de clase 6mm, por tanto la matriz de rigidez,la matriz de constantes piezoelectricas y la matriz de permitividad electricatienen la siguiente forma

cE =

cE11 cE12 cE13 0 0 0cE12 cE11 cE13 0 0 0cE13 cE13 cE33 0 0 00 0 0 cE44 0 00 0 0 0 cE44 00 0 0 0 0 1/2(cE11 − cE12)

(A.10)

e =

0 0 0 0 ex5 00 0 0 ex5 0 0ez1 ez1 ez3 0 0 0

(A.11)

A.4 Sulfuro de Cadmio 77

εS =

εSxx 0 00 εSxx 00 0 εSzz

(A.12)

con cE11 = 9,07 × 1010[N/m2], cE33 = 9,38 × 1010[N/m2], cE44 = 1,504 ×1010[N/m2], cE12 = 5,81×1010[N/m2], cE13 = 5,1×1010[N/m2], ex5 = −0,21[C/m2],ez1 = −0,24[C/m2], ez3 = 0,44[C/m2], εSxx = 9,02ε0, y εSzz = 9,53ε0.


78 BIBLIOGRAFIA

Bibliografıa

[1] Jari-Pascal Curty, Michel Declercq, Catherine Dehollain, and NorbertJoehl. DESIGN AND OPTIMIZATION OF PASSIVE UHF RFID SYS-TEMS . Springer, 2007.

[2] Byunggil Lee and Howon Kim. Design and implementation of a secureibs platform using rfid and sensor network. In Consumer Electronics,2006. ISCE ’06. 2006 IEEE Tenth International Symposium on, pages1–4, 2006.

[3] Xuefeng Jiang and Xu Wang. Study on logistic information acquisitiontechnology in steelmaking practice based on rfid. In Intelligent Controland Automation, 2008. WCICA 2008. 7th World Congress on, pages7946–7950, 2008.

[4] Guidong Liu, Wensheng Yu, and Yu Liu. Resource management withrfid technology in automatic warehouse system. In Intelligent Robotsand Systems, 2006 IEEE/RSJ International Conference on, pages 3706–3711, 2006.

[5] V. Daniel Hunt, Albert Puglia, and Mike Puglia. RFID: A GUIDE TORADIO FREQUENCY IDENTIFICATION. Wiley, 2007.

[6] L. Catarinucci, R. Colella, L. Mainetti, V. Mighali, L. Patrono, I. Sergi,and L. Tarricone. An innovative animals tracking system based on passi-ve uhf rfid technology. In Software, Telecommunications and ComputerNetworks (SoftCOM), 2012 20th International Conference on, pages 1–7, 2012.

[7] Dong-Beom Shin, Gil young Choi, and Dae-Young Kim. Design andimplementation of wireless sensing platform based on uhf rfid techno-logy. In Consumer Electronics (ICCE), 2010 Digest of Technical PapersInternational Conference on, pages 297–298, 2010.

[8] Miodrag Bolic and David Simplot-Ryl and Ivan Stojmenovic. RFIDSYSTEMS. John Wiley & Sons, 2010.

[9] Sanna Harma. Surface Acoustic Wave RFID Tags: Ideas, Developments,and Experiments. PhD thesis, Helsinki University of Technology.

[10] The global saw tag - a new technical approach to rfid. Technical Report# RFS-1465, RFSAW INC, Richardson, Texas 75081, 2004.

BIBLIOGRAFIA 79

[11] V.P. Plessky and L.M. Reindl. Review on saw rfid tags. Ultrasonics,Ferroelectrics and Frequency Control, IEEE Transactions on, 57(3):654–668, March 2010.

[12] D.E.N. Davies, M.J. Withers, and R.P. Claydon. Passive coded trans-ponder using an acoustic-surface-wave delay line. Electronics Letters,11(8):163–164, April 1975.

[13] L.M. Reindl and IM. Shrena. Wireless measurement of temperatureusing surface acoustic waves sensors. Ultrasonics, Ferroelectrics andFrequency Control, IEEE Transactions on, 51(11):1457–1463, Nov 2004.

[14] S. Harma and V. P. Plessky. Surface acoustic wave rfid tags. In CristinaTurcu, editor, Development and Implementation of RFID Technology.InTech, 2009.

[15] S. Harma, W.G. Arthur, C.S. Hartmann, R.G. Maev, and V.P. Plessky.Inline saw rfid tag using time position and phase encoding. Ultra-sonics, Ferroelectrics and Frequency Control, IEEE Transactions on,55(8):1840–1846, August 2008.

[16] D.C. Malocha, D. Puccio, and D. Gallagher. Orthogonal frequency co-ding for saw device applications. In Ultrasonics Symposium, 2004 IEEE,volume 2, pages 1082–1085 Vol.2, Aug 2004.

[17] M. Solal and T. Abboud and S. Ballandras and S. Chamaly and V.Laude and R. Lardat and T. Pastureaud and J. Ribbe and W. Steichenand P. Ventura. Fem/bem analysis for saw devices.

[18] O. Nova, N. Pena, and M. Ney. Fdtd simulation of saw rfid tags. InRFID-Technologies and Applications (RFID-TA), 2012 IEEE Interna-tional Conference on, pages 259–262, Nov 2012.

[19] KEN-YA HASHIMOTO and MASATSUNE YAMAGUCHI. Free soft-ware products for simulation and design of surface acoustic wave andsurface transverse wave devices. In Frequency Control Symposium, 1996.50th., Proceedings of the 1996 IEEE International., pages 300–306, Jun1996.

[20] S. Rahman, H. P. Langtangen, and C. H. W. Barnes. A finite elementmethod for modelling electromechanical wave propagation in anisotropicpiezoelectric media. ArXiv Physics e-prints, October 2005.

80 BIBLIOGRAFIA

[21] Rene Marklein. The finite integration technique as a general tool tocompute acoustic, electromagnetic, elastodynamic, and coupled wavefields.

[22] P.M. Smith and Wei Ren. Finite-difference time-domain techniques forsaw device analysis. In Ultrasonics Symposium, 2002. Proceedings. 2002IEEE, volume 1, pages 325–328 vol.1, Oct 2002.

[23] King-Yuen Wong and Wai-Yip Tam. Analysis of the frequency responseof saw filters using finite-difference time-domain method. MicrowaveTheory and Techniques, IEEE Transactions on, 53(11):3364–3370, Nov2005.

[24] F. Chagla and P.M. Smith. Finite difference time domain methods forpiezoelectric crystals. Ultrasonics, Ferroelectrics and Frequency Control,IEEE Transactions on, 53(10):1895–1901, October 2006.

[25] Jean-Pierre Berenger. A perfectly matched layer for the absorption ofelectromagnetic waves. Journal of Computational Physics, 114(2):185–200, 1994.

[26] W. C. Chew and Q. H. Liu. Perfectly matched layers for elastodynamics:A new absorbing boundary condition. J. Comp. Acoust, 4:341–359, 1996.

[27] A. Taflove and S.C. Hagness. Computational Electrodynamics: TheFinite-Difference Time-Domain Method. The Artech House antennaand propagation library. Artech House, Incorporated, 2005.

[28] B. T. Nguyen and S. A. Hutchinson. The implementation of the upwindleapfrog scheme for 3D electromagnetic scattering on massively parallelcomputers. Technical Report SAND95-1322 UC-705, Sandia NationalLaboratories (USA), 1995.

[29] W. Yu and R. Mittra. Advanced FDTD Methods: Parallelization, Acce-leration, and Engineering Applications. Artech House electromagneticsseries. Artech House, 2011.

[30] Christoph Schroder. On the interaction of elastic waves with buried landmines: An investigation using the finite-difference time-domain method.PhD thesis, Georgia Institute of Technology.

[31] Wolfgang Gentzsch, Lucio Grandinetti, and Gerhard Joubert. HighSpeed and Large Scale Scientific Computing. IOS Press, 2009.

BIBLIOGRAFIA 81

[32] Xingjun Zhang, Yanfei Ding, Yiyuan Huang, and Xiaoshe Dong. De-sign and implementation of a heterogeneous high-performance compu-ting framework using dynamic and partial reconfigurable fpgas. In Com-puter and Information Technology (CIT), 2010 IEEE 10th InternationalConference on, pages 2329–2334, June 2010.

[33] Wenhua Yu. VALU, AVX and GPU Acceleration Techniques for ParallelFDTD Methods. Professional Applications of Computing. Institution ofEngineering and Technology, 2013.

[34] Charles Severance. High Performance Computing. Connexions, 2009.

[35] D. Royer and E. Dieulesaint. Elastic Waves in Solids I. Springer, 1996.

[36] John B. Schneider. Understanding the Finite-Difference Time-DomainMethod. www.eecs.wsu.edu/ schneidj/ufdtd, 2010.

[37] E. Becache, S. Fauqueux, and P. Joly. Stability of perfectly matchedlayers, group velocities and anisotropic waves, 2003.

[38] K.J. Bathe. Finite Element Procedures. Prentice-Hall International Se-ries in. Prentice Hall, 1996.

[39] Istvan A. Veres. Stability analysis of second- and fourth-order finite-difference modelling of wave propagation in orthotropic media. Ultraso-nics, 50(3):431 – 438, 2010.

[40] B. A. Auld. Acoustic Fields and Waves in Solids. Robert E. KriegerPublishing Company, 1970.

[41] W. Yu, R. Mittra, T. Su, Y. Liu, and X. Yang. Parallel Finite-DifferenceTime-Domain Method. Artech House electromagnetics series. ArtechHouse, 2006.

[42] Gen Chen, Lei Zhao, Wen Li, Huadong Zhao, and Yu Wenhua. Per-formance study of avx instructions for the fdtd method. In CrossStrait Quad-Regional Radio Science and Wireless Technology Conferen-ce (CSQRWC), 2013, pages 175–178, July 2013.

[43] Lihong Zhang and Wenhua Yu. Improving parallel fdtd method perfor-mance using sse instructions. In Parallel Architectures, Algorithms andProgramming (PAAP), 2011 Fourth International Symposium on, pages57–59, Dec 2011.

82 BIBLIOGRAFIA

[44] Agner Fog. Optimizing software in c++. http://www.agner.org/

optimize/, 2004. [Online; accessed 19-April-2014].

[45] J.D. Cooper, A. Valavanis, Z. Ikonic, P. Harrison, and J.E. Cunningham.Stable perfectly-matched-layer boundary conditions for finite-differencetime-domain simulation of acoustic waves in piezoelectric crystals. Jour-nal of Computational Physics, 253(0):239 – 246, 2013.

http://www.agner.org/optimize/

http://www.agner.org/optimize/

tesis de maestr a - uniandes

Documents