estimaciÓn de biomasa en un bioreactor
TRANSCRIPT
ESTIMACIÓN DE BIOMASA EN UN BIOREACTOR
YENNY GRACE ÁVILA GARCÍA
PONTIFICIA UNIVERSIDAD JAVERIANA
FACULTAD DE INGENIERÍA
CARRERA DE INGENIERÍA ELECTRÓNICA
BOGOTÁ D.C.
2013
2
ESTIMACIÓN DE BIOMASA EN UN BIOREACTOR
TRABAJO DE GRADO No. 1246
YENNY GRACE ÁVILA GARCÍA
TRABAJO DE GRADO PARA OPTAR AL TÍTULO DE INGENIERO ELECTRÓNICO
DIRECTOR
ING. FREDY O. RUIZ Ph. D
PONTIFICIA UNIVERSIDAD JAVERIANA
FACULTAD DE INGENIERÍA
CARRERA DE INGENIERÍA ELECTRÓNICA
BOGOTÁ D.C.
2013
3
PONTIFICIA UNIVERSIDAD JAVERIANA
FACULTAD DE INGENIERÍA
CARRERA DE INGENIERIA ELECTRÓNICA
Rector de la Universidad:
Joaquín Emilio Sánchez García, S.J.
Decano Académico de la Facultad de Ingeniería:
Ingeniero Jorge Luis Sánchez Tellez M. Ed. M. Sc.
Decano Medio Universitario Facultad de Ingeniería:
Antonio José Sarmiento Nova S.J.
Director de la Carrera de Ingeniería Electrónica:
Ingeniero Jairo Alberto Hurtado
Director de Departamento de Ingeniería Electrónica:
Ingeniero Francisco Viveros Moreno
4
Artículo 23 de la resolución No. 13 del 6 de julio de 1964:
“La universidad no se hace responsable de los conceptos emitidos por sus alumnos en sus proyectos de
grado.
Solo velará porque no se publique nada contrario al dogma y la moral católica y porque no contenga
ataques o polémicas puramente personales. Antes bien, que se vean en ellos el anhelo de buscar la verdad
y la justicia.”
Artículo 23 de la Resolución No. 13, del 6 de julio de 1946, por la cual se reglamenta lo concerniente a
Tesis y Exámenes de Grado en la Pontificia Universidad Javeriana.
5
A Dios
A mi esposo e hijos por su apoyo, amor,
motivación e inspiración
A mis padres José Alirio Avila y Argeny García
por todo su amor, apoyo y sacrificio
Al Ingeniero Fredy Ruiz por sus enseñanzas
y sobre todo, por su paciencia y comprensión
A los profesores de departamento por sus enseñanzas y aporte
6
TABLA DE CONTENIDO
1. INTRODUCCIÓN…………………………………………………………………………......................6
2. BIOPROCESO……………………………………………………………………………………….…...7
2.1. Pichia Pastoris…………………………………………………………………………………………....7
2.2. MODELO DEL BIOPROCESO………………………………………………………..........................7
2.2.1. Modelo dinámico de Pichia Pastoris…………………………………………………………..……………..7
2.2.2. Modelo del bioreactor………………………………………………………………………...………8
2.2.3. Modelo completo del bioproceso………………………………………………...…………………...9
3. OBSERVADOR LINEAL………………………………………………………………….……...........10
3.1. LINEALIZACIÓN……………………………………………………………………………….……10
3.2. OBSERVABILIDAD………………………………………………………………………………….11
3.3. OBSERVADOR……………………………………………………………………….........................11
3.4. ANÁLISIS DE OBSERVABILIDAD…………………………………………………………...……12
3.5. DISEÑO DEL OBSERVADOR LINEAL…………………………………………………….………13
4. OBSERVADOR NO LINEAL…………………………………………………………………....……..19
4.1. SENSOR VIRTUAL……………………………………………………………................…………..19
4.2. EL PERCEPTRÓN MULTICAPA……………………………………………….……………….…..19
4.3. IDENTIFICACIÓN DE SISTEMAS CON REDES NEURONALES…………………….…...……..19
4.3.1. Realización del experimento…………………………………………………...………………...….20
4.3.2. Selección de la estructura del modelo………………………………………………………..….…...21
4.3.3. Entrenamiento de la red……………………………………………………………………......…….22
4.3.4. Validación del modelo…………………………………...…………………………………….…….23
5. CONCLUSIONES………………………………………………….………………………...…………26
6. BIBLIOGRAFÍA………………………………………………………….……………………..............27
APÉNDICE A. Tabla de definición de siglas……………………….…………….………………………..31
APÉNDICE B. tabla de variables…………………………………..………………………………………31
7
1. INTRODUCCIÓN
En el marco del proyecto “Ingeniería del Bioproceso para la producción de proteínas recombinantes
humanas en el sistema Pichia pastoris” desarrollado por el Instituto de Errores Innatos del Metabolismo
(IEIM), en asocio con los departamentos de Química, Microbiología y Electrónica de la Pontificia
Universidad Javeriana, el grupo de investigación en enfermedades cardiovasculares y metabólicas de la
Universidad del Quindío y la planta piloto de la Facultad de Ingeniería de la Universidad Autónoma de
Barcelona (España), que busca establecer nuevas estrategias de cultivo en un biorreactor, de la levadura
Pichia pastoris [1] para la producción de proteínas recombinantes humanas, en el desarrollo de terapia de
remplazo enzimático (TRE), para el tratamiento de algunas enfermedades, empleando tecnología de ADN
recombinante. Surge la necesidad de controlar las variables propias del proceso de cultivo en un bioreactor,
como la temperatura, el flujo de aire, la velocidad de agitación y el flujo de metanol, a propósito de la
optimización del proceso de cultivo. Estas variables están directamente relacionadas con el crecimiento
microbiano. Algunas variables pueden ser medidas en línea, pero normalmente la biomasa no es susceptible
de tal medición o es económicamente muy costosa, lo que hace de la estimación un medio necesario para
su valoración en línea [2-7].
La técnica utilizada en el proyecto para la estimación de la biomasa se basa en balances de masa, que, a
través de valores medidos en línea como, la Concentración de Oxígeno Disuelto, la concentración metanol
y el volumen permiten la estimación de ésta.
Para el desarrollo del proyecto “Ingeniería del Bioproceso para la producción de proteínas recombinantes
humanas en el sistema Pichia pastoris” se dispone de un bioreactor BIOENGINEERING® donde
previamente se han llevado a cabo procesos de cultivo de la levadura Pichia pastoris; los valores de las
variables obtenidas en el curso de los procesos de cultivo han sido documentados, generando así una base
de datos del bioproceso.
Teniendo los datos experimentales obtenidos preliminarmente se desarrollan dos tipos diferentes de
observadores de estado que permitan estimar la biomasa en el bioreactor a partir de dichos datos.
En el diseño de un observador el sistema está descrito por la ecuación de estado y la ecuación de salida,
estableciendo una serie de equivalencias entre estas. Se busca entonces encontrar el vector observador de
orden (1xn), donde n es el orden del sistema.
Los observadores de estado son herramientas que se desarrollan como software y se implementan mediante
MATLAB.
El segundo observador de estado tipo caja negra, pretende generar una función, que, a partir de los datos
históricos del sistema, tanto de entradas y salidas, como de valores medidos de la biomasa de manera
manual, pueda interpolar datos nuevos y devolver un valor estimado de la biomasa para las condiciones
dadas.
Para el diseño de éste segundo observador se separan primero los datos disponibles en dos grupos, el primero
destinado a la etapa de diseño o entrenamiento del observador y el segundo corresponde a los datos
designados para la validación del observador. La función de interpolación se encuentra empleando Redes
Neuronales Artificiales (ANNs). El procedimiento de validación determina entonces cual método permite
minimizar el error resultante respectos a los datos ya existentes de la biomasa.
8
2. BIOPROCESO
2.1. Pichia Pastoris
Pichia Pastoris es un tipo de levadura metilo trófica unicelular fácil de manipular y cultivar, utilizada para
la producción de proteínas recombinantes, debido, entre otros factores a la capacidad de realizar
modificaciones post traduccionales semejantes a las células humanas tales como glicosilación, formación
de enlaces disulfuro y procesamiento proteolítico, a su fácil manipulación genética y su similitud con las
técnicas utilizadas para la manipulación molecular de Saccharomyces cerevisiae, una de las levaduras más
utilizadas en la biología moderna [1, 8, 9], y a su falta de endotoxinas, lo que hace la producción de proteína
sea adecuada para uso terapéutico[10].
Las levaduras se encuentran generalmente en forma unicelular y se reproducen mediante gemación [11].
Pichia Pastoris es una de las especies de levadura capaces de metabolizar metanol utilizándolo como fuente
de carbón y energía. [8, 9] En los procesos aerobios el organismo es capaz de oxidar completamente el
substrato a CO2 obteniendo el máximo de energía para la conversión del substrato en nueva masa celular
[11].
2.2. MODELO DEL BIOPROCESO
2.2.1. Modelo dinámico de Pichia Pastoris
El modelo dinámico de la fase de crecimiento de Pichia Pastoris fue construido con base en un balance
estequiométrico del proceso de fermentación [10]. En la fase de crecimiento, el metanol es oxidado como
formaldehido gracias al gen AOX1 (aldehyde oxidase 1) encontrado en Pichia Pastoris, que a su vez es
oxidado como dióxido de carbono. Durante la reacción química debido a la fosforilación del formaldehído
se produce una molécula de GAP (glyceraldehyde-3-phosphate dehydrogenase), una parte de ese GAP se
consume para la formación de biomasa; por otro lado la oxidación del piruvato obtenido en la fosforilación
produce acetato que también es consumido para el crecimiento celular. En el balance de energía se asume
que el consumo de ATP se usa en el mantenimiento y crecimiento celular [10].
ATP
ATP
ATPm
Yr
(1)
Donde ATP
m Coeficiente de mantenimiento de ATP (mol g-1 h-1)
ATP
r Tasa específica de consumo de ATP (mol g-1 h-1)
ATP
Y Coeficiente de rendimiento de ATP (g mol-1)
Tasa específica de crecimiento (h-1)
Finalmente el modelo se construye a partir de las ecuaciones de balance [10]. Donde la matriz de
rendimiento YMeOH, está dada por:
0101
21
131
2541
6
1
15
001
3
1
3
21
21
1
O
P
YKK
KK
K
ATP
BB
BB
B
(2)
9
El sistema de ecuaciones completo se describe como sigue:
0
0
0101
21
131
2541
6
1
15
001
3
1
3
2
21
21
1
ATP
MeOH
O
Ac
G
ATP
BB
BB
B
m
r
r
r
r
O
P
YKK
KK
K
(3)
Donde 21
,BB
KK son parámetros del modelo [10]
Ac
r Tasa específica de producción de acetato (mol g-1 h-1)
G
r Tasa específica de glicólisis (mol g-1 h-1)
MeOH
r Tasa específica de absorción de metanol (mol g-1 h-1)
2
Or Tasa específica de absorción de oxigeno (mol g-1 h-1)
Fracción de formaldehído oxidado como formato
Como en todo proceso de fermentación la tasa de crecimiento depende de la concentración de nutrientes
químicos y puede describirse por la ecuación de Monod [11].
1max
SK
S (4)
Donde max
= tasa máxima de crecimiento específica
S=concentración residual de substrato
Ks=constante de saturación
La tasa específica de absorción de metanol se describe también por la ecuación de Monod[10]
MeOHMeOH
MeOHMeOH
MeOH
SK
Srr
max (5)
2.2.2. Modelo del bioreactor
Para obtener el modelo del bioreactor se hace mediante un balance de masa en el que se implican la
concentración de biomasa, la concentración de substrato [10], y la concentración de oxígeno disuelto.
VFdt
dV
in (6)
XXV
FX
dt
dXin
(7)
SSV
FXMrS
V
F
dt
dSin
MeOHMeOHR
in (8)
10
CODCODV
FOUROTR
dt
dCODin
Aquí OTR es la tasa de transmisión de oxígeno y se define como:
)*( CODCODKOTRla
(9)
Donde Kla es el coeficiente volumétrico de transferencia de masa y varía con la velocidad de agitación y el
flujo de aire. COD* es la Concentración de Oxígeno Disuelto de saturación que depende de la solubilidad
del oxígeno en el medio de cultivo y las condiciones del medio y COD es la Concentración de Oxígeno
Disuelto en el cultivo, entendido como la cantidad de oxígeno por unidad de volumen de líquido[12]. Así,
si la concentración en el cultivo alcanza el valor de saturación no hay transferencia de oxígeno, en cambio,
si COD es cero, la transferencia de oxígeno será máxima.
Mientras que OUR representa la tasa de consumo de oxígeno de la biomasa en el reactor y está directamente
relacionada con el crecimiento celular a través de la tasa de absorción de oxígeno 2
Or y el peso molecular
del oxígeno MO, como se describe a continuación
XMrOUROO
2
(10)
La ecuación de estado para la concentración de oxígeno es entonces:
CODCODV
FXMrCODCODK
dt
dCODin
oola
2
)*( (11)
Para el modelo se supone 0 (coeficiente de evaporación).
2.2.3. Modelo completo del bioproceso
El modelo dinámico del sistema es la combinación del modelo del cultivo de Pichia Pastoris y del
bioreactor.
Figura 1. Diagrama del modelo.
11
La representación del sistema no lineal en el espacio de estados está dada por las ecuaciones:
inF
dt
dV (12)
XV
FX
dt
dXin
(13)
SV
FXMrS
V
F
dt
dSin
MeOHMeOHR
in (14)
CODV
FXMrCODCODK
dt
dCODin
oola
22
)*( (15)
Actualmente el IEIM cuenta con sondas que permiten la medición de dos variables de estado, la
concentración de metanol y la concentración de oxígeno disuelto. El volumen puede ser determinado a
través de los indicadores del bioreactor. La biomasa en cambio, no es susceptible de tal medición in situ o
es económicamente muy costosa, se hace entonces por métodos manuales a través de absorbancia,
relacionada con la concentración de biomasa en una muestra, para posteriormente interpolar con diferentes
muestras. Sin embargo éste método no es eficiente y no se conoces datos de su precisión, lo que hace de la
estimación un medio necesario para la valoración de biomasa en línea.
3. OBSERVADOR LINEAL
3.1. LINEALIZACIÓN
Para el análisis dinámico del sistema no lineal es necesario obtener un modelo lineal a partir de éste. En
forma general las ecuaciones de estado de un sistema no lineal están dadas por:
)),(()(
)),(),(()(
ttxhty
ttutxftx
(16)
Éste sistema se puede expresar como una representación lineal aproximada alrededor de un punto de
equilibrio ),(00
ux , tal que )( tx en ese punto sea igual a cero; mediante una expansión en series de Taylor.
)()())((
)()(),())(),((
0
0000
00
),(),(
000
txx
hxhtxxh
tuu
ftx
x
fuxftuutxxf
x
uxux
o
(17)
El sistema linealizado se puede representar en el espacio de estado como en su forma original donde las
matrices
00000
,,
),(),( xuxuxx
hC
u
fB
x
fA
(18)
son matrices jacobianas de las funciones f(t) y h(t).
12
3.2. OBSERVABILIDAD
Así como la controlabilidad, capacidad para controlar todas las variables de un estado, es un requerimiento
en el diseño de un controlador, la observabilidad determina la capacidad para diseñar un observador.
La observabilidad es la capacidad de deducir las variables de estado a partir de la entrada u(t) y la salida
y(t). La ubicación de polos como técnica de diseño para un observador es viable si y solo si el sistema es
completamente observable.
Un sistema de orden n es completamente observable si la matriz de observabilidad OM
1n
M
CA
CA
C
O
(19)
es de rango n.
3.3. OBSERVADOR
Un observador de estados es un sistema dinámico cuyos estados convergen a los del sistema observado,
proporcionando así información estimada acerca del valor que toman dichos estados.
Dado un sistema
Cxy
BuAxx
(20)
La figura 2 muestra el diagrama en bloques de un observador en lazo cerrado.
Figura 2. Observador de estados realimentado.
Los estados del sistema pueden ser estimados mediante la expresión
13
xCy
yyLBuAxx
)( (21)
El error de estimación es entonces
xxe (22)
Así
))(()( yyLBuxABuAxxx
eLCAe )( (23)
La estabilidad y velocidad de respuesta del observador se determina mediante los autovalores de la matriz
|A-LC|. El diseño del observador consiste entonces en encontrar los valores de L para obtener la respuesta
deseada.
3.4. ANÁLISIS DE OBSERVABILIDAD
Con base en las ecuaciones (12)-(15) se construye el modelo en diagrama de bloques para simulación a
través de Simulink.
Figura 3. Modelo del bioproceso
Las condiciones de operación del proceso de fermentación dadas en el laboratorio son:
14
)( lFin
1e-3, 2e-3, …, 5e-3
)(1
hKla
100, 200, …, 1000
)(1
lgX 60, 100, 150, 200
S 3.959, 10.2934, 15.836
COD 0.00085, 0.002125, 0.0034
Tabla 1. Condiciones iniciales del sistema.
El sistema se linealiza alrededor de estos puntos y sus combinaciones que en total suman 1800. Se
implementa el algoritmo linmod de MATLAB que utiliza métodos numéricos para obtener las matrices
Jacobianas del modelo lineal asociado al sistema en forma de matrices en el espacio de estados (A, B, C,
D).
Una vez se tiene el modelo linealizado se evalúa la observabilidad del sistema; por medio de la función obsv
se calcula la matriz de observabilidad Ec. (19) del sistema en el espacio de estados dadas la matriz A de 4x4
y la matriz C de 3x4; el número de filas linealmente independientes de la matriz O calculada es determinado
con rank.
Se concluye entonces que el sistema es observable ya que el modelo linealizado en cada punto de operación
resulta ser observable, es decir, el rango de la matriz O es igual al orden del sistema. Por lo tanto sus estados
pueden ser deducidos a partir de las señales de entrada y salida del sistema.
3.5. DISEÑO DEL OBSERVADOR LINEAL
Los autovalores de la matriz A del sistema determinan la estabilidad y velocidad del sistema. En MATLAB
mediante la función eig(A) se obtiene el vector que contiene los valores propios de la matriz A para cada
punto de linealización .Luego de evaluar los valores propios del sistema en cada punto se encuentra que los
polos más rápidos del sistema están dados por los siguientes valores:
)1444.0,1020.0,0596.0,0254.0(
Según la literatura, en el diseño de un observador los polos deseados deben ser diez veces más rápidos que
el sistema, por lo tanto se define el vector P como:
]5.1;1;5.0;2.0[P
En el diseño del observador se busca encontrar la matriz de ganancia del estimador (L) tal que los
autovalores de la matriz [A-LC] sean los determinados por el vector P.
Dado el sistema linealizado la función place calcula la matriz L para cada punto de operación, de modo que
los valores propios de [A-LC] coindicen con los ingresados en P, minimizando la sensibilidad de los polos
a perturbaciones en A o C y suponiendo que todas las entradas del sistema son señales de control.
Al obtener una matriz L para cada uno de los puntos de linealización se define una única matriz de ganancia
como el valor medio de las matrices encontradas.
9908.25.1249-0.0849
0.97560.41160.2208-
0.42951.42950.1150
0.2180-0.1195-0.7758
1014
L (24)
Inicialmente el observador diseñado se evalúa sobre el modelo linealizado del sistema, para lo que se
construye en Simulink como diagrama de bloques.
15
Figura 4. Observador sobre el modelo linealizado.
Sin embargo, el observador diseñado es inestable como se observa en la figura 5.
Figura 5. Biomasa estimada para el observador diez veces más rápido.
16
Por lo tanto los valores de P se ajustan hasta conseguir que el observador converja, para lo que P se
especifica como
]150;100;50;20[P
Con
4027.12.2823-0.9192
0.00610.00180.0009-
0.00180.00800.0014-
0.0003-0.0005-0.0029
1014
L
El nuevo observador diseñado se evalúa sobre el sistema lineal en todos los puntos de operación. Las
figuras 6-8 muestran la gráfica de la biomasa real y la estimada, y el error de estimación correspondiente
para tres puntos con condiciones iniciales diferentes.
Las condiciones iniciales de los experimentos que aquí se muestran son:
1. 0085.0,959.3,100,300,31 CODiSiXiKeFlain
2. 312.2,2934.10,150,700,33 eCODiSiXiKeFlain
3. 3392.3,836.15,200,1000,35 eCODiSiXiKeFlain
Figura 6. a. Biomasa estimada en el modelo lineal para las condiciones iniciales 1. b. Error de estimación
17
Figura 7. a. Biomasa estimada en el modelo lineal para las condiciones iniciales 2. b. Error de estimación
Figura 8. a. Biomasa estimada en el modelo lineal para las condiciones iniciales 3.
b. Error de estimación
El observador realimentado con el sistema linealizado es capaz de estimar los estados del sistema en
cualquier punto de operación con un error de menos del 1%, para la biomasa, se considera entonces que el
observador diseñado es funcional.
Con base en éste hecho se evalúa luego el comportamiento del estimador sobre el modelo real del sistema,
es decir, el modelo no lineal. La figura 9 muestra el diagrama en bloques en Simulink para éste observador.
18
Figura 9. Observador sobre el modelo no lineal.
Se encuentra que el desempeño del observador sobre el modelo no lineal no es el mismo, el error de
estimación para la biomasa supera el 50% como se observa en la figura 10.
Figura 10. Biomasa estimada en el sistema no lineal y error de estimación.
19
El observador lineal no converge a los estados del sistema cuando se evalúa sobre el modelo no lineal,
como se aprecia en la figura 11.
Figura 10. Estimación de estados en el modelo no lineal.
Es de notar que tanto la concentración de metanol como la Concentración de Oxígeno Disuelto se saturan
poco antes de las primeras 5 horas del proceso. El observador lineal no puede seguir estos fenómenos de
saturación y por lo tanto no estima la concentración de biomasa en el bioreactor.
20
4. OBSERVADOR NO LINEAL
4.1. SENSOR VIRTUAL
Un sensor virtual es un instrumento que se utiliza para obtener una medida indirecta de una variable de
proceso cuando por diferentes circunstancias no es posible hacerlo en línea. Utiliza la información
disponible de la medición de otras variables para calcular una estimación de la variable de interés.
Algunos sensores virtuales se basan en técnicas de aproximación y regresión que utilizan los datos históricos
disponibles de la misma variable y su relación con otras mediciones y parámetros disponibles, para el cálculo
de la estimación; como las Redes Neuronales Artificiales (ANNs).
Las Redes Neuronales Artificiales aprenden una transformación entrada/salida de forma empírica, pueden
procesar sistemas de multiples entradas y salidas, y al ser no lineales permite modelar sistemas no lineales.
[13].
4.2. EL PERCEPTRÓN MULTICAPA
El Perceptrón Multicapa (MLP) es una red neuronal artificial que se caracterizan por tener al menos una
capa oculta. La figura 11 muestra una red MLP de m entradas, una capa oculta con n neuronas y una salida.
Figura 11. Red MLP
Los pesos de la red son los parámetros ajustables, y se determinan a partir de un conjunto de experimentos
mediante el proceso de entrenamiento. Los datos de entrenamiento corresponden a un grupo de entradas u(t)
y sus correspondientes salidas y(t). El objetivo de este proceso es determinar un mapeo entre los datos de
entrenamiento y los pesos de la red, de manera que la red pueda hacer predicciones �̂�(𝑡) cercanas a 𝑦(𝑡)
[14].
4.3. IDENTIFICACIÓN DE SISTEMAS CON REDES NEURONALES
Las redes neuronales son un método para controlar y modelar sistemas no lineales gracias a su capacidad
para aproximar transformaciones no lineales, así como para procesar sistemas de múltiples entradas y
salidas; han sido utilizadas ampliamente como aproximadores de funciones por lo que resultan muy útiles
para la identificación de sistemas no lineales [14].
El proceso para identificar un sistema dinámico consta de los siguientes pasos:
21
Figura 12. Proceso de identificación.
4.3.1. Realización del experimento.
El propósito del experimento es obtener el conjunto de datos que describen el comportamiento del sistema
en un rango completo de operación [14] con una tasa de muestreo apropiada. Éstos datos corresponden a
los datos de entrenamiento para la red.
Para la identificación del sistema se dividieron los datos disponibles del experimento (tabla 1.) en dos
grupos, el primero destinado a los datos de entrenamiento de la red, correspondientes a 100 experimentos
aleatorios. Y el segundo designado a la validación de la red.
El total de experimentos disponibles fue simulado sobre el modelo del sistema mediante la herramienta
Simulink por un periodo de 100 h y muestreados a una tasa de 1h y ½ h. Obteniendo los vectores de
entrenamiento ( F_int, K_lat, Vt, St, CODt, Xt) y validación ( F_inv, K_lav, Vv, Sv, CODv, Xv). En la
figura 13. Se aprecia el modelo del sistema implementado para la realización del experimento.
22
Figura 13. Modelo Bioproceso.
4.3.2. Selección de la estructura del modelo
La estructura del modelo seleccionado debe describir adecuadamente al sistema, dado que las redes tipo
MLP son buenas aprendiendo relaciones no lineales a partir de un conjunto de datos la arquitectura interna
de la red neuronal debe ser de éste tipo.
La red neuronal tipo MLP para la identificación del sistema dinámico no lineal del bioproceso corresponde
al esquema de la figura 14.
Figura 14. Red MLP del bioproceso
3
COD
2
S
1
V
r_o*M_o*X r_MeOH
m_ATP_MeOH
r_o
r_o
r_MeOH*M_s*X
K_MeOH
S
r_MeOH
r_MeOH
rO2
rMeOH
mu*X
mu
-C-
m_ATP_MeOH
Volumen
K_l
To Workspace6
F_i
To Workspace5
Sout
To Workspace3
CODout
To Workspace2
Vout
To Workspace1
Xout
To Workspace
MeOH
M_s
M_s
M_o
M_o
K_la1
K_la*COD
K_la
K_la
-C-
K_MeOH
1
s
Integrator3
1
s
Integrator2
1
s
Integrator1
1
s
Integrator
F_in1
F_in/V*X
F_in/V*S
F_in/V*COD
F_in/VF_in
F_in
r_MeOH
m_ATP_MeOH
u
Concentración
-K-
Co_sat
-K-
C_IS
COD1
Biomasa
V
X' X
V'
V'
S' SS
COD' COD
23
Por la información disponible del sistema y las características del modelo se seleccionó la estructura NNOE
(Neural Network Output Error) para la identificación del sistema.
Los regresores en la estructura NNOE son predicciones de salidas pasadas, es decir, los errores de predicción
pasados dependen de la salida del modelo, lo que en consecuencia genera una realimentación. El modelo
NNOE es estable sólo en una región de operación determinada.
Figura 15. Diagrama de bloques de la estructura NNOE.
4.3.3. Entrenamiento de la red
El entrenamiento de la red consiste en determinar los parámetros del modelo; para determinar los parámetros
ajustables de la red (pesos) se utiliza un entrenamiento basado en el algoritmo de Levenberg-Marquart, un
método para la minimización del error cuadrático medio.
El toolbox de MATLAB “Neural Network Based System Identification Toolbox” contiene diferentes
funciones para el entrenamiento y validación de redes neuronales de tipo perceptrón multicapa para la
identificación de sistemas dinámicos no lineales.
La función nnoe del toolbox determina el modelo no lineal OE (output error) de un sistema dinámico
mediante la formación de una red neural de dos capas con el Método de Levenberg-Marquardt. La función
puede manejar sistemas de múltiple entrada, salida única (MISO) y su implementación se hace como sigue:
[W1,W2,NSSEvec]=nnoe(NetDef,NN,[],[],trparms,Y,U)
para que la función sea capaz de determinar la estructura del vector de regresión se deben definir los
siguientes argumentos.
NetDef: define la estructura de la red, número de neuronas y tipo de función de activación.
NN: NN=[na nb nk]
na representa el número de predicciones pasadas utilizadas para determinar la predicción,
nb el número de entradas pasadas y nk el tiempo de retardo.
U: matriz de entradas del sistema
Y: vector de salida del sistema
trparms: estructura de datos que contiene los parámetros asociados al algoritmo de entrenamiento.
Ésta estructura se establece de la siguiente manera:
trparms = settrain;
24
trparms = settrain(trparms,’maxiter’,100,’D’,1e-3,’skip’,10);
El propósito de la función settrain es establecer los parámetros para el algoritmo de entrenamiento.
Las funciones para la construcción de los modelos basados en redes recurrentes pueden reducir los efectos
del transiente haciendo uso del parámetro “skip” de la estructura de datos trparms. Inicialmente se cargan
los valores “default” en la estructura; los demás argumentos de la función son:
‘maxiter´: criterio de detención, máximo número de iteraciones.
D: decaimiento de los pesos
´skip´: número de muestras que se desprecian antes de usarlas para la actualización de las
ponderaciones.
Las variables retornadas por la función nnoe, W1,W2, son los parámetros del modelo correspondientes a los
pesos de las capas ocultas.
Las variables del sistema definidas como U y Y se relacionan con los datos de entrenamiento obtenidos de
la simulación del modelo. Los vectores de las variables de entrada del sistema, volumen, concentración de
metanol y concentración de oxígeno disuelto, así como de la salida del sistema, concentración de biomasa,
son escaladas mediante la función dscale antes del entrenamiento.
Los datos de entrenamiento para la red corresponden inicialmente a los obtenidos de la simulación del
modelo para 100 experimentos aleatorios de los 1800 disponibles, en un periodo de 100 horas y con una
tasa de muestreo de una hora.
Los argumentos de entrenamiento para la red se seleccionan de manera empírica validando la red entrenada
sobre los mismos datos de entrenamiento y evaluando el valor de NSSE obtenido de este procedimiento.
El NSSE (Normalized Sum of Square Error) es una medida del error entre los valores estimados y los
medidos, si el modelo tiene un NSSE bajo entonces está bien entrenado. De esta manera se obtiene la red
cuyos parámetros que minimizan el error de estimación. El valor de NSSE aceptado y seleccionado es de
10,2571
Ésta red es entrenada con una estructura de 20 neuronas con función de asignación de tipo sigmoidal,
implementando la función tangente hiperbólica.
Los valores del vector NN para el entrenamiento de la red son na=4, nb=4 y nk=0.
4.3.4. Validación del modelo
Cuando la red ha sido entrenada se procede a hacer la validación de la misma comparando la salida real del
sistema con la salida del modelo para las mismas condiciones iniciales [14]. El método más común de
validación es por residuos (error de predicción).
La validación de la red entrenada se hace sobre el total de 1800 experimentos simulados en el modelo del
proceso e igualmente muestreados con una tasa de una hora.
La función de validación del toolbox implementada nnvalid se llama de la siguiente forma:
[Yhat,NSSE]=nnvalid(‘nnoe’,NetDef,NN,W1,W2,y,u)
u y y se especifican en la sección 4.3.3. y corresponden a las entradas y salida del sistema. Yhat es la
predicción pasada generada por la red mientras que NSSE es la suma del error cuadrático normalizado, el
criterio evaluado en la validación de la red.
Los pesos de la red son escalados con la función wrescale antes de validar el modelo. El conjunto de valores
para NSSE obtenidos del algoritmo de validación son los que finalmente determinan si la red es o
25
no capaz de calcular un estimado de la concentración de biomasa con un error de estimación aceptable. La
figura 16 muestra el comportamiento de éste parámetro para todo el rango de operación del sistema.
Figura 16. Histograma de NSSE
El resultado de la validación muestra que para el 87% de los experimentos el error de estimación (NSSE)
se encuentra por debajo del 10%. Lo cual es concluyente para afirmar que la red entrenada es capaz de
estimar el valor de concentración de biomasa para el modelo dado del biorreactor.
La red entrenada sin embargo no es capaz de estimar la concentración de biomasa cuando las variables de
entrada del sistema presentan perturbaciones (ruido), como se aprecia en la figura 17.
Figura 17. Histograma NSSE para el primer entrenamiento sobre el modelo con ruido.
Los valores de NSSE superan el 1.6 × 104 de error; claramente la red no estima la concentración de biomasa
para éste modelo. El modelo del sistema validado para éste caso se ilustra en la siguiente figura.
26
Figura 18. Modelo del bioproceso con perturbaciones.
Las perturbaciones para las entradas del sistema en este modelo se definen en un 2% del rango de operación
para cada una de las variables como se indica en la tabla 2.
Tabla 2. Rango de ruido para las variables de entrada
Para que la red pueda estimar la concentración de biomasa para éste modelo es necesario entrenarla
considerando las perturbaciones en las variables de entrada.
El entrenamiento y validación de la red se realizan siguiendo el mismo esquema descrito en la sección 4.3.
El valor aceptado de error de la validación de la segunda red sobre los mismos datos de entrenamiento es
de 16,9406.
La figura muestra el nuevo diagrama de los valores de NSSE para el sistema con ruido.
27
Figura 19. Histograma de NSSE para el modelo con ruido
Los valores de error superiores al 100%, correspondientes al 3% de los experimentos, se desprecian. Se
tiene entonces que para el 61% de los experimentos el error de estimación (NSSE) se encuentra por debajo
del 10% y del 20% para el 75% de los experimentos.
Se decide entonces que ésta red es apropiada para la estimación de la concentración de biomasa en el
bioreactor para entradas del sistema con perturbación.
En la figura 20 se puede observar la salida, concentración de biomasa, estimada por la red, y el error de
predicción para el experimento 194, cuyas condiciones inciales están dadas por:
𝐹𝑖𝑛 = 1𝑒 − 3, 𝐾𝑙𝑎 = 600, 𝑋𝑖 = 100, 𝑆𝑖 = 1.02934, 𝐶𝑂𝐷𝑖 = 2.12𝑒 − 3
28
5. CONCLUSIONES
Un estimador implementado mediante un observador lineal por realimentación de estados no puede estimar
la variable de interés en sistemas no lineal que presenten fenómenos de saturación en una o más de sus
variables de entrada ya que el observador no puede seguir estos fenómenos no lineales y por lo tanto no es
útil para el propósito del proyecto.
Las Redes Neuronales Artificiales (ANNs) inspiradas en redes neuronales biológicas en la forma empírica
en que aprenden de la información disponible del sistema, por el contrario, resultan útiles para la estimación
de variables de proceso cuando no están disponibles en línea por medio de un instrumento de medida, como
la concentración de biomasa en el bioreactor; obteniendo errores de estimación aceptables para el rango de
operación del sistema. El error de estimación que se logra en la implementación del proyecto para la
concentración de biomasa en el bioreactor oscila entre el 0 y el 20% para el modelo real (con ruido) del
proceso.
El entrenamiento de estas redes sin embargo presenta restricciones de hardware en la medida en que al
entrenar la red con un número mayor de experimentos se obtienen mejores resultados en la estimación de la
variable de interés al reducir el error de estimación, y se puede obtener una red robusta tal que la estimación
no se vea afectada por el ruido presente en las variables de entrada del sistema. Esto requeriría de un
procesador con mayor capacidad para que la red puede ser entrenada exitosamente.
La red neuronal definida debe ser entrenada bajo condiciones reales de implementación, es decir,
considerando las perturbaciones que se puedan presentar en las variables de entrada debidas a los
instrumentos de medida disponibles; para obtener una estimación aceptable de la concentración de biomasa.
El modelo dinámico del bioproceso está construido con base en el coeficiente volumétrico de transferencia
de masa Kla , que varía con la velocidad de agitación y el flujo de aire, un nuevo proyecto podría centrarse
en trabajar con un modelo cuyas entradas incluyan éstos dos últimos parámetros a modo de mejorar los
resultados obtenidos en la estimación.
29
6. BIBLIOGRAFÍA
[1]. José M. Viader-Salvadó, Martha Guerrero-Olazarán. Biotecnología de proteínas recombinantes con
Pichia pastoris. XIV Congreso Nacional de Biotecnología y Bioingeniería. Junio de 2011. México.
[2]. Marco Jenzsch, Rimvydas Simutis, Günter Eisbrenner, Ingolf Stückrath and Andreas Lübbert.
“Estimation of biomass concentrations in fermentation processes for recombinant protein production”.
2006.
[3] V. Lyubenova, I. Rocha and E. C. Ferreira. Estimation of biomass concentration and multiple specific
growth rates of fed-batch fermentation of recombinant E. Coli. International Conference AUTOMATICS
AND INFORMATICS’03 6-8 October 2003, Sofia, Bulgari.
[4]J.E. Hernandez, R.T. Bachmann, R.G.J. Edyvean. A cost–benefit analysis of methods for the
determination of biomass concentration in wastewater treatment. 2006.
[5]. Andre´ A. Neves, Dora A. Pereira, Luı´s M. Vieira, Jose´ C. Menezes. Real time monitoring biomass
concentration in Streptomyces clavuligerus cultivations with industrial media using a capacitance probe.
Journal of Biotechnology 84 (2000) 45–52.
[6]. A. N. Amicarelli , F. A. di Sciascio , H. D. Álvarez y O. Ortiz +. Estimación de biomasa en un proceso
batch: aplicación a la producción de δ – endotoxinas de BT. XXII IACCHE (Interamerican Confederation
of Chemical Engineering) (CIIQ) 2006.
[7]. H. Botero y H. Alvarez. Una revisión de los métodos más frecuentes para la estimación del estado en
procesos químicos. Dyna, Año 76, Nro. 158, pp. 135-146. Medellín, Junio de 2009.
[8]. D. R. Higgins and J. M. Cregg. Methods in Molecular Biology, Vol.103: Pichia Protocols. Humana
Press Inc., Totowa, NJ.
[9]. Gerd Gellisen. Production of Recombinant Proteins. Novel Microbial and Eucaryotic Expression
Systems. WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim.
[10]. H.T. Ren, J.Q. Yuan, K.-H. Bellgardt. Macrokinetic model for methylotrophic Pichia pastoris based
on stoichiometric balance. Journal of Biotechnology 106 (2003) 53–68.
[11]. Ward, Owen P. Biotecnología de la fermentación. Acribia. 1989.
[12]. F. Ruiz, C. Alméciga, A. Rodríguez, C. Cotrino, H. Cordoba. Bioreactor Oxygen Transfer Coefficient
Modelling by Deterministic Estimation Methods. Marzo de 2013. Bogotá D.
[13]. Eduardo Francisco Caicedo Bravo. Una aproximación práctica a las redes neuronales artificiales.
Programa Editorial Universidad del Valle. 2009.
[14]. Neural Network Based System Identification TOOLBOX. Department of Automation, Technical
University of Denmark. January 23, 2000. Denmar
APÉNDICE A. DEFINICIÓN DE SIGLAS
SIGLA DESCRIPCIÓN
ATP Trifosfato de adenosina
MeOH Metanol
OTR Tasa de transmisión de oxígeno
OUR Tasa de consumo de oxígeno
APÉNDICE B. TABLA DE VARIABLES
SIGLA DESCRIPCIÓN UNIDADES
𝑚𝐴𝑇𝑃 Coeficiente de mantenimiento de trifosfato de adenosina (ATP) 𝑚𝑜𝑙 𝑔−1ℎ−1
𝑟𝐴𝑇𝑃 Tasa específica de consumo de trifosfato de adenosina (ATP) 𝑚𝑜𝑙 𝑔−1ℎ−1
𝑌𝐴𝑇𝑃 Coeficiente de rendimiento de trifosfato de adrenosina (ATP) 𝑔 𝑚𝑜𝑙−1
𝜇 Tasa específica de crecimiento ℎ−1
𝑌𝑀𝑒𝑂𝐻 Matriz de rendimiento de metanol
Acr Tasa específica de producción de acetato mol g-1 h-1
Gr Tasa específica de glicólisis mol g-1 h-1
MeOHr Tasa específica de absorción de metanol mol g-1 h-1
2O
r Tasa específica de absorción de oxigeno mol g-1 h-1
Fracción de formaldehído oxidado como formato
max Tasa máxima de crecimiento específica ℎ−1
S Concentración residual de substrato
Ks Constante de saturación
inF Flujo de aire de entrada 𝑚𝑙 𝑠−1
laK Coeficiente volumétrico de transferencia de masa 1
h
X Concentración de biomasa 1lg
S Concentración de substrato MeOH 1lg
COD Concentración de oxígeno disuelto 1lg
V Volumen l
α Coeficiente de evaporación
𝑀𝑂 Peso molecular del oxígeno mol
𝑀𝑀𝑒𝑂𝐻 Peso molecular del metanol mol