fundaÇÃo centro de anÁlise, pesquisa e inovaÇÃo ... · que seja instalado um equipamento...
TRANSCRIPT
I
FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO TECNOLÓGICA INSTITUTO DE ENSINO SUPERIOR FUCAPI
COORDENAÇÃO DE GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
ABNER NEVES DE OLIVEIRA
PREVISÃO EM UNIDADES DE EXTRAÇÃO DE PETRÓLEO UTILIZANDO TÉCNICAS DE APRENDIZADO DE MÁQUINA
Manaus 2008
II
ABNER NEVES DE OLIVEIRA
PREVISÃO EM UNIDADES DE EXTRAÇÃO DE PETRÓLEO UTILIZANDO TÉCNICAS DE APRENDIZADO DE MÁQUINA
Monografia apresentada ao curso de graduação em Ciência da Computação do Instituto de Ensino Superior Fucapi – CESF como requisito parcial para obtenção do Título de Bacharel em Ciência da Computação Orientador: Prof. Dr. Marco Antonio P. Cristo
Manaus 2008
048p Oliveira, Abner Neves de.Previsão em unidades de extração de petróleo utilizando técnicas de
aprendizado de máquina. / Abner Neves de Oliveira. - Manaus: FUCAPI,2008.
59 p. : il.
Trabalho de Conclusão de Curso (graduação) - Instituto de EnsinoSuperior Fucapi CESF, Coordenação de Ciência da Computação.
Orientador: Marco Antônio P. Cristo, Dr.
1. Redes neurais. 2. Rede de base radial. 3. Petróleo - equipamentos. I.Cristo, Marco Antônio P. (Orient.) 11.Instituto de Ensino Superior FucapiCESF, Coordenação de Ciência da Computação. m. Título.
--
Ficha catalográfica elaborada pela Biblioteca da FUCAPI
III
ABNER NEVES DE OLIVEIRA
PREVISÃO EM UNIDADES DE EXTRAÇÃO DE PETRÓLEO UTILIZANDO TÉCNICAS DE APRENDIZADO DE MÁQUINA
Monografia apresentada ao curso de graduação em Ciência da Computação do Instituto de Ensino Superior Fucapi – CESF como requisito parcial para obtenção do Título de Bacharel em
Ciência da Computação. Aprovada em 22 / 12 / 2008, por:
___________________________________________________ Prof. Dr. Marco Antônio de Cristo
Orientador
___________________________________________________ Profa. Marcela Sávia Picanço Pessoa
Examinador
___________________________________________________ Prof. Dr. Eduardo Freire Nakamura
Examinador
Manaus 2008
IV
DEDICATÓRIA
Dedico este trabalho a meus pais, Antonio Aderson de Oliveira e Rosita Maria Neves de
Oliveira, que mesmo enfrentando dificuldades lutaram para que eu pudesse ter a melhor educação
disponível.
A Daniela, namorada e companheira, onde sempre pude buscar carinho e compreensão,
mesmo nas horas mais difíceis.
Aos amigos da graduação e todos os professores que contribuíram, mesmo que de forma
indireta, para a minha formação.
V
AGRADECIMENTOS
A Deus, pela oportunidade de participar da vida.
Ao Prof. Dr. Marco Antonio Cristo, pela paciência, esforço e dedicação na construção
desse trabalho.
À Petrobras, através da UN-AM, que possibilitou a realização desse trabalho.
E a todos que de alguma forma foram importantes em minha jornada.
VI
"Você pode ter todo o dinheiro do mundo, mas há algo que jamais poderá comprar: um dinossauro” Homer J. Simpson
VII
RESUMO
A indústria do petróleo enfrenta diversos desafios que, para serem resolvidos,
implicam na adoção de estratégias e equipamentos de custo elevado. Por exemplo, para
aferição da produção de um poço (exigência da Agência Nacional de Petróleo) é necessário
que seja instalado um equipamento separador que determina precisamente as proporções de
água, óleo e gás. O custo deste equipamento é da ordem de dezenas de milhões de reais. Da
mesma forma, para maximizar a produção de petróleo de um determinado reservatório, é
necessário acompanhar continuamente a pressão no fundo do poço. O custo de um
equipamento para executar tal acompanhamento pode ser da ordem de centenas de milhares
de dólares. Em ambos os casos, a adoção de tais soluções pode se tornar economicamente
insatisfatória.
Neste trabalho, propomos utilizar diversas técnicas de mineração de dados e analisar
os impactos de diferentes grandezas em termos de sua capacidade de prever características de
interesse como pressão no poço e vazão de fluidos. Além disso, pretendemos aplicar
diferentes técnicas de pré-processamento e pós-processamento estatístico nos dados para
maximizar a precisão das previsões a serem realizadas.
Palavras-Chave: Redes neurais, aprendizado de máquina, petróleo, funções de base radial, previsão
VIII
ABSTRACT
Many problems in the oil industry lead to the adoption of high cost strategies and
equipments. For example, to quantify the production of an oil well (a legal requirement of
National Petroleum Agency), it is necessary a device, called separator, that precisely measures
the proportions of water, oil, and gas. The cost of such a device is about the order of millions
of reais. Similarly, to maximize the oil production of a reservatory, it is necessary to
continually monitor the pressure at the well bottom. The cost of the requited device is about
the order of two hundred thousand of reais. In the both two cases, the adoption of these
solutions can be economically unfeasible.
In this work we study several data mining techniques and analyze their usefulness on
forecasting physical quantities such as oil pressure and fluid ratios based on other tracked
physical quantities. Further, we intend to apply several pre- and post-processing techniques to
maximize the accuracy of our methods.
Keywords: Neural network, machine learning, oil, radial base function, forecasting.
IX
SUMÁRIO
1. Introdução ......................................................................................................................... 12 1.1. Especificação do Problema ........................................................................................ 14 1.2. Motivação e relevância do problema ......................................................................... 15 1.3. Objetivos .................................................................................................................... 16
1.3.1. Objetivo Geral .................................................................................................... 16 1.3.2. Objetivos Específicos ......................................................................................... 16
1.4. Trabalhos Relacionados ............................................................................................. 16 1.5. Metodologia ............................................................................................................... 18 1.6. Estrutura do Trabalho ................................................................................................ 19
2. Conceitos Básicos ............................................................................................................. 21 2.1. Mineração de Dados .................................................................................................. 21 2.2. Métodos de Previsão Numérica ................................................................................. 22
2.2.1 Regressão Linear ................................................................................................ 22 2.2.2 Árvores de Decisão ............................................................................................. 22 2.2.3 Aprendizado Baseado em Instância .................................................................... 25
2.3. Redes Neurais ............................................................................................................ 27 2.4. Rede de Base Radial .................................................................................................. 29 2.5. Avaliação de Resultados ............................................................................................ 31 2.6. Software Weka ........................................................................................................... 32
3. Modelagem do Problema .................................................................................................. 34 3.1. Proporções de Fluídos no Petróleo Extraído .............................................................. 34
3.1.1 Modelo Proposto ................................................................................................ 34 3.1.2 Obtenção dos Dados para Criação de Coleções de Teste e Treino .................... 36
3.2. Pressão no fundo do Poço .......................................................................................... 39 3.2.1 Modelo Proposto ................................................................................................ 39 3.2.2 Obtenção dos Dados para Criação de Coleções de Teste e Treino .................... 40
4. Experimentos .................................................................................................................... 42 4.1 Metodologia ............................................................................................................... 42 4.2 Estudos de atributos e métodos .................................................................................. 43
4.2.1 Proporções de Fluídos no Petróleo Extraído ...................................................... 43 4.2.1.1 Numero K de vizinhos ........................................................................ 43 4.2.1.2 Impacto dos atributos .......................................................................... 44 4.2.2 Pressão de fundo ................................................................................................. 48 4.2.2.1 Numero k de vizinhos ......................................................................... 48 4.2.2.2 Impacto de atributos ............................................................................ 49
4.3 Comparação dos métodos .......................................................................................... 51 4.3.1 Proporção de Fluídos no petróleo extraído ......................................................... 51 4.3.2 Pressão de fundo ................................................................................................. 52
4.4 Comparação com trabalhos da literatura.................................................................... 53 5. Conclusões e Trabalhos futuros ........................................................................................ 56 Referências Bibliográficas ........................................................................................................ 58
X
LISTA DE TABELAS
Tabela 1: Comparativo MLP Vs RBF ...................................................................................... 31 Tabela 2: Escolha do k. ............................................................................................................ 43 Tabela 3: Impacto de atributos Regressão Linear. ................................................................... 45 Tabela 4: Análise da melhor combinação, Regressão linear. ................................................... 46 Tabela 5: Impacto de atributos M5P......................................................................................... 46 Tabela 6: Análise da melhor combinação, M5P. ...................................................................... 47 Tabela 7: Impacto de atributos kNN......................................................................................... 47 Tabela 8: Análise da melhor combinação, kNN. ...................................................................... 48 Tabela 9: Escolha do k ótimo para pressão de fundo. .............................................................. 49 Tabela 10: Estudo de impacto para regressão linear. ............................................................... 49 Tabela 11: Análise da melhor combinação, Regressão Linear. ................................................ 50 Tabela 12: Estudo de impacto para M5P. ................................................................................. 50 Tabela 13: Estudo de impacto para kNN. ................................................................................. 50 Tabela 14: Comparativo melhor combinação de atributos. ...................................................... 51 Tabela 15: Comparação de métodos para previsão da vazão de óleo. ..................................... 51 Tabela 16: Comparação de métodos para previsão da vazão de gás. ....................................... 52 Tabela 17: Comparação de métodos para previsão da vazão de água. ..................................... 52 Tabela 18: Comparação de métodos para pressão do fundo do poço. ...................................... 53 Tabela 19: Todos os Atributos. ................................................................................................ 53 Tabela 20: Impacto de atributos para MLP. ............................................................................. 54
XI
LISTA DE FIGURAS
Figura 1: Poço visto na sala de controle. .................................................................................. 12 Figura 2: Poço de petróleo, visto na figura 1. ........................................................................... 13 Figura 3: Vaso separador. ......................................................................................................... 14 Figura 4: Rede Neural Aplicada ao Separador Lógico Programável. ...................................... 17 Figura 5: Árvore de regressão. ................................................................................................. 25 Figura 6: MCP Modelo Clássico de Perceptron. ...................................................................... 27 Figura 7: Rede de Base Radial. ................................................................................................ 30 Figura 8: Arquivo ARFF. ......................................................................................................... 33 Figura 9: Esquemático do Poço. ............................................................................................... 35 Figura 10: Planilha de Teste do Poço LUC-38H. ..................................................................... 37 Figura 11: Planilhas de teste utilizadas. ................................................................................... 38 Figura 12: Planilha Gerada. ...................................................................................................... 38 Figura 13: Planilha da Pressão de Fundo. ................................................................................ 40
XII
LISTA DE ABREVIATURAS E SIGLAS
Sigla Significado ANP Agência Nacional de Petróleo VCP Variável de Cabeça de Poço ANP Agência Nacional de Petróleo PETROBRAS Petróleo Brasileiro S/A RBR Rede de Base Radial RNA Rede Neural Artificial CLP Controlador Lógico programável SPP Sistema Petrolífero de Produção ECOS Estação Central de Operação e Supervisão
12
1. Introdução
Historicamente, o petróleo no Brasil foi explorado pelo poder público, como um
monopólio. Em 1997, este monopólio foi quebrado com a criação da ANP (Agência Nacional
de Petróleo). Isto trouxe uma nova realidade para o mercado, transformando-o em um
mercado de alta competitividade. A Petrobras, empresa até então detentora do monopólio de
petróleo no Brasil em nome da união, deixou de ser uma mera abastecedora do mercado
interno para se tornar uma empresa de escopo internacional, visando lucro em suas atividades,
agora reguladas pela ANP.
Com o intuito de garantir os menores custos sem comprometer o coeficiente de
extração, as unidades de extração petróleo utilizam equipamentos para acompanhar
continuamente o seu processo de produção, através de uma central de operação pode-se
acompanhar todas as informações de produção do poço, conforme figura 1. Na figura 2
podemos observar as instalações físicas do poço, bem como os instrumentos que permitem tal
acompanhamento.
Figura 1: Poço visto na sala de controle.
13
Figura 2: Poço de petróleo visto na figura 1.
Exemplos de grandezas monitoradas neste acompanhamento são a pressão do fundo
do poço de petróleo e as vazões dos fluidos extraídos. O acompanhamento da pressão do
fundo do poço possibilita a tomada de medidas corretivas no tempo adequado, contribuindo
para um alto índice de recuperação de reservatórios. O acompanhamento da vazão de fluidos
permite apurar os impostos devidos, uma exigência da Agência Nacional de Petróleo.
Para monitorar estas grandezas são necessários equipamentos que, muitas vezes,
inviabilizam a planta em termos econômicos, dado o seu alto custo. Por exemplo, a pressão
no fundo é monitorada por um equipamento individual que chega a custar R$ 200.000,00
(duzentos mil reais). Já o acompanhamento das vazões de fluidos é realizado por um
equipamento compartilhado por vários poços cujo valor pode chegar a milhões de reais, esse
equipamento é o vaso separador, mostrado na figura 3. Em certas plantas de produção, tais
custos podem inviabilizar a exploração dos poços.
14
Figura 3: Vaso separador.
Uma alternativa para minimizar tais custos é inferir as grandezas de interesse com
base em outras grandezas já mensuradas nos poços e cujo processo de acompanhamento tem
custo menor ou não pode ser evitado, por questão de segurança. Por exemplo, na cabeça de
um poço de petróleo existem diversos instrumentos de medição que servem para manter a
segurança operacional. Tais instrumentos fornecem dados que, provavelmente, se
adequadamente processados poderiam ser usados para inferir outras grandezas de interesse de
um poço, tal como pressão de fundo e vazão de fluidos.
1.1. Especificação do Problema
A medição do fluxo multifásico1 on-line da produção de poços de petróleo é
fundamental para indústria, uma vez que possibilita a tomada de ações de forma pró-ativa e
atende a exigências da Agência Nacional de Petróleo. O alto custo dos equipamentos
utilizados para desempenhar essa função contribui para que novas abordagens sejam
consideradas para o problema.
Poços de produção de petróleo exigem uma moderna automação, tanto para garantir
a segurança ambiental como a industrial. Além disso, a automação dos poços possibilita o
acompanhamento do desempenho dos processos, garantindo sua máxima disponibilidade. 1 Fluxo de fluidos em diferentes estados da matéria.
15
A agência nacional de petróleo exige que em um período de 42 dias, todos os poços
devem ser testados pelo menos uma vez. Um teste de poço consiste em alinhar a produção
para um equipamento aferidor seja ele um vaso separador trifásico ou um tanque de aferição,
conforme a característica do campo. Um poço alinhado para teste escoa por uma tubulação
individual, portanto não sofrendo interferência de outros poços. Dependendo da localização, é
necessário um tempo de estabilização para que o regime de produção do poço fique dentro
dos padrões esperados.
Somente após a estabilização do poço, tem início o teste, que deve durar no mínimo
4 horas. A ANP exige que seja feito o acompanhamento dos valores de produção de maneira
horária, o que resulta em uma planilha de acompanhamento.
Da mesma forma a pressão de fundo do poço é de extrema importância para a
garantia da produção. Este é um dado estratégico para o processo de tomada de decisão, pois
afeta diretamente aspectos como o coeficiente de extração e a drenagem de um campo.
Dado o alto custo de mensurar essas características de interesse diretamente, torna-se
interessante verificar como diferentes grandezas físicas monitoradas rotineiramente poderiam
ser usadas para prever estas outras características de interesse. Para tanto, é necessário
analisar que tipos de processamento devem ser realizados nos dados e que técnicas de
previsão deveriam ser aplicadas.
1.2. Motivação e relevância do problema
Em um mercado competitivo e de alto valor é de extrema importância a redução de
custos e o acesso à informação mais correta para o processo decisório.
Neste trabalho propomos utilizar os recursos de maneira mais racional, uma vez que
o processo decisório e até mesmo os aspectos legais podem ser cumpridos através de dados já
disponíveis, não necessitando de novos investimentos.
O acompanhamento da produção em tempo real pode facilitar a tomada de decisão
referente a uma manutenção preventiva, evitando uma manutenção corretiva e
conseqüentemente uma perda de produção.
16
1.3. Objetivos
1.3.1. Objetivo Geral
Propor soluções alternativas de custo menos elevado para o problema de previsão de
proporções de gás, água e óleo no petróleo extraído, bem como a pressão no fundo do poço.
Para tanto, pretendemos determinar como explorar outras características físicas já aferidas nas
localidades onde se encontram os poços usando técnicas de mineração de dados, em
particular, baseadas em aprendizado de máquina.
1.3.2. Objetivos Específicos
• Determinar que grandezas explorar para fazer as previsões e qual o impacto de
cada uma delas;
• Determinar como tais grandezas podem ser exploradas, ou seja, que métodos
de aprendizado de máquina aplicar para este trabalho, comparando-os entre si;
• Avaliar os resultados obtidos, contrastando-os com outras abordagens
empregadas na literatura;
1.4. Trabalhos Relacionados
Trabalhos anteriores na literatura já sugeriram o uso de técnicas de aprendizado de
máquina para o problema da previsão da vazão de fluidos.
Em SILVA (2006), é apresentado um Separador Lógico Programável (SLP) baseado
em redes neurais. Este separador é capaz de predizer as vazões de fluidos, bem como detectar
quando certos instrumentos estão com problemas. Este sistema foi treinado com dados reais
de vários poços de petróleo coletados ao longo de três meses e avaliados com dados dos três
meses seguintes.
De acordo com SILVA (2006) os trabalhos dessa natureza devem estender o conceito
de Sistema Petrolífero de Produção (SPP) de Magoon e Dow, (1994). Portanto, essas técnicas
de acompanhamento de fluxo só são válidas para um mesmo conjunto de poços que fazem
17
parte de um mesmo SPP, uma vez que os poços de um mesmo SPP apresentam características
físico-químicas semelhantes entre si. Portanto para outro SPP, a rede necessita ser re-treinada.
Utilizando os testes periódicos de cada poço, foi possível estabelecer uma relação
entre as vazões das fases de água, óleo e gás, com as variáveis de cabeça de poço, através de
uma rede neural de duas camadas escondidas (cf. Capítulo 2, para detalhes), como a da Figura
4.
Figura 4: Rede Neural Aplicada ao Separador Lógico Programável.
A rede neural artificial (RNA) utilizada apresenta as características:
• Densamente conectada, com duas camadas escondidas de seis neurônios cada
uma e três neurônios na saída da rede;
• Funções de ativação baseada em sigmóide para todas as camadas, inclusive na
saída da rede;
• Bias na entrada da rede, e na saída de cada camada escondida.
• Taxa de aprendizado variável; e
• Algoritmo de retropropagação do erro no treinamento da rede, com definição de
parada de treinamento para valor menor que 10% do erro.
18
O trabalho inovou ao sugerir, realizar e aplicar o treinamento da RNA com padrões
obtidos com os valores de variáveis de cabeça do poço (VCP’s) e das vazões medidas nos
separadores durante os testes dos poços, garantindo, que o SLP acompanhe as vazões das
fases dos mesmos. Estes resultados foram comprovados nas aplicações realizadas em 33
poços diferentes. Em média, para os poços avaliados, o programa obteve uma taxa de erro da
ordem de 35%
Em SILVA (2008), os mesmos dados de treino e teste utilizados por SILVA (2006)
foram usados em uma variante do SLP, utilizando redes da base radial. Finalmente, em
CARMO (2008), outra variante foi estudada, baseada em lógica difusa. Os três trabalhos
apresentaram desempenhos similares, com menores tempos de treino para os dois últimos.
No trabalho de CARMO (2008), as características de interesse foram as vazões de
óleo, gás e água, porém houve mudanças nos dados de entrada, deixando de lado um dos
utilizados por SILVA (2006). A entrada de dados para o treinamento da rede foi através de
planilhas de teste, as mesmas enviadas como relatório à ANP. Nesta, constam todos os dados
de teste de um determinado poço com a diferença que é utilizada uma média aritmética dos
dados entre os tempos de inicio e fim do teste. Dessa maneira, uma planilha de teste gera
apenas um único vetor de entrada-saída.
Todos os trabalhos citados consideraram as proporções de fluidos como simples
séries temporais sem explorar outras grandezas físicas disponíveis que poderiam ter sido
usadas como evidências adicionais. Mais ainda, estes trabalhos não empregaram técnicas
consideradas hoje o estado-da-arte em aprendizado de máquina, como as máquinas de vetores
de suporte (WITTEN & FRANK, 2005) ou técnicas de natureza mais facilmente
compreensível por seres humanos, como previsão baseada em regras (WITTEN & FRANK,
2005). Além disso, até onde sabemos, nenhum trabalho na literatura abordou o problema da
previsão da pressão no fundo do poço a partir de grandezas medidas na superfície utilizando
aprendizado de máquina.
1.5. Metodologia
Este trabalho foi dividido em quatro etapas, sendo a primeira o levantamento de
dados, que foi realizado junto a Petrobras através da UN-AM (Unidade de Negócios da
19
Amazônia). Esse levantamento considerou o conhecimento existente de engenharia de poços,
elevação, escoamento além das propriedades físico-químicas do petróleo.
A segunda etapa envolveu o levantamento de trabalhos relacionados, que foram um
ponto de partida para o modelo que propomos aqui.
Após a segunda etapa, foi necessário normalizar os dados adquiridos, para que
pudéssemos usá-los em nossa modelagem.
Por último, conduzimos experimentos para determinar as técnicas e métricas de
avaliação mais adequadas ao nosso caso. Em nossa avaliação, confrontamos nossos resultados
com outros trabalhos da literatura.
Este trabalho será desenvolvido através de técnicas de pré e pós-processamento dos
dados e aplicação de técnicas de mineração de dados para a previsão das grandezas de
interesse. Em particular, estudaremos técnicas de previsão numérica baseadas em regressão
linear, regras, separação espacial e programação genética.
Para o estudo das técnicas e impacto das grandezas de interesse, procuraremos
utilizar uma ferramenta de mineração de dados que permita a fácil experimentação e
prototipação. Essa ferramenta é o software Weka (Waikato Environment for Knowledge
Analysis) da universidade de Wakatoo na Nova Zelândia (WITTEN & FRANK, 2005).
Os dados analisados serão dados reais oriundos da Província Petrolífera de Urucu, o
que nos permitirá realizar uma comparação direta com os resultados apresentados em
(SILVA, 2006) e (SILVA, 2008). Como nos trabalho anteriores na literatura e em estudos
preliminares, tais dados foram utilizados mediante autorização fornecida pela Petrobrás.
1.6. Estrutura do Trabalho
Este trabalho está dividido em cinco capítulos, dos quais este é a Introdução.
No segundo capítulo, são mostrados os conceitos básicos para entendimento do
problema, relacionado às técnicas de mineração de dados, métricas de avaliação, conceitos
utilizados nos trabalhos relacionados e a ferramenta utilizada para o estudo.
20
No terceiro capítulo, serão detalhados os problemas de medição das fases de fluidos
em poços de petróleo bem como a aferição da pressão estática e dinâmica de fundo do poço.
No quarto capítulo são mostrados os experimentos realizados, bem como a
comparação dos resultados obtidos com os resultados anteriores conseguidos através da
literatura, tudo isso baseado na metodologia de execução, aqui também apresentada.
Por fim o quinto capítulo traz as conclusões e sugestões para trabalhos futuros.
21
2. Conceitos Básicos
Este capítulo tem como objetivo apresentar alguns conceitos básicos importantes
para a compreensão deste trabalho.
2.1. Mineração de Dados
É o processo que realizamos em uma massa de dados para descobrir alguma
informação ou relação entre os dados de entrada. Em geral, esperamos que tal informação seja
implícita, útil e previamente desconhecida. Este processo se dá através de uma série de
técnicas. Tais técnicas são utilizadas principalmente em grandes volumes de dados, de
maneira que não seria possível fazer através de um operador humano.
Apesar de ser classificada comumente como uma sub-área da inteligência artificial,
para o estudo da mineração de dados é preciso uma gama muito maior de conhecimentos,
como a aplicação de regras estatísticas e a manipulação de banco de dados.
Segundo Witten & Frank (2005), a busca por informações deve ter como resultado
alguma vantagem, geralmente econômica, caso contrario não faz sentido essa busca.
Das técnicas normalmente empregadas em mineração de dados, usaremos algumas
baseadas em aprendizado de máquina aplicadas à tarefa de previsão numérica. O fato de
usarmos técnicas de aprendizado de máquina implica que usaremos massas de dados
relacionando os atributos a serem usados (atributos de previsão) com os atributos que
queremos prever (atributos de interesse) para aprender um modelo do relacionamento.
Aprendido o modelo, podemos aplicá-lo a um novo conjunto de atributos de previsão, para
então determinar os seus atributos de interesse. No caso da tarefa de previsão, o atributo de
interesse é um número real. Em nosso caso particular, um valor de vazão de fluido ou pressão.
Em particular, estudaremos técnicas de previsão numérica baseadas em funções,
regras e instâncias. Dada a sua simplicidade, o método de regressão linear será usado como
base para comparação entre os métodos automáticos. Tais técnicas serão apresentadas a
seguir.
22
2.2. Métodos de Previsão Numérica
2.2.1 Regressão Linear
É um método estatístico que busca encontrar a relação entre duas ou mais varáveis
sendo elas interdependentes, de forma a podermos pré-dizer a variável-alvo através da outras.
É um dos mais simples e é excelente para definir uma base para comparação entre
resultados de diferentes algoritmos.
Quando os dados de entrada e saída são numéricos é natural pensar em uma
regressão linear, um dos métodos mais básicos da estatística. Neste método, a relação entre os
atributos de previsão e o atributo de interesse é representado através de uma equação linear.
Ou seja, nesta equação, o atributo de interesse é dado como uma função direta do somatório
dos produtos dos atributos de previsão com os seus respectivos pesos. Assim, dados os
atributos de previsão x1, x2, ..., xn, o atributo de interesse y e o conjunto de pesos w1, w2, ..., wn,
o método de regressão busca encontrar a função w1 x1 + w2 x2 + ... + wn xn = y nos dados de
treino, tal que ela minimize o erro nos dados de teste. Para tanto, os pesos são calculados de
forma que a soma dos quadrados da diferença entre os valores calculados e o valor real seja
mínima. Isso é feito através da resolução de uma série de equações lineares nas variáveis
pesos (WITTEN & FRANK, 2005).
Caso a relação dos dados não seja linear o erro tende a ser maior.
2.2.2 Árvores de Decisão
Árvore, no sentido computacional, é uma estrutura de representação gráfica de
objetos (dados, condições, informações, etc). É formada por um conjunto de elementos
chamados nós, onde existe um nó especial, chamado raiz, esse nó é o principal da árvore.
23
Existem diversos algoritmos que são utilizados para previsão em árvores, cada um
deles se difere na metodologia empregada, porém, a maneira como as árvores são usadas é a
mesma para todos.
Um nó interno é sempre um teste sobre um conjunto de atributos e uma folha
representa sempre um valor para a variável dependente. Quando se está tentando estabelecer o
valor da variável dependente para um determinado caso, ele é primeiramente testado na raiz.
Este teste determina qual sub-árvore o nó deve seguir. Se esta sub-árvore possuir apenas um
nó, então este nó é uma folha, e será obtido o valor desejado. Se esta sub-árvore possuir mais
de um nó, então haverá uma raiz para a sub-árvore, que será um novo teste. Como a árvore é
um conjunto finito de nós, tem-se que este processo resulta em uma folha e, portanto, num
valor para a variável dependente. Dessa maneira, conforme você “caminha” pela árvore, você
diminui as opções de resposta, até que só reste uma.
Caso um atributo de uma instância tenha um valor nulo, o que impossibilitaria a
comparação, ele recebe o valor da moda das outras instâncias.
Essas árvores podem ser de vários tipos, porém, as mais comuns são as binárias. As
folhas de uma árvore de decisão apresentam valores ou uma estatística do conjunto de
variáveis que “caíram” naquele nó durante o treinamento. O algoritmo que utilizaremos é
chamado M5P e foi desenvolvido por Quinlan, Wang e Witten (WITTEN & FRANK, 2005),
onde cada nó folha apresenta uma regressão linear.
Inicialmente as árvores eram chamadas de árvores de modelos, uma vez que as
árvores representam modelos lineares por partes, ou seja, cada nó da árvore apresenta uma
equação linear (WITTEN & FRANK, 2005).
Para atribuir um valor a uma determinada folha é utilizado o método dos mínimos
quadrados.
A divisão de uma árvore de atributos numéricos é bem definida, uma vez que será
utilizada uma constante como limiar, ou seja, para um lado os registros que tem o atributo
teste menor que o limite e para o outro os registros que tem o atributo teste maior. A busca
pelo nível de divisão não é otimizada, uma vez que é necessário percorrer todo o conjunto de
dados para determinar o valor a ser usado.
24
Uma árvore que não tenha uma regra de divisão bem estabelecida pode ser muito
grande e complexa, podendo causar o overfitting, ou seja, muitos ajustes aos dados de
treinamento, prejudicando a generalização. Para evitar isso é utilizado o algoritmo de poda,
que reduz a árvore para aumentar a generalização.
A poda é dividida em duas partes, a primeira o modelo é testado para verificar se a
redução da quantidade de atributos usados pode ser reduzido de maneira a melhorar a função
de erro, após este teste ocorre realmente a poda, ou seja, nós internos passam a ser folhas.
Uma vez criada a árvore, as equações de regressão devem ser estimadas para cada
nó, isso é feito através do procedimento padrão de regressão (mínimos quadrados) e usando
somente os atributos da sub-arvore abaixo do nó em questão, por esse motivo as folhas não
apresentam modelos.
Para tratar os casos de descontinuidade, ou seja, valores iguais para todos os atributos
exceto um, o que faria uma previsão totalmente diferente para cada caso, são utilizados os
modelos lineares, chamado de técnica de suavização.
Essa técnica prevê a soma ponderada dos valores previsto por todos os modelos que
estão armazenados em cada nó no caminho da raiz até a folha, em que o caso alcança. Essa
soma é enviada para o nó pai da folha até a raiz.
O primeiro valor a ser calculado é na folha pelo modelo que está armazenado lá. O
valor previsto pelo nó S é calculado usando valor Si, previsto pelo seu filho, usando a equação
abaixo:
, (1)
onde PV é o valor previsto pelo nó, M é o valor de resposta estabelecido pelo modelo linear
do nó em questão, é o número de casos que caem no nó Si durante a fase de treinamento, e
k é uma constante de suavização, usualmente igual a 15.
25
Figura 5: Árvore de regressão.
Podemos utilizar a árvore da figura 5 como exemplo. Para prever o valor do caso que
tenha caído na folha F1, será aplicada uma ponderação dos valores obtidos nas três equações
de regressão localizadas nos nós A, B e F1. O valor calculado em F1 será passado para o nó
B, que utilizará a equação anterior para calcular o valor que deverá ser enviado ao nó A. O nó
A por sua vez utilizará a equação novamente para calcular o valor final.
O uso deste procedimento de suavização aumenta substancialmente a precisão da
previsão (WITTEN & FRANK, 2005).
O tamanho da árvore está relacionado diretamente ao tamanho da base de dados
disponível para treinamento.
Uma desvantagem dessa abordagem é o seu alto custo computacional, uma vez que
tem natureza recursiva e uma quantidade de cálculos bem superior aos demais.
2.2.3 Aprendizado Baseado em Instância
É um método de classificação de objetos baseado no exemplo mais próximo dos
dados fornecidos. É um tipo de aprendizado baseado em analogia, ou seja, não exige a criação
26
de um “conhecimento” de fato, apenas é necessário que se faça o armazenamento das
instâncias de treinamento para que possa ser feita uma busca.
Diferentes dos outros algoritmos, o conhecimento é representado pelos dados
armazenados, ou seja, não existe uma equação linear, uma árvore ou as conexões de uma rede
neural para representar esse conhecimento.
O método mais conhecido faz uma busca em seu espaço padrão por k casos que
sejam mais semelhantes para determinar o caso em questão. Essa semelhança é definida pela
distância entre os pontos do espaço padrão. Esse método é chamado de kNN, ou seja, número
k de vizinhos mais próximos.
Após armazenar as instâncias de treinamento é preciso uma métrica que possa
calcular similaridade entre as instâncias de treinamento e a desconhecida, para isso é utilizado
o cálculo da distância, que pode ser Euclidiana ou Manhattam.
Distância Euclidiana:
. (2)
Distância Manhattan:
. (3)
Em nosso trabalho utilizaremos o algoritmo kNN, que armazena as instâncias em
pontos representados no Rn e calcula a distância utilizando o forma euclidiana.
Quando um novo valor é apresentado ao algoritmo ele calcula sua distância e
compara com as instâncias que ele tem armazenado, caso seja um valor discreto, a resposta
será o valor que aparecer uma maior quantidade de vezes, agora se o valor for continuo a
resposta será a média das distâncias dos k vizinhos mais próximos, portanto a definição de um
k ótimo é de grande importância para o algoritmo, pois ele pode determinar ou não o sucesso.
Estas técnicas mostram-se muito rápidas na etapa de treinamento (que representa
apenas o armazenamento dos dados), mas consomem bastante tempo para obter a previsão de
um caso não rotulado. Normalmente, são requeridas técnicas de indexação eficientes para
agilizar esta consulta. Além disso, se a memória principal do computador não for suficiente
27
para o armazenamento dos dados de treinamento, o procedimento pode ficar muito mais
demorado. É também um dos algoritmos de aprendizado bastante simples e antigo, porém
apresenta um excelente desempenho na maioria dos problemas.
2.3. Redes Neurais
Modelo computacional inspirado nos neurônios biológicos e na capacidade do
cérebro de adquirir, armazenar e utilizar uma experiência passada.
As redes neurais artificiais foram desenvolvidas na década de 40 por Walter Pitts e
McCulloch, matemático e neurofisiologista respectivamente. Essa é umas das técnicas mais
antigas e mais usadas de IA (BRAGA et al. 2007).
Em 1957, Frank Rosenblat criou uma rede neural que foi batizada de “Perceptron”,
essa rede era inspirada na retina, para demonstrar como o sistema nervoso reconhece padrões.
Porém, o perceptron simples, como ficou conhecido, foi restrito a soluções de problemas
linearmente separáveis, ou seja, problemas que podem ser resolvidos dividindo as entradas em
dois espaços por meio de uma superfície linear (BRAGA, et al, 2007).
O Modelo Clássico de Perceptron, mostrado na figura 6, obtinha a sua saída y através
de uma função f(.) sobre a soma ponderada das entradas, assim como a função de regressão
linear discutida anteriormente.
Figura 6: MCP Modelo Clássico de Perceptron. Fonte: BRAGA et al. 2007
Portando:
28
, (4)
sendo, v a função de ativação, sendo o valor de entrada, , o peso sináptico da ligação i, e
f(.) é a função de transferência definida por:
. (5)
As primeiras aplicações práticas de redes neurais se deram em 1960, com Widrow e
Hoff, que desenvolveram redes do tipo ADALINE e MADALINE (Multiple ADAptive
LINear Elements), que utilizaram para reduzir o ruído em chamadas telefônicas. Produziram
também uma nova regra de aprendizado chamada “Widrow-Hoff learning rule”, que
minimizava os somatórios dos quadrados dos erros durante o treinamento (BRAGA, et al,
2007).
Com a publicação do trabalho de Minsky e Symor em 1969, a abordagem
conexionista ficou adormecida até a publicação do artigo de Jonh Hopfield, em 1982,
chamado “Neural networks and physical system with emergent collective properties”
mostrando a relação entre redes recorrentes auto-associativas e sistemas físicos, trouxe um
novo ânimo às pesquisas na área. Mas foi em 1986 com o trabalho “Learning representations
by back-propagating errors”, que Rumelhart, Hinton e Williams demonstraram o quanto
Minsky e Symor haviam sido pessimistas, uma vez que, puderam mostrar que um perceptron
de múltiplas camadas era capaz de resolver “problemas difíceis de aprender” (RUSSELL,
2006)
Um dos benefícios das redes neurais, diz respeito ao tratamento de um problema
clássico da I.A. que é a representação de um universo não-estacionário (onde as estatísticas
mudam com o tempo). Uma rede pode ser projetada para modificar seus pesos sinápticos em
tempo real (LUDWIG & MONTGOMERY, 2007).
A desvantagem de uma rede neural é que não é possível saber de forma clara como
ela chegou a um determinado resultados, ou saber exatamente qual a contribuição de cada
peso para um resultado.
Com as limitações do Perceptron foi necessário avançar os estudos em novas
arquiteturas de redes neurais que pudessem resolver problemas mais complexos, foi inserção
29
de uma camada interna na rede perceptron, essa abordagem foi conhecida como Multilayer
Perceptron (MLP).
O MLP é uma rede com camada sensorial ou camada de entrada, que possui tantos
nós de entrada quanto forem os sinais de entrada, uma ou mais camadas ocultas de neurônios
e uma camada de saída com um número de neurônios igual ao número de sinais de saída
(LUDWIG & MONTGOMERY, 2007).
As MLP’s normalmente utilizam a retropropagação (backpropagation) de erro para
treinamento. Esse algoritmo de treinamento opera em duas etapas. Na primeira, um padrão é
enviado à camada de entrada da rede e propagado por toda a rede até à camada de saída. Na
segunda etapa, a saída obtida é comparada ao resultado desejado, o erro é calculado e
propagado de volta da camada de saída até a camada de entrada, onde os pesos das conexões
serão modificados a fim de minimizar esse erro.
Uma das características mais importantes das redes neurais artificiais é a capacidade
de aprendizado, que diferente da abordagem simbólica, não se baseia em regras explícitas e
sim através dos ajustes dos pesos de suas conexões.
2.4. Rede de Base Radial
Em geral, as redes MLP (Multi Layer Perceptron) têm funções de ativação de base
sigmoidais. Ao contrário, as redes de base radial usam funções de base radial (RBF, do inglês
Radial Base Function) às funções radiais são um tipo que aumentam ou diminuem em relação
à distância de um ponto central, existem diversas funções de base radial, porém as mais
comuns são:
• Função gaussiana: ; (6)
• Função multiquadrática: ; (7)
• Função thin-plate-spline: ; (8)
Onde, , que é dado geralmente pela distância euclidiana, μ é o centro da
função radial e σ a largura da função radial (raio).
A distância euclidiana serve de entrada para a função, que retorna o valor de
ativação da unidade intermediária. A resposta gerada pelo neurônio de saída é definida por:
30
, (9)
Onde representa o termo de polarização.
Segundo Haykin (2001), a construção de uma rede de função de base radial, em sua
forma mais básica, envolve três camadas com papéis totalmente diferentes. A camada de
entrada é constituída por nós de fonte (unidade sensorial). A segunda camada, a única oculta
da rede, aplica uma transformação não-linear do espaço de entrada para o espaço oculto, e a
camada de saída que é linear, fornece a resposta da rede. Essa arquitetura pode ser observada
na figura 7.
Figura 7: Rede de Base Radial.
As redes RBF e MLP são bastante semelhantes, já que tratam de aproximadoras
universais de funções. Porém existem várias diferenças, entre as quais, a mais importante é na
partição do espaço de dados de entrada realizado pela camada oculta de cada modelo.
A tabela 1 mostra um comparativo entre as redes neurais e as redes de base radial.
31
Tabela 1: Comparativo MLP Vs RBF.
MLP RBF
Pode ter uma ou mais camadas intermediárias Geralmente apenas uma cada intermediária
Os neurônios das camadas intermediários e de saída têm funções semelhantes
Os neurônios da camada intermediária e de saída tem funções diferentes
Entrada da função de ativação é o produto interno dos vetores de entrada e de pesos
Entrada da função de ativação é a distância euclidiana entre os vetores de entrada e de pesos
Separa dados de entrada em hiperplanos Separa dados de entrada em hiperelipsóides
Melhor em problemas complexos Melhor em problemas bem-definidos
Constrói aproximadores globais para mapeamentos entrada-saída
Constrói aproximadores globais para mapeamentos entrada-saída
Lenta em relação à RBF Rápida em relação à MLP
Fonte: (Haykin, 2007)
2.5. Avaliação de Resultados
Para comparar as diversas técnicas utilizaremos a raiz do erro quadrático relativo
(RRSE, root relative square erro), que é uma das medidas utilizadas para estimar a qualidade
de um algoritmo de previsão, comumente adotado em Estatística (WITTEN & FRANK,
2005). Esta é uma métrica de uma família que mede erro como a distância entre a função alvo
e a função sugerida para aproxima a função alvo. Ela nos dá uma idéia de quanto o previsto se
afastou do real.
Para calcularmos o RRSE, utilizando a Equação:
, (10)
onde, é o número de amostras, xi é o valor fornecido pelo classificador para a i-ésima
amostra, é a média dos valores de todas as amostras e é o valor correto para a amostra em
questão.
32
2.6. Software Weka
Este software foi desenvolvido na Universidade de Waikato, na Nova Zelândia e teve
sua primeira versão em 1997, tendo como foco o estudo da mineração de dados. Foi
desenvolvido usando código livre e utilizando como linguagem o Java, dessa maneira poderia
ser utilizado nos mais diversos sistemas operacionais. (WITTEN & FRANK, 2005)
O software pode ser conseguido no endereço http://www.cs.waikato.ac.nz/ml/weka.
WEKA significa Waikato Environment for Knowledge Analysis e também é o nome
de uma ave que só existe na Nova Zelândia. Para este trabalho, utilizamos a versão 3.4.13 de
2008, rodando sob o Java versão 6.
Ele é um agrupamento de diversas técnicas e algoritmos de mineração de dados.
Possui tanto uma interface gráfica para utilização direta desses algoritmos, bem como uma
API para a criação de outros softwares.
Para a utilização desse software é necessário que os dados estejam em um formato
conhecido por ele, já que ele trabalha basicamente com CSV (Common Separed Values) e
ARFF (Attibute-Relation File Format). O CSV é um arquivo texto onde cada linha representa
uma instância de dados, sendo cada dado separado por vírgula.
O arquivo ARFF, como mostrado na figura 8, é na verdade um CSV também, porém
existem algumas formalidades nele. Sendo dividido em três partes distintas.
33
Figura 8: Arquivo ARFF.
A primeira é o nome da relação, que é definida pelo marcador @RELATION.
A segunda parte faz a descrição dos dados de entrada, nomeando-os e atribuindo a
eles um tipo de dado, esse relacionamento é feito através do marcador @ATTRIBUTE.
E por fim, na terceira parte estão os dados propriamente ditos, sendo eles separados
por vírgula. Essa é maior parte do arquivo. Ela não exige que cada instância seja marcada
individualmente, requerendo apenas um marcador para definir o ponto de início dos dados.
34
3. Modelagem do Problema
Neste capítulo, apresentamos os modelos de aprendizado propostos para os
problemas de previsão das proporções de fluído no petróleo extraído e pressão no fundo do
poço. Cada problema de previsão é tratado como um problema diferente, o que resultou em
dois modelos distintos.
3.1. Proporções de Fluídos no Petróleo Extraído
Aqui apresentaremos o modelo proposto para o problema das proporções de fluídos
na produção de petróleo.
3.1.1 Modelo Proposto
Dentre as várias grandezas medidas na superfície de um poço, observamos que a
temperatura e a pressão do recurso natural extraído são diferentes de acordo com os fluidos
que o constituem, quais sejam, o petróleo, a água e o gás. Assim, para este modelo,
descreveremos cada proporção de fluido extraída através de diferentes mensurações de
temperatura e pressão tomadas em diferentes pontos do processo de extração. Em particular,
utilizaremos as sete variáveis disponíveis na cabeça do poço (VCP) para descrever cada
proporção de fluido, sendo elas: Pressão na Cabeça, Pressão na linha de surgência,
Temperatura na Cabeça, Temperatura na Linha de surgência, Temperatura no Choke, HW
montante, HW jusante. Como dissemos anteriormente essas variáveis já são utilizadas para o
controle e segurança industrial, através do sistema de automação existente em cada poço.
A figura 9 representa, de forma simplificada, um poço que mostra onde cada variável
é medida.
35
Figura 9: Esquemático do Poço.
A pressão de cabeça corresponde à pressão medida na parte superior do poço. É a
pressão com que os fluídos chegam à superfície. Da mesma forma, a temperatura de cabeça é
localizada na superfície em uma posição adequada para o instrumento de medição.
As grandezas HWM e HWJ são medidas através do diferencial de pressão gerado
quando o fluido passa por uma placa de orifício2 A parte anterior, na direção do fluxo é
chamada de “tomada de alta pressão” enquanto a parte posterior da placa é a “tomada de
baixa pressão”. A diferença de pressão gerada é diretamente proporcional à raiz quadrada da
vazão. Porém, essa relação só é válida para fluxos monofásicos.
A diferença de pressão é muito pequena. Por isso é medida em polegadas de água. A
letra “M” refere-se à Montante, ou seja, antes da válvula choke; e a letra “J” à jusante, ou seja,
depois da válvula choke. A válvula choke, por sua vez, é o instrumento de controle que
permite variar a vazão do poço.
2 Placa de metal com um orifício, usada para gerar um diferencial de pressão e auxiliar na medição de vazão.
36
Para medir a pressão na linha de surgência aproveitamos o ponto de medição de alta
pressão do HWJ e, logo em seguida na linha, temos a medição de temperatura da linha de
surgência. A linha de surgência é a tubulação que transporta os fluidos seja para um separador
de teste ou de produção, para que a partir dele, cada fluido deva receber o tratamento
adequado.
Ao gerarmos um diferencial de pressão no fluxo, cada fluido reage de uma maneira
particular. Por isso, utilizamos estes instrumentos, de maneira a tentar mensurar essa
perturbação e, a partir dela, inferir as vazões.
As variáveis de interesse neste problema são três: a vazão de óleo (Qóleo), a vazão
de gás (Qgás) e a vazão de água (Qágua). Esses dados foram obtidos através de um vaso
separador durante um teste de produção de poço, sendo armazenado em um banco de dados
apropriado.
Somente após os dados terem sido devidamente normalizados poderemos construir o
arquivo a ser utilizado no Weka.
Resumidamente, nós modelamos o problema de previsão de vazão de fluídos como
um problema de regressão. Neste problema, as instâncias correspondem a vazões de fluidos.
Os atributos de interesse são as proporções de água, óleo e gás. Cada instância é representada
pelos valores medidos das variáveis pressão na cabeça, pressão na linha de surgência,
temperatura na cabeça, temperatura na linha de surgência, temperatura no Choke, HW
montante e HW jusante.
3.1.2 Obtenção dos Dados para Criação de Coleções de Teste e Treino
Os testes de produção realizados são acompanhados através de uma planilha, como a
mostrada na Figura 10.
37
Figura 10: Planilha de Teste do Poço LUC-38H.
Dada a natureza sigilosa das informações contidas nestas planilhas, os dados aqui
usados foram obtidos mediante autorização da Petrobras.
Foram utilizados os dados de teste do poço RUC-16, dos anos 2007 e 2008
totalizando 31 testes, como mostrado na figura 11. Diferente de outros trabalhos na literatura,
procuramos os dados de apenas um poço que detêm as características da maioria dos poços da
província petrolífera de Urucu. Esse poço é de surgência natural, o que significa que não
existe a interferência do método de elevação. Sua localização próxima ao pólo Arara3 e sua
linha exclusiva de produção proporcionam um poço constantemente estabilizado4 e com
vários equipamentos de testes à disposição. Por fim, é um poço que também produz água.
Dessa maneira garantimos uma boa generalização do problema.
3 Nome da base de operações da Petrobras, localizada em Urucu. 4 Poço em linha exclusiva e que não sofre perturbações externas.
38
Figura 11: Planilhas de teste utilizadas.
Ao contrário de trabalhos anteriores, não utilizamos os dados brutos fornecidos
diretamente pelos equipamentos de amostragem. Utilizamos dados oriundos dos sistemas de
automatização do processo de extração, que corresponde a informações do processo industrial
tomadas a cada 15 segundos. Como resultado do processamento destas informações,
montamos tabelas de dados como a da Figura 12.
Figura 12: Planilha Gerada.
Estes dados passaram por um processamento adicional para a eliminação de ruídos
(outliers). Este processamento consistiu em reduzir as amostras para entradas de cinco
39
minutos de intervalo que consistiam de médias dos cinco minutos anteriores. Em trabalhos
anteriores, o conjunto de dados de cada planilha foi reduzido a um único valor. Desta forma,
trabalhamos com uma base muito mais detalhada que em trabalhos anteriores, o que nos
permite previsões de curtíssimo prazo.
Por conveniência de apresentação, os dados foram normalizados para unidades do
sistema internacional, já que os atributos de previsão HW montante e HW jusante são dados
originalmente em polegadas d’água.
3.2. Pressão no fundo do Poço
Aqui será apresentado o modelo proposto para o problema da pressão no fundo do
poço.
3.2.1 Modelo Proposto
Existem duas maneiras de fazer o acompanhamento da pressão no fundo do poço. A
primeira e mais antiga é chamada de técnica de wireline, onde um instrumento especial é
inserido no interior do poço e baixado através de um cabo de aço até a posição de medição.
Essa técnica exige que o poço seja fechado para a inserção dessa ferramenta e ainda apresenta
um alto risco. São feitas duas medições: a pressão estática, que é a pressão no fundo do poço
quando ele está sem produzir; e a pressão dinâmica, que é a pressão no fundo do poço durante
a produção normal.
A segunda técnica é a utilização de um instrumento fixo instalado no poço durante a
sua perfuração. Esse instrumento, chamado PDG (pressure downhole gauge), tem um alto
valor. Caso o poço a ser medido não tenha o equipamento, é necessário a utilização de uma
sonda de perfuração para instalá-lo, elevando ainda mais o seu custo, sem contar com a perda
de produção durante essa instalação.
Novamente, para este problema, acreditamos que a pressão e a temperatura medidas
na superfície podem variar de acordo com variações de pressão ocorridas no fundo do poço.
40
Assim, definimos a pressão no fundo do poço em função de leituras de temperatura e pressão
tomadas na superfície. Em particular, usamos como atributos de previsão a Pressão na cabeça,
a Temperatura na cabeça, o HW montante, o HW Jusante e a pressão na linha de surgência.
O atributo alvo é apenas a pressão no fundo do poço. Note que para este problema,
não há nenhum outro trabalho semelhante na literatura. Assim, serão usadas para comparação
apenas os métodos automáticos de regressão descritos no capítulo 2.
3.2.2 Obtenção dos Dados para Criação de Coleções de Teste e Treino
Como o acompanhamento da pressão de fundo de poço não é obrigatório por nenhum
aspecto legal, apenas técnico, não existe uma planinha ou meio formal para isso. As
informações são armazenadas em um banco de dados específico da arquitetura do sistema de
automação da Petrobras.
Seguindo o exemplo do problema anterior, os dados foram normalizados através de
uma média dos últimos 5 minutos.
O poço utilizado para este problema foi o RUC-48, pois este é um poço novo e conta
com o PDG instalado. Os dados utilizados são de Janeiro de 2008 até Agosto de 2008. Como
essa informação é continuamente monitorada, esse tempo é suficiente para gerar uma massa
de dados bastante significativa.
Construímos uma planilha conforme a figura 13. Nessa planilha, os dados estão
ordenados e normalizados para que possamos gerar o arquivo ARFF, totalizando 61336
instâncias.
Figura 13: Planilha da Pressão de Fundo.
41
Por conveniência, os dados também foram alterados para unidades do sistema
internacional.
42
4. Experimentos
Neste capítulo será apresentado o conjunto de experimentos que conduzimos para
avaliar os modelos propostos, bem como a metodologia experimental empregada.
4.1 Metodologia
O desempenho dos algoritmos é medido usando a métrica raiz do erro quadrático
relativo (ver seção 2.8). Em todos os casos, os resultados foram obtidos a partir de validações
cruzadas de dez partições, conforme descrito nos parágrafos a seguir, para garantir a máxima
confiabilidade dos resultados (WITTEN & FRANK, 2005).
A validação cruzada de dez partições consiste em dividir os dados em 10 conjuntos
sendo que todos eles serão utilizados para treinamento e teste alternadamente.
Essa divisão em partições é feita de maneira aleatória, mas de maneira que possa
representar a dispersão real de todo o conjunto.
Das dez partições, uma é utilizada como conjunto de teste enquanto as nove restantes
são usadas como conjunto de treino. Após o treinamento, o erro é calculado baseado na
partição de teste. Esta passa a ser uma partição de treino em substituição a uma das partições
de treino ainda não usadas como teste. Isso ocorre com todas as partições alternadamente,
perfazendo dez etapas. Ao final, a taxa de erro global é a média da taxa de erro de cada etapa.
Não existe um consenso sobre quantas partições devem haver em uma validação
cruzada, mas a utilização de dez tem se mostrado confiável e tem sido usada como padrão
(WITTEN & FRANK, 2005).
43
4.2 Estudos de atributos e métodos
4.2.1 Proporções de Fluídos no Petróleo Extraído
4.2.1.1. Numero K de vizinhos
No algoritmo kNN, ao contrário do M5P e da regressão linear, é necessário
determinar o numero de vizinhos (k) ótimo. Para isso, realizamos uma série de experimentos
usando como valor de k, inicialmente, 1, 5, 10, 20, 30, 40 e 50. A Tabela 2 apresenta os
resultados obtidos. Os espaços marcados com traço significa que este valor não foi tentado
para o determinar o k do fluido em questão.
Tabela 2: Escolha do k.
K RRSE [%]
Qóleo Qgás Qágua
1 18,9613 14,1912 61,8858 5 14,7907 10,875 47,3677 10 14,2675 10,3916 46,1473 20 13,8935 10,1471 44,1639 30 13,8234 10,0287 43,8091 40 13,8173 9,9896 43,4592 50 13,8246 9,9682 43,1222 34 13,7967 - - 35 13,7931 - - 37 13,7909 - - 38 13,8063 - - 60 - 9,9732 42,9916 55 - 9,9748 - 53 - 9,9695 - 52 - 9,9684 - 51 - 9,9692 - 49 - 9,9668 - 45 - 9,9713 - 47 - 9,9697 - 48 - 9,9637 - 70 - - 43,0226 65 - - 42,9638 63 - - 42,9911
44
Observando os dados da Tabela 2, podemos notar que para diferentes fluídos,
diferentes valores de k levaram aos melhores resultados. Assim, para determinar a vazão de
óleo o melhor valor de k foi 37. No caso do gás, o melhor k foi 48. Finalmente, no caso da
água, o melhor valor foi 65. Todos os resultados relatados, daqui em diante, envolvendo o
kNN utilizarão estes valores de k. Note que, para estes experimentos, usamos todos os
atributos de previsão. O ideal teria sido fazer este estudo para cada conjunto possível de
atributos. Entretanto, dado o número de combinações possíveis, isso não seria viável. Assim,
usaremos os valores de k obtidos aqui em todas as combinações de atributos estudadas a
seguir.
4.2.1.2 Impacto dos atributos
Foi realizado um estudo sobre o impacto de cada variável de cabeça de poço. Dessa
forma, esperamos determinar quais variáveis são mais úteis para a previsão das proporções de
fluidos. Dado que o alto número de combinações possíveis de atributos inviabilizaria este
estudo, decidimos reportar o impacto de cada atributo individualmente, fazendo o
comparativo entre a previsão com todos os atributos e a previsão sem o atributo estudado.
Assim, nos dados reportados nas Tabelas 3 a 5, teremos duas colunas para cada fluido. A
primeira coluna (Sem) será o valor previsto por todas as variáveis com exceção da estudada, e
a segunda coluna (Com) será o valor da previsão feita exclusivamente pela variável em
questão. Ao lado de cada fluido, entre parênteses, temos o valor do erro obtido se
considerarmos o uso de todos os atributos. Assim, por exemplo, na Tabela 3, o erro obtido
pela regressão linear para a vazão de óleo corresponde a 55,05%. Na mesma tabela,
observamos que o erro obtido ao usar todos os atributos, exceto o HWM é 38,06%. Nas
tabelas os atributos marcados em negrito são os de maior contribuição para previsão.
45
Tabela 3: Impacto de atributos Regressão Linear.
Óleo (55,05%) Gás (21,08%) Água (57,79%) Variável Sem (%) Com (%) Sem (%) Com (%) Sem (%) Com (%)
Pressão da cabeça 57,59 93,59 21,32 70,61 57,712 79,70
Pressão da surgência 42,48 98,85 49,28 29,09 69,79 79,70
HWM 38,06 93,07 21,15 81,63 57,74 97,53
HWJ 75,19 62,46 24,56 96,19 69,48 97,90 Temperatura da cabeça 53,50 97,35 21,30 98,66 57,76 96,52
Temperatura da surgência 55,05 83,38 21,17 99,20 57,79 98,93
Temperatura do choke 55,05 85,85 21,19 98,83 57,79 99,35
Diferentes atributos têm impactos diferentes sobre cada uma das variáveis. Podemos
observar que para a vazão de óleo, o HWJ contribui fortemente, uma vez que a ausência desse
atributo elevou o erro da previsão em quase 20%. Observamos também que o HWJ sozinho é
capaz de fazer a previsão com a menor taxa de erro dentre as variáveis estudadas
isoladamente.
Usando o mesmo princípio de análise, podemos notar que a Pressão da surgência e
HWM são os que menos contribuem para uma boa previsão. De fato, eles podem contribuir
para resultados piores. A previsão feita com a retirada individual dessas variáveis é melhor
que a previsão feita com todos os atributos.
Fizemos um teste para verificar se a previsão poderia ser melhorada com a retirada
dos dois atributos ao mesmo tempo, porém o erro obtido foi de 46,92%, ou seja, apesar de
menor que a previsão com todas as variáveis, é pior que a previsão feita com a exclusão
somente do HWM.
Para as vazões de gás e água não temos impactos negativos importantes, ou seja,
nenhuma previsão com a retirada de atributos representou ganhos significativos. Entretanto,
em ambos os casos, a pressão de surgência é o fator determinante para uma previsão correta,
uma vez que sua ausência adiciona um erro de 28,20% e 12% respectivamente. De fato, ao
representarmos a vazão de água apenas com a pressão de surgência e o HWJ, obtivemos um
erro de menos de 22%, bem abaixo dos quase 58% obtidos com todos os atributos.
46
Em suma, como apresentado na tabela 4, para a regressão linear, estes experimentos
sugerem que a melhor representação da vazão de óleo é através de todos os atributos com
exceção do HWM. Para a vazão de gás, todos os atributos são úteis. Finalmente, para a vazão
de água, a melhor representação deveria envolver apenas a pressão de surgência e o HWJ.
Tabela 4: Análise da melhor combinação, Regressão linear.
Melhor Combinação Todos os Atributos
Vazão de óleo 38,06 % 55,05 %
Vazão de água 21,70% 57,79%
Portanto, sempre que mencionarmos as vazões previstas pela regressão linear, serão
referenciados pela combinação de fatores acima.
Tabela 5: Impacto de atributos M5P.
Óleo (13,77%) Gás (9,98%) Água (43,79%) Variável Sem (%) Com (%) Sem (%) Com (%) Sem (%) Com (%)
Pressão da cabeça 13,85 24,56 12,40 13,05 43,93 57,95
Pressão da surgência 13,77 38,71 9,99 20,86 43,84 57,95
HWM 13,77 13,90 9,98 10,54 43,47 43,17
HWJ 14,17 16,50 9,99 10,58 43,84 44,21 Temperatura da cabeça 13,93 57,42 10,01 41,41 43,33 54,19
Temperatura da surgência 13,78 23,47 9,98 50,49 43,81 51,06
Temperatura do choke 13,81 26,00 9,96 28,48 43,57 58,30
O estudo de impacto das variáveis para o algoritmo M5P (tabela 6) mostra que
combinações simples de atributos não apresentaram ganhos significativos sobre o uso de
todos os atributos. Ainda assim, se considerarmos os ganhos mínimos, temos que para o M5P,
a melhor representação da vazão de óleo é através de todas as variáveis, exceto a pressão
47
surgência. Para a vazão de gás, todos os atributos são úteis, exceto temperatura de surgência e
choke. Finalmente, para a vazão de água, a melhor representação deveria excluir o HWM, a
temperatura na cabeça e de choke. Com estas combinações, obtivemos os resultados da tabela
6.
Tabela 6: Análise da melhor combinação, M5P.
Melhor Combinação Todos os Atributos
Vazão de óleo 13,77 13,77
Vazão de Gás 9,96 9,98
Vazão de água 43,32 43,79
Como esperado, no caso do algoritmo M5P, a eliminação de certos atributos não
contribui para ganhos significativos. Entretanto, a diminuição dos dados de entradas contribui
para um menor custo computacional, o que é vantajoso. Portanto, sempre que mencionarmos
as vazões previstas pela M5P, iremos usar as combinações de atributos descritas
anteriormente.
Tabela 7: Impacto de atributos kNN.
Óleo (13,79 %) Gás (9,96%) Água (42,96%) Variável Sem (%) Com (%) Sem (%) Com (%) Sem (%) Com (%)
Pressão da cabeça 13,78 26,70 9,97 14,32 43,00 56,99
Pressão da surgência 13,71 38,84 9,93 20,76 43,56 56,99
HWM 14,13 13,71 10,10 10,51 43,03 42,95
HWJ 13,86 16,41 10,01 10,21 43,10 43,97 Temperatura da cabeça 13,79 59,05 9,97 41,58 42,98 54,18
Temperatura da surgência 13,80 23,53 9,96 28,72 43,18 50,94
Temperatura do choke 13,78 25,77 9,97 50,28 43,13 57,73
48
A tabela 7 mostra como o kNN utilizou bem todos os atributos, uma vez que
nenhuma variável contribui de forma definitiva para o aumento do erro. Novamente, se
considerarmos os ganhos, mesmo que reduzidos, podemos verificar que a vazão de óleo pode
ser melhor prevista por todas as variáveis, com exceção da pressão de cabeça, pressão de
surgência e temperatura do choke. Da mesma forma a vazão de gás pode ser mais bem
prevista por todas as variáveis com exceção da pressão de surgência. Já a vazão de água não
apresenta melhor combinação uma vez que a retirada de nenhuma variável resultou em
melhora da previsão. A tabela 8 apresenta os resultados da melhor combinação de atributos
Tabela 8: Análise da melhor combinação, kNN.
Melhor Combinação Todos os Atributos
Vazão de óleo 13,60% 13,79%
Vazão de Gás 9,93% 9,96
Mais uma vez, embora os ganhos sejam pequenos podemos observar que a correta
seleção dos atributos para previsão pode impactar no desempenho do algoritmo.
4.2.2 Pressão de fundo
4.2.2.1 Numero k de vizinhos
A exemplo do problema anterior e devido as características do algoritmo kNN é
necessário determinar um k ótimo.
O estudo do k foi realizado com a base de dados completa e os valores de k
estudados inicialmente foram 1, 5, 10, 20, 30, 40, 50.
49
Tabela 9: Escolha do k ótimo para pressão de fundo.
k RRSE
1 4,5909
5 4,5838
10 4,9360
4 4,5283
3 4,4978
2 4,4661
Após as primeiras iterações do algoritmo, verificamos que não seria necessário
realizar todos os testes que pretendíamos, uma vez que atingimos um k “ótimo” logo no início
do estudo.
Dessa maneira, o k para o problema de pressão no fundo do poço é 2 e sempre que
for mencionado o algoritmo kNN para este problema o k utilizado será este.
4.2.2.2 Impacto de atributos
Podemos aplicar a mesma técnica para o estudo de impacto das variáveis feito no
estudo do problema anterior. O impacto de uma variável sob o resultado esperado foi
analisado fazendo a comparação do erro obtido da previsão excluindo a variável estuda com a
previsão realizada com todos os atributos, utilizamos também a previsão realizada
exclusivamente pelo atributo estudo, como forma de determinar a contribuição individual.
Assim, nos dados reportados nas Tabelas 10 a 14, quanto maior o valor na primeira
coluna (Sem) maior a contribuição para a previsão. Assim como, quanto menor o valor na
segunda coluna, menor a sua contribuição. Tabela 10: Estudo de impacto para regressão linear.
Variável Sem (%) Com (%) Total (%)
Pressão Cabeça 32,53 18,51
32,47
Pressão Surgência 32,48 95,33
HWM 13,90 40,14
HWJ 33,37 38,27
Temp. Cabeça 38,20 34,74
50
O estudo de impacto para a regressão linear trouxe uma surpresa. Todas as variáveis
se comportam de maneira bastante similar, porém o HWM se mostrou bastante sensível, pois
com a retirada dele da previsão podemos diminuir o erro em 18,5%. A melhor representação,
neste caso, deveria evitar o HWM, como na representação da tabela 11.
Tabela 11: Análise da melhor combinação, Regressão Linear.
Melhor Combinação Todos os Atributos
Pressão no fundo 13,90% 32,47%
Com essa combinação conseguimos reduzir o erro em mais da metade, o que
corresponde a um ganho significativo. Dessa forma, sempre que nos referenciarmos a
previsão da pressão de fundo com a regressão linear, essa combinação será usada.
Tabela 12: Estudo de impacto para M5P.
Variável Sem (%) Com (%) Total (%)
Pressão Cabeça 4,22 9,12
3,74
Pressão Surgência 3,82 25,71
HWM 6,41 5,65
HWJ 3,84 11,07
Temp. Cabeça 4,13 12,68
Para o algoritmo M5P o HWM também se mostra importante. As outras variáveis
pouco influenciam, isoladamente, no resultado final. De qualquer modo, o experimento sugere
que para o M5P, todas as variáveis são úteis.
Tabela 13: Estudo de impacto para kNN.
Variável Sem (%) Com (%) Total (%)
Pressão Cabeça 5,02 9,64
4,46
Pressão Surgência 4,18 28,09
HWM 7,03 5,70
HWJ 4,56 12,03
Temp. Cabeça 5,03 13,75
51
Como para o M5P, o kNN também mostrou-se bastante estável, sofrendo influências
significativas somente do HWM. A melhor representação parece ser com todas as variáveis,
exceto a pressão de surgência. Com isso temos a tabela 14.
Tabela 14: Comparativo melhor combinação de atributos.
Melhor Combinação Todos os Atributos
Pressão no fundo 4,18 4,46
Com esse estudo pudemos perceber que o HWM tem um peso considerável em todos
os algoritmos, podendo inclusive ser um impacto negativo como no caso da regressão linear.
O estudo mostrou que nem todas as variáveis têm o mesmo peso. Portanto, a escolha da
melhor combinação deve ser feita com cuidado e critério, um vez que ela pode impactar na
qualidade da regressão obtida.
4.3 Comparação dos métodos
Agora apresentaremos os resultados obtidos ao compararmos os algoritmos testados.
4.3.1 Proporção de Fluídos no petróleo extraído
Nas tabelas 15 a 17 faremos um comparativo entre os algoritmos de previsão que
utilizamos. Em todos estes experimentos, usamos a melhor combinação de atributos obtida
com o estudo de impacto das variáveis.
Tabela 15: Comparação de métodos para previsão da vazão de óleo.
Óleo RRSE [%]
Todos Atributos Melhor Comb. atributos kNN, k=37 13,79 13,60 M5P 13,77 13,77 Regressão Linear 55,05 38,06
Analisando os dados dos algoritmos para previsão de vazão de óleo podemos
perceber que o menor erro é do M5P. Ao considerarmos a combinação dos melhores
52
atributos, o erro diminui um pouco. Porém, devido ao alto custo computacional do M5P, o
melhor algoritmo para essa tarefa é o kNN.
Tabela 16: Comparação de métodos para previsão da vazão de gás.
Gás RRSE [%]
Todos Atributos Melhor Comb. atributos kNN, k=48 9,96 9,93 M5P 9,98 9,96 Regressão Linear 21,08 -
O erro obtido na previsão de vazão de gás pode ser reduzido com a combinação dos
melhores atributos. A exceção fica para o algoritmo regressão linear que neste caso não
possuía nenhum atributo candidato à retirada, sendo assim, não apresenta uma melhor
combinação de atributos. Dessa maneira, a melhor previsão foi do kNN, com a seleção de
melhores atributos. Quanto ao M5P, mesmo com a seleção de atributos não foi possível
superar o kNN.
Tabela 17: Comparação de métodos para previsão da vazão de água.
Água RRSE [%]
Todos Atributos Melhor Comb. atributos kNN, k=65 42,96 - M5P 43,79 43,32 Regressão Linear 57,79 21,70
A combinação dos melhores atributos mais uma vez se mostrou vantajosa para a
maior parte dos casos. Porém, para nossa surpresa, na previsão de vazão de água, o melhor
resultado foi foi da regressão linear com todos os atributos.
Com esse estudo pudemos perceber que a combinação adequada de atributos pode
afetar de maneira positiva a previsão.
4.3.2 Pressão de fundo
Assim como o problema anterior, a melhor combinação de atributos foi realizada no
estudo de impacto das variáveis.
53
Tabela 18: Comparação de métodos para pressão do fundo do poço. Regressão
Linear M5P kNN
Todos os atributos 32,47% 3,74 4,46 Melhor Combinação 13,90% - 4,18
Observando a tabela podemos constatar que o algoritmo que obteve o menor erro foi
o M5P.
O pior desempenho ficou com a regressão linear, o que era esperado, já que se trata
de um algoritmo bem mais simples. Mas pudemos observar um grande ganho com a
combinação de atributos.
Este problema, até onde sabemos, nunca foi abordado na literatura. Por isso não
faremos comparações dos resultados dele com os resultados de outros algoritmos.
4.4 Comparação com trabalhos da literatura
Assim como para este trabalho, os trabalhos de Silva (2006), Cleison (2008) e
Eliomar (2008) utilizam dados de caráter sigiloso. Portanto, não pudemos obter o mesmo
conjunto de dados de entrada. Por essa razão, resolvemos utilizar os algoritmos nos dados de
apenas um poço que garantisse uma boa generalização. Para comparação com os resultados
anteriores, re-implementamos os algoritmos desses autores, baseado nas descrições fornecidas
pelos mesmos. Como antes, as comparações são todas obtidas por meio de processos de
validação cruzada. A tabela 19 mostra o resultado final.
Tabela 19: Todos os Atributos.
Vazão de Óleo Vazão de Gás Vazão de Água MLP 19,34 11,69 49,79 Melhor algoritmo 13,77 (kNN) 9,93 (kNN) 21,70 (Lin. Reg.)
Resultados expressos em RRSE (Root Relative Square Error)
Analisando a tabela 19 podemos perceber que os modelos que nós propomos foram
superiores em no caso comparado.
54
O melhor resultado obtido para a previsão da vazão de óleo foi conseguido com a
combinação ideal de atributos e do algoritmo kNN.
Em todos os casos da literatura os resultados que mais se aproximaram foram os
obtidos com a rede multilayer perceptron. Os resultados conseguidos através da RBF
apresentam um erro bastante superior, indicando que houve um erro em nossa implementação,
uma vez que o erro da RBF foi bem superior a uma regressão linear simples. No futuro,
pretendemos voltar a este método para ter certeza se um melhor estudo de parâmetros não
poderia ter contribuído para um desempenho, pelo menos, superior ao da regressão linear.
A previsão da vazão de gás ficou abaixo dos 10%, enquanto o resultado mais
próximo foi de mais de 11,5%. Algo semelhante aconteceu com a vazão de água, o nosso
melhor resultado foi de aproximadamente 22% enquanto o melhor resultado da literatura se
aproximou dos 50%. Isto nos surpreendeu uma vez que não esperávamos que a regressão
linear figurasse entre os melhores algoritmos.
Diante destes resultados e mesmo não fazendo parte do escopo de nosso trabalho,
fizemos um estudo de impacto dos atributos para tentar determinar uma melhor combinação
de variáveis a fim de melhorar o resultado obtido na rede neural. Esse estudo é mostrado na
tabela 20. Tabela 20: Impacto de atributos para MLP.
Óleo (19,34%) Gás (11,69%) Água (49,79%) Variável Sem (%) Com (%) Sem (%) Com (%) Sem (%) Com (%)
Pressão da cabeça 21,91 92,96 12,83 35,90 53,42 79,40
Pressão da surgência 21,39 80,66 13,90 30,84 51,60 85,40
HWM 22,74 73,03 13,72 84,44 52,24 105,65
HWJ 19,94 52,84 13,32 91,64 50,01 93,55 Temperatura da cabeça 20,89 84,32 12,60 104,31 52,65 66,78
Temperatura da surgência 20,38 44,44 13,63 104,10 51,27 87,84
Temperatura do choke 20,16 42,47 13,32 103,97 51,84 103,43
55
Adotamos a mesma metodologia utilizada no estudo de impacto de atributos para os
outros algoritmos. Ou seja, confrontamos o resultado obtido com a previsão utilizando todas
as variáveis.
Analisando os resultados obtidos, pudemos observar que não foi possível determinar
uma melhor combinação de atributos, uma vez que todas as variáveis contribuem de forma
muito parecida para a previsão da rede neural. Portanto os melhores resultados obtidos em
uma rede neural devem utilizar todos os atributos.
56
5. Conclusões e Trabalhos futuros
Neste trabalho estudamos as técnicas de previsão e aprendizado de máquina que
podem ser utilizados na indústria petrolífera a fim de reduzir o custo das instalações
indústrias, otimizando os recursos já instalados. Em particular, aplicamos estas técnicas para
os problemas de previsão das vazões de fluidos do petróleo extraído, bem como a pressão do
fundo do poço. Estas são informações estratégicas que tem um alto valor agregado, uma vez
que, de posse delas, é possível tomar decisões a fim de aumentar o coeficiente de extração de
um campo e atender normas legais.
Atualmente, a aquisição dessas informações é feita através de equipamentos de custo
elevado. O que propusemos neste trabalho foi à utilização de informações já disponíveis na
cabeça do poço para que, através de técnicas de mineração de dados, pudéssemos inferir essas
informações.
Para tanto, utilizamos três algoritmos para previsão das proporções de fluidos e
fizemos a comparação de nossos resultados com os resultados obtidos em trabalhos da
literatura. Os resultados obtidos no capitulo 4 mostram o sucesso que obtivemos em prever
todas as características com erros menores que em trabalhos anteriores.
Mesmo não fazendo parte do escopo de nosso trabalho, tentamos melhorar a previsão
feita pela rede neural, fizemos um estudo de impacto de atributos e não pudemos determinar
uma melhor combinação das variáveis.
Como, até onde sabemos, não existe nenhum trabalho relacionado à previsão da
pressão de fundo, estabelecemos um marco, que deverá ser considerado para trabalhos
futuros. Devemos levar em consideração os ganhos que podem ser obtidos com a utilização
dessa solução uma vez que dispensa o uso da técnica de wireline, contribuindo com isso para
o aumento da segurança industrial.
57
5.1 Trabalhos Futuros
Espera-se que este trabalho possa servir de base para outros que virão melhorar os
resultados obtidos aqui.
As proporções dos fluidos produzidos por um poço de petróleo é um trabalho muito
maior do que poderia sem explorado aqui. Dessa forma, esperamos que possa ser dado
continuidade a esses estudos e outros envolvendo a área de petróleo, uma vez que essa área
apresenta diversos desafios que podem ser enfrentados através de técnicas de mineração de
dados.
A previsão da pressão de fundo pode ser melhorada com a utilização de variáveis
adicionais da cabeça do poço e com a aplicação de outras técnicas de mineração de dados, em
particular, métodos baseados em separação espacial, como as máquinas de vetores de suporte
(SVM) e métodos evolutivos, como de programação genética (WITTEN & FRANK, 2005).
Neste trabalho, de fato, pretendíamos ter usado SVM, mas desistimos devido ao alto custo do
método e o pouco tempo que tínhamos para a experimentação. No futuro, entretanto, vale a
pena retomar este estudo, visto que SVM é considerado o estado-da-arte em muitos problemas
de aprendizado de máquina.
Um passo mais à frente neste estudo seria a implementação da melhor técnica
observada diretamente nos sistemas de automação e acompanhamento industrial, algo que, de
certa forma, já foi feito antes no trabalho de Silva (2006).
58
Referências Bibliográficas
BRAGA, Antonio de Padua; LUDERMIR, André Ponce de Leon F. de Carvalho;
BERNARDA, Teresa. Redes Neurais Artificiais, teoria e aplicações, 2ª Edição, Editora
LTC, 2007
CARMO, Eliomar. Um sistema Fuzzy-Neural para estimação de vazões de petróleo e gás.
Dissertação de Mestrado apresentada ao Departamento de Engenharia Elétrica da
Universidade Federal do Pará, Belém, Pará, Brasil, Março de 2008
COELHO, Paulo Sérgio de Souza. Um sistema para indução de modelos de predição
baseados em árvore. Tese de Doutorado apresentado ao programas de pós-graduação de
engenharia da universidade Federal do Rio de janeiro, Rio de Janeiro, Abril de 2005
FERNANDES, Anita Maria da Rocha. Inteligência artificial, Noções gerais. Editora Visual
Books. 2008
HAYKIN, Simon. Redes Neurais, Princípios e práticas. 2ª Edição, Editora Bookman, 2001
KREMER, R. Sistemas de Apoio à decisão para previsões genéricas utilizando técnicas
de data mining. Blumenau, 1999. Trabalho de conclusão de curso – Centro de ciências
exatas. Universidade Regional de Blumenau.
LUDWIG, Oswaldo e MONTGOMERY, Eduard. Redes Neurais, Fundamentos e
Aplicações com programas em C, Editora Ciência Moderna, 2007
LUGER, George. Inteligência artificial, Estruturas e estratégias para a solução de
problemas complexos, 4ª Edição, Editora Bookman, 2004
NASCIMENTO, Cairo e YONEYAMA, Takashi. Inteligência artificial em controle e
automação, Editora Edgard Blücher LTDA, 2004
PINHEIRO, Carlos André Reis. Inteligência Analítica, Mineração de dados e Descoberta
de conhecimento, Editora Ciência Moderna, 2008
59
RUSSELL, Stuart e NORVIG, Peter. Inteligência artificial. 2ª Edição, Editora Campus
ELSEVIER, 2006
SHAW, Ian e SIMÕES, Marcelo Godoy. Controle e modelagem fuzzy, Editora Edgard
Blücher LTDA, 1999
SILVA, Cleison, Uma estratégia baseada em rede neural de base radial aplicada ao
gerenciamento da produção de petróleo e gás natural. Dissertação de Mestrado
apresentada ao Departamento Engenharia Elétrica da Universidade Federal do Pará, Belém,
Pará, Brasil. Março de 2008
SILVA, Paulo. Programa de Automação Inteligente Aplicado ao Gerenciamento e
Fiscalização da produção de poços de petróleo e gás natural. Tese de Doutorado
apresentado ao Departamento de Engenharia Elétrica da Universidade Federal do Pará,
Belém, Pará, Brasil, Maio de 2006.
WITTEN, Ian and FRANK, Eibe. Data Mining: Practical machine learning tools and
techniques, 2nd Edition, Morgan Kaufmann, San Francisco, 2005
Sites Consultados Geologia do petróleo. Disponível em: <http://br.geocities.com/geologiadopetroleo/>. Acessado em 15 de novembro de 2008 Tn Petróleo. Disponível em: <http://www.tnpetroleo.com.br/sala_de_aula>.Acessado em 15 de novembro de 2008 Petrobras. Disponível em: <http://www2.petrobras.com.br/portugues/ads/ads_Petrobras.html>. Acessado em 15 de novembro de 2008 Petrobras. Espaço conhecer. Disponível em: <http://www2.petrobras.com.br/EspacoConhecer/apresentacao/apresentacao.asp>. Acessado em 15 de novembro de 2008 A indústria do petróleo. Disponível em: <http://www4.prossiga.br/dep-fem-unicamp/petroleo/ind_petr.html>. Acessado em 15 de novembro de 2008 ANP. Agência Nacional de Petróleo. Disponível em: <http://www.anp.gov.br/>. Acessado em 15 de novembro de 2008