Modelagem AnalíticaPare de clicar & começe a programar
Pedro Carvalho
Qual o software mais importante?
Qual o software mais importante?Excel - planilha• Utilizadas para fundamentar grande parte de
decisões de negócio no mundo• Fácil de introduzir, ver e modificar dados
Qual o software mais importante?Objetivo da modelagem?Obtenção de conhecimentos que ajudem a tomada de melhores decisões e resultados.
Qual o software mais importante?No entanto, estima-se que 90% das planilhas contenham erros
Fontes:
http://panko.shidler.hawaii.edu/SSR/Mypapers/whatknow.htm
http://www.marketwatch.com/story/88-of-spreadsheets-have-errors-2013-04-17
http://www.eusprig.org/stories.htm
Porquê?
Alguma vez...?
• Teve que repetir várias vez o mesmo processo de copiar, colar, clicar?
• Teve dúvidas sobre a origem,versão,última data atualizada dos dados brutos?
• Sentiu constrangido por pedir várias vezes diferentes dados/formatos de dados ao departamento de TI?
Alguma vez...?
• Teve problemas em agregar, filtrar e indexar diferentes tabelas e/ou diferentes origens?
• Teve dificuldade em analisar dados em diferentes formatos (csv, tsv, txt, sql, json..)?
• Não lembrar quais as alterações feitas anteriormente na tabela da planilha?
Alguma vez...?
• Não entendeu / não conseguiu reproduzir o que os outros (ou você mesmo) fizeram?
• Teve receio de haver falhar, erros, fraude, na modelagem?
• Não conseguiu entender a lógica da análise porque o processo não está documentado?
Alguma vez...?
• questionou se o resultado final da modelagem atualizou com novos dados?
• não teve certeza como mudanças na modelagem afetam o seu resultado final?
• Teve dificuldade em colaborar ou trabalhar em conjunto por ter dificuldade em entender e modificar a modelagem de terceiros?
É provavél que sim porque..
Planilha é o programa adequado para tarefas que envolvem análises simples, diretas, sem encadeamento
1. Orçamentos: Fácil Introduzir, ver e modificar dados e comentários2. Contabilidade: Dimensão reduzida (DR & Balanço)3. Estatística simples: soma, média, mínimo / máximo, gráficos
É provavél que sim porque..
Planilha não é o programa mais adequado para análises de dados mais complexas
1. Baixar dados de diferentes formatos, fontes2. Limpar, formatar, manipular, indexar, agregar, filtrar dados3. Implementar modelagem numérica, estatística, simbólica (álgebra),
documentando todo o processo para entender diferença de resultados4. Testar / “backtesting” e visualizar análises5. Repetir este processo quantas vezes necessárias,comparando resultados6. Documentar métodos, processos, comentários, resultados, conclusões
A análise quantitativa é um processoMétodo científico / analítico
1. Pensar em problema2. Formular hipótese3. Procurar dados4. Formatar dados5. Implementar hipótese:
a. Estatísticab. Modelagem económica
6. Testar / “Backtesting” para quantificar eficácia do modelo / algoritmo
7. Refletir sobre resultados8. GOTO 2 até ficar satisfeito com o “melhor”
modelo preditivo9. Implementar análise prescritiva combinando
algoritmo preditivo com a base de dados da empresa (stocks, encomendas) através de modelagem numérica - otimização
10. Desenvolver Interface gráfico para utilizador
A análise quantitativa é um processo● É também uma arte:
○ tem de ser aberta, transparente○ facilitar colaboração, atualizações, adaptações para
se adaptar às mudanças. ○ economia de escala de trabalho e conhecimento,
eliminando repetições manuais
Dado a complexidade do processo, tudo tem de ficar documentado em código e em texto
Passando para a fase seguinte • Cada fase da análise
quantitativa (descritiva, preditiva e prescritiva) tem como base a fase anterior
• Embora o objetivo final da análise seja recomendar decisões (análise prescritiva), a maior parte das empresas não passam da 1ª fase (descrição)
Passando para a fase seguinte • Gerentes têm acesso apenas à análise descritiva, interpretando-a,
fazendo eles próprios estimativas preditivas e prescritivas sem qualquer método, nem testando eficácia das suas estimativas anteriores
• “Vendemos x número de produtos/serviços? Então, provavelmente...o Iremos vender a mesma quantidade no próximo período o Teremos que aumentar o stock em x%
Passando para a fase seguinteA maioria das empresas não passam da análise descritiva.
Porquê?
Porque construir modelagem com capacidade descritiva, preditiva e prescritiva requer fluxo / processo / sistemas, mas...
...as planilhas quebram com complexidade.
Há alternativa à planilha?
• VBA, Java, MATLAB, SAS?o Necessário programadores / software propietário
• Ao contrário da planilha, dados ficam “longe” do utilizador. É difícil: o introduzir dados, o ver, o modificar, o fazer cálculos
A solução - R & Python
As linguagem de programação mais utilizadas por analistas de Data Mining e Análise Preditiva
A solução - R & Python
Apresentações sobre Python● Computação científica
Vantagens
• Transparênciao Documentação detalhada do princípio ao fim da
análise, facilidade de auditoria de erros/fraudeso Facilidade de colaboração entre analistas
Vantagens
• Escalao de trabalho - não é necessário repetir os mesmos
cliques e copy-pasteo de conhecimento - possível acrescentar novos
conhecimentos ao código antigo. Esforço dedicado na aprendizagem e automatização, mas não na sua implementação diária.
Vantagens
• Flexibilidade / Agilidadeo Linguagens “limpas” - fácil de entender, alterar, de
fazer análise exploratória de dados (ao contrário do VBA,apropriada apenas para automatizar processos)
o Facilidade em alterar / adaptar códigoo Compatibilidade com quase todos os formatos de
dados (xls, xlsx, csv, tsv, txt, json, sql, etc.)o Fácil integração com websites através de APIs
Vantagens
• Amplas bibliotecas estatística e númericas• Graphical User Interface
o Facilidade de criar interface gráfico
Modelo de negócio1. Análise Descritiva
2. Análise de diagnóstico / descoberta
3. Análise Preditiva
4. Análise Prescritiva
O modelo de negócio visa minimizar os riscos para todas as partes. O “contrato” de pagamento é simples
● O cliente paga pelo serviço de cada fase do projeto apenas se decidir continuar para a fase seguinte.
5. Interface gráfico
Cliente recebe trabalho da 1ªfase (Análise descritiva)● Apenas paga se desejar continuar a modelagem analítica● Case contrário, não paga qualquer valor pelo trabalho que recebeu
Modelo de negócio - Serviços1. Análise Descritiva
a. Estatística, Análise económica e de mercado2. Análise de Diagnóstico e de Descoberta
a. Clusterização / Segmentação de clientes e mercados com técnicas de Machine Learning3. Análise Preditiva
a. Secções Cruzadas e dados em paineli. Classificaçãoii. Quantificação de Probabilidade
b. Séries Temporais4. Análise Prescritiva / Recomendações de decisões automatizadas
a. Otimização e Simulação5. Interface Gráfico de Utilizados
a. Integrando e automatizando todas as fases anteriores
Conclusão
Programar análise de dados é uma nova forma de trabalhar.
Com Modelagem Analítica você pode testar as vantagens deste novo modelo sem qualquer risco ou compromisso.