big data - iimaecmshow.com.br/apresentacoes_2013/df2013/04_irineu...tecnologias ged/ecm irineu...
Post on 23-Aug-2020
6 Views
Preview:
TRANSCRIPT
Big Data
Como utilizar melhor e mais rápido seus dados e
informações utilizando metodologias e
tecnologias GED/ECM
Irineu Granato, CDIA+
CBPP, AIIM (ECMp, ECMs, IOAp, BPMs, ERMs)
AIIM Professional Member
Big Data
A Representativdade do Big Data ?
O que é o Big Data ?
Big data se trata de um conceito, no qual o foco é o grande armazenamento de dados oriundo
de todos os meios, aliados a maior velocidade de crescimento destas informações.
Começou a ser sentido e consolidado na última década com o aumento relevante na utilização
de computadores, notebook e todos os tipos de device, principais geradores e replicadores de
dados.
”Estamos na era onde todas as ações realizadas pela humanidade geram dados registrados”
Porque chamam de Big Data e não Big Information ?
Por conceito: Um dado só passa ser informação quando processado ou colocado dentro de
um contexto.
Dados analisados e interpretados sob determinada ótica, e a partir de análise, se torna
possível qualificar, classificar, medir, quantificar, etc…
Cliente A Cliente B Cliente C Cliente D Cliente E
O que motiva o conceito “Big Data” no Mundo ?
É a oportunidade de usar os dados coletivos “Big” com a possibilidade de
prever e reconhecer padrões e comportamentos para aumentar a
receita e otimizar resultados a seus processos de negócios.
Volumes do Big Data através do mundo
Variedade nos meios de geração de Big Data através do mundo
Velocidade na geração de Big Data através do mundo
Desafios mundiais na utilização do conceito de “Big Data” ?
• Os desafios decorrem as exigências para eDiscovery, governança, conformidade de
privacidade e armazenamento, aumento contínuo de regulamentos, legislações, ISO, SOX,
etc...
“Quanto mais dados, mais controles serão necessários”
• Crescente de dados exponencial que já preocupam os especialistas pela falta de espaço:
• Segundo a IBM em 2008 foram produzidos cerca de 2,5 quintilhões de bytes todos
os dias;
• 90% dos dados no mundo foram criados nos últimos dois anos;
• Crescentes formatos de dados, mídia rica, línguas diferentes, nuvens e arquivos locais são
desafios para serem tratados
Saiba o que está procurando e como ivestigar
Encontrar sem saber exatamente o que procurar, mas sempre com padrão:
• Análise de conteúdo, tais como mineração de texto, difere da busca tradicional. Análise
de texto por relevância pode ser o início.
A análise de texto faz toda a diferença, pois é particularmente interessante em áreas
onde os usuários devem descobrir idéias novas e desconhecidas, pois desconhecem o
seu próprio contexto do Big Data.
• Antes de iniciar é necessário saber que padrões ou percepções estamos querendo com
o contexto de Big Data. Se é níveis hierárquicos, documentos correlacionais, padrões
geográficos, etc..
É necessário compreender quais resultados poderão ser obtidos com o Big Data
existente em termos de possibilidades.
Técnicas de extração de informações geralmente são agrupados da seguinte forma
• Extração de arquivos do sistema: extração de propriedades do arquivo, como nome do arquivo,
tamanho, data de modificação, data de criação, atributos, tipo mime, etc
extração de propriedades Documento: extração de propriedades de documentos específicos,
dependendo do formato do documento, como título, autor, editora, versão, etc
• Extração de propriedades Email: extração de propriedades comuns, tais como e-mail do remetente,
destinatário, Enviado Data, Assunto, tópico de conversação e outras propriedades, como cabeçalhos
de Internet, o remetente original, etc
• ECM Plataformas: extrações de todas as propriedades de documento no ECM como estes são
armazenados com o documento, incluindo as configurações de segurança.
• Cálculo Hash: cálculo de valores de hash para efeitos de identificação, suporte a vários tipos de hash
como MD5 e SHA1.
• Detecção duplicado: calcular os valores de hash com base no conteúdo de mensagens de e-mail ou
binários para outros tipos de arquivo para encontrar e detectar documentos duplicados.
• Detecção de idioma: a detecção de idioma do documento, o suporte para mais de 400 idiomas.
• Extração Conceito: extração de pré-definido (texto completo) consultas que identificam documento
e conteúdo de informação com combinações específicas de palavras-chave ou (fuzzy e curinga)
padrões palavra dentro
• Extração Entidade: extração de entidades de base que podem ser encontrados em um texto, tais
como: pessoas, empresas, locais, produtos, países e cidades.
Técnicas de extração de informações geralmente são agrupados da seguinte forma
• Extração Fato: essas são as relações entre as entidades, por exemplo, uma relação contratual entre
uma empresa e uma pessoa.
• Extração de Atributos: extração das propriedades das entidades encontradas, como o título da
função, a idade de uma pessoa e número de segurança social, endereços de locais, quantidade de
produtos, números de matrícula do carro, e do tipo de organização.
• Extração de Eventos: são eventos interessantes ou atividades que envolvam entidades, tais como:
"uma pessoa fala para outra pessoa", "uma pessoa viaja para um local", e "uma empresa transfere o
dinheiro para outra empresa”.
• Detecção Sentimento: encontrar documentos que expressam um sentimento e determinar a
polarização e a importância do sentimento expresso.
• Processamento de linguagem estendida natural: Part-de-Speech (POS) para a marcação de pronome,
co-referência e anáfora resolução, a normalização semântica, agrupamento limite entidade, e co-
ocorrência de resolução.
Como fazer extração de informações e enriquecê-las
Um dos métodos para identificar entidades nomeadas é com a ajuda de expressões regulares, que
permitem que os dados, números de telefone, endereços de Internet, números de contas bancárias e
números de segurança social a ser bastante precisão identificados. Um bom exemplo de uma expressão
regular para encontrar um endereço de e-mail é:
\ b [A-Z0-9._% + -] + @ [A-Z0-9 -.]. + \ [A-Z] {2,4} \ b
http://en.wikipedia.org/wiki/Regular_expression
Coleta de Dados Automatizada a partir de múltiplas origens
Estruturação da Informação
Como fazer extração de informações e enriquecê-las
Como fazer extração de informações e enriquecê-las
Relacionamento entre dados e informações
Podemos coletar facilmente ótimas informações extraídas que permite a visualização de dados
avançados, tais como a árvore de estrela ou um mapeamento geográfica.
Lembre-se: Todos ligados a Big Data da companhia, oriundo de diversos legados e conteúdos externos
da Internet vinculados a períodos e datas, se necessário.
Mineração dos dados transformando em informação:
Coleta e estruturação dos dados:
Análise Cronológica da Informação:
Georeferenciamento da informação:
Análise de relacionamento da Informação:
Perguntas ?
Irineu Granato, AIIM ECMp, ECMs,AIIM IOAp, AIIM ERMs, BPMp, CBPP, CDIA+
top related