segunda-feira, 6 de julho de 2015

DATA MINING ou MINERAÇÃO de DADOS

ANHANGUERA EDUCACIONAL
FACULDADE ANHANGUERA DE BAURU

CURSO SUPERIOR DE TECNOLOGIA EM GESTÃO DA TECNOLOGIA DA INFORMAÇÃO


BRUNO ROMEIRO COMIN
GUILHERME ROBERTO SIMÕES
JOÃO FABIO MARQUES DA SILVA
MATTHEWS HENRIQUE NICOMEDES



ADMINISTRAÇÃO DE BANCO DE DADOS



BAURU
2014



Mineração de dados é um processo altamente cooperativo entre homens e máquinas, que visa à exploração de grandes bancos de dados, com objetivo de extrair conhecimentos através do reconhecimento de padrões e relacionamento entre variáveis, conhecimentos esses que possam ser obtidos por técnicas comprovadamente confiáveis e validados pela sua expressividade estatística.
(Rosa Maria Porcaro, Sérgio da Costa Côrtes e Sérgio Lifschitz. 2002)








Uma característica fundamental da Oracle é que sua arquitetura é dividida entre o lógico e o físico. Isso significa que, para a estrutura em larga escala de computação em grade a localização de dados é irrelevante e transparente para o utilizador, permitindo uma estrutura física mais modular que pode ser adicionada e alterada sem afetar as atividades do banco de dados. Oracle compartilha de uma forma flexível recursos, cuja capacidade pode ser ajustada e não sofre nenhuma degradação do serviço.
Postado por (Cory Janssen, TECHOPEDIA)



DATA MINING ou MINERAÇÃO de DADOS

1.    Introdução.

Século XXI à utilização deste método ganha espaço na estratégia empresarial.
Este processo conquista organizações que buscam sair à frente da concorrência, aumentar os lucros e atender de forma mais eficiente às necessidades do cliente. Palavras publicadas por (Deborah Oliveira, da COMPUTERWORD em 19 de Março de 2012, publicado pelo portal Terra).

      O conceito de Data Mining ou Mineração de Dados está se tornando cada dia mais popular como uma ferramenta essencial de descoberta de informações. Pois se baseia em princípios conceituais de Análise de Dados Exploratórios (Exploratory Data Analysis - EDA) e de modelagem.

   Definições conceituais sobre Data Mining (DM), Funcionalidades e suas técnicas e Abordagens.
Mineração de dados são o processo de proposição de varias consultas e extração de informações úteis, padrões e tendência, frequentemente desconhecidos, a partir de grande quantidade de dados armazenada em banco de dados. (Bhavani Thuraisingham; “Data Minig”; CRC Press, 1999).
Mineração de dados é a busca de informações valiosas em grandes bancos de dados. É um esforço de cooperação entre homens e computadores. Os homens projetam bancos de dados, descrevem problemas e definem seus objetivos. Os computadores verificam dados e procuram padrões que casem com as metas estabelecidas pelos homens. (Sholom M. Weis, Nitim Indurkhya; “Predict Data Mining”; Morgam Kaufmann Publishers, Inc, 1999).

Data mining (mineração de dados), é o processo de extração de conhecimento de grandes bases de dados, convencionais ou não. Utiliza técnicas de inteligência artificial que procuram relações de similaridade ou discordância entre dados.
Seu objetivo é encontrar, automaticamente, padrões, anomalias e regras com o propósito de transformar dados, aparentemente ocultos, em informações úteis para a tomada de decisão e/ou avaliação de resultados. (Fernando S. Goulart Júnior & Robson do Nascimento Fidalgo (1998)).


Segundo a publicação da Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) sobre Mineração de Dados – Funcionalidades, Técnicas e Abrangência em 02 de Maio de 2002 e a publicação da Prof.ª Maria Bernadete Zanusso da Universidade Federal de Mato Grosso do Sul.
Mineração de dados é parte de um processo maior de pesquisa denominada Busca de Conhecimento em Banco de Dados (Knowledge Discovery in Database - KDD), o qual possui uma metodologia própria para preparação e exploração dos dados, interpretação de seus resultados e assimilação dos conhecimentos minerados. Porem se tornou mais conhecida do que o próprio processo de KDD em função de ser a etapa onde são aplicadas as técnicas de busca de conhecimentos.
O termo KDD refere-se aos passos adicionais como preparação de dados, seleção de dados, limpeza de dados, incorporação de conhecimento, etc. Este termo evoluiu e continua evoluindo interseção de pesquisas de campos como bancos de dados, aprendizados de máquinas, reconhecimento de padrões, estatísticas, inteligência artificial, aquisição de conhecimento para sistemas especialistas, visualização de dados, descoberta cientifica, recuperação de informação e computação de alto-desempenho. O sistema de KDD incorporam teorias, algoritmos e métodos.
       Funcionalidades e suas técnicas.

Diversos tipos de armazenamentos de dados e de banco de dados podem ser utilizados no processo de mineração.  Em função do tipo de dados armazenados e disponível pode-se definir que tipo de padrão ou relacionamento quer minerar. Esse tipo ira especificar que tipo de padrão ou relacionamento entre os registros e suas variáveis pode ser utilizado na mineração.

Figura_1 (interatividade entre funcionários e técnicas de mineração de dados)

A funcionalidade da mineração de dados não é um consenso, pois se define como Analise Descritiva e Analise de Prognóstico.

Figura_2 (funcionalidade em mineração de dados)

A partir das identificações (2.2; 2.2.1; 2.2.1.1; 2.2.1.2; 2.2.1.3 e 2.2.2; 2.2.2.1; 2.2.2.2; 2.2.2.3; 2.2.2.4; 2.2.2.5; 2.2.2.6; 2.2.2.7; 2.2.2.8; 2.2.2.9; 2.2.2.10; 2.2.2.11.) será descrita os detalhes desta abordagem das Fugura_2 e Figura_3.

 Analise Descritiva.
Representa a área de investigação nos dados que buscar tanto descreve fatos relevantes, não triviais e desconhecidos dos usuários, como analisar a base de dados, principalmente pelo aspecto de qualidade, para validar todo o processo de mineração e seus resultados, ou seja, o conhecimento encontrado.
            Analise Previa.
É o processo de analisar uma base de dados com o objetivo de identificar anomalias ou resultados raros que possam influenciar os resultados da mineração de dados.
        Analise de Outliers ou Detecção de Desvio.
Encontram dados que não obedecem ao comportamento ou modelo dos dados, ou seja, uma vez encontrados podem ser tratados ou descartados para utilização no processo de mineração.
       Analise de Desvios.
Tem objetivo de detectar mudanças de comportamento, comparando as ações com os padrões para detectar mudanças de comportamento.
       Visualização.
Esta funcionalidade é utilizada, principalmente, quando não se tem nenhuma ideia da distribuição de dados e se deseja encontrar algum tipo de disparidade de dados.

Figura_3 (sub - funcionalidade da analise previa e do descobrimento)


  Descobrimento.
É o processo de examinar uma base de dados com objetivos de encontrar padrões escondidos, sem que necessariamente exista uma ideia ou hipótese clara previamente estabelecida.
        Classificação.
Consiste em examinar certa característica nos dados e atribuir uma classe previamente definida.
        Analise de Associações.
Conhecida como analise de cestas de vendas ou grupo de afinidade na área de marketing, esta funcionalidade objetiva determina que “coisa” está relacionada, ou seja, descobrir as regras de associação condicionadas a valores de atributos que ocorrem juntos em um conjunto de dados.
        Agrupamento (clustering).
Esta funcionalidade visa segmentar um conjunto de dados num numero de subgrupos homogêneos ou clustering.
        Descrição.
Esta funcionalidade pode ser empregada numa analise para tornar mais clara alguma ideia que está sendo utilizado, hipóteses ou fato observados em um banco de dados.
        Detecção de Sequência.
Tem por objetivo utilizar algum tipo de padrão nos dados para determinar que tipos de sequencia podem ser determinadas.
       Segmentação.
Nesta funcionalidade o conjunto de dados é dividido em conjuntos menores, com comportamento similar nos atributos de segmentação.
        Sumarização e Visualização.
Utilizar a sumarização de dados é uma estratégia muito usual que facilita e identifica inúmeras características nos dados em estudos e uma das principais abordagens para descrição de informação é a visualização, principalmente quando o conjunto de dados a ser explorado não está organizado em uma forma padrão.
        Otimização.
Esta funcionalidade visa aperfeiçoar recursos limitados como, pois se aproxima dos estudos da área de pesquisa operacional, o qual trata de problema de otimização.
        Identificação.
Tem por objetivo identificar a existência de um item, um evento ou uma atividade.
     Analise de Evolução.
Esta funcionalidade descreve e estuda a regularidade de modelos ou tendência para objetos cujo comportamento muda ao logo do tempo.

     Analise de Dados no formato texto.
Visa trabalhar os diversos dados armazenados no formato texto, visando transformar esses textos em uma forma de extrair seus resultados baseados em técnica de tratamento e exploração de texto.
        Analise de Prognóstico.
Esta analise representa a área de investigação nos dados que busca inferir resultados a partir dos padrões encontrados na análise descritiva, ou seja, prognosticar o comportamento de um novo conjunto de dados.


           Estimação.
É o processo de predizer algum valor, baseado num padrão já conhecido.
        Predição.
É o processo de predizer um comportamento futuro, baseado em vários valores.
        Classificação.
É o processo para predizer algum valor para uma variável categórica.

        Funcionalidades.
Uma vez definida as funcionalidades (resultados) a que se deseja chegar com o processo de mineração de dados, cabe nesta hora escolher técnicas no qual se deve utilizar, ou seja, técnicas que seja mais aderente para a obtenção dos resultados, com uma melhor precisão.

                        A escolha da funcionalidade, na maioria das vezes, exige a participação de pessoa que entendam do negocio em estudo, mesmo que não seja especialista na utilização e manuseio computacional de dados. Uma vez definidas as funcionalidades parte-se para identificar a melhor técnica, o mais aderente para obtenção dos resultados.
Em algumas técnicas de mineração de dados representa o passo essencial, principal, no processo Busca de Conhecimento em Banco de Dados – KDD, neste caso consiste em uma sequência iterativa dos seguintes passos:

Figura_4 (Mineração de Dados no processo KDD)


            Limpeza de Dados.
O chamado noisy data, no qual remove dados inconsistentes e fora do padrão.
        Integração de Dados.
Possibilita a integração de varias fontes de dados, mantendo a coerência dos dados integrados.
        Seleção dos Dados.
Seleciona os dados relevantes para aplicação das técnicas de mineração de dados.
       Transformação dos Dados.
Possibilita a transformação ou consolidação dos dados no formato apropriado para o processo de mineração, através de operações do tipo sumarização ou agregação.
        Mineração dos Dados.
Processo essencial, onde técnicas são aplicadas para analise e extração de padrões dos dados.
        Avaliação dos Padrões.
Identifica os padrões verdadeiramente interessantes entre os diversos apresentados pelo processo de mineração de dados.
        Apresentação e Assimilação do conhecimento.
Utiliza técnicas de visualização e representação do conhecimento para apresentar o conhecimento adquirido aos usuários.
            Atualmente os bancos de dados são altamente suscetíveis à armazenagem de dados incoerentes, inconsistente, grande quantidade de valores ausentes e geralmente armazenam uma quantidade de dados em torno de muitos gigabytes e terabytes. Criar um procedimento para analise de mineração de dados significa melhorar ou aprimorar a qualidade dos dados a serem processados e consequentemente a qualidade dos resultados da analise dos dados a serem obtidos. Mais para ter uma analise de mineração de dados envolve o processo de KDD no qual prepara e executa os dados do banco utilizando suas fases de limpeza, integração, seleção e transformação do dado.




REFERÊNCIAS


Zanusso, Maria Bernadete. Citações e Referencia.
~[]~
Wikipédia, a enciclopédia livre. Citações e Referencia.
Site: http://en.wikipedia.org/wiki/Data_mining. Acessado em (2.014)
~[]~
Pontifícia Universidade Católica do Rio de Janeiro – (PUC-RIO). Citações e Referencia.
~[]~
Universidade Metodista de Piracicaba – UNIMEP. Citações e Referencia.
~[]~



Nenhum comentário:

Postar um comentário