ANHANGUERA EDUCACIONAL
FACULDADE ANHANGUERA DE
BAURU
CURSO SUPERIOR DE TECNOLOGIA EM GESTÃO DA TECNOLOGIA
DA INFORMAÇÃO
BRUNO ROMEIRO COMIN
GUILHERME ROBERTO SIMÕES
JOÃO FABIO MARQUES DA
SILVA
MATTHEWS HENRIQUE
NICOMEDES
ADMINISTRAÇÃO DE BANCO DE
DADOS
BAURU
2014
“Mineração de dados é um processo altamente cooperativo
entre homens e máquinas, que visa à exploração de grandes bancos de dados, com
objetivo de extrair conhecimentos através do reconhecimento de padrões e
relacionamento entre variáveis, conhecimentos esses que possam ser obtidos por
técnicas comprovadamente confiáveis e validados pela sua expressividade
estatística.”
(Rosa Maria Porcaro, Sérgio da Costa Côrtes e Sérgio
Lifschitz. 2002)
“Uma
característica fundamental da Oracle é que sua arquitetura é dividida entre o
lógico e o físico. Isso significa que, para a estrutura em larga escala de
computação em grade a localização de dados é irrelevante e transparente para o
utilizador, permitindo uma estrutura física mais modular que pode ser
adicionada e alterada sem afetar as atividades do banco de dados. Oracle
compartilha de uma forma flexível recursos, cuja capacidade pode ser ajustada e
não sofre nenhuma degradação do serviço.”
Postado por (Cory Janssen, TECHOPEDIA)
DATA MINING ou MINERAÇÃO de DADOS
1.
Introdução.
Século XXI à utilização deste
método ganha espaço na estratégia empresarial.
“Este processo conquista
organizações que buscam sair à frente da concorrência, aumentar os lucros e
atender de forma mais eficiente às necessidades do cliente.”
Palavras publicadas por (Deborah Oliveira, da COMPUTERWORD em 19 de Março de 2012, publicado pelo portal Terra).
O conceito
de Data Mining ou Mineração de Dados
está se tornando cada dia mais popular como uma ferramenta essencial de
descoberta de informações. Pois se baseia em princípios conceituais de Análise
de Dados Exploratórios (Exploratory Data
Analysis - EDA) e de modelagem.
Definições
conceituais sobre Data Mining (DM), Funcionalidades
e suas técnicas e Abordagens.
“Mineração
de dados são o processo de proposição de varias consultas e extração de
informações úteis, padrões e tendência, frequentemente desconhecidos, a partir
de grande quantidade de dados armazenada em banco de dados.” (Bhavani Thuraisingham; “Data
Minig”; CRC Press, 1999).
“Mineração
de dados é a busca de informações valiosas em grandes bancos de dados. É um
esforço de cooperação entre homens e computadores. Os homens projetam bancos de
dados, descrevem problemas e definem seus objetivos. Os computadores verificam
dados e procuram padrões que casem com as metas estabelecidas pelos homens.” (Sholom M. Weis, Nitim Indurkhya; “Predict Data Mining”; Morgam Kaufmann Publishers, Inc, 1999).
“Data mining
(mineração de dados), é o processo de extração de conhecimento de grandes bases
de dados, convencionais ou não. Utiliza técnicas de inteligência artificial que
procuram relações de similaridade ou discordância entre dados.
Seu objetivo é encontrar, automaticamente,
padrões, anomalias e regras com o propósito de transformar dados, aparentemente
ocultos, em informações úteis para a tomada de decisão e/ou avaliação de
resultados.” (Fernando S. Goulart Júnior & Robson do Nascimento Fidalgo (1998)).
Segundo a publicação da Pontifícia Universidade Católica do Rio de
Janeiro (PUC-RIO) sobre Mineração de Dados – Funcionalidades, Técnicas e
Abrangência em 02 de Maio de 2002 e a publicação da Prof.ª Maria Bernadete
Zanusso da Universidade Federal de Mato Grosso do Sul.
Mineração de dados é parte de um processo maior de pesquisa denominada
Busca de Conhecimento em Banco de Dados (Knowledge
Discovery in Database - KDD), o qual possui uma metodologia própria para
preparação e exploração dos dados, interpretação de seus resultados e
assimilação dos conhecimentos minerados. Porem se tornou mais conhecida do que
o próprio processo de KDD em função de ser a etapa onde são aplicadas as
técnicas de busca de conhecimentos.
O termo KDD refere-se aos passos adicionais como preparação de dados,
seleção de dados, limpeza de dados, incorporação de conhecimento, etc. Este termo
evoluiu e continua evoluindo interseção de pesquisas de campos como bancos de
dados, aprendizados de máquinas, reconhecimento de padrões, estatísticas, inteligência
artificial, aquisição de conhecimento para sistemas especialistas, visualização
de dados, descoberta cientifica, recuperação de informação e computação de
alto-desempenho. O sistema de KDD incorporam teorias, algoritmos e métodos.
Funcionalidades
e suas técnicas.
Diversos
tipos de armazenamentos de dados e de banco de dados podem ser utilizados no
processo de mineração. Em função do tipo
de dados armazenados e disponível pode-se definir que tipo de padrão ou
relacionamento quer minerar. Esse tipo ira especificar que tipo de padrão ou
relacionamento entre os registros e suas variáveis pode ser utilizado na
mineração.
![]() |
Figura_1 (interatividade
entre funcionários e técnicas de mineração de dados)
|
A funcionalidade da mineração de dados não é um consenso,
pois se define como Analise Descritiva e Analise de Prognóstico.
![]() |
Figura_2 (funcionalidade em mineração de dados) |
A partir das identificações (2.2; 2.2.1; 2.2.1.1; 2.2.1.2; 2.2.1.3
e 2.2.2; 2.2.2.1; 2.2.2.2; 2.2.2.3; 2.2.2.4; 2.2.2.5; 2.2.2.6; 2.2.2.7;
2.2.2.8; 2.2.2.9; 2.2.2.10; 2.2.2.11.) será descrita os detalhes desta
abordagem das Fugura_2 e Figura_3.
Analise
Descritiva.
Representa a área de investigação
nos dados que buscar tanto descreve fatos relevantes, não triviais e
desconhecidos dos usuários, como analisar a base de dados, principalmente pelo
aspecto de qualidade, para validar todo o processo de mineração e seus
resultados, ou seja, o conhecimento encontrado.
Analise
Previa.
É o processo de analisar uma base
de dados com o objetivo de identificar anomalias ou resultados raros que possam
influenciar os resultados da mineração de dados.
Analise de Outliers ou Detecção de Desvio.
Encontram dados que não obedecem ao
comportamento ou modelo dos dados, ou seja, uma vez encontrados podem ser
tratados ou descartados para utilização no processo de mineração.
Analise de
Desvios.
Tem objetivo de detectar mudanças
de comportamento, comparando as ações com os padrões para detectar mudanças de comportamento.
Visualização.
Esta
funcionalidade é utilizada, principalmente, quando não se tem nenhuma ideia da
distribuição de dados e se deseja encontrar algum tipo de disparidade de dados.
![]() |
Figura_3 (sub - funcionalidade da analise previa e do descobrimento) |
Descobrimento.
É o processo de examinar uma base
de dados com objetivos de encontrar padrões escondidos, sem que necessariamente
exista uma ideia ou hipótese clara previamente estabelecida.
Classificação.
Consiste em examinar certa característica
nos dados e atribuir uma classe previamente definida.
Analise de
Associações.
Conhecida como analise de cestas de
vendas ou grupo de afinidade na área de marketing, esta funcionalidade objetiva
determina que “coisa” está relacionada, ou seja, descobrir as regras de
associação condicionadas a valores de atributos que ocorrem juntos em um
conjunto de dados.
Agrupamento
(clustering).
Esta funcionalidade visa segmentar
um conjunto de dados num numero de subgrupos homogêneos ou clustering.
Descrição.
Esta funcionalidade pode ser empregada numa analise para
tornar mais clara alguma ideia que está sendo utilizado, hipóteses ou fato
observados em um banco de dados.
Detecção de
Sequência.
Tem por objetivo utilizar algum
tipo de padrão nos dados para determinar que tipos de sequencia podem ser
determinadas.
Segmentação.
Nesta funcionalidade o conjunto de dados é dividido em
conjuntos menores, com comportamento similar nos atributos de segmentação.
Sumarização
e Visualização.
Utilizar a sumarização de dados é
uma estratégia muito usual que facilita e identifica inúmeras características
nos dados em estudos e uma das principais abordagens para descrição de
informação é a visualização, principalmente quando o conjunto de dados a ser
explorado não está organizado em uma forma padrão.
Otimização.
Esta funcionalidade visa aperfeiçoar recursos limitados como,
pois se aproxima dos estudos da área de pesquisa operacional, o qual trata de
problema de otimização.
Identificação.
Tem por objetivo identificar a
existência de um item, um evento ou uma atividade.
Analise de
Evolução.
Esta funcionalidade descreve e estuda a regularidade de
modelos ou tendência para objetos cujo comportamento muda ao logo do tempo.
Analise de
Dados no formato texto.
Visa trabalhar os diversos dados armazenados no
formato texto, visando transformar esses textos em uma forma de extrair seus
resultados baseados em técnica de tratamento e exploração de texto.
Analise de
Prognóstico.
Esta analise representa a área de
investigação nos dados que busca inferir resultados a partir dos padrões
encontrados na análise descritiva, ou seja, prognosticar o comportamento de um
novo conjunto de dados.
Estimação.
É o processo de predizer algum
valor, baseado num padrão já conhecido.
Predição.
É o processo de predizer um
comportamento futuro, baseado em vários valores.
Classificação.
É o processo para predizer algum valor para uma variável
categórica.
Funcionalidades.
Uma vez definida as funcionalidades
(resultados) a que se deseja chegar com o processo de mineração de dados, cabe
nesta hora escolher técnicas no qual se deve utilizar, ou seja, técnicas que
seja mais aderente para a obtenção dos resultados, com uma melhor precisão.
A
escolha da funcionalidade, na maioria das vezes, exige a participação de pessoa
que entendam do negocio em estudo, mesmo que não seja especialista na
utilização e manuseio computacional de dados. Uma vez definidas as
funcionalidades parte-se para identificar a melhor técnica, o mais aderente
para obtenção dos resultados.
Em algumas
técnicas de mineração de dados representa o passo essencial, principal, no
processo Busca de Conhecimento em Banco de Dados – KDD, neste caso consiste em
uma sequência iterativa dos seguintes passos:
![]() |
Figura_4 (Mineração de Dados no processo KDD) |
Limpeza de
Dados.
O chamado noisy data, no qual remove dados inconsistentes e fora do padrão.
Integração
de Dados.
Possibilita a integração de varias
fontes de dados, mantendo a coerência dos dados integrados.
Seleção dos
Dados.
Seleciona os dados relevantes para
aplicação das técnicas de mineração de dados.
Transformação
dos Dados.
Possibilita a transformação ou
consolidação dos dados no formato apropriado para o processo de mineração,
através de operações do tipo sumarização ou agregação.
Mineração
dos Dados.
Processo essencial, onde técnicas
são aplicadas para analise e extração de padrões dos dados.
Avaliação
dos Padrões.
Identifica os padrões
verdadeiramente interessantes entre os diversos apresentados pelo processo de
mineração de dados.
Apresentação
e Assimilação do conhecimento.
Utiliza técnicas de visualização e
representação do conhecimento para apresentar o conhecimento adquirido aos
usuários.
Atualmente os bancos de dados são
altamente suscetíveis à armazenagem de dados incoerentes, inconsistente, grande
quantidade de valores ausentes e geralmente armazenam uma quantidade de dados
em torno de muitos gigabytes e terabytes. Criar um procedimento para
analise de mineração de dados significa melhorar ou aprimorar a qualidade dos
dados a serem processados e consequentemente a qualidade dos resultados da
analise dos dados a serem obtidos. Mais para ter uma analise de mineração de
dados envolve o processo de KDD no qual prepara e executa os dados do banco
utilizando suas fases de limpeza, integração, seleção e transformação do dado.
REFERÊNCIAS
Zanusso, Maria Bernadete.
Citações e Referencia.
~[]~
Wikipédia, a enciclopédia
livre. Citações e Referencia.
~[]~
Pontifícia Universidade
Católica do Rio de Janeiro – (PUC-RIO). Citações e Referencia.
~[]~
Universidade Metodista de
Piracicaba – UNIMEP. Citações e Referencia.
~[]~
Nenhum comentário:
Postar um comentário