Armazém de dados

Keywords: Armazém de dados, Algoritmos, Banco de dados, Business Intelligence, Business intelligence, Ciência da Computação, Computação, Data mart, Data mining, Década de 1980

Um data warehouse (ou armazém de dados) é um sistema de computação utilizado para armazenar informação relativa às actividades de uma organização em bancos de dados, de forma consolidada. O desenho da base de dados favorece os relatórios e análise de grandes volumes de dados e obtenção de informações estratégicas que podem facilitar a tomada de decisão.

O processamento de dados em um data warehouse é sempre referenciado como Online Analytical Processing OLAP ou Processo Analítico em Tempo Real, em contraste com o Online Transaction Processing OLTP - usado para armazenar as operações de negócios. Outra diferença, é que os dados em um data warehouse não são voláteis, ou seja, eles não mudam, salvo quando é necessário fazer correções de dados previamente carregados. Os dados então são somente para leitura e não podem ser alterados.

O data warehouse possibilita a análise de grandes volumes de dados, armazenados pelos sistemas transacionais (OLTP). São as chamadas séries históricas que possibilitam uma melhor análise de eventos passados para a tomada de decisões presentes e a previsão de eventos futuros.

Os data warehouse surgiram como conceito acadêmico na década de 80. Com o amadurecimento dos sistemas de informação empresariais, as necessidades de análise dos dados cresceram paralelamente. Os sistemas OLTP não conseguiam cumprir a tarefa de análise com a simples geração de relatórios. Nesse contexto a implementação do data warehouse passou a se tornar realidade nas grandes corporações. O mercado de ferramentas de data warehouse, que faz parte do mercado de Business Intelligence, cresceu então, e ferramentas melhores e mais sofisticadas foram desenvolvidas para apoiar a estrutura do data warehouse e sua utilização.

Pela sua capacidade de sumarizar grandes volumes de dados e de possibilitar análises os data warehouses são actualmente o núcleo dos sistemas de informações gerenciais e apoio à decisão das principais soluções de business intelligence do mercado.

Conteúdo

Arquitetura

Armazenamento

Um data warehouse pode armazenar grandes quantidades de informação, às vezes divididas em unidades lógicas menores que são chamadas de Data marts. O esquema de dados mais utilizado é o ‘’Star Schema’’, também conhecido como Modelagem multidimensional. Apesar de bastante utilizado não existe um padrão na indústria de software para o armazenamento de dados. Existe, na verdade, algumas controvérsias sobre qual a melhor maneira para estruturar os dados em um data warehouse.

Geralmente o data warehouse não armazena informações sobre os processos correntes de uma única atividade de negócio e sim cruzamentos e consolidações de várias unidades de negócios de uma empresa.

Modelagem

Os sistemas de bancos de dados tradicionais utilizam a normalização no formato de dados para garantir consistência dos dados e uma minimização do espaço de armazenamento necessário. Entretanto frequentemente as transações e consultas em bases de dados normalizadas são lentas. Um data warehouse utiliza dados em formato mais de-normalizados. Isto aumenta a performance das consultas e como benefício adicional ser mais intuitivo para utilizadores comuns.

Enquanto nas bases de dados relacionais os dados são armazenados em tabelas, no data warehouse os dados ficam armazenados em cubos de dados. O cubo é a figura que representa as várias dimensões de dados inter-relacionadas, própria de um sistema multidimensional.

Imagem:Cubo.png

Data Marts O data warehouse é comumente acessado através de data marts, que são pontos específicos de acesso à sub-conjuntos do data warehouse. Os Data marts são construídos para responder prováveis perguntas de um tipo específico de usuário. Por exemplo: um data mart financeiro poderia armazenar informações consolidadas dia-a-dia para um usuário gerencial e em periodicidades maiores (semana, mês, ano) para um usuário no nível da diretoria. Um data mart pode ser composto por um ou mais cubos de dados.

Extração de Dados

Os dados introduzidos em um data warehouse geralmente passam por uma área conhecida como área de stage. O stage de dados ocorre quando existem processos periódicos de leitura de dados de fontes como sistemas OLTP. Os dados podem passar então por um processo de qualidade, denormalização e gravação dos dados no data warehouse. Este processo geralmente é realizado por ferramentas ETL.

Ferramentas

OLAP

As ferramentas OLAP ( do ingles, online analytical processing) são geralmente desenvolvida para trabalhar com banco de dados de-normalizados embora existam ferramentas que trabalham com esquemas especiais de armazenamento, com dados normalizados.

Essas ferramentas tem como função a navegação nos dados de um data warehouse, possuindo uma estrutura adequada tanto para as pesquisas como para a apresentação das informações.

Nas ferramentas de navegação OLAP é possível navegar entre diferentes granularidades (detalhamento) de um cubo de dados. Através de um processo chamado Drill o usuário aumentar (Drill down) ou diminuir (Drill up) o nível de detalhamento dos dados. Por exemplo um relatório pode estar consolidado por Países. Fazendo um Drill down os dados passam a ser apresentados por estados, cidades, bairros e assim sucessivamente até o menor nível possível. O processo contrário Drill up faz com que os dados sejam consolidados em níveis superiores.

Outra possibilidade apresentada pela maioria das ferramentas de navegação OLAP é a de rearranjar colunas e linhas. Esse recurso se chama Slice and dice. É possível trocar a ordem de colunas e linhas bem como suprimí-las ou exibir aquelas que estejam ocultadas na visualização dos dados. �� Feature-Oriented Domain Analysis (FODA) [Kang 90] é um método de Análise de Domínio baseado na identificação dos aspectos (features) proeminentes ou distintivos de uma classe de sistemas. Foi criada a partir do estudo profundo de outros métodos de análise. Segundo a descrição publicada pelo SEI [SEI 97 (2)] a partir do estudo da bibliografia original [Kang 90], a metodologia FODA parte de dois conceitos: a abstração e o refinamento. A abstração é utilizada para criar produtos do domínio a partir das aplicações específicas do domínio, que generalizam as funcionalidades e design das mesmas.

A possibilidade de manipular dados e formas de apresentação de maneira rápida é um dos pontos fortes de um data warehouse. Essa característica faz com que os relatórios sejam mais comumente utilizados em tela e não impressos. O analista de informação ou pessoa que precisa dos dados, pode então navegar nas informações por diversas maneiras e ao final pode imprimir e até mesmo salvar aquela visão para um futura consulta.

Data mining

Data mining ou mineração de dados são ferramentas que varrem o data warehouse e através de algoritmos específicos conseguem encontrar padrões de comportamento nas informações armazenadas.

Referências

Veja também

Keywords: Armazém de dados, Algoritmos, Banco de dados, Business Intelligence, Business intelligence, Ciência da Computação, Computação, Data mart, Data mining, Década de 1980