Data Warehouse

Published on December 2016 | Categories: Documents | Downloads: 41 | Comments: 0 | Views: 717
of 33
Download PDF   Embed   Report

Comments

Content

Datawarehouse et datamining
Par David Maisons

CONSERVATOIRE REGIONNAL DES ART ET METIERS CENTRE DE VERSAILLES
RAPPORT Présenté en vue d’obtenir L’EXAMEN PROBATOIRE En SYSTEME D’INFORMATION Par David MAISONS

Architecture et technique de ces composants de l'informatique décisionnelle. Impact sur l'architecture du système d'information (alimentation, restitution, serveur). Les évolutions pour le datawarehouse distribué.

DATAWAREHOUSE et DATAMINING

Rédigé pour le 11 décembre 2006

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 1/ 33

Datawarehouse et datamining
Par David Maisons

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 2/ 33

Datawarehouse et datamining
Par David Maisons

1. 2.

INTRODUCTION .................................................................................................................................... 5 QUELQUES DEFINITIONS .................................................................................................................. 7 2.1 2.2 2.3 2.4 2.5 DATAWAREHOUSE ............................................................................................................................. 7 DATAMART ........................................................................................................................................ 7 ETL (EXTRACT, TRANSFORM, LOAD)................................................................................................ 7 DATAMINING ..................................................................................................................................... 7 CUBE ET HYPERCUBE ......................................................................................................................... 7

3.

SYSTEME D'INFORMATION DECISIONNEL ................................................................................. 8 3.1 LA PROBLEMATIQUE DE L’ENTREPRISE .............................................................................................. 8 3.1.1 Une entreprise.............................................................................................................................. 8 3.1.2 Le rôle de décideur....................................................................................................................... 8 3.1.3 Le besoin ...................................................................................................................................... 8 3.2 INFORMATIQUE DECISIONNELLE ........................................................................................................ 9 3.3 FONCTIONS ET ARCHITECTURE .......................................................................................................... 9 3.3.1 Collecte ...................................................................................................................................... 10 3.3.2 Intégration.................................................................................................................................. 10 3.3.3 Diffusion..................................................................................................................................... 10 3.3.4 Présentation ............................................................................................................................... 10 3.3.5 Administration............................................................................................................................ 10

4.

PROBLEMATIQUES D'ALIMENTATION....................................................................................... 11 4.1 4.2 4.3 4.3.1 4.3.2 4.3.3 4.3.4 4.4 4.5 LE ROLE DU DATAWAREHOUSE ........................................................................................................ 11 APPREHENDER LES BESOINS ............................................................................................................ 12 EXTRACT-TRANSFORM-LOAD ......................................................................................................... 13 Définition ................................................................................................................................... 13 Extract........................................................................................................................................ 14 Transform................................................................................................................................... 14 Load ........................................................................................................................................... 15 EXEMPLE DE DONNEES .................................................................................................................... 16 QUESTIONS A SE POSER .................................................................................................................... 17 CONCEPT DU DATAWAREHOUSE ...................................................................................................... 18 Orienté sujet............................................................................................................................... 18 Intégrées..................................................................................................................................... 19 Historisés ................................................................................................................................... 19 Non-volatiles .............................................................................................................................. 20 Les méta-données ....................................................................................................................... 21 LES DIFFERENTES ZONES ................................................................................................................. 21 DATAMARTS ET ARCHITECTURE ...................................................................................................... 21 Les datamarts............................................................................................................................. 21 Datamarts Indépendants ............................................................................................................ 22 Datamarts dépendants ODS....................................................................................................... 23 Hybride ...................................................................................................................................... 23 OLAP.............................................................................................................................................. 24

5.

ARCHITECTURE D'UN DATAWAREHOUSE ................................................................................ 18 5.1 5.1.1 5.1.2 5.1.3 5.1.4 5.1.5 5.2 5.3 5.3.1 5.3.2 5.3.3 5.3.4 5.4

6.

LE DATAMINING................................................................................................................................. 26 6.1 DEFINITION ...................................................................................................................................... 26 6.2 DATAMINING, UN TRIPLE OBJECTIF .................................................................................................. 27 6.2.1 Expliquer.................................................................................................................................... 27 6.2.2 Confirmer ................................................................................................................................... 27 6.2.3 Explorer ..................................................................................................................................... 27

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 3/ 33

Datawarehouse et datamining
Par David Maisons 6.3 PRINCIPALES METHODES DU DATAMINING ...................................................................................... 28 6.3.1 Analyse descriptive (par Classification) .................................................................................... 28 6.3.2 Analyse prédictive (Par réseaux de neurones)........................................................................... 28 6.4 LES TECHNIQUES ............................................................................................................................. 29 6.4.1 Découverte de règles.................................................................................................................. 29 6.4.2 Arbres de décision...................................................................................................................... 29 6.4.3 Signal Processing....................................................................................................................... 29 6.4.4 Fractales .................................................................................................................................... 29 6.4.5 Réseaux neuronaux .................................................................................................................... 29 6.5 LE CERCLE VERTUEUX ..................................................................................................................... 30 7. 8. L'EVOLUTION DU DATAWAREHOUSE ET DU DATAMINING................................................ 31 7.1 LE DISTRIBUE .................................................................................................................................. 31 CONCLUSION....................................................................................................................................... 32

BIBLIOGRAPHIE........................................................................................................................................... 33

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 4/ 33

Datawarehouse et datamining
Par David Maisons

1. Introduction

Ne vous êtes-vous jamais demandé comment est choisi l’emplacement des produits dans une grande surface ? Si c’est par pur « feeling » du responsable ou bien par une stratégie marketing bien plus élaborée… Ou bien encore par quel moyen, la publicité nominative (postal ou par mail) est bien souvent en relation directe avec vos habitudes de consommations ? La réponse tient en un mot : le datawarehouse ! Il ne faut pas être paranoïaque, mais « Big Brother » n’est plus loin...nous sommes tous fiché dans ces immenses entrepôts de données. Dés que nous achetons un produit, émettons un appel téléphonique, en quelques mots : toutes actions liées à l’activité d’une entreprise est stockés dans un datawarehouse pour en être analyse, via des outils de datamining afin de nous étudier. Ceci dans un but bien précis : celui de nous connaître afin de mieux identifier nos besoins.

« Ne pas anticiper, c’est déjà mourir »
Aujourd’hui, toute entreprise doit pouvoir anticiper des événements de plusieurs type : évolution du marché, fluctuation de la consommation. Elles doivent également « profiler » ses clients afin de mieux les satisfaire, voir même de savoir créer un nouveau besoin chez les consommateurs. Elle va devoir remettre en cause certain choix, prendre des risques, se recentrer sur des secteurs d’activité ou au contraire s’élargie sur des nouveaux. Bref, elle va devoir prendre des décisions. Des décisions stratégiques ayant une forte répercussion sur la santé financière de l’entreprise. Dans cette situation, une entreprise utilisera un système décisionnel pour s’aider dans cette prise de décision. Nous verrons ce qui se cache derrière le terme « système décisionnel » et surtout ce qu’est « l’informatique décisionnelle ».

« Une alimentation saine et variée »
Mais ces entrepôts de données, constituant principale d’un système informatique décisionnel ont bien d’autres fonctions. Ils apportent une aide bien précieuse aux dirigeant des sociétés en leur fournissant une vue synthétique de leur entreprise. Une connaissance qu’ils ne sauraient extraire autrement. Pour cela, le datawarehouse doit contenir l’ensemble des données de l’entreprise. Et c’est souvent la que le bas blesse. Choix et quantité des données à intégrer, outils et architecture à mettre en place. Cela est souvent un casse-tête pour les entreprises, et hélas trop souvent sous-estimé, ce qui mène le projet datawarehouse à sa perte. Nous étudierons donc la problématique de l’alimentation d’un datawarehouse, nous verrons pourquoi cette étape est la plus cruciale dans la démarche de mise en place d’un datawarehouse.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 5/ 33

Datawarehouse et datamining
Par David Maisons

« Un datawarehouse ne s' achète pas, il se construit. »
Pour utiliser à bon escient un produit, il faut le connaître. Cela est également vrai pour un datawarehouse. Je vais donc vous présenter les différentes architectures d’un entrepôt de données. Pour cela, on verra ce qui le différencie d’une base de donnée opérationnelle, et comment l’intégrer dans un système d’information d’une entreprise.

« Les données ne naissent pas pertinentes, elles le deviennent... »
Le but ultime d’un datawarehouse est de corréler toutes les informations qu’il contient afin de fournir au décideur un schéma et/ou une connaissance plus ou moins détaillée de la problématique soumise. Mais un datawarehouse aussi bien pensé soit il, n’est rien sans de bon outils de recherche. Un entrepôt de donnée peut contenir plusieurs téraoctets de donnée. Il faut donc des outils spécialisés dans la recherche d’information dans cet environnement. Cet outil, ou cet ensemble d’outils est appelé datamining. Nous étudierons comment le datamining fonctionne, les principes sur lesquels il est basé.

« L’évolution, une question de survie »
Nous finiront pas une présentation d’une révolution dans le monde du datawarehouse et datamining à savoir l’utilisation de technologies issue du monde du calcul : le datawarehouse distribué.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 6/ 33

Datawarehouse et datamining
Par David Maisons

2. Quelques définitions
2.1 Datawarehouse
Définition de Bill Inmon (1996): Le datawarehouse est orienté sujets, cela signifie que les données collectées doivent être orientées « métier » et donc triées par thème; Le datawarehouse est composé de données intégrées, c' est-à-dire qu' « nettoyage » un préalable des données est nécessaire dans un souci de rationalisation et de normalisation; Les données du datawarehouse sont non volatiles ce qui signifie qu' donnée entrée dans une l' entrepôt l' pour de bon et n' pas vocation à être supprimée ; est a Les données du datawarehouse doivent être historisées, donc datées. L' organisation des données est conçue pour que les personnes intéressées aient accès rapidement et sous forme synthétique à l' information stratégique dont elles ont besoin pour la prise de décision. Source : www.commentcamarche.net

2.2 Datamart

Sous ensemble d' entrepôt de données, contenant des informations se rapportant à un un secteur d' activité particulier de l' entreprise ou à un métier qui y est exercé (commercial, marketing, comptabilité, etc.). Source : www.journaldunet.com

2.3 ETL (Extract, Transform, Load)

Outil informatique destiné à extraire des données de diverses sources (bases de données de production, fichiers, Internet, etc.), à les transformer et à les charger dans un entrepôt de données. Source : www.journaldunet.com

2.4 Datamining

Recherche de corrélations/liens schématiques dans une base d' informations volumineuse ou complexe dans le but de les transformer en connaissance. Source : www.journaldunet.com

2.5 Cube et hypercube

Représentation abstraite d' informations multidimensionnelles exclusivement numériques utilisée par l' approche OLAP (acronyme de On-line Analytical Processing). Cette structure est prévue à des fins d' analyses interactives par une ou plusieurs personnes (souvent ni informaticiens ni statisticiens) du métier que ces données sont censées représenter Source : www.wikipedia.org

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 7/ 33

Datawarehouse et datamining
Par David Maisons

3. Système d'information décisionnel
Aujourd’hui la situation de marché est telle, que toute entreprise possède un système d’information décisionnel. Celui-ci pourra être plus ou moins complexe et élaboré, allant du simple tableau sous Excel à l’entrepôt de données. Le service attendu d’un système décisionnel est d’avoir une vue synthétique de l’entreprise, ceci dans le but de pouvoir prendre des décisions stratégiques concernant les directions et engagement à prendre. Nous allons dans quelles mesures un système d’information décisionnel peut aider, en partie, à répondre à ces problèmes.

3.1 La problématique de l’entreprise

“ La Problématique de l’Entreprise ”, ce titre amène naturellement à définir la position de l’entreprise par rapport au sujet “ le Datawarehouse, le Datamining ”. Une entreprise se doit en permanence de pouvoir se situer par rapport a la concurrence, mais également par rapport a la demande et a ce qu’elle peut offrir. C’est sur ces points qu’un système décisionnel intervient. 3.1.1 Une entreprise Une entreprise est une organisation dotée d’une mission et d’un objectif métier. Elle doit gérer sa raison d’être et/ou sa pérennité au travers de différents objectifs (sécurité, développement, rentabilité). Par voie de conséquence, cette organisation humaine est dotée d’un centre de décision. 3.1.2 Le rôle de décideur Le décideur peut-être le responsable de l’entreprise, le responsable d’une fonction ou d’un secteur. Il est donc celui qui engage la pérennité ou la raison d’être de l’entreprise. Pour ces raisons, il doit s’entourer de différents moyens lui permettant une prise de décision la plus pertinente. Parmi ces moyens, les datawarehouses ont une place primordiale. En effet, ils contiennent les données de toute l’activité de l’entreprise. Le principal problème réside dans l’exploitation de ces informations. Pour cela, il est primordial de bien penser le datamining. 3.1.3 Le besoin Pour faire face à la concurrence qu’engendre la mondialisation, les entreprises doivent être de plus en plus performantes et rapides dans leurs prises de décisions. D’autre part, les volumes de données suivent un accroissement continu pouvant atteindre plusieurs Téraoctets pour une société. Bien entendu, ces informations ne se trouvent pas sur un système unique. Prenons l’exemple d’une entreprise quelconque. Elle possède un système de gestion de ses employés basé sur une application développée en interne, un autre système gérant ses achats basés sur un ERP, un système de facturation, etc. Chaque système d’information gère un domaine différent de l’entreprise (un « métier » différent) et possède sa propre structure de donnée ainsi que sa propre politique d’accès aux données. Cela provoque un manque de cohérence et des difficultés d’accès à l’information allongeant d’autant plus le temps de prise de décision.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 8/ 33

Datawarehouse et datamining
Par David Maisons

Ceci pose la problématique suivante : Comment prendre des décisions sur la base d’informations issues de systèmes hétérogènes n’aillant pas de moyens pour communiquer facilement entre eux. Le datawarehouse répond en partie à cette problématique. En effet, cette base de données regroupe l’ensemble des informations de l’entreprise de façon cohérente dans le but de faciliter l’analyse et la prise de décision.

3.2 Informatique décisionnelle

L’informatique décisionnelle (en anglais : DSS pour Decision Support System) trouve sa place dans l’architecture plus large d’un système d' information. L’informatique décisionnelle représente un ensemble de moyens, d’outils et de méthodes permettant de collecter, consolider, modéliser et de restituer les données de l’entreprise dans le but d’apporter une aide à la prise de décision. Un autre atout de l’informatique décisionnelle est de permettre aux responsables de la stratégie d' entreprise d’avoir une vue d’ensemble de une l’activité traitée. La maturité des décisionnels peut être illustrée en cinq étapes :

3.3 Fonctions et Architecture

Tout système d’information décisionnelle, telle que le sont les datawarehouse mettent en œuvre cinq fonctions fondamentales : la collecte, l’intégration, la diffusion, la présentation et l’administration des données.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 9/ 33

Datawarehouse et datamining
Par David Maisons

3.3.1 Collecte la collecte des données brutes dans leurs environnements d' origine, ce qui implique des activités plus ou moins élaborées de détection et de filtrage, car un excédent de données, un défaut de fiabilité ou un trop mauvais rapport signal/bruit sont pires que l' absence de données 3.3.2 Intégration L’intégration des données, c' est-à-dire leur regroupement en un ensemble technique, logique et sémantique homogène approprié aux besoins de l' organisation 3.3.3 Diffusion La diffusion, ou la distribution d' informations élaborées à partir des données dans des contextes appropriés aux besoins des individus ou des groupes de travail utilisateurs 3.3.4 Présentation La présentation, c' est-à-dire les conditions de mise à disposition de l' information (contrôle d' accès, personnalisation, ergonomie...) 3.3.5 Administration L’administration, qui gère le dictionnaire de données et le processus d' alimentation de bout en bout, car le système d’information décisionnelle doit-être lui-même piloté. En pratique, les fonctions de collecte et d' intégration sont étroitement liées entre elles, et sont généralement associées au datawarehouse. De même, diffusion et présentation sont des fonctions fortement "orientées sujet", tournées vers l' utilisateur et son métier, manipulant des contenus à forte valeur ajoutée informationnelle et non des données brutes; elles sont donc fortement imbriquées logiquement et techniquement.

Dans notre monde actuel, fait de communications, une entreprise pour survivre doit pouvoir se situer face à la concurrence, connaître son rapport offre / demande. Pour cela, il faut se connaître, et l’informatique décisionnelle, au travers d’un datawarehouse apporte tous les éléments de réponse.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 10/ 33

Datawarehouse et datamining
Par David Maisons

4. Problématiques d'alimentation
Les données contenues dans un datawarehouse sont issues des différentes bases de données de l’entreprise. Ces bases de production, systèmes opérants de l’entreprise, correspondent à l’ensemble des applications informatiques utilisées au quotidien dans l’entreprise pour son activité (gestion de production, gestion bancaire, gestion commerciale,...). Les informations qui y sont stockées, propres à chaque application, peuvent parfois être utilisées par d’autres programmes, par l’intermédiaire de transferts de données, couramment appelés interfaces. Nous allons donc voir dans ce chapitre les outils et les méthodes permettant d’alimenter un datawarehouse tout en minimisant l’impact sur les systèmes de productions.

4.1 Le rôle du datawarehouse

La chaîne décisionnelle est composée de trois parties : Alimentation du DataWarehouse Modélisation Restitution des données : Analyse et prise des décisions

Le rôle primordial d’un datawarehouse apparaît ainsi évident dans une stratégie descensionnelle. L’alimentation du datawarehouse en est la phase la plus critique. En effet, importer des données inutiles apportera de nombreux problèmes. Cela consommera des ressources système et du temps. De plus, cela rendra les services d’analyses plus lents. Autre point à prendre en compte et la périodicité d’extraction des données. Effectivement, le plus souvent, les opérations de collecte de données sont coûteuses en ressource pour la base
Rédigé le : 11décembre 2006 EXAMEN PROBATOIRE page: 11/ 33

Datawarehouse et datamining
Par David Maisons

accédée. Il faut donc trouver un équilibre entre le délai acceptable entre deux mises a jours des tables du datawarehouse et les ressources consommées. Comme nous l’avons indiqué, le Datawarehouse est le centre de chaîne décisionnelle, les utilisateurs n’auront accès qu’aux outils de requêtage, et d’analyse Toutes parties de l’alimentation et celles de restitution des données sont gérées par une équipe informatique interne ou externe à l’entreprise spécialisée en gestion de base de données et en décisionnel.

4.2 Appréhender les besoins

De part sa nature, un datawarehouse est alimenté via les informations de l’entreprise. Or ces informatique sont stocké sous les formes les plus heterogene. On peut retrouver ainsi plusieurs type de base de données (acces, DB2, MySQL,…), des tableurs, des fichiers a plats… Il existe une quasi infinité de format de source. En générale, on retrouve trois types de contraintes à la mise en œuvre d’un datawarehouse : Alimentation des données de production aux normes des données du référentiel. Organisation du stockage des informations. Sur le plan fonctionnel, garantir l’intégrité des données par des définitions uniques et réutilisables par tous les utilisateurs. Avant de se lance dans la mise sa place, il est impératif de maîtrises les principes et les contraintes de fonctionnement du datawarehouse. La mise en place d’une base multidimensionnelle correspond donc à un certain nombre de critères : L’utilité des données : Inutile de s’encombrer avec données superflues. Le choix des données a transfert dans le cube d’analyse doit être dicté par la direction de l’analyse elle-même. Ainsi dans un datamart de type commercial, contenant l’ensemble des factures clients émises, il sera inutile de transférer les numéros de factures vers le cube d’analyse. Cet indicateur, non significatif, ne peut être rattaché à aucune dimension. Il faut donc l’écarter du transfert. Sa présence dans le cube n’apporterait rien à l’analyse mais ralentirait les temps de réponse. Le référencement : A l’inverse, toutes les données utiles seront inscrites dans les tables via un référencement strict. Cette nomenclature sera définie pour les besoins d’analyses. Ainsi les dates de factures seront rattachées à des périodes, les comptes clients vont être rattachés à des groupes de clients. La pertinence : toujours garder a l’esprit le résultat attendu. Avant de se lancer dans la constitution d’un cube, il faut vérifier que les informations qui y seront produites auront un sens. Dans une société où les clients sont de passage et n’acquièrent le plus souvent qu’un seul produit, le couple, c’est à dire le croisement de la dimension clients et de la dimension produits, n’aura aucun intérêt et n’apportera donc pas d’information, tout en générant un cube très encombrant en espace mémoire. Il est donc impératif de penser à l’organisation des dimensions du cube d’analyse en fonction de l’activité de l’entreprise. Il n’existe pas de modèle standard de données multidimensionnelles. Le modèle de données et sa structure restent en effet uniques pour chaque entreprise.
Rédigé le : 11décembre 2006 EXAMEN PROBATOIRE page: 12/ 33

Datawarehouse et datamining
Par David Maisons

4.3 Extract-Transform-Load

L’outil d’alimentation permet de paramétrer des règles de gestion, propres à l’entreprise et à son secteur d’activité. Ces règles visent elles aussi à assurer la cohérence entre les données et à ne stocker dans l’entrepôt de données que des informations préalablement mises en relation les unes avec les autres. 4.3.1 Définition « Extract-Transform-Load » est connu sous l’acronyme ETL (ou parfois : datapumping). Il s' agit d' une technologie informatique middleware permettant d' effectuer des synchronisations massives d' information d' banque de données vers une autre. Selon le une contexte, on traduira par « alimentation », « extraction », « transformation », « constitution » ou « conversion », souvent combinés. Cette technologie est basée sur trois outils : des connecteurs servant à exporter ou importer les données dans les applications (Ex : connecteur Oracle ou SAP...) des transformateurs qui manipulent les données (agrégations, filtres, conversions...) des mises en correspondance (mappages).

Le but est l'intégration de l'entreprise par ses données.

Actuellement il existe trois catégories d’outils ETL : Engine-based : les transformations sont exécutées sur un serveur ETL, disposant en général d’un référentiel. Ce genre d’outil dispose d’un moteur de transformation ; Database-embedded : les transformations sont intégrées dans la base de données. Cette fonctionnalité est très consommatrice de ressource sur la base de données. Code-generators : les transformations sont conçues et un code est généré. Ce code est déployable indépendamment de la base de données.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 13/ 33

Datawarehouse et datamining
Par David Maisons

Pourquoi tout cet intérêt ? Historiquement, les entreprises ont dépensées leurs ressources dans ce qui était visible des utilisateurs, l’aspect présentation et sur le datawarehouse. Seulement, les entreprises générant de façon exponentielle des données à traiter, elles ont dues se recentrer sur la modélisation dimensionnelle afin d’optimiser l’espace et les temps de traitement. De nos jours l’accent est plutôt mis sur les systèmes ETL. Contrairement aux idées reçues, un ETL n’est pas un simple programme d’extraction, transformation et de chargement et ne doit pas être traité de la sorte. Il s’agit bien au contraire d’un système complexe. Celons une étude de Kimball (2004) sur les ETL, il en ressort qu’un système ETL peut être découpé en 38 sous-systèmes. Cette même étude a statué que 70% d’un projet d’entrepôt de données est dédié aux systèmes ETL. La mise en place d' système ETL demande une un expertise spéciale et fait appel à plusieurs types de ressources humaines. 4.3.2 Extract L'extraction des données est la première des étapes des systèmes ETL. Le but de cette étape, est comme son nom l’indique : la lecture et l’extraction des données du système source. On imagine facilement que cette étape s’avère être critique. En effet, dans le cas ou le système source doit fonctionner en permanence (24h/24 et 7jours sur 7), il faut que l’extraction, opération couteuse en ressources, doit être fait le plus rapidement possible et souvent durant un laps de temps précis (souvent nommé « extract window »), décidé en collaboration des équipes chargés de la gestion et/ou de l’exploitation de ce système source. La complexité de l' extraction n' pas dans le processus de lecture, mais surtout dans le est respect de l' extract window. Cette contrainte est la principale raison de la séparation extraction / transformation. D' autre part, on essaye au maximum d' extraire seulement les données utiles (Mise à jour ou ajoutée après la dernière extraction) et pour ce faire on pourrait s' entendre avec le responsable du système source pour ajouter soit un flag ou encore des dates dans chacune des tables extraites, au moins deux dates : Date de création de l' enregistrement dans la table et la date de mise à jour (En général la plupart des systèmes sources disposent de ces deux dates). Par ailleurs pour ne pas perdre des données suites à des problèmes d' extraction, il est important de s' assurer que le système source ne purge pas les données avant que l' entrepôt ne les ait extraits. 4.3.3 Transform La transformation est la tâche la plus complexe et qui demande beaucoup de réflexion. Voici les grandes fonctionnalités de transformation : Nettoyage des données Standardisation des données. Conformité des données. gestion des tables de fait gestion des dimensions affectations des clés de substitution (surrogate key) gestion de l' évolution lente (Slowly changing dimension)
Rédigé le : 11décembre 2006 EXAMEN PROBATOIRE page: 14/ 33

Datawarehouse et datamining
Par David Maisons

gestion des faits arrivants en retard ( Late arriving fact) gestion des lookups ... 4.3.4 Load Le chargement permet de transférer les données vers leur destination finale. 3 cas de figures se présentent, celons l’architecture mise en place. 1) de charger les données dans l'entrepôt de données. Si la politique retenue a été de construire un entrepôt de données avec une base de données, alors les données seront chargées dans l' entrepôt. Cette approche est proche à celle de Bill Inmon. Il sera dés lors possible d’utiliser des fonctionnalités analytiques comme Oracle le permet. 2) de les charger dans des cubes de données. La deuxième possibilité est de charger les données directement dans des cubes de données sans les stocker dans un DW. Cette approche est certainement la plus proche à celle de Ralph Kimball. Un bon exemple est l' utilisation directe des cubes de données. 3) le mode hybride. La troisième possibilité est celle offre le plus d’avantages mais demande par contre plus d' effort. Le chargement des données s’effectue à la fois sur le datawarehouse et les datamarts : Un premier chargement des données dans un entrepôt de données. Un deuxième chargement dans des cubes de données. Par contre cette approche ajoute une charge de travail très considérable pour l' équipe de développement (Aucun impact sur les utilisateurs) : Une base de données à créer et à maintenir. Un exercice de réflexion sur le modèle de données du datawarehouse. Un autre exercice de réflexion sur le modèle des méta-données.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 15/ 33

Datawarehouse et datamining
Par David Maisons

4.4 Exemple de données
Chaque donnée opérationnelle peut faire l' objet d' analyse. Regardons le cas d' simple une un ticket de supermarché

On utilise le data warehouse pour compiler et analyser des mois, voire des années de données collectées aux caisses dans des centaines ou des milliers de magasins. Cette information est ensuite utilisée pour gérer les achats, déterminer des prix, optimiser le stockage, les inventaires et pour prendre des décisions concernant la configuration des magasins. Par exemple, chez Wall Mart on s’est aperçu grâce aux data warehouses que l' vendait on fréquemment en même temps des couches culottes et de la bière, parce que Monsieur est souvent chargé d’aller chercher les couches du nouveau né; d' peut-être l' où idée de rapprocher les deux rayons.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 16/ 33

Datawarehouse et datamining
Par David Maisons

4.5 Questions à se poser
Avant d’entreprendre toute démarche de construction d’un « Data warehouse », il est nécessaire de se poser un certain nombre de questions afin de vérifier que le projet que l’on étudie se situe bien dans le cadre d’un projet de « type » Data warehouse. La liste de questions suivantes permet de visualiser les points clefs : Questions à se poser Quel niveau de détail ont mes informations ? Quelles fonctions de l’entreprise sont concernées par ces données ? Les données sont-elles figées ? Besoin de comparer des données entre elles sur plusieurs années ? Quelles opérations sont à réaliser sur les données ? Réponse dans le cas d’un système de production très détaillées le plus souvent un seul service de l’entreprise Non, elles peuvent se périmer en temps réel Non, les données sont régulièrement archivées Consultation, mais surtout mise à jour et ajout de données Réponse dans le cas d’un Data warehouse synthétiques, mais avec parfois la capacité de conserver le détail Plusieurs fonctions de l’entreprise mettent en relation leurs données Oui, une donnée une fois introduite dans le Data warehouse n’est « jamais » effacée Oui, les données historiques sont conservées sur plusieurs années à des fins d’analyse Uniquement consultation des données issues des systèmes de production ou d’autres systèmes

L’alimentation d’un datawarehouse est la phase la plus critique. Il faut choisir avoir attention les données a importer, peu de données ne reflétera pas la réalité, et trop de données pénaliseront les systèmes de production. Des outils spécialisés existent afin de réaliser à moindre coût (finance et en ressources système) les opération d’extraction, de traitement et de chargement des données des bases opérationnelles vers le datawarehouse.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 17/ 33

Datawarehouse et datamining
Par David Maisons

5. Architecture d'un datawarehouse
Les systèmes opérationnels, bases de données indispensable à la vie d’une entreprise, permet d’avoir une activité journalière (gestion de stocks, base de fournisseurs/clients, etc.). Ceci n’est pas le rôle d’un datawarehouse, couplé à des outils de datamining il n’a pour unique but de faciliter la prise de décision en apportant une vue synthétisée de l’ensemble des données de l’entreprise éparpillées dans toutes ces bases opérationnelles. Dans ce chapitre nous allons commencer par voir les différences entre ces bases opérationnelles et un datawarehouse. Puis nous poursuivrons par la structure logique du datawarehouse en décrivant les différent zones composant l’architecture, ce qui nous permettra d’introduire la description des 3 grandes approches de mise en place d’un système datawarehouse. Enfin, nous finirons par une présentation de OLAP

5.1 Concept du datawarehouse

Un datawarehouse est caractérisé par quatre concepts : Orientés sujet Intégrés Historisés Non-volatiles Au travers de l’explication de ces quatre caractéristiques, nous allons voir les différences qu’il existe entre une base de données opérationnelles (systèmes sources) et les datawarehouses. 5.1.1 Orienté sujet On dit d’un datawarehouse qu’il est orienté sujet car il regroupe en son sein des informations des différents métiers (fabrication, achats, qualité) de l’entreprise. Généralement chaque métier possède des informations de familles communes, mais relatives à un sujet différent (clients, produits, contrats). Cet état de fait peut être matérialisé par le schéma suivant :

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 18/ 33

Datawarehouse et datamining
Par David Maisons

Le fait qu’un datawarehouse soit Orienté sujet permet une analyse plus pertinente des données critique car on synthétise toutes les facettes du sujet que l’on étudie. 5.1.2 Intégrées Souvent chaque métier d’une entreprise stocke ses informations dans des bases de différents types (excel, oracle, etc.) pour faire face a ce problème un datawarehouse est intégré, il regroupe ainsi l’intégralité des donnes de l’entreprise. Cela a comme avantage direct de simplifier la politique d’accès aux données aux utilisateurs tout en facilitant l’accès pour la prise de décision. Le fait de définir une hiérarchie des données uniques indépendamment du métier offre une plus grande souplesse d’évolution. Les systèmes opérationnels propre a chaque métier peuvent évoluer dans le temps, le datawarehouse est stable. Il permet d’avoir un référentiel commun à toute l’entreprise.

Comme nous l’avons vus précédemment, se sont les outils d’alimentation, les ETL, qui permettent d’avoir un datawarehouse intégré. 5.1.3 Historisés La différence la plus visible avec un système opérationnel classique et un datawarehouse est que ce dernier est historisé. C' est-à-dire que les données contenues dans un entrepôt de données reste figées dans le temps. A contrario, celles présentes dans un système opérationnel évoluent dans le temps. Elles peuvent être modifiées, voir supprimées. Si les données étaient conservées plus longtemps, un problème de temps de réponse de la base de données apparaîtra. Le datawarehouse garde une structure cohérente et opérationnelle avec des données figées dans le temps.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 19/ 33

Datawarehouse et datamining
Par David Maisons

De part son rôle, un datawarehouse conserve trois, quatre, cinq ans d’historique. Le problème de temps de réponse qui peut subvenir sur une base de données classique ne se pose pas car la modélisation même du datawarehouse est prévue pour cela. 5.1.4 Non-volatiles Une base de données métier est vivante, les données sont en perpétuelle évolution. Le meilleur exemple est la base de données servant a gérer un stock. Il est donc logique de pouvoir agir sur les données en les modifiant et/ou en les supprimant Dans le datawarehouse, une seule opération vis-à-vis du traitement des données est réaliser : le chargement Une fois que la données est dans l’entrepot de données, celle-ci n’évolue plus. Les données sont non-volatiles. Cela permet de figer les informations au moment de l’alimentation du datawarehouse.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 20/ 33

Datawarehouse et datamining
Par David Maisons

5.1.5 Les méta-données Un datawarehouse permet d’agréger et de consolider les données afin de les exploiter. Mais l’intérêt du datawarehouse est de conserver la trace des données produites après l’application des règles de gestion. Cela est rendu possible grâce aux méta-données, c’est à dire les « données sur les données ». Ces méta-données permettent de stocker des informations telles que le nom de la base de production dont la donnée est extraite, la date et l’heure de la dernière extraction, la fréquence de mise à jour de cette information, ... Il est ainsi possible à partir une donnée agrégée de remonter à la base de source, et l’ensemble des données qui ont servi à la produire. Sans référentiel qui qualifie de façon précise ce que signifie chaque valeur dans la base, il n' pas possible de conduire une analyse et interpréter les résultats. C' ce rôle que joue est est l' annuaire des méta-données.

5.2 Les differentes zones
5.2.1.1 Le staging area

Le staging area est une zone temporaire qui permet le stockage des données extraites des systèmes sources. C' dans le staging area que vont s’effetuer les différentes est transformations : Le nettoyage des données, le merge, la standardisation, le déduplication... des données. Les données dans le staging area sont détruites une fois le chargement réalisé.
5.2.1.2 Le Datawarehouse

Les données du staging area sont transférées vers le datawarehouse. Il est important de noter que le métadata(fichier contenant les méta-données) est aussi stocké dans le datawarehouse. Le Datawarehouse est centrale et devrait être contenir toutes les données de l' entreprise.
5.2.1.3 La zone présentation

La zone de présentation est l’interface visible du datawarehouse par les utilisateurs. C’est ici qu’ils pourront exécuter leurs requêtes afin d’accéder aux données, analyser et visualiser les informations produites du datawarehouse.

5.3 Datamarts et Architecture
5.3.1 Les datamarts Une architecture informatique décisionnelle est généralement constituée des éléments suivants : Les bases de production contenant les informations Le staging Area, zone de stockage des données avant traitement. Le datawarehouse, l’entrepôt de donnée lui-même. Les datamarts, cubes affichant une vue métier.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 21/ 33

Datawarehouse et datamining
Par David Maisons

Il existe plusieurs approches pour mettre en place un Datawarehouse. Par contre seulement trois approches sont communes. Il s' de : agit l' approche "Bottom-up", ou Datamarts indépendant de Kimball l' approche "Top-Down" ou Datamarts dépendant prônée par B.Inmon l' approche "Hybride" qui dérive des deux premières approches. Il serait utopique de croire qu’il existe une approche idéale. Il faut rechercher l’approche la plus adaptée à son contexte. 5.3.2 Datamarts Indépendants Selon Kimball la première étape est la conception du modèle dimensionnel pour les datamarts, c' est-à-dire ayant une vue métier. Celui-ci placera les datamarts au centre de l’architecture. Le reste sera composé d’un staging area temporaire. Dans cette approche, on dit que les datamarts sont centraux car ils peuvent contenir à la fois des données atomique et agrégées, et qu’ils offre la possibilité de fournir une vue entreprise et une vue métier. Il est a noté que l’implantation des datamarts se fait d’une façon incrémentale et intégrée. Pour finir, les utilisateurs ne peuvent effectuer des requêtes sur le staging area. Le staging area : comme dit précédemment, le staging area est temporaire. Il n’as pour fonction que le stockage des données extraites des systèmes sources et les différentes opération de transformations savoir : Le nettoyage des données, le merge, la standardisation, le déduplication... des données. Le staging area est dit temporaire car les données sont détruites une fois le chargement des datamarts terminé. Les datamarts indépendants : Les données sont donc transférées du staging area vers le datamart concerné. Il est important de noter que le métadata est aussi stocké dans le datamart. Les datamarts sont dit indépendants ce qui veut dire qu' n' il existe aucune intégration ou communication entre ces derniers.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 22/ 33

Datawarehouse et datamining
Par David Maisons

La zone présentation : lorsque les datamarts sont chargés, les utilisateurs peuvent, via la zone de présentation, exécuter leurs requêtes Ad hoc, programmer les rapports, analyser et visualiser l' information en provenance des datamarts. 5.3.3 Datamarts dépendants ODS Selon B.Inmon, c’est le datawarehouse qui est au centre de l’architecture. La première étape est donc de concevoir un modèle de datawarehouse mais au niveau entreprise cette fois-ci et non plus métier. Cette architecture sera de type multi-tier composée du staging area, du datawarehouse et des datamarts. Le staging area sera permanent et les datamarts seront interdépendants. C’est à dire qu’ils communiqueront entre eux. La principale caractéristique de cette approche réside dans le fait que c’est le datawarehouse qui contient les données atomiques. Il utilise un modèle normalisé de toute l’entreprise. Il est donc orienté entreprise, a l’opposé des datamarts qui eux orientés métier. Ces derniers utilisent des modèles dimensionnels orientés métier. Les données y sont stockées sous formes agrégées. Pour finir, les utilisateurs peuvent effectuer des requêtes sur le datawarehouse et sur les datamarts. Operational Data Store (ODS): sont rôle est double : il rempli la fonction de stagin area avec toutes les opérations habituelles : stockage des données extraites des systèmes sources, les différentes transformations (nettoyage des données, le merge, la standardisation, le déduplication...). Par contre les données dans l' ODS ne sont détruites qu' après la durée de vie des données dans l' ODS, facteur définit par l' organisation et dépend de plusieurs critères. Le deuxième rôle d' ODS et c' surtout sa raison d' c' d' un est être est intégrer les données sources dans le but de présenter toute l' information nécessaire à prendre des décisions tactiques. Le datawarehouse : Les données de l' ODS sont transférées vers le datawarehouse. Le Data warehouse est centrale, et d' ailleurs B.Inmon le nome Entreprise DataWarehouse (EDW). Il doit contenir toutes les données de l' entreprise. Les datamarts dépendants : Deux possibilités pour alimenter les datamarts : soit depuis l’ODS soit depuis le datawarehouse. Ces datamarts sont dépendants. La zone présentation : lorsque les datamarts sont chargés, les utilisateurs peuvent, via la zone de présentation, exécuter leurs requêtes Ad hoc, programmer les rapports, analyser et visualiser l' information. 5.3.4 Hybride Cette approche, comme son nom l’indique, est un mix des deux premières approches. On commence par concevoir un modèle de données de l' entreprise en même temps que les modèles spécifiques. Puis on crée un modèle normalisé d' entreprise de haut niveau ; génère les modèles des premiers datamarts qui seront chargés avec les données atomiques en utilisant un staging area temporaire. Un outil ETL sera utilisé pour charger les datamarts et pour échanger le métadata avec ces derniers. Les avantages sont nombreux : possibilité de recharger les cubes. Les données sont stockées dans une base de données de l' entrepôt de données. possibilité de garder les faits et les dimensions dans leur détail de grain le plus fin.
Rédigé le : 11décembre 2006 EXAMEN PROBATOIRE page: 23/ 33

Datawarehouse et datamining
Par David Maisons

la possibilité de créer des agrégats... une plus grande flexibilité à retraiter les données, les corriger. ne pas avoir à charger le détail dans les cubes. Ils restent utilisés pour les analyses de plus haut niveau. Si il le besoin d’accéder aux détails plus fin se présente, une lecture est effectuée sur l’entrepôt de données. En contre partie, cette approche entraîne une plus grande charge de travail aux équipes d’administration et d’exploitation.

5.4 OLAP

nline Analytical Processing (OLAP), désigne les bases de données multidimensionnelles ou cubes destinées à l' analyse. Ce terme s' oppose à OLTP qui désigne les systèmes transactionnels. OLAP a été défini par Ted Codd en 1993 au travers de 12 règles que doit respecter une base de données si elle veut adhérer au concept OLAP. Nigel Pendse récapitule la définition de l' OLAP en cinq mot : Fast Analysis of Shared Multidimensional Information (FASMI) traduit en français comme suit : « Analyse Rapide d' Information Multidimensionnelle Partagée ». OLAP est un mode de stockage prévu pour l’analyse statistique des données. Une base de données OLAP peut se représenter comme un cube à N dimensions où toutes les intersections sont pré-calculées. L’exemple suivant ne possède que trois dimensions pour que l’on puisse le représenter visuellement mais ce n’est en aucun cas une limite. Il s’agit d’un cube représentant les ventes de fruits d’une entreprise. Les trois axes représentés sont : Le pays de vente Le type de fruit La période

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 24/ 33

Datawarehouse et datamining
Par David Maisons

La force de OLAP tient dans le fait que comme toutes les intersections du cube sont calculées. L’accès accéder à l’information voulue est une opération très rapide, quasiment instantanée. En effet, le résultat voulu se trouve aux croisements des différentes dimensions.

Un datawarehouse a pour vocation l’aide à la prise de décision en présentant une vue synthétisée des données de toute l’entreprise. C’est dans cette optique que son architecture est pensée. Il est orienté sujet, intégré, historisé et nonvolatiles. Trois grands courant de penser se confronte quant à son architecture. Les datamarts dépendant ou indépendant. Le troisième mixant les deux. Alimenter le datawarehouse est la difficulté technique majeure et la plus coûteuse.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 25/ 33

Datawarehouse et datamining
Par David Maisons

6. Le datamining
« Les données ne naissent pas pertinentes, elles le deviennent... ». Telle pourrait être l’adage du datamining. Posséder toutes les données de son entreprise dans un entrepôt une chose, mais reste le plus important : savoir en extraire une connaissance utile. Le datamining serait donc la solution a la problématique de toute entreprise, à savoir qu’il permet de mettre en évidence les informations capitales à toutes prises de décisions. Le datamining se veut de pouvoir grâce à des outils et méthode de pouvoir extraire des informations a partir des gigantesques quantités de données. Nous allons donc étudier ces méthodes et outils du datamining.

6.1 Définition
Le terme de datamining signifie littéralement exploitation des données. Comme dans toute exploitation, le but recherché est de pouvoir extraire de la richesse. Ici, la richesse est la connaissance de l’entreprise. Fort du constat qu’il existe au sein des bases de données de chaque entreprise une ressource de données cachées et surtout inexploitée, le datamining permet de faire les apparaître, et cela grâce à un certain nombre de techniques spécifiques. Nous appellerons datamining l' ensemble des techniques qui permettent de transformer les données en connaissances. Le périmètre d’exploitation du datamining ne se limite pas à l’exploitation des datawarehouses. Il veut d’être capable d’exploiter toutes bases de données contenant de grandes quantités de données telles que des bases relationnelles, des entrepôts de données mais également des sources plus ou moins structurées comme internet. Dans ces cas, il faut néanmoins construire une base de données ou un entrepôt de données qui sera dédié à l’analyse.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 26/ 33

Datawarehouse et datamining
Par David Maisons

Comme le montre la figure précédente, le datamining est un processus itératif qui met en œuvre un ensemble de techniques hétéroclites tel que des bases de données (datawarehouse), de la statistique, de l’intelligence artificielle, de l’analyse des données, des interfaces de communication homme-machine. Le résultat du datamining peut se présenter sous différent format : texte plat, tableau, graphique… Le datamining est un ensemble d’outils d’analyse d’entrepôt de données et de cube apportant au décisionnaire des éléments supplémentaire de prise de décisions qui ne sont pas forcement visible aux premiers abords.

6.2 Datamining, un triple objectif
6.2.1 Expliquer Le datamining pourra tenter d’expliquer un événement ou un incident indiscernable. Par la consultation des informations contenues dans l’entrepôt de données de l’entreprise, on peut être en mesure de formuler la question suivante : Pour qu’elle raison perd-t-on des clients pour produit spécifique dans une région précise ? Tout en se basant sur des données connectées ou des mises en signification de paramètres liés, le datamining va essayer de trouver un certain nombre d’explication à cette question. Le Datamining va aider à trouver des hypothèses d’explications. 6.2.2 Confirmer Le datamining aidera à confirmer un comportement ou une hypothèse. Dans le cas où le décisionnaire aurait un doute concernant une hypothèse, le datamining pourra tenter de confirmer cette hypothèse en la vérifiant en appliquant des méthodes statistiques ou d’intelligence artificielle. 6.2.3 Explorer Enfin, le datamining peut explorer les données pour découvrir un lien "inconnu" jusqu là. Quand le décisionnaire n’as pas d’hypothèse ou d’idée sur un fait précis, il peut demander au système de proposer des associations ou des corrélations qui pourront aboutir a une explication. Il est utopique de croire que le datamining pourrait remplacer la réflexion humaine. Le datamining ne doit être vu et utiliser uniquement en tant qu’aide à la prise de décision. Par contre, l’informatique décisionnelle dans son ensemble, et plus particulièrement le datamining permet de suggérer des hypothèses. La décision finale appartiendra toujours au décideur

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 27/ 33

Datawarehouse et datamining
Par David Maisons

6.3 Principales méthodes du Datamining

Pour arriver à exploiter ces quantités importantes de données, le datamining utilise des méthodes d’apprentissages automatiques. Une amalgame est faite à tord entre toutes ces méthodes. Ces methodes sont de deux types : les techniques descriptives et les techniques prédictives, selon qu' existe ou non une variable "cible" que l' cherche à expliquer. il on 6.3.1 Analyse descriptive (par Classification) Le principe de ces méthodes est de pouvoir mettre en évidence les informations présentes dans le datawarehouse mais qui sont masquées par la masse de donnée. Parmi les techniques et algorithmes utilisés dans l' analyse descriptive, on cite : Analyse factorielle (ACP et ACM) Méthode des centres mobiles Classification hiérarchique Classification neuronale (réseau de Kohonen) Recherche d' association … . 6.3.2 Analyse prédictive (Par réseaux de neurones) Contrairement a l’analyse descriptive, cette technique fait appels a de l’intelligence artificielle. L’analyse prédictive, est comme son nom l’indique une technique qui va essayer de prévoir une évolution des événements en se basant sur l’exploitation ce ceux stockés dans le datawarehouse. En effet, l’observation et l’historisation des événements peuvent permettre de prédire une suite logique. Le meilleur exemple est celui des prévisions météorologiques qui se base sur des études des évolutions météorologiques passées. En marketing, l' objectif est par exemple de déterminer les profils d' individus présentant une probabilité importante d' achat ou encore de prévoir à partir de quel moment un client deviendra infidèle. Parmi les techniques et algorithmes utilisés dans l' analyse prédictive, on cite : Arbre de décision Réseaux de neurones Régression linéaire Analyse discriminante de Fisher Analyse probabiliste ...

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 28/ 33

Datawarehouse et datamining
Par David Maisons

6.4 Les techniques

Derrière ces analyses se positionnent des outils basés sur des techniques différentes. Je vous propose une présentation des plus importante de ces techniques. Découverte de règles Arbres de décision Signal Processing Fractales Réseaux neuronaux Hybride

6.4.1 Découverte de règles Le but étant de construire une règle logique et empirique applicable dans un contexte précis. Le principe de cette technique est double. On peut d’une part demande au système de valider une règle en la justifiant ou l’invalidant grâce a ses données, ou bien d’autre part demander au système d’établir une règle en fonction des données qu’il possède. 6.4.2 Arbres de décision Le but de cette technique est de créer un arbre de décision procédant a une analyse critère par critère. La détermination de ces critères significatifs est faite selon les poids statistiques des valeurs. L’outil de datamining va parcourir les différents critères possibles, dont la finalité sera de trouver des liens entre les chemins qui ont une signification par rapport à la problématique donnée. 6.4.3 Signal Processing Mise en évidence d’un comportement de données en les filtrant. Cette technique consiste e appliquer un filtre à travers une hypothèse afin de faire apparaître un lien entre ces données. 6.4.4 Fractales Technique se basant sur des algorithmes mathématique. Composer des segmentations à partir de modèles mathématiques basés sur des regroupements irréguliers de données. 6.4.5 Réseaux neuronaux Utiliser des technologies d’intelligence artificielle afin de découvrir par l’apprentissage du moteur des liens non procéduraux. Ces deux dernières techniques s’appuient sur des algorithmes mathématiques et tentent à travers des méthodes d’apprentissage de constituer des logiques non procédurales.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 29/ 33

Datawarehouse et datamining
Par David Maisons

6.5 Le cercle vertueux

Le cercle vertueux du datamining est ce qui lui permettre de garder une cohérence dans le temp. Celui-ci est composé de quatre étapes : Identifier le domaine d' étude Préparer les données Agir sur la base de données Evaluer les actions

1. On commence en premier lieu à identifier le domaine d' étude. Le principe est de répondre aux questions : de quoi parlons nous et que voulons nous faire ? L’objectif général est défini dans cette étape. 2. La deuxième étape est de recenser les données relative au domaine précédemment défini, puis les préparer, c' est-à-dire les regrouper afin d’en facilité l’exploration. 3. La troisième étape consiste à mettre en œuvre une ou plusieurs techniques de datamining pour une première analyse. Après évaluation et étude des résultats, des actions sont mises en œuvre. 4. La dernière étape consistera à évaluer ces actions, et par-là même la performance du datamining, voire le retour sur investissements. L' achèvement du premier cycle débouche souvent sur l' expression de nouveaux objectifs affinés, ce qui nous ramène à la première étape …

Le datamining permet de fournir au décideur toutes les informations nécessaires à la prise de décision. Le datamining s’appuis sur des outils statiques/mathématique ou d’intelligence artificielle pour recherche des schémas logique.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 30/ 33

Datawarehouse et datamining
Par David Maisons

7. L'évolution du Datawarehouse et du datamining
7.1 Le distribué
Ces dernières années, le datawarehouse et le datamining ont évolués en optimisant certains process ou stockage. Mais c’est surtout le hardware, toujours plus puissant, plus rapide qui a permis de traiter ce volume de donnée toujours plus important. Aujourd’hui, il est courant de voir des datawarehouses de plusieurs téraoctets !!! Mais une véritable révolution est en train de naître. Certaines sociétés, comme SUN, IBM, SAS, spécialisées dans le business intelligence autrement dis dans l’informatique décisionnelle, ont réussi à porter le datawarehouse et surtout les outils de datamining sur une plateforme distribuée de type grille (grid computing)

En automatisant la fonction de "grid computing" dans de multiples applications, le datamining vois ainsi sa flexibilité, son évolutivité et sa fiabilité fortement optimisée. On peut espérer voir réduire considérablement le temps de traitement des données, et les entreprise pourront intégrer et donc analyser une quantité encore plus accrue de données. A ce stade, l’intégration des données d’une entreprise devient réellement critique. Les systèmes des entreprises sont de plus en plus souvent dit « système temps réel », où les bases de données doivent être opérationnelle et disponible 24H/24, 7jours/7. La fenêtre de temps durant la quelle la collecte de données est permise se vois devenir de plus en plus courte pour un volume toujours de données toujours plus important. Fort de ce constat, ce ne sont pas seulement le datawarehouse, mais également des outils d’extraction de donnée qui sont portés sur une grille.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 31/ 33

Datawarehouse et datamining
Par David Maisons

8. Conclusion
C’est un fait ! Nous sommes tous donc bien fichés dans les immenses entrepôts de données que possèdent les entreprises. Nos faits, déplacements, achats,…, ce sont toutes les données relatives à notre consommation qui sont des informations vitales aux entreprises. En fusionnant cette richesse avec leurs propres données de production, les entreprises créent un véritable système informatique décisionnel. C’est ce système, qui leurs permettrons d’avoir une vue d’ensemble d’un problème sous la forme d' indicateurs de pilotage quantitatifs ou qualitatifs. Mais également de pouvoir créer des schémas de d’habitude consommation, de pouvoir « profiler » le consommateur. Mais avant d’obtenir cette « corne d’abondance », il a fallu résoudre plusieurs problèmes. Devant le volume de donnée, le datawarehouse est apparut naturellement comme élément décisif d’un système informatique décisionnel réussi. Tout projet informatique, et particulièrement celui de la mise en place d’un datawarehouse, ce doit d’être intégralement pensé avant son déploiement. Car même si un entrepôt de données utilise le principe des bases de données relationnelles, il s' distingue par de en nombreux points. Ils servent notamment à croiser les informations contenues dans les bases de production qui ne sont a priori non liées directement. Il faut également statuer sur le choix entre l’utilisation d’un entrepôt ou des datamarts pour pouvoir aborder sereinement la partie bien plus délicate de l’alimentation. Cette dernière ne devant pas être fait au dépends des ressources système des bases de production, tout en étant le plus large possible. De nombreux outils d’Extraction, de Traitement, et de Chargement existent (ETL). Qu’ils soient achetés ou développés en interne, ils permettent une meilleure intégration des données, tout en déchargeant les systèmes de production du traitement et de la mise en forme. Aujourd’hui il existe de nombreuses sociétés qui se sont spécialisées dans ce domaine. Ainsi, un datawarehouse correctement alimenté permet au décideur, personne en charge des décisions majeures d’une entreprise, d' établir des statistiques d' évolution ou de construire des plans. Cela est rendu possible par le fait qu’un datawarehouse regroupent l’ensemble des données de l’entreprise. Celles-ci sont historisées et non modifiable. Mais extraire une synthèse à partir d’un tel volume de donnée (souvent de l’ordre de plusieurs téraoctets) n’ai pas chose aisée. Il faut une architecture du système adéquate. Les données peuvent être séparées par vue métier au sein de mini datawarehouse nommé datamarts et couplé avec un mode de stockage en cube OLAP. Chaque dimension d’un cube OLAP contenant une famille de donnée. Mais cela ne suffit pas, des outils de recherche spécialisés dans recherche et l’élaboration de schéma logique (corrélation sur les évolutions des données afin de déterminer des scénarii) doivent être utilisés. C’est le datamining. Apparut dans les 1970, le datamining à énormément évoluer. L’ensemble des ses techniques sont basées sur les mathématiques tels que les statistique et/ou probabilité, c’est l’analyse multidimensionnelle, ou sur de l’intelligence artificielle pour l’analyse prédictive. Aujourd’hui, la mode du « grid computing », technique de plus en plus couramment utilisée dans le monde du calcul, intéresse fortement le monde du datawarehouse. Certaines difficultés subsistent comme la confidentialité et la sécurité des données. Mais comme bien souvent, c’est l’aspect culturel qui pose le plus de barrière.

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 32/ 33

Datawarehouse et datamining
Par David Maisons

Bibliographie
http://www.datawarehouse.com Portail dédié au datawarehouse http://www.journaldunet.com Portail de nouvelles informatiques. http://www.wikipedia.org Encyclopédie libre http://www.commentcamarche.net Encyclopédie informatique http://jean.marie.gouarne.online.fr Pages personnel d’un consultant informatique http://www.guideinformatique.com L’information professionnelle des decideurs http://www.systemeetl.com Site indépendant consacré aux systèmes ETL, la modélisation dimensionnelle et le data warehousing. http://www.dwfacile.com Site de formation et d'information concernant l'analyse stratégique, le scorecarding et la businnes intelligence, le data warehousing, la modélisation dimensionnelle et les systèmes ETL. http://www.decisionnel.net Site consacré à l’information décisionnelle de l'entreprise. http://www.web-datamining.net Site d'information et d'échanges continus sur les évolutions du DataMining

Rédigé le : 11décembre 2006

EXAMEN PROBATOIRE

page: 33/ 33

Sponsor Documents

Or use your account on DocShare.tips

Hide

Forgot your password?

Or register your new account on DocShare.tips

Hide

Lost your password? Please enter your email address. You will receive a link to create a new password.

Back to log-in

Close