A propos de la formation Formation Big Data & machine learning

Détails

Categorie : BI & Big Data
Duree : 10 jours

Objectifs pédagogiques de la formation Formation Big Data & machine learning

Qui devrait suivre cette formation Formation Big Data & machine learning ?

Public visé par la formation Formation Big Data & machine learning

Ingénieurs, analystes, responsables marketing. Data Analysts, Data Scientists, Data Steward Toute personne intéressée par les techniques de Data Mining et de Machine Learning.

Prérequis de la formation Formation Big Data & machine learning

Il est recommandé d'avoir une culture générale de base en informatique (OS, base de données, etc.).

Formations Similaires

Qlikview Détails
Qlik Sense Détails
SAP HANA Détails
SAP BI(BO) Détails
Suite Microsoft (SSIS-SSAS-SSRS) Détails
Data Science Détails
Python Détails
Talend Détails
Microsoft BI (MCSE) Détails
Microsoft Power BI Détails
sap bi / bw Détails
Informatica PowerCenter Détails
Formation Big Data & machine learning Détails

Déroulé de la formation Formation Big Data & machine learning

Partie 1: Big Data

Contexte et opportunités du Big Data

Les origines du Big Data
Les données au cœur des enjeux
Explosion du nombre de données
La place des objets connectés dans le Big Data
Données structurées, semi-structurées, non structurées
Comment disposer de données de « qualité » ?
Les limites des architectures actuelles
Définition d’un système Big Data
Différences entre BI, Big Data et Data Science ?

Sécurité éthique et enjeux juridiques du Big Data

Les données personnellesLes informations sensibles, interdites de collecte
La CNIL régule les données numériques
Les accords intra-pays

Open data

La philosophie des données ouvertes et les objectifs
Bénéfices escomptés
Synergie avec le Big Data

Les projets Big Data en entreprise

Spécificités d’un projet Big Data
Enjeux stratégiques et organisationnels
L’innovation constante accélère le phénomène
Nouvelles technologies de transmission (vitesse de connexion accrue, mobiles en constante amélioration)
Objets connectés et domotique
Zoom sur le marché des biens et services proposés aux consommateurs
Fusionner les données exogènes et endogènes pour mieux comprendre les usagers
Méthodes de traitement de l’information : du traitement batch, au traitement temps réel
Architectures décisionnelles d’aujourd’hui
Les lacs de données (Datalake) en pleine émergence
Exemple de cahier des charges

Architecture et infrastructure Big Data

Cohabitation des solutions SGBDR et NoSQL
Les outils permettant d’extraire les données (ETL)
La nécessité de “nettoyer” les données (dataquality)
Exemple de traitement avec un ETL dédié Big data
L’apport d’un MDM (Master Data Manager)
Le stockage avec Hadoop (base de données Hbase, système de fichiers distribué HDFS)
Solutions big data alternatives (Sybase IQ, SAP Hana, Vectorwise, HP Vertica, etc.)

L’analyse des données et la visualisation

Définition de l’analyse statistique
Requêter avec Hive
Analyser les données (Pig, Mahout, etc.)
Intégrer les données grâce à Sqoop

Le développement d’applications Big Data

La philosophie de MapReduce (clef, valeur)
L’apport d’Apache Spark
Machine learning et prédiction des données (Scala, Spark MLibs, etc.)
Interconnexion avec les outils SPSS, R, SAS
Conclusion : quelle famille et quel type de langage pour quel besoin ?

La visualisation des données (Dataviz)

Ce que les statistiques ne disent pas
Data visualisation et cas d'usage concrets
Quels graphes pour quels usages ?
Représentation de données complexes (encodage visuel, visualisation interactive)
Savoir communiquer sur les analyses de données (Data Storytelling)
Synthèse des principaux outils utilisés dans les projets

Démonstration d’un environnement distribué Hadoop

Les moteurs de recherche de grande envergure
Présentation Lucene, Solr
Mécanisme de traitement
Gestion des journaux applicatifs
Mécanismes et architecture Apache Flume
La relation entre Cloud et Big Data
Motivation entre clouds publics et privés
Les clouds de stockage
Se reconcentrer sur les problématiques métiers, grâce aux services managés

Partie 2: Machine Learning

Introduction à la formation Machine Learning

Intelligence Artificielle, Big Data, Data Science et Machine Learning : définitions et principes fondamentaux
Retour historique sur l’apprentissage automatique
Champs d’application du machine learning
Terminologie (étiquette, caractéristique, modèle, inférence…)
Exemples de mise en œuvre du machine learning
Principaux outils : Jupyter notebooks, scikit-learn, Pandas, BigML, Dataiku

Rappels mathématiques (vecteurs, loi normale, probabilité conditionnelle…)

Rappels sur la programmation en Python et notebooks Jupyter
Catégorisation des techniques et algorithmes d’apprentissage

Apprentissage supervisé
Classification et régression
Apprentissage non-supervisé
Clustering
Principaux algorithmes : Support Vector Machines, modèles de probabilité, arbres de décision, etc
Modéliser les problématiques d’entreprise en problèmes de machine learning
Workflow pour la construction d’un modèle
Choisir un type d’apprentissage et un algorithme pertinents

Obtention et préparation des données

Rappels sur les données (format, structuration, collecte, visualisation, interprétation)
Obtenir les données
La librairie open source scikit-learn
Techniques d’exploration des données
Feature Engineering (ingénierie des caractéristiques)
Extraction et sélection des features
Réduction de la dimension des données
L’analyse en composantes principales (PCA)

Evaluation des modèles d’apprentissage

Partitionner les données en ensembles d’apprentissage, de test et de validation
Exemples pour l’entraînement d’un modèle
Exemples pour le test d’un modèle
Mesures de performance : précision et rappel, matrices de confusion, cross-validation
Généralisation et risque de surapprentissage
L’intuition derrière les techniques d’apprentissage

Régression

Principaux cas d’utilisation
Régression linéaire simple
Méthode des moindres carrés ordinaire
Fonction de coût et algorithme du gradient
Régularisation : régression ridge et lasso
Les différents types de régression : multiple, polynomiale, SVR, arbre de décision, random forest, etc
Les métriques de la régression

Classification

Principaux cas d’utilisation
Régression logistique
Méthode des k plus proches voisins (k-NN)
Machine à vecteurs de support (SVM)
Kernel SVM
Classification naïve bayésienne (Naive Bayes)
Classification avec un arbre de décision et random forest
Les métriques de la classification

Clustering (segmentation)

Principes et principaux algorithmes
Méthode des k-moyennes (k-means)
Clustering hiérarchique
Clustering par densité

Introduction au Deep Learning (apprentissage profond)

Présentation générale et principes du Deep Learning
Les réseaux neuronaux artificiels
La bibliothèque TensorFlow
Cas d’utilisation, défis et perspectives

Formations Similaires

Qlikview Détails

Qlik Sense Détails

SAP HANA Détails

SAP BI(BO) Détails

Suite Microsoft (SSIS-SSAS-SSRS) Détails

Data Science Détails

Python Détails

Talend Détails

Microsoft BI (MCSE) Détails

Microsoft Power BI Détails

sap bi / bw Détails

Informatica PowerCenter Détails

Formation Big Data & machine learning Détails

Catégorie

BI & Big Data

Durée

10 jours

Nous contacter

Votre Nom / Nom Entreprise

Telephone

Lieu souhaité pour la formation :

Comment nous avez-vous connu ?

Message

Formation Formation Big Data & machine learning