10 choses à faire et à ne pas faire en matière de big data

POINTS CLÉS À RETENIR

Le Big Data est un domaine nouveau et émergent pour la plupart des entreprises. Pour qu'il fonctionne, il faut un réglage minutieux et l'utilisation des meilleures pratiques.

Les big data sont utilisées et appliquées dans de nombreux domaines d’activité à mesure que l’analyse des données, l’intelligence artificielle et l’apprentissage automatique continuent à se généraliser. L’analyse des big data permet d’extraire la valeur réelle de cette masse de données, qui peuvent être structurées, non structurées ou semi-structurées.

L’émergence des médias sociaux a donné lieu à de nombreuses nouvelles opportunités de collecter des données sur le comportement des clients. En voici quelques exemples :

  • Les données de parcours proviennent des interactions avec les sites web, telles que les clics de souris et le défilement des pages web.
  • Les sites de commerce social sont des communautés en ligne de clients désireux de partager des informations sur leur comportement d’achat.
  • Les capteurs fournissent des données sur l’environnement physique des clients, telles que la température, l’humidité et les schémas de circulation.

Les informations obtenues grâce à l’analyse des données peuvent aider les organisations dans leur processus de prise de décision. Mais le véritable avantage du big data n’est atteint que s’il est géré de manière appropriée. Les organisations peuvent éviter de se perdre dans l’espace big data en s’assurant qu’elles identifient le point de départ avec des cas d’utilisation simples et qu’elles le mettent en œuvre pour vérifier rapidement les résultats.

La première étape avant de lancer une initiative de big data est une bonne planification. Une organisation doit clairement connaître l’objectif du projet. Elle doit également déterminer la valeur qu’elle souhaite extraire et l’impact qu’elle aura sur les décisions de l’entreprise. Il convient de choisir le domaine le plus prometteur pour commencer.

Dans cet article, nous allons explorer quelques-unes des choses à faire et à ne pas faire dans le cadre d’initiatives de big data.

1. Connaître l’objectif et le point de départ

L’objectif de la collecte de données et l’identification du point de départ sont essentiels à la réussite de tout projet de big data. Pour commencer, l’objectif devrait être d’identifier les cas d’utilisation les plus prometteurs pour l’entreprise. Cela aidera l’organisation à identifier les composants pour ces cas d’utilisation.

Ensuite, il convient de planifier correctement l’application des techniques Big Data à ces cas d’utilisation et d’en extraire des informations précieuses pour la croissance de l’entreprise. La priorité d’exécution doit dépendre de facteurs tels que

  • Le coût de la mise en œuvre.
  • L’impact prévu sur l’entreprise.
  • Le temps nécessaire au lancement.
  • La rapidité de la mise en œuvre.

Les organisations devraient toujours commencer par une application simple et facile à mettre en œuvre dans le cadre d’un projet pilote. (Lire aussi : Pourquoi vous devriez abandonner votre outil de gestion de projet au profit d’un système d’exploitation professionnel).

2. Évaluer correctement les licences de données

Les données sont le carburant de tout projet de big data et d’analyse. Il est donc très important de les protéger contre toute utilisation abusive. Des conditions de licence appropriées doivent être mises en place avant d’accorder l’accès aux données à un fournisseur ou à un utilisateur tiers. La licence d’utilisation des données doit mentionner clairement les points fondamentaux suivants. De nombreux autres paramètres essentiels figurent également dans l’accord de licence.

  • Qui va utiliser les données ?
  • Quelles données seront accessibles ?
  • Comment les données seront-elles utilisées ?

En cas d’échec dans l’octroi de la licence, la perte et l’utilisation abusive de données qui en résulteront auront un impact négatif indéniable sur l’entreprise.

3. Permettre la démocratisation des données

La démocratisation des données peut être définie comme un processus continu qui permet à tous les membres d’une organisation d’accéder à ces dernières. Les membres d’une organisation doivent être à l’aise pour travailler avec les données et exprimer leur opinion en toute confiance.

La démocratisation des données aide les organisations à devenir plus agiles et à prendre des décisions commerciales fondées sur les données. Cet objectif peut être atteint en établissant un processus adéquat. Tout d’abord, les données doivent être accessibles à tous les niveaux, quelle que soit la structure de l’organisation. Deuxièmement, une source unique de vérité (appelée “Golden Source”) doit être établie après validation des données. Troisièmement, chacun doit être autorisé à vérifier les données et à apporter sa contribution. Quatrièmement, les nouvelles idées peuvent être testées en prenant des risques calculés. Si la nouvelle idée est couronnée de succès, l’organisation peut aller de l’avant ; dans le cas contraire, on peut considérer qu’il s’agit d’une leçon tirée de l’expérience.

4. Construire une culture de collaboration

Dans le jeu du big data, la collaboration mutuelle entre les différents départements et groupes d’une organisation est très importante. Une initiative en matière de big data ne peut être couronnée de succès que si une culture organisationnelle appropriée est mise en place à tous les niveaux, quels que soient leurs rôles et leurs responsabilités.

La direction d’une organisation doit avoir une vision claire de l’avenir et encourager les nouvelles idées. Tous les employés et leurs départements doivent être autorisés à trouver des opportunités et à construire des preuves de concepts pour les valider. Il ne devrait pas y avoir de politique pour blâmer et arrêter le jeu. Il s’agit toujours d’un processus d’apprentissage, qui doit être accepté de la même manière pour les succès et les échecs.

5. Évaluer l’infrastructure des big data

La partie infrastructure de tout projet de big data est tout aussi importante. Le volume de données se mesure en pétaoctets, qui sont traités pour en extraire des informations. C’est pourquoi l’infrastructure de stockage et de traitement doit être évaluée correctement.

Les centres de données sont utilisés à des fins de stockage et doivent donc être évalués en termes de coûts, de gestion, de sauvegarde, de fiabilité, de sécurité, d’évolutivité et de nombreux autres facteurs. (Lire aussi : 6 principaux risques liés à l’informatique dématérialisée).

De même, le traitement des big data et l’infrastructure technologique correspondante doivent être soigneusement vérifiés avant de conclure l’accord. Les services en nuage sont généralement très flexibles en termes d’utilisation et de coût. Les fournisseurs de services en nuage établis comprennent des poids lourds comme AWS, Azure et GCP, mais il y en a beaucoup d’autres sur le marché.

6. Ne pas se perdre dans la mer de données

Une bonne gouvernance des données est très importante pour la réussite des projets de big data. Une stratégie de collecte de données appropriée doit être planifiée avant la mise en œuvre. En général, la tendance est à la collecte de toutes les données existantes d’une entreprise. Mais toutes ces données peuvent ne pas correspondre aux scénarios actuels de l’entreprise. Il est donc important d’identifier d’abord les cas d’utilisation de l’entreprise et de déterminer où les données seront appliquées.

Une fois que la stratégie de données est bien définie et qu’elle est directement liée à l’application commerciale cible, l’étape suivante de la mise en œuvre peut être planifiée. Ensuite, de nouvelles données peuvent être ajoutées pour améliorer le modèle et son efficacité.

7. N’oubliez pas l’open source

L’utilité de la technologie envisagée doit être évaluée en fonction de la taille du projet et du budget de l’organisation. De nombreuses plateformes open source sont disponibles gratuitement pour mener des projets pilotes. Les petites et moyennes entreprises peuvent explorer ces solutions open source pour commencer leur voyage dans le Big Data. L’organisation doit donc se concentrer sur les résultats et le retour sur investissement.

Hadoop est un logiciel libre qui utilise HDFS (Hadoop Distributed File System) et MapReduce pour analyser des données volumineuses sur des grappes de matériel de base, c’est-à-dire dans un environnement informatique distribué. (Lire : Comment utiliser Hadoop pour analyser des données volumineuses ?)

Le mouvement Big Data a évolué au point que Hadoop est devenu la norme de facto pour le traitement des données volumineuses. MapReduce est un modèle de programmation permettant de distribuer des données et de les traiter en parallèle sur une grappe d’ordinateurs à l’aide de modèles de programmation simples. Il a été développé par Google pour traiter efficacement de grandes quantités de données sur de grandes grappes d’ordinateurs.

8. Ne commencez pas sans une bonne planification

Il est très dangereux de lancer tous les projets de big data en une seule fois. Cette approche ne conduira probablement qu’à un succès partiel ou à un échec total. Les organisations doivent planifier correctement leurs initiatives en matière de big data avant de se lancer à corps perdu ou de faire un acte de foi. Il est toujours recommandé de commencer par une application simple, petite et mesurable.

Une fois que le projet pilote est réussi, il peut être mis en œuvre dans des applications à grande échelle. Il est essentiel de prendre le temps d’élaborer un plan et de sélectionner soigneusement le projet pilote.

9. Ne pas négliger la sécurité

La sécurité des données est un autre aspect important des projets de big data. Dans tout scénario de big data, des pétaoctets de données sont extraits de différents systèmes sources, puis traités. Les données traitées constituent l’entrée du modèle analytique. Le résultat de l’analyse est une information précieuse pour l’entreprise. Une fois que les données brutes ont été affinées et que des informations significatives ont été extraites de ces données brutes, la confidentialité, l’intégrité et la disponibilité (CIA) de ces informations deviennent critiques.

Lorsque les données contiennent des informations commerciales essentielles, elles deviennent précieuses pour l’organisation. Ces données doivent donc être protégées contre les menaces extérieures. La sécurité des données doit être planifiée dans le cadre du cycle de vie de la mise en œuvre du big data. (Lire aussi : Sécurité du cloud : 5 cyber-risques courants).

10. Ne pas se concentrer sur des unités commerciales isolées

Dans le scénario commercial complexe d’aujourd’hui, il ne sert à rien de se concentrer sur une seule unité commerciale. Les organisations doivent avoir une vue d’ensemble de l’entreprise et penser en termes de perspective globale. La meilleure approche consiste à prendre de petites mesures à la fois et à garder une vue d’ensemble. L’objectif doit être holistique en termes d’unités commerciales. Cela aura un impact positif et un meilleur retour sur investissement.

Conclusion

Il n’y a pas de voie de succès spécifique pour la mise en œuvre du big data. Mais c’est une combinaison de planification, de stratégie, d’approche et de divers autres facteurs qui mène au succès.

Chaque organisation a un objectif spécifique à atteindre, la stratégie doit donc être planifiée en conséquence, le projet pilote doit être choisi avec soin et les informations résultantes doivent être protégées et traitées correctement.

Kaushik Pal

Kaushik est un architecte technique et un consultant en logiciels, possédant plus de 23 ans d'expérience dans le secteur de l'analyse, du développement, de l'architecture, de la conception, des tests et de la formation de logiciels. Il s'intéresse aux nouvelles technologies et aux domaines d'innovation. Il se concentre sur l'architecture web, les technologies web, Java/J2EE, l'open source, WebRTC, le big data et les technologies sémantiques. Il a démontré son expertise en analyse des exigences, en conception et mise en œuvre d'architecture, en préparation de cas d'utilisation technique et en développement de logiciels. Son expérience a couvert différents domaines comme l'assurance,…