Les mégadonnées : ce qu’elles sont et pourquoi elles sont importantes pour les entreprises
Les mégadonnées sont des ensembles de données dont le volume est tel qu’elles ne peuvent pas être gérées par des outils conventionnels ; mais par des technologies et des méthodes innovantes capables de les collecter, de les traiter et de les analyser ; et ceci, afin de pouvoir les exploiter pour faire des prédictions sur des tendances de comportement, par exemple ; et ainsi prendre des décisions plus efficaces. Nous vous donnons plus de détails sur le sujet dans les lignes qui suivent.
Qu’est-ce que les mégadonnées ?
L’expression « mégadonnées » peut être utilisée à la fois en référence à la grande rapidité avec laquelle les données sont actuellement générées ; et à la capacité sans cesse croissante de les stocker, de les traiter et de les analyser. Également connu sous le nom de » big data « , la mégadonnée a été défini par Gartner en 2001 comme « des ressources d’information avec un volume, une vitesse et une variété élevés qui nécessitent des formes économiques et innovantes de traitement de l’information pour améliorer la compréhension, la prise de décision et l’automatisation des processus ».
Les caractéristiques des mégadonnées
En effet, la définition du big data met en évidence 5 propriétés ou caractéristiques :
· Le volume élevé de données
Pour le Big data, la référence est à l’énorme quantité de données générées chaque seconde, des e-mails aux messages et publications sur les réseaux sociaux ; (photos, vidéos, données générées par les capteurs), jusqu’à de nombreux autres types de contenus produits chaque seconde. En fait, on parle aujourd’hui de zettaoctets et même de brontooctets de données, des quantités bien supérieures au téraoctet. Il s’agit évidemment d’une quantité de données qui ne peut être ni stockée ni traitée par les systèmes de gestion de données classiques et qui nécessite des technologies ad hoc ;
· Le haut débit
Il s’agit de la vitesse à laquelle les nouvelles données sont générées, mais aussi de la vitesse à laquelle elles « bougent ». Il suffit de penser aux contenus viraux et à la rapidité avec laquelle ils sont partagés par les utilisateurs via les réseaux sociaux ; mais aussi aux procédures qui nécessitent des mouvements de données qui se déroulent en millièmes de secondes, comme le contrôle de sécurité effectué lors d’une transaction par carte de crédit, pour éviter les situations de fraude ;
· La grande variété des données
Ce sont différents types de données qui sont générées, collectées et analysées. Celles-ci peuvent être structurées ; (c’est-à-dire organisées selon des schémas prédéfinis, dans des tableaux par exemple, comme des données financières, des données de ventes par pays ou par type de produit, etc.), et des données non structurées. Cependant, une grande partie des données générées sont non structurées et peuvent être de différents types (photographies, messages écrits, enregistrements vocaux, vidéos, etc.).
Plus récemment, il y a deux autres dimensions qui affectent le big data qui ont été analysées :
· La véracité
La deuxième partie de la définition de Gartner souligne l’éventuelle utilité du big data pour la prise de décision. Considérant précisément que les données analysées peuvent être utilisées comme base pour prendre des décisions ; nous comprenons l’importance d’effectuer un « contrôle de qualité » adéquat. De toute évidence, le grand volume de données générées par seconde rend difficile la garantie de sa fiabilité et de sa précision. Selon le type de données, elles peuvent être plus ou moins faciles à contrôler (pensez par exemple aux tweets ou autres posts publiés sur les réseaux sociaux) ;
· La valeur des données
Il s’agit en fait de la capacité à « transformer » des données en valeur, c’est-à-dire à les exploiter ; par exemple, pour faire des prédictions qui permettent d’optimiser la prise de décision. L’exemple classique est celui d’une entreprise qui s’appuie sur l’analyse des données de consommation pour prédire le comportement d’achat des consommateurs et proposer des produits, des services ; ou des changements dans l’entreprise, sur la base de ces prévisions. En se référant à nouveau à la définition de Gartner, cette analyse rapide de grands volumes de données permet d’optimiser la prise de décision ; conduisant à l’automatisation des processus en ce qui concerne, par exemple, la capacité à fournir des réponses adéquates (tant en termes d’assistance client que de choix de publicités), rapidement, aux clients, en fonction de leurs comportements en ligne (et même hors ligne).
Comment distinguer le big data des autres données ?
Il faut préciser qu’il n’y a pas de définition unique de l’expression, puisque le phénomène est décrit à partir de différents points de vue ou en tout cas mettant en évidence différents aspects. Cependant, de nombreux auteurs décrivent le big data comme un ensemble de données dont le volume est si important « qu’il dépasse la capacité des outils classiques de gestion de données à les collecter, les stocker, les gérer et les analyser » (McKinsey, 2011).
Comme l’indique le rapport « Big data : the next frontier for innovation, competition, andativity », McKinsey ne définit pas le big data « en termes de volume dépassant un certain nombre de téraoctets ». En effet, on suppose qu’avec le progrès technologique, le volume de données considéré comme du big data augmentera également. Pour cette raison, la définition de McKinsey n’est pas statique, mais « s’adapte » au progrès technologique.
Origine des mégadonnées : brèves notes historiques
Pendant de nombreuses années, la collecte et le stockage de gros volumes de données ont été l’apanage des gouvernements. Le premier dispositif de traitement de données est né en 1943 et a été développé par le gouvernement britannique pour décrypter les communications du régime nazi pendant la Seconde Guerre mondiale. Colossus était capable d’identifier des modèles dans les messages à un rythme de 5 000 caractères par seconde, une énorme innovation pour l’époque.
En 1965, le gouvernement américain a créé un centre de données pour stocker les données des citoyens ; mais la technologie en question était encore loin de ce qui est accessible aujourd’hui. Avec la création du World Wide Web pour la collecte et l’échange de données, cependant, des outils plus sophistiqués étaient nécessaires. En 1992, le Teradata DBC 1012 est devenu le premier système capable de stocker et d’analyser de gros volumes de données correspondant à 1 Terabyte (l’équivalent de 1000 Go).
En 2005, Roger Magoulas de O’Reilly Media a été mentionné comme l’un des premiers à utiliser le terme « big data ». Depuis cette année, les réseaux sociaux comme Facebook et YouTube ont contribué à la croissance exponentielle des données en ligne générées par les utilisateurs. Toujours en 2005, Hadoop a été créé par Yahoo! et un peu plus tard Spark, un framework open source qui deviendrait crucial pour la gestion et le stockage rapides et efficaces du big data.
Par la suite, avec le développement de l’internet des objets, de grandes quantités de données ont été collectées à partir de tous types d’objets et d’appareils ; facilitant ainsi l’accès des entreprises à de nouveaux types de données qui leur permettent d’identifier les schémas d’utilisation des produits par les consommateurs et, par conséquent, d’optimiser les solutions proposées. De cette façon, non seulement le volume de données collectées augmente ; mais aussi la variété de ces dernières, qui ces dernières années ont été exploitées par les entreprises pour les applications les plus variées.
L’analyse des mégadonnées
L’analyse des mégadonnées, également appelée « analyse de données volumineuses », consiste en l’utilisation de techniques d’analyse hautement sophistiquées sur de grands volumes de données (structurées, semi-structurées et non structurées) ; et ceci, afin de décrire des événements ou des situations, d’identifier des modèles, des corrélations ou des tendances ; et ainsi transformer les données en informations utiles et fonctionnelles pour l’optimisation de la prise de décision.
En effet, l’analyse des mégadonnées permet à différents acteurs (analystes, entreprises et chercheurs) de prendre des décisions rapidement et sur la base de données concrètes qui, sans les outils appropriés, étaient auparavant inaccessibles. Actuellement, il existe plusieurs entreprises qui fournissent des outils de business intelligence et d’analytique capables de gérer ces données : c’est le cas par exemple de Microsoft.
Grâce à des technologies, des techniques ou des outils tels que l’apprentissage automatique, l’analyse prédictive, le traitement du langage naturel et l’exploration de données ; il est désormais possible d’analyser de grands volumes de données de différents types et d’extraire des informations pertinentes pour les secteurs les plus variés et utiles à différentes fins.
Les types d’analyse de données
Quatre grandes catégories d’analyses de données peuvent être distinguées, selon l’objectif de l’analyse :
· L’analyse descriptive
Elle est indispensable à la création de rapports et s’effectue en réalisant une analyse synthétique et descriptive des événements qui permet d’avoir une vision globale d’un contexte ou d’une situation et de répondre à des questions du type « Que s’est-il passé ? « ;
· L’analyse prédictive
C’est l’un des types d’analyse de données les plus utilisés qui vous permettent d’identifier des tendances, des corrélations ou des relations de cause à effet entre les données. C’est un type d’analyse qui permet d’esquisser des scénarios de développement futur dans différents contextes ou situations. L’analyse prédictive permet de déterminer « ce qui pourrait arriver dans le futur » ;
· L’analyse prescriptive
Grâce à des innovations comme le maching learning et donc grâce au soutien de l’intelligence artificielle ; il est désormais possible non seulement de faire des prédictions sur des résultats précis, mais aussi sur les actions optimales à entreprendre. L’analyse prescriptive permet de comprendre « Que se passerait-il si nous choisissions l’option A » ; économisant ainsi les ressources qui seraient utilisées pour essayer toutes les solutions disponibles et permettant de faire le choix (probablement) le plus efficace dès le départ. Cette analyse nous permet de répondre à la question « Comment pourrions-nous répondre à un événement futur ? « ;
· L’analyse diagnostique
C’est le type d’analyse utilisée pour identifier spécifiquement la raison de quelque chose ou d’un événement donné ; permettant de trouver les causes qui ont conduit à la situation actuelle. À cette fin, les entreprises utilisent souvent des techniques telles que le forage et l’exploration de données pour déterminer les causes des tendances ou des événements ; et pour pouvoir identifier, répéter et optimiser les actions qui ont conduit à des résultats positifs. Ce type d’analyse vous permet de répondre à des questions telles que « Pourquoi quelque chose s’est-il passé ? « .
Les applications des mégadonnées
· Application au niveau des gouvernements et politique
L’analyse des mégadonnées peut être exploitée de différentes manières pour des raisons d’intérêt public. Pensez, par exemple, aux demandes d’une agence gouvernementale pour la sécurité routière ; obtenant ainsi des données relatives aux accidents de la route ou aux zones et heures les plus fréquentées pour guider l’urbanisme et rendre les routes plus sûres.
De grands volumes de données sont également utilisés en période électorale ; d’une part pour connaître les orientations, habitudes et préférences des citoyens ; et d’autre part pour faire des prédictions sur les résultats électoraux.
· Applications dans l’éducation, l’agriculture et la santé
Dans le domaine agricole, les entreprises de biotechnologie sont désormais capables d’optimiser l’efficacité des cultures grâce aux données issues de capteurs ad hoc. Par des simulations ou des essais de culture, les réponses des plantes à différentes conditions climatiques ou à des variations de l’environnement sont suivies. Sur la base des données recueillies, il est possible d’ajuster progressivement la température, l’eau, la composition de la terre, entre autres facteurs, pour pouvoir identifier l’environnement optimal pour la croissance des différents types de plantes.
Dans le domaine médical, en revanche, le potentiel de l’analyse des mégadonnées est grand ; des capteurs très sophistiqués et particulièrement précis sont insérés à la fois dans les instruments médicaux et dans le corps des patients ; mais aussi dans des dispositifs portables tels que des montres ou des lunettes. Ces derniers, par exemple, permettent de suivre en temps réel l’état de santé de patients présentant des problèmes spécifiques ; permettant aux médecins d’obtenir des informations très précises sur la situation de l’individu et de pouvoir agir en temps opportun. De toute évidence, une grande collection de données dans ce domaine est particulièrement pertinente pour la recherche de nouveaux médicaments et de thérapies plus efficaces.
Dans le domaine de l’éducation, divers logiciels ont également été développés, capables d’exploiter les données d’apprentissage et d’évaluation des élèves pour proposer des plans d’enseignement adaptés à leurs besoins.
Atouts du Big data pour les entreprises
De plus en plus d’entreprises se tournent vers le data scientist, car les résultats positifs d’une analyse de données efficace, en termes de profit, sont évidents. Plus le volume et la variété des données sont importants, plus leur analyse sera fonctionnelle à des fins commerciales. Les données provenant par exemple des réseaux sociaux peuvent aider à bien définir la cible (ou les différentes cibles d’une entreprise) ; et à améliorer les produits ou services en fonction des préférences exprimées par les utilisateurs. Pensez à des cas comme celui de Netflix qui exploite les données de visionnage et les préférences des utilisateurs qui utilisent la plateforme de streaming pour créer des produits audiovisuels ciblés et pour optimiser également la plateforme elle-même.
Les techniques d’analytics permettent également d’orienter de manière ciblée la conception des campagnes marketing. Il est possible de prédire quels produits pourraient avoir un plus ou moins de succès sur le marché une fois lancés et de comprendre si une stratégie de rebranding pourrait convenir ou non à la cible que vous comptez atteindre.
Grâce à l’IOT, les entreprises peuvent également obtenir des données à partir de machines industrielles ; et ainsi identifier rapidement tout problème technique et le résoudre plus efficacement. L’utilisation de ces données est tout aussi importante pour éviter les cas de fraude ou au moins pour réduire les dommages, en essayant de prévenir de futures situations. En effet, il est possible d’améliorer la qualité des produits et des processus de production ; et ceci, en optimisant leur maintenance chez les clients et en réduisant également les coûts de production grâce à la réduction des pannes inattendues.
Gestion des mégadonnées dans le domaine de la vie privée
Actuellement, la plupart des actions qui sont effectuées quotidiennement laissent une trace, des recherches en ligne aux achats, jusqu’aux appels téléphoniques. Avec les appareils IOT, même les appareils électroménagers de la maison sont connectés les uns aux autres ; échangeant et générant chaque jour d’énormes quantités de données sur les consommateurs.
Évidemment, l’évolution des outils de collecte, d’analyse et de stockage des données a soulevé des questions relatives à la vie privée des utilisateurs ; et à la manière dont leurs données peuvent devenir accessibles à des tiers à l’insu de l’utilisateur.
Il est donc également nécessaire d’élaborer des réglementations imposant des lignes directrices aux entreprises ou organisations concernant l’utilisation des données mises à leur disposition et, en même temps, protégeant les utilisateurs concernés.
Dès lors, la discussion reste ouverte pour trouver des solutions permettant de trouver un équilibre entre une utilisation optimale des données des utilisateurs par les entreprises et autres entités et le respect de leur vie privée.
A découvrir aussi : Le scanner OBD2, ce que c’est et comment l’utiliser