Data Lake

En permettant de stocker de gros volumes de données hétérogènes, le Data Lake répond aux défis du Big Data et améliore la prise de décision au sein des organisations.

Un Data Lake (lac de données, en français) est un espace de stockage centralisé des données, associé à une infrastructure Big Data. Il permet à une organisation – une entreprise ou une institution, par exemple – d’importer et de stocker une grande quantité de données, quelle que soit leur source ou leur nature, dans un seul et même endroit. Les données peuvent provenir de sites Web, de réseaux sociaux, d’appareils connectés, d’applications mobiles, d’applications d’entreprise, etc.

L’utilisateur – un data scientist, un développeur, un business analyst ou un chercheur – peut extraire ces données et leur appliquer différents traitements pour des cas d’usage tels que le reporting ou la conception de modèles statistiques avancés.

Le volume croissant et la variété des données collectées compliquent la gestion des Big Data. Le Data Lake apporte plus de flexibilité que les entrepôts de données traditionnels (comme les bases de données relationnelles…). On peut y conserver de gros volumes de données brutes, structurées ou non, sans qu’il soit nécessaire de savoir à l’avance l’usage qui en sera fait. Cela permet de gagner du temps et d’élargir les possibilités d’analyses ultérieures.

En d’autres termes, les Data Lakes sont d’immenses réservoirs de données hétérogènes dans lesquels on va pouvoir venir puiser en fonction des besoins.

Attention toutefois à ce que le lac ne se transforme pas en marécage. La gouvernance des données est un enjeu important du Data Lake, pour pouvoir valoriser les données efficacement et les rendre facilement accessibles au sein de l’organisation.

A lire aussi sur Hello Future

Et si les industriels misaient sur le partage de données ?

Découvrir

Big Data : quand la donnée améliore l’efficacité énergétique des réseaux

Découvrir