Quelqu'un peut-il me dire les similitudes et les différences entre les grandes données et les lacs de données. P>
Vous ne pouvez pas trouver une réponse satisfaisante n'importe où. P>
3 Réponses :
Je pense que nous ne pouvons pas comparer et différencier la terminologie, car Data Lake est synonyme des grandes données. Data Lake = Enterprise Data + Données non structurées + données semi-structure. p>
Autre main Son référentiel de données Vous pouvez stocker tout type de données et utilisée à des fins d'analyse. La plupart des données seront stockées dans le système de fichiers Hadoop (HDFS), où sous «Big Data», il existe un stockage et une autre technologie de traitement impliquée. P>
@Shambhu_nath: Puisses-tu élaborer à quel point "Data Lake" et "Big Data" sont-ils synonymes?
Big Data et Data Lake sont deux choses différentes. Data Lake est un concept où vous avez toutes vos données stockées et facilement accessibles en utilisant un mécanisme différent. Data Lake peut être maintenu sur S3 ou Redshift ou toute autre plate-forme de stockage. Les grandes données sont un terme utilisé pour traiter un volume important de données. La plupart du temps, il est arbitré avec de grandes solutions de données comme Hadoop, Spark. P>
Dans l'interprétation moins générale, les grandes données se réfèrent simplement à un ensemble de données complexe et grand. Le terme "gros" puis fait référence aux trois dimensions (voir Wikipedia sur Big Data ) p>
A
Les questions sur Stackoverflow doivent être très spécifiques. Des questions larges comme celle-ci seront généralement évitées et fermées.