0
votes

Snowflake comme magasin d'archives?

(Vous recherchez une confirmation de ce qui suit pour un utilisateur de Snowflake)


Utilisateur:

Je voulais savoir si le cas d'utilisation d'archivage conviendrait parfaitement à Snowflake. Mon data lake / DW est sur Snowflake mais j'ai besoin d'archiver des données datant de n ans. Dois-je utiliser S3 ou Glacier à la place. Je crois comprendre que si j'archive sur s3 / la récupération des glaciers sera complexe.

Réponse:

Je suggérerais de comparer le coût de stockage pour le stockage Snowflake par rapport à AWS Glacier / S3.

Si vous prévoyez d'interroger des données, vous disposez des options suivantes:

une. AWS Glacier Select (a une limitation)

b. Copiez les données de Glacier vers S3, puis interrogez via Athena ou Snowflake

c. Requête Snowflake pour le stockage S3.

ré. Si les données sont dans Snowflake, alors Snowflake sql.

Dans l'ensemble, les options de stockage de table séparée Snowflake sont meilleures.


Pouvons-nous obtenir une confirmation de ce qui précède de la part de la communauté SO?


0 commentaires

3 Réponses :


2
votes

À mon avis, conserver les données dans Snowflake n'est plus un luxe, et pour les clients exécutant sur AWS, le stockage sous-jacent est S3 (et compressé par défaut par Snowflake). Vous pouvez toujours effectuer un «archivage» dans le sens de déplacer les données plus anciennes vers une autre table / schéma, de cette façon vous pouvez garder la table de base d'une certaine taille (et sans doute, une certaine performance, mais même cela, dans Snowflake, cela pourrait être un point discutable aussi).

Une chose à noter est qu'AWS Glacier est vraiment bon marché, jusqu'au moment où vous devez en récupérer des données.


0 commentaires

1
votes

une autre option consiste à archiver de nouveau dans S3 à partir de snowflake et à utiliser une table externe contre les données archivées. Ce sera plus lent pour la récupération et je ne pense pas que ce serait moins cher que d'utiliser Snowflake. Je pense qu'en termes de coûts de stockage purs, le glacier sera le moins cher, mais si vous avez besoin d'interroger les données, ce n'est pas optimal.


0 commentaires

1
votes

Comme indiqué dans un commentaire précédent, vous pouvez déplacer les données vers une base de données distincte en tant qu'archive et limiter l'accès à celle-ci si nécessaire. Et Glacier n'est pas vraiment une option si vous envisagez de l'interroger, car c'est là que vous payez les coûts.

Une autre chose à considérer est que la grande différence entre le simple stockage des données dans S3 et Snowflake réside dans le coût de chargement / analyse des données. Le chargement / l'analyse prend beaucoup de puissance de calcul, probablement encore pire si vous utilisez des données JSON au lieu de CSV. Dans votre cas, si vous avez déjà les données dans Snowflake, réexporter vers S3 semble être un gaspillage.


0 commentaires