0
votes

Flocon de neige - clustering

Quelle est la meilleure approche pour le regroupement des tables de flocon de neige

regroupement absolu en rechargeant manuellement les tables à une certaine fréquence basée sur l'ordre de récupération
Créez une clé de cluster et activez le recluster automatique, mais également la plupart d'entre eux, exécutez-le uniquement à certains intervalles pourront être en regardant la colonne numérisée de la partition de la table
merci Rajib

snowflake-cloud-data-platform clustering-key

0 commentaires

3 Réponses :

0
votes

Votre meilleure méthode consiste à créer la table initiale triée par votre clé de cluster, puis activez l'autoclushort ... puis laissez le flocon de neige manipulant tout pour vous de là.

4 commentaires

Cela dépend de la façon dont vous modifiez la table. Il y a des cas où l'autoclushustre se débattre comme coûte plus cher que des tables complètes se reconstruisent

"Thrashing" a été réduit un peu avec les optimisations de la neige du service d'autoclushering. Vous payez essentiellement pour la calcul nécessaire pour reconstruire uniquement les micropartitions qui doivent être reconstruites par rapport à la quantité de calcul nécessaire pour reconstruire et réorganiser la table complète. Vaut la peine d'être testé de toute façon pour la table que vous utilisez. Si vous vous reconstruisez, je recommande la méthode Insérer une insérence pour réécrire la table sans temps d'arrêt sur cette table.


                                                
                                                                                            
                                                    Mon "exemple" est le dernier mois récent et je parlais à Andrew Meyendorff la semaine dernière à ce sujet, alors je suis tout à fait sûr. C'est une chose ..                                                
                                                
                                                                                            
                                                    Jamais dit que ce n'était pas. Je viens de dire qu'il avait été réduit un peu.


                        
                                            
                            
                                
                                    0
 votes
                                
                            
                            
                                
                                     Il n'y a pas d'agent général dans tous les modèles d'utilisation des données qui s'appliquent, et qui s'applique également à l'époque, comme en regroupant que la mise en œuvre évolue (dit comme à l'extérieur, mais la surveillante change au fil du temps). 

 La clustering automatique est comme une gestion de la fragmentation du disque dur. Parce qu'ils sont à la fois la même idée, de la localisation comme des données à proximité, de faire de la lecture préférée mieux. Et juste comme la défragmentation de disque Différentes charges d'utilisation / motifs, la nécessité de CLSturering / défragment est plus importante, et certains utilisent un conflit avec la cluster automatique. 

 Par exemple, nous avons des tables qui sont écrites comme une boucle aussi serrée que possible, et nous la voulons en regroupement dans un motif de 90% aligné sur l'ordre d'insertion. Donc, le clustering automatique n'est pas coûteux au motif d'insertion. Mais une fois par mois, nous supprimons de ces tables GDPR / PII raisons, et après la mise à jour / supprimez le changement 1/3 des partitions. Il semblerait donc faire une réécriture de table complète avec une commande appliquée serait surchargée. Mais à cause du regroupement automatique de la tarif d'insertion (comme il se trouve aujourd'hui) se débrouiller pendant des heures et coûte 5 fois le coût pour effectuer une réécriture de table complète. 

 Aussi, nous avons d'autres tables (les informations d'adresse contiennent des informations) et la table est "plutôt petite", de sorte que toutes les tables complètes scannèrent beaucoup, alors la commandant dans le sens de l'auto-cluster n'a pas de sens, mais ré-construire le Tableau quotidien, pour garder la taille de la partition plus petite que possible, de sorte que les tables complètes Les scanns sont les plus rapides qu'ils peuvent être. Le point d'être en clusterage automatique est également une optimisation de la micro-partition, ce qui serait utile, mais nous n'avons pas besoin de la table. commandé, donc ne pas courir en clustering ..                                 

                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    0
 votes
                                
                            
                            
                                
                                     Pour couper la poursuite pour les réponses. 


  Chargez les tables avec le champ de données trié - qui pourrait être utilisé pour récupérer la date de données - la date d'activité au lieu de (ETL) insertion de la date / heure. Cela devrait être suffisant pour la plupart des tables du point de vue de la performance de récupération de données.  
  Vous pouvez choisir de re-regrouper en fonction du taux d'opération DML sur la table  
  donné que vous avez un motif supplémentaire pour l'accès des données sur les colonnes spécifiques - vous pouvez envisager d'ajouter des touches de clustering à la table - et laissez le clustering automatique à pied.  


 Il est toujours souhaitable d'identifier le modèle d'accès plus tôt que plus tard. Étant donné que, pour vous assurer de réaliser une récupération de données de performance - la clustering automatique réaffectera les données. 

 La clustering automatique vous coûtera des crédits, mais cela surviendra pour la performance que vous allez réaliser. 

 lien  ici  vous aidera à prendre une décision éclairée. 

 J'espère que cela vous aidera!                                 

                                                                    
                                    
                                    
                                        0 commentaires


            
                
		    
                    Articles qui pourrait vous intéresser :
                                            
                            Snowpipe reçoit le message S3 mais ne le transfère pas                        
                        
                                            
                            La requête COPY INTO sur Snowflake renvoie une erreur TABLE n'existe pas                        
                        
                                            
                            Problème d'utilisation de snowflake-connector-python avec Python 3.x                        
                        
                                            
                            Snowflake comme magasin d'archives?