4
votes

Existe-t-il un moyen de grever des documents texte stockés dans Google Cloud Storage?

Question

Existe-t-il un moyen de parcourir les documents texte stockés dans Google Cloud Storage?

Contexte

Je stocke plus de 10 000 documents (fichier txt) sur une VM et j'utilise de l'espace. Et avant qu'il n'atteigne la limite, je souhaite déplacer les documents vers un autre emplacement. Actuellement, j'envisage de passer à Google Cloud Storage sur GCP.

Problèmes

J'ai parfois besoin de grep les documents avec des mots-clés spécifiques. Je me demandais s'il était possible de consulter les documents téléchargés sur Google Cloud Storage? J'ai vérifié la documentation de gsutil, mais il semble que ls, cp, mv, rm soit pris en charge mais je ne vois pas grep.


0 commentaires

5 Réponses :


5
votes

Malheureusement, il n'existe pas de commande comme grep pour gsutil.

La seule commande similaire est gsutil cat .

Je vous suggère de créer une petite VM, et grep sur le cloud sera plus rapide et moins cher.

gsutil cat gs://bucket/ | grep "what you wnat to grep"


1 commentaires

Merci pour votre réponse. J'ai essayé gsutil cat et cela fonctionne si je n'ai pas beaucoup de fichiers sur Google Cloud Storage (GCP). Cependant, lorsque l'on considère l'évolutivité, gsutil cat n'est certainement pas le meilleur. Laissez-moi vérifier les performances de grep sur le petit vm comme suggéré. Merci encore!!!



3
votes

La @howie answer est bonne. Je veux simplement mentionner que Google Cloud Storage est un produit destiné à stocker des fichiers et ne se soucie pas de leur contenu. En outre, il est conçu pour être massivement évolutif et l'opération que vous demandez est coûteuse en calcul, il est donc très peu probable qu'elle soit prise en charge de manière native à l'avenir.

Dans votre cas, j'envisagerais de créer un index des fichiers texte et déclencheur une mise à jour à chaque fois qu'un nouveau fichier est téléchargé sur GCS .


1 commentaires

merci pour votre suggestion. je suis finalement allé avec gcpfuse.



1
votes

J'ai une autre suggestion. Vous pouvez envisager d'utiliser Google Dataflow pour traiter les documents. Vous pouvez simplement les déplacer, mais plus important encore, vous pouvez transformer les documents à l'aide de Dataflow.


1 commentaires

merci pour votre suggestion. je suis finalement allé avec gcpfuse.



0
votes

J'ai trouvé la réponse à ce problème. gcpfuse a résolu ce problème.

monter le stockage cloud Google dans un répertoire spécifique. et vous pouvez grep à partir de là.

https://cloud.google.com/storage/docs/gcs-fuse https://github.com/GoogleCloudPlatform/gcsfuse


0 commentaires

0
votes

J'ai écrit un binaire natif Linux [mrgrep] (pour ubuntu 18.04) ( https://github.com/romange/gaia/releases/tag/v0.1.0 ) qui fait exactement cela. Il lit directement à partir de GCS, et en prime, il gère les fichiers compressés et il est multi-thread.


0 commentaires