Je sais que cette question avait été posée ici et mais il y avait un petit problème quand j'ai essayé Ça sorti: J'ai changé la regex vers J'ai essayé la manière GSUB: p> Il a donné: Des idées où je vais mal? Je voudrais ma sortie en tant que vecteur / liste de tous les hashtags dans le tweet (sans les hachages!) P> EDIT: Je préférerais ne pas youcher le tweet, car:
1. Je ne jette pas les tweets pour le reste de mon programme,
2. Cela deviendrait une étape très coûteuse, je devais l'amplifier pour gérer de grands volumes de tweets. P> p> "# (. +)?" code>,
"# \\ s" code>, mais Ils n'ont pas extrait les hashtags. P>
"#" / code > P>
3 Réponses :
Que diriez-vous de remplacer # \ s + code> avec
# \\\ s + code> p> p>
Utilisez "# \\ s +" code> au lieu de
"# \ s +" code>.
str_extract_all("Hello peopllz! My new home is #crazy gr8! #wow", "#\\S+")
# [[1]]
# [1] "#crazy" "#wow" Â
Cela fonctionne, merci! Mais comment puis-je extraire toutes les hashtags d'un tweet? Cela me donnerait le premier hashtag survenant. Toute façon de faire le tour?
x <- GREGEXPR ("# (\\ s +)", "Bonjour! #London est gr8. #wow") donne la position et les longueurs des tweets pouvant être utilisés pour extraire les hashtags, mais aucune façon plus simple de le faire ?
Une bonne réponse, peut vouloir utiliser # \\ w + code> au lieu de
# \\ s + code> la ponctuation n'est donc pas incluse
Juste de chiming. En fonction de la manière dont vous accédez aux données Twitter, ces informations peuvent déjà être analysées pour vous. Par exemple, si vous accédez au flux d'échantillons, le format JSON brut a une entrée qui analyse les références, les balises, etc., en tant que tableau pour vous. Voir Documentation API Twitter ici. P>