J'essaie d'extraire une URL d'une ligne contenant plusieurs URL répertoriées.
Spécifiquement, je veux sélectionner la première instance de Exemples du texte qui doit être extraite p> J'ai essayé d'extraire les URL à l'aide de la tranchée mais heurter le problème qu'il y a plusieurs URL de longueurs variables et positions de délimitation. P> Résultats attendus P>
twitter.com/dog_rates/status/892420643555336193/PHOTO/1 P> LI>
twitter.com/dog_rates/status/878281511006478281511006478281511006478281511006478281511006478336/PHOTO/1 P> LI>
twitter.com/dog_rates/status/812503143955202048/PHOTO/1 P> LI>
twitter.com/dog_rates/status/810984652412424192/Photo/1 P> Li>
twitter.com/dog_rates/status/888804989199671297/PHOTO/1 P> LI>
ol>
blockQuote> p> twitter.com/dog_rates/xxxxxxx code> dans la ligne et supprimez les données restantes. p>
4 Réponses :
Essayez ceci:
my_data = [ 'twitter.com/dog_rates/status/892420643555336193/photo/1', 'www.gofundme.com/3yd6y1c,twitter.com/dog_rates/status/878281511006478336/photo/1', 'm.facebook.com/story.php?story_fbid=1888712391349242&id=1506300642923754&refsrc=ht.co%2FURVffYPPjY&_rdr,twitter.com/dog_rates/status/812503143955202048/photo/1,twitter.com/dog_rates/status/812503143955202048/photo/1', 'www.gofundme.com/sams-smile,twitter.com/dog_rates/status/810984652412424192/photo/1,twitter.com/dog_rates/status/709901256215666688/photo/1,twitter.com/dog_rates/status/709901256215666688/photo/1,twitter.com/dog_rates/status/709901256215666688/photo/1,twitter.com/dog_rates/status/709901256215666688/photo/1', 'twitter.com/dog_rates/status/888804989199671297/photo/1,twitter.com/dog_rates/status/888804989199671297/photo/1' ] final_results = [] pattern= 'twitter.com/dog_rates/' â for row in my_data: splited_row = row.split(',') for recod in splited_row: if recod.startswith(pattern): final_results.append(recod) break In [10]: final_results Out[10]: ['twitter.com/dog_rates/status/892420643555336193/photo/1', 'twitter.com/dog_rates/status/878281511006478336/photo/1', 'twitter.com/dog_rates/status/812503143955202048/photo/1', 'twitter.com/dog_rates/status/810984652412424192/photo/1', 'twitter.com/dog_rates/status/888804989199671297/photo/1']
Essayez ceci, extraire juste la dernière valeur divisée par , code> p> p> p> p>
Vous pouvez facilement faire cela ... chargez chacune des lignes en tant que chaîne.
results=[] for row in data: urls=row.split(",") for i in urls: if(i.strip().startswith("twitter.com/dog_rates/")): results.append(i.strip()) break
Essayez ceci en utilisant Importer re code>
Comment décidez-vous lorsque l'URL souhaité se termine? Avec une virgule?