8
votes

Comment extrayez-vous les URL d'alimentation d'un fichier OPML exporté de Google Reader?

J'ai un logiciel appelé RSS-Cawn que j'essaie de utilisation. En gros, le vérificateur d'alimentation de bureau qui vérifie si les flux RSS sont mis à jour et donnent une notification via le système Notify-OSD de Ubuntu.

Cependant, pour savoir quels flux à vérifier, vous devez répertorier les URL d'alimentation dans un fichier texte dans ~ /.RSS-AWARE/RSSFEEDS.TXT L'un après l'autre dans une liste avec une pellicule entre chaque URL d'alimentation. Quelque chose comme: xxx

... semble assez simple? Eh bien, la liste des flux que j'aimerais utiliser est exportée à partir de Google Reader en tant que fichier OPML (c'est un type de XML) et je n'ai aucune idée de l'analyser pour simplement sortir les URL d'alimentation. Il semble que cela devrait être assez simple à l'avance mais je suis excitée.

J'adorerais si quelqu'un pouvait donner une mise en œuvre dans Python ou Ruby ou quelque chose que je pouvais faire rapidement à une invite. Un script Bash serait génial.

Merci beaucoup pour l'aide, je suis un programmeur vraiment faible et j'aimerais apprendre à faire cette analyse de base.

EDIT: Aussi, Voici le fichier OPML J'essaye d'extraire les URL d'alimentation de.

python xml bash parsing opml

0 commentaires

4 Réponses :

2
votes

Comme il s'agit d'un fichier XML, vous pouvez utiliser un Query XPath pour extraire les URL. Dans le fichier XML, on dirait que les URL des flux RSS sont stockées dans les attributs xmlurl . L'expression xpath // @ xmlurl sélectionnera toutes les valeurs de cet attribut.

Si vous souhaitez le tester dans votre navigateur Web, vous pouvez utiliser un Testeur XPath en ligne . Si vous souhaitez effectuer cette requête XPath à Python, Cette question explique comment utiliser xpath en python . De plus, les documents LXML ont une page sur l'utilisation de XPath dans lxml qui pourrait être utile.



                                                                    
                                    
                                    
                                        1 commentaires
                                        
                                                                                            
                                                    ... et vous pouvez utiliser XPath dans un pipeline bash avec Xmlstarlet.


                        
                                            
                            
                                
                                    5
 votes
                                
                            
                            
                                
                                     J'ai écrit un analyseur de liste d'abonnement à cet effet. C'est ce qu'on appelle  listparser , et il est écrit en python. Je viens de tester votre fichier OPML et il semble d'analyser parfaitement le fichier. Il effectuera également les étiquettes de vos flux disponibles. 
 Si vous avez déjà utilisé FeedParser, l'interface doit être familière:   xxx  
 Il est possible de créer le fichier avec un flux URL à l'aide d'un script similaire à:   xxx  
 il suffit de remplacer  nom d'utilisateur  avec votre nom d'utilisateur actuel. Fait!                                  


                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            

                        

                        
                                            
                            
                                
                                    0
 votes
                                
                            
                            
                                
                                     Vous pouvez également utiliser une regex. J'ai utilisé la recherche de recherche-réponses suivante pour convertir My Google Reader OPML Exporter vers un Bookmark Live-Bookmark Firefox HTML: 
^\s+<outline.*?title="(.*?)".*?xmlUrl="(.*?)".*?htmlUrl="(.*?)".*?/>
<DT><A FEEDURL="$2" HREF="$3">$1</A>

                                

                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    4
 votes
                                
                            
                            
                                
                                     L'analyse XML était si facile à mettre en œuvre et a fonctionné super pour moi.  XXX                                  

                                                                    
                                    
                                    
                                        0 commentaires


            
                
		    
                    Articles qui pourrait vous intéresser :
                                            
                            Python: ConnectionError: HTTPSConnectionPool (hôte = 'api.foursquare-com', port = 443)                        
                        
                                            
                            L'exécution de Flask sous Windows n'exécute pas la commande d'exécution de flask                        
                        
                                            
                            Chatbot installé mais obtention d'une erreur lors de l'importation de ChatBot                        
                        
                                            
                            Administrateur Django: __str__ a renvoyé une non-chaîne (type int)