7
votes

Comment puis-je vérifier une chaîne de python Unicode pour voir que c'est * réellement * est approprié unicode?

J'ai donc cette page:

http: //hub.iis.sinica. EDU.TW/CYTOHUBBA/ P>

Apparemment, il s'agit de toutes sortes de foiles, car il est décodé correctement mais quand j'essaie de l'enregistrer à Postgres, je reçois: P>

DatabaseError: invalid byte sequence for encoding "UTF8": 0xedbdbf

postgresql python unicode

2 commentaires

Êtes-vous sûr que votre connexion est définie pour utiliser UTF-8?

Oui, 300 000 autres pages Web ont été ajoutées, c'est juste celui qui échoue ...

5 Réponses :

1
votes

Un objet Python Unicode code> est une séquence de points de code unicode et par définition appropriée Unicode. Une chaîne Python str code> est une séquence d'octets qui pourraient être des caractères Unicode codés avec un certain encodage (UTF-8, latin-1, Big5, ...).

La première question il y a Si source code> est un objet unicode code> objet ou un str code> string. Que source.encode ("utf-8") code> fonctionne juste signifie que vous pouvez em> convert source code> à une chaîne codée UTF-8, mais sont Vous le faites avant de le transmettre à la fonction de base de données? La base de données semble s'attendre à ce que les entrées soient codées avec UTF-8 et se plaint que l'équivalent de source.decode ("utf-8") code> échoue. P>

si Source code> est un objet unicode code>, il doit être codé sur UTF-8 avant de le transmettre à la base de données: p> xxx pré>

si source code> est un STR code> codé comme autre chose que UTF-8, vous devez décoder ce codage puis coder l'objet Unicode résultant à UTF-8: P>

source = 'abc'
call_db(source.decode('Big5').encode('utf-8'))

1 commentaires

Désolé, j'aurais dû clarifier. Source est un objet unicode qui est codé bien en python, les choses se brisent quand j'essaie de l'envoyer à Postgres ...

0
votes

Qu'est-ce que tu fais exactement? Le contenu décodent effectivement bien comme utf-8 : xxx

Assurez-vous de comprendre la différence entre les chaînes UNICODE et les cordes codées UTF-8, cependant. Ce que vous devez envoyer à la base de données est unicodecontent.encode ("utf-8") (qui est identique à webcontent , mais vous avez décodé pour vérifier que vous êtes Ne faites pas avoir des séquences d'octets non valides dans votre source).

Je voudrais en effet alors que Wolphe vérifie les paramètres de la base de données et de la connexion de base de données.



                                                                    
                                    
                                    
                                        1 commentaires
                                        
                                                                                            
                                                    J'utilise Django, qui code tout correctement, mais c'est Postgres qui décider que le codage (ou la chaîne codée) est mauvais, pour une raison quelconque ... tout ce que je fais dans Python Works, c'est pourquoi je ne peux pas la détecter. Peut-être que c'est un bug postgres?


                        
                                            
                            
                                
                                    0
 votes
                                
                            
                            
                                
                                     En fin de compte, j'ai choisi de contourner cela, de saisir l'erreur et de la restauration de la transaction à l'aide de la gestion des transactions de Django. Je suis mystifié pourquoi cela se produirait, bien que ...                                 

                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    9
 votes
                                
                            
                            
                                
                                     Il y a un bogue   fort> dans Python 2.x qui n'est que Python fixe 3.x. En fait, ce bogue est même dans l'Iconv d'Os X (mais pas la glibc). 
 Voici ce qui se passe:  p> 
 Python 2.x ne reconnaît pas les paires de substitution UTF8 [1] comme étant invalide ( qui est ce que votre séquence de caractères est)  p> 
 ceci  devrait être tout ce qui est nécessaire:  p>  xxx  pré> 
 mais merci à ce bug 'RE NE PAS ne pas réparer, il n'atteint pas les paires de substitution.  p> 
 Essayez-le dans Python 2.x, puis dans 3.x:  P> 
b'\xed\xbd\xbf'.decode('utf8')

                                

                                                                    
                                    
                                    
                                        2 commentaires
                                        
                                                                                            
                                                    Aucun problème. J'essayais de faire plus ou moins ce que vous faisiez pour filtrer mes données lorsque vous effectuez une copie dans Postgers. Ce que j'ai fini par faire était de laisser tomber l'échec et filtrant des lignes individuelles en fonction des sorties d'erreur. Il était basé sur l'idée générale de la manière dont le code de copie dans PGloader fonctionne  pgfoundry.org/projects/pgloaderleight                                                
                                                
                                                                                            
                                                    non liée: Si vous souhaitez réparer les paires de substituts:  u '[\ ud83d \ ude42]'. Encode ('UTF-16', 'CARROCHALEPASS'). Décode ('utf-16') = u '[\ U0001f642] '                                                

                                                
                                                                                    

                                    

                                                            

                        

                        
                                            
                            
                                
                                    0
 votes
                                
                            
                            
                                
                                     Pour résoudre mes problèmes similaires avec Django / Postgres, je fais maintenant quelque chose comme ça  xxx                                  

                                                                    
                                    
                                    
                                        0 commentaires


            
                
		    
                    Articles qui pourrait vous intéresser :
                                            
                            Laravel whereRaw - comment échapper à un '?'                        
                        
                                            
                            Pgadmin ne se charge pas                        
                        
                                            
                            Interroger les données de PostgreSQL à partir de deux tables                        
                        
                                            
                            Erreur: impossible d'insérer plusieurs commandes dans une instruction préparée