en python: est-il utf-16? p> Je ne suis pas vraiment conscient de toutes les choses unicode / codage, mais ce type de chose se présente dans mon jeu de données,
comme si j'ai Qu'est-ce qui se passe ici? p> p> p> a = u 'u3053 \ n' code>. p>
impression code> donne une exception et
Le décodage donne une exception. P>
4 Réponses :
Voici le DOC HOWTO UNICODE POUR PYTHON 2.6.2: P>
http://docs.python.org/howto/unicode.html p>
Voir également les liens de la section de référence de ce document pour d'autres explications, dont une de Joel Spolsky. P>
C'est un caractère unicode qui ne semble pas être affiché dans vos terminaux codant. sur un terminal pouvant afficher UTF-8, vous obtenez: P> impression code> essaie d'encoder l'objet Unicode dans le codage de votre terminal et si cela ne peut pas être fait, vous obtenez une exception.
>>> print u'\u3053'
ã
Merci oui, PowerShell, même PowerShell Ise ne semble pas «compatible» (faute d'une meilleure compréhension) avec Unicode dans Python. Stackoverflow .com / questions / 2105022 / ...
Caractère U + 3053 "Lettre Hiragana Ko". P>
Le bit Le formulaire UTF-8 représente le même caractère Hiragana sur trois octets, avec le motif de bits comme documenté ici . P>
Maintenant, quant à savoir si vous devriez vraiment l'avoir dans votre ensemble de données ... Où ces données viennent-elles? Est-il raisonnable d'avoir des caractères Hiragana? P> \ xff \ xfe code> au début du format binaire UTF-16 est le point de commande d'octet codé (U + FEFF), puis "S0" est
\ x5e \ x30 code>, alors il y a le
\ n code> de la chaîne d'origine. (Chacun des caractères a ses octets "inversés" car il utilise peu d'encodage de l'UTF-16 Endian UTF-16.) P>
Vous demandez: p>
u '\ u3053 \ n' p>
est-ce utf-16? P> blockQuote>
La réponse est non: c'est unicode, pas un encodage spécifique. UTF-16 est un codage. P>
Pour imprimer efficacement une chaîne unicode sur votre terminal, vous devez déterminer ce qui codant de ce terminal est prêt à accepter et à pouvoir afficher. Par exemple, le terminal.app sur mon ordinateur portable est défini sur UTF-8 et avec une police riche, donc: p>
![]()
(Source: Aleax.it ) SUB> P>... la lettre Hiragana s'affiche correctement. Sur un poste de travail Linux, j'ai un programme terminal qui continue à réinitialiser à la latine-1 de sorte que cela mangeait quelque peu les choses, je peux la définir à UTF-8, mais il n'a pas d'énorme nombre de glyphes dans la police. Il afficherait plutôt des glyphes de placement quelque peu inutiles. P>
Est-il possible d'imprimer des caractères UTF-16 dans Python?
FileFormat.info/info/unicode/char/3053/index.htm < / a>