Pourquoi le symbole de diplôme diffère de UTF-8 de Unicode? P>
Selon: http://www.utf8-chartable.de/ et http://www.fileformat.info/info/unicode/char/ B0 / Index.htm P>
Unicode est
4 Réponses :
utf-8 est un moyen d'encoder des caractères UTF à l'aide de nombre variable d'octets (le nombre d'octets dépend du point de code).
Points de code entre U + 0080 et U + 07FF Utilisez les 2 octets suivants < un href = "http://fr.wikipedia.org/wiki/utf-8#design"> coding : p> où considérons u + 00b0. En binaire, 0xb0 est 10110000. Si l'on substitue les bits dans le modèle ci-dessus, on obtient: p> dans hex, ceci est 0xc2 0xb0. P> P> P> P> P > x < / Code> représente les bits du point de code codé. p>
Et, cruciale, c'est simplement une représentation différente du même point de code Unicode, U + 00b0. UTF-16 utilise 0x00 0xb0 (Big-Endian) ou 0xB0 0x00 (Little-Endian), mais UTF-8 utilise 0XC2 0xB0 (pas d'endian-ness).
Le lien que vous fournissez est très utile ... merci
@Jonathanleffler "Pas d'Endian-Ness" Pas une terminologie appropriée mais drôle
@Userthatisnotausere c'est la terminologie appropriée. en.wikipedia.org/wiki/endianness
@Clake Désolé, je faisais référence à la placement étrange du tiret. Certainement d'accord! 🤦🏻♂️
Unicode (UTF-16 et UTF-32) utilise le point de code Cartes ASCII de base 7 bits directement aux 128 premiers caractères de UTF-8. Tous les caractères dont les valeurs sont supérieures à 127 décimales (7F Hex) doivent être "échappées" en réglant le bit élevé et en ajoutant 1 octets supplémentaires ou plus à décrire. P> 0x00b0 code> pour ce caractère. Utf-8 n'autorise pas les caractères à des valeurs supérieures à 127 (
0x007f code>), car le bit élevé de chaque octet est réservé pour indiquer que ce caractère particulier est en fait un multi-octet. P>
utf-8 est un encodage de Unicode. UTF-16 et UTF-32 sont d'autres codages d'UNICODE. P>
Unicode définit une valeur numérique pour chaque caractère; Le symbole degré se trouve être 0xB0, ou 176 en décimal. Unicode ne définit pas la manière dont ces valeurs numériques sont représentées. P>
utf-8 code la valeur utf-16 code la même valeur que utf-32 encode comme 0xb0 code> comme deux octets consécutifs (octets) avec des valeurs
0xc2 0xb0 code>. p>.
0x00 0xb0 code> ou comme
0xbo 0x00 code>, en fonction de l'endiangité. P>
0x00 0x00 0x00 0xb0 code> ou comme
0xb0 0x00 0x00 0x00 code>, en fonction de l'endansalité (je suppose que d'autres commandes sont possibles). P >
Les réponses de NPE, Marc et Keith sont bonnes et au-dessus de mes connaissances sur ce sujet. Je devais toujours les lire plusieurs fois avant de réaliser ce que c'était à propos. Ensuite, j'ai vu cette page Web qui l'a fait "cliquer" pour moi. P>
chez http://www.utf8-chartable.de/ , vous pouvez voir le Suivant: p>
P>
remarquez comment il est nécessaire d'utiliser deux octets pour coder un personnage. Maintenant, lisez la réponse acceptée de la NPE. P>
Si un utilisateur ne peut pas voir le site Web, il affiche 0x7f code> (Supprimer) comme UTF-8:
7f code> et
0x80 code>
c2 80 code>
Il existe des milliers de caractères dont la représentation diffère entre UTF-8 et UTF-16. Qu'est-ce qui vous fait croire que le symbole de degré mérite un traitement spécial?
Vous devez comprendre la différence entre Unicode et ses différents codages. Lisez les liens que les gens ont affiché.
@Mikenakis: Je crois que Tous i> Les points de code Unicode ont des représentations différentes dans UTF-8 et UTF-16.