8
votes

JSON Spécifie "tout caractère unicode"?

Peut-être que c'est juste mon inconnue avec Unicode, alors corrigez-moi si je me trompe.

regarder http://json.org/ , la spécification indique qu'une chaîne peut inclure "tout caractère Unicode ", mais cela me confond.

JSON est un format de communication correct? Au cœur de celui-ci, Tout doit se traduire vers octets.
En revanche, Unicode est un format logique et doit être codé pour être capable de le transmettre, non?
Alors qu'est-ce qu'ils voulaient dire là?

json encoding unicode

0 commentaires

3 Réponses :

3
votes

JSON est un format de sérialisation qui peut inclure des caractères Unicode. La représentation des octets de cette chaîne unicode est généralement envoyée sur le fil, normalement via le protocole HTTP qui utilise des en-têtes HTTP pour spécifier le codage sur le client qui est UTF-8.

1 commentaires

Les derniers États de la RFC: Remarque: aucun paramètre "charset" n'est défini pour cet enregistrement. L'ajout d'un ajout n'a vraiment aucun effet sur les destinataires conformes.

17
votes

du RFC :

3.  Encoding

   JSON text SHALL be encoded in Unicode.  The default encoding is
   UTF-8.

   Since the first two characters of a JSON text will always be ASCII
   characters [RFC0020], it is possible to determine whether an octet
   stream is UTF-8, UTF-16 (BE or LE), or UTF-32 (BE or LE) by looking
   at the pattern of nulls in the first four octets.

           00 00 00 xx  UTF-32BE
           00 xx 00 xx  UTF-16BE
           xx 00 00 00  UTF-32LE
           xx 00 xx 00  UTF-16LE
           xx xx xx xx  UTF-8

1 commentaires

Je suis toujours confus lorsque les gens disent "codés dans unicode", car (comme je le comprends) Unicode est un jeu de caractères, pas un codage. Cela ne devrait-il pas être "utiliser le jeu de caractères Unicode, avec un encodage par défaut de UTF-8"? Je suis surpris de voir une telle chose dans un RFC.

1
votes

Vous avez raison que tout doit se traduire par des octets, et généralement cela se produit généralement via un fichier UTF (format de transformation Unicode). Le JSON RFC explique dans Section 3 Comment savoir ce que UTF est en train d'être utilisé.

0 commentaires