7
votes

Quel est le bon terme technique pour les caractères "High ASCII"?

Quelle est la méthode techniquement correcte de faire référence à des caractères "High ASCII" ou "ASCII étendu"? Je ne veux pas dire que la portée de 128-255, mais n'importe quel caractère au-delà de la portée 0-127.

Souvent, ils s'appellent des diacritiques, des lettres accentuées, parfois appelées caractères «nationaux» ou non anglais, mais ces noms sont imprécisés ou ne couvrent qu'un sous-ensemble des caractères possibles.

Quel terme correct et précis que les programmeurs reconnaissent immédiatement? Et quel serait le meilleur terme anglais à utiliser lorsque vous parlez à un public non technique?


1 commentaires

J'essayais d'être concis, mais j'aurais peut-être dû expliquer pourquoi j'ai demandé. Je suis traducteur, mon travail est la localisation logicielle. Souvent (toujours!) Je rencontre des bugs où seuls les caractères "nationaux", "étendus" de ma langue sont brassés sur l'écran, généralement parce qu'un mauvais point de code a été appliqué à un moment donné. Par conséquent, j'ai besoin d'un terme pour faire référence à ces personnages spécifiques, de sorte que je n'ai pas toujours à recourir à une phrase descriptive, si possible. Mon auditoire est des programmeurs, des ingénieurs et des gestionnaires, pour qui l'anglais n'est pas toujours leur langue maternelle.


8 Réponses :


-1
votes

caractères Unicode non-ASCII.


4 commentaires

Ceci est une erreur. Unicode n'a rien à voir avec l'ASCII, à l'exception d'être compatible avec l'arrière pour les 127 premiers points de code.


C'est le but. Tous les caractères Unicode qui n'ont pas d'équivalents ASCII.


@Dervin: Tout comme les valeurs supérieures à 127 n'ont rien à voir avec ASCII.


Un caractère en dehors de la gamme ASCII n'est pas un caractère unicode. C'est un personnage en dehors de la gamme ASCII. En fonction du codage du personnage que vous utilisez, il est soit: une séquence de bits non valide; Un caractère unicode, un caractère ISO-8859-X, un caractère Microsoft 1252, ou un caractère dans un autre codage de caractères.



18
votes

"caractères non ascii"


1 commentaires

Il semble que la négation est la meilleure définition par la négation. Dès que nous ajoutons "Unicode", le terme ne sera pas applicable dans des contextes non unicode, etc. J'ai aimé l'idée de SGM de "trans-ascii", mais une monnaie fraîche ne le coupera pas, surtout lors de la communication entre les langues .



0
votes

"ASCII étendu" est le terme que j'utiliserais, ce qui signifie "caractères au-delà de l'original 0-127".

Unicode est un ensemble possible de caractères ASCII étendus et est tout à fait large.

utf-8 est le moyen de représenter des caractères Unicode compatibles avec l'ASCII d'origine.


4 commentaires

Ma pensée était "ASCII étendue" ne ferait que référence à 128-255. Tout ce qui ne peut être exprimé dans cette plage n'est plus vraiment ASCII :)


Notez également (de Wikipedia) que l'utilisation du terme «ASCII étendu» a été critiquée, car elle peut être confondue pour une extension de la norme ASCII.


@thomasRutter; Si vous allez modifier ma réponse autant dans une édition, veuillez simplement publier une réponse différente et / ou laisser un commentaire ici au moins?


Gee, j'essayais juste d'être utile. J'ai tout ramené.



1
votes

Vous pouvez monnaître un terme comme "trans-ascii", "supra-ASCII" "" ULTRA-ASCII ", etc. En réalité," Meta-ASCII "serait encore plus gentil puisqu'il fait allusion à la méta bit.


1 commentaires

J'aime "TRANS-ASCII" et je pense que cela exprime correctement l'idée, mais je cherche principalement un bon terme pour communiquer le concept. L'utilisation d'un terme auto-inticulé peut ne pas le faire :)



2
votes

Les codes de caractères ASCII supérieurs à 127 ne sont pas définis. De nombreux équipements et logiciels différents fournisseurs ont développé leur propre jeu de caractères pour la valeur 128-255. Certains ont choisi des symboles de dessin, Sone Choisissez des caractères d'accent, d'autres choisissent d'autres caractères.

Unicode est une tentative de fabrication d'un ensemble universel de codes de caractères qui inclut les caractères utilisés dans la plupart des langues. Cela inclut non seulement les alphabets occidentaux traditionnels, mais cyrillique, arabe, grec et même un grand ensemble de personnages de Chinois, japonais et coréen, ainsi que de nombreuses autres langues modernes et anciennes.

Il existe plusieurs implémentations d'Unicode. L'un des plus populaires si UTF-8. Une raison majeure de cette popularité est qu'elle est compatible avec ASCII, les codes de caractères 0 à 127 sont les mêmes pour ASCII et UTF-8.

Cela signifie qu'il est préférable de dire que ASCII est un sous-ensemble de UTF-8. Le code de caractères 128 et plus n'est pas ASCII. Ils peuvent être UTF-8 (ou autre Unicode) ou peuvent être une implémentation personnalisée par un fournisseur matériel ou logiciel.


2 commentaires

Les UTF ne sont pas des "implémentations" d'UNICODE. Ce sont des codages de texte unicode dans des bytrestrings. Le texte Unicode est représenté comme une séquence de nombres ( pas int s ou long s, numéros ), et le UTFS sont des moyens de traduire chaque numéro en une séquence d'un ou de plusieurs octets.


Jim, merci, mais je suis plus ou moins conscient de ce que ce sont :) Je cherchais seulement un nom précis.



-1
votes

Si vous dites "High ASCII", vous êtes par définition dans la plage 128-255 décimale. ASCII lui-même est défini comme une représentation d'un octet (en réalité 7 bits); L'utilisation du bit élevé pour permettre aux caractères non anglais est arrivé plus tard et a donné lieu aux pages de code qui ont défini des caractères particuliers représentés par des valeurs particulières. Toute valeur décimale multibyte (> 255) n'est pas ASCII.


0 commentaires

0
votes

Une séquence de bits qui ne représente pas un caractère ASCII n'est pas définitivement un caractère unicode.

en fonction du codage de caractère que vous utilisez, il pourrait être soit:

  • une séquence de bits non valide
  • un caractère unicode
  • Un caractère ISO-8859-X
  • Un personnage Microsoft 1252
  • un caractère dans un autre personnage codant
  • Un bogue, des données binaires, etc.

    La définition unique qui correspondrait à toutes ces situations est la suivante:

    • Pas un caractère ASCII

      Pour être très pédants, même "un caractère non ASCII" ne correspondrait pas exactement à toutes ces situations, car parfois une séquence de bits en dehors de cette plage peut être simplement une séquence de bits non valide, et non un caractère du tout. < / p>


0 commentaires

0
votes

Pris des mots d'une ressource en ligne ( Cool webshing si ) parce que je l'ai trouvé utile et approprié d'écrire et de répondre.

Au début, les lettres et chiffres de majuscules, mais en 1967 ont été ajoutés les lettres minuscules et certains caractères de contrôle, formant ce que l'on appelle US-ASCII, c'est-à-dire les caractères 0 à 127. Donc, avec cet ensemble de seulement 128 caractères a été publié en 1967 en standard, contenant tout ce que vous devez écrire en anglais.

En 1981, IBM a développé une extension du code ASCII 8 bits, appelée "Code page 437", dans cette version, a été remplacé certains caractères de contrôle obsolètes pour les caractères graphiques. De plus, 128 caractères ont été ajoutés, avec de nouveaux symboles, des signes, des graphiques et des lettres latins, tous les panneaux de ponctuation et les personnages nécessaires pour écrire des textes dans d'autres langues, telles que l'espagnol. De cette façon, on a ajouté les caractères ASCII allant de 128 à 255.

IBM inclut la prise en charge de cette page de code dans le matériel de son modèle 5150, appelé "IBM-PC", considéré comme le premier ordinateur personnel. Le système d'exploitation de ce modèle, "MS-DOS" a également utilisé ce code ASCII étendu.


0 commentaires