Unicode est une norme pour l'encodage, la représentation et la manipulation de texte avec l'intention de prendre en charge tous les caractères requis pour un texte écrit incorporant tous les systèmes d'écriture, symboles techniques et ponctuation.
J'essaie d'extraire chaque page d'un fichier PDF en tant que chaîne: xxx mais ce script ignore les caractères de Newline, me laissant avec des cha&icir ...