Как я могу разбивать страницы UTF-8 и видеть правильные символы?

Если я использую cat в файле, содержащем UTF-8, он отображается правильно:

% cat /tmp/sample <concept code="endangeredLanguage"> <description value="The language is endangered at the given date"@en/> <description value="La lengua está en vías de extinción en la fecha dada"@es/> <description value="O idioma está em vias de extinção na data indicada"@pt/> <description value="La langue est menacée à la date indiquée"@fr/> <description value="ある時点でその言語は絶滅寸前である"@ja/> <description value="De taal is bedreigd met uitsterven op de gegeven datum"@nl/> </concept> 

Но если я использую «меньше», символы, отличные от ASCII, будут экранированы:

 % less /tmp/sample <concept code="endangeredLanguage"> <description value="The language is endangered at the given date"@en/> <description value="La lengua est<C3><A1> en v<C3><AD>as de extinci<C3><B3>n en la fecha dada"@es/> <description value="O idioma est<C3><A1> em vias de extin<C3><A7><C3><A3>o na data indicada"@pt/> <description value="La langue est menac<C3><A9>e <C3><A0> la date indiqu<C3><A9>e"@fr/> <description value="<E3><81><82><E3><82><8B><E6><99><82><E7><82><B9><E3><81><A7><E3><81><9D><E3><81><AE><E8><A8><80><E8><AA><9E><E3><81><AF><E7><B5><B6><E6><BB><85><E5><AF><B8><E5><89><8D><E3><81><A7><E3><81><82><E3><82><8B>"@ja/> <description value="De taal is bedreigd met uitsterven op de gegeven datum"@nl/> </concept> 

по-видимому, потому, что меньше обрабатывают их так, как если бы они были двоичными. Как я могу разбивать на страницы вывод, но все же видеть правильные символы?

2 Solutions collect form web for “Как я могу разбивать страницы UTF-8 и видеть правильные символы?”

Это объясняется тем, что less часто задаваемые вопросы. Может ли отображаться меньше символов на английском языке?

Меньше имеет два способа отображения неанглийских символов. Если ваша система использует однобайтовый набор символов, отличных от ASCII, вы должны настроить свою систему с правильными настройками «locale». Если ваша система не поддерживает setlocale, вы можете установить переменную среды LESSCHARSET или LESSCHARDEF чтобы указать меньше того, какой язык вы используете. Подробнее см. Раздел «НАЦИОНАЛЬНЫЕ УСТРОЙСТВА ХАРАКТЕРА» на странице руководства.

Если ваша система поддерживает кодировку Unicode UTF-8 для текста, отличного от ASCII, как это делают многие современные системы, вы должны либо установить свой язык на что-то, что включает в себя «UTF-8» или «UTF8» (в верхнем или нижнем регистре в порядке ), или установите LESSCHARSET в "utf-8".

Добавьте в свою среду следующую переменную:

 export LESSCHARSET=utf-8 
  • Команда вроде `column -t`, но агностик типа кодирования?
  • Как написать любой Unicode-ключ без предварительно запрограммированного ключа для него в kbd?
  • Bash ведет себя странно, когда PS1 содержит широкие символы Юникода
  • Как сделать tr знанием символов non-ascii (unicode)?
  • Как изменить шрифт консоли bash для отображения символов UTF-8
  • Может ли командная команда linux обрабатывать кодированные текстовые файлы UTF-8?
  • Граница Tmux разделена на rxvt
  • Символы, отличные от ASCII, обрабатываются неправильно в командной строке
  • Текстовый редактор с выбором размера шрифта для определенных человеческих языков (например, Unicode Block), например, Devanagari
  • shell script / utility заменить 2 байта unicode в двоичном файле
  • Проблемы с локалью; не может заставить Arch Linux использовать UFT-8
  • Linux и Unix - лучшая ОС в мире.