Есть ли способ разделить HTML-файл, не теряя при этом все форматирование в каждом сегменте?

Итак … команда split позволяет мне разбивать файл на куски. Проблема с этим заключается в том, что только один из файлов будет содержать заголовки HTML, и только один из них будет содержать нижние колонтитулы HTML.

(это, вероятно, актуально для многих других файлов, содержащих информацию заголовка / нижнего колонтитула)

2 Solutions collect form web for “Есть ли способ разделить HTML-файл, не теряя при этом все форматирование в каждом сегменте?”

Большинство инструментов unix, например split , являются агностиками формата файла. Чтобы разделить файлы, которые используют определенный формат (например, HTML), в более мелкие отформатированные файлы, используйте определенные инструменты. Для разбиения HTML htmldoc – это первое, что я нашел в Интернете быстро. Он был упакован (по крайней мере, в debian, ubuntu, fedora, gentoo и т. Д.).

Не используйте sed -ish трюки, которые вызывают неудобства в файлах, так как это может привести к некорректным последствиям в один прекрасный день.

Сначала вы можете извлечь и удалить верхний / нижний колонтитул исходного файла, разделить его и добавить выделенный верхний / нижний колонтитул в каждый раскол.

Вы можете использовать xpath или sed для редактирования исходного файла.

Например, эта командная строка разделяет нижний колонтитул заголовка файла:

 $ sed -e '0,/<body>/d' -e '/<\/body>/,$d input.html 

Где sed – это GNU, и предполагается, что тег тела находится на собственной линии.

  • Как разбить изображение по вертикали с помощью строки comand?
  • печать специальных символов в awk-выходе
  • разделять файл, передавать каждую часть в качестве параметра скрипту, запускать каждый скрипт параллельно
  • разделить файл на две части, по шаблону
  • Регулярное выражение ERE для разделения () между разделителем и конечным словом
  • Сплит PDF в документы с несколькими страницами каждый
  • Разделить текстовый файл по строке и переименовать на основе содержимого строки
  • Разделить разделенный запятыми список, игнорирующий запятые в соответствии с {}
  • Разделить большое количество wav-файлов на мелкие части
  • Надежная сегментация csv-файла, содержащего шумные данные
  • Перечислите дни рождения в том порядке, в котором они придут с сегодняшнего дня
  • Linux и Unix - лучшая ОС в мире.