Поиск всех типов расширений, указанных в файле html

Вот моя проблема:

Существует папка со многими html и текстовыми файлами. Мне нужно рекурсивно пройти через каждый из них и найти все виды расширений файлов, на которые ссылаются эти файлы html / text, такие как .jpg, .tif, .png и т. Д.

Проблема в том, что у меня нет определенного списка расширений, которые я хочу найти.

Каким будет лучший способ достичь этого с помощью сценария оболочки?

Придумать Reg-ex, который будет по существу искать все вхождения точки, за которой следует 3 или 4 буквы, и отфильтровывать те, которые заканчиваются пробелом или запятой, или цитата и т. Д.?

Любые предложения будут полезны.

One Solution collect form web for “Поиск всех типов расширений, указанных в файле html”

Имея в виду, что HTML не является обычным языком, вы, вероятно, могли бы, по крайней мере, сузить его:

grep -Ro '[a-zA-Z0-9]+\.[a-zA-Z0-9]{1,4}' * 
  • Переменная Bash в html
  • Добавить текст между несколькими строками с sed, если предыдущая строка не соответствует шаблону
  • базовое webscraping из CLI
  • wget on Centos 7 Terminal как загрузить только текст без кода стиля сайта
  • Как сгенерировать HTML-отчет nmap с помощью python?
  • Найдите значение из динамического файла и перейдите к переменной в HTML
  • Как правильно удалить нижний колонтитул с помощью hxremove?
  • Может ли htmldoc создавать многоуровневые закладки PDF?
  • Как загрузить HTML-файл с обфускацией текста
  • Извлечение строк между специальными символами
  • Неанглийские буквы в html2text?
  • Linux и Unix - лучшая ОС в мире.