Извлечение символов после определенного текста

Я извлекаю страницу с сайта с помощью команды cURL.

curl "www.google.com" -s | w3m -dump -T text/html > foo.txt 

Команда w3m выводит HTML-страницу в гораздо более удобном формате, так что теперь манипуляция строк в foo.txt проще.

Теперь у меня есть некоторые значения в моем foo.txt которые извлекаются, как foo.txt ниже.

 Assistant director at Hollywood studios Student at University of Texas at Arlington 

Теперь мне нужно извлечь только значения после хранения для хранения в моей базе данных. Как мне это сделать? Например, для вышеуказанного ввода мне нужны значения как,

 Hollywood Studios University of Texas at Arlington 

3 Solutions collect form web for “Извлечение символов после определенного текста”

Другой вариант – передать текст в grep и cut:

 grep -o ' at .*$' foo.txt | cut -c5- 

Это позволит извлечь самую длинную строку для каждой строки, которая начинается с 'at'. Затем срез будет обрезать ведущий «at».

Другой способ – заменить первое вхождение at вкладке, так что теперь у вас есть файл с разделителями табуляции, и вы можете использовать awk правильно:

 $ sed 's/ at /\t/' foo.txt | awk -F'\t' '{print $1" :: "$2}' Assistant director :: Hollywood studios Student :: University of Texas at Arlington 

Или, то же самое в Perl:

 $ perl -ne '/(.+?) at (.+)/; print "$1 :: $2\n"' foo.txt 

или даже

 $ perl -F'\sat\s' -lane 'print "$F[0] :: @F[1..$#F]"' foo.txt 

Вы можете использовать at качестве разделителя столбцов в awk . Следующее должно работать:

 awk -F'at' '{print $2}' foo.txt 
  • cmd2 `cmd1` vs cmd1 | xargs cmd2
  • Как использовать sed для замены строк, в которых есть «\»?
  • Справка по сценарию awk / sed shell
  • Копирование новейших файлов
  • Сценарий оболочки не запущен в crontab
  • Скопируйте файлы в папку назначения только в том случае, если файлы уже существуют. но исходные файлы имеют другое расширение файла
  • Как распечатать каждую другую строку на мониторе
  • Как сделать bash встроенным «read» игнорировать прокомментированные или пустые строки?
  • Декодирование кодировки URL (процентное кодирование)
  • Нужна помощь в удалении слов из списка
  • Синхронизация одинаковых каталогов между двумя Linux-серверами
  • Как быстро сканировать беспроводные сети
  • Linux и Unix - лучшая ОС в мире.