Слияние большого набора данных самым быстрым способом

У меня большой набор данных ~ 100 ГБ с меньшими файлами csv ~ 100 000. Я хочу объединить все CSV-файлы вместе самым быстрым способом. Файлы находятся в двух разных папках.

  1. Кто-то предложил мне создать два файла с именами файлов из обеих папок и с использованием имени файла, итерации в каталоге для добавления выходных файлов вместо использования glob ls * . Как я могу добиться этого с помощью Linux. Я довольно новичок в этом, если кто-то может мне помочь, я был бы признателен.
  2. Если какой-либо другой способ, учитывая набор данных, добиться результата

2 Solutions collect form web for “Слияние большого набора данных самым быстрым способом”

Попробуйте что-то вроде этого:

 find /path/to/dir1 /path/to/dir2 -type f -name '*.csv' -exec cat {} + >/path/to/merged.csv 

Обязательно не помещайте объединенный файл в любой из входных каталогов. 🙂

Если вы правильно поняли, вы хотите создать один (100 ГБ размер?) Файл из всех ваших файлов. В этом случае кошка может сделать трюк:

 cat foo1 foo2 bar1 bar2 > newfile 

или в вашем случае

 cat folder1/* folder2/* > newfile 

который возьмет все файлы из folder1 и folder2 и объединит их (как текст) в новый файл. обратите внимание, что кошка просто добавляет файлы в конец (например, добавляет строки)

Тем не менее, это сохранит старые файлы, и вам понадобится в два раза больше места, поэтому вы можете также обрабатывать их отдельно:

 for f in folder1/* folder2/* ; do cat $f >> newfile && rm $f done 

таким образом каждый файл добавляется, а затем удаляется.

Это то, что вы искали?

  • обратный порядок в csv
  • Выполните вывод скрипта, который извлекает данные из CSV
  • Нужна помощь в обработке текстового файла с awk для соответствия формату файлов CSV
  • Добавление к CSV-файлу после получения базы данных из базы данных
  • Помощь с повторением поля A в CSV-файле, где поле B имеет указанное значение
  • Как распечатать все строки файла с повторяющимися значениями в определенном столбце
  • создавать данные для чтения текста из файла
  • CSV - сохранить только определенные записи
  • Проверьте количество записей из исходного файла и загруженной цели
  • Удалите все заглавные буквы из определенного столбца в файле CSV
  • Если сравнение строк оператора
  • Interesting Posts

    Проблема с открытым ключом при обновлении apt-get

    Масштабирование HiDPI для приложений, которые не знакомы

    WBC_ERR_DOMAIN_NOT_FOUND только для определенной учетной записи

    Как может временный код mac «b» быть «n / a»?

    Есть ли способ воспроизвести ускоренное видео gpu без X?

    Debian Запуск задания выполняется для автоматических обновлений

    Изменение MAC-адресов после грязного выключения

    SSH на сервер, выполните команду обновления, которая продолжается даже после выхода из сеанса ssh

    Как добиться быстрого переключения пользователей с помощью нескольких графических адаптеров, предотвратить использование виртуального терминала?

    Как рисовать на графической консоли Linux?

    Сервер Squid Cache 2.7

    xinput не распознает свойства на Fedora 25

    Есть ли опасность использовать переменную unset в определении функции bash?

    Настройте wpa_supplicant.conf на скрытый SSID с помощью WPA2 / PEAP / MS-CHAPv2

    Как узнать, какие процессоры являются физическими ядрами?

    Linux и Unix - лучшая ОС в мире.