Параллельная и распределенная против традиционной файловой системы

Я пытаюсь понять различия между этими тремя файловыми системами на очень базовом уровне.

  • Распределенная FS: HDFS
  • Параллельный FS: блеск
  • Традиционная FS: ext4 / ext3 / NTFS / FAT и т. Д.

Я хочу знать, каковы основные концептуальные различия между этими тремя файловыми системами. Большая часть моих знаний связана с традиционными файловыми системами, то есть суперблоком ext3 / 4 , inode и т . Д.

  • Если процесс на основе MPI (np = 8) пытается прочитать файл или записать файл A из файловой системы, то как механизм доступа к файлу отличается в этих контекстах
  • также как файл хранится в этой среде? т.е. файл A будет разделен на несколько дисков или файл A будет иметь избыточные копии на диске. или более простой сценарий будет означать, что несколько пользователей открывают документ слова, а затем сохраняют его, то как отличается от записи / синхронизации в этих трех сценариях

До сих пор я создал несколько концепций, которые:

  • В локальной файловой системе хранилище физически монтируется на сервере / узлах.
  • В параллельной файловой системе диск используется совместно (mount) на нескольких узлах и,
  • В распределенных FS несколько узлов имеют несколько локальных хранилищ, но все они синхронизированы каким-то механизмом.

Если у меня есть A, B – рабочая станция, а C, D – диск:

  1. Если C физически смонтирован на A и отформатирован как ext4, то это традиционная файловая система.
  2. Если C физически смонтирован на сервере хранения Z + C установлен в сети (NFS) на A и B, то это кластер FS.
  3. Если C физически смонтирован на A и сети, установленной на B, D физически находится на B и сети, установленной на A. Затем это приводит к распределенной FS.

Я понимаю, что эти понятия, вероятно, ошибочны. Хотя в некоторых ответах утверждается, что метаданные и данные находятся на отдельных серверах в параллельных файловых системах, но здесь я также хочу понять, как управлять метаданными в распределенных файловых системах?

Я понимаю, что вопрос довольно длительный, но я стараюсь поставить свой вопрос в качестве непрофессионала / простых терминов, насколько это возможно.

One Solution collect form web for “Параллельная и распределенная против традиционной файловой системы”

AFAICS, термин «параллельная файловая система» – это маркетинговая BS, которая просто означает, что драйвер файловой системы был построен с пониманием того, что несколько процессов могут записывать файлы одновременно, и поэтому использует соответствующую стратегию выделения блоков для записи файлов соприкасающимися друг с другом частей диска, а не фрагментировать их друг над другом. Это в значительной степени стандартная практика для систем unix в течение 20 лет.

Кластеризованная файловая система предназначена для хранения в SAN, где «диск» (который фактически может быть массивом RAID, реализованным в аппаратном обеспечении дискового блока SAN) напрямую доступен для нескольких хостов (по общему соединению SCSI) и поэтому может одновременно монтироваться несколькими хостами одновременно, так как драйверы файловой системы проявляют особую осторожность, чтобы не наступать друг на друга. Это полностью отличается от совместного использования файловой системы через сеть с помощью NFS или CIFS.

Распределенная файловая система больше похожа на сетевую файловую систему, но она внутренне взаимодействует с несколькими серверами для распределения нагрузки по ним, что в значительной степени прозрачно для пользователя. Примером является afs.

  • Разве это имеет значение (например, по производительности), если я выполняю команду из сценария bash (по сравнению с командной строкой)?
  • SSH / OpenMPI: разрешение Отказано с mpirun, но отлично с ssh
  • MPICC с различными версиями GCC
  • Как передать все компьютеры, подключенные к интернет-коммутатору?
  • mpi.h не найден
  • Как запустить Abinit через MPI?
  • разрешение отклонено для mpicc
  • Linux и Unix - лучшая ОС в мире.