Hadoop Distributed File System HDFS

Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido para las necesidades de alto rendimiento de datos sobre el acceso de los productos básicos de hardware para grandes conjuntos de datos

El sistema emula el sistema de archivos de Google (GFS), los datos almacenados de una manera duplicada en el mismo nodo para alcanzar el objeto de los datos agregados.

El principal objetivo de diseño del sistema que comprende: un tolerante a fallos, escalable, eficiente y fiable.

HDFS utilizando MapReduce, pero no migrar a migrar tareas de procesamiento de datos a un nodo físico (datos almacenados) de manera de reducir la red I / O. Es un sub Apache Hadoop HDFS y montado Hadoop.

OpenStack Swift Amazon S3 un almacenamiento de objeto similar. Sus principales características son

1. Todos los objetos de almacenamiento tiene sus propios metadatos y una URL, estos objetos se copian 3 veces como la única región, y estas regiones pueden ser definidos como un conjunto de controladores, un nodo, una carcasa o similar.
2. El revelador por la interacción con un sistema de almacenamiento de objetos API HTTP RESTful.
3. Los datos de objetos pueden ser colocados en cualquier parte del clúster.
4. En el caso no afecta al rendimiento, ampliado mediante la adición de nodo de clúster externo. Esta es una actualización relativamente amplia, más expansión de almacenamiento casi en línea rentable.
5. La necesidad de migrar los datos a un nuevo sistema de almacenamiento.
6. Las agrupaciones pueden añadir nuevos nodos y sin tiempo de inactividad.
7. nodos y fallos de disco y sin tiempo de inactividad se pueden intercambiar.
8. ejecuta en hardware estándar, tales como Dell, HP y Supermicro.

Almacenamiento de objetos nube pública

La mayoría de nube pública de almacenamiento de objetos solamente. Por ejemplo, Google Cloud Storage es una, escalable de almacenamiento de objetos rápida y de alta disponibilidad. Y no hay necesidad de almacenamiento en la nube es un modelo de imagen, archivos de vídeo se pueden almacenar grandes cantidades de datos.

Productos similares a Microsoft Azure Bolb: http: //azure.microsoft.com/en-us/documentation/articles/storage-dotnet-how-to-use-blobs/

Ali tiene OSS similar: https: //www.aliyun.com/product/oss/

Haystack Facebook para almacenamiento de imágenes

Facebook Haystack tiene una gran cantidad de metadatos para el almacenamiento de objetos de imagen, utilizando cada archivo de imagen es una forma de reemplazar el sistema de archivos NFS. http://cse.unl.edu/~ylu/csce990/notes/HayStack_Facebook_ShakthiBachala.ppt

Además, Facebook se centran en el servicio de cola larga, el almacenamiento en caché tradicional y CDN (Content Delivery Network) el rendimiento no es muy bueno. El sitio tiene un tráfico normal de CDN 99%, pero sólo alrededor del 80% CDN Facebook CTR.

F4: Facebook cálida naturaleza de almacenamiento BLOB

F4 se utilizó originalmente para aplicaciones de sistema de almacenamiento principal de Facebook de imagen. Para el año 2016, casi 8 años.

Durante este período, tales como la reducción del número de discos al tratar de leer un BLOB a 1, más optimizado para lograr tolerancia a fallos y los lugares de instalación funciona bien copiando (factor de replicación de archivos que tres es el número de copias). Mientras tanto, aunque Facebook sigue siendo buena, pero el servicio ha sido desarrollado.

A partir de febrero de 2014, Haystack almacena alrededor de 400 mil millones de imágenes. https://www.usenix.org/systemhttp://img.watchstor.com/conference/osdi14/osdi14-paper-muralidhar.pdf

Actualmente, la memoria local f4 sobre 65PB BLOB, y para reducir eficazmente el factor de replicación desde 3.6 a 2.8 o 2.1 arbitraria.

f4 proporciona baja latencia, disco recuperable, el anfitrión, armarios y el centro de datos y el fracaso para proporcionar el rendimiento adecuado de BLOB caliente.

Cinder OpenStack almacenamiento de bloque

OpenStack (similar a la nube comercial) también puede proporcionar acceso tradicional almacenamiento en bloque como un sistema de archivos de Linux. bloques de hormigón de la piscina pueden ser virtualizado de dispositivos de almacenamiento y necesidades de los usuarios finales y el consumo de estos recursos para proporcionar una API de auto-servicio, sin tener que conocer la ubicación real o el tipo de implementaciones de almacenamiento del dispositivo de almacenamiento.

OpenStack Cinder similar a Amazon EBS (Elastic Block Storage) y archivos de Microsoft Azure y Google Almacenamiento persistente.

Lustre

Lustre es un sistema de archivos distribuido en paralelo, que se utiliza generalmente para los clústeres de computación a gran escala. ?? Se toma su nombre de Linux y racimo (cluster) de las palabras compuestas. software de sistema de archivos Lustre siguiente protocolo de autenticación GPL2 y proporciona un sistema de archivos de alto rendimiento (todos los tamaños) cluster de ordenadores.

Dado que el sistema de archivos Lustre tiene una alta capacidad de rendimiento y Autenticación abierta, que se utiliza con tanta frecuencia en los superordenadores.

Lustre escalabilidad de sistema de archivos para soportar miles de nodos cliente configurados en cientos de servidores, PB-etapa capacidad pluralidad de clusters de ordenadores, y más allá etapa de polimerización rendimiento TB I / O.

Esto permite a las empresas favorecidas del sistema de archivos Lustre con grandes centros de datos, incluyendo, por ejemplo, el tiempo, virtuales, las industrias de petróleo y gas de finanzas, ciencias de la vida, multi-medios y entretenimiento. Lustre había sido retirado varias empresas, más recientemente tres propietarios (orden cronológico), seguido de Oracle, Whamcloud e Intel.

Gluster

GlusterFS siguen Infiniband RDMA o TCP / IP para crear un bloque de almacenamiento centralizado, disco centralizada y recursos de memoria dentro de un único espacio de nombres y la gestión global de datos.

Para las implementaciones de nube pública, GlusterFS proporciona una (imagen de la máquina de Amazon) AWS IAM. No se implementa en un servidor físico, pero implementa en Elastic Compute Cloud (EC2) de ejemplo, y la formación del espacio de almacenamiento es Amazon Elastic Block Storage (EBS).

En este entorno, la capacidad de almacenamiento mediante el despliegue de dispositivo de expansión EBS adicional, el rendimiento se ve reforzada por el despliegue de más instancias de EC2, el multi-usabilidad entre la replicación AWS por un área disponible para mejorar.

Fusible (sistema de archivos en el sistema de archivo de espacio de usuario del espacio de usuario)

Sistema operativo certificado FUSIBLE GPL / LGPL es un mecanismo para el sistema operativo Unix de computación, por lo que los usuarios no tienen que editar el código del núcleo para construir su propio sistema de archivos. Aunque esto es mediante la ejecución de código de usuario en el sistema de archivos espacio de lograr, pero módulo de fusible únicamente ofrece una verdadera interfaces del núcleo llegada de un "puente".

FUSIBLE fue desarrollado originalmente como una módulos cargables del núcleo de lograr, mediante el uso de GlusterFS, especialmente para la preparación de un sistema de archivos virtual. Pero con el sistema de archivos tradicional, especialmente los diferentes sistemas se pueden almacenar y recuperar datos desde el disco, el sistema de archivos virtual prácticamente imposible de recuperar su propio almacenamiento de datos. Actúan como un sistema de archivos o dispositivos de almacenamiento existentes, o ver la traducción.

Ceph

CPHE son Red Hat, el Ceph el protocolo LGPL es una plataforma de almacenamiento que soporta objetos distribuidos almacenados en un solo nodo, el bloque y el archivo de almacenamiento.

CPHE importante fue diseñado originalmente en un único fallo de nodo puede ser evitado sistema distribuido de archivos, nivel EB de escalabilidad, y es una fuente abierta de software libre, muchos ultra-integración de los sistemas de archivos distribuidos se basa en el desarrollo Ceph, como integración de software de código abierto en aplicaciones de negocio sobre el campo, Ceph ha sido criticado debido a problemas de rendimiento, pero hay falta de esfuerzo y muchos fabricantes de continuar optimizando el Ceph.

IBM General Parallel File System (Sistema de archivos GPFS General Parallel)

El propietario desarrollado por IBM GPFS es un sistema de archivos de clúster de alto rendimiento. Puede ser desplegado en un disco compartido o compartida distribuida modo paralelo.

GPFS-SNC, lo que representa el SNC compartido Nada Cluster (no compartido de clúster), que es en diciembre de 2012 lanzó oficialmente la versión 3.5 GPFS, ahora conocido como GPFS-FPO (optimización de la configuración del archivo). Esto permite GPFS disco conectado localmente se puede utilizar en un servidor de clúster en red, servidor dedicado, sin la necesidad de configurar el disco compartido (por ejemplo, usar SAN), GPFS-FPO puede actuar como HDFS sistema de archivos compatibles.

GPFS accederse a menudo llamando MPI-IO (Message Passing Interface) en los clústeres de computación. Las características incluyen:

Procesamiento de metadatos distribuido. Incluye un árbol de directorios. No hay una gestión separada o "controlador de directorio" "Index Server" sistema de archivos.

Por muy grandes directorios entrada de directorio índice de eficiencia. Muchos dentro del sistema de archivos se limita a un único directorio (por lo general, 65536 o similares pequeño número binario) en unos pocos archivos, y GPF tales restricciones.

Distribuido bloqueo. Esta característica tiene en cuenta la semántica del sistema de archivos POSIX, incluido el acceso exclusivo al archivo de bloqueo.

Fecha actualización el 2021-02-06. Fecha publicación el 2018-02-06. Categoría: amazon. Autor: Oscar olg Mapa del sitio Fuente: watchstor