150.214.220.243
Español  English  

Logo Alhambra CSIRC

UGR Alhambra CSIRC

UGRGrid

Esquema general

Estructura UGRGrid

Descripción Subir

UGRGrid es un cluster de cálculo intensivo formado por 281 servidores. De ellos, 16 están dedicados a tareas de gestión (almacenamiento, administración...) y el resto de cálculo. Hay dos tipos de servidores de cálculo, unos que poseen 2 procesadores AMD Opteron dual core y otros con 8 AMD Opteron dual core.

Todos los nodos del cluster están interconectados a través de dos tipos de tecnologías de interconexión de red, Infiniband para los nodos de cálculo, ofreciendo una alta velocidad, baja latencia y alto ancho de banda, y Ethernet para la red de gestión.

El sistema de almacenamiento se basa en una arquitectura SAN (Storage Area Network). En UGRGrid hay dos tipos de SAN, una para guardar datos en disco y otra para hacer copias de seguridad en cintas. El primero es del tipo Sun StorageTek 6540, con 24 TB de capacidad. Los volúmenes que hay en estas son exportados a todo el cluster via dos tipos de sistemas de archivos en red, Lustre File System y NFS, el primero para almacenamiento de datos temporales y el otro para permanentes. Los datos se esta unidad se salvan en la SAN de cintas, que posee 40 TB de capacidad.

En total suman 1264 núcleos de proceso, interconectados a través de una red Infiniband de alto rendimiento (10 Gb/s y 3 µs de latencia), con 3 TByte de memoria RAM y 24 TByte de almacenamiento en disco (de los cuales 14 TByte son útiles).

Servidores de Gestión Subir

  • Planificador de trabajos. Distribuye la carga de trabajo entre los distintos nodos del cluster.
  • Gestión remota y monitorización.

Servidores de Cálculo Subir

Todos los servidores de cálculo llevan incorporados el procesador AMD Opteron 275, cuya frecuencia de reloj es 2200 Mhz. Este es un procesador compatible con la familia x86 con capacidad de proceso de 64-bits. Un esquema de este procesador se puede ver en la imagen de abajo:

Procesador

En el gráfico se puede ver como el sistema de multiprocesamiento AMD no dispone de un bus "Front-Side", a diferencia de otras arquitecturas x86. Este diseño permite las siguiente ventajas:

  • El controlador de la RAM se integra con el chip de CPU, consiguiendo un importante reducción de latencia
  • Las comunicaciones con otros procesadores/memoria/E/S se hacen directamente, punto a punto. De este modo, no existe cuello de botella, a diferencia de arquitecturas FSB tradicionales. Estas conexiones se realizan mediante enlace de baja latencia "HyperTransport", con ancho de banda de 8GB/seg.
  • Tanto la caché L1 como la L2 se encuentran integradas en el chip de CPU.

Estos procesadores van instalados en dos tipos de servidores, Sun Fire X2200 M2 y Sun Fire X4600 M2, que poseen las siguiente características:

Sun Fire X2200 M2 (248 nodos)

  • 2 procesadores AMD Opteron Dual Core.
  • 8 GB RAM DDR2-667
  • 2 discos SATA de 2,5" de 250GB cada uno
  • 4 interfaces de red gigabit ethernet
  • Tamaño de 1U
  • Tarjeta integrada de gestión IPMI, SNMP y Remote KVMS

Sun Fire X4600 M2 (17 nodos)

  • 8 procesadores AMD Opteron Dual Core.
  • 64 GB RAM DDR2-667
  • 2 discos Serial Attached SCSI de 73 GB.
  • 4 interfaces de red gigabit ethernet
  • Tamaño de 4U
  • Tarjeta integrada de gestión IPMI, SNMP y Remote KVMS

Almacenamiento Subir

Los usuario disponen de dos tipos de almacenamiento de trabajo, uno para guardar datos permanentes y otro para datos temporales. El primero se denominará directorio de datos permanente y al segundo directorio temporal de trabajo. En este último será desde donde ejecutará sus aplicaciones. Cada grupo de investigación y usuario posee un espacio propio dentro de cada tipo de espacio para guardar sus datos.

El directorio de almacenamiento permanente es donde las aplicaciones deben guardar sus datos una vez haya terminado su ejecución. Tenga en cuenta que el espacio de almacenamiento temporal es limitado y compartido con otros usuarios, por lo que terminado el cálculo, debe transferir los ficheros de salida que desee guardar a su directorio de datos permanentes o a su ordenador personal. De lo contrario, estaría perjudicando el rendimiento global del sistema y en concreto a los otros usuarios. Asimismo, los archivos a los que no se haya accedido en los últimos 20 días se borrarán automáticamente.

Por otra parte, el espacio de almacenamiento permanente está limitado a 50 GByte y 120000 inodos (archivos regulares, directorios, enlaces, etc.) por usuario. Cuando un usuario se acerque a ese límite, recibirá un correo informándolo de tal situación.

Por ejemplo, suponga el caso de un usuario llamado "anónimo" que pertenece al grupo de investigación cuyo código es "ANM", va a mandar un trabajo, sus directorios de trabajo serían los siguientes:

Directorio Datos Permanentes Directorio Temporal de Trabajo
/home/ANM/anónimo /SCRATCH/ANM/anónimo

Para mandar un trabajo, accedería vía sftp al servidor ugrgrid.ugr.es, transfiriendo los ficheros necesarios para ejecutar su aplicación a su directorio temporal de trabajo (/SCRATCH/ANM/anónimo). Una vez terminado el trabajo movería todos los ficheros que desee guardar de una forma permanente del directorio de trabajo al permanente (/home/ANM/anónimo).

Para ver las aplicaciones que están soportadas en el sistema haga click aqui.

Existe un espacio de almacenamiento temporal adicional en cada nodo de cálculo destinado a scratch local, este espacio es accesible como /LOCALSCRATCH con capacidad de hasta 150 GB en los nodos X2200 y 100GB en los nodos X4600.

Redes de Interconexión Subir

Red de datos

Basada en Gigabit Ethernet, se utiliza para transferir los datos de las aplicaciones, acceder a los directorios de usuario e interconectar los distintos servicios del cluster.

Red de cálculo

Basada en Infiniband, se utiliza para comunicación de aplicaciones paralelas que utilizan memoria distribuida (por ejemplo, aplicaciones que utilizan MPI), así como para acceder a los datos temporales de las aplicaciones que residen en almacenamiento compartido. Las principales ventajas con respecto a Gigabit Ethernet son su mayor ancho de banda (hasta 10 Gb/s frente a 1 Gb/s de Gigabit Ethernet) y, sobre todo, su latencia mucho menor (unos 3 µs frente a latencias del orden de cientos de microsegundos de Gigabit Ethernet), lo cual es tan importante o incluso más que el valor del ancho de banda para el rendimiento de aplicaciones científicas.

Contacto  Mapa web  Sugerencias  Visita Alhambra          CSIRC                 © Universidad de Granada