Las nuevas GPUs Pascal de NVIDIA aceleran la inferencia del aprendizaje avanzado

Los aceleradores Tesla P4 y P40 ofrecen una inteligencia artificial 45 veces más rápida. El software TensorRT y DeepStream potencian la inteligencia artificial para la evitar la inferencia de video

NVIDIA develó las últimas incorporaciones a su plataforma de aprendizaje avanzado basada en la arquitectura Pascal™: los nuevos aceleradores de GPU NVIDIA® Tesla® P4 y P40, y el nuevo software que logra avances increíbles en cuanto la eficacia y la velocidad para acelerar cargas de trabajo de productos de inferencia para servicios de inteligencia artificial.

La complejidad de los servicios de inteligencia artificial modernos, como la asistencia activada por voz, los filtros antispam y los motores de recomendaciones de productos y películas, crecen rápidamente, requiriendo una potencia de computación 10 veces superior, en comparación con las redes neurales de hace un año. La tecnología actual basada en CPU no es capaz de entregar la capacidad de respuesta en tiempo real que requieren los servicios de inteligencia artificial modernos, lo que genera que la experiencia del usuario sea deficiente.

Los modelos Tesla P4 y P40 se diseñaron específicamente para la inferencia, ya que usan redes neurales profundas y capacitadas para reconocer voz, imagen o texto, en respuesta a las demandas de los usuarios y los dispositivos. Basadas en la  arquitectura Pascal, estas GPUs cuentan con instrucciones especializadas de inferencia basadas en operaciones de 8 bits (INT8), entregando una respuesta hasta 45 veces más rápida en comparación con las CPU(1) y una mejora de 4 veces con respecto a las soluciones de GPU presentadas hace menos de un año.(2)

Tesla P4 ofrece la mejor eficiencia energética para centros de datos. Se puede instalar en cualquier servidor gracias a su factor de forma pequeño y su diseño de bajo consumo, que comienza con 50 W, únalo que le permite tener una eficiencia energética 40 veces mayor que las CPUs para producción  de inferencia de cargas de trabajo.(3) Un solo servidor con una Tesla P4 reemplaza a 13 servidores solo de CPU para cargas de trabajo de inferencia de video,(4) lo que genera ahorros hasta 8 veces en el costo total de la propiedad, lo que incluyendo los costos de energía y servidores.

La Tesla P40 ofrece la máxima tasa de transferencia para las cargas de trabajo de aprendizaje avanzado. Con 47 teraoperaciones por segundo (TOPS) de rendimiento de inferencia con instrucciones INT8, un servidor con ocho aceleradores Tesla P40 pueden reemplazar el rendimiento de más de 140 servidores de CPU.(5) Con un costo aproximado de $5000 por servidor de CPU, esto logra ahorros de más de $650.000 en el costo de la adquisición del servidor.

“Con los modelos Tesla P100, y ahora Tesla P4 y P40, NVIDIA ofrece la única plataforma de aprendizaje profundo integral para el centro de datos, liberando el enorme poder de la inteligencia artificial para un amplio espectro de industrias”, dijo Ian Buck, gerente general de computación acelerada de  NVIDIA. “Los modelos reducen el tiempo de capacitación de días a horas. Permiten extraer la información al instante. Además, producen respuestas en tiempo real para los consumidores de servicios con la tecnología de inteligencia artificial.”

Herramientas de software para una inferencia más rápida

Para complementar la Tesla P4 y P40, se presentan dos innovadores softwares para acelerar la inferencia de inteligencia artificial: NVIDIA TensorRT y el SDK NVIDIA DeepStream.

TensorRT es la biblioteca creada para optimizar modelos de aprendizaje profundo para la implementación de producción que ofrece una capacidad de respuesta instantánea para las redes más complejas. Maximiza la tasa de transferencia y la eficacia de aplicaciones de aprendizaje profundo al aprovechar las redes neurales capacitadas, definidas con operaciones de 32 o 16 bits, y las optimiza para las operaciones INT8 con precisión reducida.

La SDK NVIDIA DeepStream aprovecha la potencia de un servidor Pascal para decodificar y analizar de forma simultánea hasta 93 transmisiones de video en  alta definición, en tiempo real, en comparación con las 7 transmisiones con CPU dobles.(6) Esto aborda uno de los principales desafíos de la inteligencia artificial: comprender el contenido de video, según su escalabilidad, para aplicaciones como los automóviles de conducción autónoma, los robots interactivos, la aplicación de filtros y la presentación de anuncios. La integración del aprendizaje profundo con las aplicaciones de video les permite a las empresas ofrecer servicios de video innovadores e inteligentes que, hasta entonces, eran imposibles de proporcionar.

Salto de calidad para los clientes

Los clientes de NVIDIA proporcionan servicios de inteligencia artificial cada vez más innovadores que requieren el rendimiento de computación más alto.

“Proporcionar experiencias simples y con respuestas a todos nuestros usuarios es muy importante para nosotros”, dijo Greg Diamos, investigador sénior en Baidu. “Implementamos GPU de NVIDIA en la producción para brindar servicios de inteligencia artificial, como nuestro sistema Deep Speech 2. Además, el uso de las GPU nos permite obtener un nivel de respuesta que no sería posible en un servidor no-acelerado. Pascal, con sus capacidades INT8, proporcionará un salto de calidad aún mayor; estamos ansiosos por ofrecer experiencias aún mejores a nuestros usuarios.”

Disponibilidad

Las NVIDIA Tesla P4 y P40 estarán disponibles en noviembre y octubre, respectivamente, en servidores que reúnan los requisitos de ODM, OEM y socios de canal.

—————–

(1) Comparación de latencia usando una red neural VGG-19, tamaño del lote = 4. CPU: Xeon E5-2690v4 con Intel MKL 2017. GPU: Tesla P40 con una versión interna de TensorRT. VGG-19 optimizada por Intel de https://github.com/intel/caffe/tree/master/models/mkl2017_vgg_19.
(2) Comparación de imágenes por segundo usando una red neural Caffe GoogLeNet, tamaño del lote = 128. Servidor de GPU con 8 P40 en comparación un servidor de GPU con 8 M40. Ambas usan una versión interna de TensorRT.
(3) Comparación de imágenes por segundo por watt usando una red neural Caffe AlexNet, tamaño del lote = 128. CPU: E5-2690v4 con Intel MKL 2017. Usa Caffe y AlexNet optimizado por Intel de https://github.com/intel/caffe. GPU: Tesla P4 con medición de la potencia.
(4) Usado GoogLeNet optimizado por Intel, servidor de CPU con doble ranura, Xeon E5-2650v4 usando Intel MKL 2017. Servidor de GPU con 1 Tesla P4 usando el SDK DeepStream. Transmisión de video de 720 p a 30 FPS.
(5) Comparación de imágenes por segundo usando una red neural GoogLeNet, tamaño del lote = 128. Servidor de CPU de doble zócalo, Xeon E5-2690v4 usando Intel MKL 2017, 358 imágenes por segundo. Servidor de GPU con 8 Tesla P40 usando una versión interna de TensorRT, 52.000 imágenes por segundo, tasa de transferencia 145 veces mayor que un servidor de CPU.
(6) Caffe optimizado por Intel usando servidores de CPU con E5-2650 v4 de doble zócalo, Intel MKL 2017, basado en GoogLeNet, optimizado por Intel: https://github.com/intel/caffe/tree/master/models/mkl2017_googlenet_v2, ejecutando la transcodificación de 720 p a 30 FPS. GPU: usando una sola Tesla P4 con un servidor de CPU E5-2650 v4 de doble zócalo.

Anuncios

Responder

Por favor, inicia sesión con uno de estos métodos para publicar tu comentario:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s