aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas...

18
Página 1 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy Junio de 2019 APRENDIZAJE AUTOMÁTICO Y APRENDIZAJE PPROFUNDO EMPRESARIALES CON ALMACENAMIENTO I NTELIGENTE RESUMEN Impulsadas por los datos, los avances de la infraestructura y la omnipresencia de los kits de herramientas de aprendizaje automático y aprendizaje profundo (ML/DL), las soluciones de inteligencia artificial (IA) se están convirtiendo rápidamente en un pilar del centro de datos empresarial. La IA convierte los datos en información valiosa para una amplia variedad de mercados verticales empresariales tan diversos como la industria automotriz, los servicios de salud, las ciencias biológicas, las finanzas, la tecnología, el comercio minorista y más. Ahora, los datos son una ventaja competitiva en industrias tales como la de seguros: donde la IA predictiva elimina los riesgos de la subescritura, de finanzas: donde el aprendizaje profundo en tiempo real reconoce el fraude a medida que ocurre, e incluso de administración del centro de datos: donde se analizan los patrones para predecir las fallas y los problemas de escalabilidad. La inteligencia artificial y especialmente el aprendizaje profundo suman nuevas exigencias a la manera en que se proporcionan los datos a los motores de computación que los utilizan. Las nuevas realidades de la implementación de la inteligencia artificial en el centro de datos cambian las exigencias de densidad, rendimiento y simultaneidad, e incluso cambia la arquitectura de datos de escalamiento horizontal. El equipo de TI debe cambiar su manera de pensar en cuanto a la combinación de almacenamiento y computación para cumplir con la promesa de IA para la empresa. En este informe se describe cómo el aprendizaje profundo y la inteligencia artificial de la empresa aportan nuevos flujos de trabajo y retos a la arquitectura del centro de datos. También se aborda la manera en que las soluciones pueden crearse a partir de arquitecturas de infraestructura diseñadas específicamente para integrar la computación y el almacenamiento de escalamiento horizontal.

Upload: others

Post on 02-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas organizaciones se ven abrumadas por la determinación de la forma en que desean aprovechar

Página 1 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy

Junio de 2019

APRENDIZAJE AUTOMÁTICO Y APRENDIZAJE

PPROFUNDO EMPRESARIALES CON

ALMACENAMIENTO INTELIGENTE

RESUMEN

Impulsadas por los datos, los avances de la infraestructura y la omnipresencia de los

kits de herramientas de aprendizaje automático y aprendizaje profundo (ML/DL), las

soluciones de inteligencia artificial (IA) se están convirtiendo rápidamente en un pilar

del centro de datos empresarial. La IA convierte los datos en información valiosa

para una amplia variedad de mercados verticales empresariales tan diversos como

la industria automotriz, los servicios de salud, las ciencias biológicas, las finanzas,

la tecnología, el comercio minorista y más. Ahora, los datos son una ventaja

competitiva en industrias tales como la de seguros: donde la IA predictiva elimina los

riesgos de la subescritura, de finanzas: donde el aprendizaje profundo en tiempo real

reconoce el fraude a medida que ocurre, e incluso de administración del centro de

datos: donde se analizan los patrones para predecir las fallas y los problemas de

escalabilidad.

La inteligencia artificial y especialmente el aprendizaje profundo suman nuevas

exigencias a la manera en que se proporcionan los datos a los motores de computación

que los utilizan. Las nuevas realidades de la implementación de la inteligencia artificial

en el centro de datos cambian las exigencias de densidad, rendimiento y simultaneidad,

e incluso cambia la arquitectura de datos de escalamiento horizontal. El equipo de TI

debe cambiar su manera de pensar en cuanto a la combinación de almacenamiento y

computación para cumplir con la promesa de IA para la empresa.

En este informe se describe cómo el aprendizaje profundo y la inteligencia artificial

de la empresa aportan nuevos flujos de trabajo y retos a la arquitectura del centro

de datos. También se aborda la manera en que las soluciones pueden crearse

a partir de arquitecturas de infraestructura diseñadas específicamente para integrar

la computación y el almacenamiento de escalamiento horizontal.

Page 2: Aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas organizaciones se ven abrumadas por la determinación de la forma en que desean aprovechar

Página 2 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy

Junio de 2019

El aprendizaje profundo requiere la alimentación de grandes cantidades de datos

en el procesador sin que los procesadores deban esperar para obtener esos datos.

La combinación adecuada de computación con la tecnología de almacenamiento

adecuada, como la serie Dell EMC Isilon, permite que los datos se alimenten en la

canalización del aprendizaje automático a la velocidad del procesador. Los sistemas

balanceados correctamente aceleran la innovación y ofrecen flexibilidad y agilidad

a las organizaciones de TI y a los científicos de datos que dependen de ellos.

EL APRENDIZAJE PROFUNDO ESTÁ CAMBIANDO LA EMPRESA

Tal parece que todos han visto la portada de la revista The Economist, con una

plataforma petrolífera como telón de fondo, en la que se declara que los datos son

“El recurso más valioso del mundo”1. Los avances en el aprendizaje automático (ML)

y el aprendizaje profundo (DL) realmente le dieron una nueva relevancia a los datos

de todas las organizaciones: los datos se convirtieron en un diferenciador competitivo.

FIGURA 1: LA RELACIÓN ENTRE IA, ML Y DL

Fuente: Moor Insights & Strategy

1 The Economist, The World’s Most Valuable Resource is No Longer Oil, But Data. 6 de mayo de 2017.

Page 3: Aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas organizaciones se ven abrumadas por la determinación de la forma en que desean aprovechar

Página 3 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy

Junio de 2019

La inteligencia artificial describe una clase general de tecnologías en las que las

computadoras toman decisiones o proporcionan información valiosa que, por lo

general, se asocia con la inteligencia humana. Un ejemplo simple de IA es el motor

de recomendaciones del comercio minorista que se puede encontrar en el sitio web

en línea de un distribuidor, el que brinda recomendaciones de productos en función

del historial de compras anterior y de lo que está buscando actualmente.

El aprendizaje automático es un tipo de inteligencia artificial en la cual los algoritmos

analizan los datos, aprenden de ellos y aplican ese aprendizaje en entornos reales

para tomar decisiones. Un sistema de aprendizaje automático para detectar el correo

electrónico no deseado, por ejemplo, podría capacitarse con muestras de los millones de

correos electrónicos que los usuarios transfieren a la carpeta de spam todos los días.

El aprendizaje profundo, una de las áreas más interesantes y activas de la inteligencia

artificial, es un subconjunto del aprendizaje automático. El aprendizaje profundo utiliza

algoritmos denominados redes neuronales para refinar continuamente sus predicciones

a partir de los datos a medida que se presentan. El aprendizaje profundo es una parte

fundamental de los vehículos autónomos, del análisis de preferencias que reconoce los

estados de ánimo y de la mayoría de las demás técnicas de IA que se ocupan de obtener

datos reales para tomar decisiones o brindar recomendaciones dinámicas. En este

informe se trata de manera más directa el DL, a pesar de que surgen similitudes

arquitectónicas cuando se implementa cualquier tipo de sistema de IA con uso intensivo

de datos.

Los casos de uso de la IA son muchos y diversos, desde bots conversacionales

y sistemas de respuesta de voz basados en la IA hasta la predicción del comportamiento

del cliente y la administración optimizada de la cadena de suministro. La era de la

empresa inteligente llegó y muchas organizaciones se ven abrumadas por la

determinación de la forma en que desean aprovechar las tecnologías de aprendizaje

automático para lograr una mejor ventaja competitiva en su industria.

Según una encuesta reciente2 realizada a más de 1300 profesionales de TI, más

del 60 % de los encuestados trabaja para las organizaciones que planean gastar

al menos un 5 % de su presupuesto de TI en la inteligencia artificial. Una quinta parte

de esos encuestados trabaja para las organizaciones que planean dedicar más de

un asombroso 20 % de su presupuesto de TI a la IA.

2 O'Reilly Media, The State of Machine Learning Adoption in the Enterprise, 2019.

Page 4: Aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas organizaciones se ven abrumadas por la determinación de la forma en que desean aprovechar

Página 4 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy

Junio de 2019

La inteligencia artificial que usa técnicas de aprendizaje profundo afecta a todos los

negocios, a menudo de maneras inesperadas. Estos son algunos ejemplos de la

manera en que el aprendizaje automático y su variedad más especializada, el

aprendizaje profundo, afectan a la empresa moderna:

La industria de medios de comunicación y entretenimiento (M&E) utiliza

el aprendizaje automático para proporcionar inteligencia a diversas tareas.

El análisis de preferencias se utiliza para clasificar la reacción de la audiencia

a las proyecciones de películas y programas de televisión. La industria de M&E

también se basa en el reconocimiento de imágenes capacitado por algoritmos

de aprendizaje profundo para brindar una generación de metadatos

automatizada en innumerables contenidos de video.

Las operaciones de fabricación modernas en todas las industrias dependen

de la inteligencia artificial y el aprendizaje automático para muchos aspectos

de sus operaciones. Los sistemas de reconocimiento de imágenes analizan los

productos en las líneas de fabricación para identificar los defectos. Los sistemas

de aprendizaje automático también ayudan en el análisis predictivo de fallas

mediante el análisis de los sensores de una fábrica para reconocer e identificar

patrones que podrían provocar fallas si no se abordan. El aprendizaje

automático también se utiliza para impulsar decisiones relacionadas con

la cadena de suministro que conservan una operación justo a tiempo

optimizada con adquisición y logística inteligentes.

Las industrias automotriz y de transporte utilizan el aprendizaje profundo

para cambiar la manera en que el mundo piensa acerca de los automóviles.

Las técnicas de aprendizaje profundo impulsan la carrera hacia el objetivo final

de ofrecer vehículos autónomos. Durante el proceso, vemos aplicaciones reales

en la forma de sistemas de control crucero inteligentes y adaptables,

conducción semiautomática, análisis predictivo de fallas e incluso monitoreo

de conductores a fin de garantizar que un conductor esté al tanto de lo que

sucede en el vehículo. Ninguna de estas cosas sería posible sin la evolución

continua en el aprendizaje automático y el aprendizaje profundo.

Page 5: Aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas organizaciones se ven abrumadas por la determinación de la forma en que desean aprovechar

Página 5 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy

Junio de 2019

Aunque la implementación de tecnologías de IA en la empresa resulta ser muy

impactante, sigue siendo historia nueva para la mayoría de las organizaciones.

Es importante simplificar y analizar los elementos esenciales comunes antes de iniciar

un proyecto de IA. Casi todas las soluciones de DL, ya sea que admitan la detección

de imágenes, la clasificación de imágenes, la segmentación, el procesamiento del

lenguaje natural o el análisis predictivo, utilizan un conjunto común de tecnologías

principales. Estas técnicas se implementan en plataformas que admiten de forma

nativa los paquetes de software comunes y que están optimizadas para ellos, como

TensorFlow, PyTorch y Caffe2, los cuales son omnipresentes en la implementación

de estos casos de uso.

La mayoría de los profesionales de TI tradicionales no tienen las habilidades requeridas

para diseñar ni implementar eficientemente soluciones de IA en casos de uso muy

variados. El aprendizaje automático y el aprendizaje profundo son tecnologías que

llegan con nuevos retos y requieren formas innovadoras de pensar acerca de los datos.

En la misma encuesta mencionada anteriormente se muestra que una falta de

comprensión acerca de cómo implementar el aprendizaje profundo, junto con una

infraestructura que no está lista para estas cargas de trabajo, son un inhibidor

significativo para la adopción.

La tarea más importante para cualquier organización de TI competitiva es cerrar la

brecha y crear el conjunto de habilidades necesarias para implementar el aprendizaje

profundo, que es compatible con arquitecturas de análisis flexibles y listas para el

futuro.

DISEÑO DEL APRENDIZAJE PROFUNDO EN EL CENTRO DE DATOS

La comprensión del impacto multidimensional del aprendizaje profundo en la

arquitectura de almacenamiento requiere la comprensión general de un flujo de trabajo

de aprendizaje típico. Cada etapa de la canalización del aprendizaje impone distintas

exigencias en la infraestructura subyacente. Esto se muestra en la figura 2.

Page 6: Aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas organizaciones se ven abrumadas por la determinación de la forma en que desean aprovechar

Página 6 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy

Junio de 2019

FIGURA 2: CANALIZACIÓN TÍPICA DEL APRENDIZAJE

AUTOMÁTICO/APRENDIZAJE PROFUNDO

Fuente: Moor Insights & Strategy

Estos pasos se resumen de la siguiente manera:

Recopilación de datos: los datos llegan desde una fuente externa (o de varios

orígenes), como dispositivos perimetrales, archivos de registro, flujos de voz

o de video o sistemas de administración de relaciones con el cliente. Los datos

llegan y se almacenan. La solución de almacenamiento en sí debe rendir tanto

como lo requieran los datos entrantes.

Preparación de datos: los datos se limpian y se transforman para la

capacitación. Este paso crítico garantiza que los datos sean coherentes,

que se identifiquen los valores atípicos y que el conjunto de datos esté

optimizado para los algoritmos de capacitación. Algunos tipos de

aprendizaje automático, como el aprendizaje supervisado, requieren

el etiquetado de los datos durante esta fase.

Descubrimiento y visualización de datos: los científicos de datos trabajan

con los datos para optimizar los parámetros y los algoritmos de capacitación.

Este es un proceso muy iterativo, a pesar de que solo requiere cantidades

modestas de almacenamiento y computación.

Page 7: Aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas organizaciones se ven abrumadas por la determinación de la forma en que desean aprovechar

Página 7 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy

Junio de 2019

Capacitación y desarrollo de modelos: la mayor parte del trabajo se produce

en esta etapa. Los datos limpios se alimentan en un clúster de GPU, u otros

motores de computación de alto rendimiento, donde se iteran durante períodos

que suelen ser muy prolongados. La capacitación requiere almacenamiento de

alto rendimiento, optimizado para operaciones de lectura aleatoria de alta

simultaneidad.

Implementación de modelos o inferencia de producción: los modelos

generados en la fase de capacitación se implementan en función de los datos en

el mundo real. Las características de esta fase dependen en gran medida del

tipo de aprendizaje profundo que se implementa. Por ejemplo, el reconocimiento

de imágenes puede ocurrir en un dispositivo de cliente, como una cámara

inteligente, con poca interacción con los sistemas de almacenamiento, mientras

que las aplicaciones más avanzadas pueden ejecutarse dentro de un centro de

datos empresarial.

Retención de datos: los datos utilizados en la capacitación del modelo o en la

inferencia repetitiva para el aprendizaje profundo se conservan con fines de

archiving o reutilización. Este es un paso crítico. El archiving de datos garantiza

que los modelos se puedan recrear y que los datos se puedan aprovechar para

obtener información valiosa futura.

Estos pasos están respaldados por un conjunto de principios de diseño que se deben

considerar cuando se implementa una infraestructura para apoyar el aprendizaje

profundo:

Rendimiento y escalamiento: el rendimiento no puede degradarse con el

escalamiento. Cada componente, ya sea de computación, almacenamiento o

redes, debe escalar de manera lineal e independiente para que el sistema

pueda crecer sin inconvenientes con la carga de trabajo a fin de evitar los

cuellos de botella de procesamiento, I/O y red.

Flexibilidad: los sistemas de IA están diseñados en torno a los datos. La realidad

inherente en esta dinámica es que el software, las técnicas de análisis y los casos

de uso se modifican inevitablemente a medida que evoluciona el ecosistema de

IA, pero los datos de una organización se mantienen relativamente constantes.

Los sistemas deben ser compatibles con el almacenamiento de datos de larga

duración y mantener la flexibilidad para evolucionar con los cambios en las

necesidades del negocio.

Page 8: Aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas organizaciones se ven abrumadas por la determinación de la forma en que desean aprovechar

Página 8 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy

Junio de 2019

Administración de datos empresariales: los datos utilizados por el aprendizaje

profundo, a pesar de su uso no tradicional, son datos empresariales y se deben

administrar como tal. La seguridad, la protección de datos, el cumplimiento

normativo y otras preocupaciones relacionadas con la administración de datos

tradicional también se aplican a los datos de aprendizaje profundo. Las

soluciones de almacenamiento implementadas en estos entornos deben

integrarse bien con las políticas y los procedimientos existentes para la

administración de datos en la empresa.

A pesar de que los debates sobre el aprendizaje automático y el aprendizaje profundo

se centran naturalmente en la computación, está claro que estas soluciones imponen

nuevas formas de pensar acerca de los datos. El aprendizaje profundo requiere un

pensamiento diferente en cuanto a la manera en que se administran, se analizan y se

almacenan los datos.

DATOS EN UN ENTORNO DE APRENDIZAJE PROFUNDO

Las características de los datos en un flujo de trabajo de aprendizaje profundo son

diferentes a las de la mayoría de las aplicaciones de TI:

Los datos son principalmente no estructurados y constan de imágenes,

audio, texto libre o incluso flujos de datos en series temporales. La arquitectura

de almacenamiento para un entorno de aprendizaje profundo debe estar

optimizada para los datos no estructurados. El almacenamiento también debe

ser compatible con varios protocolos de acceso a datos, como SMB, NFS,

HDFS, S3 y HTTP, para ofrecer la máxima flexibilidad operacional.

La escala de los datos aumenta considerablemente con los sensores

perimetrales y de video, en especial con un contenido de mayor resolución

que genera muchos terabytes de datos para análisis en períodos concisos. La

conservación de estos datos para un análisis posterior o una nueva capacitación

puede generar petabytes de necesidades de almacenamiento. La extracción de

información valiosa confiable del DL requiere el análisis de un registro de datos

histórico profundo. Las soluciones de almacenamiento en este entorno deben

tener la capacidad de realizar un escalamiento horizontal simple y no disruptivo.

Page 9: Aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas organizaciones se ven abrumadas por la determinación de la forma en que desean aprovechar

Página 9 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy

Junio de 2019

El uso de los datos varía significativamente, con diferentes necesidades

para cada etapa de la canalización del aprendizaje. La limpieza o el etiquetado

de datos, por ejemplo, tienen exigencias de rendimiento muy diferentes a las

de los procesos que alimentan esos mismos datos en un clúster para la

capacitación o la inferencia en tiempo real. Un extremo de esta canalización

puede satisfacerse mediante almacenamiento local tradicional, DAS

o almacenamiento de nivel medio. El otro extremo de la canalización requiere

rendimiento y características empresariales que puedan mantenerse al día

con la tecnología de procesamiento moderna.

Los datos llegan desde cualquier lugar. Las aplicaciones de aprendizaje

profundo tienen fuentes de datos muy diversas. Los datos para el análisis

o la generación de modelos pueden llegar desde el Edge, las aplicaciones

nativas en la nube, los servicios de voz e incluso las aplicaciones de agregación

de registros de servidor. El almacenamiento debe estar diseñado para recopilar

datos de diversos orígenes.

El ciclo de vida útil de los modelos de datos. La IA requiere un conjunto

coherente de herramientas de administración que abarcan la gama de

almacenamiento que va desde alto rendimiento hasta archiving profundo a fin

de mantener los datos activos en una arquitectura de almacenamiento alineada

con el flujo de trabajo general de la IA de una empresa. De manera similar,

convertir los datos existentes en las entradas de las nuevas funcionalidades

de IA requiere herramientas de administración de datos que permitan a una

organización de TI implementar nuevas soluciones para el almacenamiento

existente.

Estas características generales se traducen en consideraciones reales en el momento

de elegir una solución de administración de datos para el aprendizaje profundo.

Es importante señalar que estos datos siguen siendo “datos empresariales”

y que deben protegerse contra fallas de hardware y software, asegurarse contra

vulneraciones y administrarse de manera eficiente.

El tipo de aprendizaje profundo que una organización implementa también afecta la

arquitectura de almacenamiento compatible con esos flujos de trabajo. Por ejemplo, el

reconocimiento de imágenes, que se utiliza ampliamente en industrias como de medios

de comunicación y entretenimiento, fabricación y automotriz, se basa en la aplicación

de redes neuronales de circunvolución (CNN) y redes neuronales profundas (DNN).

Page 10: Aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas organizaciones se ven abrumadas por la determinación de la forma en que desean aprovechar

Página 10 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy

Junio de 2019

Las CNN son un tipo de red neuronal que aprende a clasificar y reconocer las

imágenes a través de una serie de pasos muy repetitivos. Los patrones de acceso

a datos para las CNN durante la capacitación y el reconocimiento requieren una

arquitectura de almacenamiento que esté optimizada para una gran cantidad de

accesos de lectura de bloques pequeños al arreglo de almacenamiento subyacente.

Si llevamos esta perspectiva al mundo real, en un análisis comparativo realizado por

Dell EMC y NVIDIA se combinó un sistema de almacenamiento Dell EMC Isilon F800

con servidores NVIDIA DGX-1 compuestos por varios GPU NVIDIA Tesla V100. Cada

GPU ejecutó más de 5000 subprocesos paralelos, lo que equivale a un promedio

de 703 lecturas simultáneas de archivos por GPU3. Es fundamental que el sistema

de almacenamiento combinado con un sistema de aprendizaje profundo tenga

la capacidad de brindar datos a escala y una simultaneidad extrema sin provocar

la detención de los elementos de procesamiento en espera de los datos.

Este es solo un ejemplo. Otros sistemas de aprendizaje profundo tienen distintos

requisitos. Los sistemas inteligentes que proporcionan reconocimiento de patrones

en tiempo real para la detección de fraudes financieros, por ejemplo, pueden requerir

un almacenamiento de bloques de alto rendimiento. Las aplicaciones con estas

limitaciones pueden obtener mejores resultados con arreglos de almacenamiento

de bloques de baja latencia y alto rendimiento, como la serie Dell EMC PowerMax.

Existen consideraciones similares con respecto a los tamaños de bloque, los patrones

de I/O de archivos y la escala. Lo importante es que el suministro de datos para el

aprendizaje automático y el aprendizaje profundo es muy diferente a cualquier otra

carga de trabajo empresarial. La administración de datos para el aprendizaje profundo

requiere la implementación de soluciones diseñadas para un alto nivel de simultaneidad

y rendimiento multidimensional a escala con la organización en niveles en un solo

espacio de nombres y una administración simple a través de un conjunto coherente

de herramientas.

3 Documentación técnica: Servidores Dell EMC Isilon y NVIDIA DGX-1 para el aprendizaje profundo,

https://www.dellemc.com/es-mx/collaterals/unauth/white-

papers/products/storage/Dell_EMC_Isilon_and_NVIDIA_DGX_1_servers_for_deep_learning.pdf

Page 11: Aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas organizaciones se ven abrumadas por la determinación de la forma en que desean aprovechar

Página 11 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy

Junio de 2019

DELL EMC: SUMINISTRO DE ALMACENAMIENTO PARA EL

APRENDIZAJE PROFUNDO

La potencia de la IA solo se puede aprovechar mediante la entrega de datos de forma

eficaz y eficiente, lo que presenta varios factores que se deben tener en cuenta al

diseñar soluciones de almacenamiento para aplicaciones de aprendizaje automático

y aprendizaje profundo, donde las diferentes fases de la canalización del aprendizaje

tienen distintos requisitos de rendimiento, escala y simultaneidad.

Al mismo tiempo, tiene sentido implementar arquitecturas de almacenamiento que se

organizan en niveles y escalan de manera transparente para cumplir con los requisitos

de todas las fases de una carga de trabajo de aprendizaje profundo.

La familia Dell EMC Isilon proporciona una base sólida desde la cual brindar

funcionalidades de almacenamiento para apoyar todo el ciclo de vida del aprendizaje

profundo empresarial. Esto sigue el flujo de trabajo de la capacitación, el aprendizaje,

la implementación y, en última instancia, las necesidades de archiving a largo plazo.

DELL EMC ISILON ONEFS

La potencia de cualquier sistema de almacenamiento radica en el software de su

sistema operativo subyacente. El sistema operativo Dell EMC Isilon OneFS brinda la

inteligencia característica de las soluciones de almacenamiento NAS de

escalamiento horizontal de Dell EMC Isilon.

Las potentes funcionalidades y características de OneFS optimizan y simplifican el

almacenamiento de datos en el núcleo de cada flujo de trabajo de inteligencia artificial.

El software proporciona organización en niveles transparente, a la vez que brinda un

solo espacio de nombres, la administración de la ubicación de datos, la optimización

y el ajuste del rendimiento de cada arreglo en función de los patrones de tráfico

detectados y el escalamiento de almacenamiento lineal y no disruptivo. El sistema

operativo Dell EMC Isilon OneFS ofrece cada una de estas funcionalidades.

La sencillez de la administración del almacenamiento permite a los científicos de datos

centrar sus esfuerzos en la administración del proceso de aprendizaje automático, sin

tener que preocuparse por los detalles de la infraestructura de almacenamiento

subyacente. Esta sencillez también permite a los administradores de TI implementar

la combinación adecuada de soluciones de almacenamiento flexibles y eficientes que

cubren las necesidades de aprendizaje automático y aprendizaje profundo.

Page 12: Aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas organizaciones se ven abrumadas por la determinación de la forma en que desean aprovechar

Página 12 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy

Junio de 2019

Lago de datos consolidado: consolida los datos a través del flujo de

trabajo del análisis en un solo lugar para simplificar las canalizaciones de la

analítica de datos.

Compatibilidad multiprotocolo: permite los análisis se apliquen a los datos para

admitir una metodología de “Store Once, Use Many” y así mejorar la agilidad.

Gobierno corporativo de datos empresariales: protege los datos con

características de seguridad y resiliencia nativas.

Organización en niveles transparente: organiza el almacenamiento en niveles

entre los nodos todo flash, híbridos y de archiving en el mismo clúster para

permitir el escalamiento económico de petabytes y el acceso a conjuntos de

datos más grandes.

Almacenamiento en caché inteligente: proporciona la capacidad de ajustar

dinámicamente las características de almacenamiento en caché del sistema

de almacenamiento en función de las cargas de trabajo que consumen datos.

El almacenamiento en caché de Isilon OneFS se centra en el rendimiento de

lectura simultáneo, que es una característica crucial de rendimiento en los

flujos de trabajo de aprendizaje profundo.

Escalabilidad lineal: permite a los sistemas Isilon mantener un rendimiento

constante y atender las cargas de trabajo paralelas altamente simultáneas

que son típicas de las implementaciones de aprendizaje profundo.

Soporte inmediato de operaciones de desarrollo y como servicio:

permite a las empresas explorar los entornos de datos de producción, prueba

y desarrollo, o proporcionar varios entornos de datos de producción con una

clara separación de grupos de usuarios a través de múltiples zonas de

acceso dentro del mismo clúster de Isilon.

El software administra la experiencia y la inteligencia generales inherentes a la serie

Dell EMC Isilon. La combinación de la facilidad de administración con las características

sólidas de rendimiento y escalabilidad de los arreglos convierte a Isilon en una

plataforma atractiva para las cargas de trabajo de aprendizaje profundo.

Page 13: Aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas organizaciones se ven abrumadas por la determinación de la forma en que desean aprovechar

Página 13 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy

Junio de 2019

DELL EMC ISILON: UNA PLATAFORMA DISEÑADA PARA EL

APRENDIZAJE AUTOMÁTICO y EL APRENDIZAJE PROFUNDO

El nivel superior de la familia de almacenamiento Dell EMC Isilon es el NAS de

escalamiento horizontal todo flash de Isilon F800. Según Dell4, el F800 ofrece un

rendimiento y una capacidad que se encuentran entre los más importantes de la

industria. El F800 puede ejecutar hasta 250 000 IOPS con un rendimiento agregado

de 15 GB/s en un solo chasis de 4U y hasta 15,75 millones de IOPS y 945 GB/s en un

clúster completo de 252 nodos.

Si analizamos la capacidad, Isilon F800 comienza con decenas de terabytes de

almacenamiento y puede realizar un escalamiento horizontal de manera no disruptiva

hasta decenas de petabytes en un solo espacio de nombres. Isilon brinda una

eficiencia del almacenamiento de hasta un 85 % y ofrece tecnología de desduplicación

y compresión que puede reducir los requisitos de capacidad de almacenamiento de

datos a una relación de hasta 3:1, lo que aumenta la capacidad real de la solución.

Isilon F800 tiene la capacidad de mantener bien alimentados los nodos de computación de

aprendizaje profundo. Equipadas con 60 discos SSD de alto rendimiento y 8 conexiones

Ethernet de 40 Gb/s, estas máquinas están diseñadas para ofrecer un rendimiento

constante en los altos niveles de simultaneidad que requiere el aprendizaje profundo.

Además de proporcionar un rendimiento constante, Isilon F800 se puede organizar en

niveles con los nodos de Isilon Hybrid e Isilon Archive para ofrecer una escalabilidad de

petabytes fácil de administrar.

No hay otro lugar donde este rendimiento sea más demostrable que en las

arquitecturas de referencia de Dell EMC desarrolladas en conjunto que combinan las

funcionalidades de Isilon F800 con los servidores NVIDIA Tesla V100 acelerados por

GPU, como PowerEdge C4140, DSS 8440 y NVIDIA DGX-1. Los análisis comparativos

de estas soluciones mostraron que el rendimiento del parámetro de referencia ResNet-

50 con hasta 72 GPU logra un rendimiento de imagen lineal por segundo de 8 a 72

GPU con una utilización de GPU del 97 %5.

4 Especificaciones de Dell EMC Isilon F800: https://www.dellemc.com/es-mx/collaterals/unauth/data-sheets/products/storage/h15963-ss-isilon-all-flash.pdf

5 Documentación técnica de Dell EMC. Servidores Dell EMC Isilon y NVIDIA DGX-1 para el aprendizaje

profundo. Noviembre de 2018. https://www.dellemc.com/es-mx/collaterals/unauth/white-

papers/products/storage/Dell_EMC_Isilon_and_NVIDIA_DGX_1_servers_for_deep_learning.pdf

Page 14: Aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas organizaciones se ven abrumadas por la determinación de la forma en que desean aprovechar

Página 14 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy

Junio de 2019

Estas cifras de los parámetros de referencia demuestran que, en una de las

computadoras de aprendizaje profundo de mayor rendimiento disponibles en la

actualidad, el procesador es el cuello de botella, mientras que Dell EMC Isilon F800

la mantiene completamente alimentada con los datos.

DELL EMC POWERMAX: ALMACENAMIENTO DE BLOQUES DE ALTO

RENDIMIENTO

Hay algunos pasos en el flujo de trabajo de IA y los algoritmos específicos de ML y DL

que requieren almacenamiento de bloques de muy baja latencia para ofrecer tasas de

respuesta en tiempo real durante la recopilación de datos, su preparación y la inferencia

de producción.

La serie Dell EMC PowerMax de soluciones de almacenamiento de bloques, como una de

las arquitecturas de almacenamiento de mayor rendimiento disponibles actualmente, está

bien diseñada para admitir estos escenarios. PowerMax se basa en NVMe integral y

ofrece latencias de menos de 300 ms a un rango entre 1,7 y 10 millones de IOPS (para

PowerMax 2000 y PowerMax 8000, respectivamente) con un máximo de 13 TB por brick6.

Dell posicionó PowerMax para apoyar las cargas de trabajo de IA en tiempo real más

exigentes que se implementan en las empresas hoy en día.

DELL EMC: APRENDIZAJE PROFUNDO DE LA PILA COMPLETA

El almacenamiento y la computación están entrelazados en entornos de aprendizaje

profundo. Una infraestructura bien diseñada para el aprendizaje profundo, con todas las

complejidades asociadas de la administración de datos, se reduce al balanceo, la

interoperabilidad, el rendimiento y la flexibilidad. A pesar de los altos niveles de similitud

entre las implementaciones, no hay una manera adecuada de hacerlo. Todas las

implementaciones y cada entorno difieren levemente.

Hay una gran cantidad de opciones en la implementación de cargas de trabajo de

aprendizaje automático y aprendizaje profundo. Las diferentes fases no requieren solo

un acceso a datos diferente, sino también diferentes soluciones de computación. Los

profesionales de la IA pueden optar por ejecutar cargas de trabajo en servidores de

bajo nivel, en máquinas virtuales o incluso en contenedores similares a los dockers.

6 Hoja de especificaciones de Dell EMC PowerMax https://mexico.emc.com/collateral/data-sheet/h16739-

powermax-2000-8000-ss.pdf

Page 15: Aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas organizaciones se ven abrumadas por la determinación de la forma en que desean aprovechar

Página 15 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy

Junio de 2019

Además de ofrecer elementos individuales en una infraestructura de aprendizaje

profundo, Dell EMC trabaja para habilitar soluciones que los profesionales de TI

pueden implementar con rapidez. Dell EMC simplifica las decisiones de arquitectura

y reduce los tiempos de implementación con Ready Solutions y las arquitecturas de

referencia (RA) que combinan los elementos para resolver el problema en cuestión.

Dell EMC proporciona reglas de configuración de soluciones que ayudan a las

empresas a dimensionar y escalar sus soluciones de IA y analítica de datos a fin

de alinearse con los requisitos específicos de sus cargas de trabajo.

Las de Ready Solutions y las RA combinan los servidores Dell PowerEdge de tamaño

correcto con los switches de red de Dell EMC, el almacenamiento de Isilon y una pila

de software optimizada para la solución. Las Ready Solutions son pilas de hardware

y software validadas, disponibles y optimizadas para acelerar las iniciativas de IA,

lo que acorta el tiempo para diseñar una solución nueva de 6 a 12 meses. La

incorporación de potencia y beneficios adicionales a las Dell EMC Ready Solutions

para la IA son servicios de consultoría, soporte, financiamiento e implementación

de Dell Technologies. Todos estos servicios trabajan en conjunto para garantizar una

implementación de soluciones sin inconvenientes.

Las arquitecturas de referencia son pilas probadas y validadas, orientadas a los clientes

y a los partners de soluciones de Dell. Si bien las Ready Solutions se pueden pedir

directamente a través de Dell, las RA están destinadas a ayudar a los profesionales de

TI a crear las mejores soluciones en su clase en función de los productos comprobados

de Dell Technologies.

Page 16: Aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas organizaciones se ven abrumadas por la determinación de la forma en que desean aprovechar

Página 16 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy

Junio de 2019

TABLA 1: EJEMPLOS DE ALGUNAS READY SOLUTIONS Y

ARQUITECTURAS DE REFERENCIA DISPONIBLES

Tipo Solución Elementos clave Partners clave

Ready Solutions para la IA

Aprendizaje profundo con Intel Isilon H600 PowerEdge R740xd PowerEdge C6420

Intel

Aprendizaje profundo con NVIDIA Isilon F800 PowerEdge R740xd PowerEdge C4140

NVIDIA

aprendizaje automático con Hadoop Isilon H500/H600 PowerEdge R640

Hortonworks

Arquitecturas de referencia para la IA

Dell EMC Isilon and NVIDIA DGX-1 for Deep Learning

Isilon F800 NVIDIA DGX-1

NVIDIA

Dell EMC Isilon and PowerEdge C4140 for Deep Learning

Isilon F800 PowerEdge C4140

NVIDIA

Dell EMC Isilon and DSS 8440 for Deep Learning

Isilon F800 DSS 8440

NVIDIA

Dell EMC Isilon and PowerEdge R940 for Algorithmic Trading

Isilon F800 PowerEdge R940

Intel

Fuente: Moor Insights & Strategy

CONCLUSIÓN

Los datos se convirtieron en el recurso más estratégico y diferenciador de las

organizaciones. Las técnicas de IA están revolucionando la manera en que los datos

se interpretan y se utilizan. Las empresas están realizando grandes inversiones en la

consolidación del proceso y en la implementación de infraestructura para apoyar esta

realidad.

Al mismo tiempo, la inteligencia artificial, ya sea aprendizaje automático o aprendizaje

profundo, requiere que las organizaciones de TI piensen en la arquitectura de los

datos y el almacenamiento de manera diferente de aquellas que admiten cargas de

trabajo empresariales tradicionales. Los atributos de los datos son diferentes. La

complejidad de los análisis es diferente. Las necesidades de los consumidores de

esos datos son diferentes. La capacidad de mantener los nodos de computación

acelerada alimentados con datos es primordial. Las soluciones de IA basadas en

Dell EMC Isilon están diseñadas para satisfacer precisamente estas necesidades.

Page 17: Aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas organizaciones se ven abrumadas por la determinación de la forma en que desean aprovechar

Página 17 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy

Junio de 2019

La implementación de soluciones de aprendizaje profundo requiere un análisis

cuidadoso; requiere asociarse con proveedores de tecnología que comprendan

las exigencias de este nuevo mundo y que ofrezcan toda la gama de soluciones

específicas necesarias para aliviar la dificultad de los profesionales de TI que viven

en ese mundo.

Dell EMC es un excelente ejemplo de este tipo de partner. El aprendizaje profundo

pone los datos en primer lugar, y Dell EMC es uno de los líderes mundiales en la

administración de datos provenientes de centros de datos, nubes públicas y privadas,

y redes perimetrales. La amplitud del portafolio de IA de Dell EMC los posiciona de

manera exclusiva para ayudar a diseñar el mejor entorno posible con el fin de

satisfacer las necesidades de los clientes. Dell EMC cuenta con un amplio portafolio

de almacenamiento que administra y protege los datos de los clientes, junto con las

soluciones y los servicios optimizados para alcanzar el éxito con la IA.

Más información en el sitio web dedicado de Dell EMC:

https://www.dellemc.com/es-mx/solutions/artificial-intelligence/index.htm

Page 18: Aprendizaje automático y aprendizaje profundo ... · empresa inteligente llegó y muchas organizaciones se ven abrumadas por la determinación de la forma en que desean aprovechar

Página 18 Aprendizaje automático y aprendizaje profundo empresariales con almacenamiento inteligente Copyright ©2019 Moor Insights & Strategy

Junio de 2019

INFORMACIÓN IMPORTANTE SOBRE ESTE DOCUMENTO

COLABORADOR

Steve McDowell, analista ejecutivo de Moor Insights & Strategy

EDITOR

Patrick Moorhead, fundador, presidente y analista principal de Moor Insights & Strategy

CONSULTAS

Póngase en contacto con nosotros si desea analizar este informe, y Moor Insights & Strategy le responderá a la brevedad.

CITAS

La prensa acreditada y los analistas pueden citar este documento, pero se debe citar en contexto y se debe incluir el nombre del autor, el cargo del autor y “Moor Insights & Strategy”. Quienes no pertenezcan a la prensa y no sean analistas deben obtener permiso previo por escrito de Moor Insights & Strategy para cualquier cita.

LICENCIAMIENTO

Este documento, incluidos los materiales de apoyo, es propiedad de Moor Insights & Strategy. Esta publicación no se puede reproducir, distribuir ni compartir de ninguna manera sin previa autorización por escrito de Moor Insights & Strategy.

DECLARACIONES

Este informe fue encargado por Dell. Moor Insights & Strategy presta servicios de investigación, análisis, asesoría y consultoría a muchas compañías de alta tecnología mencionadas en este documento. Ningún empleado de la empresa mantiene posiciones accionarias en ninguna de las empresas citadas en este documento.

RENUNCIA DE RESPONSABILIDADES

La información presentada en este documento se ofrece únicamente a título informativo y puede contener imprecisiones técnicas, omisiones y errores tipográficos. Moor Insights & Strategy renuncia a toda garantía por la precisión, la integridad o la idoneidad de dicha información y no será responsable de los errores, las omisiones o las deficiencias que esta incluya. Este documento está compuesto por las opiniones de Moor Insights & Strategy y no debe considerarse como declaraciones de hecho. Las opiniones expresadas en este documento están sujetas a cambios sin previo aviso.

Moor Insights & Strategy proporciona proyecciones y declaraciones prospectivas como indicadores direccionales y no como predicciones precisas de eventos futuros. Aunque nuestras proyecciones y declaraciones prospectivas representan nuestro juicio actual sobre lo que depara el futuro, están sujetas

a riesgos e incertidumbres que podrían hacer que los resultados reales difirieran considerablemente.

Se advierte no considerar con excesiva certidumbre estas proyecciones y declaraciones prospectivas, las que reflejan nuestras opiniones solo a partir de la fecha de publicación de este documento. Se debe tener en cuenta que no nos imponemos la obligación de revisar o dar a conocer públicamente los resultados de cualquier revisión a estas proyecciones y declaraciones prospectivas a la luz de nueva información o eventos futuros.

©2019 Moor Insights & Strategy. Los nombres de empresas y productos se usan únicamente a título informativo y pueden ser marcas comerciales de sus respectivos propietarios.