Un procesador fotónico podría permitir cálculos de IA ultrarrápidos
Este dispositivo utiliza luz para realizar operaciones clave de una red neuronal
Los modelos de redes neuronales profundas que impulsan las aplicaciones de aprendizaje automático más exigentes de la actualidad se han vuelto tan grandes y complejos que están superando los límites del hardware de computación electrónica tradicional.
El hardware fotónico, que puede realizar cálculos de aprendizaje automático con luz, ofrece una alternativa más rápida y eficiente energéticamente. Sin embargo, hay algunos tipos de cálculos de redes neuronales que un dispositivo fotónico puede realizar, lo que requiere el uso de electrónica fuera de chip u otras técnicas que obstaculizan la velocidad y la eficiencia.
Sobre la base de una década de investigación, los científicos del MIT y de otros lugares han desarrollado un nuevo chip fotónico que supera estos obstáculos. Demostraron un procesador fotónico totalmente integrado que puede realizar todos los cálculos clave de una red neuronal profunda ópticamente en el chip.
El dispositivo óptico pudo completar los cálculos clave para una tarea de clasificación de aprendizaje automático en menos de medio nanosegundo, al tiempo que logró más del 92 por ciento de precisión — rendimiento que está a la par con el hardware tradicional.
El chip, compuesto por módulos interconectados que forman una red neuronal óptica, se fabrica utilizando procesos de fundición comercial, lo que podría permitir la ampliación de la tecnología y su integración en la electrónica.
A largo plazo, el procesador fotónico podría conducir a un aprendizaje profundo más rápido y eficiente en energía para aplicaciones computacionalmente exigentes como lidar, investigación científica en astronomía y física de partículas o telecomunicaciones de alta velocidad.
“Hay muchos casos en los que lo bien que funciona el modelo no es lo único que importa, sino también lo rápido que puede obtener una respuesta. Ahora que tenemos un sistema de extremo a extremo que puede ejecutar una red neuronal en óptica, en una escala de tiempo de nanosegundos, podemos comenzar a pensar en un nivel superior sobre aplicaciones y algoritmos,” dice Saumil Bandyopadhyay, científico visitante en el Grupo de Fotónica Cuántica e IA dentro del Laboratorio de Investigación de Electrónica (RLE) y un postdoctorado en NTT Research, Inc., quien es el autor principal de un artículo sobre el nuevo chip.
A Bandyopadhyay se unen en el documento Alexander Sludds ’18, MEng ’19, PhD ’23; Nicholas Harris PhD ’17; Darius Bunandar PhD ’19; Stefan Krastanov, un ex investigador científico de RLE que ahora es profesor asistente en la Universidad de Massachusetts en Amherst; Ryan Hamerly, científico visitante en RLE y científico senior en NTT Research; Matthew Streshinsky un ex líder de fotónica de silicio en Nokia que ahora es cofundador y CEO de Enosemi; Michael Hochberg, presidente de Periplous, LLC; y Dirk Englund, profesor en el Departamento de Ingeniería Eléctrica e Informática, investigador principal del Grupo de Fotónica Cuántica e Inteligencia Artificial y de RLE, y autor principal del artículo. La investigación aparece hoy en Naturaleza Fotónica.
Aprendizaje automático con luz
Las redes neuronales profundas están compuestas por muchas capas interconectadas de nodos, o neuronas, que operan con datos de entrada para producir una salida. Una operación clave en una red neuronal profunda implica el uso de álgebra lineal para realizar la multiplicación matricial, que transforma los datos a medida que se pasan de capa a capa.
Pero además de estas operaciones lineales, las redes neuronales profundas realizan operaciones no lineales que ayudan al modelo a aprender patrones más intrincados. Las operaciones no lineales, como las funciones de activación, dan a las redes neuronales profundas el poder de resolver problemas complejos.
En 2017, el grupo Englundings, junto con investigadores en el laboratorio de Marin Soljacic, Cecil e Ida Green Professor of Physics demostró una red neuronal óptica en un solo chip fotónico eso podría realizar la multiplicación de la matriz con luz.
Pero en ese momento, el dispositivo no podía realizar operaciones no lineales en el chip. Los datos ópticos tuvieron que ser convertidos en señales eléctricas y enviados a un procesador digital para realizar operaciones no lineales.
“La no linealidad en la óptica es bastante desafiante porque los fotones no interactúan entre sí muy fácilmente. Eso hace que consuma mucha energía para desencadenar no linealidades ópticas, por lo que se vuelve difícil construir un sistema que pueda hacerlo de manera escalable, explica Bandyopadhyay.
Superaron ese desafío diseñando dispositivos llamados unidades de función óptica no lineal (NOFU), que combinan electrónica y óptica para implementar operaciones no lineales en el chip.
Los investigadores construyeron una red neuronal profunda óptica en un chip fotónico utilizando tres capas de dispositivos que realizan operaciones lineales y no lineales.
Una red totalmente integrada
Al principio, su sistema codifica los parámetros de una red neuronal profunda en luz. Luego, una serie de divisores de haz programables, que se demostró en el documento de 2017, realiza la multiplicación de matriz en esas entradas.
Luego, los datos pasan a NOFU programables, que implementan funciones no lineales desviando una pequeña cantidad de luz a fotodiodos que convierten las señales ópticas en corriente eléctrica. Este proceso, que elimina la necesidad de un amplificador externo, consume muy poca energía.
“Nos quedamos en el dominio óptico todo el tiempo, hasta el final cuando queremos leer la respuesta. Esto nos permite lograr una latencia ultra baja, dice” Bandyopadhyay.
Lograr una latencia tan baja les permitió entrenar eficientemente una red neuronal profunda en el chip, un proceso conocido como in situ capacitación que generalmente consume una gran cantidad de energía en hardware digital.
“Esto es especialmente útil para sistemas en los que estás haciendo procesamiento en dominio de señales ópticas, como navegación o telecomunicaciones, pero también en sistemas que quieres aprender en tiempo real,” dice.
El sistema fotónico logró más del 96 por ciento de precisión durante las pruebas de entrenamiento y más del 92 por ciento de precisión durante la inferencia, que es comparable al hardware tradicional. Además, el chip realiza cálculos clave en menos de medio nanosegundo.
“Este trabajo demuestra que la computación — en su esencia, el mapeo de entradas a salidas — se puede compilar en nuevas arquitecturas de física lineal y no lineal que permiten una ley de escala fundamentalmente diferente de computación versus esfuerzo necesario,” dice Englund.
Todo el circuito se fabricó utilizando la misma infraestructura y procesos de fundición que producen chips de computadora CMOS. Esto podría permitir que el chip se fabrique a escala, utilizando técnicas probadas y verdaderas que introducen muy poco error en el proceso de fabricación.
Ampliar su dispositivo e integrarlo con la electrónica del mundo real, como cámaras o sistemas de telecomunicaciones, será un foco importante de trabajo futuro, dice Bandyopadhyay. Además, los investigadores quieren explorar algoritmos que puedan aprovechar las ventajas de la óptica para entrenar sistemas más rápido y con mejor eficiencia energética.
Esta investigación fue financiada, en parte, por los Estados Unidos. National Science Foundation, Estados Unidos. Oficina de Investigación Científica de la Fuerza Aérea e Investigación NTT.
La tripulación de la Expedición 69 compartirá aspectos de la misión
Estarán en el Centro Espacial Johnson de la NASA
Leer más