Home Tecnología Apple lanza Depth Pro, un modelo de IA de estimación de profundidad...

Tecnología

Apple lanza Depth Pro, un modelo de IA de estimación de profundidad monocular de código abierto

7 October 2024

Apple ha lanzado varios modelos de inteligencia artificial (IA) de código abierto este año. En su mayoría se trata de pequeños modelos de lenguaje diseñados para tareas específicas. Sumándose a la lista, el gigante tecnológico con sede en Cupertino ha lanzado un nuevo modelo de IA llamado Depth Pro. Es un modelo de visión que puede generar mapas de profundidad monoculares a partir de cualquier imagen. Esta tecnología es útil para crear texturas 3D, realidad aumentada (AR) y más. Los investigadores detrás de este proyecto afirman que los mapas de profundidad generados por IA son mejores que los generados con la ayuda de múltiples cámaras.

Apple lanza el modelo AI Depth Pro

La estimación de profundidad es un proceso importante en el modelado 3D, así como en otras tecnologías como AR, sistemas de conducción autónoma, robótica y muchas más. El ojo humano es un sistema de lentes complejo que puede medir con precisión la profundidad de los objetos incluso observándolos desde un único punto de vista. Sin embargo, la cámara no es tan buena en ese sentido. Las imágenes tomadas con una sola cámara hacen que parezcan bidimensionales, eliminando la profundidad de la ecuación.

Entonces, para la tecnología que prioriza la profundidad de un objeto, se utilizan múltiples cámaras. Sin embargo, modelar objetos como estos puede consumir mucho tiempo y recursos. Por otra parte, en un trabajo de investigación Titulado “Depth Pro: Profundidad métrica monocular nítida en menos de un segundo”, Apple destaca cómo utiliza un modelo de inteligencia artificial basado en visión para generar un mapa de profundidad de disparo cero a partir de una imagen monocular de un objeto.

Cómo el modelo Depth Pro AI genera mapas de profundidad
Crédito de la foto: manzana

Para desarrollar el modelo de IA, los investigadores utilizaron una arquitectura basada en Vision Transformer (ViT). Se eligió que la resolución de salida fuera 384 x 384, pero la resolución de entrada y procesamiento se mantuvo en 1536 x 1536, por lo que el modelo de IA tenía más espacio para comprender los detalles.

En una versión preimpresa del artículo, publicada actualmente en la revista en línea arXiv, los investigadores afirman que el modelo de IA ahora puede producir con precisión mapas de profundidad de objetos visualmente complejos como jaulas, cuerpos y bigotes de gatos peludos, y más. Se dice que el tiempo de generación es de un segundo. El peso del modelo de IA de código abierto está actualmente alojado en GitHub lista. Las personas interesadas pueden ejecutar modelos basados en la inferencia de una sola GPU.

Fuente