Estamos en el octavo mes de la carrera armamentista generativa de IA, una ráfaga de actividad que comenzó con el lanzamiento de ChatGPT de OpenAI a fines de 2022. Mientras que otros grandes jugadores tecnológicos como Meta y Google habían estado trabajando durante años en el lenguaje grande . modelos que impulsan los nuevos chatbots de IA, OpenAI fue el primero en comprender que los chatbots podían lograr habilidades de comunicación casi humanas cuando se les daban enormes cantidades de datos de entrenamiento (extraídos de la web) y una potencia informática masiva. OpenAI mostró esos resultados no mediante la publicación de trabajos de investigación, sino al permitir que las personas los vieran por sí mismos con ChatGPT, y el efecto fue estruendoso. Los modelos de OpenAI llegaron a ser considerados como lo último en tecnología, y con razón.
Pero después de ocho meses en el centro de atención, OpenAI no parece tan inexpugnable como hace solo tres meses. Un número creciente de desarrolladores que confían en los modelos de OpenAI han observado en las últimas semanas una disminución en la velocidad y precisión de los resultados de los modelos (OpenAI ha negado que el rendimiento se esté degradando). Es casi seguro que esto está relacionado con la escasez de potencia informática disponible para ejecutar los modelos de la empresa. OpenAI, cuyos modelos se ejecutan en servidores Microsoft Azure, ya no disfruta del acceso a la potencia informática que le dio su liderazgo inicial en la carrera LLM.
Una fuente bien ubicada me dice que los ejecutivos de Microsoft (incluido Satya Nadella) ahora se reúnen semanalmente con OpenAI para administrar los recursos del servidor asignados para ejecutar los LLM de OpenAI. Es probable que OpenAI le pida a Microsoft más potencia de GPU, mientras que Microsoft sin duda le está pidiendo a OpenAI que encuentre formas de economizar. Microsoft está tan preocupado por la escasez de cómputo que ha comenzado a firmar acuerdos con nuevas empresas en la nube más pequeñas para acceder a más servidores adecuados para la IA. Mientras tanto, Meta, Google y Apple tienen la misma cantidad de dinero, así como sus propios diseños de chips , para el trabajo de IA.
Y ese no es el único problema que ahora se le presenta a OpenAI. Meta acaba de lanzar un nuevo LLM de código abierto (gratuito y disponible) llamado Llama 2 que puede rivalizar con el modelo GPT-4 de OpenAI . Según los informes , Apple ahora también está desarrollando su propio rival ChatGPT con la esperanza de ponerse al día con OpenAI. (Más sobre eso a continuación). Más significativamente, tanto Google como Meta han descubierto cómo permitir que los LLM reaccionen y generen imágenes y palabras; OpenAI dijo que su último modelo, GPT-4, sería multimodal, pero hasta ahora, su moneda son las palabras y el código informático.
Para colmo, la FTC se ha vuelto muy curiosa acerca de las prácticas de desarrollo de modelos y el modelo comercial de OpenAI. La agencia, encabezada por Lina Khan , envió a OpenAI una carta la semana pasada que contenía 20 páginas de preguntas.
Apple tiene en silencio su juego GPT
Como predijimos en marzo, Apple se ha visto arrastrada a la carrera armamentista de IA, junto con todas las demás empresas de FAANG.
Mark Gurman , de Bloomberg , informó el miércoles que Apple ha estado desarrollando silenciosamente sus propios modelos generativos de IA, y puede intentar competir con OpenAI y Google en la guerra de los chatbots. Las fuentes (no identificadas) de Gurman dicen que la gerencia de Apple todavía está decidiendo cómo la compañía podría lanzar públicamente la tecnología, que tiene una tendencia a inventar hechos y, en ocasiones, invadir la privacidad .
Según se informa, Apple ha desarrollado un nuevo marco, denominado internamente «Ajax», para desarrollar LLM. Gurman informa que el proyecto de chatbot LLM (al que algunos en la empresa se refieren como «Apple GPT») se ha convertido en «un gran esfuerzo» dentro de Apple, que ya involucra la colaboración entre varios equipos.
Las acciones de Apple rebotaron un 2,3% (eso es una rápida ganancia de $60 mil millones en capitalización de mercado) después de que apareció la historia de Bloomberg , sirviendo como un recordatorio para todos de que las grandes empresas tecnológicas están en deuda con las creencias y los caprichos de los inversores, y la comunidad inversora está todo en la IA generativa.
Por qué es importante que Google agregue imágenes a Bard
Algunos han comparado el desarrollo de grandes modelos de lenguaje con el desarrollo de bebés humanos. Los bebés aprenden mucho sobre el mundo por sí mismos (a través de sus sentidos) ya través de sus padres. La principal diferencia, por supuesto, es que mientras que los bebés tienen los cinco sentidos para absorber información, los LLM solo tienen palabras extraídas de Internet a través de las cuales aprenden sobre el mundo, así como algunos comentarios humanos sobre su producción.
Es por eso que el anuncio de Google la semana pasada de que ha dado soporte a su imagen Bard LLM es importante. Ciertamente, Bard no es el LLM de mayor rendimiento que existe; de hecho, es pobre en varios aspectos en relación con sus pares, pero se ha convertido en el primer chatbot de LLM disponible públicamente con el don de la vista, por así decirlo. Los usuarios ahora pueden ingresar una imagen como mensaje, y Bard puede analizar la imagen y proporcionar más información al respecto. Imagina tomar una foto de tu almuerzo y pedirle a Bard un desglose de ingredientes y calorías (consejo: @BenBajarin). O convertir sus notas de reunión escritas a mano en texto organizado. Sí, comete errores, notorios , pero los refinamientos de entrenamiento adicionales pueden corregirlos.
Hoy son solo imágenes fijas, pero mañana, Bard podría procesar video de movimiento completo en tiempo real. Puede ser capaz de aprender continuamente de una serie de fotosensores colocados dentro de una reserva natural, por ejemplo. O podría aprender al digerir todo el corpus de videos de YouTube que posee Google. Si fueras un extraterrestre arrojado a la tierra, encontrarías pocas formas de aprender más rápido tu nuevo entorno.
Meta también ha estado poniendo su fuerza de investigación detrás de la IA multimodal. La semana pasada, la compañía anunció un nuevo modelo de texto a imagen llamado CM3leon que genera imágenes a partir de indicaciones de texto en alta calidad, así como también escribe subtítulos para las imágenes existentes. Entonces, ¿qué pasa con OpenAI? Es posible que la compañía haya dudado en permitir que su modelo GPT-4 procese imágenes, informa The New York Times , porque teme que el modelo reconozca los rostros de personas reales y diga cosas sobre ellos.