Aprendizado por Reforço em Escala: Projetando a Próxima Geração de Inteligência
Aprendizado por reforço em escala redefine a inteligência artificial.
Conteudo
TLDR;
Escalar em RL significa aumentar massivamente recursos e eixos de treinamento — mais compute, mais ambientes e tentativas, modelos maiores e ferramentas de raciocínio — além, quando aplicável, de infraestrutura física (laboratórios) para ambientes do mundo real. Para empresas, RL em escala serve para transformar dados proprietários em ambientes de treino e criar modelos soberanos e especializados (agentes) que automatizam tarefas específicas e otimizam a inferência em problemas fora da distribuição dos grandes labs. Os principais desafios são encontrar receitas de escala bem compreendidas para RL, lidar com sinais de recompensa ruidosos e regimes de dados limitados, e construir ou acessar ambientes físicos estruturados e infraestrutura computacional adequada.
Resumo
Em um painel sobre aprendizado por reforço (RL), a moderadora, que dirige uma equipe de co-design na NVIDIA, corrigiu um título antigo e apresentou quatro palestrantes que já passaram pela OpenAI. Linden, cofundador da Applied Compute, explicou como constrói "agent workforces" para empresas, transformando dados proprietários em ambientes para treinar modelos soberanos para tarefas específicas. Yuchen, da Humans&, busca novos paradigmas de RL que permitam aprendizado e interação contínua com muitas pessoas, vindo de robótica, recomendação e trabalho com comportamento pós-treinamento. Jerry, que liderou trabalho de RL em larga escala na OpenAI, contou sua trajetória desde agentes treinados em jogos até reinserir RL na vanguarda, defendendo aprendizado por tentativa e erro como peça-chave rumo à AGI. Liam, da Periodic Labs, descreveu o objetivo de criar um cientista de IA através de RL em ambientes físicos e laboratórios, enfatizando experimentos semiautônomos. O grupo discutiu "escalar" RL: mais computação, mais ambientes, mais tentativas, modelos maiores e infraestruturas físicas, mas ressaltou que as regras de escala são menos entendidas que no pré-treinamento; em aplicações empresariais há desafios de dados limitados e otimização de inferência. Destacaram colaboração entre indústria e pesquisa globalmente também. O campo está em rápida evolução; não houve sessão de perguntas.