Modelo de Fundamento para Recomendação Personalizada

Motivação

O sistema de recomendação personalizado da Netflix é complexo, com uma variedade de modelos de aprendizado de máquina especializados que atendem a necessidades distintas, incluindo “Continuar Assistindo” e “As Melhores Sugestões para Você”. No entanto, com a expansão dos algoritmos de personalização, a manutenção do sistema de recomendação tornou-se bastante cara. Além disso, a transferência de inovações de um modelo para outro era difícil, dada a independência dos modelos em relação ao treinamento, apesar de utilizarem fontes de dados comuns. Esse cenário destacou a necessidade de uma nova arquitetura de sistema de recomendação onde o aprendizado de preferências dos membros seja centralizado, aumentando a acessibilidade e a utilidade entre modelos diferentes.

Esses modelos extraem principalmente características dos históricos de interação recentes dos membros na plataforma. No entanto, muitos deles estão limitados a uma janela temporal curta devido a restrições de latência de serviço ou custos de treinamento. Essa limitação nos inspirou a desenvolver um modelo de fundamento para recomendação, que visa assimilar informações tanto dos históricos de interações abrangentes dos membros quanto do nosso conteúdo em uma escala muito grande. Isso facilita a distribuição desses aprendizados para outros modelos, seja por meio de pesos de modelo compartilhados para ajuste fino ou diretamente por meio de embeddings.

A motivação para construir um modelo de recomendação fundamental é baseada na mudança de paradigma em processamento de linguagem natural (NLP) para grandes modelos de linguagem (LLMs). No NLP, a tendência está se afastando de numerosos modelos pequenos e especializados em direção a um único modelo de linguagem grande que pode realizar uma variedade de tarefas, seja diretamente ou com ajuste mínimo. Principais insights dessa mudança incluem:

Uma Abordagem Centrada em Dados: Mudança do foco de estratégias centradas no modelo, que dependem fortemente de engenharia de características, para uma abordagem centrada em dados. Essa abordagem prioriza a acumulação de dados de alta qualidade em larga escala e, onde viável, busca aprendizado de ponta a ponta.
Aproveitando o Aprendizado Semi-Supervisionado: O objetivo de previsão do próximo token em LLMs provou ser notavelmente eficaz. Ele permite aprendizado semi-supervisionado em larga escala usando dados não rotulados, enquanto também equipa o modelo com uma compreensão surpreendentemente profunda do conhecimento mundial.

Esses insights moldaram o design de nosso modelo de fundamento, permitindo uma transição do manutenção de numerosos modelos pequenos para a construção de um sistema escalável e eficiente. Ao aumentar a escala de dados de treinamento semi-supervisionados e parâmetros do modelo, buscamos desenvolver um modelo que não apenas atenda às necessidades atuais, mas que também se adapte dinamicamente a demandas em evolução, garantindo inovação sustentável e eficiência de recursos.

Dados

Na Netflix, o engajamento do usuário abrange uma ampla gama, desde navegação casual até assistir a filmes comprometidamente. Com mais de 300 milhões de usuários no final de 2024, isso se traduz em centenas de bilhões de interações – um imenso conjunto de dados comparável em escala ao volume de tokens de grandes modelos de linguagem (LLMs). No entanto, assim como nos LLMs, a qualidade dos dados muitas vezes supera seu mero volume. Para aproveitar esses dados de forma eficaz, empregamos um processo de tokenização de interação, garantindo que eventos significativos sejam identificados e que redundâncias sejam minimizadas.

Tokenizando Interações de Usuários: Nem todas as ações brutas dos usuários contribuem igualmente para a compreensão das preferências. A tokenização ajuda a definir o que constitui um “token” significativo em uma sequência. Fazendo uma analogia com a Codificação de Par de Bytes (BPE) em NLP, podemos pensar na tokenização como fusão de ações adjacentes para formar novos tokens de nível superior. No entanto, ao contrário da tokenização de linguagem, a criação desses novos tokens exige consideração cuidadosa sobre quais informações manter. Por exemplo, a duração total de reprodução pode precisar ser somada ou os tipos de engajamento agregados para preservar detalhes críticos.

0*1dhdoLxKnf_fcZOq Modelo de Fundamento para Recomendação Personalizada

Essa troca entre dados granulares e compressão de sequência é semelhante ao equilíbrio em LLMs entre tamanho do vocabulário e janela de contexto. Em nosso caso, o objetivo é equilibrar o comprimento do histórico de interação com o nível de detalhe retido em tokens individuais. A tokenização excessivamente perdedora corre o risco de perder sinais valiosos, enquanto uma sequência muito granular pode exceder limites práticos de tempo de processamento e memória.

Mesmo com tais estratégias, os históricos de interação de usuários ativos podem abranger milhares de eventos, superando a capacidade de modelos de transformadores com camadas padrão de autoatenção. Em sistemas de recomendação, as janelas de contexto durante a inferência são frequentemente limitadas a centenas de eventos – não devido à capacidade do modelo, mas porque esses serviços normalmente requerem latência em nível de milissegundo. Essa restrição é mais rigorosa do que o típico em aplicações de LLM, onde tempos de inferência mais longos (segundos) são mais toleráveis.

Para lidar com isso durante o treinamento, implementamos duas soluções principais:

Mecanismos de Atenção Esparsa: Aproveitando técnicas de atenção esparsa, como compressão de baixa classificação, o modelo pode estender sua janela de contexto para várias centenas de eventos enquanto mantém a eficiência computacional. Isso permite que processe históricos de interação mais extensos e obtenha percepções mais ricas sobre preferências de longo prazo.
Amostragem de Janela Deslizante: Durante o treinamento, amostramos janelas sobrepostas de interações a partir da sequência completa. Isso garante que o modelo seja exposto a diferentes segmentos do histórico do usuário ao longo de múltiplas épocas, permitindo-lhe aprender a partir da sequência inteira sem exigir uma janela de contexto impraticavelmente grande.

Na hora da inferência, quando a decodificação em múltiplas etapas é necessária, podemos implementar cache KV para reutilizar eficientemente os cálculos passados e manter baixa latência.

Essas abordagens permitem-nos equilibrar a necessidade de modelagem detalhada de interações de longo prazo com as restrições práticas de treinamento e inferência do modelo, melhorando tanto a precisão quanto a escalabilidade do nosso sistema de recomendação.

Informação em Cada ‘Token’: Enquanto a primeira parte do nosso processo de tokenização foca em estruturar sequências de interações, o próximo passo crítico é definir as ricas informações contidas em cada token. Ao contrário dos LLMs, que geralmente se baseiam em um único espaço de embedding para representar tokens de entrada, nossos eventos de interação estão repletos de detalhes heterogêneos. Isso inclui atributos da própria ação (como local, hora, duração e tipo de dispositivo) e informações sobre o conteúdo (como ID do item e metadados como gênero e país de lançamento). A maioria dessas características, especialmente as categóricas, está diretamente incorporada dentro do modelo, adotando uma abordagem de aprendizado de ponta a ponta. No entanto, certas características requerem atenção especial. Por exemplo, os timestamps precisam de processamento adicional para capturar noções tanto absolutas quanto relativas de tempo, sendo que o tempo absoluto é particularmente importante para entender comportamentos sensíveis ao tempo.

Para aumentar a precisão das previsões em sistemas de recomendação sequencial, organizamos as características dos tokens em duas categorias:

Características de Tempo de Requisição: Essas são características disponíveis no momento da previsão, como tempo de login, dispositivo ou localização.
Características Pós-Ação: Esses são detalhes disponíveis após uma interação ter ocorrido, como o show específico com o qual o usuário interagiu ou a duração da interação.

Para prever a próxima interação, combinamos características de tempo de requisição do passo atual com características pós-ação do passo anterior. Essa mistura de informações contextuais e históricas garante que cada token na sequência carregue uma representação abrangente, capturando tanto o contexto imediato quanto os padrões de comportamento do usuário ao longo do tempo.

Considerações para Objetivo e Arquitetura do Modelo

Como mencionado anteriormente, nossa abordagem padrão emprega o objetivo de previsão do próximo token autorregressivo, semelhante ao GPT. Essa estratégia aproveita efetivamente a vasta escala de dados de interação de usuário não rotulados. A adoção desse objetivo em sistemas de recomendação mostrou múltiplos sucessos [1–3]. No entanto, dadas as distintas diferenças entre tarefas de linguagem e tarefas de recomendação, fazemos várias modificações críticas ao objetivo.

Primeiramente, durante a fase de pré-treinamento de LLMs típicos, como o GPT, cada token alvo é geralmente tratado com peso igual. Em contraste, em nosso modelo, nem todas as interações dos usuários têm a mesma importância. Por exemplo, a reprodução de um trailer de 5 minutos não deve ter o mesmo peso que a visualização de um filme completo de 2 horas. Um desafio maior surge ao tentar alinhar a satisfação do usuário a longo prazo com interações e recomendações específicas. Para abordar isso, podemos adotar um objetivo de previsão de múltiplos tokens durante o treinamento, onde o modelo prevê os próximos n tokens em cada etapa, em vez de um único token [4]. Essa abordagem incentiva o modelo a capturar dependências de longo prazo e evitar previsões míopes focadas exclusivamente em eventos imediatos.

Em segundo lugar, podemos usar múltiplos campos de nossos dados de entrada como objetivos de previsão auxiliares além de prever o próximo ID de item, que permanece o alvo primário. Por exemplo, podemos derivar gêneros dos itens na sequência original e usar essa sequência de gêneros como um alvo auxiliar. Essa abordagem serve para vários propósitos: atua como um regularizador para reduzir o overfitting em previsões de IDs de itens ruidosas, fornece insights adicionais sobre as intenções dos usuários ou preferências de gêneros a longo prazo e, quando estruturada hierarquicamente, pode melhorar a precisão na previsão do ID do item alvo. Ao prever primeiro alvos auxiliares, como gênero ou língua original, o modelo efetivamente reduz a lista de candidatos, simplificando a previsão subsequente do ID do item.

Desafios Únicos para Fundamentos de Recomendação

Além dos desafios da infraestrutura impostos pelo treinamento de modelos maiores com grandes quantidades de dados de interação do usuário, que são comuns ao tentar construir modelos de fundamento, há várias dificuldades específicas para recomendações que precisam ser superadas para torná-las viáveis. Um dos desafios únicos é o início a frio de entidades.

Na Netflix, nossa missão é entreter o mundo. Novos títulos são frequentemente adicionados ao catálogo. Portanto, os modelos de fundamentos de recomendação requerem uma capacidade de início a frio, o que significa que os modelos precisam estimar as preferências dos membros para títulos recém-lançados antes que alguém tenha interagido com eles. Para permitir isso, nossa estrutura de treinamento do modelo de fundamento é construída com as seguintes duas capacidades: treinamento incremental e capacidade de fazer inferência com entidades não vistas.

Treinamento Incremental: Modelos de fundamento são treinados em conjuntos de dados extensos, incluindo o histórico de reprises e ações de cada membro, tornando o re-treinamento frequente impraticável. No entanto, nosso catálogo e as preferências dos membros evoluem continuamente. Ao contrário de grandes modelos de linguagem, que podem ser treinados incrementalmente com vocabulários de tokens estáveis, nossos modelos de recomendação requerem novas embeddings para novos títulos, exigindo a expansão de camadas de embedding e componentes de saída. Para abordar isso, iniciamos novos modelos reutilizando parâmetros de modelos anteriores e inicializando novos parâmetros para novos títulos. Por exemplo, as embeddings de novos títulos podem ser inicializadas adicionando ruído aleatório leve a embeddings médias existentes ou usando uma combinação ponderada de embeddings de títulos similares com base em metadados. Essa abordagem permite que novos títulos comecem com embeddings relevantes, facilitando o ajuste fino mais rápido. Na prática, o método de inicialização se torna menos crítico quando mais dados de interação dos membros são usados para o ajuste fino.
Tratando Entidades Não Vistas: Mesmo com treinamento incremental, nem sempre é garantido aprender de forma eficaz sobre novas entidades (ex: títulos recém-lançados). Também é possível que haja algumas novas entidades que não estejam incluídas/vistas nos dados de treinamento, mesmo que ajustemos os modelos de fundamento com frequência. Portanto, também é importante permitir que os modelos de fundamento utilizem informações de metadados das entidades e entradas, e não apenas dados de interação dos membros. Assim, nosso modelo de fundamento combina embeddings de IDs de itens aprendíveis e embeddings aprendíveis a partir de metadados. O diagrama a seguir demonstra essa ideia.

0*7qnfUGWgXtVUjhP9 Modelo de Fundamento para Recomendação Personalizada

Para criar a embedding final do título, combinamos essa embedding baseada em metadados com uma embedding ID totalmente aprendível usando uma camada de mistura. Em vez de simplesmente somar essas embeddings, usamos um mecanismo de atenção baseado na “idade” da entidade. Essa abordagem permite que novos títulos com dados de interação limitados dependam mais de metadados, enquanto títulos estabelecidos podem depender mais de embeddings baseadas em ID. Como títulos com metadados semelhantes podem ter diferentes engajamentos de usuários, suas embeddings devem refletir essas diferenças. A introdução de um pouco de aleatoriedade durante o treinamento incentiva o modelo a aprender a partir de metadados em vez de depender apenas das embeddings de ID. Esse método garante que títulos recém-lançados ou pré-lançamento tenham embeddings razoáveis, mesmo sem dados de interação do usuário.

Aplicações e Desafios Descendentes

Nosso modelo de fundamento de recomendação é projetado para entender preferências de longo prazo dos membros e pode ser utilizado de várias maneiras por aplicações descendentes:

Uso Direto como Modelo Preditivo: O modelo é treinado principalmente para prever a próxima entidade com a qual um usuário interagirá. Ele inclui múltiplas cabeças preditivas para diferentes tarefas, como prever preferências de membros para vários gêneros. Essas podem ser aplicadas diretamente para atender diversas necessidades de negócios.
Utilizando embeddings: O modelo gera embeddings valiosas para membros e entidades como vídeos, jogos e gêneros. Essas embeddings são calculadas em jobs por lotes e armazenadas para uso em aplicações online e offline. Elas podem servir como características em outros modelos ou serem usadas para geração de candidatos, como recuperar títulos apelativos para um usuário. Embeddings de títulos de alta qualidade também suportam recomendações do tipo título para título. No entanto, uma consideração importante é que o espaço de embeddings possui dimensões arbitrárias e não interpretabis, sendo incompatível entre diferentes execuções de treinamento de modelo. Isso impõe desafios aos consumidores descendentes, que devem se adaptar a cada re-treinamento e reimplantação, arriscando bugs devido a suposições invalidadas sobre a estrutura de embeddings. Para endereçar isso, aplicamos uma transformação de baixa classificação ortogonal para estabilizar o espaço de embeddings de usuários/itens, garantindo um significado consistente das dimensões de embeddings, mesmo à medida que o modelo de fundamento base é re-treinado e reimplantado.
Ajuste Fino com Dados Específicos: A adaptabilidade do modelo permite ajuste fino com dados específicos da aplicação. Os usuários podem integrar o modelo completo ou subgráficos em seus próprios modelos, ajustando-os com menos dados e poder computacional. Essa abordagem alcança desempenho comparável aos modelos anteriores, apesar de o modelo de fundamento inicial exigir recursos significativos.

Escalonando Modelos de Fundamento para Recomendações da Netflix

Ao escalonar nosso modelo de fundamento para as recomendações da Netflix, buscamos inspiração no sucesso dos grandes modelos de linguagem (LLMs). Assim como os LLMs demonstraram o poder da escala na melhoria de desempenho, consideramos que a escala é crucial para aumentar as tarefas de recomendação generativa. O escalonamento bem-sucedido demanda avaliação robusta, algoritmos de treinamento eficientes e recursos computacionais substanciais. As avaliações devem diferenciar efetivamente o desempenho do modelo e identificar áreas para melhoria. O escalonamento envolve a escala de dados, modelo e contexto, incorporando engajamento do usuário, análises externas, ativos multimídia e embeddings de alta qualidade. Nossos experimentos confirmam que a lei de escalonamento também se aplica ao nosso modelo de fundamento, com melhorias consistentes observadas à medida que aumentamos o tamanho dos dados e do modelo.

1*dEypYqp643q6GcVzn3IIww Modelo de Fundamento para Recomendação Personalizada

Conclusão

Em conclusão, nosso Modelo de Fundamento para Recomendação Personalizada representa um passo significativo em direção à criação de um sistema unificado e centrado em dados que aproveita dados em larga escala para aumentar a qualidade das recomendações para nossos membros. Essa abordagem se inspira em Modelos de Linguagem Grandes (LLMs), particularmente nos princípios de aprendizado semi-supervisionado e treinamento de ponta a ponta, visando aproveitar a vasta escala de dados de interação de usuário não rotulados. Enfrentando desafios únicos, como início a frio e viés de apresentação, o modelo também reconhece as distintas diferenças entre tarefas de linguagem e tarefas de recomendação. O Modelo de Fundamento permite várias aplicações descendentes, desde seu uso direto como modelo preditivo até a geração de embeddings para usuários e entidades para outras aplicações, podendo ser ajustado para cenários específicos. Observamos resultados promissores das integrações descendentes. Essa transição de múltiplos modelos especializados para um sistema mais abrangente marca um desenvolvimento empolgante no campo dos sistemas de recomendação personalizada.

Compartilhe

Guia da Internet

Modelo de Fundamento para Recomendação Personalizada