Assinar

Inteligência artificial: o que são modelos de linguagem e para que servem

Buscar
Publicidade
ProXXIma

Inteligência artificial: o que são modelos de linguagem e para que servem

Funcionando de maneira preditiva, modelos de linguagem fornecem informações com base no treinamento em bancos de dados da Internet

Preencha o formulário abaixo para enviar uma mensagem:


17 de maio de 2023 - 6h03

A conversa acalorada sobre inteligência artificial (IA) veio acompanhada de termos que a definem e a tornam tão apelativa. Entre eles, estão os modelos de linguagem, ou mais utilizados na língua inglesa a partir da definição Natural Language Processing (NLP), ou processamento de linguagem natural, em tradução livre.

modelos de linguagem

Corrida da IA envolve poder de modelos de linguagem e capacidade de predição das ferramentas (Crédito: Ole CNX/Shutterstock)

A inteligência artificial como se conhece mais amplamente e em seu sentido mais básico, é uma ferramenta baseada em sistemas que são treinados a partir de informações e imagens prévias. Os modelos de linguagem naturais consolidam-se como conjunto de soluções, algoritmos e técnicas que, dentro da IA, tenham relação de linguagem com as máquinas, conforme explica John Paul Hempel Lima, coordenador acadêmico do curso de graduação tecnológica em Inteligência Artificial da Fiap. A tradução de um texto, por exemplo, tem seu processo fundamentado em NLP.

“Uma das mais importantes que agora temos visto é o retrieval, ou seja, devolver informação”, explica o coordenador sobre a tendência de tecnologias como o ChatGPT. “A pesquisa da IA agora é sobre construir modelos de linguagem que consigam dar respostas a partir de um conhecimento prévio”, complementa.

A principal virada de chave da inteligência artificial que chega ao usuário comum parte da sofisticação dos chatbots, que não são novidades na história da tecnologia. Agora, a corrida da IA consiste, em grande parte, na habilidade dos sistemas em dar respostas o mais próximo possível de como um ser humano faria. Lima explica que, desde 2018, têm surgindo insights de pesquisas sobre os modelos transformers, que são redes neurais que fornecem informações a partir de um contexto predeterminado.

Batizados de Large Language Models, os modelos funcionam baseados em processos matemáticos. Tomando o ChatGPT como exemplo: a primeira etapa de seu uso é a chamada tokenização. O sistema transforma o conjunto de letras fornecidas pelo usuário, neste caso, em palavras, em números. A sequência gerada por esse processo faz com que o modelo calcule a probabilidade matemática de realizar uma predição – ou resposta – recomendada de volta ao usuário.

A resposta gerada a partir de uma pergunta ou pedido específico é possível graças aos modelos de linguagem. Atualmente, são altamente eficientes devido a um aprendizado prévio. Além disso, tal aprendizado é feito com base em grandes bibliotecas de dados já existentes em toda a internet. Um dos maiores atualmente é o NeMo Megatron, da Nvidia, que suporta modelos do tipo GPT e Bart.

“A primeira grande evolução nessa linha foi a questão do machine learning. Ele é um domínio de IA em que as máquinas conseguem extrair alguns padrões de um banco de dados e, a partir desses padrões, conseguem funcionar de forma mais independente”, relembra Marcela Vairo, diretora de data & AI da IBM Brasil. Na sequência, o deep learning também foi importante precursor. O sistema aprende a partir de um volume de dados estruturados e não estruturados, como gráficos e imagens, por exemplo. A partir daí, aumenta-se a possibilidade de ter modelos preditivos.

Modelos de linguagem e a corrida da IA

Afinal, o que torna um modelo de linguagem mais poderoso que outro? Os modelos de linguagem são fator determinante do sucesso de uma solução de inteligência artificial. O GPT-3, a versão mais atualizada do ChatGPT, é capaz de aplicar seu aprendizado de máquina em 175 bilhões de parâmetros. Seu treinamento é baseado no dataset Common Crawl, um dataset que reúne 60 milhões de domínios da web e seus adjacentes. Ainda que não tenha sido oficialmente apresentado, o GPT-4, próxima atualização, deve ser dez vezes maior.

“GPT” é a sigla para generative pre-trained transformers, tipo de large language models que garante a evolução do que se conhece por inteligência artificial generativa. Enquanto isso, a versão atual do Bard, inteligência artificial do Google, foi treinada no LaMDA. O acrônimo para “language model for dialogue applications” conta com 137 bilhões de parâmetros. O CEO do Google, Sundar Pichai, afirmou que irá migrar a tecnologia para o PaLM, que abraça cerca de 540 bilhões de parâmetros.

“Nenhuma empresa mais vai ter todo o conhecimento dentro de casa”, afirma Marcela, da IBM Brasil. A executiva refere-se à intensa troca de dados entre empresas que a IA demanda. “Estamos entrando em uma nova era de inteligência em que a tecnologia permite a criação desses modelos para propostas específicas”, diz.

Ademais, longe dos olhos do usuário comum, os modelos de linguagem são usados também para outras finalidades que não o mecanismo de perguntas e respostas. A IBM firmou parceria com a Nasa para aplicar modelos fundacionais de IA aos dados de satélites de observação terrestre. A finalidade é colaborar para as previsões climáticas a partir do MERRA2, um conjunto de dados de observações atmosféricas.

Publicidade

Compartilhe

Veja também

  • O que a DoubleVerify espera para CTV em 2025?

    O que a DoubleVerify espera para CTV em 2025?

    Executivos apontam tendências de IA, retail media e mídias sociais como pontos importantes

  • IBM e expectativas para 2025: sustentabilidade, segurança e automação

    IBM e expectativas para 2025: sustentabilidade, segurança e automação

    Com IA como carro-chefe, executivos da empresa de tecnologia falam sobre as tendencias tecnológicas para o ano que vem