Llama 3.1: conheça a IA mais potente da Meta

banner_posts

Em julho, a Meta anunciou o Llama 3.1, a versão mais recente de sua série Llama de modelos de linguagem grande (LLMs).

Embora seja uma pequena atualização do modelo Llama 3, ele apresenta o Llama 3.1 405B – um modelo de 405 bilhões de parâmetros, o maior LLM de código aberto do mundo até hoje, superando o Nemotron-4-340B-Struct da NVIDIA.

Avaliações experimentais sugerem que ele rivaliza com os principais modelos como GPT-4, GPT-4o e Claude 3.5 Sonnet em várias tarefas. Continue lendo para aprender mais sobre  o Llama 3.1 e sobre como você pode utilizá-lo de graça. 

O que é o Llama 3.1 405B?

Mark Zuckerberg, CEO da META, responsável por lançar o modelo Llama.
Mark Zuckerberg, CEO da META, responsável por lançar o modelo Llama.

A Meta, desenvolvedora, possui uma linha chamada “Llama”, que conta com outros modelos de inteligência artificial. De modo simples,  o Llama 3.1 405B é uma atualização significativa do modelo Llama 3, anunciado em abril de 2024.  

Além disso, o Llama 3.1 também conta com opções poderosas de segurança, como o Llama Guard 3 e o Prompt Guard. Desse modo, com o Llama 3.1, a empresa espera rivalizar contra os principais modelos de inteligência artificial do mercado.  

Características do Llama 3.1

Esta versão, como indicado pelo nome, possui 405 bilhões de parâmetros, destacando-se como a principal entre os modelos disponíveis. A linha Llama 3.1 é composta por três tamanhos distintos de modelos: 8B, 70B e 405B. 

A quantidade impressionante de parâmetros de Llama 3.1 405B posiciona este modelo entre os principais competidores na tabela de classificação da LMSys Chatbot Arena, que mede o desempenho dos modelos através de votos cegos dos usuários. Desse modo, a competição no topo é intensa, com modelos como OpenAI GPT-4, Anthropic Claude 3 e Google Gemini disputando as primeiras posições. 

Uma das principais melhorias do Llama 3.1 em relação ao Llama 3 é o suporte multilingue aprimorado. Enquanto o Llama 3 era predominantemente treinado em inglês, com 95% dos dados de treinamento nesta língua, o Llama 3.1 expande esse suporte para incluir alemão, francês, italiano, português, hindi, espanhol e tailandês. Essa atualização aumenta significativamente a aplicabilidade do modelo em contextos multilíngues.

Além disso, o Llama 3.1 apresenta uma janela de contexto expandida de 8 mil tokens para 128k tokens. Ou seja, esta melhoria é importante para aplicações que requerem processamento de grandes volumes de texto, como a geração de código, resumos de documentos longos e diálogos extensos em chatbots de suporte

Modelo Open Source (Código Aberto)

Os modelos Llama 3.1 estão disponíveis sob a Licença de Modelo Aberto personalizada da Meta, uma licença permissiva que permite a pesquisadores, desenvolvedores e empresas utilizar o modelo para fins de pesquisa e aplicações comerciais.

Além disso, em uma atualização importante, a Meta ampliou a licença, permitindo que os desenvolvedores usem as saídas dos modelos Llama, incluindo o modelo 405B, para melhorar outros modelos.

Isso significa que qualquer pessoa pode aproveitar os recursos do modelo para avançar em seus projetos, criar novos aplicativos e explorar as possibilidades da IA, desde que cumpra os termos especificados no contrato.

Como funciona?

O Llama 3.1 405B opera sobre uma arquitetura Transformer apenas de decodificação, um design robusto usado por muitos modelos de linguagem avançados. A Meta fez ajustes nesta arquitetura para otimizar a estabilidade e o desempenho, excluindo deliberadamente a arquitetura Mix-of-Experts (MoE).

O processo de funcionamento do modelo começa com a divisão do texto de entrada em tokens, que são convertidos em incorporações numéricas. Assim, esses tokens passam por várias camadas de autoatenção, onde o modelo analisa as relações entre eles para entender o significado e o contexto. Então, após a autoatenção, as informações são processadas por uma rede feedforward, que combina e refina os dados para obter um entendimento mais profundo.

Em suma, esse ciclo de autoatenção e processamento é repetido múltiplas vezes, permitindo que o modelo compreenda melhor o contexto e o significado do texto. Finalmente, através da decodificação auto regressiva, o modelo gera respostas token por token, criando um texto coerente e relevante baseado no prompt de entrada.

A Meta enfatiza a qualidade e a quantidade dos dados de treinamento, usando um rigoroso processo de filtragem e limpeza. O modelo também gera dados sintéticos para aprimorar ainda mais suas capacidades. 

Então, para facilitar a implementação prática, o Llama 3.1 405B utiliza quantização, reduzindo a precisão dos pesos do modelo para melhorar a eficiência computacional, tornando-o mais acessível e econômico.

Processo de treinamento

O desenvolvimento do Llama 3.1 405B seguiu um rigoroso processo de treinamento em várias etapas. Primeiramente, o modelo foi submetido a um pré-treinamento utilizando uma vasta e diversificada coleção de conjuntos de dados que abrangem trilhões de tokens. Em suma, essa ampla exposição ao texto permite que o modelo adquira conhecimentos sobre gramática, fatos e habilidades de raciocínio a partir dos padrões e estruturas que encontra.

De fato, após o pré-treinamento, o modelo passa por múltiplas rodadas de ajuste fino supervisionado (SFT) e otimização de preferência direta (DPO). O SFT consiste no treinamento do modelo em tarefas e conjuntos de dados específicos, com feedback humano orientando o modelo a produzir os resultados desejados.

A etapa de DPO, entretanto, concentra-se em refinar as respostas do modelo com base nas preferências coletadas de avaliadores humanos. Esse processo iterativo melhora gradualmente a capacidade do modelo de seguir instruções, aprimorar a qualidade de suas respostas e garantir a segurança.

Como acessar o Llama 3.1 405B

Para utilizar o Llama 3.1, você pode fazer isso por meio do próprio site do Meta ou através do Hugging Face. 

INFORMAÇÕES SOBRE AGRISPACE – O METAVERSO DO AGRO [email protected] ou pelo WhatsApp clicando Aqui!!

De fato, quer ficar por dentro de nossas postagens e notícias, entre em nosso canal no WhatsApp e venha conosco, descobrir o mundo do metaverso

Deixar um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.