Pular para conteúdo

Introdução à IA Generativa

Slides PDF

O que é IA Generativa?

A IA Generativa é uma classe de inteligências artificiais que são capazes de criar conteúdo novo e original, como textos, imagens, vídeos e até música, com base em padrões que foram aprendidos de grandes volumes de dados. Ao contrário de IAs tradicionais, que executam tarefas específicas com base em regras pré-programadas ou reconhecimento de padrões, a IA Generativa pode criar novas ideias, responder a perguntas complexas e até mesmo interagir em conversas, como estamos vendo com assistentes virtuais como o ChatGPT.

Como a IA Generativa se coloca no grupo de IAs?

Dentro do vasto campo da IA, a IA Generativa é uma subárea que se destaca pela capacidade de "gerar" conteúdo. Enquanto muitos sistemas de IA são especializados em análises e previsões com base em dados existentes, a IA Generativa é capaz de criar coisas que não existiam antes. Isso a coloca em um papel diferenciado, onde a criatividade e a inovação são parte central do que ela faz. Ela está inserida dentro de uma categoria chamada de "aprendizado profundo" (deep learning), que utiliza redes neurais complexas para simular o funcionamento do cérebro humano em algumas atividades.

O que a IA Generativa pode fazer?

A IA Generativa tem um leque amplo de aplicações, e algumas das mais revolucionárias são:

Escrever Textos

Ferramentas como o GPT-4 podem gerar textos de alta qualidade, desde redações e artigos até resumos e posts em redes sociais. Empresas estão utilizando IA para criar conteúdos que antes exigiam a intervenção humana, otimizando processos e gerando inovação em marketing, jornalismo, e muito mais.

Transcrever Textos

Sistemas de IA, como os de reconhecimento de voz, podem transformar falas em texto com alta precisão. Isso tem impactado áreas como a educação, onde aulas podem ser automaticamente transcritas, e o jornalismo, onde entrevistas podem ser convertidas em texto para análise mais rápida.

Gerar Imagens

A capacidade das IAs generativas de criar imagens inéditas é uma das inovações mais empolgantes na área da inteligência artificial. Usando modelos como o DALL-E e outros algoritmos avançados, essas IAs podem gerar visuais a partir de descrições textuais. Isso permite a criação de obras de arte únicas, ilustrações para livros, designs de produtos e muito mais, sem a necessidade de um artista humano.

Descrever Imagens

A IA pode analisar e descrever imagens existentes, fornecendo interpretações detalhadas sobre o que elas contêm. Isso é útil em várias áreas, incluindo a acessibilidade para pessoas com deficiência visual, onde a IA pode descrever cenários, objetos e expressões em fotos e vídeos.

Conversar com Humanos

A IA Conversacional, que inclui chatbots e assistentes virtuais, está cada vez mais sofisticada. Esses sistemas podem manter diálogos quase naturais com humanos, respondendo a perguntas, oferecendo suporte técnico, e até mesmo atuando como companheiros virtuais em determinadas situações.

Gerar Vídeos

Com a IA, já é possível criar vídeos a partir de simples descrições. Ferramentas de IA podem animar personagens, criar cenários e até gerar vídeos completos sem a necessidade de filmagens tradicionais. Essas capacidades estão sendo exploradas em diversas indústrias, desde o cinema até a publicidade.

Ferramentas de IA Generativa

ChatGPT

O ChatGPT, desenvolvido pela OpenAI, e lançado em dezembro de 2022, é a ferramenta de IA líder que se destaca na assistência de diversas tarefas, desde responder a perguntas e oferecer conselhos até gerar conteúdo escrito, imagens e vídeos.

Ela opera com base em uma família de modelos, incluindo GPT-4o, GPT-4o mini, GPT-4.5, o1, o3-mini e o3-mini-high, cada um otimizado para diferentes níveis de complexidade e velocidade de processamento.

Suas principais aplicações e casos de uso abrangem a geração de conteúdo, como a reformulação de textos, a criação de relatórios e e-mails, e a escrita criativa. No campo da recuperação de informações e pesquisa, o ChatGPT pode responder a perguntas gerais, realizar pesquisas aprofundadas e acessar informações atualizadas da web em tempo real.

Para desenvolvedores, oferece assistência em codificação, análise de código, depuração e sugestão de otimizações. A ferramenta também se destaca por suas interações multimodais, suportando entradas e saídas de texto, imagens, voz e vídeo.

Está disponível via web em https://chatgpt.com, sendo que a versão web geralmente oferece mais recursos, incluindo acesso exclusivo a ferramentas de gereaçãoi de vídeo como o Sora para alguns usuários. Aplicativos móveis do ChatGPT podem ser baixados na Apple App Store para iOS e na Google Play Store para Android. Há também um aplicativo de desktop disponível para usuários de Windows e macOS.

Embora seja possível iniciar o uso sem uma conta para acesso instantâneo, a criação de uma conta desbloqueia funcionalidades adicionais, como histórico de conversas e compartilhamento. A OpenAI adota um modelo de assinatura em camadas para o ChatGPT, que demonstra uma estratégia para atender a diversos segmentos de usuários. O Plano Gratuito oferece acesso ao GPT-4o mini com limites de uso, voz padrão e a capacidade de descobrir e utilizar GPTs personalizados. O Plano Plus expande o acesso aos modelos mais novos como o GPT-4.1.

Entre os diferenciadores do ChatGPT estão seus assistentes GPTs personalizados, que permitem aos usuários descobrir, usar, criar e compartilhar versões customizadas da ferramenta para tarefas específicas. Suas capacidades multimodais avançadas incluem interação de voz avançada com vídeo, permitindo conversas mais naturais e em tempo real, inclusive respondendo a emoções.

A capacidade de pesquisa web em tempo real e pesquisa aprofundada (deep research) permite acesso a informações atualizadas e análises detalhadas. O gerador de vídeo Sora, exclusivo da versão web para alguns usuários, permite a criação de vídeos a partir de prompts.

Gemini

O Gemini é a ferramenta de IA Generativa do Google, lançada em dezembro de 2023, concebida para atuar como um assistente pessoal profundamente integrado a todo o ecossistema da empresa e impulsionado por modelos poderosos como o 2.5 Pro e o Veo3, para geração de vídeo. Suas funcionalidades abrangem desde auxílio em pesquisa e escrita, com recursos como o Deep Research, para pesquisa aprofundada na Internet, até a criação de conteúdo multimodal. Além disso, o Gemini aprimora a produtividade ao se integrar diretamente com aplicativos como Gmail, Docs e Sheets, e auxilia no planejamento de viagens, aceitando comandos por texto, voz e imagem.

O acesso à ferramenta é versátil, disponível via web, https://gemini.google.com/ aplicativos móveis, e diretamente nos produtos Google, podendo inclusive substituir o Google Assistant no Android. O Google oferece dois planos pagos: o Google AI Pro, que por $19.99 mensais dá acesso ao modelo 2.5 Pro e 2 TB de armazenamento, para até 5 pessoas da mesma família. E o Google AI Ultra, um plano superior com modelos mais avançados, mais recursos e 30 TB de armazenamento.

Seu grande diferencial reside na profunda integração com os serviços que os usuários já utilizam, o que, somado às suas capacidades avançadas de pesquisa, o posiciona como uma ferramenta poderosa e central na vida digital.

Grok

Grok é a ferramenta de inteligência artificial generativa da xAI, a empresa de Elon Musk, lançada em novembro de 2023, conhecida por combinar inteligência com uma personalidade sagaz e humorística. Seu principal diferencial é o acesso em tempo real a dados da plataforma X (antigo Twitter), o que lhe permite fornecer respostas atualizadas sobre eventos e tendências atuais, uma vantagem sobre modelos com conhecimento estático.

Suas funções incluem conversação, pesquisa web, assistência em programação e geração de imagens. O acesso ao Grok está integrado diretamente à plataforma X, com planos gratuitos por assinatura. Pode também ser acessado diretamente pelo site http://grok.com

Os altos investimentos em Grok e o projeto Colossus estão diretamente ligados à estratégia da xAI, a empresa de Elon Musk, para competir no mais alto nível do desenvolvimento de inteligência artificial.

Em maio de 2024, a xAI anunciou a captação de US$ 6 bilhões em uma rodada de investimentos. Essa rodada avaliou a empresa em US$ 24 bilhões, tornando-a uma das startups de IA mais valiosas do mundo.

Uma parte significativa desses US$ 6 bilhões será destinada a um projeto monumental chamado "Colossus", que atualmente interliga 200.000 GPUs Nvidia H100, que são os processadores mais avançados para tarefas de IA, https://x.ai/colossus

DeepSeek

A DeepSeek AI é uma empresa chinesa, que desenvolve Grandes Modelos de Linguagem (LLMs), como os modelos DeepSeek-R1 e DeepSeek-V3, lançados sob a licença MIT com pesos abertos, permitindo acesso e personalização sob certas condições. Seu objetivo é fornecer soluções de IA de alto desempenho, eficientes e personalizáveis, com foco em alcançar inteligência artificial geral (AGI) de maneira sustentável.

Suas principais aplicações incluem atuar como um chatbot básico (DeepSeek-R1), fornecendo respostas rápidas e precisas, comparáveis a modelos como GPT-4. É adequado para pesquisa acadêmica e projetos complexos, com desempenho excepcional em benchmarks do ramo. Na geração de conteúdo, suporta reformulação de textos, relatórios e escrita criativa. O DeepSeek Coder auxilia na escrita, depuração e otimização de código, incluindo consultas SQL, com desempenho superior em tarefas de programação. Na educação, é um recurso valioso para professores e alunos, enquanto sua capacidade de processar grandes contextos (128K tokens) sugere potencial para análise de dados, embora isso não seja uma aplicação primária destacada.

O acesso ao DeepSeek é possível via plataforma web, https://chat.deepseek.com, aplicativo móvel gratuito (“DeepSeek – AI Assistant”) na App Store e Google Play, e instalação local para uso offline com ferramentas como LightLLM e SGLang, permitindo personalização e privacidade. O acesso básico é gratuito, sem taxas de assinatura, enquanto a API é altamente competitiva e mais barata do que os concorrentes.

A DeepSeek é “open weight”, permitindo que desenvolvedores modifiquem e adaptem os modelos em hardware próprio, promovendo flexibilidade. Sua eficiência é alcançada por métodos de treinamento inovadores, como arquiteturas MoE e MLA, com custos de US$ 6 milhões para o DeepSeek-V3 (versus US$ 100 milhões do GPT-4). A empresa utiliza feedback do usuário para refinar modelos em ciclos de treinamento com reinforcement learning (RL), melhorando respostas e segurança, mas não em tempo real.

A capacidade de rodar localmente garante controle sobre dados, ideal para privacidade e ambientes offline. A abordagem “open weight” fomenta uma comunidade colaborativa, como no projeto Open R1, impulsionando inovação. A DeepSeek também prioriza sustentabilidade, usando menos energia com arquiteturas eficientes e hardware acessível, reduzindo a pegada de carbono da IA.

Claude

Claude é uma ferramenta de inteligência artificial generativa da Anthropic, lançada em março de 2023, reconhecida por seu forte foco em segurança e capacidade de raciocínio avançado.

Sua geração mais recente, que inclui o modelo Claude Opus 4, é apontada como líder mundial em codificação, destacando-se em tarefas complexas e na integração com ambientes de desenvolvimento de software.

Além da programação, a IA é projetada para raciocínio profundo em múltiplas etapas e para servir como base para agentes de IA sofisticados, graças à sua memória aprimorada. O acesso é feito pelo site http://claude.ai, por meio de APIs e através de plataformas de nuvem como Amazon Bedrock e Google Vertex AI.

A Anthropic oferece diversos planos, desde uma versão gratuita até planos profissionais e de alto volume (Max), que garantem acesso aos modelos mais poderosos e a recursos avançados.

Seus principais diferenciais são a especialização em codificação, a capacidade de criar agentes autônomos e, fundamentalmente, um forte compromisso com a segurança (ASL-3), resultando em respostas mais confiáveis e robustas.

LlaMa

Llama é a família de modelos da Meta, projetada para ser um assistente onipresente e personalizado.

Seu principal diferencial é a integração contínua e gratuita em todo o ecossistema Meta, incluindo WhatsApp, Instagram, Facebook e Messenger, onde pode ser ativada simplesmente digitando "@Meta AI".

A ferramenta é multimodal, aceitando comandos de texto, voz e imagem para realizar tarefas como responder perguntas, planejar eventos, criar conteúdo e até gerar documentos e imagens complexas a partir de um único comando.

Além dos aplicativos, a Meta AI se estende ao mundo físico através de hardware como os óculos Ray-Ban Meta, oferecendo assistência em tempo real. A estratégia da Meta não é oferecer uma ferramenta autônoma, mas sim normalizar a interação com a IA como parte natural da comunicação e da experiência social diária, aproveitando sua vasta base de usuários para oferecer uma utilidade altamente integrada e contextual.

Manus

O Manus AI é uma plataforma de agentes autônomos de IA avançados, desenvolvido por uma empresa chinesa e lançado em março de 2025.

Diferente de chatbots tradicionais, ele foi projetado para operar de forma independente, planejando e executando tarefas complexas de ponta a ponta sem supervisão humana contínua.

Seus principais diferenciais incluem a operação assíncrona, que permite que ele continue trabalhando na nuvem mesmo após o usuário se desconectar, e o "Computador do Manus", uma interface transparente que permite observar o processo de tomada de decisão da IA em tempo real.

Funcionando com uma arquitetura de "orquestração multiagente", ele gerencia subagentes especializados e utiliza múltiplos modelos de IA, como o Claude 3.5 Sonnet, para realizar tarefas como redação de relatórios e análise de dados. O Manus AI já demonstrou superar outras ferramentas em benchmarks de autonomia, posicionando-se como uma vanguarda na próxima geração de automação por IA.

Pode ser acessado em http://manus.im

Hugging Face

Diferente de um chatbot único, o Hugging Face é uma plataforma e ecossistema líder para a comunidade de aprendizado de máquina (ML), funcionando como um hub central para distribuição de modelos abertos de IA.

Ele permite que desenvolvedores e pesquisadores hospedem modelos e conjuntos de dados, colaborem em projetos e gerenciem todo o ciclo de vida do ML, desde o treinamento até a implantação.

A plataforma oferece ferramentas para treinar modelos (Deep Learning Containers) e implantá-los em infraestrutura gerenciada (Inference Endpoints), além de permitir a criação de aplicativos de IA interativos chamados "Spaces".

O acesso é feito principalmente pelo seu site http://huggingface.co, e embora ofereça um plano gratuito robusto para a comunidade de código aberto, também possui planos pagos (Pro e Enterprise) que desbloqueiam recursos avançados de computação e segurança.

Seu principal diferencial é democratizar o acesso à IA, fomentando um ambiente de desenvolvimento colaborativo e transparente, focado em desenvolvedores e pesquisadores, em vez de oferecer um único modelo proprietário para o consumidor final.