Referências. Aprofunde seu conhecimento

Engenharia de Prompt

Engenharia de Prompt - Visão Geral (Anthropic): A engenharia de prompt é o processo de projetar entradas (prompts) para modelos de linguagem como o Claude, a fim de controlar seu comportamento. É uma alternativa mais rápida e econômica ao "fine-tuning" (ajuste fino) de um modelo. Com a engenharia de prompt, você pode adaptar modelos a novas tarefas e domínios, fornecendo contexto e instruções específicas, sem a necessidade de retreinamento. As técnicas variam desde a clareza e objetividade nas instruções até o uso de exemplos e a atribuição de "papéis" ao modelo para guiar suas respostas.
Melhores Práticas para Engenharia de Prompt (OpenAI): Este artigo da OpenAI oferece um guia sobre as melhores práticas para a engenharia de prompt com a API da OpenAI. Recomenda-se o uso dos modelos mais recentes e capazes, a inserção de instruções no início do prompt e o uso de separadores para distinguir as instruções do contexto. A especificidade e o detalhamento sobre o resultado desejado (formato, estilo, etc.) são cruciais. A técnica "mostre e diga", que utiliza exemplos, é incentivada. O artigo também sugere uma abordagem em camadas, começando com "zero-shot" (sem exemplos), passando para "few-shot" (poucos exemplos) e, se necessário, considerando o "fine-tuning". Outras dicas incluem evitar descrições vagas, usar instruções positivas em vez de negativas e utilizar "palavras-chave" para guiar a geração de código.
Anthropic Learn: Esta página da Anthropic serve como um portal para recursos de aprendizado e guias sobre inteligência artificial. Ela apresenta a "Anthropic Academy", que oferece cursos sobre desenvolvimento de API, o "Model Context Protocol" e o uso do Claude para codificação, com certificados de conclusão. A página destaca cursos específicos, como "Claude com a API da Anthropic" e "Claude Code em Ação", e fornece recursos para a criação de aplicativos, implementação em organizações e uso para projetos pessoais.

Artigos

Com certeza! Refiz os resumos, tornando-os ainda mais concisos, conforme solicitado:

"Attention Is All You Need": Este documento introduz o Transformer, uma arquitetura de rede neural que usa apenas mecanismos de atenção, dispensando redes recorrentes e convolucionais. Ele demonstrou qualidade superior, maior paralelização e tempo de treinamento significativamente menor em tradução automática, alcançando novos estados da arte.
"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models": Este trabalho apresenta o Chain-of-Thought (CoT) prompting, um método simples que permite a grandes modelos de linguagem gerar passos de raciocínio intermediários (uma "cadeia de pensamento"). Isso melhora drasticamente a capacidade desses modelos em tarefas de raciocínio complexo (aritmética, bom senso, simbólica), sendo uma habilidade emergente em modelos suficientemente grandes.
"Improving Language Understanding by Generative Pre-Training": Este artigo propõe uma abordagem semi-supervisionada para compreensão de linguagem: pré-treinamento generativo de um modelo de linguagem (Transformer) em texto não rotulado, seguido de ajuste fino discriminativo para tarefas específicas. O modelo superou o estado da arte em 9 de 12 tarefas de PLN.
"Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks": Este trabalho introduz modelos Retrieval-Augmented Generation (RAG), que combinam uma memória paramétrica (modelo seq2seq pré-treinado como BART) com uma memória não paramétrica (índice de vetor denso da Wikipédia), acessada por um retriever neural. Os modelos RAG alcançaram resultados de ponta em tarefas de QA de domínio aberto e geram linguagem mais específica, diversa e factual, permitindo atualizar o conhecimento substituindo o índice sem retreinar.
"The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity": Este estudo investiga os Large Reasoning Models (LRMs), que geram processos de pensamento detalhados, usando ambientes de quebra-cabeças controláveis. Os autores mostram que os LRMs sofrem um colapso completo na precisão além de certas complexidades, e que o esforço de raciocínio (tokens de pensamento) pode diminuir contra-intuitivamente para problemas mais difíceis, mesmo com orçamento de tokens adequado. Revela limitações em computação exata e inconsistência de raciocínio.