Suporte a múltiplas bases de conhecimento
• Adicionar diversas bases de contexto
• Múltiplos LLMs
• Ativá-las conforme o uso a cada prompt
Aumentar Eficiência dos times em 20%
• Acelerar a construção de product backlogs
• Apoiar o PO nos eventos de Discovery
• Geração de Inovação através de Insights
• Definição de Visão do Produto a Curto e Médio Prazo
Colaboração entre os Times
• Redução do ruído de comunicação
• Potencializar colaboração entre os Times
• Agrupamento de conversas privadas e compartilhadas
Análise de Reuniões
• Acesso à reuniões com dados completos
• Analise de sentimentos e highlights
Alinhamento com Compliance/Auditoria
• Observabilidade
• Processo de Segurança dos prompts
O que é IA Generativa?
IA Generativa é um campo de estudo dos modelos de inteligência artificial que combina técnicas de Processamento de Linguagem Natural (PLN) com redes neurais profundas (deep learning), especializando-se na previsão do próximo token — unidade mínima de significado, que pode representar parte de uma palavra, um caractere ou símbolo.
A
inteligência
artificial
está
revolucionando
o
mundo
moderno
?
Processamento de Linguagem Natural
Capacidade computacional de compreender, interpretar e manipular linguagem humana
Redes Neurais Profundas
Arquiteturas de aprendizado baseadas em camadas que imitam neurônios
Previsão de Tokens
Antecipar qual será o próximo elemento baseado no contexto anterior
O que são LLMs (Large Language Models)?
Definição
•
Modelos de inteligência artificial treinados em vastas quantidades de texto
•
Capazes de compreender e gerar linguagem humana natural
•
Baseados em redes neurais de grande escala (bilhões de parâmetros)
Aplicações Corporativas
•
Automação de atendimento ao cliente
•
Criação e análise de documentos
•
Assistência à tomada de decisões
•
Redução de tarefas repetitivas
•
Democratização do acesso à informação
Capacidades
•
Comunicação em linguagem natural
•
Geração de conteúdo (textos, código, resumos)
•
Análise e compreensão de contexto
•
Tradução e adaptação entre idiomas
Exemplos
•
ChatGPT (OpenAI)
•
Claude (Anthropic)
•
Gemini (Google)
•
LLaMA (Meta)
O que são Large Vision Models (LVMs)?
Definição
•
Modelos de IA treinados para compreender e processar imagens
•
Baseados em arquiteturas neurais de grande escala
•
Capacidade de interpretar conteúdo visual complexo
Aplicações Corporativas
•
Inspeção de qualidade em linhas de produção
•
Análise de documentos e imagens técnicas
•
Sistemas de segurança e vigilância
•
Diagnóstico médico assistido
•
Interpretação de dados visuais em grande escala
Capacidades
•
Reconhecimento e classificação de objetos
•
Interpretação de cenas complexas
•
Geração de descrições de imagens
•
Detecção de padrões e anomalias visuais
•
Integração com sistemas de linguagem (modelos multimodais)
Exemplos
•
CLIP (OpenAI)
•
DALL-E (OpenAI)
•
Midjourney
•
Vision Transformer (ViT)
•
SAM (Segment Anything Model)
LVMs na Análise de Processos: Estado Atual
Capacidades Atuais
•
Reconhecimento de elementos básicos (caixas, setas)
•
OCR preciso para extração de textos em diagramas
•
Compreensão contextual de componentes de processo
•
Interpretação de diagramas padronizados (BPMN, UML)
Limitações Atuais
•
Dificuldade com notações não padronizadas
•
Interpretação parcial da semântica de processos complexos
•
Necessidade de validação humana para lógicas críticas
•
Integração ainda não totalmente automatizada
Tecnologias Viáveis
•
GPT-4V, Claude Vision, Gemini para análise visual
•
Google Document AI ou Microsoft Azure AI para OCR
•
Plataformas como IBM Process Mining ou Celonis
•
Frameworks customizados combinando LVMs com RAG
Caso de Uso Prático
•
Captura inicial de diagramas desenhados ou impressos
•
Pré-processamento visual + OCR para extração de elementos
•
LVM interpreta relações entre componentes
•
Exportação assistida para sistemas BPM
Um simples OCR não é suficiente. O sucesso depende da combinação de análise visual (LVM), extração de texto (OCR avançado) e processamento semântico (LLM) para interpretar corretamente a intenção do processo.
Modelos de Linguagem Multimodais
Definição
•
Sistemas de IA capazes de processar e gerar conteúdo em múltiplos formatos (modalidades), integrando texto, imagens, áudio e vídeo em um único modelo.
Definição
•
Arquiteturas baseadas em Transformer com múltiplos decodificadores
•
Treinamento com alinhamento entre diferentes tipos de dados
•
Representações vetoriais compartilhadas entre modalidades
•
Transfer learning entre diferentes domínios (cross-modal learning)
Capacidades Avançadas
•
•Compreensão contextual entre diferentes formatos de dados
•
Geração de conteúdo em uma modalidade a partir de outra
•
Raciocínio visual-textual complexo
•
Resposta a consultas que requerem análise multimodal
•
Tradução entre modalidades (texto para imagem, áudio para texto)
Aplicações Corporativas
•
Documentação inteligente com análise de imagens e textos
•
Assistentes virtuais capazes de processar múltiplos formatos
•
Análise de sentimento em comunicações audiovisuais
•
Criação automatizada de conteúdo multimídia
•
Ferramentas de design auxiliadas por IA
Desafios e Tendências
•
Integração eficiente de dados de múltiplas fontes
•
Alinhamento semântico entre diferentes modalidades
•
Requisitos computacionais elevados
•
Evolução para modelos com mais sentidos e capacidades
Panorama dos Principais Provedores de IA
Já estão em funcionamento no TATe AI
Estão em processo de curadoria para ser indexado ao TATe AI
O que é token e embeddings?
Tokens
•
Unidades básicas de texto (palavras, subpalavras ou caracteres
•
O tokenizador divide o texto em fragmentos processáveis
•
Cada token é convertido em um ID numérico único
Intelig
ência
aprende
Exemplo de tokenização
•
Determinam o tamanho máximo de texto processável
•
Influenciam custo e eficiência do processamento
Embeddings
•
Vetores que representam significado semântico
•
Convertem tokens em coordenadas num espaço multidimensional
•
Palavras similares têm embeddings próximos
[0.2, -0.5, 0.1, ... , 0.3]
•
Aplicações: busca semântica, agrupamento, recomendações
•
Base para compreensão e geração de linguagem natural
Janela de Contexto e Memória de Conversa
Como LLMs mantêm e gerenciam informações durante interações
Janela de Contexto
Quantidade máxima de tokens (unidades de texto) que um modelo de IA pode processar em uma única interação, incluindo tanto a entrada do usuário quanto a resposta gerada.
Anatomia da Janela de Contexto
System Prompt
~300 tokens
Instruções persistentes que definem o comportamento base do modelo
Histórico de Conversa
~2000-8000 tokens
Mensagens anteriores trocadas entre usuário e IA
Mensagem Atual
~100-1000 tokens
Entrada mais recente do usuário
Resposta Gerada
~500-2000 tokens
Saída produzida pelo modelo
Limitações: Modelos têm janelas de contexto fixas (8K, 16K, 32K, 128K tokens)
Efeito de Posição: Informações mais recentes têm maior impacto que as antigas
Token Economy: Gerenciar tokens é crucial para otimizar custo e desempenho
Truncamento: Quando excedido o limite, partes mais antigas são removidas
Memória de Conversa
Mecanismos que permitem à IA manter coerência e continuidade em interações longas, mesmo com as limitações da janela de contexto.
Meu nome é Carlos e tenho um projeto de análise de dados.
Preciso criar visualizações para dados de vendas trimestrais.
Olá Carlos! Como posso ajudar com seu projeto de análise de dados?
Preciso criar visualizações para dados de Entendi. Que tipo de visualizações você está considerando para seus dados de vendas trimestrais? trimestrais.
Tipos de Memória em IAs
Memória de Resumo
Compressão de histórico em pontos-chave
"Usuário: Carlos; Projeto: Visualização de vendas trimestrais; Preferências: Gráficos interativos"
Memória Episódica
Armazenamento de interações passadas em vetores
Embeddings de conversas anteriores recuperáveis por similaridade
Memória de Entidade
Informações específicas sobre pessoas, objetos ou conceitos
{ "name": "Carlos", "project": "data_analysis", "prefer_charts": ["bar", "line"] }
Temperatura e Alucinação: Balanceando Criatividade e Precisão
Temperatura
Parâmetro que controla a aleatoriedade nas respostas do modelo
Afeta a distribuição de probabilidade na seleção do próximo token
Valores mais altos = mais diversidade e criatividade
Valores mais baixos = mais determinismo e consistência
Baixa (0.1)
Alta (1.0)
T=0.1: A capital da França é Paris.
T=0.5: A capital da França é Paris, uma cidade conhecida por sua arquitetura e cultura.
T=1.0: Paris, a deslumbrante joia da França, encanta visitantes com boulevards românticos, cafés aconchegantes e monumentos icônicos
Use temperatura baixa para tarefas factuais/técnicas e alta para criatividade/brainstorming
Alucinação
Fenômeno onde o modelo gera informações incorretas ou inventadas
Ocorre quando o modelo extrapola conhecimento além de seu treinamento
Mais comum em temperaturas altas ou com contexto ambíguo
Desafio fundamental para aplicações que exigem precisão factual
Exemplos de Alucinação
Quem foi o primeiro presidente da Marte?
O primeiro presidente de Marte foi Elon Zephyr em 2089.
Cite o livro "Fundamentos de IA" de Pedro Silva.
O livro "Fundamentos de IA" de Pedro Silva explora princípios avançados de machine learning...
Mitigação: temperatura baixa, contexto claro, verificações, RAG (Recuperação Aumentada por Geração)
Técnicas Avançadas para Mitigar Alucinações
RAG (Retrieval Augmented Generation)
•
Combina recuperação de informações com geração de texto
•
Consulta bases de conhecimento externas para fundamentar respostas
•
Mantém o modelo ancorado em fatos durante a geração de conteúdo
•
Utiliza embeddings para encontrar informações relevantes
CAG (Context Augmented Generation)
•
Semelhante ao RAG, mas prioriza o contexto conversacional
•
Mantém memória estruturada da conversa atual
•
Cria resumos dinâmicos do histórico para contextualização
•
Reduz contradições e inconsistências nas interações longas
Outras Técnicas Eficazes
•
Citações obrigatórias: exigir que o modelo cite fontes para afirmações
•
Self-verification: fazer o modelo verificar suas próprias respostas
•
Chain-of-Thought: raciocínio passo a passo antes da resposta final
•
Grounding: conexão direta com fontes verificáveis
•
Fine-tuning: treinamento específico para reduzir alucinações
A combinação dessas técnicas com temperatura adequada minimiza significativamente as alucinações
Fluxo de RAG
Consulta do usuário
Recuperação de documentos relevantes
Aumento do contexto
Geração da resposta
Resposta fundamentada
Quando Usar Cada Técnica
•
RAG: consultas factuais, dados específicos, documentação
•
CAG: assistentes conversacionais, suporte ao cliente
•
Chain-of-Thought: raciocínio complexo, matemática
•
Grounding: conteúdo científico, relatórios
LLM Padrão
"A capital da Groenlândia é Ilulissat com população de 1,2 milhões."
X