Instruções de instalação
Pré-requisitos
- Credenciais da AWS com acesso a modelos do Bedrock
uvinstalado- Claude Code, Cursor, Kiro, VS Code ou qualquer IDE compatível com MCP
Instalar
Escolha seu IDE e cole/clique.
Claude Code — um comando CLI:
claude mcp add eval -s user -- uvx --from llm-evaluation-system eval-mcp
Cursor — Link direto com um clique: Instale o eval-mcp no Cursor
Kiro — add to ~/.kiro/settings/mcp.json:
{ "mcpServers": { "eval": { "command": "uvx", "args": ["--from", "llm-evaluation-system", "eval-mcp"] } } }
Codex CLI — adicione a ~/.codex/config.toml e depois reinicie o Codex:
[mcp_servers.eval] command = "uvx"args = ["--from", "llm-evaluation-system", "eval-mcp"]
VS Code (com GitHub Copilot MCP) — um comando da CLI:
code --add-mcp '{"name":"eval","command":"uvx","args":["--from","llm-evaluation-system","eval-mcp"]}'
Usando um agente de codificação para instalar? Aponte para INSTALL.md — ele lida com a edição da configuração e pergunta sobre o compartilhamento opcional da equipe do S3.
Upgrade
uvx armazena em cache a versão resolvida por pacote. Para obter versões mais recentes, invalide o cache:
uv cache clean llm-evaluation-system
Reinicie seu IDE depois. O próximo lançamento resolve e armazena em cache a versão mais recente publicada.
Usar
Peça ao seu assistente de IA que avalie agentes, modelos ou solicitações usando um conjunto de dados que você fornece ou um gerado a partir de seus documentos ou contexto:
- “Avalie meu agente em
./my_agent.py" - “Compare o Claude Sonnet com o Nova Pro neste conjunto de dados”
- “Teste esses três modelos de prompt com meu conjunto de referência de controle de qualidade”
- “Gere um conjunto de dados a partir deste PDF e execute uma avaliação”
O agente seleciona o modo adequado, gera automaticamente o que estiver faltando (conjunto de dados, avaliador, critérios), executa o processo, abre o visualizador de resultados no seu navegador e entrega a você um relatório em PDF.