Taxonomia de Governança
Zabbix — Padrão Vortex.
Este documento consolida as melhores práticas operacionais da Stefanini em um framework de governança estruturado, consistente e auditável. Cada cliente que se une ao Vortex se beneficia de um padrão construído com experiência real — e contribui com as especificidades do seu ambiente para torná-lo ainda mais completo.
As três leis do framework
Antes de qualquer regra técnica, estas três leis regem toda decisão de implementação.
Camadas de impacto L1–L5
Cinco camadas organizam cada ativo monitorado pela distância do seu impacto ao negócio. Essa estrutura garante que cada evento receba exatamente o nível de atenção que merece — nem mais, nem menos.
| Camada | Nome | Profundidade | Severidades mapeadas | Exemplos de itens | Vertical típica |
|---|---|---|---|---|---|
L5 |
Impacto de Negócio | Estratégica | Disaster | SLA breach, perda de receita, usuário final indisponível, incidentes de segurança | Negócio — Missão crítica, Compliance |
L4 |
Core Business | Estratégica → Tática | High Disaster | ERP, CRM, portal cliente, sistema de pagamento, integrações críticas | Negócio — ERP, E-commerce, Financeiro |
L3 |
Serviços de TI | Tática | Average High | APIs internas, bancos de dados, filas, autenticação, certificados, logs de app | Tecnológica — Banco de Dados, Middleware |
L2 |
Plataforma | Operacional → Tática | Warning Average | OS, containers, VMs, Kubernetes, agentes, rede lógica, CRC | Tecnológica — Virtualização, Kubernetes, Cloud |
L1 |
Infraestrutura Física | Operacional | Information Warning | CPU, disco, memória, temperatura, fontes, interfaces físicas, fan RPM | Tecnológica — Servidores, Storage, Network |
layer no host define sua camada principal — os itens individuais podem ter contextos complementares.
Severidades Zabbix
O Zabbix possui seis níveis de severidade. O framework Vortex define a aplicabilidade exata de cada um — garantindo que toda equipe, em qualquer ambiente, interprete e responda aos eventos da mesma forma.
| Código | Severidade | Aplicabilidade | Sensores típicos | Em produção |
|---|---|---|---|---|
0 |
Not Classified | Exclusivo para desenvolvimento de sensores, gatilhos e processos. Espaço reservado para avaliação futura ou integração inicial. | Itens em fase de testes, validação de coleta | ⚙ Apenas dev/teste |
1 |
Information | Itens raramente alterados, usados para identificação ou eventos apenas informativos que não exigem atenção imediata. | Hostname, agent.hostname, versão do banco, agent.variant | ✓ Sem trigger |
2 |
Warning | Configurações ou capacidades fixas (itens estáticos). Problema potencial que pode exigir investigação, mas não é crítico. | Disco >80%, CPU >85%, memória total, espaço total de tablespace | ✓ Ticket D+1 |
3 |
Average | Itens com mudanças menos frequentes (análise de tendências). Problema significativo que deve ser resolvido em breve. | Container down, latência DB, pod restart, cert expira <30d, logs de aplicação | ✓ Ticket P3 |
4 |
High | Monitoramento geral de desempenho e utilização. Problemas críticos que precisam de atenção imediata para evitar interrupções. | API timeout, DB unreachable, auth service down, fila cheia, cert <7d | ✓ Ticket P2 |
5 |
Disaster | Itens críticos com necessidade de monitoramento em tempo real. Incidente grave: war room, escaladas, risco de perda de dados ou prejuízo financeiro. | Sistema core down, SLA breach, ERP indisponível, pagamento falhou, data loss | ⚡ War room |
Macros de tempo
Intervalos cuidadosamente calibrados com base em experiência operacional real. Esses valores garantem cobertura adequada sem gerar ruído — e podem ser refinados pontualmente mediante análise técnica da Engenharia de Monitoração.
recovery = ~50% do tempo de análise. Esse ajuste reduz fechamentos prematuros e garante que o ambiente esteja genuinamente estável antes de encerrar o evento.
Macros de governança — contexto e limiares
| Macro | Padrão | Nível | Descrição |
|---|---|---|---|
{$ENV} | prd | Host | prd · hml · dev · qa |
{$CLIENT} | — | Host | Código/nome do cliente. Obrigatório em ambientes multi-tenant. |
{$SERVICE_LAYER} | L2 | Host | Camada principal do host (L1–L5). Usada em tags e roteamento. |
{$ONCALL_TEAM} | — | Host/Grupo | Time de plantão responsável. Mapeado para fila ITSM. |
{$DISK_WARN} / {$DISK_HIGH} | 80 / 90 | Global/Host | Limiares de disco (%). Sobrescrevíveis por host. |
{$CPU_WARN} / {$CPU_HIGH} | 85 / 95 | Global/Host | Limiares de CPU (%). |
{$MEM_WARN} | 90 | Global/Host | Limiar de memória (%). |
{$CERT_EXPIRE_WARN} / {$CERT_EXPIRE_HIGH} | 30 / 7 | Global | Dias para expiração de certificado. |
{$HYSTERESIS_PERIOD} | 5m | Template | Período mínimo antes de re-trigger (anti-flapping). |
{$SUPPRESSION_WINDOW} | 0 | Host | Janela de manutenção ativa (0 = não suprimido). |
Padrão de nomenclatura
Nomes padronizados são a base de qualquer operação escalável. Com uma nomenclatura consistente, automação de roteamento, filtros e relatórios funcionam sem esforço manual — e qualquer membro da equipe entende o ambiente ao primeiro olhar.
Hosts
{cliente}-{ambiente}-{tipo}-{seq}
ex: acme-hml-app-02
ex: acme-prd-k8s-node-03
app · db · lb · k8s · fw · sw · esxi · stoGrupos de hosts
{Cliente}/{Ambiente}/{Tipo}
ex: ACME/Homologação/App
ex: Global/Infra/Network
Itens (sensores)
{contexto}.{metrica}[{param}]
ex: vfs.fs.size[/,pused]
ex: custom.app.response_time
custom. obrigatório para itens externos/scripts.Triggers
[{SEV}] {HOST.NAME}: {condição}
ex: [WARN] {HOST.NAME}: Disco /var >80%
ex: [DIS] {HOST.NAME}: DB unreachable
Templates
Tmpl {Tecnologia} {Versão} {Tipo}
ex: Tmpl PostgreSQL 15 DB
ex: Tmpl Kubernetes Node
Tmpl obrigatório. Sem abreviações ambíguas.Dashboards
Vortex - {Cliente} - {Foco}
ex: Vortex - Global - SLA
ex: Vortex - ACME - Kubernetes
Vortex identifica dashboards gerenciados pela plataforma.Taxonomia de tags
Tags são a inteligência de roteamento do Vortex. Elas viajam com cada evento do Zabbix até o ITSM do cliente, carregando contexto de negócio, ambiente e serviço — tornando cada ticket automaticamente enriquecido, rastreável e direcionado à equipe certa.
Ciclo de vida do evento
Cada evento tem uma história completa — do primeiro sinal ao fechamento com métricas de SLA. Essa rastreabilidade é o que transforma um sistema de alertas em uma ferramenta real de gestão de serviços.
{EVENT.ID} é a chave que mantém o Zabbix e o ITSM do cliente sempre sincronizados — armazenado no campo de correlação do ITSM (ex: u_zabbix_event_id). O Thanos preenche automaticamente a tag ticket_id no Zabbix após a criação do ticket, fechando o loop de rastreabilidade em tempo real.
Mapeamento ITSM
O Thanos traduz automaticamente cada evento Zabbix para a linguagem do ITSM de cada cliente. A tabela abaixo define o mapeamento padrão — o cliente compartilha os valores exatos dos seus campos e a integração acontece de forma transparente.
| Zabbix severity | ITSM priority | impact | urgency | SLA resposta | Ação Vortex |
|---|---|---|---|---|---|
| Disaster | P1 — Crítico | 1 — Alto | 1 — Alta | < 15 min | War room · Bridge de crise · Escalada gestão · Postmortem 48h |
| High | P2 — Alto | 2 — Médio | 1 — Alta | 1 hora | Chamada telefônica N2 · Canal Teams · Ticket cliente |
| Average | P3 — Médio | 2 — Médio | 2 — Média | 4 horas | Notificação Teams/Slack · E-mail N1 + cópia N2 |
| Warning | P4 — Baixo | 3 — Baixo | 3 — Baixa | D+1 | Ticket automático categoria "Melhoria" · E-mail N1 |
| Information | P5 — Planejamento | 3 — Baixo | 3 — Baixa | Semanal | Log + dashboard de tendências. Sem notificação ativa. |
Mapeamento de filas — tabela padrão de roteamento por tag
| Tag Zabbix (chave:valor) | Fila ITSM destino | Critério |
|---|---|---|
itsm_queue:infra_banco | GRP_SUP_Banco_Dados | Preenchido pelo cliente no questionário de onboarding |
itsm_queue:infra_noc | GRP_SUP_NOC | Preenchido pelo cliente no questionário de onboarding |
itsm_queue:infra_unix | GRP_SUP_Unix_Linux | Preenchido pelo cliente no questionário de onboarding |
itsm_queue:infra_windows | GRP_SUP_Windows | Preenchido pelo cliente no questionário de onboarding |
itsm_queue:infra_rede | GRP_SUP_Network | Preenchido pelo cliente no questionário de onboarding |
(sem tag itsm_queue) | GRP_SUP_Nivel_1 | Fila default — fila de triagem N1 |
Ações por severidade
Para cada severidade, o Vortex define canais de comunicação, SLA de resposta e fluxo de escalada. Essa previsibilidade é o que permite que as equipes ajam com confiança — sabendo exatamente o que fazer, quando e com quem.
→ Chamada automática N2, N3 e gestor
→ Bridge de crise aberta imediatamente
→ SLA de resposta: imediato (<15 min)
→ Postmortem obrigatório em até 48h
→ Chamada telefônica para N2 de plantão
→ Escalada para N3 se sem ACK em 30min
→ Notificação Teams/Slack #alertas
→ Escalada automática se sem ACK em 2h
→ E-mail para lista do time N1
→ Auto-resolve sem ação se <2h
Checklist de integração
Um guia completo para que cada novo ambiente entre em operação com o mesmo nível de qualidade e maturidade. Use em conjunto com o questionário de diretrizes — juntos, eles garantem um onboarding estruturado e sem surpresas.
Campos obrigatórios do evento
Cada campo listado abaixo carrega uma informação essencial para que o ciclo de vida do evento seja completo, rastreável e auditável. Quanto mais campos propagados, mais inteligente e útil se torna o ticket gerado no ITSM do cliente.
| Macro Zabbix | Descrição | Fase | Criticidade | Uso no ITSM |
|---|---|---|---|---|
{EVENT.ID} | ID único do evento Zabbix | Todas | CRÍTICO | Chave primária de correlação. Campo u_zabbix_event_id. |
{EVENT.STATUS} | PROBLEM ou OK | Abertura / Fechamento | CRÍTICO | Define ação principal: PROBLEM → abre, OK → fecha. |
{EVENT.TAGS} | Tags do evento (tag:valor) | Abertura | CRÍTICO | Roteamento automático, categorização e relatórios. |
{EVENT.TAGSJSON} | Tags em formato JSON | Tratamento | Importante | Alternativa ao {EVENT.TAGS} para sistemas que preferem JSON. |
{EVENT.ACK.STATUS} | Status de reconhecimento (Yes/No) | ACK | CRÍTICO | Dispara atualização do ticket. Melhora accountability. |
{EVENT.SEVERITY} | Severidade textual | Abertura / Atualização | CRÍTICO | Mapeado para prioridade/impacto/urgência no ITSM. |
{EVENT.NSEVERITY} | Código numérico (0–5) | Abertura | Importante | Útil para lógica condicional no webhook. |
{EVENT.NAME} | Nome do evento (= nome do trigger) | Abertura | Importante | Título/resumo do ticket no ITSM. |
{EVENT.OPDATA} | Valor que disparou o alerta | Abertura | Importante | Evidência técnica no corpo do ticket. |
{HOST.NAME} / {HOST.HOST} | Nome visível do host | Abertura | CRÍTICO | Identifica o IC/CI afetado. Vínculo com CMDB. |
{HOST.IP} / {HOST.CONN} | IP / conexão do host | Abertura | Importante | Localização adicional do ativo afetado. |
{TRIGGER.ID} | ID único do trigger | Abertura | Importante | Categorização e análise de causa raiz. |
{TRIGGER.NAME} | Nome do trigger | Abertura | Importante | Identifica o tipo de problema. |
{TRIGGER.DESCRIPTION} | Descrição do trigger | Tratamento | Recomendado | Contexto e instruções no corpo do ticket. |
{TRIGGER.URL} | Link para o trigger no Zabbix | Tratamento | Recomendado | Acesso direto ao Zabbix a partir do ticket. |
{EVENT.DATE} / {EVENT.TIME} | Data/hora do evento | Abertura | CRÍTICO | Marco inicial para cálculo de SLA e MTTR. |
{EVENT.RECOVERY.DATE} / {EVENT.RECOVERY.TIME} | Data/hora da recuperação | Fechamento | CRÍTICO | Marco final para MTTR e SLA total do incidente. |
{EVENT.DURATION} | Duração total do evento | Fechamento | Importante | Duração calculada para métricas de performance. |
{EVENT.AGE} | Idade do evento em andamento | ACK / Escalada | Recomendado | Usado em regras de escalada automática. |
{EVENT.ACK.USER.ALIAS} | Usuário que reconheceu | ACK | Importante | Accountability — registra quem reconheceu no Zabbix. |
{EVENT.ACK.HISTORY} | Histórico de reconhecimento | ACK | Recomendado | Notas e comentários do ACK no histórico do ticket. |
{ACTION.NAME} | Nome da ação Zabbix que notificou | Diagnóstico | Recomendado | Identifica qual regra originou a comunicação com o ITSM. |
VORTEX · Framework v2.0 · Stefanini Group
Revisão: Mai 2025 · Próxima revisão: Nov 2025