Jornada AIOps

Agora que você conhece o conceito de AIOps, é possível entender como avaliar o nível de maturidade de  uma Operação de TI com base em alguns níveis, assim como é demonstrado na tabela abaixo:

Imagem: ScienceLogic – Artificial Intelligence for IT Operations (AIOps) – ScienceLogic

É possível notar que a última etapa da jornada é uma automação, que busca o “Self-Healing/Auto-remediation”, que só pode ser alcançado após os runbooks estarem maduros assim como todos os outros componentes do processo.

Plataformas de Domínio Agnóstico ou Centrado

Com as AIOps exigindo a integração de diferentes fontes de informação, o cenário dos provedores de ferramentas é amplo. As plataformas de AIOps são divididas em dois tipos, dependendo de como coletam informações:

  • Domain Agnostic: Ferramentas AIOps (IBM Watson AIOps, ServiceNow, Splunk), que dependem fortemente de integrações com muitos serviços diferentes para coletar e receber dados;
  • Domain Centric: Ferramentas AIOps (IBM Instana, Dynatrace, AppDynamics, DataDog, New Relic), que tendem a coletar a maioria ou todas, das próprias informações. Essas ferramentas também tendem a ser mais específicas para um domínio especial, como gerenciamento de log, APM (Application Performance Monitoring, monitoramento de desempenho de aplicativos) ou outros.

É fortemente recomendado o emprego de plataformas de domínio agnóstico para ambientes heterogêneos, pois poderá receber dados de diversas fontes e terá um maior domínio sobre elas.

Principais casos de uso do AIOps

De acordo com o Gartner existem cinco principais casos de uso de AIOps. Confira:

  1. Análise de Performance – Os aplicativos consomem recursos até estes serem insuficientes para atender a demanda (exaustão dos recursos). Para mitigar esse risco, os administradores muitas vezes provisionam recursos em excesso. Em ambos os casos, o provisionamento incorreto de poder computacional tem como fonte o conhecimento limitado do administrador sobre os requisitos de recursos e demanda dos aplicativos.

Além disso, os desenvolvedores se concentram na construção da aplicação e muitas vezes não possuem conhecimento ou acesso a ferramentas para traçar perfis e prever requisitos de recursos. Como resultado, as estimativas de recursos são feitas de forma ineficaz e colocam em risco a operação do aplicativo, gerando indisponibilidades ou lentidão, o que afeta diretamente a experiência do usuário/cliente.

Mudanças dinâmicas na demanda requerem reavaliação contínua desta estimativa usada para definir o tamanho do hardware a ser utilizado para suportar a aplicação. Gerenciar a elasticidade das instâncias de aplicativos em nuvem pública requer calibração contínua e em tempo real, especialmente quando há a adoção de aplicativos baseados em contêineres (ambiente dinâmico/flexível).

Com a análise contínua feita por uma plataforma de AIOps é possível detectar ambos os casos (tanto exaustão de recursos como provisionamento em excesso), uma vez que a coleta de dados ao longo do tempo permite a análise precisa do comportamento do ambiente que hospeda a aplicação em questão, observando os picos nas sazonalidades e o comportamento durante uma operação considerada normal.

Enquanto é necessário garantir a performance adequada da aplicação, há a necessidade de se manter os custos os mais baixos possíveis.

Em um ambiente dinâmico ou grande, com enorme quantidade de dados a serem analisados, é uma tarefa quase que impossível de ser executada por humanos.

Aí entra o poder da AI para apoiar a equilibrar essa balança entre performance e custo (também chamado de “rightsizing” ou “dimensionamento correto”).

Exemplo: Aplicação está lenta em determinados momentos, porém quando o time de operações analisa a CPU, memória e acesso a disco (IOPs) todos os indicadores estão abaixo das métricas definidas (thresholds). O AIOps irá analisar todas as métricas e sugerir o rightsizing de hardware para este perfil de aplicação.

2. Detecção de Anomalias – É um passo em Data Mining que identifica pontos, eventos e/ou observações que desviam do comportamento normal, isto é, armazenando e analisando dados históricos é possível detectar comportamentos atípicos e evitando falsos positivos causados por efeitos sazonais, os quais a ferramenta ignora depois de ter “aprendido” que este comportamento é normal. O grande benefício é prever até 35% dos incidentes antes que estes ocorram de fato.

Imagem: ServiceNow

Exemplo 1: Em todas as primeiras segundas-feiras do mês ocorre um pico de utilização de memória e CPU, pois é executado um processamento batch já conhecido. Neste caso, a ferramenta não irá alertar.

Exemplo 2: É normal haver uma quantidade de 1.000 conexões com o banco de dados em determinado dia e hora, porém existem menos de 100. O  time de operações será alertado para investigar.

3. Correlação de eventos e análise  – A plataforma AIOps aprende e melhora continuamente as associações entre cada evento importante e a resposta de operações por especificação ou observação explícita do operador.

Correlacionando os eventos é possível entender a forma de maneira mais rápida e assertiva, reduzindo o ruído gerado pelas ferramentas de observabilidade e trazendo apenas os insights necessários para determinação da fonte do problema. Com uma plataforma de AIOps de domínio agnóstico é possível reduzir o problema de monitoração em silos, consolidando todos os eventos, reduzindo o ruído e trazendo insights da real causa do problema. O benefício é reduzir o ruído em até 90%, o que traz uma identificação mais rápida do problema.

Outro tipo de evento que precisa ser analisado e levado em consideração pela ferramenta de AIOps é a mudança de topologia, ou seja, um servidor foi adicionado/removido, o balanceador de carga foi trocado, etc.Estes tipos de eventos podem impactar diretamente na operação de uma aplicação, trazendo lentidão ou mesmo indisponibilidade.

Exemplo: A ferramenta de APM alerta para uma indisponibilidade da aplicação, enquanto as ferramentas de monitoração estão acusando a indisponibilidade dos servidores de banco de dados e a ferramenta de monitoramento de rede alerta para um problema em um determinado equipamento de rede que suporta a infraestrutura desta aplicação. A plataforma de AIOps precisa filtrar todos os ruídos e com base na análise de dependências, identificar que o problema está no equipamento de rede e está impactando a disponibilidade da aplicação.

 

4. Gerenciamento de Serviços de TI

O AIOps pode atuar em diversas práticas do ITSM, como:

Mudança – O aumento da agilidade está facilitando mais mudanças sendo entregues em pipelines automatizados de CI/CD, com humanos tendo pouco tempo para avaliar o risco dessas mudanças. A ferramenta de AIOps pode avaliar este risco para você, atribuindo um score de risco e recomendando se a mudança deve ser aprovada ou não.

Incidente – A plataforma de AIOps pode tanto criar um incidente ou evento através de uma integração com a ferramenta de ITSM em uso (recomendado avaliar suporte), quando uma falha ou tendência a falha é detectada, assim como fazer a leitura destes dados (incidentes) para compor a análise.

Conhecimento – A plataforma de AIOps pode correlacionar incidentes com as suas possíveis soluções em uma base de conhecimento armazenada na ferramenta de ITSM.

 

Empresas que adotaram o AIOps fortemente integradas à ferramenta de ITSM obtiveram maiores índices de sucesso.

  • Reduziram a quantidade de incidentes ocasionados após uma mudança com alto risco.
  • Reduziram a quantidade de incidentes, pois os alertas preditivos trazem insights antes dos problemas ocorrerem.
  • Reduziram o MTTR, apresentando rapidamente as soluções já utilizadas com sucesso anteriormente.

5. Automação – O verdadeiro valor de uma plataforma AIOps está em sua capacidade de identificar a ação mais adequada a partir de múltiplas soluções possíveis para a situação em questão. A escolha de uma solução prescritiva a partir de um repositório disponível pode ser feita através da automação de runbooks (vale ressaltar que para isto é necessário um grau elevado de padronização, o que é um grande inibidor da adoção em larga escala deste tipo de automação).

Utilize a automação para reduzir inconsistência nas respostas, erradicar erros que são difíceis de diagnosticar e habilitar o time de ITOps para reservar tempo e energia com análises e otimizações (melhorias no ambiente).

Utilize a automação para auxiliar a reduzir a quantidade de tarefas repetitivas e de baixo valor agregado (também chamado de TOIL).

Os prováveis candidatos a essa automação são aqueles que são de baixo risco e podem causar relativamente pouco dano se falharem ou resultarem em efeitos colaterais inesperados.

Exemplo: É detectado nos logs de um application server Java pela plataforma de AIOps a recorrência de uma mensagem do tipo “out of memory”, o AIOps pode apontar automaticamente o problema e indicar uma solução anteriormente utilizada e aprovada por outros analistas (que pode ser reiniciar o application server), mas também pode executar uma ação automaticamente se existir um runbook para tal (executar um script que reinicia o application server, tendo o efeito de “auto remediação”).

Esse é o segundo conteúdo na série sobre AIOps. Para acessar os demais visite nosso blog.