André Santos Rodrigues
  • Automação
  • Bots
  • Customer Experience
  • Inteligência Artificial
  • Tecnologia

O Reinforcement Learning é uma vertente do Machine Learning que encontra cada vez mais aplicações tangíveis, podendo trazer mais precisão para a interação entre humanos e máquinas.

 

2021 vai ser o ano da Inteligência Artificial, conforme aponta uma pesquisa do Institute of Electrical and Electronic EngineersParece bem clichê dizer isso, já que os anos anteriores tiveram marcos importantes em Machine Learning — assim como terão os próximos 20.

Em 2021, algumas aplicações da IA poderão atingir um grau de escalabilidade completamente novo.

Afinal, a pandemia trouxe uma certa correria em relação a tecnologias emergentes e abriu os olhos das empresas para a urgência de adotá-las.

De acordo com o Gartner, cerca de 37% das empresas estão utilizando algum tipo de Machine Learning em seus negócios, e estima-se que cerca de 80% dos avanços nos negócios serão baseados em IA até 2022.

Uma das apostas para 2021, porém, é o aumento do uso de Reinforcement Learning em interfaces conversacionais e aplicações corporativas.

O que é Reinforcement Learning?

O Reinforcement Learning, ou aprendizado por reforço, é um dos três paradigmas básicos do Machine Learning, junto ao Aprendizado Supervisionado (Supervised Lerning), e Aprendizado Não-supervisionado (Unsupervised Learning).

Supervised Learning, ou aprendizado supervisionado

É quando você alimenta uma rede neural com dados rotulados, ou seja, você informa à máquina exatamente o que ela está processando.

Unsupervised learning, ou aprendizado não supervisionado

É quando você não fornece dados rotulados ao algoritmo e não tem nenhum objetivo específico para que ele alcance. A máqina aprende aspectos estruturais dos dados à medida em que aprende.

Reinforcement learning

É quando programadores fornecem à máquina apenas parte da informação, sem apontar qual é a ação ou resposta correta. O Reinforcement Learning é uma forma de aprendizado supervisionado.

 

Reinforcement Learning

Vamos comparar o RL ao aprendizado humano: imagine que um bebê está sentado, em seu “estado natural”, e então recebe uma recompensa a cada vez que consegue levantar, e um feedback negativo (a dor) a cada vez que cai. Ele não sabe andar, mas aprende por tentativa e erro.

Simplificadamente, esse é o processo de Reinforcement Learning.

 

 

Modelos de Processamento de Linguagem Natural aliados à Reinforcement Learning tiveram aplicações interessantes em 2020.

Por exemplo, tivemos a apresentação do surpreendente modelo de linguagem GPT-3, desenvolvido pela Open AI, que provou que, quando bem “alimentados”, algoritmos podem criar mensagens e diálogos orgânicos e muito convincentes.

Na era do “multitask” e da melhoria contínua de processos, empresas podem usar o RL para encontrar padrões em uma tonelada dados, deixando que a máquina rapidamente escolha as melhores soluções para um problema, sem tanta análise e revisão humana. Parece uma maravilha, não?

Você pode se beneficiar de Reinforcement Learning quando:

  • Sua empresa usa simulações em modelos de IA porque seu sistema ou processo é muito complexo, mas gostaria de usar informações reais.
  • Você sabe o que quer que um sistema faça, mas deseja automatizar ou otimizar um processo específico.
  • Você precisa otimizar o trabalho de analistas humanos, aumentando a eficiência operacional e dando mais suporte à tomada de decisão.

Ebook: IA Conversacional: como utilizar para a automação de processos

Preencha o seu email e receba um eBook sobre IA conversacional gratuitamente!

No mundo dos chatbots, o Reinforcement Learning se aplica através da combinação de técnicas de aprendizado supervisionado e não-supervisionado.

Aplicado a chatbots e assistentes virtuais, esse modelo permite que bots conversacionais descubram não apenas o caminho certo ou errado para um diálogo, mas a resposta mais pertinente para cada interação.

Quem trabalha com bots conversacionais sabe que é difícil, senão quase impossível, escrever um programa que possa responder de forma orgânica e precisa a todas as combinações possíveis e cenários de interação com humanos.

Chatbots que cobrem uma ampla gama de intenções do usuário vêm enfrentando desempenho ruim, por conta da confusão e sobreposição de intenções

É por isso que muitos chatbots que cobrem uma ampla gama de intenções do usuário vêm enfrentando desempenho ruim, por conta da confusão e sobreposição de intenções.

Com o RL, bots de autoaperfeiçoamento poderão ser treinados de forma autônoma, levando em consideração o feedback em simulações e na interação ao vivo com usuários reais.

Para os times de produto e curadoria de bots, as técnicas de Reinforcement Learning são especialmente úteis, uma vez que esses modelos não exigem muito conhecimento ou dados pré-existentes para fornecer soluções assertivas.

As tendências de RL aplicados à Natural Processing Learning incluem o uso para:

  • Geração de discursos de texto para fala em assistentes de voz (text-to-speech);
  • Geração de Diálogos, recompensando sequências de diálogo que apresentam maior coerência, informatividade e simplicidade de respostas;
  • Resumo e tradução de textos;
  • Análise de discurso

Imagine que, em vez de ter que fazer uma curadoria humana e programação de bot com todos os enunciados possíveis para uma mesma intenção do usuário, o próprio RL do bot consegue entender sinônimos e afins, e ir aprendendo por sua conta.

Já pensou em como esse modelo pode ajudar na automação de processos nas empresas?

No TIVIT Labs, por exemplo, combinamos o Aprendizado de Máquina e curadoria humana para criar as melhores jornadas para a nossa colaboradora virtual, a IVI Virtual Employee.

GIF: “Chatbots são tão inteligentes quanto as pessoas que constroem essas soluções”. (Fonte: Giphy)

Como usar o Reinforcement Learning em bots conversacionais?

 

  • Escolha um bom modelo de recompensa para essa abordagem, com uma boa estrutura de elementos que representem penalidades e recompensas para cada turno de diálogo.
  • Realize o treinamento do RL offline, e, em seguida atualize a política de Natural Language Understanding (NLU) do seu bot quando alcançar níveis satisfatórios de desempenho.
  • Priorize muito bem as métricas de avaliação de desempenho do chatbot, pensando nos objetivos que quer alcançar com o RL.

O Reinforcement Learning alimenta sistemas de recomendação (RecSys) de produtos digitais, que assim têm mais chance sucesso nas recomendações ao incorporar novos atributos para gerar a recomendação — além dos tradicionais critérios de causalidade e filtros de interesse.

Notificações Push

Notificações Push são uma tática bastante mainstream para convidar usuários a se envolverem com mensagens, conteúdos e produtos. Porém, elas podem ser bastante irritantes quando enviadas no momento errado.

Hoje já é possível usar Reinforcement Learning para prever o comportamento do usuário e determinar o momento certo para enviar uma notificação através de um aplicativo ou plataforma de mensagens, por exemplo.

Gif apresenta uma esteira de treinamento de aprendizagem de máquina, que classifica várias imagens como cachorro ou gato.(Fonte:Giphy)

A diferença entre o aprendizado humano e o Reinforcement Learning

Vamos ao que diferencia nós, humanos, dos agentes da Reinforcement Learning. A primeira coisa é que as recompensas que humanos coletam do ambiente não são tão claras e compreensíveis quanto os feedbacks que alimentam as máquinas.

Humanos nem sempre têm tanta clareza sobre quais ações são boas ou más, e quais ações nos levarão ao sucesso ou fracasso.

Por isso, considerando os desafios da pandemia e do mundo dos negócios, uma dica valiosa para líderes de negóco em 2021 é pautar decisões em fatos e resultados, assim como as máquinas.

Quer saber mais sobre Inteligência Artificial aplicada a bots conversacionais?

Se você gostou desse artigo e quer entender mais sobre Inteligência Artificial Conversacional, baixe o eBook “AI Conversacional: como utilizar para automação de processos”. É gratuito!

Saiba mais sobre IA aplicada a bots!

Baixe o eBook "IA Conversacional: como utilizar para automação de processos"
Baixe agora!

Receba nossas novidades