É hora de as empresas traçarem um caminho para o reinforcement learning

Uma técnica avançada de inteligência artificial está se tornando rapidamente acessível às organizações como uma ferramenta para acelerar a inovação e resolver problemas complexos de negócios.

Líderes que buscam novas maneiras de obter vantagem competitiva por meio da inteligência artificial (IA) (em inglês)devem ter ficado empolgados com a America’s Cup de regatas de 2021, não só pelo uso inovador do reinforcement learning [aprendizado por reforço] por parte de uma das equipes, mas também pelo desenho radical dos barcos e as disputas acirradas do troféu.

Para se manterem competitivas, como qualquer empresa, as equipes de vela que disputam a America’s Cup precisam superar os limites do que é possível. Elas também enfrentam limitações semelhantes, incluindo uma curva íngreme de desenvolvimento e uma janela de oportunidade pequena, o que significa que as equipes podem realizar apenas um ou dois grandes experimentos para melhorar seu desempenho na competição mais importante desse esporte.

Para a edição de 2021 da America’s Cup, a atual campeã, a Emirates Team New Zealand, arriscou que o reinforcement learning, uma técnica avançada de inteligência artificial, poderia otimizar seu processo de desenho. A técnica funcionou, permitindo que a equipe testasse um volume exponencialmente maior de desenhos de barcos e obtivesse uma vantagem de desempenho que a ajudou a garantir sua quarta vitória no troféu.

Video
Buscando um desenho vitorioso com IA
Veja como os engenheiros, designers e velejadores da Emirates Team New Zealand utilizaram a IA para criar hidrofólios ideais.

Ao contrário de outros tipos de machine learning (em inglês), o aprendizado por reforço utiliza algoritmos capazes de treinar agentes de IA, ou bots, que geralmente não dependem somente de conjuntos de dados históricos, rotulados ou não, para aprenderem a fazer previsões ou executar tarefas. Eles aprendem como os humanos costumam aprender, por meio de tentativas e erros. Nos últimos anos, a tecnologia amadureceu e tornou-se altamente escalável e apta a otimizar a tomada de decisões em ambientes complexos e dinâmicos.

Além de acelerar e melhorar o desenho (em inglês), o reinforcement learning vem sendo cada vez mais incorporado a uma ampla gama de aplicações complexas: recomendação de produtos em sistemas nos quais o comportamento e as preferências do cliente mudam rapidamente; previsão de séries temporais em condições altamente dinâmicas; resolução de problemas complexos de logística combinando embalagem, roteamento e programação; e até mesmo aceleração de ensaios clínicos e análises do impacto das políticas econômicas e de saúde em consumidores e pacientes.

Temos visto a rapidez com que o ambiente tecnológico pode mudar. Há apenas alguns anos, outra técnica de IA, o deep learning, entrava em cena no mundo empresarial. Hoje, 30% das empresas de alta tecnologia e telecomunicações e 16% das empresas de outros setores que pesquisamos já incorporaram recursos de deep learning (em inglês).

Sidebar

Assim como a Emirates Team New Zealand, os executivos que hoje compreenderem o potencial do reinforcement learning estarão melhor posicionados para obter vantagens de ponta em seus setores (leia a coluna “Exemplos notáveis de aplicações de reinforcement learning”). Os líderes que compreenderem a experiência dessa equipe poderão avaliar melhor onde e quando utilizar tal tecnologia, pois muitas organizações irão percorrer um caminho semelhante: primeiro implementar tecnologias mais tradicionais para resolver um problema e, em seguida, aplicar o reinforcement learning para ascender a um patamar de desempenho anteriormente inatingível. Assim, começamos recontando a jornada da Emirates Team New Zealand, para depois oferecermos algumas ideias sobre onde e como as empresas devem pensar em aplicar o reinforcement learning.

A jornada da Emirates Team New Zealand até a vitória em 2021

Os designers da Emirates Team New Zealand não eram novatos em tecnologias avançadas. Em 2010, a equipe construíra um simulador digital de última geração para testar desenhos de barcos sem ter de construí-los fisicamente. Esta foi a chave para a vitória da equipe na America Cup de 2017. Entretanto, o simulador tinha algumas limitações. Vários velejadores eram necessários para operá-lo com perfeição, o que constituía um enorme desafio logístico dado do cronograma de treinos, viagens e competições dos velejadores. Como resultado, os designers tendiam a realizar iterações de novos desenhos sem utilizarem os dados sobre desempenho do simulador e depois testavam as melhores ideias em lotes quando os velejadores conseguissem abrir espaço em sua agenda. Além disso, o desempenho dos velejadores podia variar entre um teste e outro, como costuma acontecer em todo empreendimento humano, tornando difícil para os designers saber se uma melhoria marginal na resposta do barco decorrera de um ajuste no desenho ou de variações na ação humana.

Sidebar

Quando a Emirates Team New Zealand pôs-se a se preparar para a disputa de 2021, sabia que, se conseguisse que um sistema de IA acionasse o simulador, os designers ficariam livres para testar mais ideias de desenho de forma mais rápida e consistente do que seria possível apenas com o simulador digital. No início, o time não tinha certeza se a ideia era viável, mas à medida que as conversas sobre tecnologia avançavam, todos os membros da equipe concordaram: o resultado potencial seria transformador e faria todo o esforço valer a pena. Utilizando reinforcement learning, especialistas da Emirates Team New Zealand, McKinsey e QuantumBlack (uma empresa McKinsey) conseguiram treinar um agente de IA a velejar (em inglês) o barco no simulador (Leia mais detalhes sobre essa façanha na coluna “Ensinando um agente de IA a navegar”).

Embora as regras de desenho para a America Cup especifiquem quase todos os componentes do barco, elas deixam os designers suficientemente livres para fazerem escolhas radicais em alguns elementos-chave, como hidrofólios. Hidrofólios são estruturas em forma de asa que se prendem ao casco e elevam o barco acima da água, permitindo que alcance velocidades superiores a 50 nós (cerca de 100 km/h). Os hidrofólios podem ser um fator decisivo em uma corrida, mas as regras permitiam que as equipes construíssem apenas seis hidrofólios em tamanho natural.

We strive to provide individuals with disabilities equal access to our website. If you would like information about this content we will be happy to work with you. Please email us at: McKinsey_Website_Accessibility@mckinsey.com

Utilizando o agente treinado por reinforcement learning para controlar o simulador, os designers da Emirates Team New Zealand puderam avaliar milhares – e não apenas centenas – de conceitos de desenho de hidrofólios em sua busca por um desenho vitorioso. Isso lhes proporcionou insights valiosos sobre o modo como um barco funcionaria na água antes de partirem para uma construção dispendiosa. Ao mesmo tempo, puderam reduzir drasticamente o preço do desenho para corridas futuras. Além disso, à medida que iam aumentando os conhecimentos de navegação dos agentes da Emirates Team New Zealand, os próprios velejadores começaram a aprender com os agentes manobras que não haviam considerado antes, o que lhes permitiu melhorar seu desempenho em cada tipo de desenho.

Onde as empresas podem utilizar reinforcement learning

O grande desafio da Emirates Team New Zealand foi resolver um complexo problema de negócios em um ambiente dinâmico no qual as variáveis mudam de maneiras imprevisíveis, o estado final ideal é definido apenas vagamente e o único modo de o sistema aprender sobre seu ambiente é interagindo com ele.

Essa situação é análoga aos problemas enfrentados por varejistas, fabricantes, serviços públicos e empresas de muitos outros setores. Por exemplo, se antes os varejistas podiam razoavelmente supor que os comportamentos passados do consumidor eram indicativos de suas preferências futuras, hoje eles operam em um mundo onde os padrões e preferências de compra do consumidor evoluem rapidamente – tanto mais agora que a pandemia de COVID-19 vem repetidamente redefinindo nossa vida. Fabricantes e empresas de bens de consumo estão sob pressão para construírem cadeias de suprimentos dinâmicas que levem em conta instantaneamente mudanças climáticas, políticas e sociais que ocorram qualquer lugar do mundo.

Cada um desses desafios constitui um problema de otimização complexo e altamente dinâmico que, havendo dados e ciclos de feedback apropriados, presta-se a ser resolvido por meio do reinforcement learning.

A grande vantagem do reinforcement learning no caso de problemas com várias ações e caminhos possíveis é que o agente de IA não precisa ser programado explicitamente. Como o agente aprende com exemplos e ensina a si próprio por tentativa e erro, ele pode propor soluções novas e adaptativas, muitas vezes mais rapidamente do que um ser humano seria capaz.

Como funciona o <em>reinforcement learning</em>

Um agente de IA aprende por tentativa e erro. Em termos simples, o agente empreende ações em determinado ambiente e recebe recompensas quando executa as ações “certas”. O agente busca encontrar a sequência de ações que maximize as recompensas cumulativas que vai recebendo. Cientistas de dados e especialistas de várias áreas definem a função de recompensa para o agente. Esse modo de aprendizado é apenas um aspecto do reinforcement learning que o distingue de outras técnicas de inteligência artificial (Veja o Quadro 1 e “An executive’s guide do AI (em inglês)” para saber mais sobre os diferentes tipos de machine learning).

We strive to provide individuals with disabilities equal access to our website. If you would like information about this content we will be happy to work with you. Please email us at: McKinsey_Website_Accessibility@mckinsey.com

Por exemplo, a Emirates Team New Zealand foi capaz de testar vários desenhos simultaneamente (algo que velejadores humanos jamais poderiam fazer), pôr à prova dez vezes mais desenhos em condições mais diversas do que antes fora possível e obter insights do agente de IA sobre novas manobras que seus velejadores poderiam realizar na água em cada tipo de desenho de barco.

Em termos mais amplos, vemos que o reinforcement learning entrega esse valor para a empresa como um todo, com aplicações potenciais em todos os âmbitos e setores da economia (Quadro 2). Algumas das aplicações de curto prazo do reinforcement learning se enquadram em três categorias: acelerar o desenho e o desenvolvimento de produtos, otimizar operações complexas e orientar as interações com o cliente.

We strive to provide individuals with disabilities equal access to our website. If you would like information about this content we will be happy to work with you. Please email us at: McKinsey_Website_Accessibility@mckinsey.com

Acelerar o desenho e o desenvolvimento de produtos

O reinforcement learning pode melhorar o desenvolvimento de produtos, sistemas de engenharia, fábricas, refinarias de petróleo, redes de telecomunicações ou serviços públicos e outros projetos de capital. Empresas de mineração, por exemplo, poderão explorar uma gama maior de desenhos de minas do que é possível com as outras técnicas de IA utilizadas hoje para aumentar o rendimento. Um fabricante automotivo já está explorando maneiras como agentes treinados com reinforcement learning podem capacitá-lo a testar mais ideias para a frenagem regenerativa em novos veículos elétricos, permitindo assim otimizar o desenho em termos de ruído, vibração e calor.

Otimizar operações complexas

A capacidade de reinforcement learning resolver problemas complexos confere-lhe grande potencial para otimizar operações complexas. Inicialmente, vemos três aplicações principais de reinforcement learning nessa área.

Primeiro, o reinforcement learning pode ajudar as organizações a identificar as ações certas que ela deve tomar em uma cadeia de valor enquanto os eventos se desenrolam. Uma empresa de transporte, por exemplo, pode otimizar as rotas de viagem em tempo real com base nas mudanças de trânsito, clima e condições de segurança. Um produtor de alimentos pode otimizar a distribuição de produtos em todo o mundo em meio a oscilações diárias (ou mesmo horárias) nas taxas de câmbio e de demanda, a variações nas rotas de transporte e a quaisquer outros fatores.

O reinforcement learning também pode ajudar as equipes a gerenciar processos de manufatura complexos. Por exemplo, pode permitir que as equipes monitorem a produção em tempo real, simulando cenários diferentes e atualizando os principais parâmetros para aumentar a produção de forma dinâmica. Fabricantes que já utilizaram machine learning para minimizar defeitos em produtos podem agora expandir seus insights com reinforcement learning para evitar os raros defeitos restantes que surgem intermitentemente sem nenhuma causa-raiz aparente em comum.

Por fim, reinforcement learning pode alimentar controladores de sistema autônomos, por exemplo, monitorando e ajustando continuamente as temperaturas de operação do equipamento para garantir o desempenho ideal, ou operando um braço robótico no chão de fábrica.

Informar a cada cliente qual é sua próxima melhor ação

Quando integrado a sistemas de personalização e recomendação, o reinforcement learning pode ajudar as organizações a entender, identificar e responder em tempo real a mudanças no gosto do cliente, personalizando mensagens e adaptando promoções, ofertas e recomendações diariamente.

Como chegar à adoção em larga escala

Por certo, a implementação do reinforcement learning é uma proeza técnica desafiadora. Um sistema bem-sucedido de reinforcement learning hoje exige, em termos simples, três ingredientes:

  1. Um algoritmo de aprendizagem bem concebido, com uma função de recompensa. Um agente de reinforcement learning aprende tentando maximizar as recompensas que recebe pelas ações que realiza. Um bom algoritmo, com uma função de recompensa adequadamente definida, permite que o agente tome decisões complexas – por exemplo, empreender uma ação que possa parecer inadequada no curto prazo mas que valerá a pena imensamente no longo prazo.
  2. Um ambiente de aprendizagem. Muitas vezes, o ambiente de aprendizagem envolve um simulador, ou gêmeo digital, que reproduz as condições do mundo real nas quais o agente terá de operar e lhe fornece um campo de treinamento 1 . Em outros casos, porém, o ambiente de aprendizagem pode ser uma plataforma digital (por exemplo, um sistema de pedidos de produtos) na qual o agente de IA pode executar repetidamente as mesmas tarefas (ou tarefas similares) e receber rapidamente feedback sobre o sucesso de suas ações.
  3. Poder computacional. O treinamento de um agente requer vastos recursos computacionais e uma infraestrutura especializada capaz de distribuir milhares de tarefas de treinamento, as quais, mesmo sendo executadas em paralelo, normalmente exigem milhares de horas de atividade computacional.

Alguns anos atrás, o custo e a complexidade de construir e treinar tais sistemas estavam fora do alcance de todos, exceto de alguns líderes de tecnologia. No entanto, avanços tecnológicos significativos mitigaram esses obstáculos e tornaram o reinforcement learning mais acessível para mais empresas. Além disso, a incessante evolução das ferramentas necessárias está rapidamente colocando a tecnologia ao alcance de todas as empresas.

Os custos estão se tornando gerenciáveis

As mais recentes iterações dos algoritmos de reinforcement learning (como o soft actor-critic [que visa maximizar a entropia do sistema]) têm aprimorado drasticamente a eficiência do treinamento, reduzindo substancialmente os custos de computação. Ao mesmo tempo, o custo de computação em si diminuiu perceptivelmente. Hoje, as empresas podem acessar sistemas especializados na nuvem e pagar apenas pelo que utilizam. Além disso, novas ferramentas e estratégias permitem que as equipes gerenciem o poder computacional que utilizam. Por exemplo, as ferramentas de alocação e desenvolvimento de recursos hoje disponíveis permitem que as equipes identifiquem a qualquer momento a computação menos dispendiosa (ou mais eficiente) para determinado propósito.

As mais recentes iterações dos algoritmos de reinforcement learning (como o soft actor-critic [que visa maximizar a entropia do sistema]) têm aprimorado drasticamente a eficiência do treinamento, reduzindo substancialmente os custos de computação.

Dito isso, porém, para que a tecnologia seja adotada de modo mais amplo, os custos de computação para tarefas de reinforcement learning precisarão cair ainda mais. Por vários motivos, entre eles o aumento da concorrência entre os provedores na nuvem, calculamos que isso acontecerá em um futuro próximo.

Estruturas sediadas na nuvem conseguem dar conta da complexidade do sistema

Os provedores na nuvem também têm se esforçado mais para oferecer estruturas predefinidas, prontas para serem utilizadas pelas empresas, que podem ser implantadas como numa linha de montagem e incluem todos os elementos necessários: ferramentas, protocolos, interfaces de programação de aplicativos (APIs) (em inglês), bibliotecas de código aberto (como RLlib) e outras tecnologias para eliminar parte do trabalho manual de codificação e integração. As estruturas podem, por exemplo, permitir que as equipes realizem tarefas de treinamento em dezenas de sistemas utilizando uma única linha de código, em vez de terem de programar essa funcionalidade a partir do zero. Na Emirates Team New Zealand, a equipe de desenvolvimento utilizou tais estruturas sempre que possível e, em seguida, focou as tarefas que agregam valor e que ainda não haviam sido comoditizadas.

Ainda há trabalho a ser feito. Não existe ainda uma estrutura preconfigurada, pronta para o uso, que entregue soluções de reinforcement learning. Prevemos que algo parecido será disponibilizado em alguns anos pelos principais provedores na nuvem. Entre as iniciativas em andamento nessa área estão o Project Bonsai da Microsoft, o SageMaker RL da Amazon e o SEED RL do Google.

Como os líderes podem dar início ao reinforcement learning

As mesmas práticas fundamentais (em inglês) e mudanças organizacionais e culturais (em inglês) nas quais as empresas já estão investindo outros recursos de IA também se aplicam ao reinforcement learning. No entanto, em vista da rápida maturidade do reinforcement learning e seus requisitos e habilidades específicos, os líderes devem manter sempre algumas estratégias em mente.

Encontrar o problema de negócios certo para experimentação

Comece identificando os processos em que o reinforcement learning poderá deixar a empresa livre para otimizar o desempenho de alguma forma, talvez consultando as ideias contidas no Quadro 2. O ideal é selecionar um processo onde já exista algum tipo de ambiente de aprendizagem que possa ser adaptado para treinar os agentes de IA.

Em nossa experiência, uma das melhores maneiras de saber se determinado processo está pronto para reinforcement learning é perguntar: “Quais desafios de negócios não fomos capazes de resolver com as abordagens tradicionais de modelagem?”. Busque áreas em que as equipes estejam conduzindo projetos de IA com outros métodos mas não tenham conseguido colocá-los em produção porque o ambiente é dinâmico demais e os modelos fornecem resultados inconsistentes, exigem suposições e aproximações excessivas sobre os dados ou não conseguem lidar com a gama completa das necessidades da empresa. Na Emirates Team New Zealand, por exemplo, os ciclos de teste para novos desenhos de barco eram constantemente interrompidos pelos demais compromissos dos velejadores, e o custo de afastá-los dessas outras atividades era elevado.

O problema certo também deve ser um para o qual não seja necessário saber por que ou como o sistema de reinforcement learning funciona. Por ora, esses sistemas são difíceis ou impossíveis de explicar, dada a complexidade das redes neurais que quase todos incorporam. Portanto, talvez reinforcement learning não seja adequado para situações em que reguladores ou operadores exijam transparência.

Considere antecipadamente os custos de computação

Descrever a função de recompensa que permite ao agente de IA efetivamente aprender requer tanto arte como ciência, o que tende a tornar essa função a parte mais dispendiosa do processo de desenvolvimento. Especialistas e cientistas de dados precisam estar sempre aprimorando os incentivos (um processo conhecido como reward hacking) para determinar como calibrar adequadamente as recompensas e assim otimizar as decisões complexas tomadas por um agente.

As equipes podem utilizar os princípios básicos para estimar por alto os custos potenciais e, desde o início, os líderes devem entender e discutir com elas os geradores de custos potenciais a fim de se garantir um processo mais suave e liberar as equipes para se concentrarem no trabalho que têm à frente.

Prepare seu simulador para o futuro

Muitas organizações de manufatura ou focadas em operações já fazem uso da simulação ou de gêmeos digitais para ajustar o desempenho e a utilização de ativos. Entretanto, mesmo nesses setores, certas atualizações podem ser necessárias para que o reinforcement learning se torne possível. Muitos simuladores tradicionais são projetados para funcionar em pequena escala, no próprio local, executando apenas uma simulação por vez, e têm de ser controlados por meio de uma interface física, como um joystick. Esses simuladores precisarão ser transferidos para uma nova plataforma na nuvem para que possam executar milhares de simulações em paralelo e deverão ser atualizados com uma API que permita que os agentes de IA interajam com eles.

Qualquer que seja o caso – construção ou reconstrução de simuladores digitais – as organizações precisam refletir e ir além de seus casos de uso existentes e escolher desenhos que as tornem flexíveis no suporte a casos de uso mais avançados que talvez ainda nem estejam em sua mira. A tecnologia de reinforcement learning está amadurecendo rapidamente, de modo que esse planejamento permitirá que as empresas implantem novas soluções de aprendizagem por reforço mais depressa do que organizações que não fizerem tal planejamento.

Aposte cada vez mais no ser humano

As implementações mais bem-sucedidas ocorrem quando os líderes reconhecem que o máximo valor consiste em utilizar a tecnologia para aumentar e expandir o desempenho humano, não para substituí-lo. Toda iniciativa de IA depende da expertises específicas que ajudem as equipes de inteligência artificial a definir o caso de uso apropriado, determinar quais fontes de dados usar, assegurar que as previsões e recomendações de IA façam sentido e possam ser integradas com sucesso em seus fluxos de trabalho, e orientar a gestão de mudanças. No reinforcement learning, os especialistas de cada área devem realizar tudo isso e muito mais, trabalhando diariamente com cientistas de dados para criar e testar diferentes recompensas, construindo assim uma função de recompensas eficaz, e, por fim, monitorar o desempenho do agente de IA após a implantação.

As implementações mais bem-sucedidas ocorrem quando os líderes reconhecem que o máximo valor consiste em utilizar a tecnologia para aumentar e expandir o desempenho humano, não para substituí-lo.

As organizações também devem refletir se precisam de um ser humano nesse ciclo (em inglês) que ajude a orientar as decisões finais. Na Emirates Team New Zealand, depois que os agentes de IA recomendaram os melhores desenhos dentre os milhares que testaram, os velejadores voltaram a assumir o comando do simulador digital para testar os melhores hidrofólios e priorizar as escolhas definitivas.

Identifique e gerencie os riscos potenciais

Ao se escolher onde implementar o reinforcement learning, é importante reconhecer as preocupações dos funcionários e da sociedade acerca da explicabilidade e uso de sistemas autônomos. Nossos colegas escreveram extensamente não só sobre as consequências imprevistas que podem surgir da IA (em inglês) quando a organização não entende plenamente seus eventuais riscos, mas também sobre o papel do líder na construção responsável de sistemas de IA (em inglês). À medida que o reinforcement learning ganha força, os líderes terão de construir seu conhecimento em torno de preocupações e interdependências éticas, e aprender a gerenciá-las de forma eficaz para que possam orientar a empresa se ela deve experimentar ou não essa nova técnica.


As tecnologias que tornam possível o reinforcement learning estão avançando rapidamente: os custos de computação e a complexidade diminuem à medida que o setor evolui em direção a algoritmos de autoaprendizado mais adaptáveis, disponibilizando para as organizações sistemas mais complexos sob a forma de serviços de alto nível. Com isso, o grau de adoção vem aumentando e, em alguns anos, prevemos que o reinforcement learning se tornará cada vez mais comum em inúmeros setores, como telecomunicações, produtos farmacêuticos e indústrias avançadas. Em cinco anos, é provável que o reinforcement learning faça parte da caixa de ferramentas de IA de toda organização que se preze, ajudando-as a encontrar estratégias inovadoras e iniciativas inéditas que técnicas mais estabelecidas talvez não sejam capazes de descobrir. Desse modo, atingiremos um patamar de desempenho que o ser humano até o hoje não conseguiu alcançar.