A curiosidade é um componente essencial da inteligência. Os cientistas há muito tempo tentam elaborar algoritmos de curiosidade, mas sua reprodução chegou a ser considerada inalcançável, pois a maioria dos métodos não permite avaliar brechas nos conhecimentos da inteligência artificial (AI, sigla em inglês) sendo muitos sistemas de AI incapazes de formular hipóteses previsíveis.
“Developing curiosity is a problem core to (robot) intelligence” sez George Konidaris @BrownUniversity @BrownCSDept https://t.co/vBWTx3oESv
— Brown Research (@BrownUResearch) 2 de junho de 2017
"Desenvolvimento de curiosidade é o maior problema para inteligência de robôs, diz George Konidaris"
Em geral, enquanto a maioria das pessoas pode distinguir ideias más das boas e acertar de forma intuitiva o que vale estudar e o que não, máquinas fracassaram neste aspecto, gastando muito tempo em coisas óbvias.
A dupla desenvolveu o novo algoritmo Exploração Direcionada com Variância e Recompensas Intrínsecas Inovadoras (TEXPLORE-VENIR), que se baseia na técnica de "aprendizagem reforçada" para contornar um problema.
Na "aprendizagem reforçada", um programa AI é premiado se o caminho, seguido por ele, aproxima-o do objetivo predestinado, por exemplo, a resolução de um problema matemático difícil. Quando o AI é premiado por acertar, as chances de ele seguir o mesmo caminho no futuro aumentam.
O TEXPLORE-VENIR estabelece um objetivo ao programa, e o programa se recompensa por aprender algo novo, mesmo que o conhecimento não o aproxime do objetivo final. O AI também se recompensa por reduzir a incerteza, conhecendo coisas novas.
Os cientistas testaram seu método em dois experimentos. Em um deles, o algoritmo foi implantado em um brinquedo, Nao. Ele tinha três tarefas separadas, em que ganhou pontos por bater em um prato, segurar uma fita rosa em frente aos olhos e pressionar um botão no seu pé. Ao passar por 13 tarefas, Nao foi melhor em encontrar a fita rosa na sua mão quando foi auxiliado pelo TEXPLORE-VENIR. O mesmo aconteceu com as restantes tarefas — o desempenho era sempre melhor, quando contava com o TEXPLORE-VENIR.
"Não se comporte como máquina"
No entanto, curiosidade pode ter um efeito negativo para a produtividade de robôs — se recompensas por ganhar conhecimento são maiores do que cumprimento de metas básicas e essenciais, as últimas podem ser ignoradas pela ganância em querer ser premiado.
Por outro lado, prêmios externos podem também interferir no processo de aprendizagem, tal como acontece quando um estudante apenas busca notas altas ao invés de querer aprender a matéria. O desafio é treinar os robôs para atingir o equilíbrio entre recompensas internas e externas.