Machine Learning e Estatística

Relação, aplicações e ferramentas de desenvolvimento

Por: Écio Souza Diniz | Publicado em 27 de janeiro de 2020

O termo machine learning é um dos mais falados na atualidade em relação à tecnologia. Com o poder da computação e o avanço na ciência de análise de dados  hoje podemos realizar coisas incríveis do conforto de nossas casas, como analisar o tráfego, reconhecer pessoas em fotos e etc. Mas afinal de contas, o que é e como funciona o machine learning? Quais relações do aprendizado de máquina com estatística? Quais aplicações e softwares utilizados no aprendizado de máquina?

Com o rápido avanço da informática nos anos 2000 a busca por algoritmos mais eficientes para desempenhar diversas funções analíticas ou responsivas de sistemas virtuais tem sido constante.

Nesse contexto, tem havido um rápido desenvolvimento de novos algoritmos. Esse é um dos principais motivos pelos quais muitos formatos tradicionais de trabalho na atualidade têm sido reformulados, fazendo com que a mão de obra humana seja substituída em diversos setores. Dessa forma, esse “novo mercado de trabalho”, tem buscado, por profissionais que dominam os conceitos, as aplicações e as formas de execução de programação computacional e modelos inteligentes. Isso para facilitar e viabilizar a execução de trabalhos cotidianos e a busca de soluções de problemas em um mundo de alta complexidade tecnológica, grande competitividade e superpopuloso (exemplo: RH virtual, com algoritmos que examinam de forma automatizada e inteligente os perfis de candidatos a uma determinada vaga de emprego).

Afinal de contas o que é e como funciona o machine learning?

O machine learning (aprendizado de máquina ou aprendizado automático) trata de um subcampo da inteligência artificial, em ciência e engenharia da computação, baseado no reconhecimento computacional de padrões e com isso o aprendizado computacional. Arthur Samuel (pioneiro nos campos dos jogos de computador, inteligência artificial e aprendizado de máquina) conceitua o aprendizado de máquina como o campo de estudo que dá aos computadores a habilidade de aprender sem serem explicitamente programados. Assim, o aprendizado automático pelos computadores explora o estudo e construção de algoritmos que podem aprender de seus erros e fazer previsões cada vez mais robustas e eficientes sobre dados.

Os algoritmos construídos para aprendizagem inteligente funcionam criando um modelo matemático-estatístico a partir de uma entrada de dados amostrais no computador, permitindo previsões e promovendo tomadas de decisões a partir de reconhecimento de padrões desses dados. A inteligência artificial se baseia em duas linhas computacionais de raciocínio, indutivo e dedutivo. O aprendizado de máquina, por sua vez, opera apenas o raciocínio indutivo, que extrai regras e padrões de grandes conjuntos de dados.

Um exemplo bastante popular é o uso de padrões faciais em programas de construção de retratos de pessoas. Nesta aplicação um banco de dados com grande amostragem de padrões de rostos de diversas pessoas de um determinado local, região ou país é analisado por um algoritmo. Por meio da análise desses dados o software reconhece padrões de rostos e cria uma comparação facial automática com base nos padrões aprendidos para dizer se duas fotos distintas correspondem a uma mesma pessoa.

FONTE: Master Facial Recognition Software Development A-Z™

As relações do machine learning com estatística e aplicações

Há ramos do aprendizado de máquinas que funcionam conectados ou sobrepostos à estatística computacional. Dessa forma, a estatística computacional é focada em fazer previsões (exemplo: modelos estatísticos de regressão – decisão – ou classificação) usando computadores, baseando-se nas propriedades dos métodos estatísticos e sua complexidade computacional. No aprendizado de robôs, por exemplo, ocorre o uso de técnicas como aprendizado ativo, no qual há criação de suas próprias sequências para adquirir continuamente padrões para novas habilidades, através de uma exploração autônoma e da interação social com humanos.

A tarefa de aprendizado pode ser dividida em três categorias: aprendizado supervisionado, não supervisionado e Aprendizado por reforço. Essa classificação é baseada na natureza do sinal (fonte de informação) fornecida por padrões de dados para um sistema de aprendizado. No aprendizado supervisionado são fornecidas ao computador entradas e saídas desejadas de dados, que são fornecidos por uma pessoa (pesquisador, programador ou professor), objetivando promover um mapeamento dessas entradas e saídas. Já no aprendizado não supervisionado, não é fornecido qualquer tipo de padrão dos dados ao algoritmo de aprendizagem. Neste caso o algoritmo deve por encontrar por si próprio os padrões nas entradas de dados fornecidas. Assim, esse tipo de aprendizado comumente objetiva descobrir novos padrões nos dados. A aprendizagem por reforço ocorre em uma interação precisa entre um programa computacional e um ambiente dinâmico para que o programa desempenhe uma função (ex: controlar automaticamente máquinas de extração de madeira numa plantação florestal).

Ao se considerar a saída desejada num sistema de aprendizado de máquina pode-se classifica-las como respostas de Classificação, de Regressão e Clustering. Nos sistemas de classificação as entradas são divididas em duas ou mais classes e o usuário de modelos estatísticos, aplicando essa abordagem, deve produzir um modelo supervisionado que vincula entradas não vistas a uma ou mais dessas classes. Um exemplo dessa abordagem é a filtragem de e-mails recebidos e direcionados para caixa de spam, isto é, as entradas são as mensagens de e-mails e as classes são “spam” ou “não spam”. Exemplos de modelos estatísticos que englobam algoritmos com funções de classificação incluem: SVM (Support vector machine), PLS (Partial Least Squares), ANN (Artificial Neural Network, Random Forest etc.

Os sistemas de regressão, também operam sobre um problema supervisionado, sendo que as saídas são contínuas em vez de discretas. A aplicação de um modelo ANN para testar a eficácia de predição de dados numéricos de natureza contínua para decréscimo de cobertura vegetal por um amplo grupo de variáveis preditivas climáticas e de solos é um exemplo.

Já nos sistemas de clustering tem-se uma abordagem não supervisionada na qual é criado um grupo a partir de um conjunto de entradas de dados. Isto é, a tarefa consiste em agrupar um conjunto de objetos de forma que os objetos do mesmo grupo (chamados de cluster) sejam mais semelhantes uns aos outros do que àqueles de outros grupos. Um exemplo de técnica com essa abordagem é a NCA (Neighbourhood components analysis), na qual é usado um modelo supervisionado classificar dados multivariados em classes distintas de acordo com uma determinada métrica de distância sobre esses dados.

A nossa nova ferramenta de acesso a conteúdo, uma biblioteca digital: a gonaTECA.

Sim, Agora você pode ter uma biblioteca em casa! A gonabee desenvolveu uma biblioteca digital para facilitar a sua vida mais uma vez! Na gonaTECA você vai encontrar muita informação de qualidade e ao seu alcance em apenas um click.

Exemplos de importantes aplicações cotidianas do machine learning

Além de coisas triviais, porém, fundamentais, como filtragem de spam, uma série de outras aplicações de grande importância usando aprendizado de máquinas engloba: mecanismos de busca na internet, mineração de opinião, detecção de fraude de cartão de crédito, recuperação de informação, detecção de fraude virtual, reconhecimento ótico de caracteres (OCR), processamento de linguagem natural, diagnósticos médicos, bioinformática, reconhecimento de fala, reconhecimento de escrita, visão computacional e locomoção de robôs, interface cérebro-computador, classificação de sequências de DNA, visão computacional, incluindo reconhecimento de objetos, jogos de estratégia, marketing etc.

FONTE: OCR: Reconhecimento Óptico de Caracteres

Softwares amplamente usados para aplicar machine learning

Há hoje diversos softwares com uma ampla variedade de algoritmos de aprendizado de máquina, incluindo aqueles que são pagos como MATLAB, SAS Enterprise Miner e STATISTICA Data Miner. Mas cada vez mais tem sido preferido os softwares livres por não carecerem de licença, investimento financeiro e, principalmente, por serem mais constantemente atualizados em seus algoritmos e pacotes, o que é feito com auxílio dos próprios usuários que possuem conhecimento avançado de programação computacional. Esses softwares livres destacam o R e Python.

DINIZ, E. de S.. Machine Learning e Estatística: Relação, aplicações e ferramentas de desenvolvimento.  gonablog | gonabee Escola Digital, 2020. Disponível em <https://gonabee.com.br/index.php/2020/01/21/machine-learning-e-estatistica-relacao-aplicacoes-e-ferramentas/(abrir em uma nova aba)> Acessado em: DIA de MÊS de ANO.

Apoio:

A Beta Analítica surgiu em 2018 e tem como missão auxiliar empresas, pessoas físicas e universidades na obtenção de soluções para gestão de dados e análises estatísticas. Para isso, nós dispõem de profissionais e colaboradores altamente qualificados (professores, mestres e doutores) em diversas áreas, para fornecer assistências em análises, coaching, cursos e treinamentos. Tenha uma experiência analítica agradável e resolutiva! Conte com os serviços Beta!!!

O assunto é bastante extenso e não é possível ensinar tudo em apenas um post. O aprendizado aqui, é importante, porém é apenas uma parte. Se você deseja mais leituras e conteúdos entre em contato conosco. Estaremos sempre dispostos a lhe ajudar.

Acreditamos que a educação é a melhor forma de transformar o Brasil em um país melhor para os brasileiros.
© 2019 · gonabee Escola Digital. Todos os direitos reservados.