Próximas Defesas de Projeto Final II (PF-II)

Escondido

Your content goes here. Edit or remove this text inline or in the module Content settings. You can also style every aspect of this content in the module Design settings and even apply custom CSS to this text in the module Advanced settings.

17/09 – 17 horas. NATAN MORAES VAZ. Influência da COVID-19 no número de mortes no Brasil em 2020.

Resumo: Em 2020 a COVID-19 chegou ao Brasil, e, por conta dos danos causados à saúde e da facilidade de sua transmissão, logo se tornou destaque nas mídias e nas redes sociais, e a busca por uma melhor compreensão da doença tornou-se prioridade, visando a adoção de medidas que pudessem diminuir o contágio e o número de óbitos. Buscando uma melhor compreensão sobre o efeito desta doença no número de mortes no país, foi utilizada a análise de séries temporais para verificar como se deu a evolução da quantidade de óbitos no Brasil, mês a mês, nos últimos 10 anos. Utilizando-se o Modelo de Regressão Linear e o Modelo Box & Jenkins, foram realizadas previsões sobre a quantidade de óbitos esperados no país caso não houvesse a pandemia de COVID-19, e então comparou-se os valores obtidos com os dados reais fornecidos pela organização de saúde. Sobre os resultados obtidos, e em relação aos dados utilizados, tem-se que o Modelo Box & Jenkins apresentou uma melhor capacidade de previsão do que o Modelo de Regressão Linear. Considerando os 3 primeiros meses da pandemia no Brasil, o número de mortes observado superou o previsto em 11,54%, com um total de 41.636 óbitos além do normal.
Palavras-chave: COVID-19. Brasil. Séries temporais. Modelo de Regressão Linear. Modelo Box & Jenkins

Orientadora: Márcia Marques de Carvalho

Data da apresentação: 17/09/2021
Horário da apresentação: 17:00
Forma de apresentação: Google meet

20/9 – 9 horas. THIAGO AUGUSTO SANTOS LIMA. Análise de risco em recomendações de filmes e piadas via Filtragem Colaborativa.

Resumo: O objetivo de um sistema de recomendação é recomendar itens de interesse para um grupo de consumidores. A técnica de Filtragem Colaborativa foi construída a partir da premissa de que usuários são considerados semelhantes se eles avaliam itens em comum de maneira similar, enquanto que, itens são considerados semelhantes se eles foram avaliados por usuários em comum com notas similares. Este trabalho teve primeiro a finalidade de discutir diferentes escolhas metodológicas presentes na Filtragem Colaborativa através de dois bancos de dados distintos: um referente a filmes e outro sobre piadas. Além disso, teve-se também a finalidade de criar, através de modelos de Regressão Logística, medidas de incerteza para realização de recomendações. Foram avaliados quatro diferentes abordagens presentes na Filtragem Colaborativa, através das qualidades das recomendações realizadas em cada um dos bancos. Os resultados das recomendações na base de piadas foram superiores aos resultados na base de filmes. Ao avaliar na perspectiva das piadas, a abordagem que apresentou melhores resultados nas recomendações foi a que utiliza as Similaridades entre Itens calculadas através do Cosseno Ajustado. Já na perspectiva dos filmes, a abordagem que utiliza as Similaridades entre Itens calculadas através do Cosseno simples foi a de melhor êxito. Ao avaliar as relações do êxito das recomendações de piadas com as variáveis explicativas em todas as abordagens, tem-se que a chance do sistema fornecer uma recomendação correta diminui caso a piada seja popular e bem avaliada. Já no caso dos filmes, a chance do sistema fornecer uma recomendação correta aumenta se um filme é popular e bem avaliado. Através dos modelos logísticos, foi criado uma abordagem híbrida que consiste na combinação das quatro diferentes abordagens. A Abordagem Híbrida 1 para os dados de filmes, foi a que obteve melhores resultados em relação à acurácia, enquanto que, no caso dos dados das piadas, a Abordagem Híbrida 1 não apresenta melhores resultados baseados em nenhuma das métricas analisadas. Inspirado na Abordagem Híbrida 1, foi criado o conceito de utilizar quaisquer combinações entre as abordagens. Foram apresentadas novas combinações com desempenho superior às demais analisadas em ambos os bancos. Através disso, conclui-se que, ao realizar a combinação das abordagens de modo inteligente, os resultados das recomendações utilizando a metodologia da Filtragem Colaborativa podem ser superiores.
Palavras-chave: Modelos lineares generalizados . Regressão logística. Filtragem colaborativa. Sistemas de recomendação.

Orientadora: Jessica Quintanilha Kubrusly

Data da apresentação: 20/09/2021
Horário da apresentação: 09:00
Forma de apresentação: Google meet

20/09 – 10:30 – MAQUEISE DE MEDEIROS PINHEIRO. Perceptron multicamadas: uma ferramenta de aprendizado supervisionado.

Resumo: O modelo perceptron proposto por Rosenblatt (1958), é um modelo de aprendizado de máquinas utilizado tanto em classificação como em regressão. Inserido na técnica de redes neurais artificiais, ele possui uma estrutura composta de neurônios (unidades de processamento dos dados) e camadas (etapas do modelo) que permite o refinamento do resultado de saída. Este trabalho busca entender o modelo perceptron e sua forma mais geral, o perceptron multicamadas. Para isso, descreve cada uma de suas etapas e os elementos que o compõe, desde sua origem inspirada em um dos primeiros modelos de redes neurais, o modelo de McCulloch e Pitts (1943) , até a utilização do método do gradiente descendente para melhoria dos parâmetros do modelo, ilustrando também duas funções comuns no papel de função de ativação. A proposta do trabalho foi elaborar um algoritmo perceptron multicamadas no software R a fim de testar empiricamente o ganho em acrescentar neurônios e/ou camadas à camada oculta em termos de precisão. Para isso, foi utilizada a base de dados mushrooms do artigo de Knopf (1981), onde vimos que a adição de camadas assim como a adição de neurônios não implica necessariamente na melhora do modelo em relação a precisão, além de se tornar cada vez mais custoso computacionalmente.
Palavras-chave: Perceptron. Perceptron multicamadas. Gradiente descendente. Função de ativação.

Orientador: Douglas Rodrigues Pinto

Data da apresentação: 20/09/2021
Horário da apresentação: 10:30
Forma de apresentação: Google meet

20/09 – 14 horas. DANIEL DOS SANTOS. Análise de dados de alta dimensão utilizando Apache Spark com R.

Resumo: Desde o começo da Terceira Revolução Industrial, o volume de dados armazenados cresce exponencialmente, marcando este período como a Era da Informação. A capacidade de explorar tamanha quantidade de dados  abre oportunidades para novas formas de análise e descobertas. Com o intuito de realizar tais análises de larga escala foi desenvolvido o Apache Spark, um framework de código aberto que busca democratizar estudos com dados de alta dimensão, utilizando técnicas de computação distribuída já fornecidas pelo MapReduce, porém com grandes melhorias em performance e praticidade. O Spark possui uma série de componentes que envolvem aprendizado de  máquinas, análise de grafos, processamento de dados em tempo real e a realização de análises estatísticas em grandes volumes de dados. O intuito deste trabalho é explicar, apresentar e explorar a gama de ferramentas encontradas no Spark, utilizando-se das tecnologias e arquiteturas encontradas nele em conjunto com a linguagem de programação R a partir da biblioteca SparkR.
Palavras-chave: Apache Spark. Big data. R. Engenharia de dados. MapReduce.

Orientador: Douglas Rodrigues Pinto

Data da apresentação: 20/09/2021
Horário da apresentação: 14:00
Forma de apresentação: Google meet

21/09 – 11 horas. PAULO VICTOR CUNHA PORTO. Métodos Estatísticos de Classificação: Abordagem Aplicada ao Diagnóstico de Casos de Câncer de Mama.

Resumo: Este trabalho analisou o desempenho de 06 diferentes modelos estatísticos em um problema de classificação de tumores entre malignos e benignos a partir de informações extraídas de exames de imagem. Os métodos utilizados foram: (i) Regressão Logística, (ii) K-Nearest Neighbors, (iii) Árvores de Classificação, (iv) Florestas Aleatórias, (v) SVM Polinomial e (vi) SVM Radial. A despeito de ter sido utilizada uma base de dados didática, é importante destacar o bom desempenho dos modelos, todos com níveis de acerto na base teste acima de 90,0%, com destaque para a Regressão Logística, Florestas Aleatórias e SVM Polinomial, que obtiveram os melhores resultados. Ainda, os modelos foram capazes de identificar o raio do tumor como a covariável de maior impacto nas chances de diagnóstico de câncer de mama.

Orientadora: Jessica Quintanilha Kubrusly

Data da apresentação: 21/09/2021
Horário da apresentação: 11:00
Forma de apresentação: Google meet

21/9 – 16 horas. FRANCISCO SEBASTIAN TACORA AMASIFUEN. Uso de Aprendizado de Máquinas Para Reconhecimento de Padrões.

Resumo: O MNIST é uma grande coleção de imagens de dígitos manuscritos normalmente usada para treitar vários sistemas de processamento de imagens. Na área de aprendizado de máquinas, as bases de imagens de dígitos manuscritos veem sendo muito empregadas, principalmente, para um estudo inicial dessa área e testar o desempenho dos algoritmos. Neste trabalho estuda-se o método Máquinas de Vetor de Suporte tanto para a classificação binária quanto para a classificação múltipla. Este método é aplicado para reconhecimento de padrões na base de dados MNIST.
Palavras-chave: Máquina de Vetor Suporte. Hiperplano ótimo. Otimização quadrática convexa. Classificação binária. Classificação múltipla.

Orientador: Valentin Sisko
Coorientador: Hugo Henrique Kegler dos Santos

Data da apresentação: 20/09/2021
Horário da apresentação: 16:00
Forma de apresentação: Google meet

21/9 – 14 horas. MARLON VINICIUS ALVES DE ARAUJO. Métodos de Clustering em Aprendizado de Máquinas Não Supervisionado

Resumo: Atualmente, conforme a tecnologia avança, a quantidade de dados cresce exponencialmente, com milhões de terabytes de dados sendo gerados diariamente. Para obter informações a partir de um conjunto de dados, métodos de machine learning, ou aprendizado de máquinas, são utilizados para análises, previsões, resolução de problemas, de acordo com o que se busca extrair, automatizando o desenvolvimento de modelos analíticos. Porém, por mais que seja “fácil” o acesso há diversas bases de dados, em alguns casos, as bases não conterão todas as informações almejadas, como dados rotulados, ou categorizados. Isso acontece porque coletar dados anotados pode ser extremamente caro, custar muito tempo, e em certas situações, até mesmo impossível. Para lidar com essa ausência de informações desejadas, são utilizadas técnicas de aprendizado de máquinas não supervisionado, que auxiliam na detecção de padrões e percepções ocultas nos dados analisados. Entre diversos métodos, um dos mais importantes dentro de aprendizagem não supervisionada é o clustering, ou agrupamento, em que seus algoritmos processarão os dados, permitindo encontrar clusters (grupos) caso existam, de forma que os elementos dentro do mesmo cluster sejam o mais semelhante possível, e tenham menos ou nenhuma semelhança com os elementos de outro grupo. O objetivo deste trabalho é estudar e aplicar algoritmos de clustering em um conjunto de dados não rotulado, utilizando suas respectivas ferramentas na linguagem de programação R, verificando se os algoritmos são capazes de fornecer resultados eficientes e confiáveis.
Palavras-chave: Clustering. Cluster. Método k-means. Método complete linkage.

Orientadora: Karina Yuriko Yaginuma

Data da apresentação: 21/09/2021
Horário da apresentação: 14:00
Forma de apresentação: Google meet

21/9 – 16 horas. GABRIEL TRACINA DE OLIVEIRA. Análise espacial dos casos de COVID-19 no Estado do Rio de Janeiro.

Resumo: Há pouco tempo, no final de 2019, na China, mais precisamente em Wuhan, a capital e maior cidade da província de Hubei, revelou-se um surto de um novo vírus, chamado Coronavírus, causador de uma doença respiratória, a COVID-19. Esse vírus rapidamente rompeu as fronteiras da China, assim chegando a outros países e em um curto intervalo de tempo infectando milhares de indivíduos de todo o mundo. Em 30 de janeiro de 2020, o comitê da Organização Mundial da Saúde (OMS), anunciou uma emergência de saúde global, baseado no crescimento de casos tanto na China quanto nos demais países atingidos. No Brasil, a primeira ocorrência de COVID-19 aconteceu em fevereiro de 2020, segundo o Ministério da Saúde e, após o primeiro caso, a doença se espalhou rapidamente pelo solo brasileiro e em especial no Rio de Janeiro, a área de estudo deste trabalho. Na perspectiva estatística é possível produzir análises espaciais capazes de ajudar na interpretação do comportamento da doença no espaço onde ela esta ocorrendo, sendo viável a identificação da configuração espacial dos casos de infecção, a autocorrelação espacial entre os municípios e o apontamento de regiões com aglomerados de maior incidência, assim realizando uma análise exploratória. Também dentro das análises espaciais a modelagem é uma ferramenta valiosa para explicar os dados, sendo assim, modelos de regressão foram aplicados nos dados desta monografia, sendo eles com e sem efeitos espaciais, tendo o CAR Intrínseco como distribuição a priori para os efeitos aleatórios espaciais, onde tais efeitos estão alocados no erro. O enfoque Bayesiano foi utilizado para estimação dos parâmetros no modelo, em que, feita as interações de Monte Carlo via Cadeia de Markov, foram obtidas as distribuições a posteriori dos parâmetros de interesse, sendo assim, um dos resultados importantes foi que, o modelo com efeitos espaciais foi capaz de captar a associação espacial no mês de abril.
Palavras-chave: Estatística espacial. Modelos autoregressivos condicionais. CAR Intrínseco. COVID-19.

Orientador: Luis Guillermo Coca Velarde

Data da apresentação: 21/09/2021
Horário da apresentação: 16:00
Forma de apresentação: Google meet

22/09 – 14 horas. VINICIUS AGUIAR DE SOUSA CRISTINO. Aplicações de experimentos delineados em produtos e serviços digitais.

Resumo: A cada dia, mais e mais empresas buscam formas de aproveitar a grande quantidade de dados disponíveis para melhorar o resultado de seus negócios. Entretanto, a qualidade da informação obtida por meio desses dados nem sempre é suficiente para a solução de problemas específicos de uma certa companhia de modo a possibilitar a melhor tomada de decisão pelos gestores. Nesse cenário, a produção de dados planejados pode suprir os gestores com uma informação de alta qualidade e as técnicas de experimentos delineados como os testes A/B tem tido um crescimento exponencial no ambiente de empresas, particularmente em companhias de tecnologia, comércio eletrônico e na área de Marketing digital. Nesse projeto de trabalho de conclusão de curso serão estudados os principais conceitos e modelos estatísticos de experimentos delineados utilizados hoje em Marketing digital e suas respectivas ferramentas no R. Também será feito o estudo de casos reais em que experimentos delineados foram aplicados com sucesso em ambientes de negócios.
Palavras-chave: Estatística. Modelos lineares. Delineamento de experimento. Testes A/B.

Orientador: Marcio Watanabe Alves de Souza

Data da apresentação: 22/09/2021
Horário da apresentação: 14:00
Forma de apresentação: Google meet

22/09 – 15:30 horas – MATHEUS MACHADO DE ALMEIDA. Análise de eficácia em grupos de baixo risco em ensaios clínicos randomizados.

Resumo: Nesse projeto de trabalho de conclusão de curso estudaremos os principais conceitos e modelos estatísticos de experimentos delineados utilizados em ensaios clínicos e suas respectivas ferramentas no software R.  Particulamente estudaremos métodos e delineamentos que nos permitam inferir se uma determinada intervenção surtiu ou não efeito na população estudada. Faremos um estudo de caso com dados simulados envolvendo tratamentos ou intervenções profiláticas.
Palavras-chave: Experimento delineado. Randomização. Teste A/B. Teste exato de Fisher. Máscara.

Orientador: Marcio Watanabe Alves de Souza

Data da apresentação: 22/09/2021
Horário da apresentação: 15:30
Forma de apresentação: Google meet

23/9 – 14 horas. RODRIGO MOURÃO CALAND DIAS. Testando empates não revelados via modelo Plackett-Luce.

Resumo: No presente trabalho, buscamos testar formalmente a existência de empates não revelados em dados de ranqueamento, com base no modelo Plackett-Luce. Dentro das suposicões desse modelo, podemos calcular probabilidades associadas a ranks através de escalares positivos, cada qual associado a um objeto distinto. Apesar da forma da distribuição dos ranks ser bem conhecida, a estimação dos seus parâmetros não é uma tarefa fácil, sendo necessário recorrer a métodos numéricos, como por exemplo, o Newton-Raphson ou o Minorize-Maximization. A hipótese (nula) de que alguns dos indivíduos estão empatados pode ser formulada como uma redução do espaço paramétrico e, portanto, pode ser testada através do teste da razão de verossimilhança ou do teste de Wald. Para viabilizar os testes, apresentamos modificações do algoritmos mencionados que nos permitem estimar o vetor de parâmetros admitindo restrições de igualdade entre quaisquer de suas componentes. Além disso, foi introduzida um proposta consistente de chute inicial para os parâmetros do modelo, a qual foi utilizada para inicializar os procedimentos numéricos citados. Na sequência, foi analisado um conjunto de dados da Fórmula 1 contendo ranks de pilotos em treinos classificatórios. Inicialmente, o vetor paramétrico foi estimado sem quaisquer restrições e as estimativas foram utilizadas para gerar um ranqueamento dos pilotos, no qual pilotos de mesma equipe tendiam a ocupar posições adjacentes. Apesar disso, a hipótese de que pilotos de mesma equipe estão empatados foi rejeitada por ambos os testes. Por fim, foi empregado o método de agrupamento hierárquico com o objetivo de gerar, para cada possível numérico de grupos, clusterizações dos pilotos com base nas distâncias entre as respectivas estimativas. Todos os agrupamentos foram rejeitados de acordo com o teste de Wald, enquanto que o teste da razão de verossimilhança forneceu evidências de que existem empates (não revelados) entre alguns pilotos.
Palavras-chave:Dados de ranqueamento. Plackett-Luce. Algoritmo MM. Newton-Raphson. Teste de Wald.

Orientador: Wilson Calmon Almeida dos Santos

Data da apresentação: 23/09/2021
Horário da apresentação: 14:00
Forma de apresentação: Google meet

23/09 – 15 horas. MATHEUS ALVES PEREIRA DOS SANTOS. Modelos espaço-temporais para dados de contagem.

Resumo: Este trabalho discute o estudo de fenômenos com dependência espaço-temporal que podem ser descritos por meio de dados de contagem. A pesquisa busca avaliar a capacidade de uma metodologia espaço-temporal, baseada na distribuição de Poisson, na modelagem desse tipo de fenômeno. O modelo aqui analisado baseia-se no modelo espacial proposto por Leroux, Lei e Breslow (2000), enquanto a dependência temporal é considerada por meio de um caso particular de modelos lineares dinâmicos generalizados, o polinomial de primeira ordem. Toda a inferência utilizada neste trabalho baseia-se na teoria de inferência Bayesiana e na utilização do método de amostragem de Monte Carlo Hamiltoniano, por meio do software Stan. A avaliação do modelo proposto foi realizada por meio de um estudo de simulação, em que se considerou cinco diferentes cenários variando-se as condições de dependência espacial e temporal, assim como a variabilidade dos dados. Os resultados deste processo simulado revelou um desempenho satisfatório do modelo no que diz respeito à estimação dos parâmetros de interesse em todos os cenários contemplados.
Palavras-chave: Modelo espaço-temporal. Dados de contagem agregados. Modelos lineares dinâmicos. Inferência Bayesiana.

Orientador: Jony Arrais Pinto Junior

Data da apresentação: 23/09/2021
Horário da apresentação: 15:00
Forma de apresentação: Google meet

Fechar Todos
Skip to content