2021 – 1º Semestre

Escondido

Your content goes here. Edit or remove this text inline or in the module Content settings. You can also style every aspect of this content in the module Design settings and even apply custom CSS to this text in the module Advanced settings.

DANIEL DOS SANTOS. Análise de dados de alta dimensão utilizando Apache Spark com R.

Resumo: Este trabalho apresenta o Apache Spark, ferramenta que utiliza computação distribuída para tratar dados com grandes dimensões. Serão mostradas diversas funcionalidades do Spark dentro da linguagem de programação R, através do pacote SparkR. Por fim, utiliza-se todo o conhecimento apresentado para tratar um conjunto de dados sobre carros usados e treinar um modelo de árvore de decisão para predizer o valor dos carros. Apesar do modelo treinado não ser satisfatório, foi possível observar diversas dificuldades em utilizar os SparkR para realizar esse tipo de análise.

Palavras-chave: Apache Spark. Big data. R. Computação distribuída. MapReduce.if 1 02 511559

Orientador: Douglas Rodrigues Pinto (IME/UFF)

Banca:

  • Douglas Rodrigues Pinto (IME/UFF)
  • Jessica Quintanilha Kubrusly (IME/UFF)
  • Karina Yuriko Yaginuma (IME/UFF)
DANIELLE RIBEIRO PEREIRA DA SILVA. Técnicas de Mineração de Texto e de Análise de Conglomerados aplicadas em banco de dados de automóveis.

Resumo: Neste trabalho o ponto de partida foi um banco de texto contendo informações sobre modelos de automóveis novos extraídos da Internet via web scraping. O objetivo foi aplicar técnicas de Mineração de Texto e Análise de Conglomerados a fim de agrupar documentos que se referiam a automóveis com as mesmas características. Para a validação dos resultados foram utilizadas Nuvens de Palavras. Para isso o banco de dados foi dividido em treino e teste. Considerando o banco completo não foram obtidos bons resultados que atendessem ao objetivo do trabalho. Porém, o banco quando filtrado por marca apresentou resultados mais interessantes. A partir da Nuvem de Palavras foi possível identificar a semelhança entre os documentos agrupados.

Palavras-chave: Mineração de texto. Análise de conglomerados. Nuvem de palavras. Automóveis novos.if 1 02 511559

Orientadora: Jessica Quintanilha Kubrusly (IME/UFF)

Banca:

  • Jessica Quintanilha Kubrusly (IME/UFF)
  • Douglas Rodrigues Pinto (IME/UFF)
  • Patrícia Lusié Velozo da Costa (IME/UFF)
FRANCISCO SEBASTIAN TÁCORA AMASIFUEN. Uso de Aprendizado de Máquinas Para Reconhecimento de Padrões.

Resumo: O MNIST é uma grande coleção de imagens de dígitos manuscritos normalmente usada para treitar vários sistemas de processamento de imagens. Na área de aprendizado de máquinas, as bases de imagens de dígitos manuscritos veem sendo muito empregadas, principalmente, para um estudo inicial dessa área e testar o desempenho dos algoritmos. Neste trabalho estuda-se o método Máquinas de Vetor de Suporte tanto para a classicação binária quanto para a classicação múltipla. Este método é aplicado para reconhecimento de padrões na base de dados MNIST.

Palavras-chave: Máquina de Vetor Suporte. Hiperplano Ótimo. Otimização quadrática convexa. Classificação Binária. Classificação Múltipla. if 1 02 511559

Orientador: Valentin Sisko (IME/UFF)
Coorientador: Hugo Henrique Kegler dos Santos (IME/UFF)

Banca:

  • Valentin Sisko (IME/UFF)
  • Hugo Henrique Kegler dos Santos (IME/UFF)
  • Karina Yuriko Yaginuma (IME/UFF)
  • Marco Aurélio dos Santos Sanfins (IME/UFF)
GABRIEL TRACINÁ DE OLIVEIRA. Análise espacial dos casos de COVID-19 no Estado do Rio de Janeiro.

Resumo: Há pouco tempo, no final de 2019, na China, mais precisamente em Wuhan, a capital e maior cidade da província de Hubei, revelou-se um surto de um novo vírus, chamado SARS-CoV-2 , causador de uma doença respiratória, a COVID-19. Esse vírus rapidamente rompeu as fronteiras da China, assim chegando a outros países e em um curto intervalo de tempo infectando milhares de indivíduos de todo o mundo. Em 30 de janeiro de 2020, o comitê da Organização Mundial da Saúde (OMS), anunciou uma emergência de saúde global, baseado no crescimento de casos tanto na China quanto nos demais países atingidos. No Brasil, a primeira ocorrência de COVID-19 aconteceu em fevereiro de 2020, segundo o Ministério da Saúde e, após o primeiro caso, a doença se espalhou rapidamente pelo solo brasileiro e em especial no Rio de Janeiro, a área de estudo deste trabalho. Na perspectiva estatística, é possível produzir análises espaciais capazes de ajudar na interpretação do comportamento da doença no espaço onde ela está ocorrendo, sendo viável a identificação da configuração espacial dos casos de infecção, a autocorrelação espacial entre os municípios e o apontamento de regiões com aglomerados de maior incidência, assim realizando uma análise exploratória. Também dentro das análises espaciais, a modelagem é uma ferramenta valiosa para explicar os dados, sendo assim, modelos de regressão foram aplicados nos dados desta monografia, sendo eles com e sem efeitos espaciais, tendo o ICAR Intrínseco como distribuição a priori para os efeitos aleatórios espaciais, onde tais efeitos estão alocados no erro. O enfoque Bayesiano foi utilizado para estimação dos parâmetros no modelo, em que, feita as interações de Monte Carlo via Cadeia de Markov, foram obtidas as distribuições a posteriori dos parâmetros de interesse, tendo assim, resultados importantes como, o modelo com efeitos ICAR sendo capaz de captar a associação espacial nos dados do mês de abril, através dos erros estruturados e para outubro tendo os efeitos espaciais explicando integralmente a variável resposta, número de casos de COVID-19.

Palavras-chave: Estatística espacial. Modelos autoregressivos condicionais. CAR Intrínseco. COVID-19. if 1 02 511559

Orientador: Luis Guillermo Coca Velarde (IME/UFF)

Banca:

  • Luis Guillermo Coca Velarde (IME/UFF)
  • Estelina Serrano de Marins Capistrano (IME/UFF)
  • Jony Arrais Pinto Junior (IME/UFF)
GUILHERME SILVA TORRES DE MATTOS. Aplicação de análise de estilo forte para fundos de investimento multimercados.

Resumo: Fundos de investimento são uma ótima alternativa para diversificação da aplicação e que contam com profissionais altamente preparados para fazer a gestão da carteira, os fundos de investimento são caraterizados pela aplicação em conjunto de pessoas físicas e/ou jurídicas buscando uma maior rentabilidade. Há alguns tipos de Fundos de investimento como por exemplo: Fundos de Ações, Renda fixa, Cambiais ou Multimercado. Cada um deles recomendados para perfis diferentes de investidores, seja com muita ou pouca aversão ao risco.Este trabalho de conclusão de curso teve como foco os Fundos de Investimento Multimercado que tem a possibilidade de ter seus retornos atrelados aos seguintes índices: CDI, Dólar, IBOVESPA e IGP-M. Será empregado o estudo de Sharpe, também conhecido como Análise de estilo, com o intuito de entender os retornos dos Fundos Multimercados listados na bolsa de valores brasileira (B3), classifica-los de acordo com a exposição nos índices. Para tal estudo foi utilizado o software R-Project na modelagem dos dados e como forma de automatização da classificação dos Fundos Multimercados.

Palavras-chave: Mercado financeiro. Fundos de investimento. Bolsa de valores. Mercado de capital. if 1 02 511559

Orientador: Marco Aurélio dos Santos Sanfins (IME/UFF)
Coorientadora: Daiane Rodrigues dos Santos (UVA)

Banca:

  • Marco Aurélio dos Santos Sanfins (IME/UFF)
  • Daiane Rodrigues dos Santos (UVA)
  • Tuany Esthefany Barcellos de Carvalho Silva (Mestranda PUC-Rio)
  • Wilson Calmon Almeida dos Santos (IME/UFF)
JULIA OLIVEIRA DIAS DE SOUZA. Associação entre as características da mãe e do recém-nascido e a prevalência de prematuridade no Estado do Rio de Janeiro: um estudo utilizando modelo de regressão log-linear de Poisson.

Resumo: A prematuridade é um problema alarmante de saúde pública e a principal causa de óbito neonatal no Brasil. A complexidade relacionada ao cuidado com o prematuro está associada com a imaturidade geral, que pode levar qualquer órgão à disfunção, podendo o recém-nascido sofrer comprometimento ao longo do seu desenvolvimento. O presente trabalho teve como objetivo avaliar a associação entre as características maternas e do recém-nascido e a prevalência de prematuridade no Estado do Rio de Janeiro em 2019. Foi realizado um estudo transversal, com os dados do Sistema de Informações sobre Nascidos Vivos (SINASC 2019) utilizando o modelo de regressão log-linear de Poisson com variância robusta, numa abordagem de aprendizado de máquina (machine learning). A prevalência de prematuridade foi de 9,5\%; e na modelagem estatística observou-se maior prevalência de prematuridade entre mães de 35 anos ou mais versus 19 anos ou menos (RP=1,136; p-valor<0,001), casadas ou com união estável (RP=1,105; p-valor<0,001), viúvas ou separadas/divorciadas (RP=1,196; p-valor<0,001), que realizaram parto cesáreo (RP=1,207; p-valor< 0,001) e que tiveram bebês com apresentação pélvica ou podálica/transversa (RP=1,260; p-valor<0,001). Adicionalmente, uma menor prevalência de prematuridade foi observada entre mães com 20 a 34 anos versus 19 anos ou menos (RP=0,949; p-valor=0,022), não brancas (RP=0,942; p-valor<0,001), entre mães primíparas versus nulíparas (RP=0,944; p-valor = 0,002), que realizaram seis ou mais consultas pré-natal (RP=0,642; p-valor<0,001), bem como entre bebês do sexo feminino (RP=0,858; p-valor<0,001), que receberam escore de Apgar com a avaliação ”normal” versus “muito baixo” (RP=0,722; p-valor<0,001) e que não tiveram baixo peso ao nascer (RP=0,101; p-valor<0,001). Conclui-se que tanto características demográficas da mãe, como idade, situação conjugal e raça/cor, quanto características clínicas do bebê e às relativas ao parto estão associadas com a prematuridade.
Palavras-chave: Estudos transversais. Prematuridade. Sistema de informação em saúde. Modelo log-linear de Poisson. Aprendizado de máquina.
 if 1 02 511559

Orientador: José Rodrigo de Moraes (IME/UFF)
Coorientadora: Patrícia Viana Guimarães Flores

Banca:

  • José Rodrigo de Moraes (IME/UFF)
  • Patrícia Viana Guimarães Flores (IESC/UFRJ)
  • Carlos Augusto Faria (CMM/UFF)
  • Jéssica Pronestino de Lima Moreira (IESC/UFRJ)
LARISSA SERAFIM MELO. A migração estudantil no Estado do Rio de Janeiro.

Resumo:  A migração é um fenômeno muito importante dentro do campo dos estudos demográficos. Dentre os fluxos migratórios internos, pode-se destacar a migração estudantil, principalmente a nível de ensino superior. Com a criação de novas políticas públicas, o governo conseguiu expandir o acesso aos cursos de ensino superior no Brasil. Essa expansão só foi possível graças a mudança do Exame Nacional do Ensino Médio (ENEM), que passou a ser principal forma de acesso as instituições públicas do país, substituindo o antigo formato de vestibular. Consequentemente a isso, ocorreu a criação do Sistema de Seleção Unificada (SiSU), que é a plataforma que consolida as notas do ENEM e seleciona os candidatados com melhor classificação. Esse processo centralizou o acesso as instituições públicas e aumentou a mobilidade acadêmica entre os estados, garantindo assim a inclusão daqueles que antes não tinham condições. Com essa mudança no ensino superior ocorreu um aumento na migração estudantil e este trabalho tem como objetivo verificar através de um modelo de regressão logística binária, quais fatores mais contribuem para as migrações intermunicipais e interestaduais para as instituições públicas do Estado do Rio de Janeiro. Os dados utilizados para análise serão provenientes do Censo da Educação Superior do ano de 2019.
Palavras-chave: Migração. Ensino superior. Regressão logística. if 1 02 511559

Orientadora: Márcia Marques de Carvalho (IME/UFF)

    Banca:

    • Márcia Marques de Carvalho (IME/UFF)
    • Alberto Augusto Eichman Jakob (IFCH/Unicamp)
    • Jony Arrais Pinto Junior (IME/UFF)
    LEANDRO DIAS GOMES DE CARVALHO. Exposição ambiental e a internação por asma nos municípios da Amazônia e Pantanal.

    Resumo: No Brasil, grande parte das queimadas é realizada pelo homem por diversas razões como o desmatamento, as disputas de terras e os protestos. As queimadas antropogênicas realizadas de forma descontrolada ou as naturais, provocadas, por exemplo, por falta de chuvas, muitas das vezes empobrecem o solo e destroem a fauna e flora local. Como consequência, podem levar à extinção e morte de diversos animais e plantas nativas, assim como à emissão de poluentes no ar e à alteração da temperatura do local. No âmbito municipal e regional a fumaça das queimadas pode provocar diversos problemas de saúde, como a asma. O objetivo principal deste trabalho foi avaliar a relação entre a internação por asma em crianças e adolescentes (com 14 anos ou menos) e à exposição às variáveis ambientais Focos de Queimadas, Temperatura e Material Particulado Fino (PM2.5) nos biomas Amazônia e Pantanal. Foram utilizados os dados fornecidos pelo Instituto Nacional de Pesquisas Espaciais (INPE) sobre o número de Focos de Queimadas (variável proxy que mede a intensidade das queimadas), utilizando o satélite de referência AQUA M-T. As informações sobre as variáveis meteorológicas da Temperatura mínima, máxima e média mensal foram obtidas através do European Centre for Medium-Range Weather Forecasts (ECMWF). Os dados sobre as concentrações de Material Particulado Fino (PM2.5) mensal foram obtidos do Sistema de Informações Ambientais Integrado a Saúde (SISAM). E os dados sobre o número de internações hospitalares por asma foram obtidos do Sistema de Informações Hospitalares do SUS (SIH/SUS) por meio do Departamento de Informática do Sistema Único de Saúde (DATASUS). O período de análise do estudo se refere a Jan./2010 até Dez./2020. Na análise dos dados, foram estimados Modelos Lineares Generalizados através da distribuição de Quasi-Poisson e Modelos de Séries Temporais para avaliar a tendência das variáveis, a partir do SARIMA. Os resultados mostraram que para o Pantanal o número de Focos de Queimadas observados em 2020 foi muito superior ao esperado pelo comportamento da série temporal. Por outro lado, para ambos os biomas o número observado de internações por asma foi muito inferior ao que seria esperado de acordo com o modelo de séries temporais. Quanto aos resultados dos Modelos Lineares Generalizados, a temperatura indicou ser um fator de risco para as internações por asma em crianças e adolescentes menores de 14 anos nos dois biomas, quando o modelo foi ajustado por PM2.5 e Focos de Queimadas, de modo que para o bioma Pantanal, o aumento em um grau na temperatura média mensal aumenta o risco de internações por asma em aproximadamente 20%. Enquanto que para o bioma Amazônia, os resultados sugerem que o aumento em um grau na temperatura mínima mensal aumenta o risco de internações por asma em aproximadamente 18%.
    Palavras-chave: Queimadas. Poluentes ambientais. Asma. Modelos. Séries temporais.
     if 1 02 511559

    Orientadora:  Ludmilla da Silva Viana Jacobson (IME/UFF)
    Orientadora: Sandra de Souza Hacon (ENSP/FIOCRUZ)

    Banca:

    • Ludmilla da Silva Viana Jacobson (IME/UFF)
    • Sandra de Souza Hacon (ENSP/FIOCRUZ)
    • Jony Arrais Pinto Junior (IME/UFF)
    • Márcia Marques de Carvalho (IME/UFF)
    MAQUEISE DE MEDEIROS PINHEIRO. Perceptron Multicamadas: uma ferramenta de aprendizado supervisionado.

    Resumo: O modelo perceptron proposto por Rosenblatt (1958), é um modelo de aprendizado de máquinas utilizado tanto em classificação como em regressão. Inserido na técnica de redes neurais artificiais, ele possui uma estrutura composta de neurônios (unidades de processamento dos dados) e camadas (etapas do modelo) que permite o refinamento do resultado de saída. Este trabalho busca entender o modelo perceptron e sua forma mais geral, o perceptron multicamadas. Para isso, descreve cada uma de suas etapas e os elementos que o compõe, desde sua origem inspirada em um dos primeiros modelos de redes neurais, o modelo de McCulloch e Pitts (1943), até a utilização do método do gradiente descendente para melhoria dos parâmetros do modelo, ilustrando também duas funções comuns no papel de função de ativação. A proposta do trabalho foi elaborar um algoritmo perceptron multicamadas no software R (R Core Team, 2014) a fim de testar empiricamente o ganho em acrescentar neurônios e/ou camadas à camada oculta em termos de precisão. Para isso, foi utilizada a base de dados mushrooms do artigo de Knopf (1981), onde vimos que a adição de camadas assim como a adição de neurônios não implica necessariamente na melhora do modelo em relação a precisão, além de se tornar cada vez mais custoso computacionalmente.
    Palavras-chave: Perceptron. Perceptron Multicamadas. Gradiente Descendente. Função de Ativação.
     if 1 02 511559

    Orientador: Douglas Rodrigues Pinto (IME/UFF)

    Banca:

    • Douglas Rodrigues Pinto (IME/UFF)
    • Jessica Quintanilha Kubrusly (IME/UFF)
    • Karina Yuriko Yaginuma (IME/UFF)
    MARLON VINÍCIUS ALVES DE ARAÚJO. Métodos de Clustering em Aprendizado de Máquinas Não Supervisionado.

    Resumo: Atualmente, conforme a tecnologia avança, a quantidade de dados cresce exponencialmente, com milhões de terabytes de dados sendo gerados diariamente. Para obter informações a partir de um conjunto de dados, métodos de machine learning, ou aprendizado de máquinas, são utilizados para análises, previsões, resolução de problemas, de acordo com o que se busca extrair, automatizando o desenvolvimento de modelos analíticos. Porém, por mais que seja “fácil” o acesso há diversas bases de dados, em alguns casos, as bases não conterão todas as informações almejadas, como dados rotulados, ou categorizados. Isso acontece porque coletar dados anotados pode ser extremamente caro, custar muito tempo, e em certas situações, até mesmo impossível. Para lidar com essa ausência de informações desejadas, são utilizadas técnicas de aprendizado de máquinas não supervisionado, que auxiliam na detecção de padrões e percepções ocultas nos dados analisados. Entre diversos métodos, um dos mais importantes dentro de aprendizagem não supervisionada é o clustering, ou agrupamento, em que seus algoritmos processarão os dados, permitindo encontrar clusters (grupos) caso existam, de forma que os elementos dentro do mesmo cluster sejam o mais semelhante possível, e tenham menos ou nenhuma semelhança com os elementos de outro grupo. O objetivo deste trabalho é estudar e aplicar algoritmos de clustering em um conjunto de dados não rotulado, utilizando suas respectivas ferramentas na linguagem de programação R, verificando se os algoritmos são capazes de fornecer resultados eficientes e confiáveis.
    Palavras-chave: Clustering. Cluster. Método k-means. Método complete linkage.
     if 1 02 511559

    Orientadora: Karina Yuriko Yaginuma (IME/UFF)

    Banca:

    • Karina Yuriko Yaginuma (IME/UFF)
    • Hugo Henrique Kegler dos Santos (IME/UFF)
    • Patrícia Lusié Velozo da Costa (IME/UFF)
    MATHEUS ALVES PEREIRA DOS SANTOS. Modelos espaço-temporais para dados de contagem.

    Resumo: Este trabalho discute o estudo de fenômenos com dependência espaço-temporal que podem ser descritos por meio de dados de contagem. A pesquisa busca avaliar a capacidade de uma metodologia espaço-temporal, baseada na distribuição de Poisson, na modelagem desse tipo de fenômeno. O modelo aqui analisado baseia-se no modelo espacial proposto por Leroux, Lei e Breslow (2000), enquanto a dependência temporal ́e considerada por meio de um caso particular de modelos lineares dinâmicos generalizados, o polinomial de primeira ordem. Toda a inferência utilizada neste trabalho baseia-se na teoria de inferência Bayesiana e na utilização do método de amostragem de Monte Carlo Hamiltoniano, por meio do software Stan. A avaliação do modelo proposto foi realizada por meio de um estudo de simulação, em que se considerou cinco diferentes cenários variando-se as condições de dependência espacial e temporal, assim como a variabilidade dos dados. Os resultados deste processo simulado revelaram um desempenho satisfatório do modelo no que diz respeito à estimação dos parâmetros de interesse em todos os cenários contemplados.

    Palavras-chave: Modelo espaço-temporal. Dados de contagem agregados. Modelos lineares dinâmicos generalizados. Inferência Bayesiana.if 1 02 511559

    Orientador: Jony Arrais Pinto Junior (IME/UFF)

    Banca:

    • Jony Arrais Pinto Junior (IME/UFF)
    • Estelina Serrano de Marins Capistrano (IME/UFF)
    • Patrícia Lusié Velozo da Costa (IME/UFF)
    MATHEUS MACHADO DE ALMEIDA. Análise de eficácia em grupos de baixo risco em ensaios clínicos randomizados.

    ResumoNesse projeto de trabalho de conclusão de curso estudaremos os principais conceitos e modelos estatísticos de experimentos delineados utilizados em ensaios clínicos e suas respectivas ferramentas no software R. Particularmente estudaremos métodos e delineamentos que nos permitam inferir se uma determinada intervenção surtiu ou não efeito na população estudada. Faremos um estudo de caso com dados simulados envolvendo tratamentos ou intervenções profiláticas.

    Palavras-chave: Estatística. Ensaios Clínicos. Experimento Delineado. Teste A/B. Teste Exato de Fisher. if 1 02 511559

    Orientador: Marcio Watanabe Alves de Souza (IME/UFF)

    Banca:

    • Marcio Watanabe Alves de Souza (IME/UFF)
    • Hugo Henrique Kegler dos Santos (IME/UFF)
    • Wilson Calmon Almeida dos Santos (IME/UFF)
    NATAN MORAES VAZ. Impacto da COVID-19 no número de mortes no Brasil em 2020.

    Resumo: Em 2020 a COVID-19 chegou ao Brasil e, por conta dos danos causados à saúde e da facilidade de sua transmissão, logo se tornou destaque nas mídias e nas redes sociais. Desde então, a busca por uma melhor compreensão da doença tornou-se prioridade, visando a adoção de medidas que pudessem diminuir o contágio e o número de óbitos. Buscando uma melhor compreensão sobre o efeito desta doença no número de mortes no país, este trabalho propôs o uso de análise de séries temporais como ferramenta para verificar o comportamento da evolução do número de óbitos no Brasil, mês a mês, nos últimos 10 anos. Utilizando-se o Modelo de Regressão Linear e o Modelo de Box & Jenkins, foram realizadas previsões para 2020, sobre a quantidade de óbitos esperados no país caso não houvesse a pandemia de COVID-19, e então comparou-se os valores obtidos com os dados reais fornecidos pela organização de saúde. Sobre os resultados obtidos, e em relação aos dados utilizados, tem-se que o Modelo Box & Jenkins apresentou uma melhor capacidade de previsão do que o Modelo de Regressão Linear. Verificou-se que o aumento do número de mortes previstos para o Brasil em 2020 foi de 13,83%, o que pode representar o impacto da pandemia no país.

    Palavras-chave: COVID-19 . Coronavírus. Brasil. Séries temporais . Modelo de Box & Jenkins.if 1 02 511559

    Orientadora: Márcia Marques de Carvalho (IME/UFF)

    Banca:

    • Márcia Marques de Carvalho (IME/UFF)
    • Ludmila da Silva Viana Jacobson (IME/UFF)
    • Moisés Lima de Menezes (IME/UFF)
    PAULO VICTOR CUNHA PORTO. Métodos Estatísticos de Classificação: Abordagem Aplicada ao Diagnóstico de Casos de Câncer de Mama.

    Resumo: Este trabalho analisou o desempenho de 06 diferentes modelos estatísticos em um problema de classificação de tumores entre malignos e benignos a partir de informações extraídas de exames de imagem. Os métodos utilizados foram: (i) Regressão Logística, (ii) K-Nearest Neighbors, (iii) Árvores de Classificação , (iv) Florestas Aleatórias, (v) SVM Polinomial e (vi) SVM Radial. A despeito de ter sido utilizada uma base de dados didática, é importante destacar o bom desempenho dos modelos, todos com níveis de acerto na base teste acima de 90,0%, com destaque para a Regressão Logística, Florestas Aleatórias e SVM Polinomial, que obtiveram os melhores resultados. Ainda, os modelos foram capazes de identificar o raio do tumor como a covariável de maior impacto nas chances de diagnostico de câncer de mama.

    Palavras-chave: Regressão logística. K-nearest neighbors. Árvores de classificação. Support vector machine.if 1 02 511559

    Orientadora: Jessica Quintanilha Kubrusly (IME/UFF)

    Banca:

    • Jessica Quintanilha Kubrusly (IME/UFF)
    • Hugo Henrique Kegler dos Santos (IME/UFF)
    • Karina Yuriko Yaginuma (IME/UFF)
    RODRIGO MOURÃO CALAND DIAS. Testando empates não revelados via modelo Plackett-Luce.

    Resumo: No presente trabalho, buscamos testar formalmente a existência de empates não revelados em dados de ranqueamento, com base no modelo Plackett-Luce. Dentro das suposicões desse modelo, podemos calcular probabilidades associadas a ranks através de escalares positivos, cada qual associado a um objeto distinto. Apesar da forma da distribuição dos ranks ser bem conhecida, a estimação dos seus parâmetros não é uma tarefa fácil, sendo necessário recorrer a métodos numéricos, como por exemplo, o Newton-Raphson ou o Minorize-Maximization. A hipótese (nula) de que alguns dos indivíduos estão empatados pode ser formulada como uma redução do espaço paramétrico e, portanto, pode ser testada através do teste da razão de verossimilhança ou do teste de Wald. Para viabilizar os testes, apresentamos modificações do algoritmos mencionados que nos permitem estimar o vetor de parâmetros admitindo restrições de igualdade entre quaisquer de suas componentes. Além disso, foi introduzida um proposta consistente de chute inicial para os parâmetros do modelo, a qual foi utilizada para inicializar os procedimentos numéricos citados. Na sequência, foi analisado um conjunto de dados da Fórmula 1 contendo ranks de pilotos em treinos classificatórios. Inicialmente, o vetor paramétrico foi estimado sem quaisquer restrições e as estimativas foram utilizadas para gerar um ranqueamento dos pilotos, no qual pilotos de mesma equipe tendiam a ocupar posições adjacentes. Apesar disso, a hipótese de que pilotos de mesma equipe estão empatados foi rejeitada por ambos os testes. Por fim, foi empregado o método de agrupamento hierárquico com o objetivo de gerar, para cada possível numérico de grupos, clusterizações dos pilotos com base nas distâncias entre as respectivas estimativas. Todos os agrupamentos foram rejeitados de acordo com O teste de Wald, enquanto que o teste da razão de verossimilhança forneceu evidências de que existem empates (não revelados) entre alguns pilotos.

    Palavras-chave: Dados de ranqueamento. Plackett-Luce. Algoritmo MM. Teste de Wald. Teste da Razão de Verossimilhança.if 1 02 511559

    Orientador: Wilson Calmon Almeida dos Santos (IME/UFF)

    Banca:

    • Wilson Calmon Almeida dos Santos (IME/UFF)
    • Hugo Henrique Kegler dos Santos (IME/UFF)
    • Mariana Albi de Oliveira Souza (IME/UFF)
    THIAGO AUGUSTO SANTOS LIMA. Análise de risco em recomendações de filmes e piadas via Filtragem Colaborativa.

    Resumo: O objetivo de um sistema de recomendação é recomendar itens de interesse para um grupo de consumidores. A técnica de Filtragem Colaborativa foi construída a partir da premissa de que usuários são considerados semelhantes se eles avaliam itens em comum de maneira similar, enquanto que, itens são considerados semelhantes se eles foram avaliados por usuários em comum com notas similares. Este trabalho teve primeiro a finalidade de discutir diferentes escolhas metodológicas presentes na Filtragem Colaborativa através de dois bancos de dados distintos: um referente a filmes e outro sobre piadas. Esse estudo realizou os cálculos de similaridades através de 4 metodologias diferentes: Similaridade Cosseno entre Usuários, Similaridade Cosseno entre Itens, Similaridade Pearson entre Usuários e Similaridade Cosseno Ajustado entre Itens. Através disso, também foram estudadas, para cada uma das abordagens, a existência de relações dos usuários e itens nos êxitos das recomendações. Além disso, foi proposto uma nova abordagem metodológica construída através das combinações das 4 metodologias citadas anteriormente presentes na Filtragem Colaborativa. Essas combinações são realizadas através de probabilidades de acertos estimadas por modelos logísticos construídos para cada uma das abordagens. Os resultados das recomendações na base de piadas foram superiores aos resultados na base de filmes nas quatro abordagens estudadas. Ao avaliar os desempenhos das abordagens em ambas as bases, os resultados das abordagens se diferem, inclusive ao nomear a melhor abordagem em cada uma das bases. Através desse estudo, foi discutido o conceito dessa nova abordagem criada, de forma que, ao realizar as combinações das abordagens de modo inteligente, os resultados das recomendações utilizando a metodologia da Filtragem Colaborativa podem ser considerados superiores.

    Palavras-chave: Regressão logística. Modelos lineares generalizados. Filtragem colaborativa. Sistemas de recomendação.if 1 02 511559

    Orientadora: Jessica Quintanilha Kubrusly (IME/UFF)

    Banca:

    • Jessica Quintanilha Kubrusly (IME/UFF)
    • Douglas Rodrigues Pinto (IME/UFF)
    • Rafael Santos Erbisti (IME/UFF)
    VINICIUS AGUIAR DE SOUSA CRISTINO. Aplicações de experimentos delineados em produtos e serviços digitais.

    Resumo: A cada dia, mais e mais empresas buscam formas de aproveitar a grande quantidade de dados disponíveis para melhorar o resultado de seus negócios. Entretanto, a qualidade da informação obtida por meio desses dados nem sempre é suficiente para a solução de problemas específicos de uma certa companhia de modo a possibilitar a melhor tomada de decisão pelos gestores. Nesse cenário, a produção de dados planejados pode suprir os gestores com uma informação de alta qualidade e as técnicas de experimentos delineados como os testes A/B tem tido um crescimento exponencial no ambiente de empresas, particularmente em companhias de tecnologia, comércio eletrônico e na área de Marketing digital. Nesse projeto de trabalho de conclusão de curso será estudado os principais conceitos e modelos estatísticos de experimentos delineados utilizados hoje em Marketing digital e suas respectivas ferramentas no R. Também será feito o estudo de casos reais em que experimentos delineados foram aplicados com sucesso em ambientes de negócios.

    Palavras-chave:  Estatística. Modelos lineares. Delineamento de experimento. Testes A/B.if 1 02 511559

    Orientador: Marcio Watanabe Alves de Souza (IME/UFF)

    Banca:

    • Marcio Watanabe Alves de Souza (IME/UFF)
    • Hugo Henrique Kegler dos Santos (IME/UFF)
    • Wilson Calmon Almeida dos Santos (IME/UFF)
    Fechar Todos

    2021 – 2º Semestre

    Escondido

    Your content goes here. Edit or remove this text inline or in the module Content settings. You can also style every aspect of this content in the module Design settings and even apply custom CSS to this text in the module Advanced settings.

    ADRIELLY AGDA COSTA DE SOUZA. Estratégias estatísticas para busca de fatores associados à colelitíase pós-bariátrica.

    Resumo: A colelitíase, também conhecida como pedra na vesícula, é a situação em que pequenas pedras são formadas por conta do depósito de substâncias associadas aos fluidos digestivos. Em pacientes que realizam cirurgia bariátrica, a colelitíase vem sendo notada naqueles que tiveram rápida perda de peso, mas ainda não está estabelecido na literatura médica quais seriam os fatores determinantes para a formação desses cálculos. A proposta deste estudo é fazer uma abordagem ampla, recuperando ferramentas estatísticas e acrescentando o uso de regressão logística para avaliar possíveis fatores de risco para presença de colelitíase após realizar a cirurgia bariátrica. Para isso, foram coletadas informações dos prontuários de 565 pacientes que realizaram as cirurgias Bypass gástrico em Y de Roux ou a gastrectomia vertical, conhecida como Sleeve, em uma clínica particular de gastroplastia. Deste total de pacientes, 439 (77,7\%) são do sexo feminino; 309 (54,6 \%) são da cor ou raça branca e 313 (55,4\%) realizaram a cirurgia Bypass gástrico em Y de Roux. A idade média dos pacientes foi de 40 $\pm $ 9,8 anos, com altura de 1,65 $\pm $ 0,09 metros, peso inicial de 116 $\pm$ 21,8 kg e peso ideal de 58 $\pm$ 21,8 kg. O IMC teve média observada de 42,3 $\pm$ 5,6 kg/m². A esteato-hepatite não alcoólica (NASH), esteve presente em 271 (47,9\%) pacientes.
    Os resultados mostraram que 78 (13,8\%) pacientes desenvolveram colelitíase após o procedimento cirúrgico. No grupo com colelitíase foi observada maior presença de pacientes do sexo feminino, e com presença da comorbidade esteato-hepatite não-alcólica (NASH). Além disso, o tempo até o diagnóstico de colelitíase foi significativamente menor na cirurgia Bypass do que na cirurgia Sleeve. Ao comparar pacientes com e sem colelitíase após a cirurgia bariátrica, foi possível observar associação significativa entre a presença da esteato-hepatite não alcoólica (NASH) e a colelitíase após a cirurgia bariátrica. Inicialmente, foram ajustados 3 modelos de regressão logística que resultaram em uma acurácia menor que 50\% e baixas taxas de sensibilidade. Diante dos resultados, foi aplicada a abordagem de Firth à regressão logística, que teve medidas de desempenho semelhantes às da regressão logística usual. As variáveis que foram significativas no modelo escolhido foram sexo, peso inicial, peso ideal, e NASH. Apesar dos modelos não se adequarem bem aos dados, o estudo permite concluir que ser do gênero masculino é um fator de proteção para a colelitíase e a presença de esteato-hepatite não-alcoólica (NASH) é fator de risco para desenvolvimento de colelitíase após a cirurgia bariátrica.

    Palavras-chave: Colelitíase. Cirurgia bariátrica. Modelos lineares generalizados. Regressão logística. if 1 02 511559

    Orientadora: Ana Beatriz Monteiro Fonseca (IME/UFF)

    Banca:

    • Ana Beatriz Monteiro Fonseca (IME/UFF)
    • José Rodrigo de Moraes (IME/UFF)
    • Rafael Santos Erbisti (IME/UFF)
    BEATRIZ LOUREIRO DE SOUZA. Modelos de Séries Temporais para a Predição de Incidência de Tuberculose no Brasil.

    Resumo: A tuberculose (TB) é uma doença infecciosa e transmissível que, por mais que tenha cura, tratamento e prevenção, ainda acomete muitas pessoas, principalmente no Brasil, que está entre os 30 países com as maiores incidências da doença no mundo. Por esse motivo, o Ministério da Saúde lançou em 2017, o Plano Nacional pelo Fim da Tuberculose como Problema de Saúde Pública, que baseia-se em estratégias relacionadas ao acesso à prevenção, ao diagnóstico e ao tratamento da doença em busca da diminuição da incidência da doença no país. Por ser um país com distintos cenários econômicos, climáticos e populacionais, o estudo a níveis desagregados da tuberculose no Brasil se mostra fundamental, visto que o comportamento da doença em cada estado se mostra diferente. Sendo assim, no presente trabalho, analisou-se, no período de 2010 a 2019, o comportamento da taxa de incidência de tuberculose nos cinco estados com maior população e nos estados com maiores taxas de incidência de \ac{TB} em cada região no ano 2019, além de fazer previsões para cada uma dessas Unidades Federativas estudadas. Para isso, foram realizadas análises de séries temporais pela metodologia de Box \& Jenkins para encontrar modelos adequados a cada estado analisado que fossem capazes de realizar boas previsões para as taxas de incidência de novos casos mensais da tuberculose. Além disso, verificou-se o impacto da pandemia na notificação da doença no ano de 2020 no país e constatou-se que a COVID-19 teve efeito significativo na notificação de novos casos de tuberculose no Brasil, diminuindo-a, principalmente nos meses posteriores ao começo da pandemia no país. Sobre os resultados obtidos, verificou-se que a taxa de incidência da \ac{TB} no país, em geral, diminuíram, porém voltaram a crescer por volta do ano de 2016. Nenhuma unidade federativa apresentou previsão de tendência de queda da taxa, indicando que se o Brasil continuar com tal comportamento, não conseguirá atingir as metas para a erradicação da doença estipuladas pelo Ministério da Saúde.

    Palavras-chave: Séries temporais. Tuberculose. Box & Jenkins. ARIMA. if 1 02 511559

    Orientador: Rafael Santos Erbisti (IME/UFF)
    Coorientadora: Patrícia Lusié Velozo da Costa (IME/UFF)

    Banca:

    • Rafael Santos Erbisti (IME/UFF)
    • Patrícia Lusié Velozo da Costa (IME/UFF)
    • Ana Beatriz Monteiro Fonseca (IME/UFF)
    • Mariana Albi de Oliveira Souza (IME/UFF)
    BRENO SCAFFO DE ANDRADE COSTA. Mensurando a influência dos fatores de risco na variação da letalidade da COVID-19 entre os estados do Brasil.

    Resumo: A A pandemia da COVID-19 é uma das maiores da história, tendo levado a óbito mais de 633000 pessoas no Brasil até o início do mês de fevereiro de 2022, o que coloca a doença como a terceira maior causa de óbitos no país, atrás apenas de doenças cardiovasculares e cânceres. Entretanto, o Brasil é um país de dimensões continentais e com grande heterogeneidade demográfica e socioeconômica entre suas 27 unidades federativas, e foi analisado se essas características impactaram na mortes dos pacientes da COVID-19. Nesse projeto de trabalho de conclusão de curso, foram estudados os principais fatores de risco para a doença do novo coronavírus e chegando aos seguintes resultados, estados que foram epicentros da pandemia no Brasil apresentaram as maiores taxas de mortalidade, Rio de Janeiro líder com 0.38 e Amazonas 0.33. Entre os resultados encontrados foi possível observar que o meio rural apresenta maior risco quando comparado com o urbano, e que baixos níveis de escolaridade apresentam maior risco de óbito quando comparado aos demais. Já para as comobidades, foi observado que a asma não é um fator de risco, OR $\approx 1$, e para as demais comorbidades foram encontrados valores maiores do que para as OR. E isso será confirmado na apresentação do modelo logístico.

    Palavras-chave: Regressão logística. Epidemiologia. Regressão linear múltipla. Modelos lineares generalizados.if 1 02 511559

    Orientador: Marcio Watanabe Alves de Souza (IME/UFF)

    Banca:

    • Marcio Watanabe Alves de Souza (IME/UFF)
    • Marco Aurélio dos Santos Sanfins (IME/UFF)
    • Wilson Calmon Almeida dos Santos (IME/UFF)
    CAIO MACEDO ALVES. Análise espacial dos casos de dengue na cidade do Rio de Janeiro.

    Resumo: A dengue é uma arbovirose transmitida entre humanos em meio urbano e periurbano pelos mosquitos invasores, Aedes aegypti e Aedes albopictus. O conhecimento da dinâmica espacial do vírus da dengue é imprescindível para subsidiar estratégias de vigilância e controle mais eficazes nas áreas urbanas. Neste trabalho será utilizado um modelo para relacionar o número de casos notificados de dengue e indicadores sociodemograficos  no município do Rio de Janeiro, identificando áreas de maior risco de transmissão. Foi considerado o modelo poisson com erros espacialmente estruturados (ICAR). O modelo espacial sob o enfoque bayesiano, e para estimação dos parâmetros e hiperparâmetros de interesse foi utilizado o método MCMC. Assim, este trabalho realiza uma análise exploratória espacial para investigar possíveis dependências no espaço, utilizando os Índices de Moran Global e Local, e também os Índice C de Geary. Pelo valor encontrado, há indícios de dependência espacial positiva. Depois, vou feito mapas coropléticos das quatro covariáveis do modelo, com objetivo de entender a distribuição espacial das covariáveis. Constatou-se que a covariável “percentualde domicílios com esgoto adequado” não foi estatisticamente significante para o modelo. Ao rodar o modelo e calcular o risco relativo de dengue em cada bairro do Rio de Janeiro, notou-se que as regiões da Zona Oeste, e algumas regiões com vulnerabilidade social possuem risco maior do que o esperado no município, supondo homogeneidade. Além da identificação de área com risco maior do que o esperado, também foi avaliado o efeito das covariáveis no risco relativo de dengue. Aqui, constatou-se que a cada incremento de 0,07 pontos percentuais na variável “percentual de domicílio com lixo adequado”, aumento o risco relativo de dengue em 15%. A cada incremento de 0,11 pontos percentuais na variável “percentual de domicílios com renda domiciliar de até 1 SM”aumenta o risco risco de dengue em 31,9%. A cada incremento de 0,10 pontos percentuais na variável “percentual de domicílios em rua sem arborização” diminui o risco de dengue em 14,2%.

    Palavras-chave: Série temporal. Modelo CAR. Dengue. Inferência Bayesiana. MCMC.if 1 02 511559

    Orientador: Rafael Santos Erbisti (IME/UFF)

    Banca:

    • Rafael Santos Erbisti (IME/UFF)
    • Jony Arrais Pinto Junior (IME/UFF)
    • Luis Guillermo Coca Velarde (IME/UFF)
    FELIPE FENELON DE SENA MACHADO. Modelos Dinâmicos Bayesianos Aplicados aos Casos Acumulados de COVID-19 no Brasil.

    Resumo: AA COVID-19 foi pela primeira vez identificada na cidade de Wuhan, na China, e chegando eventualmente ao Brasil em fevereiro de 2020. Desde então, infelizmente foram mais de 645.000 mortes e 28 milhões de casos confirmados . O intuito deste trabalho é avaliar o período pré vacinação da população adulta do Brasil, contra a COVID-19, para entender como evoluía o número de casos semana a semana. Foram consideradas 67 semanas, desde a identificação do primeiro caso em fevereiro de 2020, até a última semana de maio de 2021, quando logo em seguida a vacinação se iniciou. A série foi estimada através de um Modelo Dinâmico Linear Bayesiano Normal, permitindo que as distribuições dos parâmetros seguissem formas analíticas tratáveis, e assim um algoritmo iterativo que evolui a incerteza sobre os parâmetros à medida que novas observações são computadas. Através das teorias sobre Lei de Variância, Fator de Desconto e Decomposição em Valores Singulares, um modelo de crescimento exponencial como em foi ajustado, com a diferença de que um dos parâmetros permaneceu fixo, para se manter dentro da teoria linear. Assim, diversos modelos foram testados com uma grade de valores deste parâmetro $\beta$, que descreve a taxa de crescimento e através das várias simulações, os modelos que melhor se ajustaram ao crescimento dos casos foram os que possuíam em uma faixa de 1 a 1,1, indicando que o crescimento não convergiria, ou seja cresceria para um número de casos sem limites.

    Palavras-chave: Modelos dinâmicos bayesianos. Decomposição em valores singulares. COVID-19.if 1 02 511559

    Orientadora: Maria Cristina Bessa Moreira (IME/UFF)

    Banca:

    • Maria Cristina Bessa Moreira (IME/UFF)
    • Núbia Karla de Oliveira Almeida (IME/UFF)
    • Patrícia Lusié Velozo da Costa (IME/UFF)
    FERNANDA DA SILVA FERNANDES. Como otimizar análises preditivas utilizando um data lake.

    Resumo: Quando o assunto é análise de dados, é comum encontrar o termo big data. Hoje em dia gera-se uma grande quantidade de dados, numa velocidade surpreendente e em uma variedade inumerável. Analisar esses conjuntos de informações torna-se algo trabalhoso sem as ferramentas corretas. O conceito de um data lake é frequentemente adotado como solução nesse cenário. Ao utilizar este conceito, algumas vantagens são observadas: o armazenamento dos dados, a facilidade de acesso a qualquer um deles e escalabilidade de processamento dos mesmos. Sendo assim, é possível aplicar analises preditivas cada vez mais robustas, pois todos os dados estão organizados num mesmo repositório que permite um processamento adequado. Neste projeto, será demonstrado como implementar um data lake utilizando a solução do Azure Microsoft evidenciando suas vantagens. Além disso, serão aplicadas modelagens de aprendizado de máquinas a fim de utilizar uma análise preditiva sobre a contratação de um certificado de depósito bancário (CDB), que será objeto de estudo deste projeto. Logo, identificou-se que há uma maior simplicidade ao comparar e executar modelagens de aprendizado de máquinas otimizando uma análise preditiva ao adotar essa solução.
    Palavras-chave: Data lake. Aprendizado de máquinas. Análise preditiva. Big data.if 1 02 511559

    Orientador: Douglas Rodrigues Pinto (IME/UFF)

    Banca:

    • Douglas Rodrigues Pinto (IME/UFF)
    • Jessica Quintanilha Kubrusly (IME/UFF)
    • Karina Yuriko Yaginuma (IME/UFF)
    GABRIEL HERCULANO VARANDA. Modelagem das taxas de óbitos por acidentes de transportes nas Unidades Federativas do Brasil.

    Resumo: Os acidentes de transporte são aqueles que envolvem equipamentos projetados ou utilizados para o transporte de bens ou pessoas, englobando os acidentes de trânsito e as demais ocorrências em via pública. Esses acidentes estão situados entre uma das principais causas de morte no Brasil, em especial entre as principais causas externas de mortalidade. Diante disto, este trabalho buscou modelar as taxas de óbitos por acidentes nas Unidades Federativas do Brasil, através da modelagem sob a perspectiva bayesiana, e considerando variáveis explicativas socioeconômicas tais como Índice de Gini e percentual da população com 25 anos ou mais que possuíam ao menos o ensino médio completo. Foram ajustados modelos sem e com estrutura espacial. Para estrutura espacial, utilizou-se o modelo Modelo Autoregressivo Condicional (CAR) proposto por Leroux, Lei e Breslow (2000). Para comparação dos modelos utilizou-se as medidas Erro Quadrático Médio (EQM) e Critério de Informação do Desvio (DIC). Os modelos CAR Leroux apresentaram melhor ajuste e maior precisão.
    Palavras-chave: Acidentes de transporte. Inferência Bayesiana. Modelo de regressão linear normal. Modelagem espacial. Modelo autoregressivo condicional.if 1 02 511559

    Orientadora: Patrícia Lusié Velozo da Costa (IME/UFF)

    Banca:

    • Patrícia Lusié Velozo da Costa (IME/UFF)
    • Jony Arrais Pinto Junior (IME/UFF)
    • Rafael Santos Erbisti (IME/UFF)
    GABRIEL PEREZ CLARO SANTANA MIZUNO. Crise de 2008: o impacto das restrições nas vendas a descoberto sobre a volatilidade em mercados financeiros de países desenvolvidos.

    Resumo: Este Trabalho de Conclusão de Curso visa avaliar as políticas de restrição às operações de venda a descoberto para reduzir a volatilidade dos mercados financeiros de países desenvolvidos durante a grande crise que se desencadeou originalmente nos Estados Unidos em meados de 2008. A plataforma metodológica consiste de análise de intervenção nas equações de modelos estatísticos de volatilidade condicional do tipo GARCH. Testes de hipóteses para significância dos coeficientes associados às variáveis de intervenção, assim como o uso de critérios de informação dos tipos AIC e BIC, permitem acessar a eficácia das políticas de restrição, que foram impostas — e, em algum momento, desativadas — por autoridades monetárias em momentos específicos de cada um dos países desenvolvidos. A partir dos resultados, serão traçados perfis das conjunturas dos mercados financeiros analisados, tendo em vista as realidades dos países e o quão expostos economicamente os mesmos encontravam-se à crise de 2008. O objetivo central é este: contribuir para a literatura, com sugestões para as autoridades regulatórias dos mercados financeiros no mundo sobre suas atuações no tocante a políticas de intervenção para reduzir risco de mercado.

    Palavras-chave: Série temporal. Modelo GARCH. Crise de 2008. Análise de intervenção. Simulação de Monte Carlo.if 1 02 511559

    Orientador: Adrian Heringer Pizzinga (IME/UFF)

    Banca:

    • Adrian Heringer Pizzinga (IME/UFF)
    • Wilson Calmon Almeida dos Santos (IME/UFF)
    • Valentin Sisko (IME/UFF)
    GABRIELA DE BARROS COUTINHO. Análise do tempo de sobrevida de idosos internados emergencialmente por doenças respiratórias no estado do Rio de Janeiro em 2019.

    Resumo: Com o início da pandemia da COVID-19 fatores associados a enfermidade e tratamentos adequados eram desconhecidos. Este trabalho de conclusão de curso teve como objetivo principal investigar o comportamento do tempo de internação até a morte de pacientes idosos, internados emergencialmente no estado Rio de Janeiro no ano de 2019, por doenças respiratórias. Os resultados desta investigação viabilizarão comparações futuras com pesquisas que atualmente estão focando na COVID-19. Metodologia: Análise de sobrevivência considerando o óbito como a falha, não óbito como censura e características dos pacientes, das internações e dos hospitais como variáveis regressoras. Os dados foram obtidos a partir do Sistema de Informações Hospitalares do SUS . Resultados: O modelo que melhor se ajustou aos dados foi considerando a distribuição LogNormal, sendo as variáveis regressoras significativas (p-valor < 0,05) classe etária, raça/cor, diagnóstico principal, natureza jurídica do hospital e a estação climática. Em especial identificou-se que o tempo de sobrevida mediano de um paciente com 80 anos ou mais é reduzido 47,41% em relação a um paciente com 60 a 69 anos.

    Palavras-chave: Análise de sobrevivência. Kaplan-Meier. Log-Rank. Peto. Modelos paramétricos.if 1 02 511559

    Orientadora: Núbia Karla de Oliveira Almeida (IME/UFF)

    Banca:

    • Núbia Karla de Oliveira Almeida (IME/UFF)
    • Maria Cistina Bessa Moreira (IME/UFF)
    • Renan Moritz Varnier Rodrigues de Almeida (COPPE/UFRJ)
    GABRIELA FERREIRA FERNANDES. Aplicação de modelos de regressão para a previsão de preço de residência.

    Resumo: Neste trabalho abordaremos o uso de modelos de regressão baseados em métodos de Regressão Linear Múltipla, Árvores de Regressão e Florestas Aleatórias, para realizar a previsão de preços de imóveis situados na cidade de Ames, nos Estados Unidos. Primeiro foi feita uma análise descritiva tanto da variável resposta como das variáveis explicativas. Em seguida foram ajustados os métodos citados acima, sendo considerado como variável resposta não só o preço de venda como também seu logaritmo. Os modelos com melhor resultado foram aqueles cuja variável resposta foi o logaritmo do preço de venda. Vale destacar que tanto o modelo Linear quanto o Floresta Aleatória apresentaram bons resultados tanto nos dados de treino quanto nos de teste.

    Palavras-chave: Modelo de regressão. Modelo de Regressão Linear Múltiplo. Árvores de Regressão. Floresta Aleatória. Preço de imóveis.if 1 02 511559

    Orientadora: Jessica Quintanilha Kubrusly (IME/UFF)

    Banca:

    • Jessica Quintanilha Kubrusly (IME/UFF)
    • Ana Beatriz Monteiro Fonseca (IME/UFF)
    • Mariana Albi de Oliveira Souza (IME/UFF)
    IASMYN LUGON SILVA. Aplicação da Teoria de Markowitz: uma abordagem para criptoativos.

    Resumo: A Teoria de Carteiras de Markowitz se baseia na análise de risco-retorno e no conceito de Fronteira Eficiente. Para análise de uma carteira de investimentos, os ativos não devem ser avaliados de forma individual, mas sim considerando todo o portfólio. Utilizando medidas como correlação e variância, o investidor pode buscar maximizar seus retornos dado determinado risco ou minimizar o risco dado um determinado retorno. Para este trabalho, foi realizada uma coleta de dados de retornos de diferentes criptomoedas com o objetivo de avaliar a aplicabilidade da teoria de Markowitz para otimização de uma carteira de investimentos de altcoins. Como resultado, verificou-se que a otimização de Markowitz, com ou sem restrições, apresenta retornos superiores a uma carteira de pesos iguais com risco similar, se mostrando uma estratégia interessante para investidores que buscam otimizar seus investimentos.

    Palavras-chave: Markowitz. Otimização de investimentos. Fronteira eficiente. Criptomoedas.if 1 02 511559

    Orientador: Marco Aurélio dos Santos Sanfins (IME/UFF)
    Coorientadora: Tuany Esthefany Barcellos de Carvalho Silva (PUC-Rio/Mestranda)

    Banca:

    • Marco Aurélio dos Santos Sanfins (IME/UFF)
    • Tuany Esthefany Barcellos de Carvalho Silva (PUC-Rio/Mestranda)
    • Eduardo Ferioli Gomes (IME/UFF)
    • Wilson Calmon Almeida dos Santos (IME/UFF)
    IGOR DA SILVA FREITAS DE SOUZA. Evolução temporal da área desmatada e de indicadores do desmatamento: um olhar sobre as regiões norte e centro-oeste do Brasil.

    Resumo: Ao longo dos últimos anos, muito tem-se falado sobre a existência de relação entre o aumento na área desmatada, especialmente da região amazônica, com o aumento da ocupação da mesma região por atividades agropecuárias e, também, pelo aumento sucessivo da quantidade de queimadas realizadas. O presente trabalho se propõe a avaliar a série temporal do desmatamento e a correlação temporal dela com outras séries indicadoras, como a área de pastagem, área reservada à agricultura, extração de madeira, efetivo bovino e quantidade de focos de queimadas. A série usada de base para avaliar o desmatamento é representada pela área de floresta nativa, medida anualmente e avaliada no período de 1985 a 2019, possuindo um total de 35 observações. Foram construídos modelos ARIMA e funções de transferência, no software R, para gerar previsões anuais para a área desmatada para os anos de 2020 a 2030. Foram realizadas previsões para dois blocos de regiões: o primeiro, composto pela união das Regiões Norte e Centro-Oeste, e o outro, pela agregação dos dados dos estados do Pará e Mato Grosso. Na função de transferência para as Regiões Norte e Centro-Oeste, apenas a série de pastagem foi identificada como temporalmente correlacionada à área de floresta nativa, mas seu acréscimo na qualidade de ajuste e de previsão foi marginal. O melhor modelo, neste caso, estimou uma perda de 1.219.386 hectares de área da floresta nativa por ano, entre 2020 e 2030. Porém, para os estados do Pará e Mato Grosso, duas séries se mostraram temporalmente correlacionadas com a área natural preservada, pastagem e quantidade de focos de queimadas, e a função de transferência melhorou em 88 a qualidade das previsões, estimando uma média de 697.700 hectares desmatados por ano, no mesmo período.

    Palavras-chave: Série temporal. Box-Jenkins. Função de transferência. Previsões. Desmatamento.if 1 02 511559

    Orientadora: Ana Beatriz Monteiro Fonseca (IME/UFF)

    Banca:

    • Ana Beatriz Monteiro Fonseca (IME/UFF)
    • Ludmilla da Silva Viana Jacobson (IME/UFF)
    • Márcia Marques de Carvalho (IME/UFF)
    ISABELA DA COSTA GRANJA. Impactos causados pela Covid-19 no setor educacional Brasileiro.

    Resumo: A Covid-19 surgiu na China, em dezembro de 2019, onde houve os primeiros relatos de uma infecção respiratória que, posteriormente, descobriu-se ser causada por um novo coronavírus, o SARS-CoV-2. A mesma trata-se de uma doença altamente contagiosa, que pode ser transmitida através do aperto de mão, gotículas de saliva e objetos ou superfícies contaminadas. Até 30 de novembro de 2021, cerca de 262 milhões de indivíduos foram contaminadas pelo novo vírus. Como tentativa de minimizar o contágio, medidas de restrição foram adotadas, como o fechamento das escolas. Este projeto tem como finalidade analisar o impacto da Covid-19 no setor educacional brasileiro, a fim de comparar as diferentes consequências nas redes públicas e privadas de ensino. Técnicas de estatística descritiva foram utilizadas para descrever e agregar dados, obtidos por meio de formulários enviados aos profissionais da educação. Para análise, utilizou-se o teste Qui-quadrado, a fim de verificar a dependência entre as variáveis observadas. Também foi utilizado o método de análise fatorial exploratória, buscando evidenciar a existência de variáveis latentes. Os resultados obtidos foram satisfatórios, e mostram o impacto da pandemia no setor educacional brasileiro.

    Palavras-chave: Covid19. Educação. Análise Descritiva. Análise Fatorial Exploratória. Impacto Educacional.if 1 02 511559

    Orientador: Marco Aurélio dos Santos Sanfins (IME/UFF)

    Coorientadora: Tuany Esthefany Barcellos de Carvalho Silva (PUC-RIo/Mestranda)

    Banca:

    • Marco Aurélio dos Santos Sanfins (IME/UFF)
    • Tuany Esthefany Barcellos de Carvalho Silva (PUC-Rio/Mestranda)
    • Pablo Silva Machado Bispo dos Santos (UFF/SSE)
    • Amanda Lacerda Jorge (UFF/PPGS)
    ISABELLE DE OLIVEIRA PINTO. Associação entre poluição atmosférica de queimadas e internação por doenças cardiovasculares.

    Resumo: O objetivo principal deste projeto é avaliar o efeito da poluição atmosférica no período de seca sobre as internações por doenças cardiovasculares nos municípios da Amazônia Legal. A área de estudo é definida pelos municípios que compõem a Amazônia Legal e o período limitado ao ano de 2019, nos meses de Maio, Junho, Julho, Agosto, Setembro e Outubro. A escolha desses meses é devido a ocorrência de queimadas, quando geralmente se observa um aumento nas internações hospitalares. Foram utilizados os dados do SISAM, sobre as concentrações de material particulado fino PM2.5, temperatura e umidade, por mês e município. Para o desfecho de saúde foram utilizados os dados disponíveis no DATASUS, por meio do Sistema de Internações Hospitalares do SUS (SIH/SUS). Na análise dos dados foi estimado um Modelo de Regressão Linear Múltipla. A variável resposta do modelo é o log da taxa de internação e as variáveis explicativas são as variáveis ambientais, que são temperatura, umidade e concentração de PM2.5, além dos meses e interações das variáveis ambientais. Como objetivos específicos pretende-se: (i) Avaliar se existe diferença entre as concentrações médias das variáveis ambientais entre os meses de Maio à Outubro nos municípios da Amazônia Legal; (ii) Estimar o efeito das variáveis ambientais na taxa de internação a partir de Modelo de Regressão Linear Múltipla; (iii) Avaliar o efeito de interação entre PM2.5 e umidade na taxa de internação; (iv) Avaliar o efeito de interação entre PM2.5 e temperatura na taxa de internação; (v) Avaliar o efeito de interação entre umidade e temperatura na taxa de internação. Após todas as análises e estimação do modelo ficou evidente a necessidade de estudar as 3 variáveis ambientais conjuntamente. Além de ser observado que quando a temperatura alta é esperado um aumento na taxa de internação, o mesmo ocorre quando a umidade é baixa e concentração de PM2.5 alta, quando avaliados separadamente. Já em relação ao efeito de interação tripla observou-se que o efeito esperado do material particulado fino na taxa de internação é um aumento de 34,23%, quando a umidade baixa e temperatura alta. Todas as análises foram realizadas no programa estatístico R.

    Palavras-chave: Queimada. Doenças cardiovasculares. Amazônia Legal. Poluição atmosférica.if 1 02 511559

    Orientadora: Ludmilla da Silva Viana Jacobson (IME/UFF)

    Banca:

    • Ludmilla da Silva Viana Jacobson (IME/UFF)
    • Ana Beatriz Monteiro Fonseca (IME/UFF)
    • Rafael Santos Erbisti (IME/UFF)
    KAROLINA DECNOP SOARES. Avaliação de modelos estatísticos para a precificação de seguros de automóveis na cidade do Rio de Janeiro.

    Resumo: O mercado de seguro de automóveis no Brasil é extremamente competitivo e obriga as seguradoras a realizarem uma tarifação correta e bem ajustada de acordo com o perfil do segurado. Neste trabalho, foram analisados modelos estatísticos para a precificação de seguros de automóveis na cidade do Rio de Janeiro, usando informações de uma carteira de apólices de seguros de uma determinada seguradora brasileira, no ano de 2015. Além disso, buscou-se determinar quais são os fatores relevantes para determinar o preço pago pelo segurado, o qual denominou-se por prêmio, a fim de que a seguradora assuma o risco do pagamento de indenizações, caso ocorra algum sinistro (como acidentes, perda de bens, morte etc.). De um modo geral, o prêmio deve ser suficiente para cobrir os sinistros esperados e as demais despesas da seguradora, incluindo uma margem de lucro. Devido à natureza assimétrica dos dados de severidade, foram adotados os modelos lineares generalizados para modelar a precificação de seguros, levando em consideração as características individuais do segurado, bem como as informações disponíveis sobre sua região de residência e seu respectivo automóvel. Foi realizado um paralelo entre as abordagens frequentista e Bayesiana e, em especial, foram considerados os modelos log-normal e gama para ajustar o prêmio do seguro de automóveis. Considerando o AIC como medida de comparação entre os modelos frequentistas e, o DIC entre os modelos Bayesianos, foi observado que o modelo log-normal se ajustou melhor ao conjunto de dados analisados em ambas as abordagens. Pelo fato de terem sido adotadas distribuições a priori vagas, os resultados das estimativas dos coeficientes foram similares para os métodos frequentista e Bayesiano. Além disso, todas as covariáveis consideradas (idade, sexo, estado civil, categoria do veículo e área de planejamento) mostraram-se relevantes para a modelagem de prêmio em ambas as abordagens.

    Palavras-chave: Ciências atuariais. Modelos lineares generalizados. Prêmio. Inferência Bayesiana.if 1 02 511559

    Orientadora: Estelina Serrano de Marins Capistrano (IME/UFF)

    Banca:

    • Estelina Serrano de Marins Capistrano (IME/UFF)
    • Ana Beatriz Monteiro Fonseca (IME/UFF)
    • Luis Guillermo Coca Velarde (IME/UFF)
    KEYLA DA COSTA ARAUJO. Sistema de monitoramento da mortalidade EuroMOMO: Uma adaptação para o Rio de Janeiro.

    Resumo: A ocorrência de ondas epidemiológicas pode ter como consequência variações abruptas significativas na curva de mortalidade se comparadas com o que era esperado para o período avaliado.
    O intuito do presente trabalho é discutir estratégias de modelagem de séries temporais para os dados de mortalidade natural, que possam ser empregadas para auxiliar na identificação do surgimento de epidemias.
    Na Europa, um sistema de monitoramento da mortalidade (EuroMOMO) utiliza uma generalização do Modelo de Regressão de Poisson (Quasi-Poisson com correção para sobredispersão) para produzir estimativas da mortalidade esperada. O modelo tem como variável dependente a mortalidade absoluta e depende de um conjunto pequeno de variáveis explicativas (tendência e sazonalidade determinísticas, temperatura e influenza). Foi discutido como tal modelo pode ser adaptado para a cidade do Rio de Janeiro, no intuito de criar um sistema de monitoramento análogo, bem como ilustrar seu uso com a aplicação em uma base de dados real. Ressalta-se que dados de mortalidade no município do Rio de Janeiro (e no Brasil) estão disponíveis e são facilmente encontrados em sites como o Portal da transparência do registro civil e no DATASUS, onde são fornecidos os dados da Central de Informações do Registro Civil e do Sistema de informação sobre mortalidade (SIM), respectivamente.

    Palavras-chave: Regressão de Poisson. Quasi-Poisson. Monitoramento da Mortalidade. Excesso de Mortalidade.if 1 02 511559

    Orientador: Wilson Calmon Almeida dos Santos (IME/UFF)

    Banca:

    • Wilson Calmon Almeida dos Santos (IME/UFF)
    • Ludmilla da Silva Viana Jacobson (IME/UFF)
    • Sandra Costa Fonseca (MEB/UFF)
    LARISSA PIRES SILVA. Investigação das propriedades dos índices de desigualdade e da relação entre a desigualdade e indicadores sociais nos municípios brasileiros.

    Resumo: A fome que se alastra as classes sociais mais baixas do Brasil deturpa os direitos idealistas apresentados na Constituição Federal. Empiricamente, vê-se a violação do direito à propriedade, à segurança, à liberdade, à igualdade e à vida e, tem-se evidenciada a irresponsabilidade estatal. Nesse cenário de ausência de fraternidade, a fome e outros componentes da desigualdade social são expostos. Utilizou-se o Censo 2010 como base de dados primária com o objetivo de investigar a relação entre indicadores sociodemográficos e a desigualdade social nos municípios brasileiros e, também, estudar as discussões existentes na literatura sobre os índices de desigualdade. Para que fosse identificado um limite a partir do qual as análises seriam realizadas, fez-se o uso de modelos de regressão linear simples entre cada variável resposta e a renda per capita para que fosse realizada a seleção dos municípios mais ricos que seriam utilizados. Essa separação entre pobres e ricos mostrou-se importante, pois a desigualdade pode ter significados diferentes em sociedades com características econômicas e políticas distintas. Manteve-se então, os cem municípios mais ricos dentre os cinco mil quinhentos e sessenta e quatro considerados pelo Censo e, viu-se a existência de uma limitação ao reflexo positivo da renda per capita no bem-estar. A partir do estágio de desassociação entre a renda per capita e algumas variáveis, viu-se que a redução da desigualdade foi vantajosa sobre o aumento do bem-estar. Por exemplo, as variáveis taxa de mortalidade infantil, porcentagem de adolescentes que tinham filhos e taxa de mortalidade por homicídios apresentaram relação linear com o índice de Gini, índice de Theil L e a razão de renda sob o nível de significância de 5\%. Com relação ao índice de Theil L elas resultaram, respectivamente, nos p-valores 0,00093; 0,00154 e 0,0753. Assim, entendendo-se o impacto positivo da redução da desigualdade, expõe-se que o fato dela também afetar os mais ricos poderia coagir a alocação de recursos estatais e privados objetivando o aumento da qualidade de vida dos mais pobres.

    Palavras-chave: Desigualdade social. Fome. Modelo de regressão linear. Razão dos quintos.if 1 02 511559

    Orientadora: Maria Cristina Bessa Moreira (IME/UFF)

    Banca:

    • Maria Cristina Bessa Moreira (IME/UFF)
    • Núbia Karla de Oliveira Almeida (IME/UFF)
    • Rafael Santos Erbisti (IME/UFF)
    LUCAS DE MATTOS MARTINS. Aplicação de medidas estatísticas na mensuração de riscos financeiros.

    Resumo: O estudo do trabalho de conclusão de curso tem como foco discutir sobre risco financeiro e utilizar estatística que possa geri-lo. Risco é a probabilidade de um certo evento ocorrer, seja ele de perda ou ganho. Logo, o trabalho irá trazer a discussão sobre como gerir o risco utilizando ferramentas estatísticas, já que o mercado financeiro ao longo dos anos criou diversas técnicas para calculá-lo. Aprofundaremos nossas investigações em uma métrica específica que é o Var; a investigação aborda e calcula essa e outras estatísticas numa aplicação prática do risco de mercado. Para isso, antes serão debatidos conceitos importantes a fim de construir um bom conhecimento teórico e portanto conseguir explorar as distintas metodologias de calculo do VaR. Logo, o trabalho também apresenta um estudo comparativo desses métodos. E, para atingir tais objetivos, será usado o software R para gerar análises. Especificamente, utiliza-se o pacote Performance Analytics.

    Palavras-chave: Teoria de risco. Risco de mercado. VaR.if 1 02 511559

    Orientador: Marco Aurélio dos Santos Sanfins (IME/UFF)
    Coorientadora: Tuany Esthefany Barcellos de Carvalho Silva (PUC-Rio/Mestranda)

    Banca:

    • Marco Aurélio dos Santos Sanfins (IME/UFF)
    • Daiane de Souza Oliveira (PUC-Rio/DEI)
    • Eduardo Ferioli Gomes (IME/UFF)
    LUCCAS MARTINS DA LUZ. Avaliação do perfil das internações hospitalares emergenciais em idosos com doenças respiratórias e de possíveis fatores associados ao desfecho.

    Resumo: O cenário mundial da pandemia por Corona Vírus gerou questionamentos que o comportamento da internações hospitalares decorrentes desta doença poderia ser similar às ocorridas por doenças respiratórias. O objetivo deste trabalho é avaliar o perfil das internações emergenciais hospitalares em idosos, decorrentes de problemas respiratórios, e identificar possíveis fatores associados ao óbito. Metodologia: Modelos de regressão logística em função de características dos pacientes, das internações e do hospital foram utilizados tendo como variável resposta a variável indicadora do desfecho (alta/óbito), tomando como base registros do SIHSUS/DATASUS, do Rio de Janeiro no ano de 2019. Resultados: Alguns dos principais fatores de risco para o óbito associados ao modelo que considera os diagnósticos principais classificados em apenas 4 categorias e incorpora a informação sobre utilização da UTI foram: classe etária 80 anos ou mais (RC: 1,86), uso da UTI (RC: 4,10) e diagnóstico de insuficiência respiratória (RC: 12,26).

    Palavras-chave: Regressão logística. Razão de chances ajustada. Internação hospitalar emergencial. Idosos.if 1 02 511559

    Orientadora: Núbia Karla de Oliveira Almeida (IME/UFF)

    Banca:

    • Núbia Karla de Oliveira Almeida (IME/UFF)
    • Maria Cistina Bessa Moreira (IME/UFF)
    • Renan Moritz Varnier Rodrigues de Almeida (COPPE/UFRJ)
    LUIZ FERNANDO COELHO PASSOS. Métodos de Regularização no Aprendizado de Máquinas: Ridge e LASSO.

    Resumo: O presente trabalho tem como proposta analisar o comportamento dos métodos de regularização de Ridge e LASSO. A Regressão Linear é um dos modelos mais utilizado no aprendizado de máquinas, porém quando o modelo possui muitas variáveis pode causar subajuste ou sobreajuste, gerando predições ruins. Uma solução para este problema é considerar os métodos de regularização que aplicam uma penalização sobre os parâmetros do modelo, minimizando a importância de variáveis menos relevantes, diminuindo a complexidade e garantindo que o modelo seja generalizável. Dois dos métodos de regularização mais utilizados são a regressão de Ridge, que inclui todos os preditores no modelo final, e a regressão de LASSO que, além de penalizar os parâmetros, realiza seleção de variáveis, ou seja, pode zerar as estimativas de alguns parâmetros. Por fim, realizou-se um estudo prático a partir de três bases de dados distintas, aplicando os métodos de Ridge e LASSO com auxílio do pacote tidymodels na linguagem de programação R. Em suma, Ridge e LASSO são dois poderosos métodos para modelagem de dados, entretanto, na análise prática, LASSO obteve melhores resultados em todos os casos.

    Palavras-chave: Aprendizado de máquina. Métodos de regularização. Ridge. LASSO.if 1 02 511559

    Orientadora: Karina Yuriko Yaginuma (IME/UFF)

    Banca:

    • Karina Yuriko Yaginuma (IME/UFF)
    • Douglas Rodrigues Pinto (IME/UFF)
    • Estelina Serrano de Marins Capistrano (IME/UFF)
    MARCSON DE AZEVEDO ARAÚJO. Avaliação da pobreza na Região Metropolitana do Rio de Janeiro e o efeito da formalidade entre os ocupados.

    Resumo: O presente trabalho busca observar fatores de indivíduos e de seus domicílios associados a condição de pobreza monetária na Região Metropolitana do Rio de Janeiro no último trimestre de 2012, 2016 e 2020. São observados domicílios com alguma pessoa ocupada na PNAD Contínua, realizada pelo IBGE. O principal teste do estudo está relacionado ao mercado de trabalho, que visa estimar uma redução na chance de ser considerado pobre uma vez que o domicílio conte com alguém ocupado dentro do mercado de trabalho formal. É definido um recorte monetário de pobreza, a renda do trabalho mensal domiciliar per capita de elegibilidade do Bolsa Família. Para estimar o efeito de cada fator relacionado aos indivíduos pobres ou não, é utilizada uma Regressão Logística que aproxima a distribuição a posteriori destes fatores para identificar o comportamento de cada efeito. É encontrada redução da chance de ser pobre em um domicílio com ocupados no mercado formal em relação a domicílios com informais e o efeito é maior que o da relação de escolaridade do responsável na redução da chance de ser pobre.

    Palavras-chave:  Inferência bayesiana. Mercado de trabalho formal. Pobreza. Regressão logística. if 1 02 511559

    Orientador: Rafael Santos Erbisti (IME/UFF)
    Coorientadora: Carolina Botelho Marinho da Cunha Hecksher (Mackenzie)

    Banca:

    • Rafael Santos Erbisti (IME/UFF)
    • Carolina Botelho Marinho da Cunha Hecksher (Mackenzie)
    • Márcia Marques de Carvalho (IME/UFF)
    • Marcos Dantas Hecksher (IPEA)
    PEDRO FERNANDO SANTOS VIEIRA FERNANDES DA SILVA. Modelos lineares e avaliação do crescimento vegetativo na pandemia em municípios selecionados.

    Resumo: No ano de 2020, iniciou-se a pandemia de COVID-19 no Brasil e no mundo, o que promoveu mudanças na realidade global, devido ao alto número de casos e óbitos registrados pela doença ao redor do globo. Com esta doença à tona, foram buscadas diferentes formas para se adaptar a ela e visando controlar o número de casos e óbitos registrados numa localidade. Este trabalho busca verificar se o período de pandemia teve impacto no número de nascimentos e mortes nos municípios de Maricá, Niterói, Rio de Janeiro e São Gonçalo, a fim de mensurar o impacto deste período sobre o crescimento vegetativo. A fim de atender esta finalidade, foram estimados Modelos Lineares Normais e Modelos Lineares Generalizados (MLG) de Poisson, sobre dados coletados na plataforma Dados SUS, da Secretaria de Saúde do Estado do Rio de Janeiro e posteriormente foram comparados os dados da estimação deste último, que é o ideal a ser estimado em dados de contagem, comparando o crescimento vegetativo observado na pandemia e o previsto pela estimação deste modelo, caso a pandemia não existisse. Através da estimação dos modelos foi observado que o município de Maricá não teve seu crescimento vegetativo afetado pela pandemia, enquanto os outros municípios tiveram o período pandêmico considerado como impactante nesta estatística, ainda que todos apresentassem crescimento vegetativo negativo, e diferente do previsto, em 2021.

    Palavras-chave:  COVID-19. Modelos lineares generalizados. Crescimento vegetativo. Análise descritiva. if 1 02 511559

    Orientadora: Márcia Marques de Carvalho (IME/UFF)

    Banca:

    • Márcia Marques de Carvalho (IME/UFF)
    • Ludmilla da Silva Viana Jacobson (IME/UFF)
    • Rafael Santos Erbisti (IME/UFF)
    PEDRO FILIPE TEIXEIRA DE ARAUJO. Imputação de dados em séries temporais: uma proposta de correção para o atraso nas notificações dos casos de COVID-19 por data de início dos sintomas via Modelo Estrutural.

    Resumo: A notificação de um caso confirmado de COVID-19 tende a ocorrer em uma data (data da notificação) posterior à data de início dos sintomas (ou sinais) — a diferença entre as datas é chamada de atraso na notificação. Estratégias de correção para lidar com os atrasos na notificação de algum tipo de evento têm sido propostas na literatura — tradicionalmente em ciências atuariais e, também, em epidemiologia. É comum dispor dados de eventos que são notificados com atraso em um arranjo conhecido como triângulo de run-off, no qual as linhas representam as datas de ocorrência dos eventos e as colunas correspondem aos atrasos. Neste trabalho, convenientemente utilizaremos uma reorganização dos dados do triângulo de run-off em um vetor obtido pelo empilhamento das linhas. Apresentaremos, então, um método de correção dos atrasos nas notificações que é baseado na imputação de dados em séries temporais univariadas. Para tal, consideramos o Modelo Estrutural dentro do arcabouço da Modelagem em Espaço de Estados, onde o tratamento de missing values (dados ou valores faltantes, ausentes) tende a ser simplificado. Destacamos que a correção dos atrasos nas notificações dos casos de COVID-19 nos permite ter um melhor acompanhamento da real evolução da pandemia uma vez que a data na qual um indivíduo é infectado deve estar mais próxima da data de início dos sintomas do que da data de notificação.

    Palavras-chave: Imputação de dados. Modelos em espaço de estados. Atrasos na notificação. COVID-19. Casos por início dos sintomas.if 1 02 511559

    Orientador: Wilson Calmon Almeida dos Santos (IME/UFF)

    Banca:

    • Wilson Calmon Almeida dos Santos (IME/UFF)
    • Marcio Watanabe Alves de Souza (IME/UFF)
    • Valéria Troncoso Baltar (MEB/UFF)
    PEDRO LÁZARO DE SANTI NACIF. Um estudo sobre a alocação de criptoativos em portfólios de investimentos.

    Resumo: Após a publicação do artigo desenvolvido por Nakamoto (2008), Bitcoin: Peer-to-Peer Electronic Cash System, uma nova classe de ativos surgiu no espectro dos gestores e investidores ao redor do mundo. Tal classe de investimentos ganhou relevância à medida que grandes instituições e investidores renomados a adotaram, demonstrando que acreditavam na tese de criptoativos na composição de portfólio. Apesar de ser uma classe relativamente nova, apresenta grande potencial de retorno como investimento, ainda que acompanhada de risco, o que fica claro uma vez analisada a volatilidade dos retornos. Dado isso, o trabalho a seguir analisa o acréscimo de criptoativos, mais especificamente o Bitcoin, na composição de portfólios de investimentos, mostrando que é possível otimizar os retornos sem aumentar o risco da carteira. Para tais resultados, são utilizadas métricas para avaliar e validar a hipótese de que os criptoativos contribuem para a melhora do portfólio e sua diversificação. Dentre as diversas características dessa classe de ativos, a que se destaca é a baixa correlação com outras classes de investimentos, assim potencializando a relação de risco e retorno de um portfólio diversificado. Para validar estatisticamente uma melhora na performance do portfólio com criptoativos, foi utilizada a estatística J, que tem como finalidade testar a validade de uma mudança no índice de Sharpe de um portfólio de investimentos. A partir da simulação de 52 portfólios foi possível obter uma melhora satisfatória na performance, e estatisticamente significativa na inclusão do Bitcoin na carteira de investimentos.

    Palavras-chave: Portfólio. Diversificação de portfólio. Criptoativos. Bitcoin. Blockchain .if 1 02 511559

    Orientador: Marco Aurélio dos Santos Sanfins (IME/UFF)
    Coorientadora: Daiane De Souza Oliveira (PUC-Rio/DEI)

    Banca:

    • Marco Aurélio dos Santos Sanfins (IME/UFF)
    • Daiane De Souza Oliveira (PUC-Rio/DEI)
    • Eduardo Ferioli Gomes (IME/UFF)
    • Patrícia Lusié Velozo da Costa (IME/UFF)
    PEDRO MAURICIO XIMENEZ DA SILVA. Previsão do índice de preços ao consumidor: uma abordagem via modelos dinâmicos.

    Resumo: Com o surgimento da pandemia causada pelo vírus Sars-CoV-2, as economias mundiais foram afetadas com quedas nas suas produções, impactando preços de diversos produtos e serviços. Estes aumentos englobaram os preços dos alimentos, eletrodomésticos, serviços, energia elétrica, água e esgoto entre outros. Para avaliar esse aumento, é necessário entender a dinâmica temporal dos índices de preços. No Brasil, o índice oficial da inflação adotado pelo governo federal é o Índice Nacional de Preços ao Consumidor Amplo (IPCA), que por sua vez, aponta a variação do custo de vida médio de famílias com renda mensal de 1 e 40 salários mínimos. Além disso, serve de referência para as metas de inflação do país e para as alterações na taxa de juros. Com isso, a previsão desse índice pode antecipar os movimentos da economia nacional, podendo eliminar ou suavizar possíveis choques econômicos futuros. Nesse trabalho, serão utilizados os Modelos Lineares Dinâmicos (MLD) sob a perspectiva bayesiana, com o propósito de modelar e prever a série temporal do IPCA. Os modelos analisados neste trabalho são: o Modelo polinomial de 1° ordem (MP), caracterizado pela evolução temporal do nível ser modelada como um passeio aleatório simples, ou média localmente constante e o Modelo polinomial de 1° ordem com sazonalidade (MPS) que adiciona a equação de observação um termo de sazonalidade e a equação de evolução uma matriz que descreve a evolução dos parâmetros de estado no tempo. Os resultados dos ajustes destes modelos foram bem satisfatórios com desvio absoluto médio (MAD) e erro percentual absoluto médio (MAPE) baixos, principalmente os do MPS. A previsão obtida pelo MPS foi bem melhor que no modelo polinomial de 1° ordem, tendo em vista que, além de possuir o menor EQM entre os modelos, o intervalo de credibilidade (IC) da previsão cobria boa parte dos valores da série original e não ocorreu um aumento da incerteza, como no MP. Foi realizada uma previsão do IPCA para o ano de 2022 usando o modelo MPS.

    Palavras-chave: Estatística. Modelos lineares dinâmicos. Inferência Bayesiana. IPCA.if 1 02 511559

    Orientador: Jony Arrais Pinto Junior (IME/UFF)

    Banca:

    • Jony Arrais Pinto Junior (IME/UFF)
    • Patrícia Lusié Velozo da Costa (IME/UFF)
    • Rafael Santos Erbisti (IME/UFF)
    RAFAEL ARAUJO COUTO. Emprego da Teoria de Valores Extremos e Cópulas na Análise de Temperaturas Máximas da Índia.

    Resumo: Eventos climáticos extremos podem ter consequências graves para a população e o meio ambiente. Nesse contexto, o aquecimento global da terra é uma das grandes preocupações atuais, o qual pode ocasionar no aumento da ocorrência de eventos como aumentos e quedas bruscas da temperatura, chuvas torrenciais seguidas de grandes períodos de estiagem, inundações e enxurradas, além do impacto financeiro. Buscando estudar e enfrentar esse problema, duas metodologias são bastante eficazes para isso, a primeira é a Teoria de Valores Extremos que é baseada em três tipos possíveis de distribuições assintóticas, conhecidas como Gumbel, Fréchet e Weibull, onde estas podem ser vistas também como membros de uma única família de distribuições, a distribuição de valores extremos generalizada (Generalized Extreme Value, GEV), que é capaz não só de estimar as temperaturas extremas, mas também de prevê-las para as décadas seguintes; a segunda é a Teoria de Cópulas, que tem como foco avaliar o comportamento da dependência entre dois ou mais eventos, ou seja, capturar a relação de dependência não-linear entre eles, sendo assim capaz de avaliar como uma região de temperatura extrema pode influenciar as suas regiões vizinhas. Nos dias de hoje, vários centros de coleta de dados sobre condições climáticas vem coletando informações sobre temperaturas extremas em todo o planeta. Em especial a Índia possui estas temperaturas máximas coletadas com as respectivas latitude e longitude, possuindo um histórico que abrange os períodos de 1951 até o ano de 2020, tópico que será o centro deste trabalho, com o objetivo de utilizar a Teoria de Valores Extremos e a Teoria de Cópulas, para que com estas ser capaz de modelar os dados mencionados anteriormente, tal como obter um modelo preditivo e avaliar como a temperatura elevada de uma região pode contagiar uma vizinha.

    Palavras-chave: Temperaturas extremas. Teoria de valores extremos. Teoria de cópulas. Estatística espacial.if 1 02 511559

    Orientador: Marco Aurélio dos Santos Sanfins (IME/UFF)
    Coorientador: Flavio Ferraz Vieira (UFV/PPESTBIO)

    Banca:

    • Marco Aurélio dos Santos Sanfins (IME/UFF)
    • Flavio Ferraz Vieira (UFV/PPESTBIO)
    • Fernando Luiz Cyrino Oliveira (PUC-Rio/DEI)
    • Reinzaldo Castro Souza (PUC-Rio/DEI)
    RONALDO LACERDA MELLO FILHO. Modelos hierárquicos para o controle de câncer de próstata no estado do Alagoas.

    Resumo: O câncer de próstata é um tumor que se desenvolve na glândula próstata tendo um começo silencioso e em um estágio mais avançado pode gerar desconforto, dores e metástase. Apesar de não ser o maior responsável de mortes por câncer, como o do pulmão e o de intestino, pode se tornar letal caso não seja tratado desde o início. No Brasil, é o segundo tipo de câncer mais comum entre os homens. Mesmo sendo uma doença que pode ser diagnosticada bem cedo, muitos pacientes não detectam o câncer precocemente, devido ao medo ou preconceito com o método utilizado para sua detecção acarretando o surgimento de tumores em estágios mais avançados. Este trabalho avaliou o comportamento da doença no ínicio e em estágio final, a taxa de mortalidade revelou-se equilibrada em todo o estado, a taxa de incidência apresentou altas taxas nas regiões sul e oeste, as condições de saúde no Estado do Alagoas nos anos de 2009 a 2018 mostra o lado oeste do estado tendo uma infraestrutura muito superior aos municípios da região leste e o estadiamento do câncer enfatiza que a região leste do estado tem a maior porcentagem de metástase nos pacientes. O objetivo é de criar um índice de controle de câncer que identifica as sub-regiões (municípios) alvo e consequentemente auxilie na diminuição da taxa de mortalidade e contribua para uma melhoria na qualidade de vida dos moradores desses municípios. Foram utilizados modelos espaciais bayesianos para caracterizar o comportamento das variáveis incluídas na construção do índice. Tal índice apresentou regiões que possuem uma dependência espacial que podem ser utilizadas para o entendimento de remanejar recursos e monitoramentos maiores nessas regiões.

    Palavras-chave: Modelos espaciais. Dados de área. Inferência bayesiana. Câncer de próstata. if 1 02 511559

    Orientador: Rafael Santos Erbisti (IME/UFF)
    Coorientadora: Patrícia Lusié Velozo da Costa (IME/UFF)

    Banca:

    • Rafael Santos Erbisti (IME/UFF)
    • Patrícia Lusié Velozo da Costa (IME/UFF)
    • Ludmilla da Silva Viana Jacobson (IME/UFF)
    • Luis Guillermo Coca Velarde (IME/UFF)
    SIMONE DE ANDRADE GALDINO. Rendimento dos alunos do ensino básico durante a pandemia de COVID-19.

    Resumo: Com a pandemia da Covid-19, todos os setores da sociedade brasileira se viram diante de um grande desafio, entre eles a educação. Esse trabalho buscou avaliar o rendimento dos estudantes da educação básica do estado  do Rio de Janeiro através da base de dados da PNAD Covid para o período de novembro de 2020. Realizou-se uma análise descritiva dos dados e aplicou-se um modelo logístico sob a perspectiva bayesiana podendo então constatar que certos fatores individuais tais como sexo, cor, idade, tipo de escola, escolaridade do responsável, fatores de moradia e econômicos interferiram no rendimento dos estudantes, apontando alto rendimento em alguns grupos considerados privilegiados na sociedade. A variável rendimento foi criada a partir da quantidade de horas diárias dedicadas ao estudo. Embora o estudo se baseia em um único mês do ano de 2020 e nem todas as características dos estudantes foram contempladas, foi possível averiguar que em meio `a pandemia da Covid-19 e com as aulas remotas utilizadas em caráter emergencial que o status quo se manteve no estado do Rio de Janeiro nesse período e, possivelmente, com a falta de recursos pecuniários e tecnológicos grupos específicos de estudantes não puderam se dedicar aos estudos de forma efetiva.

    Palavras-chave: Covid-19. Modelo Logístico . Inferência Bayesiana . Educação  if 1 02 511559

    Orientadora: Patrícia Lusié Velozo da Costa (IME/UFF)
    Coorientador: Rafael Santos Erbisti (IME/UFF)

    Banca:

    • Patrícia Lusié Velozo da Costa (IME/UFF)
    • Rafael Santos Erbisti (IME/UFF)
    • Caroline Ponce de Moraes (CEFET/RJ)
    • Jony Arrais Pinto Junior (IME/UFF)
    THAMIRES LOUZADA MARQUES. Mineração de Textos no Twitter: Aprendizado de Máquina para Classificação da Opinião Política dos Usuários.

    Resumo: Este projeto possui como finalidade realizar a coleta de um banco de dados supervisionado do Twitter e utilizar nele técnicas de mineração de textos, pré-processamento e aprendizado de máquina com algoritmos de classificação. O banco textual foi coletado e então tratado e transformado em uma matriz termo-documento, com a utilização de nuvens de palavras e análises de sentimentos para a parte exploratória. Foram utilizados quatro métodos de classificação: Árvore de Decisão, Floresta Aleatória, Gradient Boosting Machine e Extreme Gradient Boosting (XGBOOST). Esses métodos foram treinados em dois conjuntos de dados, com e sem balanceamento de classes. Nos resultados, foi possível observar que não houve grande diferença nas previsões dos modelos treinados nos dados balanceados e desbalanceados, o que contrariou o esperado de que a performance dos classificadores em dados balanceados traria ganhos expressivos na qualidade dos ajustes. Os resultados da especificidade foram baixos para todos os modelos estimados, e ao observar as matrizes de confusão, foi noticiado que havia uma grande quantidade de casos positivos sendo classificados como negativos, o que pode ser a motivação desses valores baixos. Os métodos de classificação que obtiveram melhores métricas médias foram os de boosting, com acurácia de 64,56%, sensibilidade de 97,25% e especificidade de 14,56%. Todos os conjuntos de dados e códigos desenvolvidos no R estão disponíveis no GitHub do projeto, criado pela autora https://github.com/thamirubs/tcc-uff.

    Palavras-chave: Aprendizado de máquina. Mineração de texto. Classificação de dados. Twitter. if 1 02 511559

    Orientadora: Jessica Quintanilha Kubrusly (IME/UFF)

    Banca:

    • Jessica Quintanilha Kubrusly (IME/UFF)
    • Patrícia Lusié Velozo da Costa (IME/UFF)
    • Rafael Santos Erbisti (IME/UFF)
    YAGO CORREA DE OLIVEIRA. Modelando a relação entre desempenho escolar, infraestrutura e outros indicadores em Educação.

    Resumo: Indicadores de desempenho escolar, em vários níveis da Educação Básica, podem ser fruto não só da qualidade do ensino, em termos de conteúdo, mas também da própria infraestrutura disponibilizada aos estudantes. Neste sentido, o objetivo do presente trabalho é investigar, a partir dos microdados disponibilizados pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP), a existência de associações entre esses indicadores a partir da construção de modelos de regressão linear e/ou logística e investigar como eles impactam a proficiência em matemática e português nos diferentes níveis de ensino. Para isso, foram coletadas informações sobre as escolas públicas que realizaram Saeb no ano de 2019 nos três segmentos da educação básica, totalizando 42.143 observações para as escolas dos anos inicias, 29.686 para as escolas dos anos finais e 12.028 escolas do ensino médio. Os resultados da análise exploratória mostraram uma diferença na forma de acesso à infraestrutura escolar nas diferentes regiões geográficas, assim como uma diferença entre os grupos do índice de infraestrutura escolar (IIE) quanto à nota do Saeb de português e matemática. Através da classificação da escala de proficiência, pode-se observar a distância que as escolas brasileiras estão do nível adequado, principalmente nos anos finais e ensino médio, nas duas disciplinas. Notou-se, também, uma tendência crescente na relação entre a nota do Saeb e o nível socioeconômico, porém foi possível encontrar escolas que mesmo com insumos necessários para ter uma nota alta, não atingiam seus objetivos, e escolas em condições menos favorecidas, mas que conseguiam ter notas adequadas no Saeb. Dessa forma, acredita-se que existam outros fatores que impactam a nota do Saeb. Inicialmente, foram ajustados modelos de regressão linear para cada segmento da educação básica e cada disciplina, que resultaram uma baixa qualidade de ajuste, além de não satisfazer os pressupostos de normalidade e homoscedasticidade. Foram ajustados 3 modelos de regressão logística para cada disciplina em cada segmento da educação básica, onde os modelos tiveram capacidades preditivas satisfatórias. Esse estudou permitiu, ainda, concluir que existem fatores que influenciam uma disciplina e não influenciam outra, e que isso muda conforme se avança nos segmentos da educação básica. Porém, as únicas variáveis que foram significativas em todos os modelos criados foram a região geográfica, o nível socioeconômico e o índice de infraestrutura escolar. Notou-se, também, que as variáveis impactam de forma diferente nos diferentes segmentos, como foi o caso do nível socioeconômico e o índice de infraestrutura escolar, que tiveram efeito maior no ensino médio.

    Palavras-chave: Proficiencia. Infraestrutura escolar. Indicadores em educacao. modelo de regressao linear. modelo de regressao logistica.if 1 02 511559

    Orientadora: Ana Beatriz Monteiro Fonseca (IME/UFF)

    Banca:

    • Ana Beatriz Monteiro Fonseca (IME/UFF)
    • Rafael Santos Erbisti (IME/UFF)
    • Carlos Eduardo Mathias Motta (IME/UFF)
    Fechar Todos
    Skip to content