TCC 2020 | Curso de Estatística da UFF

2020 – 1º Semestre

Escondido

Your content goes here. Edit or remove this text inline or in the module Content settings. You can also style every aspect of this content in the module Design settings and even apply custom CSS to this text in the module Advanced settings.

FÁBIO MELLO VALLADÃO. Avaliação do impacto da função de ligação na qualidade do ajuste de modelo linear generalizado para um desfecho binário de consulta ao médico.

Resumo: A função de ligação é uma das três componentes de um modelo linear generalizado, e a escolha de uma função de ligação inapropriada pode influenciar a significância dos parâmetros e a qualidade do ajuste do modelo. Este trabalho teve como objetivo avaliar o impacto das funções de ligação logit, probit e complemento log-log na qualidade do ajuste, bem como no sentido, magnitude e significância das associações entre um conjunto de características sociodemográficas e de saúde de idosos e um desfecho binário referente ao tempo da última consulta médica realizada. Os modelos foram ajustados a partir dos dados da Pesquisa Nacional de Saúde 2013, usando o método de Máxima Pseudo-Verossimilhança (MPV). Com relação aos resultados do trabalho, nos modelos probit, logit e complemento log-log, as mesmas variáveis sociodemográficas e de saúde dos idosos apresentaram associação significativa com o desfecho de estudo. Além disso, os sinais das estimativas pontuais dos parâmetros nos três modelos foram iguais. Entretanto, as estimativas pontuais (padronizadas) do modelo complemento log-log foram maiores (variação relativa superior a 10%) que as respectivas estimativas obtidas nos modelos probit e logit, sendo que entre estes dois últimos modelos as estimativas pontuais foram similares (variação relativa inferior a 5%). As medidas de Pseudo-R2 de Cox-Snell (R_CS^2≅0,11) e Nagelkerke (R_N^2≅0,18), as medidas de sensibilidade e especificidade, assim como as áreas sob a curva ROC (A≅0,75), também foram bem similares nos três modelos. Conclui-se, portanto, que para os dados utilizados no presente estudo, a escolha da função de ligação não influenciou a significância e o sentido das associações entre as características dos idosos e o desfecho do estudo, e nem na qualidade do ajuste e na capacidade preditiva dos modelos. Desse modo, qualquer uma das três funções de ligação poderia ser escolhida, entretanto, em investigações na área de saúde, o modelo logit é o mais frequentemente utilizado pela facilidade de interpretação das estimativas e por possibilitar o cálculo de razão de chances (odds ratio), que é uma medida de associação utilizada em estudos epidemiológicos.
Palavras-chave: Modelo probit. Modelo logit. Modelo complemento log-log. Função de ligação. Plano amostral complexo.

Orientador: José Rodrigo de Moraes (IME/UFF)

Banca:

José Rodrigo de Moraes (IME/UFF)
Licínio Esmeraldo da Silva (IME/UFF)
Luciane Ferreira Alcoforado (IME/UFF)

ISABELLY DA SILVA ALMEIDA. Uso de Aprendizado de Máquinas para classificação de textos

Resumo: Com o crescimento do acesso a internet, um grande volume de dados textuais migraram do papel impresso para o meio eletrônico. E-mails, notícias, livros, artigos científicos e outros tipos de texto são produzidos diariamente. Por vezes surge a necessidade de classificar essas informações. A técnica de classificação de texto pode ser aplicada em várias áreas da mineração de texto. O uso de Aprendizado de Máquinas para resolver problemas desse tipo torna-se uma ferramenta bastante útil por dispor de vários algoritmos capazes de reconhecer padrões e criar regras de associação de forma automática. Este trabalho tem como objetivo verificar a eficiência de dois algoritmos de Aprendizado de Máquinas Supervisionado: Análise Discriminante e Máquinas de Vetor de Suporte, na resolução do problema de classificação de texto. Para isso, foram usados livros que passaram por um processo de etiquetagem morfológica. As etiquetas de cada palavra do livro serviram para criar as variáveis usadas nas análises. Desta maneira, pretendemos verificar se os algortimos são capazes de classificar, a partir de uma base de treinamento com livros de dois autores distintos, se um novo livro pertence a um determinado autor.
Palavras-chave: Aprendizado de Máquinas. Classificação de Texto. Análise Discriminante. Máquinas de Vetor de Suporte. Etiquetagem Morfológica. TreeTagger. Colonia Corpus.

Orientador: Valentin Sisko (IME/UFF)
Coorientador: Hugo Henrique Kegler dos Santos (IME/UFF)

Banca:

Valentin Sisko (IME/UFF)
Hugo Henrique Kegler dos Santos (IME/UFF)
Karina Yuriko Yaginuma (IME/UFF)
Moisés Lima de Menezes (IME/UFF)

LEIR LEON DOS SANTOS PAIVA. Análise da evolução temporal da violência contra a mulher no estado do Rio de Janeiro

Resumo: A violência contra a mulher é um problema de saúde e segurança pública, sendo considerada uma violação dos direitos humanos da mulher assim como de sua integridade física e psicológica, impactando em inúmeras consequências. Vista a necessidade de se monitorar a progressão desta violência, utilizou-se a análise de séries temporais. O objetivo desse projeto teve como intuito descrever as características do crime, investigar possíveis relações entre a vítima e o agressor utilizando o teste qui-quadrado e realizar a previsão das cinco séries de violência física, psicológica, moral, patrimonial e sexual contra a mulher através de modelos de Box-Jenkins. Para o tratamento estatístico, foram usados testes de normalidade e de estacionariedade, bem como testes de independência via análise de correlogramas e uso de estatísticas de aderências, como Mean Absolute Deciation (MAD), Mean Absolute Percentage Error, Root Mean Square Error (RMSE) e o Critério de Informação Bayesiano (BIC). Após a realização das análises, foram constatadas as principais características dos crimes. O teste qui-quadrado indicou que todas as características entre a vítima e o agressor possuem algum tipo de associação e os modelos preditivos escolhidos permitiram uma melhor compreensão do comportamento de cada série. Foi constatado, dentre as violências, um perceptivo aumento no número de novos casos ao decorrer do ano, com exceção da violência psicológica e moral, que apontaram um valor alto em janeiro e fevereiro mas que decrescem ao longo dos meses seguintes.
Palavras-chave: Violência contra mulher. Estatística. Séries temporais. Modelagem.

Orientador: Moisés Lima de Menezes (IME/UFF)
Coorientadora: Núbia Karla de Oliveira Almeida (IME/UFF)

Banca:

Moisés Lima de Menezes (IME/UFF)
Núbia Karla de Oliveira Almeida (IME/UFF)
Luis Guillermo Coca Velarde (IME/UFF)
Maria Cristina Bessa Moreira (IME/UFF)

MARCEL CHACON GONÇALVES. Tópicos em aprendizagem estatística de máquinas com aplicações em finanças.

Resumo: A cada dia, mais e mais empresas buscam formas de aproveitar a grande quantidade de dados disponíveis para melhorar o resultado de seus negócios. Nesse cenário, as técnicas de machine learning, ou aprendizagem de máquinas, tem se destacado por implementar sistemas que buscam automatizar a incorporação de novas informações disponíveis nos dados, proporcionando uma utilização imediata nos processos de tomada de decisão. Nesse projeto de trabalho de conclusão de curso estudaremos alguns dos principais conceitos e modelos estatísticos utilizados em aprendizagem de máquinas e suas respectivas ferramentas no R, focando nos processos de análise de dados e predição, bem como na sua utilização prática em problemas de recente aplicação, como na área de finanças em que modelos estatísticos de machine learning tem substituído métodos clássicos como as medidas de credit score em análise de crédito. Então foi comparado o desempenho dos métodos através das amostras testes criadas com os dados disponíveis. A escolha do método pode ser diferente dependendo da métrica usada como parâmetro, e isso depende do objetivo da análise.
Palavras-chave: Aprendizagem estatística. Regressão logística. KNN. LDA e QDA. Métodos baseados em árvores

Orientador: Marcio Watanabe Alves de Souza (IME/UFF)

Banca:

Marcio Watanabe Alves de Souza (IME/UFF)
Douglas Rodrigues Pinto (IME/UFF)
Jessica Quintanilha Kubrusly (IME/UFF)

MICHELE MARIA DA SILVA. Previsão para o mercado de trabalho brasileiro através da metodologia de Box e Jenkins

Resumo: Este trabalho tem por objetivo fazer previsões para os mercados de trabalho formal e informal no período compreendido entre janeiro e dezembro de 2020. Por meio de uma análise descritiva preliminar constatou-se que, enquanto o mercado de trabalho formal, composto majoritariamente por trabalhadores com carteira e funcionários públicos, apresentou queda até meados de 2017 e um crescimento lento até o final de 2019 o mercado informal, formado majoritariamente por trabalhadores por conta própria sem CNPJ e trabalhadores sem carteira assinada, apresentou um crescimento contínuo em praticamente todo o período. Verificou-se ainda que a proporção dos mercados formal e informal sobre os ocupados manteve-se praticamente estável longo do período (participação média de 60% dos formais contra 40% dos informais). Por meio da metodologia de Box-Jenkins, com base nos critérios de informação e medidas de desempenho, os modelos SARIMA (1,1,0) x (1,1,0) e o modelo SARIMA (1,1,2) x (0,1,0) foram selecionados como os modelos com o menor número de parâmetros, mais bem ajustados e com os melhores desempenhos preditivos para o mercado formal e para o informal, respectivamente. As previsões segundo esses modelos indicam que haverá crescimento em ambos os mercados de trabalho para o ano de 2020, porém de modo mais acentuado para o mercado de trabalho formal. A variação interanual desse último também será superior à do mercado informal. Apesar disso, estima-se que a proporção dos mercados de trabalho formal e informal sobre a população ocupada permaneça praticamente inalterada indicando que as alterações nas relações contratuais de trabalho provocadas pela Reforma Trabalhista ainda não foram suficientes para promover uma transferência dos trabalhadores informais para o mercado de trabalho formal.
Palavras-chave: Mercado de trabalho. SARIMA. Previsões. Box-Jenkins.

Orientadora: Maria Cristina Bessa Moreira (IME/UFF)

Banca:

Maria Cristina Bessa Moreira (IME/UFF)
Moisés Lima de Menezes (IME/UFF)
Núbia Karla de Oliveira Almeida (IME/UFF)

PAOLA DE OLIVEIRA PRADO. Aplicação de técnicas multivariada para visualização de dígitos manuscritos

Resumo: Atualmente, bases de imagens são bastante utilizadas para a classificação de objetos na área de aprendizado de máquina ou, como mais conhecido em inglês, Machine Learning. Dentro dessa esfera, as bases de dígitos manuscritos vem sendo muito empregadas, principalmente, para um estudo inicial dessa área e testar o desempenho dos algoritmos. Este trabalho aplica as técnicas de Escalonamento Multidimensional, Análise de Agrupamento e t-SNE a fim de verificar seus desempenhos na visualização dos dígitos manuscritos. Para tal, foi utilizada a base de dígitos manuscritos, MNIST, com 10.000 observações. Devido a problemas de processamento computacional, realizou-se uma amostragem com 2.000 e 4.000 observações. O resultado para a técnica não linear, t-SNE, apresentou melhores visualizações comparado as outras técnicas analisadas.
Palavras-chave: Análise multivariada. Aprendizado de máquina. Escalonamento multidimensional. MNIST. t-SNE

Orientador: Hugo Henrique Kegler dos Santos (IME/UFF)
Coorientador: Valentin Sisko (IME/UFF)

Banca:

Hugo Henrique Kegler dos Santos (IME/UFF)
Valentin Sisko (IME/UFF)
Estelina Serrano de Marins Capistrano (IME/UFF)
Jessica Quintanilha Kubrusly (IME/UFF)

RONDINELLI GOMES BRAGANCA. Inferência Bayesiana aplicada em modelo de regressão linear e modelo espacial

Resumo: Modelos estatísticos servem para descrever o comportamento probabilístico de fenômenos de interesse permitindo analisá-los, prevê-los e tomar decisões pertinentes. Modelos de regressão linear são muito utilizados em diversas áreas. Esses modelos possuem suposições fortes como independência que em geral não se ajustam a dados espaciais. Modelos de regressão linear podem ser combinados com modelos espaciais. Dados espaciais podem ser divididos em 3 tipos: padrão de pontos, dados de área e dados geoestatísticos. Esse trabalho visa avaliar modelos de regressão linear inicialmente e posteriormente modelos para dados geoestatísticos através da função de covariância exponencial. Parâmetros desconhecidos são encontrados nesses modelos e a inferência adotada nesse trabalho é a Bayesiana por permitir que a crença inicial do especialista seja incorporada a modelagem, aumentando a quantidade de informação avaliada e melhorando portanto as estimativas. Ao ajustar os modelos a conjuntos de dados simulados é possível verificar a capacidade dos ajustes recuperarem os verdadeiros valores dos parâmetros e selecionar o verdadeiro modelo.

Palavras-chave: Estatística espacial. Geoestatística. Inferência Bayesiana. Modelo de regressão linear. Métodos de Monte Carlo via cadeias de Markov. DIC. Erro médio quadrático.

Orientadora: Patrícia Lusié Velozo da Costa (IME/UFF)
Coorientadora: Estelina Serrano de Marins Capistrano (IME/UFF)

Banca:

Patrícia Lusié Velozo da Costa (IME/UFF)
Estelina Serrano de Marins Capistrano (IME/UFF)
Jony Arrais Pinto Junior (IME/UFF)
Rafael Santos Erbisti (IME/UFF)

STÉPHANIE DO AMARAL PIMENTA. Aplicação de métodos de regressão para o mercado financeiro

Resumo: O objetivo deste trabalho é aplicar métodos de regressão para dados financeiros, buscando prever o preço de ações três meses após uma certa data de observação. As variáveis explicativas adotadas foram algumas variáveis econômicas, como, por exemplo, o PIB, e algumas variáveis de indicadores financeiros das ações, como, por exemplo, o preço na data de observação. Os métodos de regressão aplicados foram: Regressão Linear Múltipla, Árvore de Regressão e Floresta Aleatória. Entre esses três métodos, o que apresentou melhor resultado foi a Regressão Linear Múltipla. Porém, para este, as interpretações do modelo final não são coerentes com a experiência do mercado financeiro.
Palavras-chave: Modelos lineares. Aprendizado de máquinas. Árvore de regressão. Floresta aleatória. Precificação de ações.

Orientadora: Jessica Quintanilha Kubrusly (IME/UFF)

Banca:

Jessica Quintanilha Kubrusly (IME/UFF)
Márcia Marques de Carvalho (IME/UFF)
Marco Aurélio dos Santos Sanfins (IME/UFF)

VANESSA SANTOS MEDEIROS DA SILVA. Análise da taxa de retorno à educação na Região Metropolitana do Rio de Janeiro

Resumo: Este trabalho avalia os retornos à educação dos indivíduos de 25 a 64 anos que vivem na Região Metropolitana do Estado do Rio de Janeiro. Os dados utilizados foram contemplados a partir da 5ª visita da PNAD Contínua de 2018. As taxas de retorno à educação são obtidas a partir da equação minceriana e medem, indiretamente, a distribuição de educação, além de refletir a demanda de mão de obra de determinada sociedade. As análises feitas indicam que este modelo se ajusta com imperfeições aos conjuntos de dados. Os resultados encontrados apontam que indivíduos que vivem na Capital do estado apresentam ganho médio na renda mais expressivo do que indivíduos, com o mesmo nível educacional, que vivem na Região Metropolitana (exceto Capital). A obtenção de um modelo que apresente melhor ajuste aos dados é de grande importância, pois caso ele confirme os resultados obtidos neste trabalho, será possível confirmar que o ganho médio no rendimento a cada ano de estudo alcançado é inferior para pessoas que habitam a Região Metropolitana (exceto Capital) do Estado do Rio de Janeiro.
Palavras-chave: Retorno à educação. Equação minceriana. Estado do Rio de Janeiro. PNAD Contínua.

Orientador: Rafael Santos Erbisti (IME/UFF)

Banca:

Rafael Santos Erbisti (IME/UFF)
Márcia Marques de Carvalho (IME/UFF)
Mariana Albi de Oliveira Souza (IME/UFF)

Fechar Todos

2020 – 2º Semestre

Escondido

ANDRÉ RIBEIRO PINHEIRO DA SILVA. Modelando a probabilidade de ocorrência de eventos raros.

Resumo: O modelo de regressão logística, surgiu na primeira metade do século XX, e é um dos mais populares para descrever a relação existente entre uma variável resposta binária e um conjunto de variáveis explicativas. Entretanto, é conhecido na literatura que este modelo apresenta problemas quando se trata da modelagem de um evento raro ou quando se trabalha com amostras pequenas. Um evento é considerado raro se a variável aleatória binária possui um número de ocorrências do evento de interesse (sucesso) consideravelmente mais baixo que o número de ocorrências de não interesse (fracassos). O desbalanceamento entre essas duas categorias, sucessos e fracassos, faz com que o modelo de regressão logística subestime a probabilidade de ocorrência do evento de interesse. Na literatura existem diversas alternativas apontadas para tentar solucionar este problema. A mais utilizada é o uso da abordagem de Firth à regressão logística. O objetivo deste trabalho é aplicar dois métodos de regressão logística para dados com cenários de eventos raros da área médica e financeira, buscando fazer uma comparação entre os métodos. A aplicação feita para a base médica busca compreender o impacto de fatores de risco, por exemplo, frequência cardíaca e colesterol, em doenças coronarianas. Já a aplicação feita para a base financeira, busca reconhecer transações fraudulentas com cartão de crédito por meio de variáveis explicativas resultantes de uma Análise de Componentes Principais (ACP) e outras, como por exemplo, o valor da transação e o tempo da primeira transação realizada. Os métodos de Regressão Logística usual e Regressão Logística de Firth (ou Abordagem de Firth) foram aplicados aos dois problemas e seus resultados comparados. Os dois métodos apresentaram resultados semelhantes, com uma pequena vantagem para a abordagem de Firth.
Palavras-chave: Modelo de Regressão Logística. Evento Raro. Abordagem de Firth.

Orientador: Jony Arrais Pinto Junior (IME/UFF)

Banca:

Jony Arrais Pinto Junior (IME/UFF)
Jessica Quintanilha Kubrusly (IME/UFF)
Márcia Marques de Carvalho (IME/UFF)

BEATRIZ DA SILVA MELLO. Risco de Crédito: uma aplicação no mercado de capitais para debêntures.

Resumo: Nos últimos anos as debêntures, título de renda fixa e com boa rentabilidade, tem apresentado uma grande participação no mercado de capitais, em média 45\% desde 2015. Por esse motivo a análise de risco para esse produto tem se tornado cada vez mais relevante. O presente trabalho apresenta o modelo CreditRisk+ e o método de Simulação de Monte Carlo ajustados a uma carteira teórica de debêntures. O objetivo do estudo é mensurar o risco de crédito do portfólio em cenários com e sem stress, e variando o nível de confiança. Através da aplicação dos modelos, encontrou-se, empiricamente, a distribuição da variável Perdas considerando as premissas de cada método. Em seguida, calcularam-se as principais métricas utilizadas em uma análise de risco – Perda Esperada (PE), Value at Risk (VaR), Capital Econômico (EC) e Expected Shortfall (ES) – para auxiliar o investidor na mitigação das perdas que o portfólio pode apresentar. Verificaram-se diferenças entre as métricas obtidas pelo CreditRisk+ e pela Simulação de Monte Carlo, entretanto ambas as técnicas são importantes para a gestão de risco de crédito de investimentos.
Palavras-chave: Debêntures. Risco de Crédito. CreditRisk+. Simulação de Monte Carlo

Orientador: Marco Aurélio dos Santos Sanfins (IME/UFF)
Coorientadora: Daiane Rodrigues dos Santos (DE/UCAM)

Banca:

Marco Aurélio dos Santos Sanfins (IME/UFF)
Daiane Rodrigues dos Santos (DE/UCAM)
Jessica Quintanilha Kubrusly (IME/UFF)
Wilson Calmon Almeida dos Santos (IME/UFF)

BERNARDO JOSE MOURA FONSECA DOS SANTOS. Modelagem do baixo peso ao nascer para bebês nascidos no Estado do Rio de Janeiro, em 2019.

Resumo: O baixo peso ao nascer (BPN) está associado à ocorrência de morbimortalidade neonatal, assim como ao risco de mortalidade durante o primeiro ano de vida e a problemas de desenvolvimento na infância. É considerado um importante indicador de saúde pública relacionado a fatores como saúde materna, nutrição, assistência à saúde e pobreza. Usando os dados do Sistema de Informações sobre Nascidos Vivos (SINASC) de 2019, este trabalho teve como objetivo avaliar a associação entre as características sociodemográficas maternas, da gestação e do parto e a prevalência de baixo peso ao nascer, no Estado do Rio de Janeiro, em 2019. Utilizou-se o modelo de regressão log-linear de Poisson (com estimador de variância robusta), pelo método de máxima verossimilhança (MV). A prevalência de BPN foi cerca de 9,5%; e observou-se maior prevalência de BPN entre os bebês de mães com 35 anos ou mais (RP=1,104, p-valor<0,001), que vivem sem companheiro (RP=1,045, p-valor=0,003), menos escolarizadas e de cor não branca (RP=1,079, p-valor<0,001). Presença de nuliparidade, prematuridade (RP=11,812, p-valor<0,001) e realização de parto cesáreo (RP=1,265, p-valor<0,001) e baixo número de consultas de acompanhamento pré-natal também estiveram associadas à maior prevalência de BPN, assim como o recém-nascido ser do sexo feminino (RP=1,240, p-valor<0,001) e apresentar índice de Apgar baixo (RP=1,550, p-valor<0,001) ou muito baixo (RP=1,620, p-valor<0,001). Conclui-se que características sociodemográficas da mãe, do recém-nascido, bem como da gestação e do parto, estão significativamente associadas a uma maior prevalência de BPN. Destaca-se que é necessário um olhar mais atento por parte dos profissionais de saúde e dos formuladores de políticas públicas às gestantes com 35 anos ou mais, baixa escolaridade, sem companheiro, de raça/cor não branca, com pouca frequência nas consultas pré-natal e nulíparas, para que recebam apoio a fim de reduzir o número de recém-nascidos com baixo peso ao nascer.
Palavras-chave: Modelo log-linear de Poisson. Baixo peso ao nascer. Prevalência. Sistemas de Informação em Saúde. Estudos transversais.

Orientador: José Rodrigo de Moraes (IME/UFF)

Banca:

José Rodrigo de Moraes (IME/UFF)
Mauricio Franca Lila (DPE/IBGE)
Rafaele Febrone Meloni (NUT/UERJ)

LARISSA FILGUEIRAS TEIXEIRA MAGALHAES ESTUDANTE. Uso de modelo de regressão para dados longitudinais no efeito do uso de corticoides em gestantes com risco de parto prematuro.

Resumo: Os óbitos de bebês resultados de partos prematuros são um problema constante, representando a maior parte dos óbitos neonatais. Conforme apresentado no estudo de Maria Cláudia Bayão em 2018, o uso de corticoide pode vir a ser benéfico para a saúde do bebê sob o risco de parto prematuro. Dada a necessidade de um tratamento, busca-se ajustar um modelos de regressão para dados longitudinais para analisar o índice de pulsatilidade da artéria umbilical, obtido pelo exame de Doppler, do banco de dados de gestantes da Maternidade Perinatal da unidade Laranjeiras com risco de parto prematuro que fizeram uso de corticoide. Utilizando enfoque Bayesiano para estimar os parâmetros, tem-se como objetivo identificar se o uso de corticoides foi significativamente benéfico durante a gestação, observando se houve diminuição significativa no índice após a aplicação. Foram construídos dois modelos, com dois recortes diferentes do banco de dados, um com 4 e outro com 7 observações por cada grávida. Para ambos modelos a variável que identificava a intervenção do corticoide não apresentou relação significante com a pulsatilidade da artéria umbilical. A variável que indicava o tempo desde a aplicação do corticoide em horas também não apresentou relação significante em nenhum dos dois. Dadas as limitações de quantidade de observações e variáveis utilizadas, o efeito da aplicação do corticoide pode não ter sido estimado de maneira eficiente, pelo menos a curto prazo. Entretanto isto não significa que o corticoide não teve efeito no tratamento.
Palavras-chave: Inferência bayesiana. Modelo de regressão para dados longitudinais. Parto prematuro. Artéria umbilical.

Orientador: Luis Guillermo Coca Velarde (IME/UFF)

Banca:

Luis Guillermo Coca Velarde (IME/UFF)
Estelina Serrano de Marins Capistrano (IME/UFF)
Ludmilla da Silva Viana Jacobson (IME/UFF)

LEONARDO LUIS BARCELLOS RAPOSO. Análise e previsão dos homicídios dolosos de jovens no estado do Rio de Janeiro.

Resumo: A violência em todo mundo é algo amplamente destacado pela mídia como um grande problema para toda a sociedade de forma geral, gerando consequências irreversíveis a todos de forma direta e indireta. A população mais jovem é comumente afetada por diversas formas de violência, principalmente em relação aos homicídios dolosos, quando há intenção de cometer tal ato. Visando monitorar o desenvolvimento deste tipo de violência, utilizou-se a análise de séries temporais. Este trabalho tem como objetivo identificar o perfil da vítima, bem como do agressor e a possível relação entre ambos, visando também destacar períodos do dia e locais do estado do Rio de Janeiro onde seriam mais frequentes as ocorrências e realizar a previsão de homicídios dolosos para o ano de 2020 através dos modelos de Holt-Winters e Box & Jenkins em busca de um modelo que ajuste bem os dados. Estatísticas de aderência foram utilizadas para comparação de modelos e com a análise feita, foi visto que os Modelos de Box & Jenkins obtiveram os melhores resultados quando comparadas as estatísticas de aderência com os Modelos de Holt-Winters.
Palavras-chave: Violência. Homicídios Dolosos. Rio de Janeiro. Séries Temporais. Holt-Winters e Box & Jenkins.

Orientador: Moisés Lima de Menezes (IME/UFF)
Coorientadora: Núbia Karla de Oliveira Almeida (IME/UFF)

Banca:

Moisés Lima de Menezes (IME/UFF)
Núbia Karla de Oliveira Almeida (IME/UFF)
Ludmilla da Silva Viana Jacobson (IME/UFF)
Maria Cristina Bessa Moreira (IME/UFF)

LUCAS MOURA FARIA E SILVA. Propondo medidas indiretas para a disponibilidade de armas nas microrregiões brasileiras.

Resumo: Existe um consenso na literatura que a proporção de suicídios por arma de fogo é a melhor medida indireta de prevalência de arma de fogo. Entretanto, esta proxy não é uma boa medida em locais com baixa densidade populacional, o que pode ser um problema no contexto de interesse deste trabalho, visto que suicídios são eventos menos comuns no Brasil do que em outros países, como EUA. Recentemente, Cerqueira et al. (2018) propuseram medidas indiretas (proxies) que levam em consideração características pessoais das vítimas e um conjunto de efeitos espaciais como novas alternativas para a prevalência de armas de fogo. Entretanto, os efeitos espaciais foram considerados independentes, o que não parece apropriado dado o contexto espacial inerente. Assim, a proposta deste trabalho foi criar proxies para prevalência de armas de fogo, seguindo uma metodologia semelhante à proposta em Cerqueira et al. (2018), porém seguindo uma perspectiva completamente bayesiana, considerando a inclusão de diferentes estruturas de dependência no espaço, por meio de distribuições a priori condicionais autorregressivas (CAR). Assim como em Cerqueira et al. (2018), foram utilizados dois métodos de regularização, LASSO (least absolute shrinkage and selection operator) e Adaptive LASSO para a estimação de efeitos fixos. Foi realizado uma aplicação dos métodos em dados de suicídios nas microrregiões brasileiras, comparando os resultados obtidos em cada metodologia. As proxies geradas pelos métodos foram validadas utilizando um conjunto de dados americanos. Pôde-se observar resultados promissores para as proxies propostas, com destaque para modelos que incluem alguma estrutura espacial, que foram os modelos com os melhores ajustes e aqueles que apresentaram as correlações mais altas com a prevalência de armas de fogo nos estados americanos.
Palavras-chave: Armas. Suicídios. Inferência bayesiana. Dependência espacial. Métodos de regularização.

Orientador: Jony Arrais Pinto Junior (IME/UFF)

Banca:

Jony Arrais Pinto Junior (IME/UFF)
Rafael Santos Erbisti (IME/UFF)
Renata Souza Bueno (ENCE/IBGE)

LYNCOLN SOUSA DE OLIVEIRA. Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina.

Resumo: No presente trabalho, foram utilizados técnicas de aprendizado de máquinas supervisionado em conjunto com as técnicas de reamostragem k-fold e bootstrap utilizando os modelos logit, probit e complemento log-log, com o objetivo de realizar uma análise comparativa do poder discriminatório destes três modelos utilizados para avaliar a associação entre características da mãe e do recém-nascido e o desfecho de anomalia congênita. Os dados utilizados são provenientes do Sistema de Informações sobre Nascidos Vivos (SINASC) dos anos de 2017 e 2018. A variável resposta anomalia congênita observada pode ser considerada um evento raro pois somente 0,9% dos recém nascidos apresentaram essa característica na base de dados. Foram utilizados 70% dos dados gerais (amostra treino) para aplicação das técnicas k-fold com k = 10 e bootstrap com 50 amostras. Os resultados para as duas técnicas de reamostragem foram parecidos para os três modelos, obtendo valores médios de AUC semelhantes, porém as médias de acurácia (A) e especificidade (E) foram ligeiramente maiores para o modelo probit usando ambas as técnicas de reamostragem (kfold: A = 0; 739 e E = 0; 742; bootstrap A = 0; 738 e E = 0; 740). O modelo selecionado pelo k-fold removeu 2 variáveis explicativas (“raça/cor”do recém nascido e “local de nascimento”) a partir do teste de Wald de significância geral, enquanto a técnica de reamostragem bootstrap removeu 1 variável a mais (“número de consultas de pre-natal”) adotando um nível de significância de = 5%, assim resultando na seleção de dois ajustes de modelo probit distintos. Aplicando os modelos nos 30% dos dados restantes da base de dados geral (amostra teste), notou-se que as métricas que avaliam a capacidade discriminatória dos modelos foram bastante parecidas. Como a aplicação da técnica bootstrap com 50 amostras demandou significantemente mais tempo para execução, a técnica de reamostragem que se mostrou mais eficiente foi a de k-fold com k = 10.
Palavras-chave: Aprendizado de máquina. Modelo logit. Modelo probit. Modelo complemento log-log. Anomalia congênita.

Orientador: José Rodrigo de Moraes (IME/UFF)
Coorientadora: Luciane Ferreira Alcoforado (AFA/FAB)

Banca:

José Rodrigo de Moraes (IME/UFF)
Luciane Ferreira Alcoforado (AFA/FAB)
Orlando Celso Longo (TCE/UFF)
Steven Dutt Ross (CCET/UNIRIO)

MARINA CARDEAL SUDRÉ. Modelo de regressão para dados longitudinais: estudo do perímetro cefálico de crianças expostas e não expostas ao vírus Zika.

Resumo: A microcefalia é uma malformação congênita caracterizada pelo perímetro cefálico reduzido para a idade ou sexo, acompanhada de alterações no sistema nervoso central. No Brasil, no ano de 2015, foi observado um aumento inesperado no nascimento de crianças com microcefalia, coincidindo a epidemia de infecção pelo vírus Zika. Este fato foi alvo de muitas pesquisas no Brasil e no mundo. Diante disso, este estudo tem como objetivo modelar a evolução do perímetro cefálico de crianças acompanhadas no Hospital Antônio Pedro (UPC/HUAP-UFF) durante seu primeiro ano de vida e identificar quais são os fatores relacionados a essa evolução. O uso de modelos de regressão linear clássicos tem a limitação de que os dados precisam ser independentes, restrição que não permite explorar de forma adequada os dados deste estudo, dispostos de forma longitudinal, isto é, observações feitas em sequência temporal em uma mesma criança. Por isso, neste trabalho foram utilizados modelos de regressão para dados longitudinais sob enfoque Bayesiano. O modelo contou com 62 crianças com pelo menos 5 observações cada, totalizando 310 dados. A variável resposta, perímetro cefálico, foi analisada em função das variáveis explicativas comprimento, idade, peso, sexo e grupo de exposição (expostos ao Zika Vírus, não expostos ao Zika vírus, Zika suspeito e microcefalia sem exantema materno), em que comprimento, peso e idade são as variáveis que variam com o tempo. Após serem avaliadas separadamente, notou-se que as variáveis sexo e o grupo de expostos ao ZIKV não possuíam valor significativo em relação ao perímetro cefálico e, portanto, foram removidas. Já a variável idade, quando aplicada separadamente, mostrou exercer influência sobre o perímetro cefálico, mas quando testada em conjunto com as outras variáveis independentes não foi estatisticamente significativa. De acordo com os métodos de seleção de modelos Critério de Informação de Akaike (AIC) e Critério de Informação Bayesiana (BIC), os resultados obtidos mostraram que o modelo completo apresentou melhor ajuste dos dados. Portanto, as variáveis comprimento, peso, grupo de Zika suspeito e grupo de microcefalia sem exantema materno se apresentaram associadas ao perímetro cefálico das crianças. Dessa forma, vimos que ajustar modelos para dados longitudinais sob enfoque Bayesiano permite analisar problemas altamente complexos, de forma eficiente e de fácil interpretação.
Palavras-chave: Microcefalia. Dados longitudinais. Perímetro cefálico.

Orientador: Luis Guillermo Coca Velarde (IME/UFF)

Banca:

Luis Guillermo Coca Velarde (IME/UFF)
Estelina Serrano de Marins Capistrano (IME/UFF)
Ludmilla da Silva Viana Jacobson (IME/UFF)

RICARDO JUNQUEIRA DE SOUZA. Estendendo um modelo para identificação de clusters com distribuições a priori baseadas em grafos acíclicos direcionados.

Resumo: Dados de área são quantidades agregadas de um evento de interesse em sub-regiões de uma região de estudo. Um fenômeno comum ao se trabalhar com este tipo de dado é a autocorrelação espacial, que é a tendência de que sub-regiões mais próximas sejam mais similares do que sub-regiões mais distantes entre si e pode ocorrer tanto a nível global quanto local. Ao se modelar dados de área em cenários com a presença de autocorrelação espacial local torna-se necessária a utilização de modelos aptos a lidar com este fenômeno. Neste contexto, Anderson et al. (2014) e Adin et al. (2018) propuseram modelos em dois estágios para estimar uma medida de risco e identificar agrupamentos de sub-regiões com riscos extremos. Estes modelos utilizam como distribuições a priori para os efeitos espaciais o CAR Intrínseco e o Leroux respectivamente e, ainda que apresentem bom desempenho, estas distribuições possuem deficiências conhecidas na literatura. O modelo proposto nesta monografia estende o modelo de Adin et al. (2018) a patir da utilização do DAGAR como distribuição a priori para os efeitos de cluster. O DAGAR é um modelo baseado em grafos acíclicos direcionados e parâmetros em escala, possuindo melhor escalabilidade e interpretabilidade. Os estudos aplicados mostraram que o modelo proposto possui desempenho bastante similar ao modelo de Adin et al. (2018), sugerindo que o modelo proposto é uma opção em potencial para utilização em cenários com grande número de sub-regiões, os quais os demais modelos não suportam.
Palavras-chave: Estatística espacial. Dados de área. Modelos hierárquicos Bayesianos. Identificação de clusters.

Orientador: Jony Arrais Pinto Junior (IME/UFF)

Banca:

Jony Arrais Pinto Junior (IME/UFF)
Gustavo da Silva Ferreira (ENCE/IBGE)
Rafael Santos Erbisti (IME/UFF)

RODOLFO HAURET SPOLADOR. Aplicação do método de Gradient Boosting.

Resumo: Devido ao aumento exponencial da quantidade de dados, os custos mais baixos deprocessamento computacional e uma maior acessibilidade no armazenamento de dados, as técnicas de aprendizado de máquinas tornaram-se mais atrativas. O aprendizado de máquina é um método de análise de dados que automatiza o desenvolvimento de modelos e permite a criação de modelos preditores, que auxiliam na tomada de decisões, reduzindo assim possíveis riscos. Os modelos de previsão de aprendizado de máquinas podem utilizar de regressões, árvores de classificação, entre outros. Neste trabalho é estudado o modelo supervisionado de Gradient Boosting que é baseado em árvores de classificação, ele constrói o modelo em etapas, como outros métodos de boosting, e os generaliza, permitindo a otimização de uma função de perda diferenciável arbitrária. Este método e o método de Regressão Logística serão aplicados em um conjunto de dados rotulados, afim de compará-los. Os resultados obtidos foram diferentes em ambos os métodos, nos dados de treino o modelo de Gradient Boosting apresentou maiores valores de AUC do que o modelo de Regressão Logística, entretanto este padrão não se manteve na base de teste. O melhor modelo de Gradient Boosting ajustado apresentou uma acurácia de 0,5685, este modelo apresentou métricas de sensibilidade (0,652) e especificidade (0,4063) não muito discrepantes, indicando que ele acerta bem ambas as características, enquanto que o melhor modelo de Regressão Logística foi o modelo com uma acurácia de 0,6054, sensibilidade (0,81) e especificidade (0,2084). Apesar do modelo de Regressão Logística apresentar maior acurácia, considerou-se que o Gradient Boosting apresentou melhor desempenho, visto que ele acertou as duas características da variável resposta de forma mais consistente.
Palavras-chave: Aprendizado de Máquina. Gradient Boosting. Regressão Logística. Classificação.

Orientadora: Karina Yuriko Yaginuma (IME/UFF)

Banca:

Karina Yuriko Yaginuma (IME/UFF)
Douglas Rodrigues Pinto (IME/UFF)
Jessica Quintanilha Kubrusly (IME/UFF)

RODRIGO TRINDADE PEDROSA. Modelos preditivos esportivos aplicados a dados da NBA.

Resumo: A NBA sempre foi e continuará sendo uma das maiores ligas esportivas do mundo, atraindo milhares de fãs ao redor do planeta e movimentando bilhões de dólares todos os anos. Com a o objetivo de ajudar as pessoas a entenderem melhor os jogos desse campeonato, a estatística se faz presente, sendo um dos seus métodos, o ajuste de modelos para prever resultados. Neste trabalho foram ajustados 7 modelos lineares generalizados utilizando a distribuição de Poisson, tendo a quantidade de pontos marcados por cada time como a variável resposta e as pontuações de fundamentos básicos do basquete como variáveis explicativas, além de duas variáveis indicando o local e em qual temporada a partida ocorreu. Com a previsão dos pontos para cada time, foram simuladas 1000000 de partidas para todos os últimos confrontos que ocorreram em quatro temporadas da NBA. Os modelos foram comparados por algumas medidas e tiveram certas dificuldades para predizer o vencedor de uma partida, com o melhor dos modelos prevendo corretamente, em média, 52,43% das partidas das simulações.
Palavras-chave: NBA. Modelos Lineares Generalizados. Poisson. Previsão.

Orientador: Hugo Henrique Kegler dos Santos (IME/UFF)

Banca:

Hugo Henrique Kegler dos Santos (IME/UFF)
Luis Guillermo Coca Velarde (IME/UFF)
Rafael Santos Erbisti (IME/UFF)

THAIS DE ALMEIDA MACHADO. Inferência em cadeias de salto com memória de alcance variável.

Resumo: Saber o quanto de informação do passado é relevante para predições é a principal motivação deste trabalho. Aqui são apresentadas as cadeias de salto com memória de alcance variável, processos a tempo contínuo que dependem de uma parte do passado que não é fixa, mas variável – chamada de contexto. Esses processos se caracterizam por possuir uma árvore probabilística de contextos imersa, definidas como sendo o conjunto de contextos ao qual é relevante retornar. São apresentados métodos de estimação para os parâmetros desse processo, e, em particular, é estudado de forma mais aprofundada o estimador definido para a árvore de contextos, similar ao Algoritmo Contexto, mas que além de levar em conta os estados ele também considera o tempo de permanência em cada estado. A fim de avaliar a sua performance, são realizadas simulações de amostras geradas a partir de diversos conjuntos de parâmetros diferentes, com o objetivo de verificar em que situações há uma maior taxa de acertos ou de erros do estimador em estimar a verdadeira árvore desses processos. Também é realizado um estudo acerca do comportamento do estimador em amostras com ruídos. Para isso são inseridos três tipos de ruídos nas amostras em três quantidades diferentes, e é realizada uma comparação do desempenho do estimador conforme as mudanças de cenário apresentadas.
Palavras-chave: Processos de salto. Taxas de salto. Árvore de contextos. Algoritmo Contexto.

Orientador: Douglas Rodrigues Pinto (IME/UFF)
Coorientadora: Karina Yuriko Yaginuma (IME/UFF)

Banca:

Douglas Rodrigues Pinto (IME/UFF)
Karina Yuriko Yaginuma (IME/UFF)
Jaime Antonio Utria Valdes (IME/UFF)
Marcio Watanabe Alves de Souza (IME/UFF)