TCC 2019 | Curso de Estatística da UFF

2019 – 1º Semestre

Escondido

Your content goes here. Edit or remove this text inline or in the module Content settings. You can also style every aspect of this content in the module Design settings and even apply custom CSS to this text in the module Advanced settings.

AMANDA DE ARAUJO GOMES. Uma análise da qualidade de recomendações via filtragem colaborativa e regressão logística

Resumo: Com o avanço da tecnologia, a quantidade de dados disponíveis aumentou em proporção maior do que a capacidade de processá-los. A internet oferece aos utilizadores um vasto número de páginas Web destinadas à oferta de produtos, tanto de compra/venda como roupas, eletrodomésticos, livros, como de produtos conceituais como artigos, filmes, músicas. O surgimento dos sistemas de recomendação facilitou o acesso e diminuiu o tempo despendido nas buscas pelas informações de interesse, auxiliando tanto aos que disponibilizam conteúdo, podendo-o fazer de maneira direcionada, quanto aos consumidores com conteúdos personalizados. O presente trabalho tem como objetivo estudar o sistema de Filtragem Colaborativa e aplicá-lo no caso da recomendação de filmes para usuários. Além disso, serão propostos modelos logísticos para avaliar se o número de usuários que avaliaram um certo filme e o número de filmes avaliados por um dado usuário influenciam na qualidade da recomendação do filme em questão para esse usuário.
Palavras-chave: Sistemas de recomendação. Filtragem colaborativa. Regressão logística. Modelo logístico binário.

Orientadora: Jessica Quintanilha Kubrusly (IME/UFF)

Banca:

Jessica Quintanilha Kubrusly (IME/UFF)
Hugo Henrique Kegler dos Santos (IME/UFF)
Patrícia Lusié Velozo da Costa (IME/UFF)

ANA LUIZA SANTOS NEVES. Mineração de texto aplicada a um banco de reviews de produtos

Resumo: Este projeto tem como finalidade unir técnicas de mineração de texto a métodos de classificação de dados e aplicá-los em um banco de \textit{reviews} de peças de roupa compradas pela internet. O objetivo central do estudo é identificar peças com recomendações positivas e negativas a partir do texto escrito pelo consumidor ao descrever a peça. Para tal, foram realizados procedimentos a fim de transformar o banco textual em um banco numérico e, após realizado isso, foram utilizados dois métodos para classificar os dados: Análise de Conglomerado e Random Forest. Enquanto a análise de conglomerado encontrou muita dificuldade em classificar os documentos, o método Random Forest foi mais bem sucedido na tarefa, apresentando acurácia em torno de 70%.
Palavras-chave: Estatística. Mineração de texto. Random forest. Análise de conglomerado. Reviews. E-commerce. Machine learning. Data science.

Orientadora: Jessica Quintanilha Kubrusly (IME/UFF)

Banca:

Jessica Quintanilha Kubrusly (IME/UFF)
Hugo Henrique Kegler dos Santos (IME/UFF)
Ludmilla da Silva Viana Jacobson (IME/UFF)

BARBARA YOHANA CESAR SILVA. Análise da autoavaliação de saúde bucal em adultos brasileiros utilizando modelos logísticos multinomiais

Resumo: O aquecimento da terra e suas consequências para a vida no planeta é uma das grandes preocupações. Um de seus efeitos mais visíveis é o aumento da ocorrência de eventos extremos como, por exemplo, chuvas torrenciais seguidas de grandes períodos de estiagem, aumentos e quedas bruscas da temperatura, secas, estiagens, inundações e enxurradas, e o impacto ﬁnanceiro que isso causa. Esses fatores devem ser levados em consideração no planejamento de construções e de atividades relacionadas à gestão e saúde, por exemplo. Sendo assim, o estudo do comportamento destes fenômenos extremos torna-se de suma importância, e a Teoria de Valores Extremos é uma ferramenta eﬁcaz no estudo deste contexto. Os fundamentos básicos da teoria dos valores extremos foram inicialmente expostos por Fisher e Tippett, que estabeleceram os três tipos de distribuição assintótica de valores extremos,como Gumbel (Tipo I), Fréchet(Tipo II) e Weibul(Tipo III). As estimativas dos parâmetros da distribuição generalizada será obtida pelo método da máxima verossimilhança, seguido do teste de Kolmogorov-Smirnov, gráﬁcos de probabilidade-probabilidade e de quantil-quantil, para veriﬁcar o ajuste do modelo aos dados, e por ﬁm calcular os períodos e níveis de retornos aﬁm de veriﬁcar qual das distribuições se ajustou melhor aos dados. Os dados foram obtidos no Banco de Dados Meteorológicos para Ensino e Pesquisa (BDMEP) do Instituto Nacional de Meteorologia (INMET). As informações referem-se à série de temperatura (em ºC), precipitação (em mm) e umidade relativa (em %) da estação 83743 localizada no município do Rio de Janeiro, desde 01/01/1961 a 31/03/2017.
Palavras-chave: Valores extremos. Precipitação. Temperatura. Umidade relativa. Eventos climáticos. Máxima verossimilhança.

Orientador: Marco Aurélio dos Santos Sanfins (IME/UFF)

Banca:

Marco Aurélio dos Santos Sanfins (IME/UFF)
Daiane Rodrigues dos Santos (DE/UCAM)
Eduardo Ferioli Gomes (IME/UFF)

FLAVIO PEREIRA MARTINS DA SILVA. Modelando dados geoestatísticos através da função de covariância exponencial sob enfoque bayesiano

Resumo: Diversos fenômenos tais como precipitação, ocorrências de doenças, entre outros, são espacialmente correlacionados e, por isso, este trabalho consiste em modelar dados geoestatísticos impondo uma estrutura de dependência espacial. Diferentes funções na literatura permitem fazer essa estrutura. Esse trabalho concentra-se na função de covariância exponencial. Os parâmetros desconhecidos são estimados sob o enfoque Bayesiano. Na estatística bayesiana, a amostra e a crença do pesquisador são levadas em consideração na estimação paramétrica através da distribuição a posteriori. Porém, a avaliação direta dessa distribuição muitas vezes é custosa ou não é possível. Uma alternativa nesses casos é a utilização dos métodos de Monte Carlo via cadeias de Markov (MCMC) e, em especial, o amostrador de Gibbs e o algoritmo de Metropolis-Hasting. Dados simulados são gerados para analisar a eficiência do modelo proposto de convergir para o valor verdadeiro e analisar a sensibilidade que a estimação possui com diferentes distribuições a priori. Finaliza-se o trabalho aplicando um conjunto de dados reais ao modelo proposto.
Palavras-chave: Estatística espacial. Inferência bayesiana. MCMC. Geoestatística. Alcance.

Orientadora: Patrícia Lusié Velozo da Costa (IME/UFF)

Banca:

Patrícia Lusié Velozo da Costa (IME/UFF)
Ana Beatriz Monteiro Fonseca (IME/UFF)
Jony Arrais Pinto Junior (IME/UFF)

JESSYKA AMORIM PADILHA GOLTARA. Analisando a eficiência da regressão quantílica em diferentes tipos de dados

Resumo: Regressão é uma ferramenta que permite explorar e inferir sobre a relação de uma variável resposta com variáveis explicativas. Essa relação pode ser expressa através de um modelo matemático. Os modelos de regressão linear são muito utilizados em diversas áreas e consistem basicamente em atribuir uma estrutura linear para a média do processo. Apesar de extremamente úteis, por atenderem situações nas quais a média da variável resposta é explicada por um conjunto de variáveis independentes, estes modelos tornam-se inapropriados quando o interesse não é modelar o comportamento médio da população. Como uma alternativa a esta classe de modelos, modelos de regressão quantílica mostram-se vantajosos quando o interesse está na análise de qualquer quantil populacional. Modelos de regressão quantílica também servem para analisar quantis em modelos lineares e não lineares, tendo ainda o benefício de serem menos sensíveis a \textit{outliers} por utilizarem medidas mais robustas a tais observações e, nesse caso, analisar a mediana da distribuição pode ser mais eficiente do que analisar a média tornando a regressão quantílica mais apropriada. Sob o ponto de vista bayesiano, para estimar os parâmetros dessa relação utiliza-se a distribuição de Laplace assimétrica, onde faz-se necessário utilizar os métodos de Monte Carlo via Cadeias de Markov para gerar amostras da posteriori. No presente trabalho, serão abordados a comparação entre o modelo linear e modelos quantílicos clássico e bayesiano quando alguma suposição do modelo linear não for atendida. Dados simulados serão utilizados para analisar a eficiência na estimação dos parâmetros, tempo computacional necessário e para comprar modelos diferentes aplicados a um mesmo conjunto de dados. Em seguida, os modelos serão aplicados em um conjuntos e dados reais sobre o Índice de Desenvolvimento Humano.
Palavras-chave: Estatística. Regressão linear. Modelos lineares. Regressão quantílica. Modelos quantílicos. Regressão quantílica bayesiana. Distribuição Laplace assimétrica.

Orientadora: Patrícia Lusié Velozo da Costa (IME/UFF)
Coorientadora: Mariana Albi de Oliveira Souza (IME/UFF)

Banca:

Patrícia Lusié Velozo da Costa (IME/UFF)
Mariana Albi de Oliveira Souza (IME/UFF)
Kelly Cristina Mota Gonçalves (IM/UFRJ)
Wilson Calmon Almeida dos Santos (IME/UFF)

JUAN CARLOS DA SILVA PEREIRA. Percepção sobre a violência na fronteira brasileira após a legalização da maconha no Uruguai - Uma abordagem via modelos lineares generalizados

Resumo: A legalização da maconha é um tema que vem sendo bastante abordado nos últimos anos, tornando-se um assunto interessante para a realização de estudos. A Pesquisa de Vitimização e Percepção Social em Políticas sobre Drogas na Fronteira Brasileira com o Uruguai, realizada em agosto de 2016 pelo Instituto de Pesquisa Econômica Aplicada (IPEA), foi a primeira etapa do Monitoramento dos Efeitos da Nova Política Uruguai de Regulamentação do Mercado de Cannabis sobre a Zona de Fronteira. Utilizando os dados dessa pesquisa, o presente trabalho tem como objetivo estudar e avaliar a associação entre aspectos socioeconômicos, de percepção sobre as drogas e percepção sobre a violência com as opiniões em relação a legalização da maconha e a situação da segurança na cidade no último ano utilizando o Modelo de Regressão Logístico Binomial e o Modelo de Regressão Logístico Multinomial. Foram encontradas associações entre fatores como Idade, Renda, Nível Escolar, Religião e algumas percepções sobre as drogas e a violência com as opiniões sobre a legalização da maconha e sobre a situação da violência na cidade no último ano.

Palavras-chave: Uruguai. Maconha. Legalização. Segurança. Regressão. Binomial. Multinomial.

Orientador: Hugo Henrique Kegler dos Santos (IME/UFF)

Banca:

Hugo Henrique Kegler dos Santos (IME/UFF)
José Rodrigo de Moraes (IME/UFF)
Ludmilla da Silva Viana Jacobson (IME/UFF)

LAIS PEREIRA PEIXOTO DE MORAES. Comparação de modelos para a análise de dados censurados à direita

Resumo: É comum o interesse por analisar dados provenientes de acompanhamentos ao longo do tempo. Um caso importante refere-se a análise dos dados de sobrevivência que são compostos por covariáveis e pela variável de interesse denominada tempo de sobrevivência. Esta última, é responsável por medir o tempo até a ocorrência do evento desejado e sua principal característica é a presença de censura. Diz-se que um dado de sobrevivência é censurado quando o tempo registrado não contém o evento desejado. Note que, os dados censurados possuem alguma informação a respeito do evento analisado, portanto, devem ser incorporados a análise. Dentre as ferramentas disponíveis para a análise de regressão com dados censurados, as mais usadas são o modelo Cox e o modelo de Poisson. O primeiro é adequado para um modelo de regressão cuja variável resposta é o tempo de sobrevivência e o segundo quando a variável resposta se refere a contagem do evento de interesse. A proposta deste trabalho é realizar um estudo comparativo entre esses modelos e verificar a influência do número de censuras nas estimações. Para isso, foi adotada a abordagem Bayesiana e considerou-se dados de sobrevivência com censura à direita. Dessa forma, diversas simulações foram feitas para os modelos considerados através de algoritmos implementados manualmente no programa R. Os resultados obtidos indicaram que os dois algoritmos MCMC convergiram de acordo com o critério de Gelman-Rubin. Porém, ao comparar as amplitudes dos intervalos de credibilidade dos modelos, o modelo Cox obteve o melhor desempenho uma vez que tinham os menores tamanhos. Portanto, apesar de ser possível aplicar ambos os modelos na análise dos dados de sobrevivência, conforme o aumento da porcentagem de censura, deve-se optar por usar o modelo Cox ao invés do Poisson.
Palavras-chave: Análise de sobrevivência. Inferência bayesiana. Modelo Cox. Modelo Poisson.

Orientador: Jony Arrais Pinto Junior (IME/UFF)

Banca:

Jony Arrais Pinto Junior (IME/UFF)
Ludmilla da Silva Viana Jacobson (IME/UFF)
Luis Guillermo Coca Velarde (IME/UFF)

LUANA VILLARINHO PEREIRA DE CARVALHO. Modelos de análise de sobrevivência aplicados a dados de neoplasia trofoblástica gestacional

Resumo: A análise de sobrevivência, ou análise de sobrevida, pode ser descrita como um ramo da estatística utilizado para analisar características e fatores temporais até a ocorrência de determinado evento. É utilizada em diversas áreas quando o objetivo do estudo é o tempo até a ocorrência do evento ou o risco de ocorrência deste evento no tempo, como, neste caso, o óbito por neoplasia trofoblástica gestacional. A principal característica deste tipo de estudo é a presença de dados censurados, que são observações parciais de alguns indivíduos. Neste trabalho será utilizado um banco de dados de mulheres com Neoplasia Trofoblástica Gestacional, coletados numa pesquisa que está sendo realizada na Maternidade Escola da Universidade Federal do Rio de Janeiro. Mil trezentos e setenta e uma mulheres foram acompanhadas e foram selecionadas 9 características consideradas importantes para serem analisadas: a idade da paciente, a dosagem de hCG pré-tratamento, a histologia da Neoplasia Trofoblástica Gestacional, a gestação antecedente, o estadiamento a partir da Federação internacional de Ginecologia e Obstetrícia, o escore prognóstico, o intervalo entre o término da gravidez e o início do tratamento, se houve quimiorresistência e se o tratamento foi feito fora do Centro de Referência. As características destas pacientes são analisadas a partir da técnica de análise de sobrevivência com enfoque clássico: utilizando abordagens não-paramétrica a partir do estimador de Kaplan-Meier e paramétrica, utilizando o modelo probabilístico lognormal pois apresentou melhor aderência comparado aos modelos exponencial, Eeibull e gama. A partir da análise descritiva analisa-se que menos de $5\%$ das pacientes apresentaram histologia por MOLA invasora ou tumor trofoblástico do sítio placentário, gravidez antecedente ectópica ou a termo/pré-termo e estadiamento FIGO I ou IV, o que pode prejudicar o resultado final. Como resultado da análise frequentista obteve-se que a idade da paciente, a gestação antecedente e o local de tratamento são variáveis não significativas para modelar o tempo de sobrevivência. É importante considerar que os resultados não refletem à população de mulheres com a doença, mas à população que tem acesso a Centros de Referência. Para todas as análises foi utilizado o software estatístico RStudio.
Palavras-chave: Análise de sobrevivência. Neoplasia trofoblástica gestacional. Letalidade. Doença trofoblástica gestacional.

Orientador: Luis Guillermo Coca Velarde (IME/UFF)
Coorientadora: Fernanda Freitas Oliveira Cardoso (Maternidade Escola/UFRJ)

Banca:

Luis Guillermo Coca Velarde (IME/UFF)
Antônio Rodrigues Braga Neto (CMM/UFF)
Fernanda Freitas Oliveira Cardoso (Maternidade Escola/UFRJ)
Jony Arrais Pinto Junior (IME/UFF)

MARÍLIA DE FIGUEIREDO JORDÃO. Estudo de efeitos locais do Programa Rio Sem Miséria - Abordagem por controle sintético

Resumo: O presente trabalho de conclusão de curso tem o objetivo de verificar possíveis impactos do programa de complementação de renda, Rio Sem Miséria. Mais especificamente, pretende-se aqui analisar a evolução de indicadores sociais e econômicos, como PIB per capita, média de idade de empregados, número de nascidos por mães adolescentes, número de matriculados em universidades e número de matriculados nas escolas dos municípios com famílias que receberam o benefício no período de 2011 a 2014 em comparação a um grupo de outros municípios com características semelhantes, mas que não recebeu essa intervenção. O estudo utilizou uma base de dados municipais construída como uma consolidação de 250 variáveis quantitativas provenientes de 12 fontes diferentes, sendo utilizada uma metodologia apropriada para a redução da dimensionalidade do espaço paramétrico, chamada adaLASSO, com o objetivo de selecionar as covariadas mais importantes. O método do controle sintético foi aplicado para cada caso. Os resultados obtidos se mostraram heterogêneos e sem impactos positivos consistentes, não concordando com a bibliografia levantada sobre efeitos de outros programas de transferência de renda, como Bolsa Família.
Palavras-chave: Programa Rio Sem Miséria. Avaliação de impacto. Controle sintético.

Orientador: Eduardo Ferioli Gomes (IME/UFF)

Banca:

Eduardo Ferioli Gomes (IME/UFF)
Daiane Rodrigues dos Santos (UVA)
Marco Aurélio dos Santos Sanfins (IME/UFF)

MICHELLE JERÔNIMO DE SOUZA. Modelagem da chance de diabetes em mulheres brasileiras: uma avaliação do efeito do plano amostral

Resumo: A Pesquisa Nacional de Saúde (PNS) é uma pesquisa de abrangência nacional realizada pelo IBGE que utilizou um plano amostral complexo, considerando estratificação de setores censitários, conglomeração e pesos amostrais diferentes para as unidades da amostra. As informações sobre o plano amostral nem sempre são consideradas na modelagem estatística pelos pesquisadores, podendo influenciar as estimativas pontuais dos parâmetros (e medidas de associação) de modelos estatísticos e as suas medidas de precisão. Utilizando os dados da PNS 2013, o presente estudo tem como objetivo avaliar o efeito (impacto) do plano amostral no ajuste de um modelo logístico binário, adotado no presente estudo para avaliar a associação entre as variáveis sociodemográficas e de saúde e o desfecho de diabetes em mulheres adultas de 18 anos ou mais, no Brasil. De modo geral, houve alterações nos erros padrão dos efeitos da maioria das variáveis explicativas quando algum aspecto do plano amostral da PNS não foi considerado no ajuste do modelo logístico. Além da consideração da estratificação e conglomeração na modelagem estatística, destaca-se a necessidade de se considerar os pesos amostrais, caso contrário haverá também modificações nas razões de chance da mulher reportar diabetes, além de alterações dos erros padrão. Recomenda-se assim a inclusão de todos os aspectos do plano amostral no ajuste de modelos, com base em pesquisas amostrais complexas, tais como a PNS, para obter conclusões adequadas a respeito das associações entre as variáveis.
Palavras-chave: Modelo logístico binário. Diabetes. Saúde da mulher. Pesquisa Nacional de Saúde. Plano amostral complexo.

Orientador: José Rodrigo de Moraes (IME/UFF)

Banca:

José Rodrigo de Moraes (IME/UFF)
Cecília de Souza Fernandez (IME/UFF)
Márcia Marques de Carvalho (IME/UFF)

TATIANA SOUZA MARTINS. Fatores sociodemográficos e de saúde associados ao cadastramento e frequência de visitas domiciliares das equipes da Estratégia Saúde da Família

Resumo: A estratégia Saúde da Família (ESF) visa reorganizar a atenção básica no Brasil, tendo como enfoque a promoção da saúde e a prevenção de doenças, de forma que a família seja o centro de atenção. Foi utilizado o modelo de regressão logística multinomial e binário, usando os dados da Pesquisa Nacional de Saúde (PNS) 2013 para identificar os fatores sociodemográficos e de saúde associados ao cadastramento e frequência de visitas domiciliares das equipes da estratégia de saúde da família. No ajuste do modelo foi considerado o plano amostral complexo da pesquisa, que incluiu os pesos amostrais, estratos e conglomerados. Utilizando o teste de Wald de significância geral e individual verificou-se que as seguintes variáveis explicativas apresentaram associação com desfecho de cadastramento na ESF, considerando o nível de significância de 5%: Região, esgotamento sanitário, situação censitária, forma de abastecimento de água, posse de bens básicos, densidade habitacional e proporção de moradores com autoavaliação de saúde negativa. Observou-se maior chance de cadastramento na ESF para os domicílios localizados nas regiões Nordeste e Sul (comparativamente com à região Sudeste), os localizados em áreas rurais, com esgotamento sanitário e densidade habitacional inadequados e com mais de 50 a 75% dos moradores com autoavaliação de saúde negativa. Domicílios com abastecimento de água e posse de bens básicos inadequados parecem não ser priorizados no cadastramento da ESF.
Palavras-chave: Regressão logística multinomial. Regressão logística binária. Estratégia de saúde da família. Pesquisa Nacional de Saúde. Plano amostral complexo.

Orientador: José Rodrigo de Moraes (IME/UFF)

Banca:

José Rodrigo de Moraes (IME/UFF)
Keila Mara Cassiano (IME/UFF)
Patrícia Carvalho de Jesus (NPQM/UFRJ)

TUANY ESTHEFANY BARCELLOS DE CARVALHO SILVA. Aplicação do modelo de Markowitz na otimização de carteiras de investimento de risco em um único período

Resumo: Os estudos de (Markowitz-1952)apresenta a diversificação como principal instrumento para a redução do risco global de uma carteira (portfolio) de investimentos, tais foram a base para a Moderna Teoria de Carteiras, que teve início com a publicação do artigo Portfolio Selection por Markowitz (1952). A utilização da diversificação como forma de redução do risco de uma carteira foi amplamente discutida e comprovada por meio de estudos sobre a correlação entre os ativos. A eficiência de uma carteira é relacionada pelo binômio risco e retorno, ou seja, o investidor pode sempre que desejar reduzir o risco de seus investimentos, alterando a alocação, com o intuito de manter o retorno desejado. Assim sendo, é necessário que carteiras sejam submetidas periodicamente ao monitoramento da performance e da composição dos ativos investidos. Para resolver tal problemática é de grande utilidade a aplicaçãao de modelos matemáticos que ofereçam suporte às escolhas dos ativos e na definição de seus percentuais em uma carteira. A finalidade deste trabalho de final de curso, é empregar o modelo de Markowitz para otimizar carteiras de açoes que atualmente são listadas na bolsa de valores brasileira (B3). Para tanto pretende-se utilizar o software R-project na modelagem dos dados, bem como aproveitar as atuais funcionalidades de conectividade do software para coletar os dados diretamente a bolsa de valores e com isso ser capaz de construir a base de dados necess´aria para a otimização. Finalmente, estudos sobre os outputs da otimização e suas interpretaçôes, serão elaborados como forma de ilustrar toda a riqueza contida na metodologia.
Palavras-chave: Teoria de Markowitz. Fronteira eficiente. Portfólio. Diversificação de portfólio. Otimização de carteiras de investimento. B3.

Orientador: Marco Aurélio dos Santos Sanfins (IME/UFF)

Banca:

Marco Aurélio dos Santos Sanfins (IME/UFF)
Daiane Rodrigues dos Santos (UVA)
Eduardo Ferioli Gomes (IME/UFF)

Fechar Todos

2019 – 2º Semestre

Escondido

BRUNA FERREIRA MARQUES. Análise de Componentes Principais e Análise de Autovetores na abordagem Singular Spectrum Analysis para modelagem e previsão de velocidade do vento

Resumo: A energia elétrica no Brasil é basicamente gerada a partir da fonte hidráulica, cujo processo de geração provém da força das águas, nas usinas hidrelétricas onde são construídos reservatórios e incluem o desvio dos rios. Porém, há necessidade de recorrer a fontes complementares, uma vez que durante a época de estiagem há uma baixa nos níveis dos rios dificultando o abastecimento das usinas, e também, principalmente na região Nordeste, onde há esgotamento dos meios de exploração de recursos hídricos. Muitos países têm-se preocupado com o desenvolvimento nas pesquisas em energia renovável. Há diversas vantagens para investir em geração de energia Eólica, pois além de ser barata, limpa e renovável, a energia eólica também não emite gases de efeito estufa (GEE) para a atmosfera. O presente estudo teve como objetivo avaliar o potencial eólico da área de Campina Grande (PB) e consequentemente verificar a possibilidade de instalações de parques eólicos para geração de energia. Para isso, análise de séries temporais foi utilizada em busca de um melhor ajuste de modelos de Holt-Winters e Box \& Jenkins, e de avaliar o ganho preditivo da filtragem Singular Spectrum Analysis (SSA) nos modelos de previsão. Os modelos de Box \& Jenkins apresentaram os melhores ajustes, mas o melhor modelo foi proveniente da filtragem SSA via análise de componentes principais. Concluindo que há viabilidade para a instalação de parques eólicos em Campina Grande (PB).
Palavras-chave: Energia Eólica. Séries Temporais. Holt-Winters. Box & Jenkins. Singular Spectrum Analysis. SSA

Orientador: Moisés Lima de Menezes (IME/UFF)

Banca:

Moisés Lima de Menezes (IME/UFF)
Hugo Henrique Kegler dos Santos (IME/UFF)
Thiago Graça Ramos (IPSOS)

LUCAS PRIMO LUZ. Avaliação da capacidade preditiva dos modelos das classes ARIMA e de Amortecimento Exponencial sob diferentes aspectos da abordagem SSA na modelagem e previsão de consumo de energia

Resumo: O consumo de energia elétrica no Brasil vem aumentando gradativamente durante os anos. Este aumento no consumo se justifica devido à urbanização, ao aumento populacional e também devido aos avanços tecnológicos nas casas, comércios e indústrias. Para atender esta demanda, se faz necessário o desenvolvimento de novas técnicas capazes de prever com uma melhor acurácia o consumo de energia elétrica. Singular Spectrum Analysis (SSA) é um método estatístico que pode, dentre outras coisas, filtrar séries temporais eliminando sua componente ruidosa e melhorando a acurácia da previsão. Este projeto propõe fazer a modelagem de Holt-Winters e Box & Jenkins na série de consumo de energia elétrica no Brasil. Além disso, fazer uma filtragem SSA nessa mesma série removendo os ruídos e utilizar os modelos de Holt-Winters e Box & Jenkins para fazer a modelagem com a série filtrada pela metodologia de Análise Gráfica dos Autovetores. Após as modelagens, foram utilizadas as estatísticas de aderência para verificar a capacidade preditiva de cada modelo. As estatísticas de aderência utilizadas foram o Coeficiente de Determinação (R2), Erro Médio Percentual Absoluto (MAPE), Erro Médio Absoluto (MAE), Raiz Quadrada do Erro Quadrático Médio (RMSE) e Critério de Informação Bayesiana (BIC). Com as análises realizadas, foi verificado que os modelos de Box & Jenkins obteve os melhores resultados quanto as estatísticas de aderência tanto na série original quanto na série filtrada. Ao aplicar a filtragem SSA tem-se um ganho preditivo em todos os casos para a previsão de consumo de energia.
Palavras-chave: Séries temporais. Singular spectrum analysis. Holt-Winters. Box & Jenkins. Análise gráfica dos autovetores. Consumo de energia elétrica.

Orientador: Moisés Lima de Menezes (IME/UFF)

Banca:

Moisés Lima de Menezes (IME/UFF)
Ludmilla da Silva Viana Jacobson (IME/UFF)
Wilson Calmon Almeida dos Santos (IME/UFF)

MAIARA GRIPP DE SOUZA. Inferência em cadeias com memória de alcance variável

Resumo: Nesta dissertação foram estudadas cadeias estocásticas de ordem fixa k>1, e cadeias de ordem variável, com espaço de estados A={0,1}. Cadeias de alcance variável são uma classe de cadeias estocásticas introduzidas por Rissanen, 1983. Nestas cadeias a ocorrência de eventos depende de alguma porção do passado, e o tamanho desta porção é variável em função da informação contida nos eventos que já ocorreram. Abordou-se aqui como fazer inferência sobre as probabilidades de transição inerentes às cadeias, e quanta informação do passado deve ser usada para estimá-las adequadamente. Para isto foram utilizados o Critério de Informação Bayesiano (BIC), e uma variante do Algoritmo Contexto. Estas probabilidades, quando estimadas corretamente, podem ser usadas para fazer predições de grande utilidade prática. Ao constatar que o Algoritmo Contexto estima qual parte do passado é relevante para fazer predições, verificou-se que, para isto, ele decide se olhar um passo a mais no passado traz algum ganho de informação significativo. Seu critério de decisão é um valor delta. Este valor deve permitir que o Algoritmo Contexto descarte informações desnecessárias e mantenha informações relevantes. Uma vez que ele é fundamental para a aplicação do Algoritmo Contexto, propôs-se estudar esse valor delta através de simulações. Foi possível encontrar uma equação que estima delta em função de duas variáveis explicativas, quando o modelo atende às premissas necessárias, e, desta forma, analisar o comportamento de delta diante de mudanças nessas variáveis.
Palavras-chave: Cadeias de alcance variável. Algoritmo Contexto. Critério de Informação Bayesiano. Árvore de contextos.

Orientador: Douglas Rodrigues Pinto (IME/UFF)
Coorientadora: Karina Yuriko Yaginuma (IME/UFF)

Banca:

Douglas Rodrigues Pinto (IME/UFF)
Karina Yuriko Yaginuma (IME/UFF)
Guilherme Ost (IM/UFRJ)
Valentin Sisko (IME/UFF)

MATHEUS TORRES MENDES DE ANDRADE. Geração de cenários para retornos de ativos financeiros via método da inversão e distribuição condicional estimada via núcleo: uma aplicação aos dados do NASDAQ

Resumo: Simulação é importante e amplamente utilizada em estudos estatísticos por permitir estabelecer uma ponte entre a realidade e a modelagem matemática \cite{Burrill}. Diversos procedimentos tanto na inferência clássica, quanto na bayesiana estão baseados em simulações. Simulações também são importantes quando usadas para avaliar a qualidade de procedimentos estatísticos. Sob um ponto de vista aplicado, as simulações ajudam em processos de tomadas de decisão. Quando trata-se de variáveis independentes e identicamente distribuídas, a simulação de dados univariados torna-se simples, mesmo quando o processo gerador é elemento de algum modelo estatístico não paramétrico. Contudo, ao falar de dados provenientes de séries temporais, a tarefa de simular um processo gerador mais abrangente torna-se um grande desafio. Se deseja-se gerar séries temporais artificiais que se comportem da mesma forma que retornos diários de ativos financeiros, neste caso o NASDAQ \textit{(National Association of Securities Dealers Automated Quotations)}, precisa-se escolher atentamente um modelo paramétrico adequado. Caso contrário, deparar-se-á com procedimentos extremamente sofisticados. Na prática, escolher um modelo paramétrico adequado é uma questão igualmente sofisticada. Pretende-se aqui estudar uma alternativa, em que a distribuição condicional estimada via método não paramétrico de núcleo é combinada com a versão inversa do teorema da transformação integral para produzir simulações.
Palavras-chave: NASDAQ. Simulação. Séries Temporais. Distribuição Condicional.

Orientador: Wilson Calmon Almeida dos Santos (IME/UFF)

Banca:

Wilson Calmon Almeida dos Santos (IME/UFF)
Moisés Lima de Menezes (IME/UFF)
Victor Eduardo Leite de Almeida Duca (Doutorando IM/UFRJ)

RAFAEL RANGEL GEMÉSIO. Avaliação do nível de depressão em estudantes universitários de Niterói/RJ mediante o uso de Modelos de Regressão Logística

Resumo: A incidência de depressão é cada vez mais comum em todo o mundo. Diante deste cenário, instrumentos que possam avaliar a ocorrência deste distúrbio têm sido elaborados e aplicados em muitas culturas. O Inventário de Depressão de Beck (BDI) é uma dessas ferramentas. Alinhado a isto, pesquisas vêm mostrando o efeito positivo que a religiosidade/espiritualidade (R/E) tem tido sobre doenças mentais. Questionários como o Inventário de Religiosidade Intrínseca (IRI) são desenvolvidos com a intenção de mensurar o fenômeno da R/E sobre a vida do indivíduo. Este estudo avaliou as condições de disforia e de depressão em 357 universitários de Niterói/RJ e verificou a relação entre religiosidade/espiritualidade, dentre outras variáveis, com a ocorrência desses transtornos. Em seguida, foi proposto um modelo de regressão logística cuja forma funcional depende das variáveis consideradas regressoras na fase inicial do estudo. Entre os estudantes com disforia e os considerados saudáveis, observou-se diferença significativa nos resultados do IRI e constatou-se que aqueles que encontram fonte de inspiração numa crença religiosa/espiritual ou acreditam na força da própria oração possuem menos chances de apresentarem o transtorno. Além disso, verificou-se que as variáveis referentes à idade, faixa etária, área do curso, gênero e período estão relacionadas à ocorrência de depressão e, ainda, que estudantes do gênero masculino e os que cursam a partir do quinto período do seu curso de graduação possuem menos chances de desenvolverem a doença.

Palavras-chave: Modelo de regressão logística. Depressão em universitários. BDI. IRI.

Orientador: Luis Guillermo Coca Velarde (IME/UFF)

Banca:

Luis Guillermo Coca Velarde (IME/UFF)
Ana Beatriz Monteiro Fonseca (IME/UFF)
Hugo Henrique Kegler dos Santos (IME/UFF)

THALITA COSTA DO NASCIMENTO. Perfil dos municípios brasileiros que votaram nos candidatos à presidência no segundo turno das eleições de 2018

Resumo: Muito se especula ainda sobre qual é o alinhamento de voto do eleitorado brasileiro atualmente, quais motivações e circunstâncias levam o eleitor a votar em determinado candidato em detrimento do outro. Nas últimas eleições presidenciais brasileiras, falou-se muito sobre aspectos que poderiam ter decidido a eleição. Este trabalho tem a intenção de delinear um perfil dos municípios brasileiros que votaram nos candidatos à presidência nas eleições de 2018 no segundo turno. Neste estudo são consideradas características dos municípios como, candidato vencedor, o Índice de Desenvolvimento Humano Municipal (IDHM), as proporções de homens, mulheres, faixa etária, escolaridade, religião, cor/raça, estado civil e região. Utilizando a análise de correspondência múltipla e obtendo um percentual de explicação de aproximadamente 87,2%, pode-se perceber que categorias como IDHM, escolaridade, estado civil, cor/raça, faixa etária e região estão mais relacionadas ao candidato vencedor. Os perfis municipais encontrados nesta pesquisa foram dois. No primeiro perfil, categorias mais associadas ao candidato Jair Messias Bolsonaro, foram registrados, maiores percentuais de eleitores casados, concluintes do ensino fundamental, superior e maiores de 34 anos, além de uma maior porcentagem de pessoas de cor branca, cidades da região Sudeste e com maior IDHM. Já no segundo perfil, categorias mais associadas ao candidato Fernando Haddad, foram registrados maiores percentuais de eleitores, solteiros, entre 16 e 34 anos, e ainda uma maior porcentagem de pessoas de cor parda, cidades da região Nordeste e com menores Índices de Desenvolvimento Humano Municipal.
Palavras-chave: Candidatos. Eleições. Análise de correspondência múltipla.

Orientador: Jony Arrais Pinto Junior (IME/UFF)

Banca:

Jony Arrais Pinto Junior (IME/UFF)
Ana Maria Lima de Farias (IME/UFF)
Ludmilla da Silva Viana Jacobson (IME/UFF)

THAYSSA FERNANDES DA FONSECA. Testes Estatísticos para Avaliação de Sequências Produzidas por Geradores de Números Aleatórios

Resumo: Junto com o avanço do uso de computadores, pode-se observar o aumento no uso de simulações numéricas para a resolução de problemas estatísticos e de outras áreas. Tais simulações fazem uso de sequências de números aleatórios. Entretanto, as sequências usadas nas simulações são geradas por algoritmos determinísticos denominados geradores de números pseudo-aleatórios. O presente trabalho apresenta alguns testes estatísticos propostos na literatura para avaliar a hipótese de aleatoriedade dessas sequências. São também apresentados os códigos dos programas para a implementação desses testes. A título de ilustração, os testes são aplicados a sequências geradas por \textit{softwares} comumente utilizados por alunos de graduação em Estatística e profissionais da área.
Palavras-chave: Aleatoriedade. Geradores de números aleatórios. Geradores de números pseudo-aleatórios. Uniformidade. Testes estatísticos.

Orientadora: Maria Cristina Bessa Moreira (IME/UFF)

Banca:

Maria Cristina Bessa Moreira (IME/UFF)
Moisés Lima de Menezes (IME/UFF)
Núbia Karla de Oliveira Almeida (IME/UFF)

VICTOR MATIAS GALVÃO VITÓRIA. Modelo de regressão logística para identificação de irregularidades em ligações de água

Resumo: O desperdício de água é um tema que vem sendo muito discutido e um dado preocupante para o Brasil, que viveu nos últimos anos uma das piores crises hídricas da sua história. Várias pesquisas de métodos de combate ao desperdício de água estão sendo aplicados e novas técnicas estudadas por diversas empresas e órgãos do país. Utilizando dados de uma empresa de saneamento básico, o presente trabalho tem como objetivo estudar e avaliar a associação entre algumas variáveis características de clientes e assim identificar ligações que possuem alguma irregularidade. O Modelo de Regressão Logística possui como variável resposta a chance (em escala logarítmica) de um evento ocorrer, assim, ele foi utilizado para obter a chance de alguma ligação possuir irregularidade. Três modelos foram ajustados e o modelo escolhido possui uma taxa de acerto (acurácia) de 92,9%. A partir desse modelo, a empresa poderá identificar mais facilmente as ligações que possuem algum tipo de irregularidade, contribuindo para a redução do seu índice de perda de água.

Palavras-chave: Regressão Logística. Modelo Generalizado.

Orientador: Hugo Henrique Kegler dos Santos (IME/UFF)

Banca:

Hugo Henrique Kegler dos Santos (IME/UFF)
Karina Yuriko Yaginuma (IME/UFF)
Luis Guillermo Coca Velarde (IME/UFF)

WILSON DA MOTA MARTINS DE ALMEIDA. Previsão de radiação solar direta sob a abordagem singular spectrum analysis

Resumo: A geração de energia fotovoltaica vem sendo cada vez mais difundida no contexto das matrizes energéticas no mundo e o Brasil desponta com um grande potencial para tal fim, dado que é um dos maiores receptores de radiação solar no planeta. Com isso, faz-se necessário o desenvolvimento de técnicas capazes de aumentar a capacidade preditiva de incidência de radiação solar, ou da quantidade de tempo de exposição ao sol de determinados locais a fim de auxiliar pesquisas para instalações de usinas geradoras de energia fotovoltaica, bem como qualquer outro estudo que demanda previsões de incidência de radiação solar. Este projeto propõe o uso de Singular Spectrum Analysis (SSA) via análise gráfica de autovetores para filtrar uma série de incidência de exposição completa ao sol, eliminando a componente ruidosa, e então, gerando uma nova série suavizada que foi modelada por Holt-Winters e Box-Jenkins. A série temporal também foi modelada em sua forma original para fins comparativos com o intuito de testar a capacidade preditiva do modelo sobre a série filtrada via SSA. Neste caso, o software FPW (Forecast Pro for Windows) foi utilizado para gerar os modelos e analisar as estatísticas de aderência, o GRETL foi utilizado para analisar funções de autocorrelações e autocorrelações parciais das séries temporais e o R foi utilizado para importar dados referente a resíduos e gerar seus gráficos. As estatísticas de aderência consideradas foram a Raiz Quadrada do Erro Quadrático Médio (RMSE), o Erro Médio Percentual Absoluto (MAPE), o Desvio Médio Absoluto (MAD) e o Critério Bayesiano de Informação (BIC). Os resultados mostram que o filtro Singular Spectrum Analysis melhora a capacidade preditiva dos modelos (tanto o de Holt-Winters quanto o de Box-Jenkins), e que, após a filtragem da série, o modelo de Box-Jenkins foi a melhor escolha para gerar previsões dos dados solarimétricos estudados.
Palavras-chave: Energia fotovoltaica. Singular Spectrum Analysis. Autovetores. Holt-Winters. Box-Jenkins. Modelagem. Previsão.

Orientadora: Moisés Lima de Menezes (IME/UFF)

Banca:

Moisés Lima de Menezes (IME/UFF)
Marco Aurélio dos Santos Sanfins (IME/UFF)
Wilson Calmon Almeida dos Santos (IME/UFF)