TCC 2023 | Curso de Estatística da UFF

2023 – 1º Semestre

Escondido

Your content goes here. Edit or remove this text inline or in the module Content settings. You can also style every aspect of this content in the module Design settings and even apply custom CSS to this text in the module Advanced settings.

ANA JACINTA CAVALCANTI BARRETO. Modelando churn através da regressão logística bayesiana.

Resumo: O fenômeno do churn, caracterizado pela perda de clientes, é uma preocupação crescente para as empresas. A retenção de clientes é fundamental, considerando que o custo de adquirir novos clientes é significativamente maior do que o de mantê-los. Portanto, a retenção de clientes torna-se crucial, exigindo uma compreensão aprofundada do churn. Modelos preditivos são ferramentas populares para identificar clientes propensos ao churn, mas a escolha adequada do modelo e das variáveis é desafiadora. Este trabalho visa identificar e interpretar as variáveis relevantes para o churn em uma empresa de telecomunicações fictícia. Foram construídos modelos de regressão logística bayesiana, utilizando uma amostra de dados de relacionamento com clientes. Os modelos foram comparados com base na relevância estatística das variáveis, e o modelo com melhor desempenho foi selecionado. O modelo escolhido apresentou um ajuste adequado aos dados, com alta acurácia, sensibilidade e área sob a curva (AUC), demonstrando sua eficácia na previsão do churn. Os resultados forneceram informações valiosas sobre as variáveis que influenciam o churn, permitindo que a empresa tome medidas de retenção de clientes. O estudo alcançou seus objetivos e forneceu um modelo preditivo eficaz para o churn na empresa analisada.

Palavras-chave: Regressão Logística. Modelos Lineares Generalizados. Inferência Bayesiana. Predição de Churn.

Orientadora: Patrícia Lusié Velozo da Costa (IME/UFF)

Banca:

Patrícia Lusié Velozo da Costa (IME/UFF)
Guilherme Augusto Veloso (IME/UFF)
Mariana Albi de Oliveira Souza (IME/UFF)

CAIO FERNANDO MARTINS CARNEIRO. Análise comportamental do perfil de consumidores de uma empresa após a utilização da ferramenta Google Ads.

Resumo: Com as medidas restritivas para reduzir a contaminação da COVID-19, muitos empreendedores e/ou empresas de todos os portes foram afetadas e tiveram que buscar novas formas de trabalhar e atrair clientes. Para inovar e atrair clientes, essas empresas buscaram utilizar ferramentas digitais. No dia a dia são realizadas bilhões de pesquisas no Google e há uma popularização na utilização das ferramentas do Google. Essas ferramentas tem mostrado um grande potencial para o crescimentos das ações de marketing. Utilizando a ferramenta Google Ads as empresas podem usar anúncios para atrair potenciais clientes, divulgando e impulsionando o seu negócio. Este trabalho tem o objetivo de entender o comportamento do perfil do consumidor de uma empresa após o início da utilização da ferramenta Google Ads, ou seja, após serem impactadas pelos anúncios produzidos e divulgados pela ferramenta, além de modelar o número de cliques em anúncios, com base em informações dos usuários e nos parâmetros definidos para a veiculação do anúncio. Com esse intuito, foi utilizado um Modelo de Regressão Poisson sob o ponto de vista da Inferência Bayesiana, cujas estimativas dos parâmetros mostram que o sexo não é uma característica determinante no interesse dos usuários impactados pelos anúncios e que o principal público alcançado pelos anúncios em questão é da faixa etária 55 a 64 anos, enquanto o público menos alcançado é da faixa etária de 18 a 24 anos. Estas estimativas fornecem indicativos de como os investimentos da empresa nos anúncios podem ser otimizados; ou seja, a partir destas informações a empresa pode decidir restringir seus anúncios ao perfil de usuários mais interessado em seus anúncios, economizando recursos, ou redirecionar seus recursos para atrair usuários de um perfil não alcançado.

Palavras-chave: Modelo de regressao poisson. Google ads. Inferencia Bayesiana.

Orientadora: Mariana Albi de Oliveira Souza (IME/UFF)

Banca:

Mariana Albi de Oliveira Souza (IME/UFF)
Ana Beatriz Monteiro Fonseca (IME/UFF)
Luis Guillermo Coca Velarde (IME/UFF)

DANIEL MENDES MOREIRA DA SERRA. Avaliação da performance física de atletas de futebol profissional: um estudo baseado em dados extraídos de GPS.

Resumo: O presente estudo tem como objetivo analisar a performance física de jogadores profissionais de um clube brasileiro de futebol, a fim de compreender o desempenho nos treinamentos e jogos oficiais. A análise consiste na coleta de dados de dispositivos GPS conectados a cada jogador, tanto durante os treinos como nas partidas oficiais. A partir dessas informações, buscou-se relacionar o esforço físico realizado nos treinamentos com o desempenho físico nos jogos. Para alcançar esse objetivo, foram utilizadas análises de Componentes Principais (PCA) no sentido de compreender as métricas do jogo, e algoritmos de Aprendizado de Máquinas para relacionar os dados dos treinamentos com os jogos. Tanto no PCA quanto no modelo de predição, foram obtidos resultados suficientes, o que permitiu verificar que variáveis relacionadas à velocidade e treinamentos realizados imediatamente um dia antes das partidas desempenham um papel importante no esforço físico dos atletas durante esses jogos.

Palavras-chave: Futebol. Performance física. Pré-processamento de dados. Análise de Componentes Principais. Aprendizado de Máquinas.

Orientador: Douglas Rodrigues Pinto (IME/UFF)
Coorientadora: Karina Yuriko Yaginuma (IME/UFF)

Banca:

Douglas Rodrigues Pinto (IME/UFF)
Marco Aurélio dos Santos Sanfins (IME/UFF)
Reinaldo Castro Souza (DEI/PUC-Rio)

DESIREE MELO DA SILVA. Indicador de Vulnerabilidade Municipal e sua relação com indicadores meteorológicos.

Resumo: Este estudo buscou identificar a relação entre indicadores de vulnerabilidade e variáveis meteorológicas no Brasil. Utilizando um modelo de regressão linear, analisou-se o Indicador de Vulnerabilidade Municipal (IVM) e indicadores meteorológicos de temperatura, umidade e precipitação em diferentes regiões. A análise revelou maior vulnerabilidade em áreas com menor precipitação e menor amplitude de temperatura e umidade. A dependência espacial foi detectada, ressaltando a importância de considerar a dimensão espacial ao examinar o IVM. Esses resultados são relevantes para o planejamento de políticas públicas e tomada de decisões, visando a adaptação às mudanças climáticas e intervenções específicas para áreas mais vulneráveis.

Palavras-chave: Índice de vulnerabilidade. Regressão Linear Múltipla. Estatística Espacial.

Orientadora: Ludmilla da Silva Viana Jacobson (IME/UFF)

Banca:

Ludmilla da Silva Viana Jacobson (IME/UFF)
Jessica Quintanilha Kubrusly (IME/UFF)
Márcia Marques de Carvalho (IME/UFF)

EMILY HATTORI. Simulação de Sistema de Filas.

Resumo: O trabalho propõe comparar resultados teóricos de sistemas de filas com resultados simulados. Para isso foram estudadas diversas medidas de desempenho para diferentes sistemas de filas, e essas medidas foram estimadas também a partir da simulação. Os resultados mostraram a convergência das estimativas pela simulação para os valores teóricos, indicando um bom desempenho do algoritmo de simulação. Além disso, foi possível sugerir medidas de desempenho não conhecidas pela teoria, como por exemplo o percentual médio de clientes perdidos com tamanho de fila limitado.

Palavras-chave: Sistemas de Filas. Simulação de números pseudoaleatórios. Processo de nascimento e morte. M/M/1. M/M/1/k.

Orientadora: Jessica Quintanilha Kubrusly (IME/UFF)

Banca:

Jessica Quintanilha Kubrusly (IME/UFF)
Karina Yuriko Yaginuma (IME/UFF)
Antonio Augusto de Aragão Rocha (IC/UFF)

HILLARY DE OLIVEIRA DOS SANTOS. Atribuição de pesos em indicadores compostos: metodologias baseadas em dados e uma aplicação ao Brasil.

Resumo: O uso de indicadores compostos vem sendo cada vez mais comum para avaliar e orientar a condução de políticas governamentais. Tais indicadores reconhecidamente sintetizam algum fenômeno complexo, muitas vezes descritos por uma coleção de indicadores simples que representam diferentes dimensões de tal fenômeno. Este é o caso, por exemplo, do Índice de Desenvolvimento Humano(IDH). Há várias etapas envolvidas na criação de um indicador composto, sendo uma das mais relevantes a escolha da importância relativa (pesos) dos diferentes indicadores a serem combinados. O presente trabalho compara duas metodologias de atribuição de pesos baseadas em dados: Análise de Componentes Principais e Análise Envoltória de Dados. Com base nestes métodos, dois indicadores compostos serão criados e comparados com as propostas de governo dos mandatos entre 1997 a 2022 afim de avaliar a qualidade das políticas econômicas adotadas.
Palavras-chave: Indicadores compostos. Análise de Componentes Principais. Análise Envoltória de Dados. Avaliação de governos.

Orientador: Wilson Calmon Almeida dos Santos (IME/UFF)

Banca:

Wilson Calmon Almeida dos Santos (IME/UFF)
Jorge Nogueira de Paiva Britto (ESC/UFF)
Márcia Marques de Carvalho (IME/UFF)

ITALO DE MORAES DOLORES. Teoria Assintótica: uma Abordagem em Testes de Aderência.

Resumo: Os testes de hipóteses são amplamente utilizados para realizar inferências na população em estudo. Em particular, os Testes de Aderência constituem parte fundamental de orientação para demais investigações sobre as distribuições de probabilidade, por isso, o conhecimento metodológico é fundamental para análises fidedignas. Neste trabalho, foi estudado o Teste de Aderência de Qui-quadrado de Pearson tanto no caso de parâmetros conhecidos quanto no caso de parâmetros estimados. Esta pesquisa, resume-se como um trabalho investigativo para fornecer informações sobre o Teste de Aderência de Qui-quadrado de Pearson, ilustrar as conclusões dos teoremas e realizar revisão literária. Após extensivas revisões literárias, notou-se a importância da diferença entre os Testes de Aderência com e sem estimação de parâmetros, por isso, realizou-se simulações computacionais para ilustrar esta diferença. Nas simulações realizadas, fica evidente a diferença entre os números de graus de liberdade das distribuições Qui-quadrado para quais as estatísticas de testes nos casos sem estimação e com estimação de parâmetros convergem assintoticamente. Pode-se concluir que os nossos resultados das simulações computacionais coincidiram com os resultados teóricos descritos na literatura.

Palavras-chave: Teste de Aderência de Qui-quadrado de Pearson. Teoria Assintótica. Revisão Bibliográfica. Simulação computacional.

Orientador: Valentin Sisko (IME/UFF)

Banca:

Valentin Sisko (IME/UFF)
Marco Aurélio dos Santos Sanfins (IME/UFF)
Mariana Albi de Oliveira Souza (IME/UFF)

MARIANA BARROS RAMOS. Análise do Perfil dos Usuários Big Brother Brasil: Um estudo de caso dos assinantes do Globloplay.

Resumo: O presente estudo teve como objetivo analisar dados fornecidos pela Globo para identificar o perfil do usuário do Big Brother Brasil (BBB). Para isso, foi utilizado um modelo logístico ajustado no software RStudio. O foco da pesquisa foi entender o comportamento dos assinantes do Globoplay que têm o BBB como seu primeiro conteúdo. Após análise dos dados, o perfil ideal do usuário do BBB foi identificado. Esse perfil é composto, em média, por pessoas de 36 anos, predominantemente do sexo feminino, e provenientes da região Sudeste do Brasil. Os usuários com esse perfil tendem a optar pelo plano Globoplay + Canais Ao Vivo e Premiere, consumindo séries pelo celular e filmes na TV. Além disso, demonstram um interesse significativo por programas do tipo reality, preferindo conteúdos ao vivo em vez de conteúdos on demand. É interessante notar que esses usuários não costumam assistir ao canal da Globo pelo serviço de streaming. Os resultados obtidos fornecem informações valiosas para explorar novas formas de interação e engajamento com o público-alvo, possibilitando a criação de experiências que atendam às suas expectativas. Compreender o comportamento desses usuários permitirá o desenvolvimento de estratégias mais eficientes e direcionadas, a fim de maximizar a satisfação e o envolvimento com o conteúdo oferecido pelo Globoplay, especialmente no contexto do BBB.

Palavras-chave: Analise de perfil. Bbb. Streaming. Modelo logistico.

Orientadora: Ana Beatriz Monteiro Fonseca (IME/UFF)

Banca:

Jessica Quintanilha Kubrusly (IME/UFF)
Jony Arrais Pinto Junior (IME/UFF)
Ludmilla da Silva Viana Jacobson (IME/UFF)

MATHEUS CARL BEER. Modelos de tendência e ARIMA para análise e previsão de matrículas de uma escola de ensino de idiomas nos anos de 2017 a 2022.

Resumo: Por causa da pandemia de Covid-19, diversos setores trabalhistas tiveram que fazer adaptações para a modalidade virtualmente ou remota. Esse trabalho tem como objetivo principal analisar o impacto da pandemia na quantidade de alunos ingressantes e matriculados em uma escola de ensino de idiomas na cidade do Rio de Janeiro. Modelos de Regressão Linear e o teste de Chow foram estimados para verificar se houve quebra estrutural no número de alunos matriculados por mês durante a pandemia, segundo a cliente e a filial. Os resultados mostraram que houve quebra estrutural em quase todas as localidades / clientelas. Modelos ARIMA foram estimados para previsão de ingressantes no último trimestre de 2022 e para o primeiro trimestre de 2023.
Palavras-chave: Covid-19. Modelo de Regressão Linear. Séries temporais. Teste de Chow. Quebra estrutural.

Orientador: Márcia Marques de Carvalho (IME/UFF)

Banca:

Márcia Marques de Carvalho (IME/UFF)
Ludmilla da Silva Viana Jacobson (IME/UFF)
Moisés Lima de Menezes (IME/UFF)

Fechar Todos

2023 – 2º Semestre

Escondido

AMANDA RIBEIRO DE SOUZA. Análise espacial dos casos de dengue nos municípios do estado do Rio de Janeiro.

Resumo: O estudo de dados agregados por divisões espaciais fazem parte do dia a dia de pesquisadores das mais diversas áreas. Este trabalho tem como foco principal fazer uma análise espacial dos casos de dengue, doença viral transmitida aos seres humanos principalmente por mosquitos do gênero Aedes, sobretudo o Aedes aegypti. Esse estudo foi realizado nos municípios do estado do Rio de Janeiro com objetivo de avaliar o comportamento da doença, identificar as regiões que são mais acometidas e detectar fatores que estejam associados ao número de casos dessa doença. Para isso, utilizou-se um modelo de Poisson com efeitos espaciais estruturados e não estruturados, e a inferência foi realizada sob o enfoque Bayesiano. Foram testados diferentes distribuições a priori para os efeitos espaciais, tais como, distribuições normais independentes, o CAR Intrínseco e o Leroux, com diferentes covariáveis. O modelo mais adequado para a representação dos dados foi o CAR Intrínseco, considerando as covariáveis Índice de Vulnerabilidade Social, Taxa da população que vive em domicílios urbanos sem o serviço de coleta de lixo e Taxa de analfabetismo – 18 anos ou mais, escolhido através do critério Deviance Information Criterion (DIC). Após a análise deste modelo, foi concluído que os municípios mais afetados pela falta de coleta de lixo possuíam um maior número de casos de dengue.

Palavras-chave: Dengue. Estatística espacial. Inferência bayesiana.

Orientador: Jony Arrais Pinto Junior (IME/UFF)

Banca:

Jony Arrais Pinto Junior (IME/UFF)
Márcia Marques de Carvalho (IME/UFF)
Victor Eduardo Leite de Almeida Duca (GET/UFF)

ANNA CHRISTINA TEIXEIRA DA SILVA FERREIRA. Mortalidade Materna no Estado do Rio de Janeiro: Aplicação de Modelos Lineares Generalizados na Análise de Fatores de Risco.

Resumo: Mortalidade materna ocorre quando uma mulher morre durante a gravidez ou nos 42 dias seguintes após o parto, excluindo os casos de morte por causas acidentais. Segundo a Organização Pan-Americana de Saúde, a maioria destas mortes poderiam ser evitadas e ocorrem em países em desenvolvimento. Este trabalho analisou e modelou o número de mortes maternas no estado do Rio de Janeiro. Inicialmente, foram realizadas análises descritivas para examinar tendências temporais, padrões e características dos óbitos maternos no período de 2010 a 2019. Posteriormente usou-se um Modelo de Regressão Poisson para analisar a associação entre as variáveis explicativas e o número de óbitos maternos, investigando desta forma a influência de diferentes fatores, tais como idade, escolaridade, estado civil e raça/cor, nos óbitos maternos. Por fim, o uso da análise exploratória espacial teve por objetivo investigar a distribuição geográfica da mortalidade materna no estado do Rio de Janeiro, identificando agrupamentos espaciais de altas e baixas taxas de mortalidade. Os resultados revelaram padrões consistentes ao longo do período investigado, indicando uma redução significativa na mortalidade materna para mulheres abaixo de 40 anos em comparação com aquelas acima dessa idade. Por outro lado, a ausência de parceiro foi consistentemente associada a taxas de mortalidade materna mais elevadas. A análise da escolaridade apontou uma correlação inversa entre níveis educacionais e taxas de mortalidade materna, sugerindo uma tendência para taxas mais altas entre mulheres com menor grau de instrução. Além disso, a variável raça/cor mostrou uma associação entre mulheres não brancas e maiores taxas de mortalidade materna em comparação com mulheres brancas, destacando a necessidade de investigações mais profundas das disparidades socioeconômicas e de acesso aos serviços de saúde. Estes resultados enfatizam a urgência de políticas públicas e intervenções específicas para grupos vulneráveis, visando reduzir as taxas de mortalidade materna. Estratégias que promovam a educação, o acesso equitativo à saúde e o suporte social para mulheres nessas condições podem desempenhar um papel crucial na mitigação desses desafios. Recomenda-se a continuidade deste estudo, considerando análises mais detalhadas e a inclusão de outras variáveis socioeconômicas e de saúde para uma compreensão mais abrangente e eficaz. Futuros trabalhos podem explorar a dinâmica espacial da mortalidade materna, utilizando técnicas avançadas de modelagem espacial e incorporando variáveis contextuais para uma compreensão preditiva dos padrões e determinantes da mortalidade materna em diferentes regiões.

Palavras-chave: Estatística. Modelos Lineares Generalizados. Mortalidade Materna. Inferência Bayesiana.

Orientadora: Mariana Albi de Oliveira Souza (IME/UFF)
Coorientadora: Patrícia Lusié Velozo da Costa (IME/UFF)

Banca:

Mariana Albi de Oliveira Souza (IME/UFF)
Patrícia Lusié Velozo da Costa (IME/UFF)
Ana Beatriz Monteiro Fonseca (GET/UFF)
Iuri da Costa Leite (ENSP/Fiocruz)

CARLA ESTEFANY CAETANO SILVA. Detecção de câncer de mama por meio de análise de imagem com os descritores de Haralick e aprendizado de máquina.

Resumo: Este trabalho de conclusão de curso aborda a detecção de câncer de mama por meio de técnicas de processamento de imagem e aprendizado de máquina. O objetivo é desenvolver um modelo de classificação capaz de analisar as mamografias e auxiliar radiologistas no diagnóstico precoce de possíveis casos de câncer de mama. A metodologia proposta envolve etapas de segmentação binária para identificação de regiões de interesse, extração de descritores de Haralick para caracterização das características das regiões, e utilização de modelos de aprendizado de máquina para a classificação dos casos. A implementação e avaliação da metodologia será realizada em um conjunto de dados clínicos relevantes, com o intuito de validar a eficácia do sistema proposto no auxílio ao diagnóstico de câncer de mama. Os resultados obtidos para imagens de compressão médio lateral, o melhor modelo foi o Adaboost que se destacou com 85,71% de acurácia, 87,50% de sensibilidade e 83,93% de especificidade. Já para as imagens do tipo crânio caudal o melhor modelo foi o KNN destacando-se com uma acurácia de 88,39%, sensibilidade de 91,07% e especificidade de 85,71%. Os modelos criados, alcançaram resultados desejáveis, contudo, embora os resultados não tenham atingindo patamares ideias, os objetivos deste estudo foram alcançados. E é evidente que existe um potencial significativo para melhorar futuramente.

Palavras-chave: Descritores de Haralick. Segmentação binária. Aprendizado de máquinas. Câncer de mama.

Orientadora: Karina Yuriko Yaginuma (IME/UFF)

Banca:

Karina Yuriko Yaginuma (IME/UFF)
Taiane Coelho Ramos (IC/UFF)
Jessica Quintanilha Kubrusly (IME/UFF)

GABRIEL SILVA DE MEDEIROS. Associação entre as características maternas e do recém-nascido e a macrossomia fetal no Estado da Bahia: uma análise usando aprendizado de máquina.

Resumo: A macrossomia fetal é um problema de saúde pública na maioria dos países em desenvolvimento e está associada à ocorrência de complicações que podem aumentar o risco de morbidade e mortalidade da mãe e do bebê. Usando os dados do Sistema de Informações sobre Nascidos Vivos (SINASC), este trabalho teve como objetivo avaliar a associação das características maternas e dos recém-nascidos com o desfecho de macrossomia fetal no Estado da Bahia, durante o ano de 2020. Ajustando o modelo de regressão log-linear de Poisson (com variância robusta), estimou-se a prevalência de macrossomia, a partir de um conjunto de características maternas e do recém-nascido. Considerando ou não o método de redução de viés de Firth no ajuste do modelo, não se observou diferenças substanciais nas estimativas pontuais e intervalares dos parâmetros. Adotando o modelo log-linear de Poisson com o método de Firth, verificou-se que a prevalência de macrossomia foi maior entre bebês nascidos de mães com idade mais avançada (RP = 1,138; p-valor<0,001), não brancas (RP = 1,152; pvalor=0,002), que viviam sem companheiro (RP =1,057; p-valor=0,018), e entre bebês póstermo (RP= 1,408; p-valor<0,001) e do sexo masculino (RP= 1,675; p-valor<0,001). Observou-se ainda menor prevalência de macrossomia entre bebês de mulheres com nenhuma gestação anterior (RP = 0,613; p-valor<0,001), com ensino superior completo (RP=0,717; pvalor<0,001), nascidos por parto vaginal (RP= 0,487; p-valor<0,001) e com apresentação pélvica ou transversa (RP = 0,663; p-valor<0,001). A partir destes achados, conclui-se sobre a necessidade de desenvolver ações voltadas para a prevenção da macrossomia fetal no Estado da Bahia, a fim de reduzir o risco de complicações materno-infantis. Entre estas ações pode-se citar maiores investimentos em assistência pré-natal priorizando, de modo geral, mulheres grávidas de bebês do sexo masculino, não brancas e com menores níveis socioeconômicos.

Palavras-chave: Modelos Log-Lineares . Razão de Prevalências. Sistema de Informação em Saúde. Macrossomia Fetal.

Orientador: José Rodrigo de Moraes (IME/UFF)
Coorientadora: Jessica Pronestino de Lima Moreira (CMF/UFF)

Banca:

José Rodrigo de Moraes (IME/UFF)
Jessica Pronestino de Lima Moreira (CMF/UFF)
Patrícia Viana Guimarães Flores (Hospital Federal de Bonsucesso/HFB)
Bruno Francisco Teixeira Simões (CCET/UNIRIO)

JOAO PEDRO CIGLIATO AUGUSTO. Identificação do discurso de ódio de cunho homofóbico a partir de métodos de Aprendizados de Máquinas.

Resumo: O objetivo deste estudo é definir, por técnicas de Aprendizado de Máquinas, um classificador de discurso de ódio de cunho homofóbico para postagens na rede social Twitter. A base de dados utilizada é composta por tweets relacionados ao tema e foi utilizado técnicas de mineração de texto e e de pré-processamento para preparar esses dados para realizar classificações. Serão utilizadas técnicas de balanceamento da base dados como undersampling, oversampling e SMOTEENN. Dois tipos de vetorização serão analisadas: Matriz Termo Documento e TF-IDF. Para a classificação serão realizados modelos de Floresta Aleatória e Extreme Gradient Boosting (XGBoost). Ao todo, foram realizados 24 modelos no trabalho, e os modelos que obtiveram um melhor resultado foram os modelos que foram treinados com um balanceamento pela técnica de undersampling. Dentre esses modelos, os modelos de Floresta Aleatória realizados com vetorização de Matriz Termo Documento tiveram melhores resultados de sensibilidade, com uma média de 84,14%. Já os modelos de XGBoost apresentaram uma média na sensibilidade de 75,96%.
Palavras-chave: Aprendizado de máquina. Mineração de texto. Discurso de ódio. Homofobia.

Orientadora: Jessica Quintanilha Kubrusly (IME/UFF)

Banca:

Jessica Quintanilha Kubrusly (IME/UFF)
Douglas Rodrigues Pinto (IME/UFF)
Karina Yuriko Yaginuma (IME/UFF)

JULIA HELLEN FRANCO FERREIRA. Sistema de Recomendação baseado em Filtragem Colaborativa utilizando dados binários do Spotify.

Resumo: A industria musical é responsável por uma imensidão de cantores, gêneros e ritmos que produzem uma infinidade de músicas, dificultando muitas vezes ao processo de selecionar, filtrar e organizar estes dados conforme as preferências do consumidor. Os Sistemas de Recomendação buscam sugerir itens baseados na semelhança de outros itens ou baseados nas preferências de outros consumidores com gostos semelhantes para resolver este probelma. Dado o grande volume de dados encontrado nas plataformas de streamings de músicas como o Spotify, estes Sistemas de Recomendação são uma ferramenta essencial para garantir de forma automatizada e personalizada a indicação de músicas para melhorar a experiência do cliente e garantir uma maior satisfação. Este estudo desenvolveu um Sistema de Recomendação por Filtragem Colaborativa em uma base de dados binários que representa o consumo de músicas em playlists do Spotify. Diversas metodologias foram exploradas, destacando a Similaridade entre Usuários (playlists) por meio de medidas como Jaccard, 3W-Jaccard, Sorensen-Dice, Ochai, Sokal & Sneath, e Sokal & Michener, junto com diferentes valores de k para identificar as playlists similares e em seguida recomendar músicas a elas. O k é definido como o número de playlists similares que será utilizado ao longo dos cálculos de similaridades. A base de dados contém 869 playlists distintas e 34443 músicas únicas. A comparação das medidas de similaridade, feita através do método Leave-one-out, envolveu um cenário de simulação, destacando a eficácia da Similaridade de 3W-Jaccard com k = 5). Após a definição da medida e vizinhos mais próximos, foram realizadas recomendações para três playlists, evidenciando um desempenho promissor ao sugerir músicas com gêneros semelhantes ou idênticos. A conclusão destaca a significância de levar em conta as peculiaridades associadas às entradas de valor zero, que podem ser interpretadas como a irrelevância de uma música para a playlist ou simplesmente o desconhecimento da mesma. Além disso, ressalta-se a importância de uma escolha criteriosa da medida de similaridade e do número k de vizinhos para garantir resultados satisfatórios.

Palavras-chave: Filtragem Colaborativa. Sistemas de Recomendação. Dados Binários.

Orientador: Jony Arrais Pinto Junior (IME/UFF)
Coorientadora: Jessica Quintanilha Kubrusly (IME/UFF)

Banca:

Jony Arrais Pinto Junior (IME/UFF)
Jessica Quintanilha Kubrusly (IME/UFF)
Karina Yuriko Yaginuma (IME/UFF)
Rafael Santos Erbisti (IME/UFF)

MATHEUS COUTINHO DOS SANTOS. Analisando a obesidade na população residente nas capitais brasileiras via modelo de regressão logística.

Resumo: A obesidade é uma condição de saúde caracterizada pelo acúmulo excessivo de gordura corporal e pode acarretar uma série de problemas de saúde como diabetes e doenças cardiovasculares. Além desses problemas de saúde, a obesidade também pode impactar a qualidade de vida geral, limitando a mobilidade, interferindo nas atividades diárias e reduzindo a expectativa de vida. No Brasil, a obesidade tem sido um problema crescente, afetando uma grande parcela da população. De acordo com o Ministério da Saúde, em 2021, quase seis a cada dez brasileiros se encontravam acima do peso, enquanto aproximadamente 22\% da população se encontrava obesa. Desta maneira, este trabalho tem a intenção de avaliar potenciais características e hábitos relacionados a presença de obesidade em brasileiros adultos e idosos. Para isso, utilizou-se dados obtidos pela \ac{VIGITEL}, no ano de 2021 e no primeiro semestre de 2023, nas capitais de todos os estados brasileiros. Como variável resposta considerou-se a presença ou não de obesidade e o interesse estava em investigar a relação desta variável com covariáveis como estado civil, se é fumante ou não, entre outras. Os efeitos destas covariáveis são desconhecidos e foram estimados através de um modelo de regressão logística e usando 2 abordagens diferentes: Clássica e Bayesiana com diferentes distribuições a \textit{priori}. Mesmo usando abordagens distintas, os ajustes apresentaram resultados semelhantes, sendo possível observar que indivíduos adultos de raça/cor preta ou com diagnóstico de depressão possuíram maior chance de estarem obesos. Já indivíduos que praticam atividade física, fumam ou estão solteiros possuíram menor chance em relação aos demais.

Palavras-chave: IMC. Obesidade. Regressão logística binomial. VIGITEL.

Orientadora: Patrícia Lusié Velozo da Costa (IME/UFF)

Banca:

Patrícia Lusié Velozo da Costa (IME/UFF)
Mariana Albi de Oliveira Souza (IME/UFF)
Rafael Santos Erbisti (IME/UFF)

PRISCILA REBECA FERREIRA DE SOUZA DOS SANTOS. O impacto da pandemia da COVID-19 nos nascimentos no estado do Rio de Janeiro.

Resumo: A Pandemia da COVID-19 transformou a realidade humana em vários aspectos não só sanitários quanto sociais e econômicos; parte dessas transformações tendem a ser passageiras, outras permanentes. Atualmente as pesquisas se concentram nos efeitos colaterais que o vírus deixou na sociedade, visando compreender as mudanças no padrão de vida conhecido. Esse trabalho tem como objetivo analisar os efeitos da Pandemia no número de nascimentos no Rio de Janeiro para entender quais são os efeitos dela no desenvolvimento no estado, uma vez que a baixa taxa de natalidade influência não só em aspectos populacionais, mas nos econômicos e de saúde, como já se vê em países mais antigos da Europa. Para alcançar esses objetivos, foram utilizados dados do IBGE e da Secretaria de Saúde do Estado para a previsão do comportamento da taxa de natalidade caso não houvesse o fator Pandemia através de modelos SARIMA e então a comparação dessa previsão com os números reais. De 2020 a 2022, 26.606 crianças deixaram de nascer no Estado do Rio de Janeiro, o que representa 4,7% da previsão do modelo estimado neste trabalho. Houve também a indicação da relação entre a idade da mãe e a diminuição do percentual de nascimento de 2017 a 2022.

Palavras-chave: Natalidade. COVID-19. SARIMA. Previsão.

Orientadora: Márcia Marques de Carvalho (IME/UFF)

Banca:

Márcia Marques de Carvalho (IME/UFF)
Ludmilla da Silva Viana Jacobson (IME/UFF)
Victor Eduardo Leite de Almeida Duca (GET/UFF)

THIAGO RIBEIRO DE ALMEIDA ROCHA E SILVA. Mapeamento da mortalidade por acidentes de trânsito no estado do Rio de Janeiro entre 2001 e 2018.

Resumo:

Os acidentes de trânsito são conhecidos como eventos de causas externas, na qual representam um dos principais problemas mundiais de morbimortalidade. Esses acidentes, além de consequentemente gerarem traumas físicos e psicológicos às vítimas e suas famílias, são responsáveis por elevados custos financeiros no setor de saúde do Brasil. O presente trabalho tem por objetivo mapear a mortalidade por acidentes de trânsito nos municípios do estado do Rio de Janeiro entre 2001 e 2018. Para que esse objetivo seja alcançado, as causas de morte foram divididas em total, ciclistas, motociclistas, veículos motores, pedestres e outros. O número de óbitos foi estimado com base na metodologia do estudo Carga Global de Doenças (Global Burden of Disease – GBD). Índices como o Moran, em suas versões uni e bivariada, foram utilizados para que seja feita uma análise descritiva e exploratória dos óbitos provenientes do trânsito no estado fluminense. No caso da utilização do índice de Moran Bivariado, avaliou-se uma associação espacial das taxas de mortalidade com o Índice Brasileiro de Privação (IBP). Como resultado, observou-se um maior valor das taxas de mortalidade para os homens e na região intermediária de Campos dos Goytacazes. Os acidentes de trânsito envolvendo motociclistas tiveram o maior aumento das taxas entre 2001 e 2018 ao passo que os acidentes de trânsito envolvendo pedestres tiveram as maiores reduções. Os Índices de Moran Global foram positivos indicando que, globalmente, os municípios tendem a serem similares aos seus respectivos vizinhos no que se refere ao comportamento das taxas de mortalidade padronizadas por idade para acidentes de trânsito. Ao correlacionar espacialmente as taxas de mortalidade no último triênio analisado com o IBP, os valores do Índice de Moran Global Bivariado ficaram, em sua maioria, positivos, ressaltando que os municípios e seus vizinhos possuem, globalmente, similaridade nos valores observados pelas duas variáveis. Isto é, municípios com altas(baixas) taxas de mortalidade possuem vizinhos com altos (baixos) IBP. Os resultados deste estudo utilizando os dados do GBD são importantes para padronizar métodos, possibilitando a comparação entre municípios do estado do Rio de Janeiro e para a análise da evolução temporal, apoiando assim uma compreensão mais confiável da magnitude dos problemas envolvendo causas externas no estado e o planejamento de ações de saúde pública.

Palavras-chave: Rio de Janeiro. Acidentes no trânsito. Estatística espacial.

Orientador: Guilherme Augusto Veloso (IME/UFF)

Banca:

Guilherme Augusto Veloso (IME/UFF)
Jony Arrais Pinto Junior (IME/UFF)
Patrícia Lusié Velozo da Costa (IME/UFF)

VANDER DIREITO MARINHO. Índice de Apgar no 5° minuto e sua associação com características maternas, do recém-nascido, da gestação e do parto.

Resumo: A avaliação da vitalidade e a atenção imediata ao nascimento são de extrema importância para promover o bem-estar do recém-nascido. O índice de Apgar é considerado um método adequado de avaliação rápida do estado de saúde do bebê, realizado logo após o parto, sendo também adotado para avaliar a necessidade de intervenção médica e o prognóstico após o período neonatal. Utilizando os dados do Sistema de Informações sobre Nascidos Vivos (SINASC 2021), este trabalho teve como objetivo avaliar a associação entre as características maternas, do recém-nascido, da gestação e do parto com o índice de Apgar no 5º minuto de vida, e comparar as associações entre dois estratos municipais: capital e demais municípios do Estado do Rio de Janeiro. Inicialmente, o índice de Apgar foi considerado como um desfecho politômico com três categorias (baixo: 0 a 3, moderado: 4 a 6, e normal: 7 a 10), e modelado via regressão logística multinomial. Entretanto, dada a baixa capacidade discriminatória deste modelo, o índice de Apgar no 5º minuto foi dicotomizado em “baixo/moderado” (índice < 7) versus “normal” (índice ≥ 7), e procedeu-se à análise de regressão logística binária, assim como em outros estudos que consideraram o índice de Apgar no 5º minuto inferior a 7 como desfecho desfavorável. Empregando o modelo logístico binário ajustado por Máxima Verossimilhança Penalizada, com o método de redução de viés de Firth, observou-se que em ambos os estratos municipais, bebês do sexo masculino, nascidos de mães sem ensino superior completo e nascidos de mulheres nulíparas apresentaram maiores chances de receberem índices de Apgar no 5º minuto baixo/moderado (< 7), com a escolaridade materna (ensino superior incompleto) e a nuliparidade estando mais fortemente associadas ao desfecho na capital. Na capital do Estado do Rio de Janeiro, verificou-se ainda que a raça/cor não branca da mãe (OR = 1, 510; p − valor = 0, 004) e a realização de menos de seis consultas de pré-natal (OR = 1, 431; p−valor = 0, 037) se mostraram associadas a um índice de Apgar baixo/moderado aos cinco minutos de vida. A raça materna e a consulta pré-natal não apresentaram efeito significativo no estrato dos demais municípios, mas o tipo de parto vaginal (OR = 1, 462; p − valor < 0, 001) e a prática de indução do trabalho de parto (OR = 1, 322; p − valor = 0, 024) foram fatores associados com um escore de Apgar inferior a 7 no 5º minuto neste estrato. Conclui-se sobre a necessidade de implementação de ações para proporcionar um maior acesso das gestantes a uma assistência e acompanhamento pré-natal de qualidade, sobretudo na capital do Estado do Rio de Janeiro. É necessário ainda o emprego de políticas voltadas para a melhoria das condições sociais da população, bem como a realização de práticas de educação em saúde específicas para mulheres e gestantes.

Palavras-chave: Regressão logística. Índice de apgar. Sistema de informação de saúde.

Orientador: José Rodrigo de Moraes (IME/UFF)
Coorientadora: Patrícia Viana Guimarães Flores (Hospital Federal de Bonsucesso/HFB)

Banca:

José Rodrigo de Moraes (IME/UFF)
Patrícia Viana Guimarães Flores (Hospital Federal de Bonsucesso/HFB)
Jessica Pronestino de Lima Moreira (CMF/UFF)
Ingrid Antunes da Silva (MIP/UFF)

VICTOR HUGO SOARES NEY. Análise de Curvas ROC na Presença de Medidas Repetidas Irregulares.

Resumo: Um dos principais pontos para o exercício da saúde pública é o diagnóstico de doenças de forma confiável, acessível e que possa ser disponibilizada à população. Nesse sentido, a análise de curvas ROC desempenha um papel crucial no desenvolvimento de testes de diagnóstico com alto desempenho. Um cenário muito comum na saúde é o acompanhamento de pacientes ao longo do tempo, em que diversas observações são coletadas sob os mesmos pacientes durante um certo período de tempo – caracterizando, assim, um estudo com a presença de medidas repetidas. Entretanto, é comum que alguns pacientes inicialmente envolvidos no estudo abandonem logo após a primeira coleta de dados e entre os que continuam, muitas vezes não conseguem comparecer em todas as datas pré-estabelecidas, constituindo, assim, uma base de dados irregular: indivíduos com diferentes quantidades de observações e diferentes tempos entre as observações. Em estudos de medidas repetidas, cada paciente observado constitui o que se chama de cluster. Devido às irregularidades anteriormente citadas, é comum a ocorrência de clusters com apenas uma observação, o qual é denominado singleton – e estes são identificados como a principal fonte de problemas nas análises. De forma a realizar a análise de curvas ROC no cenário descrito, supondo que se tenha o interesse de investigar diversos fatores mais facilmente coletados que possam estar associados com o diagnóstico – podendo constituir uma alternativa de diagnóstico ao método de referência, padrão-ouro –, é proposto na literatura um modelo misto de efeitos aleatórios, em que é incluído um intercepto para cada paciente na modelagem. Essa abordagem, no cenário descrito, pode ser um problema por diversos motivos. O principal deles é o fato de incluir um intercepto aleatório por paciente, o que causa overfitting do modelo quando há grande presença de singletons. O trabalho busca realizar um estudo de simulação em diversos cenários, avaliando como a presença de singletons afetam a análise de curvas ROC. Além disso, é proposto uma composição da verossimilhança de forma a minimizar o problema observado. Nos cenários simulados, realizar a análise de curvas ROC, com a metodologia proposta de modelos mistos com efeitos aleatórios, resultou em áreas abaixo da curva (AUC) viesadas e pontos de cortes sem interpretação. A modificação proposta trouxe uma melhor interpretação das curvas ROC e dos possíveis fatores associados com os diagnósticos das doenças.

Palavras-chave: Medidas repetidas. Curvas ROC. Modelos mistos.

Orientador: Jony Arrais Pinto Junior (IME/UFF)

Banca:

Jony Arrais Pinto Junior (IME/UFF)
Ana Beatriz Monteiro Fonseca (IME/UFF)
Ludmilla da Silva Viana Jacobson (IME/UFF)

VICTORIA MEDEIROS BARREIROS. Gradient Boosting para predição da nota do Enem através de indicadores socioeconômicos.

Resumo: Neste trabalho, utilizamos o método de Gradient Boosting, uma técnica que melhora o desempenho de modelos de Árvores de Decisão, para estimar as notas dos estudantes no Exame Nacional do Ensino Médio (ENEM) através de variáveis socioeconômicas. Um dos objetivos é identificar as variáveis mais influentes na predição das notas, além de compreender o impacto de diferentes fatores no desempenho dos alunos. Nos modelos de regressão, destinados a estimarem as notas para cada uma das áreas, observamos que o modelo de Gradient Boosting não apresentou resultados satisfatórios. Os coeficientes de determinação para Ciências da Natureza, Ciências Humanas, Linguagens e Códigos, Matemática e Redação foram, respectivamente, 0.29, 0.23, 0.29, 0.35 e 0.29. Contudo, os modelos de classificação, destinados a prever a aprovação ou reprovação em cursos específicos da UFF e UFRJ, os resultados indicam que os modelos desenvolvidos para cada área apresentaram um bom ajuste aos dados. Para o curso de Estatística na UFF, alcançamos uma acurácia de 0.72, uma sensitividade de 0.70 e uma especificidade de 0.79. Já para o modelo de Estatística na UFRJ, os resultados foram uma acurácia de 0.74, uma sensitividade de 0.74 e uma especificidade de 0.77. O modelo de regressão não apresentou boas estimativas com modelo de Gradient Boosting, sugerindo que somente dados socioeconômicos não são suficientes para predizer as notas. No entanto, no modelo de classificação os resultados sugerem que os modelos de Gradient Boosting foram capazes de fornecer boas estimativas a aprovação ou não em diferentes cursos.

Palavras-chave: Árvores de decisão. Gradient boosting. ENEM. Aprendizado de máquinas.

Orientadora: Karina Yuriko Yaginuma (IME/UFF)

Banca:

Karina Yuriko Yaginuma (IME/UFF)
Jaime Antonio Utria Valdes (IME/UFF)
Jessica Quintanilha Kubrusly (IME/UFF)