CONVITE PARA DEFESA DE TESE - Felipe Leandro Andrade da Conceição

DEFESA DE TESE DE DOUTORADO

 

A Coordenação do Programa de Pós-Graduação Stricto Sensu em Modelagem Matemática e Computacional – PPGMMC tem o prazer de convidar a comunidade científica para a 14ª sessão pública de apresentação e defesa da Tese de Doutorado:

 

CANDIDATO(A): Felipe Leandro Andrade da Conceição  

 

TÍTULO:

“Arcabouço Multimodal para Recomendação de Vídeos”.

 
BANCA EXAMINADORA

Prof. Dr. Flávio Luis Cardeal Pádua (Orientador)

CEFET-MG

Prof. Dr. Adriano César Machado Pereira (Coorientador)

UFMG

Prof. Dr. Anísio Mendes Lacerda (Coorientador)

CEFET-MG

Prof. Dr. Marcelo Garcia Manzato

USP

Prof. Dr. Marcello Peixoto Bax

UFMG

Prof. Dr. Thiago de Souza Rodrigues

CEFET-MG

Prof. Dr. Flávio Vinícius Cruzeiro Martins

CEFET-MG

Prof. Dr. Daniel Hasan Dalip

CEFET-MG

 

LOCAL:

 

 

Auditório 401 do Prédio 17 Campus II, CEFET-MG

Av. Amazonas, 7675 - Nova Gameleira

DIA:

24/08/2018 – sexta-feira

HORA:

08:30 horas

RESUMO: Este trabalho propõe um novo arcabouço multimodal para recomendação de vídeo baseada em redes neurais de aprendizagem profunda (Deep Learning). Ao contrário das soluções mais comuns, foram explorados simultaneamente duas modalidades de dados, quais sejam: (i) conteúdo visual (imagens) e (ii) as modalidades textuais que, em conjunto com o fluxo de áudio, constituem os dados elementares de um vídeo. Especificamente, este arcabouço descreve os dados textuais usando bag-of-words (BOW) e TF-IDF, mesclando esse conteúdo com descritores visuais obtidos por meio de redes neurais convolucionais. Como resultado é construído um descritor multimodal para cada vídeo, obtida por meio dautilização de autoencoder que permite construir representação com baixa dimensionalidade. Para qualificar a recomendação realizada, aplica-se na abordagem o método chamado Sparse Linear Method with Side Information (SSLIM), o qual considera como entrada as modalidades propostas de descritores visuais e textuais. Ao fazer isso, é possível produzir um ranking (top-N ) de recomendação mais relevantes para o usuário. É importante destacar que esta abordagem é flexível, ou seja, é possível usar outros tipos de modalidades, autoencoders e arquiteturas de fusão. Resultados experimentais obtidos com três coleções reais (MovieLens-1M, MovieLens-10M e Vine), contendo 3.320, 8.400 e 18.576 vídeos, respectivamente, demonstram que este arcabouço pode melhorar em até 60,6% os resultados da recomendação, quando comparada a uma única modalidade de recomendação e até 84%, quando comparado com os métodos de referência deste estudo, demonstrando a eficácia desta proposta e destacando a utilidade da informação multimodal em um sistema de recomendação.

 

Palavras-chave: Sistemas de recomendação. Autoencoder. Fusão de dados. Representação multimodal.

Notícia cadastrada em: 07/08/2018 17:27
SIGAA | Diretoria de Tecnologia da Informação - DTI - (31) 3319-7000 | Copyright © 2006-2024 - UFRN - vm-sig-app-10.ditic.sgi.cefetmg.br.inst10