A Coordenação do Programa de Pós-Graduação Stricto Sensu em Modelagem Matemática e Computacional – PPGMMC tem o prazer de convidar a comunidade científica para a 14ª sessão pública de apresentação e defesa da Tese de Doutorado:
CANDIDATO(A): Felipe Leandro Andrade da Conceição
TÍTULO: |
“Arcabouço Multimodal para Recomendação de Vídeos”. |
Prof. Dr. Flávio Luis Cardeal Pádua (Orientador) |
CEFET-MG |
|
Prof. Dr. Adriano César Machado Pereira (Coorientador) |
UFMG |
|
Prof. Dr. Anísio Mendes Lacerda (Coorientador) |
CEFET-MG |
|
Prof. Dr. Marcelo Garcia Manzato |
USP |
|
Prof. Dr. Marcello Peixoto Bax |
UFMG |
|
Prof. Dr. Thiago de Souza Rodrigues |
CEFET-MG |
|
Prof. Dr. Flávio Vinícius Cruzeiro Martins |
CEFET-MG |
|
Prof. Dr. Daniel Hasan Dalip |
CEFET-MG |
|
LOCAL: |
Auditório 401 do Prédio 17 Campus II, CEFET-MG Av. Amazonas, 7675 - Nova Gameleira |
|
DIA: |
24/08/2018 – sexta-feira |
|
HORA: |
08:30 horas |
|
RESUMO: Este trabalho propõe um novo arcabouço multimodal para recomendação de vídeo baseada em redes neurais de aprendizagem profunda (Deep Learning). Ao contrário das soluções mais comuns, foram explorados simultaneamente duas modalidades de dados, quais sejam: (i) conteúdo visual (imagens) e (ii) as modalidades textuais que, em conjunto com o fluxo de áudio, constituem os dados elementares de um vídeo. Especificamente, este arcabouço descreve os dados textuais usando bag-of-words (BOW) e TF-IDF, mesclando esse conteúdo com descritores visuais obtidos por meio de redes neurais convolucionais. Como resultado é construído um descritor multimodal para cada vídeo, obtida por meio dautilização de autoencoder que permite construir representação com baixa dimensionalidade. Para qualificar a recomendação realizada, aplica-se na abordagem o método chamado Sparse Linear Method with Side Information (SSLIM), o qual considera como entrada as modalidades propostas de descritores visuais e textuais. Ao fazer isso, é possível produzir um ranking (top-N ) de recomendação mais relevantes para o usuário. É importante destacar que esta abordagem é flexível, ou seja, é possível usar outros tipos de modalidades, autoencoders e arquiteturas de fusão. Resultados experimentais obtidos com três coleções reais (MovieLens-1M, MovieLens-10M e Vine), contendo 3.320, 8.400 e 18.576 vídeos, respectivamente, demonstram que este arcabouço pode melhorar em até 60,6% os resultados da recomendação, quando comparada a uma única modalidade de recomendação e até 84%, quando comparado com os métodos de referência deste estudo, demonstrando a eficácia desta proposta e destacando a utilidade da informação multimodal em um sistema de recomendação.
Palavras-chave: Sistemas de recomendação. Autoencoder. Fusão de dados. Representação multimodal. |