Portal de Programas de Pós-Graduação (UFBA)

SIGAA - Sistema Integrado de Gestão de Atividades Acadêmicas

PGCOMP/IC PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO (PGCOMP) INSTITUTO DE COMPUTAÇÃO Telefone/Ramal: (71) 3283-5750 E-mail: pgcomp@ufba.br https://posgraduacao.ufba.br/pgcomp

Banca de DEFESA: BRUNO SOUZA CABRAL

Uma banca de DEFESA de DOUTORADO foi cadastrada pelo programa.
DISCENTE : BRUNO SOUZA CABRAL
DATA : 15/09/2025
HORA: 08:00
LOCAL: RNP Sala Daniela Barreiro Claro
TÍTULO: Evolving Open Information Extraction for Portuguese employing Language Models

PALAVRAS-CHAVES:

Extração Aberta de Informação, Língua Portuguesa, Aprendizado Profundo, Modelos Gerativos, Sequence Labeling

PÁGINAS: 198
RESUMO:

A Extração Aberta de Informação (OpenIE) é uma tarefa importante na Ciência da Computação, voltada para a extração de informações estruturadas a partir de textos, tipicamente na forma de triplas (argumento 1, relação, argumento 2), sem a necessidade de relações-alvo predefinidas. O objetivo do OpenIE é extrair informações valiosas para usos como o aprimoramento da compreensão de linguagem, a alimentação de bases de conhecimento e a compreensão textual. A extração de relações de OpenIE a partir de textos em português apresenta desafios substanciais, principalmente devido à sua rica morfologia, ao uso frequente de pronomes clíticos, à ordem flexível das palavras, à natureza flexionada da língua e a outras peculiaridades linguísticas. O Aprendizado Profundo (Deep Learning) avançou significativamente o OpenIE para a língua inglesa, sendo a sequence labeling uma abordagem comum. Recentemente, surgiu uma nova abordagem — a Extração Generativa de Informação — que se apoia, em particular, em Modelos de Linguagem Generativos de Grande Escala (LLMs), configurando-se como uma alternativa promissora. Técnicas generativas podem receber uma sentença como entrada e gerar representações semânticas estruturadas. Apesar do grande número de estudos de OpenIE voltados para o inglês, a pesquisa sobre OpenIE para a língua portuguesa, especialmente com o uso de métodos de Aprendizado Profundo, ainda é limitada. Muitos trabalhos existentes dependem de conjuntos de dados traduzidos automaticamente do inglês. Além disso, a maioria das abordagens de Aprendizado Profundo para OpenIE em português tem adotado uma perspectiva multilíngue, tratando-o apenas como mais um idioma entre muitos nos conjuntos de treinamento, o que frequentemente leva à negligência de suas características linguísticas particulares. Esta tese apresenta uma análise comparativa de duas metodologias, sequence labeling e abordagens gerativas — para a extração automatizada de relações de OpenIE em textos em português. Uma contribuição central é o desenvolvimento e a curadoria de diversos conjuntos de dados de OpenIE em português, de modo a enfrentar a escassez de dados e possibilitar uma avaliação robusta. Estes incluem tanto corpora anotados manualmente quanto novos corpora gerados com o uso de LLMs. O estudo envolve o desenvolvimento e a avaliação de um modelo baseado em rotulação de sequências e a análise do desempenho de LLMs generativos nesses conjuntos de dados em português. Realiza-se, assim, uma análise comparativa abrangente desses métodos, com foco em sua eficácia na extração de relações de OpenIE — incluindo relações abstrativas — a partir de textos em português. Esta pesquisa contribui de forma significativa para o crescente corpo de literatura sobre a aplicação de técnicas de Aprendizado Profundo para OpenIE na língua portuguesa, aborda lacunas críticas de recursos e estabelece as bases para avanços futuros nesse campo, em particular na exploração de capacidades generativas e abstrativas de extração.

MEMBROS DA BANCA:
Presidente - 1232218 - DANIELA BARREIRO CLARO
Externo à Instituição - MARCOS GARCÍA GONZÁLEZ
Externa à Instituição - Aline Marins Paes Carvalho - UFF
Externa à Instituição - RENATA VIEIRA - UE
Externa à Instituição - VLÁDIA CÉLIA MONTEIRO PINHEIRO - UNIFOR

Notícia cadastrada em: 14/09/2025 06:51