Evolving Open Information Extraction for Portuguese employing Language Models
Extração Aberta de Informação, Língua Portuguesa, Aprendizado Profundo, Modelos Gerativos, Sequence Labeling
A Extração Aberta de Informação (OpenIE) é uma tarefa importante na Ciência da Computação, voltada para a extração de informações estruturadas a partir de textos, tipicamente na forma de triplas (argumento 1, relação, argumento 2), sem a necessidade de relações-alvo predefinidas. O objetivo do OpenIE é extrair informações valiosas para usos como o aprimoramento da compreensão de linguagem, a alimentação de bases de conhecimento e a compreensão textual. A extração de relações de OpenIE a partir de textos em português apresenta desafios substanciais, principalmente devido à sua rica morfologia, ao uso frequente de pronomes clíticos, à ordem flexível das palavras, à natureza flexionada da língua e a outras peculiaridades linguísticas. O Aprendizado Profundo (Deep Learning) avançou significativamente o OpenIE para a língua inglesa, sendo a sequence labeling uma abordagem comum. Recentemente, surgiu uma nova abordagem — a Extração Generativa de Informação — que se apoia, em particular, em Modelos de Linguagem Generativos de Grande Escala (LLMs), configurando-se como uma alternativa promissora. Técnicas generativas podem receber uma sentença como entrada e gerar representações semânticas estruturadas. Apesar do grande número de estudos de OpenIE voltados para o inglês, a pesquisa sobre OpenIE para a língua portuguesa, especialmente com o uso de métodos de Aprendizado Profundo, ainda é limitada. Muitos trabalhos existentes dependem de conjuntos de dados traduzidos automaticamente do inglês. Além disso, a maioria das abordagens de Aprendizado Profundo para OpenIE em português tem adotado uma perspectiva multilíngue, tratando-o apenas como mais um idioma entre muitos nos conjuntos de treinamento, o que frequentemente leva à negligência de suas características linguísticas particulares. Esta tese apresenta uma análise comparativa de duas metodologias, sequence labeling e abordagens gerativas — para a extração automatizada de relações de OpenIE em textos em português. Uma contribuição central é o desenvolvimento e a curadoria de diversos conjuntos de dados de OpenIE em português, de modo a enfrentar a escassez de dados e possibilitar uma avaliação robusta. Estes incluem tanto corpora anotados manualmente quanto novos corpora gerados com o uso de LLMs. O estudo envolve o desenvolvimento e a avaliação de um modelo baseado em rotulação de sequências e a análise do desempenho de LLMs generativos nesses conjuntos de dados em português. Realiza-se, assim, uma análise comparativa abrangente desses métodos, com foco em sua eficácia na extração de relações de OpenIE — incluindo relações abstrativas — a partir de textos em português. Esta pesquisa contribui de forma significativa para o crescente corpo de literatura sobre a aplicação de técnicas de Aprendizado Profundo para OpenIE na língua portuguesa, aborda lacunas críticas de recursos e estabelece as bases para avanços futuros nesse campo, em particular na exploração de capacidades generativas e abstrativas de extração.