AVALIAÇÃO DE PADRÕES GRAMATICAIS EM TRANSFORMERS NA LÍNGUA PORTUGUESA: UM ESTUDO SOBRE CABEÇAS DE ATENÇÃO
Transformer, BERT, Padrões Gramaticais, Cabeças de Atenção.
O avanço dos modelos de linguagem natural foi marcado pela transição de abordagens
baseadas em regras e métodos estatísticos para arquiteturas neurais profundas, como o
Transformer, que permitem modelar dependências contextuais em textos de forma dis-
tribuída. Este trabalho investiga a capacidade de um modelo monolíngue baseado no
BERT, treinado com dados em português brasileiro, de representar relações sintáticas do
tipo governante→dependente, conforme descritas no arcabouço do Universal Dependen-
cies (UD).
Para conduzir a análise, utilizou-se o corpus anotado UD Portuguese-Bosque, a partir
do qual foram extraídas sentenças que contêm padrões gramaticais diversos, incluindo
transitividade verbal, voz passiva, pronomes reflexivos, predicativos do sujeito e orações
subordinadas. As sentenças foram processadas pelo modelo, e os valores de atenção foram
extraídos por camada e cabeça, com o objetivo de identificar alinhamentos entre os pesos
atencionais e as dependências sintáticas registradas no corpus. O tokenizador do modelo
foi utilizado em conjunto com mecanismos de rastreamento lexical que permitem associar
subtokens às respectivas posições nos textos originais, viabilizando a análise interpretável
dos pares sintáticos.
A avaliação baseou-se em métricas como acurácia por padrão gramatical, entropia da distribuição de atenção e Undirected Unlabeled Attachment Score (UUAS). Também
foi aplicada uma métrica composta que integra seletividade e aderência estrutural. Os
resultados revelam que certas cabeças de atenção exibem padrões sistemáticos de ati-
vação em relação a dependências específicas. Destaca-se, nesse contexto, a cabeça 3 da
camada 2, que apresentou alinhamento consistente com relações entre núcleos verbais e
seus argumentos, sendo um exemplo de especialização funcional emergente. Essas evidên-
cias contribuem para a compreensão dos mecanismos internos de atenção em modelos do
tipo Transformer aplicados ao português brasileiro e fornecem subsídios para abordagens
futuras de compressão supervisionada e análise linguística automatizada.