Usamos cookies para medir audiência e melhorar sua experiência. Você pode aceitar ou recusar a qualquer momento. Veja sobre o iMasters.

Já passei por isso ao treinar modelos de linguagem, parece que a perda fica estagnada e o modelo não melhora. Às vezes, é questão de ajustar a taxa de aprendizado, outras vezes o problema está no volume de dados ou na configuração do batch size.
Concordo, e também não dá pra esquecer do batch size. Muito pequeno, o modelo não aprende direito. Muito grande, pesa na memória e pode impactar na estabilidade do treino. ai sim
ajudou pra cacete na minha experiência, às vezes o problema tá no ajuste de taxa de aprendizado, especialmente em fine tuning. Se estiver muito alto, o loss não converge. Vale a pena testar com valores menores e ver se melhora.
Já tive que revisar o quality dos dados também.
No meu time, sempre tentamos validar o pipeline com um conjunto menor de dados primeiro. Se não convergir nesse cenário, aí sim a gente mexe na configuração. Assim evita perder tempo com ajustes que não resolvem o problema.