Pela defesa dos direitos digitais em Portugal




No final do ano passado, o Governo anunciou a criação do Amália, um modelo de linguagem em grande escala (LLM) para a língua portuguesa. Foi dito que seria gratuito e open source, para ser “utilizado por todos, incluindo Academia, centros de investigação, entidades públicas, empresas e cidadãos”. O Governo lançava ainda o repto a que utilizadores “partilhem as futuras evoluções do modelo e as coloquem ao serviço de todos os portugueses”.

Mais recentemente surgiram notícias que levantam a dúvida: será que usar conteúdos do Arquivo.pt para treinar o Amália viola direitos de autor? O Sindicato dos Jornalistas chegou a acusar o projecto de “ignorar a lei dos direitos de autor”, falando mesmo em pirataria. Pouco depois, foi noticiado que o Amália afinal não estará acessível ao público e será usado apenas pela Administração Pública.

Tanto do ponto de vista legal quanto da defesa do acesso ao conhecimento, tais alegações são absurdas.

Do ponto de vista legal, a lei é clara.

O direito de autor é constituído tanto por direitos exclusivos concedidos aos autores como por limites e excepções a esses direitos, em defesa de outros interesses. A “mineração” ou “prospecção” de texto e de dados[1] não faz parte dos direitos exclusivos dos autores. Assim, à partida, esta seria uma actividade não abrangida pelo direito de autor.

Contudo, a prospecção poderá infringir um dos direitos exclusivos existentes: o direito de reprodução (i.e., de fazer ou autorizar cópias de uma obra), quando a execução da prospecção implique a realização de cópias não temporárias e transitórias de obras sujeitas a direitos de autor. Por outras palavras, a prospecção de texto e dados em si mesma não requer qualquer permissão, mas a eventual criação de cópias da obra durante a prospecção ou treino já precisa.[2] Portanto, dependendo da actividade específica e do tipo de técnica utilizada, a prospecção de texto e dados pode, ou não, afectar o direito exclusivo do autor de autorizar cópias da sua obra.[3]

Mas mesmo quando o processo de prospecção implica a criação e utilização dessas cópias, a lei é recente, clara e bastante intencional: a prospecção de texto e dados pode ser feita com quaisquer materiais que estejam legalmente acessíveis, sem autorização dos autores e sem pagamento.

Ou seja, os direitos exclusivos dos autores não só não abrangem prospecção de texto e dados sobre as suas obras, como essa actividade, se implicar a criação de cópias, beneficia de uma excepção expressamente prevista na lei.[4]

Quando realizada no âmbito de investigação científica, por Universidades, organismos de investigação ou por instituições responsáveis pelo património cultural (incluindo parcerias publico-privadas), os autores não podem sequer impedir que as suas obras sejam objecto de prospecção de texto e dados. Bem se compreende o porquê — e a lei explica:

(…) existe um amplo reconhecimento de que esta prospeção pode beneficiar, nomeadamente, a comunidade científica e, ao fazê-lo, apoiar a inovação. Essas tecnologias beneficiam as universidades e outros organismos de investigação, bem como instituições responsáveis pelo património cultural, visto que elas poderão também realizar investigação no contexto das suas atividades principais.

A lei somente permite que os autores possam, querendo, excluir as suas obras (opt-out) desses processos nos casos de prospecção para fins que não os de investigação científica, inclusive fins comerciais. Mas mesmo quando os fins são comerciais, a prospecção de texto e dados não requer autorização ou pagamento pela utilização.

Isto faz sentido. Imaginem, em escala de big data, ter de pedir autorização a cada autor: seria impossível. E eventuais remunerações apenas teriam por efeito restringir a possibilidade de utilização desta tecnologia a quem pudesse pagar balúrdios: a Big Tech. Balúrdios esses, no entanto, que depois de divididos por cada um dos autores dos muitos milhões de obras utilizadas, tenderia a aproximar-se do zero, a cada um. Não seria um bom modelo.

Estas excepções para prospecção de texto e de dados são das poucas que são de transposição obrigatória para todos os Estados Membros, pelo que não são sequer passíveis de ser retiradas da lei portuguesa. Há quem argumente que estas excepções para prospecção de texto e dados não foram criadas tendo em mente a IA, e que serviriam apenas para mineração de texto e dados que não envolvesse sistemas de IA — apesar da directiva ser de 2019 (transposta em Portugal em 2023). Mas isso simplesmente não é verdade. Aliás, o AI Act, aprovado no ano passado, manteve as mesmas regras, adicionando somente obrigações de maior transparência sobre os materiais usados no treino de sistemas de IA.

Mas mais importante do que a lei diz, é a defesa do conhecimento livre.

A informação quer ser livre e minerável. Para todos, não apenas para a Big Tech.

Há boas razões para a lei recusar configurar a prospecção de texto e dados como direitos exclusivos dos autores. Desde logo, a informação é livre, não abrangida pelo direito de autor - tal como as ideias, processos, sistemas, métodos, conceitos, princípios, etc. Como ler um livro, o acto de dele extrair informação através de métodos automatizados não é passível de proibição.

Se, por absurdo, os direitos exclusivos dos autores fossem expandidos de forma a proibir a terceiros o processamento / prospecção de texto e de dados, deixaria de ser possível realizar actividades relacionadas com dados, inclusive jornalismo de dados. Outros exemplos seriam disponibilizar um motor de busca na Internet, qualquer actividade que implique web scraping ou indexar informação, ou produzir investigação científica com dados. Passando tais actividades a ser sujeitas a licenciamento obrigatório, ficariam apenas acessíveis a quem o pudesse pagar.

A defesa do conhecimento livre implica reconhecer que o problema desta questão não está no facto de qualquer um poder beneficiar desta liberdade. Tal como a informação da Wikipédia ou o software livre podem ser livremente utilizados por todos, incluindo por quem não gostamos. O problema está no facto de o treino de ferramentas de LLMs, de momento, não estar democratizado e acessível. Se há valor nessa actividade, os dados devem ser abertos a todos, para fins científicos ou outros, e não apenas às OpenAIs da vida. É essencial que tanto os dados de treino quanto os modelos de linguagem sejam também eles públicos.

Caso contrário, o conhecimento resultante do processamento de texto e dados em larga escala seria colocado atrás de uma paywall que apenas os mais privilegiados poderiam passar. Tal como as grandes editoras neste momento se apoderam do conhecimento científico produzido pelas universidades e fazem fortunas a cobrar pelo acesso a artigos científicos que não produzem, a possibilidade de realização de investigação científica com dados ficaria também refém de esquemas similares.

O mesmo é dizer que o problema não é o Amália ser treinado com dados do Arquivo.pt, mas sim o Arquivo.pt não disponibilizar esses mesmos dados, nas mesmas condições e para fins de treino, a todas as universidades, organismos de investigação científica e instituições responsáveis pelo património cultural. E o mesmo vale para os repositórios universitários. Nesse sentido, é essencial que o Amália seja disponibilizado, como planeado, em código aberto. Não só por se tratar de "dinheiro público, código público", mas também porque o conhecimento, se é livre, deve ser para todos.

Mas não se confundam as questões. O papel do Arquivo.pt aqui é meramente o de um intermediário que porventura poderia assumir um papel principal na disponibilização de dados de treino para sistemas de IA, e com isso impulsionar a investigação científica de dados e a inovação tecnológica em Portugal. Mas a prospecção de texto e dados, em si, é uma actividade legítima, que não precisa do Arquivo.pt como fonte, podendo ser feita directamente a partir de quaisquer fontes legalmente acessíveis - incluindo notícias de orgãos de comunicação social.

Mas isso quer dizer que a OpenAI e afins podem fazer o que bem entendem?!

Não, calma. Em suma, este artigo explica que a prospecção de texto e dados não constitui, por si só, uma violação de direitos de autor, mas uma actividade legítima, de relevante e justificado interesse, e para a qual existe base legal clara e intencional
(E que caso os direitos exclusivos dos autores fossem expandidos nesse sentido, seria desastroso, por impedir utilizações que são perfeitamente legítimas. Expandir o direito de autor para proibir a prospecção de texto e dados como forma de combater a IA seria como querer parar os fogos florestais plantando mais eucaliptos).

Assim, a solução não passa por limitar o processamento, prospecção ou treino de obras (input), mas por colocar limites e responsabilidades ao nível do output. Ou seja, o problema não é que os LLMs consumam notícias, mas sim se permitem ou não aos utilizadores extrairem as exactas notícias escritas pelos jornalistas nos meios de comunicação social, com isso prejudicando os seus interesses económicos. O problema não é se um LLM foi ou não treinado por obras sujeitas a direito de autor, mas se o output que gera viola ou não os direitos de autor de alguém, por ser demasiado similar. E nisso, tudo continua igual: seja pessoa ou máquina, se for demasiado similar, será uma violação do direito de autor.

Mas essa é uma discussão mais alargada, que escapa ao âmbito deste artigo. Para os interessados, este artigo da Electronic Frontier Foundation pode ser uma boa primeira leitura sobre o tema. No mesmo sentido, a Authors Alliance. Para uma perspectiva europeia, é incontornável a Communia.

Deste modo, o Arquivo.pt poderá desempenhar um papel público crucial ao disponibilizar, nos termos da lei e em iguais condições, dados de treino a Universidades, organismos de investigação, e instituições responsáveis pelo património cultural, para fins de investigação científica.

_____________

[1] «Prospecção de textos e dados» é definida por lei como «qualquer técnica de análise automática destinada à análise de textos e dados em formato digital, a fim de produzir informações, tais como padrões, tendências e correlações, entre outros». Artigo 2.º n.º2 da Directiva 2019/790, de 17 de abril de 2019; Artigo 75.º/6 b) do Código de Direitos de Autor].

[2] Estas cópias não são as cópias geradas pelo sistema (output) ou pelos utilizadores do sistema, mas sim quaisquer cópias que sejam necessárias para a realização do processo de treino.

[3] European Copyright Society, Comment of the European Copyright Society Addressing Selected Aspects of the Implementation of Articles 3 to 7 of Directive (EU) 2019/790 on Copyright in the Digital Single Market, p.11

[4] Artigos 3.º e 4.º da Directiva 2019/790, de 17 de abril de 2019; Alíneas v) e w) do n.º 2 do Artigo 75º do Código de Direitos de Autor.