Debate: O Crioulogismo Linguístico do Google

No Esquerda.net

O imperialismo linguístico do inglês produz efeitos muito mais subtis do que permitem apreender as abordagens centradas na “guerra de idiomas”. O facto de utilizar como pivô sempre um único idioma introduz em todos os outros as suas lógicas próprias, portanto, irrefletidamente, modos de pensar específicos.

Por Frédéric Kaplan e Dana Kianfar

No início de dezembro de 2014, quem procurasse no Google Tradutor o equivalente italiano para a frase “Essa menina é bonita” encontraria uma frase estranha: “Questa ragazza è abbastanza”, literalmente “Essa menina é bastante”. A beleza foi lost in translation – perdida na tradução. Como um dos tradutores automáticos mais eficientes do mundo, com um capital linguístico inigualável, constituído por biliões de frases, pode cometer um erro tão grosseiro? A resposta é simples: ele passa pelo inglês. “Bonita” se traduz porpretty, e pretty, por abbastanza.

Conhecendo o princípio, fica fácil produzir frases insólitas e até engraçadas. “Acho que você tem um ótimo presidente” vira “Penso che tu abbiauna bella sedia”, que significa “Acho que você tem uma ótima cadeira”, já que “presidente” se traduz como chair em inglês.

O uso do inglês como língua pivô pode produzir absurdos. “Hai fatto un compito terrificante”, ou seja, “Você fez um trabalho terrivelmente ruim”, é traduzido pelo Google como “Você fez um excelente trabalho”, em razão do intermédio do inglês terrific. A expressão idiomática “Está a chover canivetes” transforma-se na poética “Piove cani e gatti” – “Chovem cães e gatos”. Só que essa tradução literal de “It rains cats and dogs” é absolutamente incompreensível para um italiano.

Para desenvolver um tradutor automático, é preciso contar com grandes dossiês de textos idênticos traduzidos de uma língua para outra. Sendo uma empresa norte-americana, o Google logicamente construiu a sua ferramenta a partir de pares textuais que utilizam quase sempre o inglês como língua pivô. Para ir do português ao italiano, é necessário, “por princípio”, passar por uma tradução intermediária em inglês.

Esse processo cria um viés linguístico significativo. Português e italiano são línguas relativamente próximas. Em comparação, o inglês é uma língua bem diferente, compacta, rica em expressões idiomáticas. Uma má compreensão do contexto abre caminho para muitos erros. Projetar uma expressão para o mundo anglófono e em seguida reprojetá-la para a língua-alvo produz inovações linguísticas involuntárias.

As formulações estranhas geradas pelos tradutores automáticos podem parecer anedóticas. A tradução em geral e, em particular, a tradução automática colocam problemas notoriamente difíceis. Nessas condições, não é de estranhar que as máquinas cometam erros. Aliás, os seus erros têm um interesse: levam-nos a pensar sobre as especificidades de cada língua. E, no final, o desenvolvimento de dossiês bilingues sem o intermédio do inglês e também as correções feitas pelos próprios utilizadores devem melhorar as traduções. Talvez os erros mencionados neste artigo já tenham sido corrigidos no momento em que ele for enviado “ao prelo” – locução que o Google traduz para o espanhol como “a presionar” – “a apertar”. Vale a pena preocupar-se com o fenómeno?

Generalização de fontes “contaminadas”

Para entender os efeitos reais do inglês como língua pivô, devemos colocar a tradução automática no contexto mais amplo dos textos que usam algoritmos na internet. Esses programas não apenas geram inovações linguísticas no contexto das traduções robotizadas, mas também são usados para redigir automaticamente artigos jornalísticos, corrigir sintática e semanticamente o conteúdo das páginas da Wikipédia, produzir mensagens publicitárias direcionadas ou otimizar o conteúdo de uma página para facilitar a sua indexação pelos motores de busca.

Como, então, distinguir entre fontes linguísticas primárias, produzidas por seres humanos sem mediação algorítmica (conversas escritas, livros digitalizados etc.), e fontes linguísticas secundárias, resultantes de transformações algorítmicas de fontes primárias?

Com a generalização do recurso de autocompletar em quase todas as interfaces de entrada – o utilizador digita o início da frase ou palavra, e um programa completa automaticamente –, os algoritmos tornaram-se intermediários quase sistemáticos quando escrevemos online. Em muitos casos, paramos de digitar os nossos textos letra por letra ou palavra por palavra: apenas escolhemos entre as várias extensões possíveis propostas pelos algoritmos. Essa forma de escrita combina rapidez e eficiência, especialmente quando se utiliza o teclado reduzido de um telemóvel. Nesse novo contexto, redigir consiste apenas em escolher agilmente um caminho na árvore de expressões previsíveis. Em poucos anos, certamente será difícil encontrar uma interface que não utilize essa tecnologia.

Assim como outras fontes secundárias, os textos gerados algoritmicamente por tradutores automáticos não são necessariamente identificados ou rotulados como tal. Pelo contrário, são com frequência apresentados como fontes primárias, naturais, que os leitores podem até empregar como modelo. Um internauta que não tenha o italiano como língua materna não tem nenhum motivo para achar que a expressão “Piove cani e gatti” esteja errada. A mesma observação vale, forçosamente, para os algoritmos que analisam a estrutura da língua com o objetivo de produzir artificialmente novos textos. Um algoritmo que procure uma fonte primária para otimizar as suas capacidades de tradução pode utilizar, inadvertidamente, um texto produzido por outro algoritmo e que traga expressões erradas ou falsos cognatos.

A generalização, na internet, de fontes “contaminadas” por robôs ameaça todo o conjunto de um edifício tecnológico que privilegia a quantidade maciça de dados sobre o controle sistemático da sua qualidade. Já existem muitos exemplos de expressões estranhas na web. Na loja online em que a Apple vende os seus softwares (AppStore), por exemplo, podemos ler os seguintes comentários sobre um aplicativo que permite digitar mensagens enquanto se caminha: “Intuitivo de usar, belos resultados e novamente de bom humor. Obrigado quem fez esse! É muito legal e recomenda”. Mais adiante, outro comentário compartilha a bizarrice linguística do primeiro: “Ele me ajuda a introduzir o texto horizontal e vertical, enviar mensagens SMS, enviar o e-mail, enviar mensagens em Twitter e Facebook… Muito divertido, obrigado!”.

Essas frases que incorporam os rodeios bizarros dos algoritmos poderão servir de modelo para serviços de mediação textual, como os que autocompletam a frase que você está a digitar. Não é impensável que, em algum momento, um italiano que inicie uma frase com “Piove” encontre como continuação proposta “cani e gatti”, frase que provavelmente jamais foi escrita ou pronunciada em toda a história da língua italiana.

A introdução de modos de pensar específicos

Assim, a língua pivô inglesa está potencialmente envolvida num fenómeno de crioulização: a formação de uma língua nova fundada na transformação, pelo uso, de outras línguas mais antigas – um fenómeno bem conhecido dos linguistas. Atualmente, as alterações introduzidas pela mediação algorítmica constituem uma espécie de pidgin, língua de contacto, potencialmente efémera, entre dois sistemas linguísticos. Mas, à medida que uma nova geração é exposta a essas expressões transformadas, as inovações podem regularizar-se e gerar uma língua coerente e autónoma, um crioulo. Esse processo pode ser acelerado pela mediação das novas interfaces de entrada, próteses linguísticas íntimas que podem influenciar fortemente as formas expressivas futuras.

Desse modo, o imperialismo linguístico do inglês produz efeitos muito mais subtis do que permitem apreender as abordagens centradas na “guerra de idiomas”. O facto de utilizar como pivô sempre um único idioma introduz em todos os outros as suas lógicas próprias, portanto, irrefletidamente, modos de pensar específicos. Esse fenómeno pode integrar uma transformação linguística global, na qual os algoritmos têm papel fundamental. Enquanto o inglês serve de pivô para as línguas europeias, outros idiomas ocupam a mesma posição em outras famílias linguísticas (o hindi, por exemplo). Assim, estabelece-se à escala mundial uma rede de elos de tradução operando por referência várias línguas intermediárias.
Quem, daqui a cinco anos, ainda estará a produzir fontes primárias puras, escritas sem o intermédio de algoritmos? Quanto tempo vai levar para que as primeiras inovações algorítmicas sejam percebidas como formas naturais? Essas escritas híbridas pedem um estudo cuidadoso e, talvez, o desenvolvimento de uma nova linguística, que utilize maciçamente os algoritmos para melhor compreender e acompanhar os efeitos dos algoritmos…

Artigo de Frédéric Kaplan e Dana Kianfar, respetivamente, diretor e doutorando do laboratório Digital Humanities da École Polytechnique federal de Lausanne, Suíça. Publicado em diplomatique.org.br com ilustração de Samuel Casal

http://www.esquerda.net/artigo/o-google-e-o-imperialismo-linguistico/35495

Redação

5 Comentários

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

  1. Do tradutor: ich liebe Verallgemeinerungen die links
    Frases em português “Essa menina é bonita”“Acho que você tem um ótimo presidente” “Você fez um trabalho terrivelmente ruim”“Está a chover canivetes”  GOOGLE TRADUTOR… Frases em italiano “Questa ragazza è bella””Penso di avere un grande presidente””Hai fatto un terribile cattivo lavoro””Piove coltelli”

    Aqui não foi muito bom, mas traduzir do francês para o italiano talvez seja pior…

  2. os linguistas vão ter mesmo

    os linguistas vão ter mesmo um trabalho maior parA identificar

    certas transformações linguísticas.

    mas os sons ainda serão a essencia de qualquer língua.

  3. Que forçada de barra, principalmente o título.

    Que o Google translation serve quase que exclusivamente para se ler e não para escrever (somente de outra língua para o Inglês), isto todos já sabem e quem não sabe paga o mico de traduções esdrúxulas.

    Agora dizer que com traduções erradas se exerce o poder imperialismo linguístico (que foi corretamente altrado para Crioulogismo linguístico pelo Antonio Ateu) é forçar a barra.

    Se todos possuissem um tradutor automático perfeito aí que nos libertaríamos de ter que saber inglês, isto sim, uma questão de imperialismo.

    1. Tradutor automático perfeito é impossível

      Esse aliás é um dos erros — exageros … — do artigo. Mesmo que a traduçao nao se fizesse por intermédio do inglês, fosse direta de uma língua a outra, o que sem dúvida a melhoraria, qualquer traduçao, ainda mais feita automaticamente por máquina, tem grande possibilidade de mudar o original.

      Primeiro porque as línguas nao têm vocabulário e recursos sintáticos rigorosamente equivalentes; um bom tradutor humano, que conheça BEM as duas línguas, pode encontrar equivalências mais latas, mas que digam fundamentalmente o mesmo com vocábulos e estruturas sintáticas nao correspondentes; mas uma máquina nao tem como fazer isso.

      Além do mais, há o problema das homonímias e polissemias: um ser humano pode distinguir qual o sentido visado no contexto de uma frase de uma palavra polissêmica (e quase todas as palavras sao polissémicas em algum grau…) ou qual entre duas ou mais palavras homônimas está sendo usada naquela frase; a máquina até pode tentar fazer isso com o uso de indicadores de contexto quando o texto é de uma área marcada e mais técnico ou neutro, mas nao tem como fazer isso quando o autor usa ironias, metáforas realmente criativas, etc. 

      Outro absurdo é o simplismo dessa hipótese da “criolizaçao” das línguas. Criolizaçao acontece quando nao há língua comum entre falantes mas há muito intercâmbio entre eles. Aí usam “pedaços de língua” no início (pidgins) que com o uso acabam se desenvolvendo em línguas. Mas isso exige situaçoes sociais muito específicas, tipo pessoas vivendo juntas sem língua comum, como nos sistemas de plantation (nao sei traduzir plantation, que NAO É plantaçao… rs). É praticamente impossível acontecer isso com línguas históricas em que os falantes têm muito mais intercâmbios nessas línguas do que nas situaçoes em que as “traduçoes” ocorrem. O que acontece frequentemente é o empréstimo de vocabulário, e de umas poucas expressoes, e, muito mais raramente, a criaçao de um sufixo ou estrutura sintática novos: -landia, em Português, como em Gurilândia, seria um exemplo do primeiro caso (a partir de um elemento mórfico que nao é sufixo em Inglês) e alguns casos, raros, de preposiçoes “penduradas” no fim de frase. Isso nem de longe chega ao ponto de constituir verdadeira criolizaçao, e sempre ocorreu independentemente de Google todas as vezes que uma língua tem muito influxo sobre outra por questoes culturais, de diferença de tecnologia, etc.  

  4. Vamos pegar leve. O sistema

    Vamos pegar leve. O sistema tenta relacionar dezenas de idiomas estruturalmente diferentes, mas muito diferentes. É um desafio computacional e tanto.

    Em vez de criticar o tradutor do Google temos é que ensinar as pessoas a não confiar nele, porque é bastante limitado.

Você pode fazer o Jornal GGN ser cada vez melhor.

Apoie e faça parte desta caminhada para que ele se torne um veículo cada vez mais respeitado e forte.

Seja um apoiador