A maioria das pessoas testemunharia que a Internet é um ambiente por vezes hostil, mas e se estivéssemos expostos ao pior que ela tem para oferecer todos os dias?
Os moderadores de conteúdos têm a tarefa de analisar textos, imagens e vídeos e de assinalar manualmente conteúdos nocivos, desde insultos raciais e discursos de ódio a discussões ou representações de homicídio e suicídio.
Os impactos psicológicos nocivos do trabalho estão bem documentados, tanto sob a forma de cartas abertas de quem trabalha na indústria como em estudos académicos.
O florescente sector da IA generativa alimentou uma nova procura de moderadores de conteúdos, e, mais uma vez, começam a surgir histórias do interior desse trabalho exigente.
Trabalhadores do sector dos dados no Quénia falam sobre a moderação de conteúdos por IA
No Quénia, vários antigos moderadores de conteúdos do ChatGPT da OpenAI apresentaram uma petição ao governo queniano, exigindo uma investigação sobre o que descrevem como "condições de exploração".
As actividades comerciais de exploração em questão giram em torno dos serviços contratados pela OpenAI à Sama, uma empresa de serviços de anotação de dados sediada na Califórnia.
Como de acordo com a petiçãoDurante todo o contrato de formação da ChatGPT, não nos foi dado apoio psicossocial. Devido à exposição a este tipo de trabalho, a formação ChatGPT, desenvolvemos doenças mentais graves, incluindo PTSD, paranoia, depressão, ansiedade, insónia, disfunção sexual, para mencionar algumas."
TIME, que também investigou A relação de Sama com Meta no Quénia, num projeto semelhante, analisou documentos que sugerem que a OpenAI assinou 3 contratos com a Sama no valor de cerca de $200.000. Os contratos envolviam a rotulagem de descrições textuais de abuso sexual, discurso de ódio e violência.
Cerca de 36 trabalhadores em 3 equipas trabalharam no projeto, uma centrada em cada tema. Todos os trabalhadores entrevistado pela TIME afirmaram que a tarefa teve impacto na sua saúde mental.
Mophat Okinyi, um antigo moderador, revelou o impacto psicológico que o trabalho teve sobre ele. "Prejudicou muito a minha saúde mental". disse Okinyi. Recorda-se de ter visto até 700 textos por dia, muitos deles contendo violência sexual gráfica, o que o levou à paranoia e ao isolamento. Acabou por perder a mulher, que disse que ele era um "homem mudado".
A TIME noticiou que um trabalhador teve de ler uma descrição gráfica de bestialidade na presença de uma criança, descrevendo-a como "Tortura". E prosseguiu: "Durante toda a semana, lê-se uma série de afirmações deste género. Quando chega a sexta-feira, já está perturbado por ter pensado nessa imagem."
A petição do Quénia chama a atenção para os conteúdos horríveis que os contratados tinham de rever, que frequentemente envolviam cenas de violência, auto-mutilação, homicídio, violação, necrofilia, abuso de crianças, bestialidade e incesto. De acordo com um porta-voz da Sama, os trabalhadores ganhavam entre $1,46 e $3,74 por hora pelo trabalho.
Os baixos salários dos serviços de dados relacionados com a IA estão bem documentados nas redes sociais, com um Redditor a falar dos seus experiência de formação Bard"20$/hr não é suficiente para o tratamento horrível que recebemos, por isso vou espremer cada cêntimo deste emprego *******".
$20/hora está muito longe dos valores inferiores a $5/hora pagos no Quénia. Ss empresas de IA devem ser tão rápidas a correr para o fundo do poço quando o trabalho em si é crítico para a atividade e o conteúdo é perigoso?
DedaleiraA OpenAI, uma ONG sem fins lucrativos que apoia os processos dos trabalhadores quenianos contra a Meta e a OpenAI, descreve esta situação como uma exploração laboral flagrante com baixos salários.
Agora, quatro antigos laboratórios de dados pedem ao parlamento queniano que ponha fim a esta exploração - e que acabe com a subcontratação obscura por parte de empresas como a Sama, que atraem jovens africanos com a perspetiva de empregos na área da tecnologia, apenas para os deitar fora quando se atrevem a procurar um acordo melhor.
- Foxglove (@Foxglovelegal) 12 de julho de 2023
Cori Crider, directora de DedaleiraA subcontratação destes trabalhadores é uma tática das empresas tecnológicas para se distanciarem das péssimas condições de trabalho a que estão sujeitos os moderadores de conteúdos".
Estes trabalhadores moderaram conteúdos de abuso sexual de crianças, incesto, bestialidade, violação, tráfico sexual e escravatura sexual.
Não recebiam um verdadeiro apoio psiquiátrico e trabalhavam por uma ninharia. Ler @_KarenHaorelatório completo da Comissão Europeia: https://t.co/q8ion4vuNx
- Foxglove (@Foxglovelegal) 25 de julho de 2023
Porque é que são necessários moderadores de conteúdos humanos?
O treino de modelos de IA exige um esforço humano considerável para criar e preparar conjuntos de dados.
Quando a OpenAI e outros programadores de IA constroem os seus conjuntos de dados, normalmente recolhem dados do mundo real, geram dados sintéticos e extraem dados da Internet, incluindo imagens e texto de sítios Web, fóruns de mensagens, fóruns, etc.
Uma vez recolhidos, os dados têm de ser pré-processados, incluindo a remoção de conteúdos nocivos, odiosos e discriminatórios. Além disso, as equipas humanas afinam as iterações dos modelos de IA, introduzindo instruções potencialmente arriscadas ou prejudiciais e analisando as respostas.
Estes processos permitem aos investigadores "alinhar" a IA com valores éticos e sociais, obtendo uma IA limpa e neutra que não é suscetível de comportamentos voláteis. Ou, pelo menos, é esse o ideal para modelos públicos proprietários como o ChatGPT e o Bard.
O alinhamento da IA é uma ciência altamente imperfeita que não pode ser alcançada sem o contributo humano.
Embora outras ferramentas de IA possam pré-filtrar os dados, removendo instâncias mais evidentes de conteúdo odioso ou tóxico, a sua exatidão está longe de ser garantida e alguns escaparão inevitavelmente à rede. A tarefa é ainda mais complicada pelo engenho humano de inventar constantemente formas de subverter a filtragem de conteúdos da IA, por exemplo, substituindo palavras por emojis, uma técnica regularmente utilizada para contornar os filtros nas redes sociais.
Neste cenário específico, a OpenAI confirmou à TIME que os funcionários da Sama no Quénia estavam a ajudar a construir uma ferramenta concebida para detetar conteúdos nocivos, que acabou por ser integrada no ChatGPT.
A OpenAI responde à petição
Em meados de julho, a OpenAI respondeu às preocupações sobre o impacto psicológico do trabalho de moderação de conteúdos.
Numa declaração ao ITWeb ÁfricaReconhecemos que este é um trabalho desafiante para os nossos investigadores e trabalhadores de anotação no Quénia e em todo o mundo - os seus esforços para garantir a segurança dos sistemas de IA têm sido imensamente valiosos", afirmou um porta-voz da OpenAI.
O porta-voz continuou: "A nossa missão é construir AGI (inteligência artificial geral) segura e benéfica, e a anotação de dados humanos é uma das muitas correntes do nosso trabalho para recolher feedback humano e orientar os modelos para um comportamento mais seguro no mundo real. Acreditamos que este trabalho tem de ser feito de forma humana e voluntária, e é por isso que estabelecemos e partilhamos os nossos próprios padrões éticos e de bem-estar para os nossos anotadores de dados."
Martha Dark, directora da Foxglove, afirmou: "O ChatGPT é mundialmente famoso como símbolo do potencial da IA. Mas, tal como o Facebook antes dele, o seu sucesso assenta num exército de pessoas escondidas e mal pagas que fazem o trabalho horrível de filtrar conteúdos tóxicos para tornar o serviço seguro. Os moderadores do Quénia estão a formar o primeiro sindicato de moderadores de conteúdos do continente para lutar contra isso. Esta petição parlamentar é a mais recente demonstração do poder dos trabalhadores da tecnologia organizados. A Foxglove apoia este movimento - e espera que os deputados quenianos façam reformas urgentes ao modelo de subcontratação que permite que empresas como a Sama possibilitem a exploração por gigantes tecnológicos estrangeiros."
Mercy Mutemi, sócia-gerente do escritório de advocacia queniano Nzili & Sumbi Advocates, acrescentou: "Os quenianos estão fartos de ser a vaca leiteira das grandes tecnologias, de onde são extraídos enormes lucros que depois são enviados para o estrangeiro, deixando os jovens trabalhadores africanos, que os criaram, sem emprego e sem dinheiro. Exorto os legisladores a darem ouvidos a estes corajosos antigos etiquetadores de dados da ChatGPT e a investigarem imediatamente as condições de trabalho nos gabinetes de moderação de conteúdos do Quénia."
No processo separado que envolve a Meta, um O tribunal queniano decidiu que a Meta era responsável pelos trabalhadores e não a Sama, constituindo uma decisão histórica que poderá mudar a natureza da externalização tecnológica.
A história negra da moderação de conteúdos
A moderação de conteúdos tem um historial sombrio que remonta aos primórdios da Internet.
A Internet moderna é altamente censurada e os conteúdos nocivos de vários tipos são, em grande parte, banidos dos principais sítios Web. Mas as pessoas continuam a tentar, e o fardo da proteção das comunidades em linha recai frequentemente sobre os ombros humanos.
O volume total de conteúdos potencialmente ofensivos é impressionante. Conforme relatado por Forbes em 2020A análise de conteúdos e a IA de moderação do Facebook assinalaram diariamente mais de 3 milhões de conteúdos que possivelmente violavam as normas da comunidade.
O Facebook empregava então cerca de 15 000 moderadores de conteúdos que analisavam milhares de conteúdos todos os dias. Mark Zuckerberg admitiu que cerca de 1 em cada 10 conteúdos escapa à rede e entra em direto no Facebook ou no Instagram.
Apesar dos avanços na filtragem automática de conteúdos, um Estudo 2021 por investigadores da Virginia Tech, da St. Mary's University, Texas, e da Universidade do Texas em Austin estimou que existem cerca de 100 000 moderadores de conteúdos a trabalhar em todo o mundo.
Os autores referem que a interpretação humana é frequentemente necessária devido aos elevados requisitos de precisão, à natureza subjectiva da tarefa e às políticas de moderação complexas e em constante mudança.
A literatura académica documenta que os moderadores desenvolvem formas de perturbação de stress pós-traumático (PTSD), stress, depressão e ansiedade, entre outras complicações psiquiátricas. Os moderadores de conteúdos pagos debatem-se com conteúdos perturbadores, mantendo quotas rigorosas de desempenho aceitável no trabalho, e recebem frequentemente salários baixos.
Alguns moderadores de conteúdos estão sujeitos a conteúdos extremamente perturbadores enquanto trabalham naquilo que ficou conhecido como a "fila do terror" - a fila de moderação que contém os conteúdos mais perturbadores, incluindo assassínios, suicídios e tortura.
No artigo do The Verge Exposição de 2019 da moderação de conteúdos para a Google e o YouTubeum moderador que trabalha com a Alphabet em Austin, Texas, disse: "Se eu disser que não me afectou, é uma mentira completa". "O que vemos todos os dias ... molda-nos", continua, "No início, víamos toda a gente a dizer: 'Olá, como está? "Toda a gente era simpática. Andavam por todo o lado a fazer o check-in. Agora ninguém quer sequer falar com os outros".
Outro disse: "Todos os dias vemos alguém a decapitar alguém, ou alguém a matar a namorada. Depois disso, sentimo-nos como "uau, este mundo é mesmo louco". Isto faz-nos sentir mal. Sentimos que não vale a pena viver por nada. Porque é que estamos a fazer isto uns aos outros?
Enquanto Filtros de conteúdo de IA estão a melhorar, diminuindo a carga sobre as equipas de moderação de conteúdos humanos, a supervisão humana continua a ser fundamental para captar conteúdos que desviam o olhar.
Em última análise, quando se trata de criar conjuntos de dados de treino de IA, é inevitável algum nível de exposição humana a conteúdos nocivos.
Se os tribunais quenianos decidirem a favor dos moderadores de conteúdos e outros contratantes subcontratados seguirem o seu exemplo, as empresas de IA não terão outra alternativa senão pagar uma compensação justa por esta tarefa extenuante.
Afinal de contas, o desempenho dos seus modelos depende disso.