Opinião

O susto da IA: Internet tem fim e já chegamos lá

Afirmação de que a totalidade dos dados disponíveis na internet pode não ser suficiente para aprimorar o treinamento de IA tem algum fundamento, especialmente em termos de qualidade e diversidade

Pyr Marcondes

Fundador e CEO da Macuco Tech Ventures 2 de setembro de 2024 - 6h00

- A + A

IA não toma susto. Quem a manobra, sim.

Nas últimas semanas, veio à tona publicamente o que cientistas e devs de AI já deveriam saber há algum tempo: que os limites da internet já foram todos mapeados até as bordas e não há mais dados disponíveis para a IA seguir devorando-os com sua fome, essa sim, infinita, e seguir seu aprendizado exponencial. Sem dados renovados, os modelos de aprendizagem da IA travam. E chegamos nesse limite. O fim “geográfico” da internet. Não há beyond.

À medida que os sistemas de IA se tornam mais sofisticados, a necessidade de grandes quantidades de dados de alta qualidade para treinamento tem se tornado um desafio significativo. Dadas as limitações dos dados existentes na internet — como redundância, problemas de qualidade e a natureza finita do conteúdo disponível —, pesquisadores e tecnólogos estão explorando várias alternativas científicas e tecnológicas para superar essas limitações.

Perguntei ao ChatGpt e ele me respondeu isto: “Essa é uma questão complexa, que toca em vários aspectos do desenvolvimento e treinamento de modelos de inteligência artificial (IA), especialmente no contexto de IA generativa.

Limitações dos dados existentes:

1. Quantidade e Qualidade dos Dados: De fato, os dados disponíveis na internet têm sido a principal fonte para treinar muitos modelos de IA, incluindo aqueles baseados em aprendizado profundo. No entanto, à medida que os modelos se tornam mais sofisticados, a quantidade de dados necessária para treiná-los adequadamente também aumenta.

2. Dados Redundantes e Não Diversificados: Além disso, grande parte dos dados disponíveis pode ser redundante ou de qualidade questionável. Isso significa que simplesmente adicionar mais dados pode não ser suficiente para melhorar significativamente a performance do modelo. A diversidade e a qualidade dos dados se tornam fatores críticos.

3. Dados Limitados em Domínios Específicos: Existem áreas ou nichos onde os dados disponíveis na internet são escassos. Por exemplo, para tarefas que exigem conhecimento muito especializado ou de domínio restrito, pode não haver dados suficientes online para treinar uma IA de forma eficaz.”

Mas há saídas. Uma delas é o uso de dados sintéticos, gerados pela própria IA. Não me pergunte como, mas é assim que a AI está driblando sua limitação. Ou seja, expandindo os limites humanos (a internet como ela é) e expandindo-se a si própria. Foda.

Perguntei de novo pro ChatGPT, e ele me respondeu isto: “Estratégias futuras para o treinamento de IA:

1. Criação de Dados Sintéticos: Uma das soluções em desenvolvimento é a criação de dados sintéticos. Esses são dados gerados artificialmente, mas que podem ser usados para complementar o treinamento de IA. Isso permite que os modelos aprendam a partir de cenários simulados que podem não existir em quantidade suficiente na internet.

2. Transfer Learning e Fine-Tuning: Outra estratégia é usar modelos pré-treinados e ajustá-los (fine-tuning) com dados específicos de alta qualidade. Isso permite que os modelos aproveitem o que já aprenderam com os dados disponíveis e, em seguida, se especializem em novos tipos de dados.

3. Inovações em Arquitetura de Modelos: Existem também avanços em como os modelos são estruturados, permitindo que eles façam melhor uso dos dados existentes e necessitem de menos dados para alcançar bons resultados.

4. Aprendizado Ativo: Aprendizado ativo é um processo em que o sistema de IA seleciona de forma estratégica consultas a um anotador humano para rotular novos pontos de dados que são mais informativos para o processo de aprendizado do modelo. Isso reduz a necessidade de grandes conjuntos de dados rotulados ao focar nos dados mais impactantes.”

Tem vários outros métodos. Basicamente, então, a afirmação de que a totalidade dos dados disponíveis na internet pode não ser suficiente para aprimorar o treinamento de IA tem algum fundamento, especialmente em termos de qualidade e diversidade de dados.

Contudo, a comunidade de pesquisa em IA está desenvolvendo novas técnicas e abordagens para superar essas limitações, como a geração de dados sintéticos, transfer learning e melhorias nas arquiteturas dos dados.

Tudo isso me despertou algumas conclusões e mais dúvidas:

1. Nunca imaginei que a internet tinha fim, menos ainda que já chegamos lá;

2. Se há pelo menos umas 15 alternativas a esse problema já conhecidas e desenvolvidas pelos cientistas e técnicos, eles obviamente já sabiam que isso não só poderia, como iria acontecer;

3.Essa voracidade por dados da AI não vai parar nunca e essas que até agora eram alternativas, vão virar o padrão;

4. Que tipo de dados são esses, afinal?

5. Estamos vivendo uma nova ordem já, tão rapidamente, na forma como a IA será desenvolvida a partir de agora?

6. Essa limitação tem a ver com o movimento dos publishers de limitarem seus conteúdos para uso (indevido e na maior parte das vezes não autorizado) das máquinas de IA?

7. Esses novos dados, gerados por máquinas, não ficarão cada vez mais distantes da realidade humana prática?

De novo, perguntei ao ChatGPT. E não gostei nada das respostas: “Quando se fala que a IA vai depender de dados sintéticos para seguir sua evolução cognitiva e aprendizado, estamos nos referindo a dados gerados artificialmente, em vez de coletados diretamente do mundo real. Esse tipo de dado é criado usando algoritmos, simulações ou outras técnicas computacionais que imitam características dos dados reais, mas sem depender da coleta de informações diretamente de fontes como usuários, sensores ou publishers.

Tipos de dados sintéticos:

1. Dados de Imagens: Criados a partir de simulações 3D ou algoritmos que geram imagens com características semelhantes às reais.

2. Dados de Texto: Gerados por modelos de linguagem ou outras técnicas que criam textos ou documentos com a aparência de serem escritos por humanos.

3. Dados Numéricos: Conjuntos de dados que imitam padrões observados em dados financeiros, de saúde, ou de outra natureza, sem expor dados reais.

Quem Gera? Os dados sintéticos podem ser gerados por diversas entidades:

1. Empresas de Tecnologia: Organizações como OpenAI, Google e outras que possuem avançados modelos de IA geram esses dados para treinar seus algoritmos.

2. Pesquisadores: Instituições acadêmicas e de pesquisa criam dados sintéticos para experimentos e desenvolvimento de novas tecnologias.

3. Startups e Empresas Especializadas: Algumas empresas se especializam na criação de dados sintéticos como um serviço para outras organizações que precisam treinar suas IAs.

É um Tipo de Conteúdo? Sim, dados sintéticos são uma forma de conteúdo, mas diferem de conteúdo tradicional (como artigos, vídeos etc.) por serem gerados artificialmente para imitar conjuntos de dados existentes. Eles são utilizados principalmente para treinar e melhorar modelos de IA.

Limitação devido ao fechamento de acesso pelos publishers? Sim, o movimento de publishers fechando o acesso às suas informações para ferramentas de IA é uma das razões pelas quais a criação de dados sintéticos está se tornando cada vez mais importante. Com o acesso restrito a grandes quantidades de dados reais, a indústria de IA precisa de alternativas para continuar evoluindo e treinando modelos.

Nova Ordem Evolutiva da IA?

Estamos, sim, diante de uma nova ordem evolutiva para a IA. A dependência crescente de dados sintéticos pode redefinir como treinamos e desenvolvemos sistemas de IA. Essa mudança pode levar a avanços significativos em certas áreas, mas também levanta questões sobre a fidelidade desses dados em relação à realidade e os possíveis vieses que podem surgir.

Novos Limites?

Essa abordagem pode permitir que superemos algumas limitações atuais, como a falta de dados rotulados ou a proteção da privacidade, mas também introduz novos desafios. Há o risco de que modelos treinados exclusivamente com dados sintéticos não sejam capazes de generalizar tão bem em situações do mundo real. Além disso, essa evolução pode trazer novas fronteiras éticas e técnicas, que precisarão ser enfrentadas conforme a IA se torna cada vez mais integrada em nossas vidas”.

Tenho muito a dizer a partir daqui. Mas por hoje, já chega.

COMPARTILHE: