Google Gemini (IA do Google)

Por que confiar em nós

O Google Gemini (Gemini AI) é um conjunto integrado de grandes modelos de linguagem (LLMs – do Inglês, Large Language Models) que o Google DeepMind projetou desde o início para ser multimodal. Dessa forma, saiba o que é e com funciona o Google Gemini (IA do Google) no artigo a seguir.

O que é Google Gemini (IA do Google)?

A solução integrada pode processar texto, imagens, código e áudio por meio de uma única interface de usuário (UI).

Em dezembro de 2023, o Gemini substituiu o PaLM 2, o LLM que alimentava o Google Bard. Em fevereiro de 2024, o Google anunciou que, a partir de agora, o Bard se chamará Gemini.

A Techopedia explica o significado de Google Gemini

As definições de IA do Google Gemini geralmente posicionam os LLMs Gemini como uma família de assistentes de IA avançados.

O termo “assistente” implica que o Google vê o Gemini como uma ferramenta de inteligência aumentada projetada para ajudar os usuários em várias tarefas, e não para substituir os funcionários humanos.

Como o Google Gemini recebeu seu nome

Alguns meios de comunicação informaram que Gemini significa “Generalized Multimodal Intelligence Network Interface (Interface de rede de inteligência multimodal generalizada)”, mas essa informação não pôde ser confirmada.

De acordo com o Google Bard, é mais provável que os desenvolvedores do Google tenham batizado a solução integrada de LLM em homenagem à constelação de Gêmeos e ao antigo mito grego de Castor e Pólux, que inspirou o signo do zodíaco.

Quando solicitado, o Google Gemini concordou e apontou que isso se alinha com o histórico do Google de usar temas astronômicos na nomeação de produtos.

Como o Gemini funciona

Há rumores de que os modelos de IA do Gemini usam a arquitetura Google Pathways. Nesse tipo de arquitetura de IA, uma série de modelos modulares de aprendizado de máquina (ML – do Inglês, Machine Learning) é inicialmente ensinada a executar uma tarefa específica. Depois de treinados, os módulos são conectados para formar uma rede.

Os módulos em rede podem funcionar de forma independente ou podem trabalhar juntos para gerar diferentes tipos de resultados.

No segundo plano, os codificadores convertem diferentes tipos de dados em uma linguagem comum, e os decodificadores geram resultados em diferentes modalidades com base nas entradas codificadas e na tarefa em questão.

O Google reconheceu que os modelos são mais rápidos quando são executados nas Unidades de Processamento de Tensor (TPUs) do Google.

Uma interface amigável esconde as complexidades da arquitetura Gemini e possibilita que pessoas com diferentes níveis de habilidade usem os modelos Gemini para fins de IA generativa.

O que o Gemini pode fazer?

É importante observar que o Google Gemini está em constante evolução, e os recursos do modelo estão sempre se expandindo.

Por exemplo, as primeiras versões dos modelos gratuitos baseados na Web podiam interpretar imagens carregadas, mas não podiam gerar imagens a partir de prompts.

Hoje, a versão gratuita do Gemini pode ser usada para gerar texto em vários formatos, traduzir idiomas, responder a perguntas com precisão factual, resumir informações em páginas da Web, explicar conceitos de programação, gerar novos códigos e sugerir melhorias para trechos de código.

Outro aspecto que parece estar em constante evolução são os nomes dos produtos para os diferentes clusters do modelo Gemini. Atualmente, a menor versão da família de modelos Gemini está sendo chamada de Gemini Nano.

É uma versão leve do Gemini que pode ser executada em dispositivos Android, começando com o Google Pixel 8 Pro e o Samsung S24 Series.

Ecossistema do Google Gemini

De acordo com Sundar Pichai, CEO do Google e da Alphabet, “o Gemini dará suporte a todo um ecossistema – desde os produtos que bilhões de pessoas usam todos os dias até as APIs e plataformas que ajudam os desenvolvedores e as empresas a inovar”.

Até que o Google padronize as descrições do chatbot Gemini e as opções de integração de produtos, os usuários podem obter as informações mais recentes visitando a página de destino do Google para atualizações do Gemini.

Como a IA do Gemini é treinada

Os modelos Gemini LLM teriam sido treinados com uma combinação das seguintes técnicas:

Aprendizagem supervisionada

Os módulos Gemini AI foram treinados para prever saídas para novos dados usando padrões aprendidos com dados de treinamento rotulados.

Aprendizagem sem supervisão

Os módulos de IA Gemini foram treinados para descobrir de forma autônoma padrões, estruturas ou relacionamentos nos dados sem a necessidade de exemplos rotulados.

Aprendizagem por reforço

Os módulos de IA Gemini aprimoraram suas estratégias de tomada de decisão de forma iterativa por meio de um processo de tentativa e erro que ensinou os módulos a maximizar as recompensas e minimizar as penalidades.

Alguns especialistas do setor especularam que o Google se baseou muito no aprendizado por reforço com feedback humano (RLHF – do Inglês, Reinforcement Learning with Human Feedback) para treinar os módulos Gemini nos chips Cloud TPU v5e. De acordo com o Google, as TPUs têm cinco vezes mais poder computacional do que os chips usados para treinar o Chat GPT.

Até o momento, o Google não divulgou nenhuma informação detalhada sobre os conjuntos de dados nos quais os modelos de IA do Gemini foram treinados. No entanto, é provável que os engenheiros do Google tenham usado a estrutura LangChain e reaproveitado os dados que usaram para treinar o PaLM 2.

Se esse for o caso, os modelos da fundação Gemini teriam sido inicialmente treinados em dados de documentos da Web, livros, códigos, imagens, áudio e vídeo. Resta saber se a abordagem holística do Google DeepMind para treinar assistentes de IA será tão eficaz quanto a abordagem da Open AI, que tem adicionado novos modos iterativamente.

Modelos de assinatura gratuitos e pagos

Os usuários de desktop podem acessar a versão gratuita do Gemini por meio de um navegador da Web.

Os usuários de dispositivos móveis têm a opção de usar a versão gratuita, que atualmente está sendo chamada de Gemini Pro, instalando o aplicativo Gemini em dispositivos Android ou o aplicativo Google em dispositivos iOS.

O Gemini Advanced é uma versão paga do Gemini que amplia os recursos da versão gratuita por US$ 19,99/mês.

A página de destino do Gemini Advanced se refere ao modelo como 1.0 Ultra. Não está claro se a DeepMind está usando os assinantes do Gemini Advanced para fazer o teste beta das versões empresariais do Gemini – ou se o Gemini Advanced acabará sendo chamado de Gemini Ultra.

Atualmente, os clientes do Google Workspace podem assinar o Gemini Business ou o Gemini Enterprise para acessar o 1.0 Ultra.

O Gemini Business custa US$ 20 por usuário/mês e requer um compromisso de um ano. Ele oferece aos usuários segurança e privacidade de nível empresarial e foi projetado para atender às necessidades da maioria dos usuários corporativos.

O Gemini Enterprise custa US$ 30 por usuário/mês e também requer um compromisso de um ano.

A assinatura empresarial fornece tudo o que o Gemini Business oferece, além de recursos avançados de tradução para reuniões e acesso/uso completo do Gemini.

Gemini vs. GPT-4

O Gemini e o GPT-4 são frequentemente usados juntos porque cada família de modelos tem pontos fortes diferentes.

Por exemplo, o ChatGPT Plus é excelente para resumir tópicos e escrever códigos, enquanto o Gemini Advanced é melhor para escrever textos criativos e ajustar o tom dos resultados de texto.

Se você precisar de ajuda com um projeto de redação criativa, o Gemini pode ser a melhor opção. Mas se estiver escrevendo textos não ficcionais ou analisando códigos, o GPT-4 pode ser mais adequado.

Outra consideração é que o Gemini pode acessar a Internet. Isso significa que o Gemini pode incorporar conhecimentos mais recentes em suas respostas do que o Chat GPT-4.

Prós e contras do Google Gemini

Uma das maiores vantagens do Gemini é que o Google está integrando essa família de modelos de IA multimodal a outros produtos e serviços do Google.

Isso significa que os usuários poderão acessar os recursos do Gemini em ferramentas conhecidas do Google, como Pesquisa, Gmail e Docs, sem precisar alternar entre diferentes aplicativos.

Uma das maiores desvantagens do Gemini é que, às vezes, ele pode fornecer respostas excessivamente confiantes, mesmo quando as informações fornecidas estão incorretas.

Perguntas frequentes

O que é o Google Gemini em termos simples?

Para que o Google Gemini é usado?

O Google Gemini é bom?

O Google Gemini é gratuito ou pago?

O Gemini é melhor que o ChatGPT?

Margaret Rouse
Technology Specialist
Margaret Rouse
Especialista em Tecnologia

Margaret é uma premiada redatora e professora conhecida por sua habilidade de explicar assuntos técnicos complexos para um público empresarial não técnico. Nos últimos vinte anos, suas definições de TI foram publicadas pela Que em uma enciclopédia de termos tecnológicos e citadas em artigos do New York Times, Time Magazine, USA Today, ZDNet, PC Magazine e Discovery Magazine. Ela ingressou na Techopedia em 2011. A ideia de Margaret de um dia divertido é ajudar os profissionais de TI e de negócios a aprenderem a falar os idiomas altamente especializados uns dos outros.