banner
Lar / Notícias / Cloudera traça um caminho para uma IA responsável em escala
Notícias

Cloudera traça um caminho para uma IA responsável em escala

Oct 19, 2023Oct 19, 2023

Como analista, tenho observado Cloudera por vários anos e tenho opinado longamente. A Cloudera resolve os desafios de gerenciamento de dados em nuvens públicas e privadas, permitindo que os clientes gerenciem e extraiam valor dos dados. A Cloudera é líder em Big Data há mais de uma década, com 25 exabytes de dados sob gerenciamento e usados ​​por nove entre dez das maiores empresas globais em qualquer setor.

A Cloudera evoluiu ao longo dos anos, com Cloudera 1.0 focada na construção de uma plataforma de dados corporativos de código aberto, Cloudera 2.0 reunindo Hortonworks e Cloudera para acelerar o caminho para a nuvem híbrida e Cloudera 3.0 criando a primeira plataforma de dados verdadeiramente híbrida e multinuvem . Neste artigo, explicarei por que a Cloudera Data Platform (CDP) está bem posicionada para o novo mundo da IA ​​corporativa.

O que poderia dar errado?

A IA generativa usa algoritmos chamados modelos de linguagem grande (LLMs) para criar novos conteúdos na forma de texto, imagens, áudio ou código usando instruções de linguagem natural.

Ferramentas de IA generativas, como o ChatGPT, que chama as manchetes, treinam em grandes quantidades de dados da Internet com qualidade, conteúdo, propriedade e privacidade duvidosos. Como muitos de vocês experimentaram, incluindo um infeliz advogado recentemente, o ChatGPT apresentará de forma convincente saídas verdadeiras ao lado de total desinformação, deixando o usuário separar o fato da ficção.

Claramente, em um ambiente empresarial, isso é inaceitável. Para as empresas, o sucesso da IA ​​generativa e dos LLMs associados depende da qualidade e confiabilidade dos dados de treinamento.

Nuvem híbrida – todos os dados estão prontos para IA empresarial

No CDP, a Cloudera entregou a visão híbrida com um único plano de controle que gerencia uma estrutura comum de segurança e governança em toda a plataforma e todos os serviços de dados. A plataforma CDP pode mover cargas de trabalho, dados e metadados associados bidirecionalmente entre nuvens públicas e privadas.

O CDP Open Data Lakehouse fornece os "dados de base" com segurança, governança e o contexto empresarial para implantação com modelos de base no local ou na nuvem.

A confiança na IA começa com a confiança nos dados

Para que a IA corporativa seja bem-sucedida, deve haver confiança nos resultados. Confiança é confiar nos dados subjacentes usados ​​para treinar os modelos. Como parte da arquitetura do CDP, o Shared Data Experience (SDX) permite segurança, linhagem e governança compartilhadas em todas as análises e nuvens públicas e privadas.

A SDX usa dois projetos de código aberto, Apache Ranger, para definir, administrar e gerenciar políticas de segurança e Apache Atlas, para gerenciamento e governança de metadados, para construir, classificar e controlar um catálogo de ativos.

O SDX inclui um Catálogo de Dados para administrar e descobrir todos os ativos de dados. Os dados são perfilados e aprimorados com metadados avançados, incluindo contexto operacional, social e comercial, criando ativos de dados confiáveis ​​e reutilizáveis ​​e tornando-os detectáveis.

O CDP tem a funcionalidade de permitir segurança, governança e conformidade holísticas em todo o ciclo de vida dos dados, incluindo modelos de aprendizado de máquina em ambientes de produção.

A chave aqui é a capacidade de explicar a geração do modelo, os dados usados ​​para treinar o modelo e as origens dos dados — uma fonte de dados precisa e completa para a linhagem do ambiente de produção.

Versão BYO de GPT e modelos de fundação

Muitos clientes já usam recursos de ML como parte do CDP. O serviço de aprendizado de máquina da Cloudera está bem estabelecido e abrange todo o ciclo de vida de ML, desde ciência de dados experimental até treinamento e implantação de modelos. A Cloudera fornece uma biblioteca de protótipos de aprendizado de máquina (AMPs) aplicados de ponta a ponta para ajudar os clientes a começar a desenvolver aplicativos.

No recente evento de analista Six Five Summit, a Cloudera anunciou o LLM Chatbot Augmented with Enterprise Data como um modelo para IA generativa de grandes modelos de linguagem em resposta a clientes que desejam criar uma versão do GPT e modelos de base internamente, em vez de dados de treinamento em plug-ins API públicos.