Início Tecnologia Knowledge lakehouse Onehouse ganha US$ 35 milhões para capitalizar a revolução GenAI

Knowledge lakehouse Onehouse ganha US$ 35 milhões para capitalizar a revolução GenAI

19
0

Hoje em dia, você mal consegue passar uma hora sem ler sobre IA generativa. Embora ainda estejamos na fase embrionária do que alguns dublaram sendo a “máquina a vapor” da quarta revolução industrial, não há dúvidas de que a “GenAI” está a preparar-se para transformar praticamente todos os setores – desde finanças e cuidados de saúde até ao direito e muito mais.

Aplicativos interessantes voltados para o usuário podem atrair a maior parte do alarde, mas as empresas que impulsionam essa revolução são atualmente as que mais se beneficiam. Ainda este mês, a fabricante de chips Nvidia tornou-se brevemente a empresa mais valiosa do mundo, um rolo compressor de US$ 3,3 trilhões impulsionado substancialmente pela demanda por poder de computação de IA.

Mas, além das GPUs (unidades de processamento gráfico), as empresas também precisam de infraestrutura para gerenciar o fluxo de dados – para armazenar, processar, treinar, analisar e, em última análise, desbloquear todo o potencial da IA.

Uma empresa que busca capitalizar isso é Uma casauma startup californiana de três anos fundada por Vinoth Chandarque criou o código aberto Apache Hudi projeto enquanto atuava como arquiteto de dados na Uber. Hudi traz os benefícios de armazéns de dados para lagos de dadoscriando o que ficou conhecido como “knowledge lakehouse”, permitindo suporte para ações como indexação e realização de consultas em tempo actual em grandes conjuntos de dados, sejam eles estruturados, não estruturados ou semiestruturados.

Por exemplo, uma empresa de comércio eletrônico que coleta continuamente dados de clientes, abrangendo pedidos, suggestions e interações digitais relacionadas, precisará de um sistema para ingerir todos esses dados e garantir que sejam mantidos atualizados, o que pode ajudá-la a recomendar produtos com base nas necessidades do usuário. atividade. O Hudi permite que dados sejam ingeridos de diversas fontes com latência mínima, com suporte para exclusão, atualização e inserção (“upsert”), o que é important para esses casos de uso de dados em tempo actual.

A Onehouse se baseia nisso com um knowledge lakehouse totalmente gerenciado que ajuda as empresas a implementar o Hudi. Ou, como Chandar coloca, ele “impulsiona a ingestão e a padronização de dados em formatos de dados abertos” que podem ser usados ​​com quase todas as principais ferramentas nos ecossistemas de ciência de dados, IA e aprendizado de máquina.

“Onehouse abstrai a construção de infraestrutura de dados de baixo nível, ajudando as empresas de IA a se concentrarem em seus modelos”, disse Chandar ao TechCrunch.

Hoje, a Onehouse anunciou que arrecadou US$ 35 milhões em uma rodada de financiamento da Série B ao lançar dois novos produtos no mercado para melhorar o desempenho do Hudi e reduzir os custos de armazenamento e processamento em nuvem.

Na casa do lago (dados)

Anúncio Onehouse em out of doors de Londres.
Créditos da imagem: Uma casa

Chandar criou o Hudi como um projeto interno da Uber em 2016, e desde a empresa de carona doou o projeto para a Fundação Apache em 2019, Hudi foi adotado pelo gosta da AmazonDisney e Wal-Mart.

Chandar deixou a Uber em 2019 e, após uma breve passagem pela Confluent, fundou a Onehouse. A startup surgiu do sigilo em 2022 com US$ 8 milhões em financiamento inicial, e emblem depois com uma rodada da Série A de US$ 25 milhões. Ambas as rodadas foram co-lideradas pela Greylock Companions e Addition.

Essas empresas de capital de risco uniram forças novamente para a sequência da Série B, embora desta vez a Craft Ventures de David Sacks esteja liderando a rodada.

“O knowledge lakehouse está rapidamente se tornando a arquitetura padrão para organizações que desejam centralizar seus dados para potencializar novos serviços como análise em tempo actual, ML preditivo e GenAI”, disse o parceiro da Craft Ventures, Michael Robinson, em um comunicado.

Para contextualizar, os knowledge warehouses e os knowledge lakes são semelhantes na forma como servem como um repositório central para agrupar dados. Mas eles fazem isso de maneiras diferentes: um knowledge warehouse é superb para processar e consultar dados históricos e estruturados, enquanto os knowledge lakes surgiram como uma alternativa mais flexível para armazenar grandes quantidades de dados brutos em seu formato authentic, com suporte para vários tipos de dados. dados e consultas de alto desempenho.

Isso torna os knowledge lakes ideais para cargas de trabalho de IA e aprendizado de máquina, pois é mais barato armazenar dados brutos pré-transformados e, ao mesmo tempo, ter suporte para consultas mais complexas porque os dados podem ser armazenados em sua forma authentic.

No entanto, a contrapartida é todo um novo conjunto de complexidades de gestão de dados, que corre o risco de piorar a qualidade dos dados, dada a vasta gama de tipos e formatos de dados. Em parte, isso é o que Hudi pretende resolver, trazendo alguns recursos importantes de knowledge warehouses para knowledge lakes, como Transações ACID para apoiar a integridade e confiabilidade dos dados, bem como melhorar o gerenciamento de metadados para conjuntos de dados mais diversos.

Configurando pipelines de dados no Onehouse
Configurando pipelines de dados no Onehouse.
Créditos da imagem: Uma casa

Por ser um projeto de código aberto, qualquer empresa pode implantar o Hudi. Uma rápida olhada nos logotipos no website da Onehouse revela alguns usuários impressionantes: AWS, Google, Tencent, Disney, Walmart, Bytedance, Uber e Huawei, para citar alguns. Mas o fato de essas grandes empresas aproveitarem o Hudi internamente é indicativo do esforço e dos recursos necessários para construí-lo como parte de uma configuração de knowledge lakehouse native.

“Embora o Hudi forneça uma funcionalidade rica para ingerir, gerenciar e transformar dados, as empresas ainda precisam integrar cerca de meia dúzia de ferramentas de código aberto para atingir seus objetivos de um knowledge lakehouse de qualidade de produção”, disse Chandar.

É por isso que a Onehouse oferece uma plataforma nativa da nuvem totalmente gerenciada que ingere, transforma e otimiza os dados em uma fração do tempo.

“Os usuários podem obter um knowledge lakehouse aberto instalado e funcionando em menos de uma hora, com ampla interoperabilidade com todos os principais serviços nativos da nuvem, armazéns e mecanismos de knowledge lake”, disse Chandar.

A empresa foi tímida ao nomear seus clientes comerciais, além do casal listado na estudos de casocomo o unicórnio indiano Apna.

“Como uma empresa jovem, não compartilhamos publicamente toda a lista de clientes comerciais da Onehouse neste momento”, disse Chandar.

Com US$ 35 milhões novos no banco, a Onehouse agora está expandindo sua plataforma com uma ferramenta gratuita chamada Onehouse LakeView, que fornece observabilidade na funcionalidade do lakehouse para insights sobre estatísticas de tabela, tendências, tamanhos de arquivo, histórico de linha do tempo e muito mais. Isso se baseia em métricas de observabilidade existentes fornecidas pelo projeto principal do Hudi, dando contexto additional sobre cargas de trabalho.

“Sem o LakeView, os usuários precisam gastar muito tempo interpretando métricas e entendendo profundamente toda a pilha para causar problemas de desempenho ou ineficiências na configuração do pipeline”, disse Chandar. “O LakeView automatiza isso e fornece alertas por e-mail sobre tendências boas ou ruins, sinalizando necessidades de gerenciamento de dados para melhorar o desempenho da consulta.”

Além disso, a Onehouse também está lançando um novo produto chamado Desk Optimizer, um serviço de nuvem gerenciado que otimiza tabelas existentes para agilizar a ingestão e transformação de dados.

‘Aberto e interoperável’

Não há como ignorar a miríade de outros grandes nomes do setor. Empresas como Databricks e Snowflake estão cada vez mais abraçando o paradigma da casa do lago: No início deste mês, Databricks supostamente distribuídos US$ 1 bilhão para adquirir uma empresa chamada Tabular, com o objetivo de criar um padrão comum de lago.

A Onehouse certamente entrou em um espaço quente, mas espera que seu foco em um sistema “aberto e interoperável” que torne mais fácil evitar o aprisionamento do fornecedor a ajude a resistir ao teste do tempo. É essencialmente promissor a capacidade de tornar uma única cópia de dados universalmente acessível de praticamente qualquer lugar, incluindo Databricks, Snowflake, Cloudera e serviços nativos AWS, sem ter que construir silos de dados separados em cada um.

Tal como acontece com a Nvidia no domínio da GPU, não há como ignorar as oportunidades que aguardam qualquer empresa no espaço de gerenciamento de dados. Os dados são a base do desenvolvimento da IA, e não ter dados suficientes de boa qualidade é um dos principais motivos por que muitos projetos de IA falham. Mas mesmo quando os dados estão lá em baldes, as empresas ainda precisam da infraestrutura para ingerir, transformar e padronizar para torná-los úteis. Isso é um bom presságio para a Onehouse e seus semelhantes.

“Do lado do gerenciamento e processamento de dados, acredito que dados de qualidade fornecidos por uma base sólida de infraestrutura de dados desempenharão um papel essential na integração desses projetos de IA em casos de uso de produção no mundo actual – para evitar a entrada de lixo/lixo- resolver problemas de dados”, disse Chandar. “Estamos começando a ver essa demanda entre os usuários de knowledge lakehouse, à medida que eles lutam para dimensionar o processamento de dados e as necessidades de consulta para construir esses aplicativos de IA mais recentes em dados em escala empresarial.”

Fonte