Se seu mercado-alvo tem 22 idiomas oficiais e seu público fala mais de 19.000 dialetos, faz sentido oferecer um chatbot de IA somente com texto que funcione melhor em alguns idiomas?
Essa é a questão que a startup indiana de IA Sarvam tem trabalhado para resolver, e na terça-feira lançou uma série de ofertas, incluindo um bot de IA habilitado para voz que suporta mais de 10 idiomas indianos, apostando que as pessoas no país prefeririam falar com um modelo de IA em seu próprio idioma em vez de bater papo com ele por texto. A startup também está lançando um pequeno modelo de idioma, uma ferramenta de IA para advogados, bem como um modelo de áudio-idioma.
“As pessoas preferem falar em sua própria língua. É extremamente desafiador digitar em línguas indianas hoje em dia”, Vivek Raghavan, cofundador da Sarvam AI, disse ao TechCrunch.
A startup sediada em Bengaluru, que tem como alvo principal empresas e empreendimentos, está lançando seus bots de voz habilitados para IA para uma série de indústrias, particularmente aquelas que dependem de suporte ao cliente. Como exemplo, ela apontou para um de seus clientes: Sri Mandir, uma startup que oferece conteúdo religioso, tem usado o agente de IA da Sarvam para aceitar pagamentos e já processou mais de 270.000 transações até agora.
A empresa disse que seus agentes de voz de IA podem ser implantados no WhatsApp, dentro de um aplicativo, e podem até funcionar com chamadas de voz tradicionais.
Com o apoio da Peak XV e da Lightspeed , a Sarvam planeja precificar seus agentes de IA a partir de ₹ 1 (aproximadamente 1 centavo) por minuto de uso.
A startup está construindo seus agentes de IA habilitados para voz em cima de um modelo de linguagem pequeno e fundamental, chamado Sarvam 2B, que é treinado em um conjunto de dados de 4 trilhões de tokens. O modelo é completamente treinado em dados sintéticos, de acordo com Raghavan.
Especialistas em IA frequentemente aconselham cautela ao usar dados sintéticos — essencialmente dados gerados por um grande modelo de linguagem que visa replicar dados do mundo real — para treinar outros modelos de IA, porque LLMs tendem a alucinar e inventar informações que podem não ser precisas. Treinar modelos de IA em tais dados pode servir para exacerbar tais imprecisões.
Raghavan disse que Sarvam optou por usar dados sintéticos devido à disponibilidade extremamente limitada de conteúdo em idioma indiano na web aberta. A startup desenvolveu modelos para limpar e melhorar os dados usados primeiramente para gerar os conjuntos de dados sintéticos, ele acrescentou.
O fundador afirmou que o Sarvam 2B custará um décimo de qualquer coisa comparável na indústria. A startup está tornando o modelo de código aberto, esperando que a comunidade o desenvolva ainda mais.
“Embora os grandes modelos de base de linguagem sejam muito empolgantes, você pode obter uma experiência superior, mais específica, de menor custo e com latência reduzida usando pequenos modelos de linguagem”, disse Raghavan. “Se você quiser executar uma ou duas consultas em uma semana ou um mês, você deve usar os grandes modelos de linguagem. Mas para casos de uso que exigem milhões de interações diárias, acredito que modelos menores são mais adequados.”
A startup também está lançando um modelo de áudio-linguagem, chamado Shuka, construído em seu decodificador de áudio Saaras v1 e no Llama3-8B Instruct da Meta. Este modelo também está sendo de código aberto, para que os desenvolvedores possam usar a tradução da startup, TTS e outros módulos para construir interfaces de voz.
E há outro produto chamado “A1” — uma bancada de IA generativa projetada para advogados que pode consultar regulamentações, redigir documentos, redigi-los e extrair dados.
A Sarvam faz parte do pequeno grupo de startups indianas que defendem casos de uso que se alinham aos interesses do país e contribuem para os esforços do governo em desenvolver sua própria infraestrutura de IA personalizada.
Governos em todo o mundo estão cada vez mais buscando “IA soberana” – infraestrutura de IA que é desenvolvida e controlada em nível nacional. O suposto objetivo de tais esforços é proteger a privacidade de dados, estimular o crescimento econômico e adaptar o desenvolvimento de IA aos seus contextos culturais. Os Estados Unidos e a China atualmente têm os maiores investimentos neste espaço, e a Índia está seguindo com seu programa “IndiaAI” e modelos específicos de idioma.
Uma das iniciativas sob o programa IndiaAI é chamada IndiaAI Compute Capacity, e o plano é estabelecer um supercomputador alimentado por pelo menos 10.000 GPUs. Um dos modelos em desenvolvimento, chamado Bhashini, visa democratizar o acesso a serviços digitais em vários idiomas indianos.
Raghavan disse que sua startup está pronta para contribuir com o programa IndiaAI. “Se a oportunidade surgir, trabalharemos com o governo”, disse ele na entrevista.