GOOGLE DESENVOLVE SISTEMA DE SEPARAÇÃO DE ÁUDIO E VOZ

Por Zebrão Em 23 nov, 2020

O Google pode ter criado uma ferramenta que pode separar sons de áudio de ruídos. Por meio do serviço oferecido pela plataforma SoundFilter baseada em IA, a empresa acredita que o recurso poderá auxiliar na criação de uma variedade de tecnologias úteis. O Google Meet, por exemplo, já possui uma opção parecida em seu sistema de cancelamento de ruído alimentado por inteligência artificial.
A gigante da tecnologia diz que a aplicação pode ser ajustada para filtrar fontes de som arbitrárias, mesmo aquelas que não foram vistas durante o treinamento de máquina. Resumidamente, o recurso funciona da seguinte forma: recebe como entrada a mistura de áudio a ser filtrada e um pequeno exemplo do som a ser filtrado. Uma vez treinado, o SoundFilter pode extrair esse tipo de som da mistura, se houver.
Para que o sistema ficasse completo, os pesquisadores treinaram a plataforma com dois conjuntos de códigos abertos, sendo um formado por mais de 50 mil sons e outro por quase mil horas de fala em inglês. Depois deste processo, os estudiosos relatam que o codificador de condicionamento aprendeu a produzir embeddings que representam as características acústicas do áudio de condicionamento. A partir daí, a IA permite a separação das vozes de misturas de alto-falantes.
“Nosso trabalho poderia ser estendido explorando como usar a incorporação aprendida como parte do SoundFilter como uma representação para um classificador de eventos de áudio”, escreveram os pesquisadores no artigo sobre o trabalho.
MAS, AFINAL, O QUE É UM SOUNDFILTER?
SoundFilter trata-se de uma arquitetura de rede neural onda a onda. Isso quer dizer o que sistema pode ser treinado com a utilização de amostras de áudio sem a necessidade de rótulos que denotam qual o tipo de fonte. Para que isso ocorra, um codificador de condicionamento pega o áudio, também de condicionamento, e calcula a incorporação correspondente, ou seja, a representação numérica.
Enquanto isso, um gerador condicional pega a mistura de áudio e a incorporação de condicionamento como entrada e produz a saída filtrada. De acordo com o site Venture Beat, desta forma, “o sistema assume que a coleção de áudio original consiste em muitos clipes de alguns segundos de duração que contêm o mesmo som por toda a duração. Além disso, o SoundFilter presume que cada clipe contém uma única fonte de áudio, como um alto-falante, um instrumento musical ou um canto de pássaro”.

SoundFilter considera três partes principais para fazer a separação de sons. Créditos: Sertaa/Shutterstock

De forma geral, este modelo é treinado para produzir um áudio alvo, considerando a mistura e o áudio condessado como entradas. Para entender melhor como o processo acontece, o treinamento de SoundFilter contém três principais partes: o áudio de destino que possui apenas um som, uma mistura que contém dois sons diferentes, um dos quais é o áudio alvo, e um sinal de áudio de condicionamento, outro exemplo com o mesmo tipo de som que o áudio de destino. O processo considera as três partes, resultando na separação entre voz e áudio. (Olhardigital)
.

D	S	T	Q	Q	S	S
« out				dez »
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30