preloader
Loading ...
Entrevistas Industria

¿Por qué Universal Music Group y Sony Music se fijaron en SoundPatrol?

  • Publicado octubre 8, 2025
¿Por qué Universal Music Group y Sony Music se fijaron en SoundPatrol?
Cortesía: Soundpatrol-Rubenstein Communications

El laboratorio de investigación, fundado por el ejecutivo Michael Ovitz y el Dr. Walter De Brouwer, de la Universidad de Stanford, da respuesta al problema del delito de propiedad intelectual.

SoundPatrol es una empresa tecnológica originada en la Universidad de Stanford que ha desarrollado un modelo de inteligencia artificial forense (sistema o herramienta diseñada para analizar evidencia digital o multimedia con un fin investigativo y legal) para la detección de huellas dactilares en audio y video.

Estas huellas permiten analizar patrones musicales más allá de coincidencias exactas, detectando derivados, covers o remixes que usen elementos protegidos por derechos de autor sin autorización. 

Funcionan por medio de un tipo de identificación, llamado huella digital neuronal, que supone un avance significativo con respecto a las técnicas tradicionales de huella digital de audio, ya que estas se basan principalmente en la comparación de fragmentos de audio exactos. Mientras que las incrustaciones neuronales capturan las relaciones semánticas para identificar versiones, remezclas y derivados generativos de IA.

SoundPatrol es pionera en tecnología musical basada en inteligencia artificial de vanguardia. Cabe destacar que el proyecto se originó con un grupo de destacados académicos en inteligencia artificial, aprendizaje automático y ciberseguridad, entre los que se encuentra el doctor Walter De Brouwer, cofundador y director ejecutivo de SoundPatrol; quien, junto al ejecutivo Michael Ovitz, fundó la compañía. 

En este contexto, esta solución se presenta como una avanzada respuesta tecnológica dedicada a proteger el sonido y la imagen contra el fraude, y la piratería. En un entorno digital donde la reproducción no permitida de contenido es cada vez más sofisticada, esta plataforma opera de forma continua: las 24 horas del día, los 7 días de la semana. Mediante un sistema de vigilancia automatizado capaz de detectar actividades no autorizadas, como la infracción de derechos de autor.

También, la herramienta integra múltiples tecnologías avanzadas para proteger y optimizar contenidos musicales y audiovisuales. Su núcleo es un escáner de huellas dactilares neuronales, basado en inteligencia artificial y grandes clústeres de GPU (unidades de procesamiento gráfico), capaz de rastrear y comparar contenido digital con gran precisión.

Además, ante la expansión de la música generada artificialmente, incorpora una herramienta de detección de música basada en redes neuronales que analizan rasgos acústicos, espectrales y de estilo interpretativo. La protección del catálogo se realiza mediante huellas digitales neuronales y marcas de agua, que permiten identificar y detectar usos no autorizados en tiempo real.

Walter de Brouwer, cofundador y CEO de SoundPatrol conversó con Billboard Colombia, acerca de su laboratorio de inteligencia artificial.

¿Cuándo empezaste este laboratorio y cuánto tiempo te tomó desarrollar la versión final del sistema de identificación de audio y video?

Bueno, empezamos este proceso hace dos años, en realidad pasamos por varias fases. Primero hicimos identificación neuronal, pero la robustez no era muy buena. Así que necesitábamos más datos. Agregamos más datos, pero aun así el sistema no podía detectar ciertas cosas, como inserciones o ciertas manipulaciones o cambios de tono. Entonces decidimos trabajar con destilación y enseñar un poco al modelo. No le pusimos una regla explícita, sino que establecimos un experto para melodía, otro para ritmo, otro para armonía y luego un motor de voz.

Después empezamos a expandir los metadatos, para poder analizarlos mejor. Tomamos todos los metadatos posibles de una canción, eliminamos los duplicados y luego los conectamos con uno de nuestros socios, Music Match, que es la base de datos de todas las letras. Y de repente obtuvimos resultados mucho mejores. Era como si el “estudiante” hubiera empezado a comprender. Ya no necesitábamos intervenir tanto.

Luego repetimos el proceso, porque en ese momento todavía usábamos probabilidades. Como “la probabilidad de infracción de copyright en esta melodía es…” y aplicábamos un softmax (una operación matemática), algo así como 0.8 sobre 1. También tuvimos que consultar al cliente, porque no sabíamos todo: los clientes son distintos. Las grandes discográficas son diferentes, y no todos los expertos piensan igual. Por ejemplo, los editores musicales dicen “no, es la letra, es la composición”, mientras que los de grabación dicen “no, es la melodía”.

Así que fuimos ajustando. Tenemos un equipo en Sony y otro en UMG. Cada semana lanzamos nuevas versiones, y cada mes nos reunimos para probar algo nuevo. Entonces ellos dicen: “queremos más de esto”, “esto no tanto”. Todo lo que tenga que ver con Content ID no lo necesitamos. Y así, en conjunto, el sistema fue creciendo.

En términos simples, ¿cómo se incrusta la huella neuronal en el audio o el video y cuánto tarda este proceso?

Básicamente, primero comenzamos con la base de datos de referencia de las grandes discográficas, generamos las incrustaciones (embeddings) y las almacenamos. Luego las alimentamos al sistema de huellas digitales junto con todos los expertos. Ahora, el sistema ya no da predicciones, simplemente dice: “¡bam!, lo encontró”. También ayudó mucho que pasáramos a escanear cada 6 segundos, en lugar de cada 20 o 10.

A veces se complica cuando se toma una canción, se pasa por un códec y se convierte de nuevo; es muy difícil detectar eso. En esos casos usamos fragmentos de 2 segundos. Claro que eso cuesta mucho en procesamiento.

Es toda una revolución comparada con la metodología de copy control a principio de los años 2000, ¿verdad?

Sí, bueno, esto trata tanto de derechos de autor como de atribución. A veces está claro que algo es una infracción de copyright y entonces se trata de derechos de autor. Pero otras veces es diferente, como cuando pongo una foto mía en un difusor y el resultado se parece a mí. En ese caso se trata de atribución, no de una infracción de copyright, porque en realidad no soy yo.

¿Cómo la huella digital neuronal de SoundPatrol distingue entre las transformaciones legítimas (por ejemplo, remezclas o versiones extendidas) y el uso no autorizado, especialmente cuando las pistas están muy modificadas?

Sí, es difícil. Bueno, lo más sencillo es el rap. Eso es muy fácil. En cambio el EDM (Electronic Dance Music) es difícil. Porque hay muchísimos stems (archivos de audio que descomponen una canción en sus componentes individuales). Como que el búfer de timbre se desborda. 

Por ejemplo, Bob Dylan tiene cinco stems, pero los Chainsmokers tienen 142 stems. Porque trabajan en estaciones de trabajo de audio digital.

¿Cómo detecta la plataforma música generada por IA frente a una interpretación humana? ¿Y cuál es la tasa de falsos positivos y falsos negativos en el mundo real?

Sí, para cada generador hacemos modelos adversarios. A esos modelos adversarios les hacemos una destilación y se la damos a la huella digital neuronal. Y así puede decir inmediatamente, por ejemplo, esto es audio o, ya sabes, esto es otra cosa. 

Por ejemplo, ayer encontré algo interesante. La máquina ni siquiera escuchó la música, Dijo que era una infracción de copyright, lo vio en los metadatos, los metadatos eran ficticios.

En caso de una disputa, por ejemplo: un artista alega que SoundPatrol marcó su música incorrectamente, ¿qué mecanismos existen para defender o analizar la decisión?

Nosotros solo detectamos… ya sabes, no intervenimos en ese proceso. Eso lo manejan las discográficas. Ni siquiera nos comparten eso.

¿Qué otros clientes además de Universal Music Group y Sony están interesados en su laboratorio?

Bueno, hay más interesados, pero también porque usamos la misma tecnología de huella digital neuronal en video, en e-sports, ya sabes, y porque allí hay mucha piratería. Así que entramos por el sonido; por ejemplo, en la F1 puedes quitar los comentarios y poner comentarios en chino, pero nosotros seguimos haciendo la detección porque escuchamos los motores.

Pero esta tecnología podría tener más alcance, porque quizá en las emisiones de esports, la transmisión de la Copa Mundial, podría ser muy interesante.

Y ciertamente lo será… los artistas están perdiendo dinero, pero esta tecnología también puede ser utilizada como arma para fraude criminal, para sabotaje de investigaciones científicas, fraude electoral o simplemente desinformación ciudadana, porque tenemos deep fakes y clonación de voz. 

Creo que mi predicción es que, a finales de año, veremos la regulación. Y el año que viene llegaremos a esa meseta de productividad: ahora hay reglas, y entonces podremos avanzar. Porque ahora estamos en un limbo. Y los piratas prosperan en el limbo.



Written By
Rodolfo Ovalle