[Musix-usuarios] Modelo de sinusoides más residuo, también llamado SMS (Spectral Modeling Synthesis)

Mie Jul 18 01:47:56 CEST 2007

Este post lo escribí hace un tiempo y creo que no lo mandé aca. Si alguien
leyó el post introductorio a CLAM y le gustó la idea, es bueno que lean algo
sobre SMS (que creo que no es muy conocido por el público en general) ya que
muchas de las cosas que tiene se basan en este modelo.

Un ejemplo práctico y el más fácil e intuitivo de entender que se me ocurre
en este momento consiste en analizar con este modelo (en el sentido de
descomponer en sinusoides y residuo) una señal de voz , luego aplicarle una
ganancia al residuo y volver a sintetizar. Lo que se obtiene es una voz
ronca o disfónica, como la de Basile para los argentinos :P o la de Luis
Armstrong.

Esta red se puede armar fácilmente con el NetworkEditor de CLAM, y de hecho
ya esta disponible en la versión del svn (la subi yo mismo)

s

 Modelo de sinusoides más residuo <http://audiores.uint8.com.ar/blog/?p=105>
by hordia on May 21, 2007

Es un modelo de análisis/síntesis para procesamiento espectral orientado a
aplicaciones musicales y de audio. Se puede ver como una generalización de
la STFT <http://en.wikipedia.org/wiki/STFT> (transformada de tiempo corto) y
los modelos sinusoidales. Básicamente añade flexibilidad a la
STFT<http://en.wikipedia.org/wiki/STFT>manteniendo buena fidelidad de
sonido y una representación eficiente.

Este modelo también es conocido como SMS
<http://www.iua.upf.es/mtg/sms/> (Spectral Modeling
Synthesis<http://www.iua.upf.es/mtg/sms/>)
y como HILN <http://en.wikipedia.org/wiki/HILN> en el contexto de
MPEG4<http://en.wikipedia.org/wiki/MPEG4>
.

Básicamente esta modelado como la suma de un conjunto de sinusoides (los "
sobretonos <http://es.wikipedia.org/wiki/Sobretono>" estables armónicos o
no, las componentes determinísticas del sonido) más el residuo de ruido
(modelado como un proceso
estocástico<http://es.wikipedia.org/wiki/Proceso_estoc%C3%A1stico>)
como dos componentes separadas:

[image: s(t) = \sum_{r=1}^R A_r(t) cos[ \Phi_r(t)] + e(t)]

donde [image: A_r(t)] y [image: \Phi_r(t)] son la amplitud y fase
instantaneas de la [image: r^{th}] sinusoide respectivamente, y [image:
e(t)] es la componente de ruido en el tiempo [image: t].
La fase instantanea de la ecuación es: [image: \Phi_r(t) = \int_0^t
w_r(\tau) d\tau]
[image: SMS analysis]

El primer paso del análisis detecta los
sobretonos<http://es.wikipedia.org/wiki/Sobretono>presentes en el
espectro y los representa con sinusoides que varian con el
tiempo . Luego se le resta al sonido original las componentes sinusoidales
para obtener el "residuo" (ver el diagrama de bloques).

La señal residual es modelada como un proceso
estocástico<http://es.wikipedia.org/wiki/Proceso_estoc%C3%A1stico>y se
describe como ruido
blanco <http://es.wikipedia.org/wiki/Ruido_blanco> filtrado:

[image: e(t) = \int_0^t h(t,\tau) u(\tau) d\tau]

donde [image: u(t)] es ruido
blanco<http://es.wikipedia.org/wiki/Ruido_blanco>y [image:
h(t,\tau)] es la respuesta al
impulso<http://es.wikipedia.org/wiki/Respuesta_impulsiva>de un filtro
que varia con el tiempo evaluada en el instante [image:
t] .

El residuo comprende la energía debida a vibraciones no estacionarias y a
cualquier otra componente energética de naturaleza no sinusoidal.

Algunas áreas donde este modelo se puede aplicar:

   - análisis
   - compresión de sonido
   - separación de fuentes de sonido
   - acústica musical
   - percepción musical

*Algunos links con más información sobre este modelo*:

   - Xavier Serra <http://www.iua.upf.es/%7Exserra>: " Musical Sound
   Modeling With Sinusoids Plus
Noise<http://www.iua.upf.es/%7Exserra/articles/msm/>
   ".
   - Tesis de Xavier Amatriain <http://www.iua.upf.es/%7Examat/Thesis/>:
   " Sinusoidal plus Residual
Model<http://www.iua.upf.es/%7Examat/Thesis/html/node231.html>
   "
   - Libro DAFX <http://www.dafx.de/>: Chapter 10 - Spectral
Processing<http://www.dafx.de/>
   .
   - CLAM SMSTools: Introduction
tutorial<http://iua-share.upf.edu/wikis/clam/index.php/SMSTools_tutorial>,
   more details<http://iua-share.upf.edu/wikis/clam/index.php/SMSToolsDetails>
   .

Este tipo de cosas me hace acordar que tengo que postear sobre la tesis de Juan
Vuletich <http://www.jvuletich.org/aboutMe.html>: "Nuevas bases para el
procesamiento de música en el dominio tiempo-frecuencia
<http://audiores.uint8.com.ar/files/doc/TesisVuletich.pdf>" (aca un
paper<http://audiores.uint8.com.ar/files/doc/Spie2003Vuletich.pdf>sobre
la misma idea) un enfoque diferente para este tipo de cosas (
wavelets <http://es.wikipedia.org/wiki/Wavelets>) que pienso que merece
(como mínimo) un post entero lo antes posible.

-- 
Hernán
http://h.ordia.com.ar
GnuPG: 0xEE8A3FE9
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: /pipermail/musix-usuarios/attachments/20070717/a5b91e85/attachment.html