Stable Diffusion to otwarty model sztucznej inteligencji, który może generować obrazy na podstawie tekstu. Riffusion dostroił ten model, aby był w stanie tworzyć obrazy zwane spektrogramami, a następnie przekształcać je w klipy dźwiękowe. Spektrogramy to rodzaj obrazów, które pokazują, jak różne częstotliwości brzmią w różnych momentach czasowych. Dodatkowo, stworzyli interaktywną aplikację internetową, dzięki której każdy może wpisać swój temat, a aplikacja wygeneruje klip dźwiękowy. Ponadto, aplikacja umożliwia płynne przejście między różnymi tematami lub różnymi wariantami tego samego tematu.