今天我们解决以下问题
本文根据李超老师的音视频基础课程总结而来。
1、直播客户端的处理流程是什么?
2、音频的处理流程是什么?
3、声音是如何产生的?
4、人类的听觉范围是多少?
5、声音三要素?
6、模数转换?
7、音频原始数据?
8、WAV header?
1、直播客户端的处理流程是什么?

2、音频的处理流程是什么?

编码
1、设备采集到的数据是模拟信号,转化为数字信号后生成pcm数据。
2、pcm数据进过编码压缩后生成aac/mp3
3、加上马甲,进行封装生成mp4/flv.(如果需要录制,需要生成多媒体文件)
解码
1、mp4/flv脱掉马甲形成aac/mp3
2、aac/mp3经过解码形成pcm
3、音频设备播放pcm数据
3、声音是如何产生的?
- 声音是通过物体振动产生的
- 声音可以通过液体、气体、固体等媒介进行传播
- 耳膜震动
产生 传递 接收
4、人类的听觉范围是多少?
20Hz 到 20kHz
低于20hz叫次声波,20hz到20000hz叫可听声波,大于20000hz是超声波
人类的发音声波是85到1100hz
5、声音三要素?
- 音调 音频的快慢 儿童>女生>男生 所以也就有了女高音和男低音
- 音量 振动的幅度
- 音色 谐波 ?基频加上小的谐波形成了音色
6、模数转换?
- 声音是模拟信号,反应在图上是一个波
- 然后进行取样,所谓的取样就是每隔一段时间取一次声音的值,间隔越短,越接近真实情况
- 取出的数据进行2进制转化,形成数字信号

7、音频原始数据?
音频的原始数据格式
pcm是原始数据
wav是封装格式,存储pcm原始数据也可以存储压缩数据
量化的基本概念:
采样大小(位深):一个采样多少bit存放,常用的是16bit
采样率:采样频率 8k、16k、32k、44.1k、48k 采样率越大越接近正式情况
声道数:单声道 双声道 多声道
码率(BitRate,比特率) = 采样大小 * 采样率 * 声道数
例子
采样率为48k,采样大小为16bit,双声道pcm编码的wav文件,它的码率是多少?
码率=16 * 48k * 2 = 1536kb/s
1.5M的音频数据非常大,无法在网络中传输,所以要进行压缩。
8、WAV header?

ByteRate = BitsPerSample / 8 * SampleRate * NumChannels

ByteRate 字节率
1Byte = 8 bit
1字节等于8个二进制位
图中ByteRate(88200) = BitsPerSample(16) / 8 * SampleRate(22050)*NumChannels(2)
对于wav最重要的就是BitsPerSample SampleRate NumChannels