设为首页收藏本站

安徽论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 101266|回复: 0

零基础入门:实时音视频技术基础知识全面盘点

[复制链接]

85

主题

0

回帖

267

积分

中级会员

Rank: 3Rank: 3

积分
267
发表于 2022-3-26 10:33:12 | 显示全部楼层 |阅读模式
网站内容均来自网络,本站只提供信息平台,如有侵权请联系删除,谢谢!
本文引用自公众号“开发的猫”,本次收录时有改动,感谢原作者“开发的猫”的分享。
1、引言

随着移动网络速度越来越快、质量越来越来,实时音视频技术已经在各种应用场景下全面开花,语音通话、视频通话、视频会议、远程白板、远程监控等等。
实时音视频技术的开发也越来越受到重视,但是由于音视频开发涉及知识面比较广,入门门槛相对较高,让许许多多开发者望而生畏。
虽然网上有很多的博文总结了实时音视频技术的学习路线,但是相关的知识都相对独立,有讲“音视频解码相关”的、有讲“OpenGL相关”的、也有讲“FFmpeg相关的”、还有讲“RTP/RTCP、RTMP、HLS、QUIC等通信相关的”,但是对于新手来说,把所有的知识衔接串联起来,并很好的理解所有的知识,却是非常困难的。
本人在学习音视频开发的过程中,深刻体会到了由于知识的分散、过渡断层带来的种种困惑和痛苦,因此希望通过自己的理解,可以把音视频开发相关的知识总结出来,并形成系列文章,循序渐进,剖析各个环节,一则对自己所学做一个总结和巩固,二则希望可以帮助想入门音视频开发的开发者小伙伴们。
本文是作者自已根据入门实时音视频的亲身经历,对于基础知识点的认知总结。虽然很浅显,但相对小白来说,能稍微系统的了解这些概念就已经是很好的起点了。
学习交流:
   - 即时通讯/推送技术开发交流5群:215477170[推荐]
  - 移动端IM开发入门文章:《新手入门一篇就够:从零开发移动端IM
  本文已同步发布于“即时通讯技术圈”公众号,欢迎关注:

▲ 本文在公众号上的链接是:https://mp.weixin.qq.com/s/DsoEYydjmoWiEruZYQKCgQ,原文链接是:http://www.52im.net/thread-3079-1-1.html
2、相关文章

   《即时通讯音视频开发(一):视频编解码之理论概述
  《即时通讯音视频开发(六):如何开始音频编解码技术的学习
  《即时通讯音视频开发(七):音频基础及编码原理入门
  《即时通讯音视频开发(十四):实时音视频数据传输协议介绍
  《即时通讯音视频开发(十九):零基础,史上最通俗视频编码技术入门》(* 必读)
  《实时语音聊天中的音频处理与编码压缩技术简述
  《移动端实时音视频直播技术详解(一):开篇
  《移动端实时音视频直播技术详解(二):采集
  《移动端实时音视频直播技术详解(三):处理
  《移动端实时音视频直播技术详解(四):编码和封装
  《移动端实时音视频直播技术详解(五):推流和传输
  《移动端实时音视频直播技术详解(六):延迟优化
  《福利贴:最全实时音视频开发要用到的开源工程汇总》(* 必读)
  《写给小白的实时音视频技术入门提纲》(* 必读)
  《爱奇艺技术分享:轻松诙谐,讲解视频编解码技术的过去、现在和将来
  3、视频是什么?

3.1 动画书

不知道大家小时候是否玩过一种动画小人书,连续翻动的时候,小人书的画面就会变成一个动画,类似现在的gif格式图片。 

本来是一本静态的小人书,通过翻动以后,就会变成一个有趣的小动画,如果画面够多,翻动速度够快的话,这其实就是一个小视频。
而视频的原理正是如此,由于人类眼睛的特殊结构,画面快速切换时,画面会有残留,感觉起来就是连贯的动作。所以,视频就是由一系列图片构成的。
3.2 视频帧

帧,是视频的一个基本概念,表示一张画面,如上面的翻页动画书中的一页,就是一帧。一个视频就是由许许多多帧组成的。
3.3 帧率

帧率,即单位时间内帧的数量,单位为:帧/秒 或fps(frames per second)。如动画书中,一秒内包含多少张图片,图片越多,画面越顺滑,过渡越自然。
帧率的一般以下几个典型值:


  • 1)24/25 fps:1秒 24/25 帧,一般的电影帧率;
  • 2)30/60 fps:1秒 30/60 帧,游戏的帧率,30帧可以接受,60帧会感觉更加流畅逼真。
85 fps以上人眼基本无法察觉出来了,所以更高的帧率在视频里没有太大意义。
3.4 色彩空间

这里我们只讲常用到的两种色彩空间。


  • 1)RGB:RGB的颜色模式应该是我们最熟悉的一种,在现在的电子设备中应用广泛。通过R G B三种基础色,可以混合出所有的颜色;
  • 2)YUV:这里着重讲一下YUV,这种色彩空间并不是我们熟悉的。这是一种亮度与色度分离的色彩格式。
早期的电视都是黑白的,即只有亮度值,即Y。有了彩色电视以后,加入了UV两种色度,形成现在的YUV,也叫YCbCr。


  • 1)Y:亮度,就是灰度值。除了表示亮度信号外,还含有较多的绿色通道量;
  • 2)U:蓝色通道与亮度的差值;
  • 3)V:红色通道与亮度的差值。
如下图,可以看到Y、V、U 3个分量的效果差值: 

采用YUV有什么优势呢?
   人眼对亮度敏感,对色度不敏感,因此减少部分UV的数据量,人眼却无法感知出来,这样可以通过压缩UV的分辨率,在不影响观感的前提下,减小视频的体积。
  RGB和YUV的换算:
   Y = 0.299R + 0.587G + 0.114B
  U = -0.147R - 0.289G + 0.436B
  V = 0.615R - 0.515G - 0.100B
  ——————————————————
  R = Y + 1.14V
  G = Y - 0.39U - 0.58V
  B = Y + 2.03U
  3.5 进一步学习

如果你认为上面的文字还是有点专业,则强烈建议阅读下文:《即时通讯音视频开发(十九):零基础,史上最通俗视频编码技术入门》,绝对史上最通俗!
4、音频是什么?

4.1 基本知识

音频数据的承载方式最常用的是脉冲编码调制,即 PCM
在自然界中,声音是连续不断的,是一种模拟信号,那怎样才能把声音保存下来呢?那就是把声音数字化,即转换为数字信号。
我们知道声音是一种波,有自己的振幅和频率,那么要保存声音,就要保存声音在各个时间点上的振幅。
而数字信号并不能连续保存所有时间点的振幅,事实上,并不需要保存连续的信号,就可以还原到人耳可接受的声音。
根据奈奎斯特采样定理:为了不失真地恢复模拟信号,采样频率应该不小于模拟信号频谱中最高频率的2倍。
根据以上分析,PCM的采集步骤分为以下步骤:
   模拟信号 -> 采样 -> 量化 -> 编码 -> 数字信号
  4.2 采样率和采样位数

采样率,即采样的频率。
上面提到,采样率要大于原声波频率的2倍,人耳能听到的最高频率为20kHz,所以为了满足人耳的听觉要求,采样率至少为40kHz,通常为44.1kHz,更高的通常为48kHz。
采样位数,涉及到上面提到的振幅量化。波形振幅在模拟信号上也是连续的样本值,而在数字信号中,信号一般是不连续的,所以模拟信号量化以后,只能取一个近似的整数值,为了记录这些振幅值,采样器会采用一个固定的位数来记录这些振幅值,通常有8位、16位、32位。

位数越多,记录的值越准确,还原度越高。
4.3 编码

最后就是编码了。由于数字信号是由0,1组成的,因此,需要将幅度值转换为一系列0和1进行存储,也就是编码,最后得到的数据就是数字信号:一串0和1组成的数据。
整个过程如下: 

4.4 声道数

声道数,是指支持能不同发声(注意是不同声音)的音响的个数。
   单声道:1个声道
  双声道:2个声道
  立体声道:默认为2个声道
  立体声道(4声道):4个声道
  4.5 码率

码率,是指一个数据流中每秒钟能通过的信息量,单位bps(bit per second)。
   码率 = 采样率 * 采样位数 * 声道数
  4.6 深入地学习

读完上面的文字后,如果觉得不够深入,可以继续系统的学习以下资料:
   《即时通讯音视频开发(六):如何开始音频编解码技术的学习
  《即时通讯音视频开发(七):音频基础及编码原理入门
  《即时通讯音视频开发(八):常见的实时语音通讯编码标准
  《即时通讯音视频开发(九):实时语音通讯的回音及回音消除概述
  《即时通讯音视频开发(十):实时语音通讯的回音消除技术详解
  《即时通讯音视频开发(十一):实时语音通讯丢包补偿技术详解
  《即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型
  《实时语音聊天中的音频处理与编码压缩技术简述
  《网易视频云技术分享:音频处理与压缩技术快速入门
  如果你认为还需要更浅的文章,则强烈建议阅读下文(绝对史上最通俗):
   《即时通讯音视频开发(十九):零基础,史上最通俗视频编码技术入门
  5、为什么要编码

这里的编码和上面音频中提到的编码不是同个概念,而是指压缩编码。
我们知道,在计算机的世界中,一切都是0和1组成的,音频和视频数据也不例外。由于音视频的数据量庞大,如果按照裸流数据存储的话,那将需要耗费非常大的存储空间,也不利于传送。而音视频中,其实包含了大量0和1的重复数据,因此可以通过一定的算法来压缩这些0和1的数据。
特别在视频中,由于画面是逐渐过渡的,因此整个视频中,包含了大量画面/像素的重复,这正好提供了非常大的压缩空间。
因此,编码可以大大减小音视频数据的大小,让音视频更容易存储和传送。
那么,未经编码的原始音视频,数据量至底有多大?
以一个分辨率1920×1280,帧率30的视频为例:
   共:1920×1280=2,073,600(Pixels 像素),每个像素点是24bit(前面算过的哦);
  也就是:每幅图片2073600×24=49766400 bit,8 bit(位)=1 byte(字节);
  所以:49766400bit=6220800byte≈6.22MB。
  这是一幅1920×1280图片的原始大小,再乘以帧率30。
也就是说:每秒视频的大小是186.6MB,每分钟大约是11GB,一部90分钟的电影,约是1000GB。。。
(以上举例引用自:《即时通讯音视频开发(十九):零基础,史上最通俗视频编码技术入门》)
6、视频编码

视频编码格式有很多,比如H26x系列和MPEG系列的编码,这些编码格式都是为了适应时代发展而出现的。
其中,H26x(1/2/3/4/5)系列由ITU(International Telecommunication Union)国际电传视讯联盟主导
MPEG(1/2/3/4)系列由MPEG(Moving Picture Experts Group, ISO旗下的组织)主导。
当然,他们也有联合制定的编码标准,那就是现在主流的编码格式H264,当然还有下一代更先进的压缩编码标准H265。
视频编码知识比较专业,限于篇幅,我就不在此展开讨论了。
如果想系统地了解视频编码技术,可以读以下资料:
   《即时通讯音视频开发(一):视频编解码之理论概述
  《即时通讯音视频开发(二):视频编解码之数字视频介绍
  《即时通讯音视频开发(三):视频编解码之编码基础
  《即时通讯音视频开发(四):视频编解码之预测技术介绍
  《即时通讯音视频开发(五):认识主流视频编码技术H.264
  《即时通讯音视频开发(十二):多人实时音视频聊天架构探讨
  《即时通讯音视频开发(十三):实时视频编码H.264的特点与优势
  《即时通讯音视频开发(十四):实时音视频数据传输协议介绍
  《即时通讯音视频开发(十五):聊聊P2P与实时音视频的应用情况
  《即时通讯音视频开发(十六):移动端实时音视频开发的几个建议
  《即时通讯音视频开发(十七):视频编码H.264、VP8的前世今生
  7、音频编码

原始的PCM音频数据也是非常大的数据量,因此也需要对其进行压缩编码。
和视频编码一样,音频也有许多的编码格式,如:WAV、MP3、WMA、APE、FLAC等等,音乐发烧友应该对这些格式非常熟悉,特别是后两种无损压缩格式。
但是,我们今天的主角不是他们,而是另外一个叫AAC的压缩格式。本节以AAC格式为例,直观的了解音频压缩格式。
AAC是新一代的音频有损压缩技术,一种高压缩比的音频压缩算法。在MP4视频中的音频数据,大多数时候都是采用AAC压缩格式。
AAC格式主要分为两种:ADIF、ADTS。
1)ADIF:Audio Data Interchange Format。音频数据交换格式。这种格式的特征是可以确定的找到这个音频数据的开始,不需进行在音频数据流中间开始的解码,即它的解码必须在明确定义的开始处进行。这种格式常用在磁盘文件中。
2)ADTS:Audio Data Transport Stream。音频数据传输流。这种格式的特征是它是一个有同步字的比特流,解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。
   ADTS可以在任意帧解码,它每一帧都有头信息。ADIF只有一个统一的头,所以必须得到所有的数据后解码。且这两种的header的格式也是不同的,目前一般编码后的都是ADTS格式的音频流。
  ADIF数据格式:
   header | raw_data
  ADTS 一帧 数据格式(中间部分,左右省略号为前后数据帧):

AAC内部结构也不再赘述,如果有兴趣,可以参考《AAC 文件解析及解码流程》。
如果需要更深入地学习音频编码知识,可以看看以下资料:
   《即时通讯音视频开发(六):如何开始音频编解码技术的学习
  《即时通讯音视频开发(七):音频基础及编码原理入门
  《即时通讯音视频开发(八):常见的实时语音通讯编码标准
  《即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型
  8、音视频容器

细心的读者可能已经发现,前面我们介绍的各种音视频的编码格式,没有一种是我们平时使用到的视频格式,比如:mp4、rmvb、avi、mkv、mov...
没错,这些我们熟悉的视频格式,其实是包裹了音视频编码数据的容器,用来把以特定编码标准编码的视频流和音频流混在一起,成为一个文件。
例如:mp4支持H264、H265等视频编码和AAC、MP3等音频编码。
mp4是目前最流行的视频格式,在移动端,一般将视频封装为mp4格式。
对于音视频编码格式和容器之间的关系,可以详细读《即时通讯音视频开发(十九):零基础,史上最通俗视频编码技术入门》一文中的“6、视频编码的国际标准”一节。
9、硬解码和软解码

我们在一些播放器中会看到,有硬解码和软解码两种播放形式给我们选择,但是我们大部分时候并不能感觉出他们的区别,对于普通用户来说,只要能播放就行了。
那么他们内部究竟有什么区别呢?
在手机或者PC上,都会有CPU、GPU或者解码器等硬件。通常,我们的计算都是在CPU上进行的,也就是我们软件的执行芯片,而GPU主要负责画面的显示(是一种硬件加速)。
所谓软解码:就是指利用CPU的计算能力来解码,通常如果CPU的能力不是很强的时候,一则解码速度会比较慢,二则手机可能出现发热现象。但是,由于使用统一的算法,兼容性会很好。
所谓硬解码:指的是利用手机上专门的解码芯片来加速解码。通常硬解码的解码速度会快很多,但是由于硬解码由各个厂家实现,质量参差不齐,非常容易出现兼容性问题。
10、参考资料

[1] 音视频开发基础知识
[2] YUV颜色编码解析
[3] YUV数据格式
[4] 音频基础知识
[5] AAC 文件解析及解码流程
[6] 入门理解H264编码
附录:更多音视频技术文章汇总

   [1] 开源实时音视频技术WebRTC的文章:
  《开源实时音视频技术WebRTC的现状
  《简述开源实时音视频技术WebRTC的优缺点
  《访谈WebRTC标准之父:WebRTC的过去、现在和未来
  《良心分享:WebRTC 零基础开发者教程(中文)[附件下载]
  《WebRTC实时音视频技术的整体架构介绍
  《新手入门:到底什么是WebRTC服务器,以及它是如何联接通话的?
  《WebRTC实时音视频技术基础:基本架构和协议栈
  《浅谈开发实时视频直播平台的技术要点
  《[观点] WebRTC应该选择H.264视频编码的四大理由
  《基于开源WebRTC开发实时音视频靠谱吗?第3方SDK有哪些?
  《开源实时音视频技术WebRTC中RTP/RTCP数据传输协议的应用
  《简述实时音视频聊天中端到端加密(E2EE)的工作原理
  《实时通信RTC技术栈之:视频编解码
  《开源实时音视频技术WebRTC在Windows下的简明编译教程
  《网页端实时音视频技术WebRTC:看起来很美,但离生产应用还有多少坑要填?
  《了不起的WebRTC:生态日趋完善,或将实时音视频技术白菜化
  《腾讯技术分享:微信小程序音视频与WebRTC互通的技术思路和实践
  >> 更多同类文章 ……
  [2] 实时音视频开发的其它精华资料:
  《即时通讯音视频开发(一):视频编解码之理论概述
  《即时通讯音视频开发(二):视频编解码之数字视频介绍
  《即时通讯音视频开发(三):视频编解码之编码基础
  《即时通讯音视频开发(四):视频编解码之预测技术介绍
  《即时通讯音视频开发(五):认识主流视频编码技术H.264
  《即时通讯音视频开发(六):如何开始音频编解码技术的学习
  《即时通讯音视频开发(七):音频基础及编码原理入门
  《即时通讯音视频开发(八):常见的实时语音通讯编码标准
  《即时通讯音视频开发(九):实时语音通讯的回音及回音消除概述
  《即时通讯音视频开发(十):实时语音通讯的回音消除技术详解
  《即时通讯音视频开发(十一):实时语音通讯丢包补偿技术详解
  《即时通讯音视频开发(十二):多人实时音视频聊天架构探讨
  《即时通讯音视频开发(十三):实时视频编码H.264的特点与优势
  《即时通讯音视频开发(十四):实时音视频数据传输协议介绍
  《即时通讯音视频开发(十五):聊聊P2P与实时音视频的应用情况
  《即时通讯音视频开发(十六):移动端实时音视频开发的几个建议
  《即时通讯音视频开发(十七):视频编码H.264、VP8的前世今生
  《即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型
  《即时通讯音视频开发(十九):零基础,史上最通俗视频编码技术入门
  《实时语音聊天中的音频处理与编码压缩技术简述
  《网易视频云技术分享:音频处理与压缩技术快速入门
  《学习RFC3550:RTP/RTCP实时传输协议基础知识
  《基于RTMP数据传输协议的实时流媒体技术研究(论文全文)
  《声网架构师谈实时音视频云的实现难点(视频采访)
  《浅谈开发实时视频直播平台的技术要点
  《还在靠“喂喂喂”测试实时语音通话质量?本文教你科学的评测方法!
  《实现延迟低于500毫秒的1080P实时音视频直播的实践分享
  《移动端实时视频直播技术实践:如何做到实时秒开、流畅不卡
  《如何用最简单的方法测试你的实时音视频方案
  《技术揭秘:支持百万级粉丝互动的Facebook实时视频直播
  《简述实时音视频聊天中端到端加密(E2EE)的工作原理
  《移动端实时音视频直播技术详解(一):开篇
  《移动端实时音视频直播技术详解(二):采集
  《移动端实时音视频直播技术详解(三):处理
  《移动端实时音视频直播技术详解(四):编码和封装
  《移动端实时音视频直播技术详解(五):推流和传输
  《移动端实时音视频直播技术详解(六):延迟优化
  《理论联系实际:实现一个简单地基于HTML5的实时视频直播
  《IM实时音视频聊天时的回声消除技术详解
  《浅谈实时音视频直播中直接影响用户体验的几项关键技术指标
  《如何优化传输机制来实现实时音视频的超低延迟?
  《首次披露:快手是如何做到百万观众同场看直播仍能秒开且不卡顿的?
  《Android直播入门实践:动手搭建一套简单的直播系统
  《网易云信实时视频直播在TCP数据传输层的一些优化思路
  《实时音视频聊天技术分享:面向不可靠网络的抗丢包编解码器
  《P2P技术如何将实时视频直播带宽降低75%?
  《专访微信视频技术负责人:微信实时视频聊天技术的演进
  《腾讯音视频实验室:使用AI黑科技实现超低码率的高清实时视频聊天
  《微信团队分享:微信每日亿次实时音视频聊天背后的技术解密
  《近期大热的实时直播答题系统的实现思路与技术难点分享
  《福利贴:最全实时音视频开发要用到的开源工程汇总
  《七牛云技术分享:使用QUIC协议实现实时视频直播0卡顿!
  《实时音视频聊天中超低延迟架构的思考与技术实践
  《理解实时音视频聊天中的延时问题一篇就够
  《实时视频直播客户端技术盘点:Native、HTML5、WebRTC、微信小程序
  《写给小白的实时音视频技术入门提纲
  《微信多媒体团队访谈:音视频开发的学习、微信的音视频技术和挑战等
  《腾讯技术分享:微信小程序音视频技术背后的故事
  《微信多媒体团队梁俊斌访谈:聊一聊我所了解的音视频技术
  《新浪微博技术分享:微博短视频服务的优化实践之路
  《实时音频的混音在视频直播应用中的技术原理和实践总结
  《以网游服务端的网络接入层设计为例,理解实时通信的技术挑战
  《腾讯技术分享:微信小程序音视频与WebRTC互通的技术思路和实践
  《新浪微博技术分享:微博实时直播答题的百万高并发架构实践
  《技术干货:实时视频直播首屏耗时400ms内的优化实践
  《爱奇艺技术分享:轻松诙谐,讲解视频编解码技术的过去、现在和将来
  《零基础入门:实时音视频技术基础知识全面盘点
  >> 更多同类文章 ……
  (本文同步发布于:http://www.52im.net/thread-3079-1-1.html

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
免责声明
1. 本论坛所提供的信息均来自网络,本网站只提供平台服务,所有账号发表的言论与本网站无关。
2. 其他单位或个人在使用、转载或引用本文时,必须事先获得该帖子作者和本人的同意。
3. 本帖部分内容转载自其他媒体,但并不代表本人赞同其观点和对其真实性负责。
4. 如有侵权,请立即联系,本网站将及时删除相关内容。
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表