视频原理一视频、图像的基本概念

作者&投稿:本泥 2024-06-30
从今天开始,会分享一些视频和图像相关的技术,主要包括视频图像的基本概念,图像的缩放处理,视频压缩编码、视频打包传输和音视频相关同步等相关知识

像素

像素是图像的基本单元,一个个像素就组成了图像,你可以认为像素就是图像中的一个点,那么一张图像中有多少个像素呢,那么接下来就引申出了另外一个非常重要的概念-分辨率

分辨率

图像的分辨率是指图像的尺寸或大小,我们一般用像素个数来表示图像的尺寸,比如说一张 1920x1080 的图像,前者 1920 指的是该图像的宽度方向上有 1920 个像素点,而后者 1080 指的是图像的高度方向上有 1080 个像素点。

视频行业常见的分辨率有 QCIF(176x144)、CIF(352x288)、D1(704x576 或 720x576),还有我们比较熟悉的 360P(640x360)、720P(1280x720)、1080P(1920x1080)、4K(3840x2160)、8K(7680x4320)等。

首先像素就只是一个带有颜色的小块。

其次 图像的分辨率越高,图像就越清晰

准确的来说,第二句话不是那么准确,因为对于原始图像,确实是分辨率越高,图像越清晰,但是我们通常看到的图片一般是经过后期处理的,比如放大缩小,或者磨皮美颜。经过处理过后的图像,尤其是放大之后的图像,分辨率很高,但是它并没有很清晰

这是因为放大的图像是通过“插值”处理得到的,而插值的像素是使用邻近像素经过插值算法计算得到的,跟实际相机拍摄的像素是不一样的,相当于“脑补”出来的像素值。因此,放大的图像还是会存在偏差,表现出来就是会模糊。我们会在之后的课程中来具体聊聊这个过程是怎么做的。总之,我们不能简单地认为分辨率数值越高的图像就越清晰

刚才我们在前面还提到,像素就是一个带有颜色的小块,那这个小块到底是怎么组成的呢?接下来就说说RGB 图像像素和位深的概念。

位深

一般来说,我们看到的彩色图像中,都有三个通道,这三个通道就是 R、G、B 通道。简单来说就是,彩色图像中的像素是有三个颜色值的,分别是红、绿、蓝三个值。也就是说我们看到的那个带有颜色的块其实是由 R、G、B 三个值组成的(有的时候还会有 Alpha 值,代表透明度,我们这里不展开讨论)。

通常 R、G、B 各占 8 个位,也就是一个字节。8 个位能表示 256 种颜色值,那 3 个通道的话就是 256 的 3 次方个颜色值,总共是 1677 万种颜色。我们称这种图像是 8bit 图像,而这个 8bit 就是位深。我们可以看到,位深越大,我们能够表示的颜色值就越多。因此,图像就可以更精确地展示你拍摄的真实世界。

比如现在有 10bit 图像和 12bit 图像,8bit 图像的每一个像素需要占用 3x8 总共 24 个位,3 个字节,同理 10bit、12bit 就会占用更多。所以,图像的位深越大,需要的存储空间就会越大,传输这张图像使用的流量就会越多。目前我们大多数情况下看到的图像以及视频还是 8bit 位深的。

Stride

接下来我们来看一个特别的概念——Stride。这个 Stride 不是图像本身的属性,但是视频开发者经常会碰到,也是经常会出问题的一个东西。我们团队在工作中就多次遇到过由于客户没有处理好这个东西,从而导致播放的图像出现“花屏”的情况。

Stride 也可以称之为跨距,是图像存储的时候有的一个概念。它指的是图像存储时内存中每行像素所占用的空间。你可能会问,一张图像的分辨率确定了,那一行的像素值不就确定了吗?为什么还需要跨距这个东西呢?其实,为了能够快速读取一行像素,我们一般会对内存中的图像实现内存对齐,比如 16 字节对齐。举个例子,我们现在有一张 RGB 图像,分辨率是 1278x720。

我们将它存储在内存当中,一行像素需要 1278x3=3834 个字节,3834 除以 16 无法整除。因此,没有 16 字节对齐。所以如果需要对齐的话,我们需要在 3834 个字节后面填充 6 个字节,也就是 3840 个字节做 16 字节对齐,这样这幅图像的 Stride 就是 3840 了。如下图所示:

以上就是图像的基本概念,接下来我们来讲讲视频的一些基本概念。前面我们说到,视频是由一系列图像组成的,即“连续”的一帧帧图像就可以组成视频。

但事实上,视频中的图像并不是真正意义上的连续。也就是说,在 1 秒钟之内,图像的数量是有限的。只是当数量达到一定值之后,人的眼睛的灵敏度就察觉不出来了,看起来就是连续的视频了。这个 1 秒钟内图像的数量就是帧率。据研究表明,一般帧率达到 10~12 帧每秒,人眼就会认为是流畅的了。当然,可能会有个体差异。

通常,我们在电影院看的电影帧率一般是 24fps(帧每秒),监控行业常用 25fps,而我们声网常用的帧率有 15fps、24fps 和 30fps。你可以根据自己的使用场景来具体设定你想使用的帧率值。选择帧率的时候还需要考虑设备处理性能的问题,尤其是实时视频通话场景。帧率高,代表着每秒钟处理的图像数量会很高,从而需要的设备性能就比较高。

如果是含有多个图像处理过程,比如人脸识别、美颜等算法的时候,就更需要考虑帧率大小和设备性能的问题。同样,也要考虑带宽流量的问题。帧率越大,流量也会越多,对带宽的要求也会越高。

码率

我们已经知道,视频的帧率越高,1 秒钟内的图像数据量就会越大。通常我们存储视频的时候需要对图像进行压缩之后再存储,否则视频会非常大。

那么压缩之后的视频一般如何描述它的大小呢?一般对于一个视频文件,我们直接看视频的大小就可以了。但是在实时通信或者直播的时候,视频是视频流的形式,我们怎么衡量呢?这就涉及到我接下来要介绍的概念——码率。

码率是指视频在单位时间内的数据量的大小,一般是 1 秒钟内的数据量,其单位一般是 Kb/s 或者 Mb/s。通常,我们用压缩工具压缩同一个原始视频的时候,码率越高,图像的失真就会越小,视频画面就会越清晰。但同时,码率越高,存储时占用的内存空间就会越大,传输时使用的流量就会越多。

那么同一个原始视频被压缩之后,真的是码率越高,清晰度就越高吗?其实准确来说的话,不是。因为视频的压缩是一个非常复杂的过程,事实上,视频压缩之后的清晰度还跟压缩时选用的压缩算法,以及压缩时使用的压缩速度有关。压缩算法越先进,压缩率就会越高,码率自然就会越小。压缩速度越慢,压缩的时候压缩算法就会越精细,最后压缩率也会有提高,相同的清晰度码率也会更小。所以,并不是码率越高,清晰度就会越高。


你是否需要了解?

视觉识别技术的基本概念和目的
答:视觉识别技术的基本概念是通过计算机系统对图像或视频进行自动分析和识别,从中提取出有用的信息并对目标进行分类、定位或跟踪等处理的技术。其目的则是提高数据处理的自动化和智能化水平,以辅助或替代人工视觉判读与决策,从而优化各种应用场景中的工作效率与准确性。视觉识别技术依托于计算机视觉领域的发展,...

一个完整短视频的基本构成有哪些
答:一个完整短视频的基本构成有创意策划、剧本创作、选角和拍摄、后期制作、推广与发行。一、创意策划 在开始拍摄之前,创意策划是整个视频的灵魂。包括了视频的主题、风格、情节、人物设定等元素。一个好的创意策划能够吸引观众的眼球,引起观众的兴趣,并使视频具有深度和独特性。为了制定创意策划,制作团队...

简述电视图像的分解与复合的基本原理
答:简述:传统CRT电视机,采用模拟高频信号载波发送,当电视机高频头接收到信号时,将高频波形分解出来,得到我们的视频信号,再由电视机分解为行场扫描信号,反应出图像。其实很类似收音机,学电子的都是从收音机原理基础开始的,只不过,电视机用的高频载波,附加了音频和视频型号。现代的数字电视和平板原理就...

图像处理基础入门
答:对于有一定C++基础的人,这是一个理想起点。Python以其简洁的封装和丰富的机器学习接口,让你学习后能顺利过渡到机器学习。Matlab则适合非专业人员,因其易用性。选择语言时,记住,目标是满足需求,而非语言本身。基本算法概览理解图像基本概念,亲手实践读写BMP文件,这有助于形成直观认识。灰度化、二值...

ai制图入门教程ai制图入门教程视频
答:AI制图入门教程可以按照以下步骤进行:学习基础知识:了解AI制图的基本概念、原理和常用工具,如Photoshop、Illustrator等。掌握基本操作:学习如何使用各种工具,如画笔、形状工具、色彩等,并掌握基本的图像编辑技巧,如调整亮度、对比度、裁剪等。学习设计原则:了解颜色理论、排版设计、视觉层次等基本设计原则,...

网络视频监控系统的原理是什么?
答:1、基本结构 我们可以把视频服务器可以看作是不带硬盘的数字视频机,由一个或多个模拟视频输入口、图像数字处理器、压缩芯片和具有网络功能 的Web服务器、RJ-45网络接入口组成。2、基本原理 在Web服务器嵌入了实时操作系统,摄像机的视频信号经过模拟/数字转换,由高效压缩芯片压缩,通过内部总线传送到Web...

一般把多媒体素材分为哪几种基本类型
答:常用的有文本、图形、图像、动画、视频、音频。1、文本 多媒体中概念、定义、原理的阐述、问题的表述、标题、菜单、按钮、导航等都离不开文本信息。它是准确有效地传播教学信息的重要媒体元素。常用软件:Word,记事本等。2、图形 计算机中的图形是数字化的,是矢量图,矢量图形是通过一组指令集来描述的...

每一帧什么意思
答:每一帧是指影像、视频或动画中单个的静态画面。它是动态图像中的一帧,具有连贯性,并通过时间流动和快速的刷新频率来呈现连续的画面。每一帧包含了图像的所有信息,如色彩、亮度和细节等。它是构成视频的基本单位,对于视频的质量和流畅度至关重要。详细解释:1. 帧的基本概念:在影视制作和数字媒体...

动画的基本原理和实质是什么?
答:1、动画是将静止的画面变为动态的艺术。实现由静止到动态,主要是靠人眼的视觉残留效应.利用人的这种视觉生理特性可制作出具有高度想象力和表现力的动画影片。2、动画与动画设计(即原画)是不同的概念,原画设计是动画影片的基础工作.原画设计的每一镜头的角色、动作、表情,相当於影片中的演员.所不同...