《2信源与信息熵1new.ppt》由会员分享,可在线阅读,更多相关《2信源与信息熵1new.ppt(43页珍藏版)》请在三一文库上搜索。
1、第2章 信源与信息熵,信源是信息的来源。例如声音、文字、图像和数据等。 在信息论中,信源是产生消息(符号)、消息(符号)序列和连续消息的来源;信源输出是以符号形式出现的具体消息。,客观信源的基本特性是具有随机、不确定性。当出现的符号是随机的,才能载荷信息。如果符号是确定的且已知,那么该消息就没有包含信息。从数学上看,由于信息的不确定性,信源可以认为是产生随机变量、随机向量/矢量、随机序列和随机过程的源。 同时,符号的出现具有一定的规律性,所以可以使用随机变量或者随机向量/矢量等数学理论来研究信息,这就是香农信息论的基本点。 在经典的香农信息论中,讨论信源的概率统计特性和基于此的客观概率信息。,
2、2.1 信源的描述与分类,实际应用中分析信源所采用的方法往往要由信源的特性而定。 不同类型的信源采用不同的数学模型进行表示。,概率论的常用公式,随机变量的数学期望E: 离散型随机变量E(X)=Xi*P(Xi) 连续型随机变量 全概率公式:P(Y)=P(XiY)= P(Xi)*P(Y|Xi) 贝叶斯公式:P(Xi|Y)=P(Xi)*P(Y|Xi)/ P(Xi)*P(Y|Xi),信源的分类,信源的分类1,按照信源发出的消息在时间上和幅度上的分布情况可将信源分成离散信源和连续信源两大类。 离散信源是指发出时间和幅度上都是离散分布的离散消息的信源,如文字、数字、数据等符号都是离散消息。 连续信源是指发
3、出在时间或幅度上是连续分布的连续/模拟消息的信源,如语音、图像、图形等都是连续消息。,信源的分类2,根据信源发出的符号数目可以分为发出单个符号和发出多个符号的信源。 发出单个符号的信源是指信源每次只发出一个符号代表一个消息。(例如:一次红绿灯的消息、一次投掷硬币的结果。)信源用随机变量的概率分布空间(离散)或者概率分布密度空间(连续)来表示。 发出符号序列的信源是指信源每次发出一组含二个以上的符号序列代表一个消息。 (例如:两次红绿灯的消息、两次投掷硬币的结果、 一次红绿灯消息加上一次投掷硬币的结果。)信源用随机向量/矢量、随机序列或者随机过程来表示。,信源的分类3,对于发出多个符号的信源(多
4、符号、符号序列信源) :按照信源发出的多个符号彼此之间是否存在关联,还可分为无记忆信源和有记忆信源。 无记忆信源是指所发出的各个符号之间是相互独立的,发出的符号序列中的各个符号之间没有统计关联性,各个符号的出现概率是它自身的先验概率。 (例如,有放回、两次摸球。) 有记忆信源是指发出的各个符号之间不是相互独立的,各个符号出现的概率是有关联的。(例如,无放回、两次摸球。),2.1.1 无记忆信源,单符号、无记忆、离散信源 发出单个符号的、无记忆、离散信源:输出的都是单个符号的消息,出现的消息数是有限的且只可能是符号集中的一种,即符合完备性。若各符号出现的概率已知,则该信源就确定了;反之,信源已知
5、,则各符号出现的概率就确定了。 所以信源出现的符号及其概率分布就决定了信源。数学模型:离散随机变量的分布列/二元有序对。,例如:对二进制数字与数据信源、投掷硬币等:,单符号、无记忆、连续信源,发出单个符号的、无记忆、连续信源:有些输出的消息也是单个符号,但是符号取值或者消息的数量是无限的。(例如,测量一节电池的电压。) 数学模型:连续随机变量的取值范围和概率分布密度函数。,在有些情况下,可以将符号的连续取值进行量化或离散化,将符号取值转换成有限的或可数的离散值,从而就可以把连续信源转换成离散信源来处理。,多符号的序列信源,实际上,很多离散信源每次发出的消息总是由2个以上的符号序列构成。 描述一
6、个符号需要一个离散型或连续型随机变量,所以描述此类多符号信源发出的符号序列构成的消息应该使用时间或空间上离散的一系列随机变量,即随机向量/矢量。这样,信源的输出可用N维随机向量/矢量 X=(X1,X2,Xl,XN) 来描述,其中N可为有限正整数或可数的无限值。 最简单的多符号信源是二阶信源。,注意理解:各个随机变量的概率空间可能相同,也可能不同。 例如:两次红绿灯的消息、两次投掷硬币的结果、有放回的两次摸球的结果;一次红绿灯消息加上一次投掷硬币的结果、无放回的两次摸球的结果。 最常见的情况是各个符号对应的随机变量来自相同的概率分布空间。比如:数字通信系统处理的源源不断的多个消息或符号都是0、或
7、者1。,N次(N重)扩展信源,在随机向量/矢量中,若每个离散随机变量 Xi(i=1,2,l,N) 都是来自于同一个概率空间,则可用N次(N重)离散概率空间来描述这类信源。即若N维随机向量X=(X1,X2,Xl,XN)中 XiX=(X1,X2,Xq) (i=1,2,l,N) 则 X=(X1,X2,Xl,XN) XN 相应的信源称之为离散无记忆信源X的N次(N重)扩展信源。,信源的N重概率空间为: 这个空间共有qN个元素。 (对照:教材P9。),多符号、无记忆、离散信源,在某些简单的情况下,信源先后发出的一个个符号彼此是统计独立的,则N维随机向量的联合概率分布满足 即N维随机向量的联合概率分布可用
8、随机向量中单个随机变量的概率乘积来表示。 这种信源就是发出多个符号(符号序列)的、无记忆、离散信源。,无记忆、N重扩展信源,对于来自于同一个单符号信源、连续发出多个符号、符号之间无记忆、消息长度为N的、随机序列构成的N重扩展信源,数学模型为:发出单个符号的无记忆离散信源X概率空间的N重空间(N长的随机序列样本空间和概率分布空间):,2.1.2 有记忆信源,多符号、有记忆、离散信源 发出符号序列的有记忆离散信源:有的多符号信源输出的随机序列X中各随机变量之间存在依赖关系或者说此类信源先后发出的符号之间是互相依赖的。 例如在中文字母组成的中文消息中,前后文字的出现是有依赖的,不能认为是彼此不相关的
9、,放在N维随机向量的联合概率分布中,就必然要引入联合概率或条件概率分布来说明它们之间的关联。 这种信源即是发出多个符号的有记忆信源。例如,无放回、两次摸球。,表述有记忆信源的符号序列的概率分布要比表述无记忆信源困难得多,必须使用条件概率。 参见教材P9公式。 随机向量的联合概率分布的条件概率表达式的复杂性随着符号序列长度的增加而不断增加。,但是,在通常情况下,符号之间的记忆长度往往是有限的。即是说,实际上信源发出的一个消息(符号序列)中的某个符号往往只与前面某几个符号的依赖关系较强,而与更前面的符号依赖关系就弱。 为了便于数学上的处理,可以限制随机序列的记忆长度。此类发出多个符号并且符号之间记
10、忆长度有限的有记忆信源称为马尔可夫信源,输出的符号序列(状态)之间的转换概率关系可以使用马尔可夫链描述。,连续信源,连续信源:时间离散、幅度连续。 随机波形信源:时间连续、幅度连续。如可以发出语音、视频等模拟信号的信源。采用随机过程进行描述。,对于连续信源的分析可以采用两种方法: 1、将波形信源进行时间离散化(对幅值连续且时间连续的信号进行抽样处理,变成时间离散的连续信号的符号序列),从而把对随机过程的处理变成对随机序列的分析; 2、直接分析连续信源,但是限于发出单个消息的连续信源。实际上就是对一个连续型的随机变量的处理。,2.1.3 马尔可夫信源,多符号信源:信源发出的消息由多个符号构成。
11、有记忆信源:输出的随机序列X中各随机变量之间有依赖关系。表述有记忆信源要比表述无记忆信源困难得多。 通常,实际信源发出的符号往往只与前面几个符号的依赖关系较强,而与更前面的符号依赖关系就弱,即:记忆长度有限。,m阶,m阶马尔可夫信源:当记忆长度为m+1时,称这种有记忆信源为m阶马尔可夫信源,即:信源每次发出的符号的概率分布只与前m个符号有关,与更前面的符号无关。即: p(xi|xi-1xi-2xi-mx1)= p(xi|xi-1xi-2xi-m) 最简单、最常见的马尔可夫信源是一阶马尔可夫信源,即:每个符号的概率分布只与之前一个符号有关,而与更早出现的符号无关。 马尔可夫信源输出的符号序列(状
12、态)之间的转换关系即马尔可夫链。,平稳与遍历,信源可以分为平稳和非平稳两种类型。所谓的平稳:消息的概率统计特性不随时间发生变化。 遍历:信源发出的符号序列中包含概率分布空间中所有的取值可能。 最常见的平稳随机过程为遍历过程。 一般认为,通常情况下,通信系统中的信号都是平稳、可遍历的随机过程。,平稳与齐次,如果一个信源输出符号的概率分布与时间无关,则称该信源是平稳的。 齐次马尔可夫信源:如果上述条件概率与时间起点i无关,则信源输出的消息称为齐次马尔可夫链,此信源称为齐次马尔可夫信源。 可以理解,平稳马尔可夫信源肯定是齐次信源。 反之不成立。(P11),状态,教材P10:为了简化马尔可夫信源的数学
13、处理过程,引入状态的概念以替代随机向量。 状态si :为了将高阶(m阶)马尔可夫链简化为一阶马尔可夫链,可以将向量转换为状态变量。含义:一个长度为m的符号序列! 理解:状态的数量是Q=nm;随着信源源源不断地发出消息,符号序列不断变化,也即:状态不断变化。,符号条件概率与状态转移概率,符号条件概率:信源在某个时刻(状态si )下发出符号xj的条件概率p(xj|si)。 状态转移概率:信源在某个时刻(状态si )下发出一个符号xj后,实际上进入了下一个状态sj,显然,符号条件概率实际上唯一对应了一个相应的状态转移概率p(sj|si) 。此即:一步状态转移概率。 理解:齐次马尔可夫链的状态转移概率
14、与时间起点无关。,K步状态转移概率,K步、状态转移概率:信源从一个起始状态出发,在发出K个符号后形成一个最新的状态Sk ,该状态相对于起始状态的条件概率即是K步状态转移概率。 描述该信源所有的K步状态转移概率采用K步状态转移概率矩阵。 状态转移概率矩阵:P11。 理解: 无论是一步、K步状态转移概率矩阵:任何一行之和为1;对于列之和,不成立。,K-C方程,K-C方程: K步状态转移概率可以任意分解为L (LK)步和K-L步状态转移概率的组合。(P12,矩阵乘积) 可见:对于齐次马尔可夫链来说,一步转移概率完全决定了K步转移概率。,如前所述:齐次马尔可夫信源不一定是平稳的;而实际通信系统通常视为
15、平稳信源。因此,本节研究的主要对象是:经过有限的时间,能够最终转变成平稳的、可遍历马尔可夫信源的齐次信源。 如前所述,研究信源的中心内容是研究信源所含信息量的多少。在求平稳、可遍历马尔可夫信源的信源熵之前,首先必须求出状态(长度为m的符号序列)的(无条件)稳态概率分布!,求解稳态概率分布,如果一个齐次马尔可夫信源能够转变成平稳、可遍历的马尔可夫信源,则必然存在稳态概率分布。 求解稳态概率分布Wi的方法: 一个方程组(Q个方程、Q个未知数)一个方程。(P1214) 稳态概率的存在是必要、而非充分条件。除了稳态概率分布,可遍历、稳定的齐次马尔可夫信源还要满足以下两个特性(必要条件): 状态转移图不
16、可约(可遍历); 状态转移图满足非周期性(稳定)。,马尔可夫状态转移图(Shannon线图),描述方法:状态、箭头、概率。 (P12) (1)不可约性(从任何一种状态出发,都有可能到达任何一种状态,即:概率大于0),(2)非周期性(每一种状态回到自身的所有可能的步数不存在大于1的公因子) (P14),例1(P14),例:一个马氏链X0,1,其符号条件概率如表1。求其状态转移概率表,画出其状态转移图,并求出各状态的稳态分布概率。 表1 符号条件概率表 表2 状态转移概率表,分析:根据表1:由于符号条件概率固定,该信源为齐次、2阶马尔可夫信源,包含4个状态变量S00,01,10,11 。 解: 1
17、、根据符号条件概率,可以转换得到状态转移概率表如表2所示。(方法是:比如在状态01时,出现符号0,符号条件概率为1/3;将符号0加到先前状态/序列01后,变成010,则当前状态变为10,概率同样为1/3。依此类推。) 2、根据状态转移概率表2,可得状态转移图如下所示:,状态转移图,01,00,10,11,(1)1/2,(0)1/4,(1)2/3,(0)1/5,(0)1/3,(1)3/4,(0)1/2,(1)4/5,3、联立求解:状态的稳定分布概率: 由 得:,解之得: 4、利用符号条件概率或状态转移概率求出状态的稳态概率分布以后,进而可以很容易求得信源的单个符号概率分布(P16) ,也可以直接求出马尔可夫信源的信息量大小(P33) 。 由例子可以看出,状态转移概率与符号条件概率是不同的,相应的状态转移概率矩阵与符号条件概率矩阵也是不同的。(P15、 P16 ),至此,我们已经分析了各种常见信源的符号概率分布的数学模型,下面就可以正式开始学习信息量的度量计算了。,
链接地址:https://www.31doc.com/p-3463671.html