第2章文本ppt课件.ppt

上传人：本田雅阁

文档编号：2548975

上传时间：2019-04-06

格式：PPT

页数：73

大小：821.51KB

《第2章文本ppt课件.ppt》由会员分享，可在线阅读，更多相关《第2章文本ppt课件.ppt（73页珍藏版）》请在三一文库上搜索。

1、第2章文本,2019/4/6,南京大学多媒体研究所,2,内容,一、编码二、文本输入三、文本处理四、文本显示,2019/4/6,南京大学多媒体研究所,3,什么是文本(text)？,文本是计算机表示文字信息的一种媒体文本是一个字符流，它由一连串的字符组成文本处理过程：,2019/4/6,南京大学多媒体研究所,4,电子文本的两种形式,扫描文本是纸介质文本经过扫描输入后得到的，实质上是一种特殊的位图图像(bitmap)。合成文本也称为编码文本，它是基于特定字符集的、具有上下文相关性的一个字符流，每个字符均使用编码表示。这是计算机中常用的文本形式,2019/4/6,南京大学多媒体研究所

2、,5,文本的分类,按是否格式化分：简单文本(plain text) / 丰富格式文本(rich text) 按结构分：线性文本 / 超文本(hypertext),一、编码,2019/4/6,南京大学多媒体研究所,7,几个编码标准,ASCII ISO8859-1 GB2312 GB12345 GBK CJK BIG5,UCS Unicode UTF-8 UTF-16 UTF-32 GB18030,2019/4/6,南京大学多媒体研究所,8,ASCII,计算机中使用得最广泛的西文编码字符集:美国标准信息交换码(American Standard Code for Information Int

3、erchange, 简称ASCII码)，后来被批准为ISO-646-US标准 ASCII字符集中： 96个可打印字符32个控制字符采用7位二进制进行编码,2019/4/6,南京大学多媒体研究所,9,ASCII码/ ISO-646-US标准,2019/4/6,南京大学多媒体研究所,10,ISO-646的本地化,ISO-646-DK （丹麦）,ISO-646-DE （德国）,2019/4/6,南京大学多媒体研究所,11,ISO 646的不足,7位代码空间太小，不同国家和地区使用不同的标准，难以兼容，东亚地区使用的大字符集无法编码，,2019/4/6,南京大学多媒体研究所,12,扩充ASCII

4、字符集,单8位代码空间,2019/4/6,南京大学多媒体研究所,13,ISO 8859 扩充ASCII字符集(举例),ISO-8859-2 (East European),ISO-8859-1 (West European),2019/4/6,南京大学多媒体研究所,14,MS-Windows 的code page,代码页实际上就是各个不同的字符集。微软公司在开发DOS和Windows的各文种产品时，将各文种的字符集加以整理，并对每个具体的代码页都赋以一个代号，称作“代码页ID”。比如：CP1252代码页是ISO 8859-1的扩充，是ISO 8859-1的超集,2019/4/6,南京大学多媒体

5、研究所,15,汉字的编码,汉字（Chinese character, Han character, Hanzi）是记录汉语（国语，华语）的文字，属于表意文字，它用符号直接表达词或词素。中文文本的基本组成单位是汉字字符。汉字的特点数量大（我国汉字自古至今累计已超过7万字,国家语委颁布的“现代汉语通用字表”包含7000汉字）多个国家和地区使用：香港，台湾地区，以及日本、韩国、朝鲜，新加坡，马来西亚等。字形复杂，同音字多，异体字多。,2019/4/6,南京大学多媒体研究所,16,汉字正形,同一个宋体字有不同笔画或不同结构的，选择一个便于辨认，便于书写的形体；同一个字宋体和手写楷书笔画结构不

6、同的，宋体尽可能接近手写楷书；不完全根据文字学的传统。,2019/4/6,南京大学多媒体研究所,17,GB2312-1980,1981年颁布，信息交换用汉字编码字符集基本集。 GB2312字符集由三个部分构成字母、数字和各种符号，包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个（统称为GB2312图形符号）；一级常用汉字，共3755个，按汉语拼音排列；二级常用字，共3008个，因不太常用，所以按偏旁部首排列。,2019/4/6,南京大学多媒体研究所,18,GB2312-80的字符集及字符布局,每一个汉字或符号有一个确定的位置，该位置的区号和位号就是这个汉字的“区位码

7、”。,大,区位码是2083，即 0010100，1010011 16进制表示为 14 53h,2019/4/6,南京大学多媒体研究所,19,GB2312-80汉字交换码,0x20,0x20,GB2312-80字符集在ISO 2022双8位代码空间中的位置,例如, “大”字的国标交换码是: 0110100 1110011即16进制的： 34 73h,2019/4/6,南京大学多媒体研究所,20,GB2312-80汉字内码,“大”字的机内码为 10110100,11110011 （B4F3）,为了在机内区别于西文编码，GB2312 汉字字符集在双8位代码空间中映射到右下角位置，即在国标码的基础上，

8、每个字节的最高位置1,2019/4/6,南京大学多媒体研究所,21,GB12345-1990,GB2312-80是面向简体汉字的编码。为了使用繁体汉字，特制订了繁体汉字字符集的国家标准（信息交换用汉字编码字符集-辅助集GB12345-1990）。兼容GB2312，含 717 个图形符号, 6866 个汉字简体、繁体相同的汉字，编码保持不变，对应1个繁体字的，替换为对应的繁体字,如繁体字“燈”，只对应一个简体字“灯”。对应多个繁体字的，替换为最常用的那个繁体字，其它对应繁体字放在扩充区。如简体字“发”，对应“發”、“髮”2个繁体字。在“发展”一义时，用“發展”，在“头发”一义时用“

9、頭髮”。再如“复”字，在“复杂”一义时用“複雜”，在“反复”一义时用“反復”。这样的简体字有300多个。,2019/4/6,南京大学多媒体研究所,22,GB2312和GB12345的不足,GB2312汉字字数太少，无法满足一些特殊应用的需要：人名、地名；古籍整理、古典文献研究。简体和繁体分属于2个字符集，在简、繁体汉字同时使用时，很不方便。,2019/4/6,南京大学多媒体研究所,23,汉字内码扩展规范GBK,GBK全称汉字内码扩展规范（1995年）向下与 GB 2312 编码兼容向上准备向ISO 10646.1 国际标准过渡，是一个承上启下的标准。 GBK 规范收录了 ISO 10

10、646.1 中的全部 CJK 汉字和符号，并有所补充 GB 2312中的全部汉字(GBK/2) 其他CJK汉字和增补的汉字(GBK/3和GBK/4),共21003个汉字另外还有883个图形符号（GBK/1, GBK/5）,2019/4/6,南京大学多媒体研究所,24,CJK(中日韩)统一汉字字符集,所谓CJK统一汉字编码, 是指不论国家和地区，不论汉字的字义有无区别，只要字形相同，该汉字就只有一个代码。 CJK字符集以现有各国和地区的标准字符集作为源字符集，将其中的汉字按统一的认同规则进行认同甄别后，生成涵盖各源字集并按东亚著名的四大字典（康熙字典、大汉和字典、汉语大字典及大字源）的页码字位

11、综合排序(按部首笔画数目)排序，构成共27,484个汉字组成的大字符集。经过中、日、韩、越、新的力争，国际标准化组织在Unicode编码体系中给汉字划出了9万多个码位，各国将对CJK汉字字符集作进一步的扩充。,2019/4/6,南京大学多媒体研究所,25,GBK汉字编码的特点,汉字数目多，共21003个；简体和繁体汉字在同一个字符集中；包含了中、日、韩认同的全部CJK汉字；双字节编码，第1字节的最高位必为“1”，第2字节的最高位不一定是“1”；与GB2312-80保持向下兼容；与ISO10646中的汉字字汇兼容，代码不兼容,2019/4/6,南京大学多媒体研究所,26,GBK的代码

12、空间以及字符分布,图形符号,CJK汉字,增补汉字,总计 23940 个码位，共收入 21003 个汉字和883图形符号，未使用的区域作为用户自定义区,2019/4/6,南京大学多媒体研究所,27,BIG5汉字编码,BIG 5汉字编码是我国台湾地区计算机系统中使用的汉字编码字符集。包含 420 个图形符号和 13070 个汉字（不使用简化汉字）。编码范围是 0x8140-0xFE7E、0x81A1-0xFEFE， 0xA440-0xF97E、0xA4A1-0xF9FE 是汉字区。,2019/4/6,南京大学多媒体研究所,28,BIG5汉字编码空间,2019/4/6,南京大学多媒体研究所,29

13、,GB2312,GBK,BIG5,GB2312, GBK， BIG5 代码空间的比较,2019/4/6,南京大学多媒体研究所,30,通用编码字符集UCS,需求：各个国家和民族都有自己的语言和文字，现代人类使用的语言有6800种。希望所有这些语言文字都能方便地进行计算机通信，特别是允许能同时使用任意多种语言文字例如：中文简体：南京大学计算机系中文繁体：南京大学計算機系日文：今日天気俄文：俄文：,2019/4/6,南京大学多媒体研究所,31,ISO/IEC 10646 (UCS),ISO/IEC 10646 即“通用编码字符集”（Universal Coded Character

14、Set，简称UCS）, 相应的工业标准称为“Unicode”，两者完全兼容。设计目标：实现所有字符在同一字符集中等长编码、同等使用的真正多文种信息处理。 1993、2000分别发布标准的第部分(ISO/IEC 10646.1:1993和10646.1:2000)，对应的中国国家标准是GB 13000.1。第2部分(ISO/IEC 10646.2)也已发布。,2019/4/6,南京大学多媒体研究所,32,UCS的体系结构,在 UCS 中每一个字符用 4 个字节编码，对应着每个字符在编码空间的组号、平面号、行号和字位号。,2019/4/6,南京大学多媒体研究所,33,UCS的代码空间,

15、基本多文种平面(BMP),辅助平面,专用平面,2019/4/6,南京大学多媒体研究所,34,UCS的 00 组,2019/4/6,南京大学多媒体研究所,35,UCS的 BMP 平面,2019/4/6,南京大学多媒体研究所,36,BMP 平面的拼音文字区,2019/4/6,南京大学多媒体研究所,37,UCS的两种编码形式,(1)肆八位正则形式，记作 UCS-4 比如: 汉字“一”的正则形式为 00 00 4E 00 （缺点：浪费存储空间，也不便于在网络上传输。） (2)双八位也称为BMP 形式，记作 UCS-2 仅适用于基本多文种平面。如，“一”的双八位形式为4E00；控制字符

16、ESC为001B。 (省略组号和平面号(均为 00H) ，形成了一个双字节编码的字符集，它是UCS的子集),2019/4/6,南京大学多媒体研究所,38,UCS的变形显现形式之一 UTF-8,为了与原8-bit系统保持向下兼容，UCS还可以采用8位编码，即采用单字节表示ASCII字符，这种可变长编码称为“UTF-8”（UCS Transformation Form 8） UTF8（可变长形式编码)，单字节: ASCII字符（from 20 to 7E）双字节: 2万多汉字四字节:扩充汉字可以保持与传统ASCII文本的兼容性。,2019/4/6,南京大学多媒体研究所,39,UCS的变形显

17、现形式之二 UTF-16,为了扩大字符集的容量，在UCS文本中还允许插入一些4字节的UCS-4字符. 在BMP平面中保留了2个有1024个位置的块（D800 到 DFFF），这些位置不能用来表示任何符号，从每一块中各选一个数字所组成的这些数字对，可用来表示多达100万个UCS-4字符。这种编码方式面向双字节，允许4字节编码，称为“UTF-16”（ UCS Transformation Form 16 ），这是一种处理效率与存储容量折中的编码方案。,2019/4/6,南京大学多媒体研究所,40,Unicode的应用,Unicode给全世界各个国家和地区使用的每个字符提供了一个唯一的编码 Un

18、icode标准已经被IBM, Microsoft, Apple, HP, Oracle, SAP, Sun, Sybase和其它许多公司所采用，最新的许多软件标准都需要Unicode，例如XML, Java, CORBA 3.0, WML等，许多操作系统、所有最新的浏览器和许多其他产品都支持Unicode。 Unicode标准的出现和采用，是近些年来全球软件技术最重要的发展趋势之一。,2019/4/6,南京大学多媒体研究所,41,UCS/Unicode与汉字编码 GB18030-2000,与现有的绝大多数汉字操作系统、中文平台在计算机内码一级兼容，即与国家标准GB 2312信息处理交换码所对应

19、的事实上的内码标准兼容在字汇上支持UCS/Unicode (GB13000.1-1993)的全部中、日、韩（CJK）统一汉字字符和全部CJK统一汉字扩充A的字符。同时收录了藏文、蒙文、维吾尔文等主要的少数民族文字，为推进少数民族的信息化奠定了坚实的基础。该标准由信息产业部和国家质量技术监督局在2000年联合发布的，并在2001年开始执行。,2019/4/6,南京大学多媒体研究所,42,GB18030-2000的编码,采用单字节、双字节和四字节三种方式对字符编码。,2019/4/6,南京大学多媒体研究所,43,GB18030-2000的应用,2001年，微软公司发行的操作系统简体中文版Wi

20、ndows XP遵守了新颁布的国家标准GB18030-2000，微软的办公软件简体中文版（Office XP）则捆绑了方正集团的大字库，收字达到64000个。然而，仍有许多中文信息处理软件还没有支持GB18030-2000标准，甚至没有支持GBK规范，对于人名、地名中的昇、昈、昉、镕、珺、喆等看似生僻而实际上并不生僻的字无法处理。,2019/4/6,南京大学多媒体研究所,44,小结1,GBK,2019/4/6,南京大学多媒体研究所,45,小结2,编码字符集(coded character set) 按某种规则编码的字符的有序集合。每个编码字符集有三个最重要的属性：字汇(repertoir

21、e)：编码字符集中有哪些字符编码规则：如何确定每个字符的代码码长: 字符代码的长度。它决定了代码空间的大小定长码：7位，8位，双字节，4字节可变长码：单双4字节码,二、文本的输入,2019/4/6,南京大学多媒体研究所,47,输入方法分类,自动识别输入,印刷体识别,手写体识别,文本信息的输入,人工输入,键盘输入,联机手写输入,语音输入,2019/4/6,南京大学多媒体研究所,48,1 汉字键盘输入,(1)数字编码，用一串数字来表示汉字的编码方法，例如电报码、区位码等 (2)字音编码，基于汉语拼音，简单易学，适合非专业人员。缺点是重码多，需增加选择操作。 (3)字形编码，将汉字的字形分解

22、归类而给出的编码方法，重码少、输入速度快，编码规则不易掌握，五笔字形法和表形码就是这类编码。 (4)形音编码，吸取了字音编码和字形编码的优点。发展趋势：基于统计和学习功能的以词语（短语）或句子作为输入单位的输入方法。,2019/4/6,南京大学多媒体研究所,49,2 联机手写汉字识别(笔输入),手写汉字联机输入优点：自然，流畅小型化，适合移动计算手写汉字输入设备：电阻式手写笔电磁感应手写笔电容式触控板,2019/4/6,南京大学多媒体研究所,50,手写汉字识别的技术性能（汉王笔）,速度：可全屏幕重叠书写，用户写多快文字上多快。识别速度在每秒12字以上。可识别字数：符合GBK和

23、国标GB18030要求，可识别简体字、繁体字、异体字、英文、数字、日文假名及各种符号近三万字。正识率：工整字95%；自由字90% 书写要求：手写自由度高，不需要学习适应就可以用工整、连笔、倒插笔、行草等多种不同写法输入同一个字。附加功能：联想方式的词组输入；后台自动校对处理，自动修改常见错别字。,2019/4/6,南京大学多媒体研究所,51,手写汉字的识别过程,字的大小，方向及笔画粗细进行统一,平滑、去噪声等,600万字的大样本库,对抬笔、落笔、笔迹上各像素的空间位置以及笔段之间的时间关系等进行处理，提取笔画的数目、方向、顺序等特征,2019/4/6,南京大学多媒体研究所,52,3 汉语语

24、音输入,2019/4/6,南京大学多媒体研究所,53,语音识别的性能指标,正识率,对正识率要求的高低,要由应用的性质来决定。一般的听写系统的正识率应该在90%以上。识别速度,通常以每分钟能识别的字(词)数来表示。语音输入方式（连续、间断）。词汇量的大小, 能不能增添新词。说话人适应能力（特定人、限定人或任意人）。说话内容适应能力 (如医学、新闻、法律、科技、文学以及使用者的文体)。,2019/4/6,南京大学多媒体研究所,54,语音识别的处理过程,语音识别的单位可以是音素、半音节、音节等子词单位或者以词(word)作为单位,根据识别得到的语音，生成上下文通顺的语句,例如平均过零率,

25、能量和自相关函数等,将报纸、杂志、小说、科技文献等进行加工处理，把每一句话切分为若干个字和词，并对它们进行拼音标注（称为注音）。语料经过加工后，再统计其中字、词的出现概率和搭配概率。,2019/4/6,南京大学多媒体研究所,55,4 印刷体汉字识别(汉字OCR),OCR (Optical Character Recognition) 用途：将传统的文字信息自动输入并转换为数字文本形式。,2019/4/6,南京大学多媒体研究所,56,汉字OCR的技术性能,速度：每秒xx字以上。可识别字数：符合GBK和国标GB18030要求，可识别简体字、繁体字、异体字、英文、数字、日文假名及各种符号近三万字

26、。识别率已达到98%，专业使用应达到0.0x %数量级其他功能简、繁体字混合识别中文、西文混合识别文字、表格混合识别智能校对功能,2019/4/6,南京大学多媒体研究所,57,汉字OCR的处理过程,包括倾斜校正和滤除干扰噪声等,区分出扫描图象中的文、图、表3种区域，在文本区中分割出文本段落及其排版顺序,将大幅的文字区域先切割为行，再从行中分离出单个字符,从单个字符图象上提取统计特征或结构特征,从汉字特征库中找到与待识别字符相似度最高的字符类,2019/4/6,南京大学多媒体研究所,58,5 脱机手写汉字识别,困难：不同书写风格的差异使得手写汉字的变形很大，例如：基本笔画发生变化，

27、横不平，竖不直，直笔变弯，折笔的拐角变成圆弧等；笔画模糊，该连的不连，不该连的却相连；笔画与笔画之间、部件与部件之间的位置发生变化；使用不同的书写笔可能造成笔画的粗细变化等。现状：先突破工整的楷书手写体识别,三、文本处理,2019/4/6,南京大学多媒体研究所,60,目的和内容,目的：用计算机对文本中包含的文字信息进行包括对字、词、短语、句、篇章的识别、转换、压缩、存储、检索、分析、理解和生成等有关的处理。内容：字数统计，字频统计，简/繁体相互转换，汉字/拼音相互转换，排序，错误检测；自动分词，词频统计，词性标注，词义辨识，大陆/台湾术语转换；文本压缩，文本加密，文本著作权保

28、护；关键词提取，文献分类，自动文摘生成；文本检索（关键词检索、全文检索），文本过滤；文语转换（语音合成），文种转换（机器翻译）；篇章理解，问答系统，自动写作等。,2019/4/6,南京大学多媒体研究所,61,文本处理,翻译(Translation),文摘生成Summarizing,释义(Paraphrase),摘要、关键字,相同含义但不同的表达,相同含义但不同的语种,2019/4/6,南京大学多媒体研究所,62,文本处理层次模型,2019/4/6,南京大学多媒体研究所,63,基于字的处理例：,字频统计,2019/4/6,南京大学多媒体研究所,64,基于词的处理-自动分词技术1,什么是分

29、词词界（Word Boundary）是词语之间的间隙，词界的标志是两个词之间的空格。汉语分词的过程也就是找出词界的过程。分词的意义机器翻译、信息检索分词的难点歧义识别交叉歧义：“表面的”；组合歧义：“这个门把手坏了”，“请把手拿开”；真歧义：“乒乓球拍卖完了” 新词识别地名，人名等，“王军虎”，“王军虎头虎脑的”,2019/4/6,南京大学多媒体研究所,65,基于词的处理-自动分词技术2,分词方法基于字符串匹配的分词方法（机械方法）基于理解的分词方法基于统计的分词方法人工智能法,2019/4/6,南京大学多媒体研究所,66,文档自动摘要技术,目标：利用计算机自动处理技术

30、，以比较小的篇幅表述整个文档的主要内容。几个自动摘要方法自动摘录理解文摘信息抽取基于结构的自动摘要,2019/4/6,南京大学多媒体研究所,67,自然语言理解/自然语言处理,主要应用领域：机器人语音对话大型数据库的自然语言查询计算机自动创作机器翻译和机助翻译话语自动翻译 ,四、文本显示,2019/4/6,南京大学多媒体研究所,69,1. 点阵字体,HZK12 HZK16 HZK24s HZK24k HZK24H,2019/4/6,南京大学多媒体研究所,70,显示步骤,获取该汉字机内码；由机内码推算出区位码；由区位码计算出记录号rec =(区码-1) *94(位码-1)；由记录号rec计算汉字在字库中的位置offset ；读取相关字模信息，画点写字,2019/4/6,南京大学多媒体研究所,71,点阵字库的优缺点及应用,优点简单、直接，可自定义字库缺点放大、加粗、斜体效果不好应用早期的个人电脑显示各种嵌入式设备的显示,2019/4/6,南京大学多媒体研究所,72,2. 矢量字体,Postscript TrueType Font,谢谢！,

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

8 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 文本 ppt 课件

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：第2章文本ppt课件.ppt
链接地址：https://www.31doc.com/p-2548975.html