多语种拼音到汉字转换和翻译.ppt
《多语种拼音到汉字转换和翻译.ppt》由会员分享,可在线阅读,更多相关《多语种拼音到汉字转换和翻译.ppt(43页珍藏版)》请在三一文库上搜索。
1、多语种的拼音到汉字的 转换和翻译,赵 海 上海交通大学 2013.05.31 长沙,目录,问题概述 拼音输入法 机器翻译:服务于汉字文化圈语言 结语,汉字文化圈,汉字亦称中文字、中国字,是世界上仍被广泛使用的高度发展的表意文字。仍在使用和曾经使用汉字的国家和地区包括汉字的诞生地中国、周边深受其影响的越南、朝鲜半岛和日本,以及近代华人移民聚集的新加坡、马来西亚等东南亚国家。接受汉字及中国文化影响的地理区域在某些文献中被非正式地称为汉字文化圈,汉字文化圈的拼音化,汉字文化圈各语言均是世界意义上的大语种 汉语有超过13亿人使用,是使用人口最多的语言 日语有1.3亿的使用者 朝鲜语/韩语有超过7,0
2、00万的使用人口 越南语则拥有世界范围内约8,000万的使用者,使用人数,应用驱动的音字转化任务,中文的拼音输入法 从汉语拼音到汉字句子 机器翻译 从假名、谚文或者越南语国语字到汉字串 从语义等价的角度,观察不同语言的读音差异和演化轨迹,目录,问题概述 拼音输入法 机器翻译:服务于汉字文化圈语言 结语,基于拼音的中文输入法,主流的输入法大部分是基于拼音的 不考虑声调,汉语拼音的音节数少于500个 汉字,则有3000-20000个,根据应用场合不同而不同 无论哪种情形,基于拼音输入面临的主要问题是:针对输入拼音音节,快速选定汉字。,通用策略,输入一个拼音音节,会有几十个汉字对应 输入双音节词对应
3、的拼音,则会快速降低到只有几个合法的汉字词对应 所以 输入尽可能长的音节串!,拼音输入法作为汉字串解码任务,输入:汉语拼音串 输出:一一对应的(合乎汉语语法语义的)汉字串 串标注任务 最大熵模型解码 统计机器翻译解码,作为机器翻译的汉字串解码 PACLIC 2012,流程: 没有对齐过程 仅适用标准的MERT调试以及MOSES解码 有效集成语言模型等丰富特征 精度和整句正确率均优于标准的最大熵模型,不仅仅是串解码任务,我们使用字的精度来评估汉字串解码任务 对于串解码任务这是标准度量,因而它不是问题 但是,我们服务于中文输入法,它的真正目标是最少的击键选择来完成输入,新型的汉字串解码评估度量,基
4、于击键次数 解码不可能100%正确,如果1-best输出不是完全正确的,我们依赖于输入法给出的其他次优的候选 这就是核心问题! 假定所有的输入都是基于数字键的选择完成,我们得到一个击键次数度量 ,简单的击键行为模型,假定全部选择都由数字选择完成,不考虑光标移动、删除等操作 输入完整拼音需要n次击键,需要m次数字选择完成汉字输入 目标的击键效率评估度量是 m/(n+m) 这个值越高,输入法越友好 优化候选长度、排序等以降低以上的度量,触摸屏上的中文输入法 更加复杂的击键行为 ,目录,问题概述 拼音输入法 机器翻译:服务于汉字文化圈语言 结语,汉字作用再审视,中国 1950s:汉语拼音曾经计划用来
5、替换汉字作为正式的文字 废除汉字 1980s:汉字的计算机处理面临挑战 但是,现在。 你懂的,汉字作用再审视,日本 明治维新后,中国衰落,汉字的使用的合法性和合理性引起争议 最终,汉字在日语中的使用得以保留,但是使用大幅度减少 存在2000个汉字的当用汉字表,汉字作用再审视,朝鲜 1949年开始彻底使用纯谚文印刷主要出版物,标志着国汉混用朝鲜语的时代在朝鲜正式结束 韩国 1948年,韩国制宪会议制定了韩字专用的法律。 1950年,韩国内务部通令容许夹写汉字,但是五年以后该通令被取消。 1970年,朴正熙政府强化了韩字专用政策的推行,鼓励出版界使用纯韩字。 1974年,文教省又公布“教科书韩汉并
6、书方针”,结束了“禁用汉字”政策。 1999年,金大中总统发布总统令,要求在必要情况下并书汉字以确保公文内容的准确传达。 2011年开始,韩国把汉字重新列入中小学的课程。 2004年:贱出将军事件,汉字作用再审视,字喃,不晚于13世纪创造出来用于记录越南语 19世纪由法国殖民者主导,开始普及法国传教士设计的越南语的罗马字书写体系。 1919年的科举废除,汉字的使用也被废除。 1945年越南民主共和国在越南北部成立后,北部的教育中的汉字教学已经不存在; 南越在1975年前的中等教育中仍保留“汉文科”。 今天,汉字在越南的地位类似于拉丁语在欧洲的情形。 没有汉字,你不知道你在说什么,基于汉字的密切
7、的词汇联系,日语 约有至少50%的日语词汇来自汉语。在近代,则是大量反应现代西方科技文化的术语首先通过日语中的汉字书写,继而重新传播回汉语 韩语/朝鲜语 汉语借词占韩文词汇量的60% 越南语 汉语借词可达60%,越南语、朝鲜语/韩语使用纯拼音文字,日语是拼音-汉字混合书写语言,因此中国人看到日文,多少能猜测出所表达的意思 但是越南语、朝鲜语/韩语。 统计机器翻译:没有对齐语料,韩文也可以这样写,韩汉书写的不同模式的例子 纯韩文 . 韩汉并书 (忠道) (執持) . 韩汉夹写(韩主汉从) 忠道 執持 . 韩汉夹写(汉主韩从) 只今 三年以後 忠道 執持 過失 盟誓.,韩国宪法(韩汉混合书写),前
8、文 悠久 史 傳統 大韓國民 31運動 建立 大韓民國時政府 法統 義 抗拒 419民主念 , 祖國 民主改革 平和的 統一 使命 正義人道 同胞愛 民族 團結 , 社會的 弊習 義 , 自 調和 自由民主的 基本秩序 政治經濟社會文化 域 各人 機會 , 能力 最高度 , 自由 權利 責任 義務 , 國民生活 世界平和 人類共榮 子孫 安全 自由 幸福 1948年 7月 12日 制定 8次 改正 憲法 國會 議決 國民投票 改正. 第1章 總綱 第1條 大韓民國 民主共和國. 大韓民國 主權 國民 , 權力 國民 . 第2條 大韓民國 國民 法律 . 國家 法律 在外國民 義務 . 第3條
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语种 拼音 汉字 转换 翻译
链接地址:https://www.31doc.com/p-3112834.html