植基於语意概念及使用者认知观点的诗词资讯检索系统设计.ppt
《植基於语意概念及使用者认知观点的诗词资讯检索系统设计.ppt》由会员分享,可在线阅读,更多相关《植基於语意概念及使用者认知观点的诗词资讯检索系统设计.ppt(24页珍藏版)》请在三一文库上搜索。
1、1,植基於語意概念及使用者認知觀點的詩詞資訊檢索系統設計:以全唐詩網站為例 http:/cls.hs.yzu.edu.tw 第三屆文學與資訊科技國際研討會 日本學藝大學主辦 2007年3月19-20日,台灣元智大學中國語文學系羅鳳珠 清華大學張智星、大葉大學許介彥,2,人與電腦,人: 能分辨字形的符碼 能解讀字詞含義的意碼,電腦: 只能分辨字形的符碼 電腦理性客觀,處理有規則而合邏輯的資料。,所以引用電腦做為偏重主觀抽象感知的詩詞文學研究輔助工具,比客觀知識的自然科學困難得多。,3,詩詞與電腦,詩詞: 感性主觀,講究: 只可意會而不可言傳 不著一字而盡得風流 言有盡而意無窮,電腦: 電腦理性客
2、觀 處理有規則而合邏輯的資料。,4,電腦的侷限,電腦處理有規則及合邏輯的資料,其效率高於人腦何止千萬倍,但是電腦只能分辨字形的符碼,無法解讀字詞含義的意碼,所以引用電腦做為偏重主觀抽象感知的詩詞文學研究輔助工具,比客觀知識的自然科學困難得多。 電腦縱然有強大的記憶與搜尋能力,因為只能以字形分辨,無法辨別語意內涵,不具有思考能力,不具有人的認知、感知能力,不具備人的知識體系,無法滿足使用者的需求。,5,韻文的語言特色,袁行霈教授在中國詩歌藝術研究原序論及:如果從語言學的角度給詩歌下一個定義,不妨說詩歌是語言的變形,他離開了口語和一般的文書語言,成為一種特異的語言形式。 無論從語意或語言形式的角度
3、,詩歌非但與一般口語、文書語言不同,與其他文體也存在著差異,再加上詩歌的形式受到詩歌格律之平仄聲調及字數、句法上的限制,語言更精鍊,語意更豐富,修辭更講究,語境更複雜,需要更多聯想,解讀更困難。,6,資訊檢索(Information Retrieval)的發展歷程,科學使得人際間的交流非常的快速,科學也提供了思想的記錄,使人類能夠運用這些思想,知識就不再限於個人,而是屬於人類的所有生命。( Vannevar Bush ) 記錄思想的文獻儲存在圖書館,圖書館的資料按照字母或數字排列的索引,只能一層一層往下尋找,不符合人類大腦以思維聯繫尋找資料的方式,因此,Vannevar Bush便構思著建立一
4、個以聯繫(association)代替索引(indexing)以選擇資料的機械化個人文件夾和圖書館(mechanized private file and library) ( Vannevar Bush ) 資訊無論以任何物質非物質載體、任何媒體形式呈現,從資訊產生者到資訊接收者之間,都會有認知上的落差,提取方法的不同,而產生給予、接受與取得的障礙。,7,詩詞文體語言的特性所衍生的 資訊檢索需求1/2,詩詞是特殊的語言形式,以不同的修辭技巧達到精緻凝練、語意無窮,情境高遠、言意與形神兼具的境界。 透過修辭的技巧,將作者主觀內化的情思意念,投注在客觀外顯的事物上,作為作者與讀者之間引發共鳴的溝
5、通媒介。詩詞所使用的詞彙,有一些是客觀知識的描述闡釋,有一些是主觀情意的引導感發。,8,詩詞文體語言的特性所衍生的 資訊檢索需求2/2,主觀情意的感發,往往因為讀者的學養、經驗、年齡、心理氣質、思想境界等各種背景差異而使感受各有不同,因此相同的詞彙,相同的作品,感受上存在者個別的差異,即便是同一個人,經過不同時空,重讀相同的作品,感受也會不同,這是客觀認知與主觀感知的問題。 文學表達的情感通常是主觀而抽象的,即便是藉助客觀的物象作為作者與讀者之間溝通的媒介,仍然存在著感知層次的不同,因此,資訊檢索的技術,應用在文學上,其困難度比自然科學領域高得多,應用在特殊語言形式的詩詞,困難度又高於小說、戲
6、劇、散文等文體。,9,傳統文學網站資訊檢索功能及缺點1/2,傳統的文學網站檢索都只能比對字形,不能分辨詞形、詞義。文學講究修辭變化,講究文采意境,一詞多義,一義多詞的現象比比皆是。只能比對字形的檢索,檢索結果的完整性及正確都不足,不能滿足一般的使用需求,對於文學領域以研究及教學為目的的使用者而言,尤其不足。 以月為例: 一詞多義: 月常用的基本含義有四種,其一是月亮,其二是曆法單位,其三是季節代稱,其四是圓形如月亮的物品,這是一詞多義。 一詞多義會使檢索時出現字形、詞形相符但語意不符的資料,影響正確性 一義多詞 月若作月亮解時,同義詞有月亮玉兔銀蟾玉杯玉鉤玉盤玉輪玉蟾生魄冰輪兔降孤光明霽金波金
7、輪桂華桂魄素娥掩夜清光寒暉嬋娟瓊瑤蟾影,這是一義多詞。 一義多詞會遺漏很多語意相同但字形、詞形不同的資料,影響完整性。,10,傳統文學網站資訊檢索功能及缺點2/2,電腦無法分辨詞組的構詞單位,所以檢索時會產生因為無法正確判斷詞組而造成檢索結果錯誤的情形。以春風為例從全唐詩網站檢索,共得1,182筆資料:劉長卿使回赴蘇州道中作詩:春風何事遠相催,路盡天涯始卻回。 薛稷奉和聖製春日幸望春宮應制詩:九春風景足林泉,四面雲霞敞御筵。白居易喜夢得自馮翊歸洛兼呈令公:已將四海聲名去,又占三春風景來。白居易三月三日:暮春風景初三日,流世光陰半百年。曹唐小游仙詩,九十八首之八十:玉洞長春風景鮮,丈人私宴就芝田
8、。等4筆與春風無關的詩句,都會被檢索出來。,11,全唐詩的分類:以詩的主題分類,唐詩分類大辭典,收錄唐詩10,197首詩,分類以題材為標準。分為四十部,一千零八十三類: 天文部、四時節氣部、地理部、山部、河川部、京都部、州郡部、邊塞部、帝王部、皇室部、職官部、治政部、禮部、樂部、文藝部、軍事部、人事部、儒家部、釋佛部、道家道教部、居處部、寺觀部、祠廟部、產業部、器用部、服飾部、飲食部、玉帛部、技藝部、方術部、花部、草部、果部、木部、鳥部、獸部、鱗介部、虫豸部、祥異部、雜部。 根據唐詩分類大辭典凡例所言分類以題材為標準,檢視全書,有幾個問題值得商榷: 1.分類與詩作內容不合 、2.標舉小類的體例
9、不一、3.專名與通稱、俗名混合,12,詩詞語言語意標記對全文檢索的重要性1/9,詞彙的語意標記,可以幫助讀者解讀詞彙、體會詩作,與詩人的情思意念共鳴;語意標記資料庫的建立,也可以使電腦從只能分辨字形提升到可以理解字詞義,進而達到提升全文檢索質量的目標。 詩是特殊的語言,特別講究聲律及形式之美,受到字數及平仄押韻等格律的限制,詩的用語與語體文不同。這種特殊文體的特殊用語,若以傳統比對字形的方式開發檢索系統,檢索的質量勢必無法滿足使用者的需求。 詩句的語意不一定在單一詞彙顯示,或說從單一詞彙解讀,不見得能夠完整理解整首詩的含義。整首詩的含義,有時需要從共現的詞彙、從作者及寫作的背景綜合判斷,非常複
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 植基於 语意 概念 使用者 认知 观点 诗词 资讯 检索系统 设计
链接地址:https://www.31doc.com/p-2720332.html