TOP
0
0
三民出版.新書搶先報|最速、最優惠的新鮮貨報給你知!
大規模考試英漢互譯自動評分系統的研發與應用(簡體書)
滿額折

大規模考試英漢互譯自動評分系統的研發與應用(簡體書)

商品資訊

人民幣定價:20 元
定價
:NT$ 120 元
絕版無法訂購
商品簡介
名人/編輯推薦
目次
書摘/試閱
相關商品

商品簡介

《外語考試自動評分研究系列叢書:大規模考試英漢互譯自動評分系統的研發與應用》分為理論研究篇和技術實現篇兩部分。理論研究篇側重語言學分析、語言測試的有關理論,從翻譯質量的人工評價方法和已有的機器澤文自動評測有關算法出發,探索適合評價學習者譯文質量的理論模型。技術實現篇側重運用自然語言處理技術構建評分系統,介紹系統實現所涉及的具體技術問題,系統的構建原則和方法,并給出部分調試過的源代碼程序供讀者參考。

名人/編輯推薦

《外語考試自動評分研究系列叢書:大規模考試英漢互譯自動評分系統的研發與應用》在內容介紹上同時考慮了跨學科研究的因素,力求明確介紹相關概念,條理清楚地介紹實現步驟,程序代碼添加必要的注釋等等,讓讀者根據內容介紹就能夠逐步學習建立一個翻譯自動評分系統的框架,實用性強。

目次

第一部分 理論研究篇
1.1 語言質量自動評價及研究的意義
1.2 相關研究回顧
1.3 本書的內容及安排
2.1 翻譯質量的人工評價標準
2.2 翻譯質量的自動評價方法
2.2.1 BLEU算法
2.2.2 NIST算法
2.2.3 GTM算法
2.3 小結
3.1 用基于n-gram算法評價學生譯文
3.1.1 語料說明
3.1.2 自動評測及結果
3.1.3 算法評測的影響因素
3.2 用改進的n-gram算法評價學生譯文
3.2.1 基于偽測試句的自動評測算法
3.2.2 擴展n-gram評測實驗結果
3.2.3 參考譯文數目對評測性能的影響
3.2.4 對機器翻譯評測與學生譯文評測的討論
3.3 基于線性回歸模型的學生譯文評價
3.3.1 線性回歸的數學描述
3.3.2 選拔性評分和診斷性評分
3.3.3 漢譯英評分理論模型
3.3.4 英譯漢評分理論模型
3.4 小結
第二部分 技術實現篇
第四章 相關語言處理技術
4.1 文本特征及提取方法
4.1.1 形式特征的提取
4.1.2 n-gram共現參數的提取
4.1.3 語義點參數提取
4.1.4 雙語對齊參數的提取
4.1.5 潛在語義分析LSA
4.2 逐步線性回歸模型的實現和參數優化
4.3 線性相關度的計算
4.4 字符編碼和漢語語言信息處理
第五章 面向大規模考試的英漢翻譯自動評分系統
5.1 系統實現的原則和結構
5.2 系統實現框架
5.3 雷同譯文檢測
第六章 翻譯自動評分系統的應用
6.1 翻譯自動評分數據來源
6.1.1 語料收集
6.1.2 人工評分的實施和評分信度
6.1.3 參考譯文集的形成
6.2 自動評分系統性能
6.2.1 系統性能評估方法
6.2.2 漢譯英自動評分性能
6.2.3 英譯漢自動評分性能
6.2.4 雷同譯文檢查性能
第七章 翻譯自動評價的總結和展望
7.1 研究結論總結
7.2 翻譯自動評價應用展望
參考文獻
英文參考文獻
中文參考文獻
附錄
附錄1 機器翻譯自動評測程序的格式要求(XNL)和轉換程序
附錄2 英文停用詞表
附錄3 漢語停用詞表
附錄4 面向考試的自動評分系統的用戶文檔
附錄5 診斷性翻譯評分系統的界面

書摘/試閱



第四章 相關語言處理技術
從語言學、翻譯學和測試的角度構建翻譯自動評分模型是理論研究的內容,最終如何在計算機上實現自動評分系統則是技術實現要探討的核心:主要涉及語言信息的自動處理,包括文本特征的自動提取、語義分析方法、字符編碼以及數學模型的實現、系統用戶界面和操作響應等的代碼編寫問題。相比理論研究,技術實現篇需要自然語言處理相關技術的支持,更關注算法實現及效率等計算機技術。本章將對自動評分模型涉及到的有關自然語言處理相關技術予以介紹,并給出部分實現內容的程序代碼。本章編程所用的語言為Perl。Perl為“實用報表提取語言” ( Practical Extraction and Report Language)的縮寫。Perl中有強大的正則表達式,非常適合于語言信息處理。Perl為開放源代碼的免費軟件,在Unix和Windows環境下均可運行。本章所有的程序代碼均在Perl v5.8.7版下通過調試。
4.1 文本特征及提取方法
英漢互譯評分理論研究中從形式和語義角度分析了與譯文質量相關的文本特征,表3-9和3-17分別為漢譯英和英譯漢模型中嘗試運用的文本特征。形式特征分為字詞層面、句子層面和篇章層面三大類,又各自包含若干小類;語義特征包括n-gram,語義點、基于潛在語義分析的相似度、詞或多詞單位對齊等特征。選拔性評分模型用于大規模翻譯考試譯文的自動評分,要求對于不同質量的譯文能夠較好地區分。為提高評分速度,選拔性評分模型主要包含語義參數。研究表明該簡化模型仍然和人工評分有較高的相關性。
下面分別闡述這些特征的自動提取方法。
4.1.1 形式特征的提取
1形式參數提取前的文本預處理
預處理工作主要包括整理收集的實際語料中不規范的文本撰寫內容和格式,為信息提取做必須的標注和加工等。
對于英文譯文,首先去除非英文字符,如漢語標點符號;將全角的字符轉換為半角;將詞之間的多個空格替換為一個空格;字母全部統一為小寫或大寫形式等。另外,原始的文本中沒有詞性信息,為獲得詞性分布的文本特征,就需要對所有譯文(參考譯文、訓練譯文和測試譯文)做詞性標注處理。由于時間有限,我們使用了英文詞性自動標注工具Gotagger進行詞性標注。英文詞性標注軟件較多,常用的還有tagtree、standford parser等。但不同的軟件詞性標注集有差異,詞性劃分方法不同。
漢語譯文的預處理工作更多一些。漢語文本沒有明顯的詞的界限,對于漢語的信息處理可基于兩種語言單位——字或詞進行。很多研究表明,基于詞的漢語信息提取性能優于基于字的信息提取。因此,我們對漢語譯文的處理大多以詞為單位。預處理時將所有漢語譯文都預先進行了切詞,并進行了詞性標注。標注的詞性為北大計算語言所1997年版《現代漢語語法信息詞典》中詞性集。
2詞匯級形式參數的提取
詞匯級和譯文質量相關的特征十分豐富,包括詞匯多樣性特征、詞頻廣度、詞匯難度、詞性分布等。
詞匯多樣陛從類符數和類符形符比兩個角度考察。類符數指譯文中不同詞的數目,形符數即單詞數(不包括標點符號)。模型實際使用的參數是測試譯文和參考譯文的平均類符數之差和類符形符比之差,以便更合理地判斷譯文的詞匯多樣性特征。
形符類符的提取方法:預處理后的英文和漢語,詞與詞之間(標點與詞之間)均為空格隔開,所以根據空格區分各個詞。再根據詞性分隔符得到詞和詞性兩部分,前一部分為形符或者標點符號。對于英文形符提取可用正則表達式為/\w(\w-\')*/實現,意義表示:由字母開頭,后面接一個或多個字母數字及下劃線和’組成的。漢語由于所有標點的詞性標記為/w,因此凡是詞性為/w的均不視為形符。類符數就是將形符中相同的詞合并后的數目。類符形符比=類符數的平方/形符數。

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

定價:100 120
絕版無法訂購