翻譯語料庫驅動的詞彙分析是否能揭示人工翻譯與機器翻譯在論述特徵上的差異? [Can a corpus-driven lexical analysis of human and machine translation unveil
discourse features that set them apart?]
人工翻譯與機器翻譯對論述生成與解讀的語境仍有許多差異值得深入探討,本研究旨在探討語料庫驅動的詞法分析是否能揭示人工翻譯與機器翻譯在論述上的差異。為此,研究人員編輯了一個平衡語料庫,其中包括原文與專業翻譯以及神經機器翻譯的平行文本。透過語料庫的關鍵詞分析,提取兩個翻譯語料庫中的詞彙差異,並透過平行對照人工翻譯與機器翻譯的原文平行語匯索引進行質性分析。研究結果顯示,關鍵詞分析不僅指出機器翻譯中已知的論述問題,例如詞彙不一致與代名詞推論,還能針對翻譯論述中值得進一步研究的語境層面提供更進一步的見解。
1.緒論
儘管機器翻譯 (Machine Translation, MT) 在過去幾年有顯著的進展,但其主要在獨立句子層面上的運作仍有所侷限。因此,代名詞選擇錯誤或詞彙前後不一致等問題,時常導致獨句看似正確的句子,在段落或整篇文件中顯得不通順。例如,在一個句子中使用陰性名詞,但在相鄰句子中卻用陽性代名詞指代,或同一個詞在整篇文件中以不同的方式翻譯。
為了應對此挑戰,越來越多的研究致力於解決文本中跨句的語言依存關係 (e.g., Carpuat 和 Simard 2012Carpuat, Marine, and Michel Simard 2012 “The Trouble with SMT Consistency.” In Proceedings of the Seventh Workshop on Statistical Machine Translation, Montréal, Canada, 7–8 June, edited by Chris Callison-Burch, Philipp Koehn, Christof Monz, Matt Post, Radu Soricut, and Lucia Specia, 442–449. Stroudsburg: Association for Computational Linguistics. ; Guillou 2013Guillou, Liane 2013 “Analysing Lexical Consistency in Translation.” In Proceedings of the Workshop on Discourse in Machine Translation, Soa, Bulgaria, 9 August, edited by Bonnie Webber, Andrei Popescu-Belis, Katja Markert, and Jörg Tiedemann, 10–18. Stroudsburg: Association for Computational Linguistics. https://www.aclweb.org/anthology/W13-3302.pdf; Hardmeier 2014Hardmeier, Christian 2014 Discourse in Statistical Machine Translation. PhD diss. Uppsala University.; Webber, Popescu-Belis,和 Tiedemann 2017Webber, Bonnie, Andrei Popescu-Belis, and Jörg Tiedemann eds. 2017 Proceedings of the Third Workshop on Discourse in Machine Translation, Copenhagen, Denmark, 8 September. https://www.aclweb.org/anthology/W17-4800; Popescu-Belis et al. 2019Popescu-Belis, Andrei, Sharid Loáiciga, Christian Hardmeier, and Deyi Xiong eds. 2019 Proceedings of the Fourth Workshop on Discourse in Machine Translation, Hong Kong, China, 3 November. Stroudsburg: Association for Computational Linguistics. https://www.aclweb.org/anthology/volumes/D19-65/)。與此同時,Läubli、 Sennrich 和 Volk (2018Läubli, Samuel, Rico Sennrich, and Martin Volk 2018 “Has Machine Translation Achieved Human Parity? A Case for Document-Level Evaluation.” In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, 31 October — 4 November, edited by Ellen Riloff, David Chiang, Julia Hockenmaier, and Jun’ichi Tsujii, 4791–4796. Stroudsburg: Association for Computational Linguistics. , 4791) 指出,為了評定 MT 的品質,越來越需要「轉向文章層次的評估」。這是因為在僅評估單個句子品質的系統中,跨句銜接的改進無法檢測。
MT論述研究與評估中,有關文本及翻譯如何受所處語境影響的問題較少受到關注。本研究探討語料庫驅動的詞法分析是否能啟發對於人工翻譯 (Human Translation, HT) 與MT所產生的論述差異之瞭解。研究不僅聚焦於已知的跨句銜接問題,還關注那些語境影響文本產出與解讀的難題。
2.文獻回顧
一段文字只有在讀者能夠活用所需知識,使知識具有連貫性時,才是真正連貫的。正如 De Beaugrande 和 Dressler (1981De Beaugrande, Robert, and Wolfgang Dressler 1981 Introduction to Text Linguistics. London: Longman. , 12) 所述:「文本本身並不具有意義,而是透過文本呈現的知識與人們積累的常識互動來產生意義。」Catford (1965)Catford, John C. 1965 A Linguistic Theory of Translation: An Essay in Applied Linguistics. Oxford: Oxford University Press. 將文本中單詞的嚴格語言環境稱為「上下文」(co-text),而將單字更廣泛的呈現方式(奠基於文本生產者和解讀者的常識)稱為「語境」(context)。從這個意義上來說,代名詞、詞彙重複、連接詞及其他在 MT 論述研究中經常探討的銜接工具,主要屬於上下文的範疇,而語境則取決於所需知識的因素,這些因素影響語言使用者如何在文本中生產和解讀單字 (van Dijk 1977Van Dijk, Teun A. 1977 Text and Context: Explorations in the Semantics and Pragmatics of Discourse. Harlow: Longman.)。
需要注意的是,在 MT 相關論文中,「語境」一詞通常指稱文本從翻譯研究角度所稱的「上下文」。本文中「語境」一詞,並不是文件中相鄰的單字或句子(上下文),而是指影響單字在文本中解讀的外部因素。例如,本文中縮寫 “MT”為銜接上下文的元素,因為“MT”作為一個術語,在全文中使用一致,將不同句子中的資訊連結起來。然而,若 “MT” 的使用須具備連貫性,從語境的角度來看,必須基於個人預設的常識;也就是在「機器翻譯」的全名首次出現後,讀者才會明白此後括號中的縮寫“MT”專指「機器翻譯」。
翻譯時必須認知到來源語和目標語的讀者未必具備同等的語境知識,因此對文本中上下文的線索理解程度可能有所差別。前述的括號使用在大多數書面語中是標準慣例,所以能假設其在翻譯中不會造成問題。然而,有些預設的常識並不相通。例如,最近一篇葡萄牙新聞提到里斯本一家足球俱樂部時,使用了以下五種方式稱呼俱樂部: Sporting(葡萄牙體育俱樂部)、 os Leões(獅子們)、 a equipa leonine(獅子隊)、 os verdes e brancos(綠白隊) 以及 os lisboetas(里斯本人)。報導者預期讀者能基於語境知識,理解這五個稱呼指的是同一事物,從而理解這些稱呼之間的上下文連結。反之,若讀者不知道Sporting(葡萄牙體育俱樂部)的標誌是獅子、代表色是綠色和白色,且位於里斯本等資訊,直譯為另一種語言的文本則將缺乏連貫性。
上述例子說明了為何翻譯時不一定有辦法以原文的上下文銜接。在翻譯研究中,如何調整論述以符合目標讀者群的需求廣受重視。正如 House (2006House, Juliane 2006 “Text and Context in Translation.” Journal of Pragmatics 38 (3): 338–358. ,356) 所述,翻譯涉及「再脈絡化」,意即「將文本從其原有框架和語境中取出,並置於一套新的關係與文化條件的期望之下」。專業譯者在選擇詞語時考慮的不僅僅是語言對等性與文章層次一致性,還包括翻譯目的及目標讀者等語境因素。例如,從英文翻譯為葡萄牙文時是否該將 “70 miles” 直譯為70 milhas?還是應將其轉換為公制單位,以因應巴西和葡萄牙讀者的習慣?若選擇後者,又應精確轉換為「112.65 公里」,還是使用近似值「約 110 公里」更為恰當?抑或保留原始的英里數,並在括號中附上公制轉換值?這些都是可能的選項,但惟有在瞭解翻譯的目標讀者及用途等語境資訊的情況下,才能判斷合適的策略。
然而,通用 MT 開發時所用的訓練數據通常並未考慮翻譯中的語境。11.然而,經過領域特定數據訓練的客製化MT可以針對特定語境進行調整。例如,醫療領域的MT引擎可以被訓練將 “theatre”翻譯為 “operating theatre”(手術室),而非 “movie theatre”(電影院)。 正如 Koehn 和 Schroeder (2007Koehn, Philipp, and Josh Schroeder 2007 “Experiments in Domain Adaptation for Statistical Machine Translation.” In Proceedings of the Second Workshop on Statistical Machine Translation, Prague, Czech Republic, 23 June, 224–227. Stroudsburg: Association for Computational Linguistics. , 224) 所指出,這些數據「通常是特意從任何可用來源收集的」,難以研判外部語境如何驅動不同的翻譯決策。此外,在像 Europarl (Koehn 2005Koehn, Philipp 2005 “Europarl: A Parallel Corpus for Statistical Machine Translation.” In Proceedings of the Tenth Machine Translation Summit, Phuket, Thailand, 12–16 September, 79–86. Tokyo: Asia-Pacific Association for Machine Translation. https://homepages.inf.ed.ac.uk/pkoehn/publications/europarl-mtsummit05.pdf) 這樣被廣泛開放取用的訓練數據來源中,平行文本對齊是基於語言對等性。不過由於未標註翻譯方向,無法區分何者為來源語,何者為目標語。然而,HT並非對稱 (Klaudy 2009Klaudy, Kinga 2009 “The Asymmetry Hypothesis in Translation Research.” In Translators and Their Readers: In Homage to Eugene A. Nida, edited by Rodica Dimitriu and Miriam Shlesinger, 283–303. Brussels: Les Editions du Hazard., 2017 2017 “Linguistic and Cultural Asymmetry in Translation from and into Minor Languages.” Cadernos de Literatura em Tradução, 17, 22–37. ),將語言 A 翻譯成語言 B ,不一定等同於將語言 B 翻譯回語言 A。這種翻譯不對稱不僅影響語言選擇,也影響論述層面的選擇,包括根據語境做出的決策。例如,Frankenberg-Garcia (2016) 2016 “A Corpus Study of Loans in Translated and Non-Translated Texts.” In Corpus-Based Approaches to Translation and Interpreting: From Theory to Applications, edited by Gloria Corpas Pastor and Miriam Seghiri, 19–42. Frankfurt: Peter Lang. 和 Klaudy (2017) 2017 “Linguistic and Cultural Asymmetry in Translation from and into Minor Languages.” Cadernos de Literatura em Tradução, 17, 22–37. 指出,不同翻譯方向中外來語的處理方式取決於對目標讀者可識別哪些外來語的預設。同樣是受過教育的狀況下,對葡萄牙讀者來說,譯文保留英文外來語通常不是問題;反之,對於英語讀者來說,保留葡萄牙外來語則可能難以理解。回到有關 Sporting(葡萄牙體育俱樂部)新聞的案例,專業譯者將該葡萄牙語新聞翻譯成另一種語言時,可能會為目標讀者難以理解的措詞添加註解,或以目標讀者更容易理解的詞語替代。而若將外語新聞翻譯成葡萄牙語,專業譯者則可能會故意刪除對葡萄牙語讀者來說多餘的註解。這表示如果不考慮文本外部的語境知識預設,MT 訓練數據的可逆性會產生問題。
另一個涉及語境層級的 MT 訓練數據之局限在於,數據所奠基的翻譯並非全然由專業人士產出。例如,來自 OPUS (Tiedemann 2012Tiedemann, Jörg 2012 “Parallel Data, Tools and Interfaces in OPUS.” In Proceedings of the 8th International Conference on Language Resources and Evaluation, Istanbul, Turkey, edited by Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Mehmet Uğur Doğan, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk, and Stelios Piperidis, 2214–2218. Stroudsburg: Association for Computational Linguistics. http://www.lrec-conf.org/proceedings/lrec2012/pdf/463_Paper.pdf) 的 Open Subtitles 和 TED 講座平行文本合集,代表更口語化的非正式語域,是優秀的 MT 訓練數據來源,但由於這些翻譯出自於粉絲翻譯,因此品質穩定度較低。完成翻譯的志願者對來源語和目標語的語言熟練度,甚至是他們對純熟專業譯者所使用的論述調整策略之理解,均無相關資訊。更令人擔憂的是,無法控制這些合集最初受 MT 影響的程度,可能導致使用 MT 譯文作為訓練數據開發 MT 的循環問題。
相比之下,儘管純熟專業譯者的翻譯解決方案可能各不相同,但他們通常能理解翻譯中需要添加或刪除哪些內容,或應如何調整以實現再脈絡化。例如,專業翻譯策略可能包括使目標文本有意保持某種異域風格(例如,借用來源語的詞彙),或透過添加註腳和其他補充資訊來有意調整論述,以增強目標語讀者對文本的可讀性 (Schleiermacher [1813] 2004Schleiermacher, Friedrich (1813) 2004 “On the Different Methods of Translating.” In The Translation Studies Reader, 2nd ed., edited by Lawrence Venuti, 43–63. London: Routledge.)。
總而言之,MT研究已認知到翻譯單獨句子的局限性,並於建立更好的跨句銜接和開發文章層次 MT 評估指標的方面取得進展。然而,MT研究對原文語境以及論述在翻譯中的再脈絡化關注不足。此外,儘管有意地收集雙語文本對於 MT 的發展具有重要價值(尤其是在缺乏大規模、高品質且有標註翻譯方向的平行語料庫時),但這些文本對於幫助我們理解翻譯中的方向性變化,包括專業譯者如何為目標讀者群再脈絡化,則作用有限。
為了應對這一挑戰,本研究探討語料庫驅動的詞法分析是否能夠比較已知語言方向上的專業翻譯與MT,從而深入揭示兩者之間的論述差異,超越詞彙不一致和代名詞推論等已知問題的範疇。
3.研究方法
本節說明研究中使用的語料庫以及如何比較HT與MT的品質。
3.1語料
本研究使用了 COMPARA (2010)compara 2010 (Version 13.1.17.) Accessed April 12, 2019. http://www.linguateca.pt/COMPARA/index.php 的專業 HT 和原文語料。COMPARA 是一個公開取用的雙向平行語料庫,專門收錄葡萄牙語和英語文學小說 (Frankenberg-Garcia & Santos 2003Frankenberg-Garcia, Ana, and Diana Santos 2003 “Introducing compara: The Portuguese–English Parallel Corpus.” In Corpora in Translator Education, edited by Federico Zanettin, Silvia Bernardini, and Dominic Stewart, 71–87. Manchester: St. Jerome.),並經專家之手,由實際出版的葡英翻譯作品組成。儘管 COMPARA 是雙向的,本研究的分析僅探討從葡萄牙語翻成英語的譯文。
由於文學翻譯通常不會使用MT (Toral and Way 2018Toral, Antonio, and Andy Way 2018 “What Level of Quality Can Neural Machine Translation Attain on Literary Text?” In Translation Quality Assessment: From Principles to Practice, vol. 1, edited by Joss Moorkens, Sheila Castilho, Federico Gaspari, and Stephen Doherty, 263–287. Cham: Springer. ),且 COMPARA 中的英語翻譯為1980年代和1990年代實際出版的翻譯,來自於尚未廣泛使用MT的年代,因此可以假設該語料庫中的翻譯並未受到MT影響。
為了確保分析不會受到個別作者或譯者表現差異的影響,本研究使用一個平衡語料庫,該語料庫包含十五位作者的作品,並由十五位譯者進行翻譯(見 表一)。
| Text ID | Source-text title | Author | Translator |
|---|---|---|---|
| PBRF2 | A Grande Arte | Rubem Fonseca | Ellen Watson |
| PMMC1 | Vozes Anoitecidas | Mia Couto | David Brookshaw |
| PBJS1 | O Xangô de Baker Street | Jô Soares | Cliff Landers |
| PBPC1 | O Alquimista | Paulo Coelho | Alan Clarke |
| PPSC1 | A Confissão de Lúcio | Mário de Sá-Carneiro | Margaret Jull Costa |
| PPJS1 | Sinais de Fogo | Jorge de Sena | John Byrne |
| PBMA3 | Dom Casmurro | Machado de Assis | John Gledson |
| PPLJ1 | A Costa dos Murmúrios | Lídia Jorge | Natália Costa |
| PBAD2 | Os Sinos da Agonia | Autran Dourado | John Parker |
| PPMC1 | Um Deus Passeando pela Brisa da Tarde | Mário de Carvalho | Gregory Rabassa |
| PBAA2 | O Mulato | Aluísio Azevedo | Graeme McNicoll |
| PPEQ3 | Alves e Companhia | Eça de Queirós | John Vetch |
| PPJSA1 | Ensaio sobre a Cegueira | José Saramago | Giovanni Pontiero |
| PBCB2 | Estorvo | Chico Buarque | Peter Bush |
| PBMAA1 | Memórias de um Sargento de Milícias | Manuel Antônio de Almeida | Ronald Sousa |
COMPARA 的線上介面允許用戶根據選定的文本創建子語料庫,例如 表一 中所呈現的文本,但由於版權原因,這些文本不能全部下載。此外,該工具限制了每次查詢可檢索的平行語匯索引數量,每次查詢時,展示的平行語匯索引不超過每個雙語文本(即對齊的原文和譯文)的三分之一。由於 COMPARA 中的文本長度不一,較長的文本會產生更多的語匯索引結果。因此,為了平衡這個現象,我們將原文總數最短的雙語文本作為基準,並將其他文本篇幅縮減至大致相同。如此一來,最終得以構建一個平衡的語料庫,裡面包含十五個原文字數介於 4000 至 5000 字之間的葡英雙語文本。
每次查詢所提取的語匯索引會依序排列。 然而,為了將產出縮減至版權許可範圍內,可能會隨機省略部分語匯索引。如果研究需要從頭到尾閱讀文本,這將是嚴重的限制。然而,如第3.2 節所述,本研究並未考慮針對閱讀較長連續文本片段的論述特徵進行分析。
為了獲得本研究使用的MT語料庫,從 COMPARA 下載的葡萄牙語原文片段透過 Google 翻譯翻成英文。22.以現已停用的 Google Translator Toolkit(2019)Google Translator Toolkit (2019) Accessed December 1, 2019. https://translate.google.com/toolkit進行。 Google 翻譯在葡英語言組合中使用神經機器翻譯技術 (Turovsky 2016Turovsky, Barak 2016 “Found in Translation: More Accurate, Fluent Sentences in Google Translate.” Google (blog), November 15, 2016. https://blog.google/products/translate/found-translation-more-accurate-fluent-sentences-google-translate/),但關於運作方式的其他細節知之甚少。本研究並不以促進 Google 翻譯發展為目的。 選擇使用Google 翻譯僅是因爲此通用 MT 系統免費、隨手可得,且被大眾廣泛使用。值得注意的是,無法保證 Google 翻譯一開始未將來自 COMPARA 的HT作為其訓練數據的一部分。然而,因為這些數據無法直接線上獲取(只能透過 COMPARA 中的特定搜尋檢索),且與 Google 使用的龐大訓練數據量相比,COMPARA 的規模微不足道,因此它對 Google 翻譯的運作方式產生重大影響的可能性極低。
一旦獲得 MT 產出,便使用完整句子的原文片段作為共同基準,將產出與來自 COMPARA 的 HT 對齊。因此,可以獲得一個平衡且完美對齊的平行語料庫,包括原文(ST 語料庫)、人工翻譯譯文(HT 語料庫),以及 機器翻譯譯文(MT 語料庫),如圖一所示。該語料庫是在 Sketch Engine (Kilgarriff et al. 2014Kilgarriff, Adam, Vit Baisa, Jan Bušta, Miloš Jakubíček, Vojtěch Kovář, Jan Michelfeit, Pavel Rychlý, and Vit Suchomel 2014 “The Sketch Engine: Ten Years On.” Lexicography 1: 7–36. ) 中編輯的。HT 和 MT 語料庫均使用 Helmut Schmid 開發並由 Sketch Engine 團隊調整 TreeTagger 英文詞性標記集進行標註 (pipeline version 2)
3.2研究過程
使用平行語料庫來評估 MT 中的論述,是近期較新的翻譯技術 (Lapshinova-Koltunski and Hardmeier 2017Lapshinova-Koltunski, Ekaterina, and Christian Hardmeier 2017 “Discovery of Discourse- Related Language Contrasts through Alignment Discrepancies in English–German Translation.” In Proceedings of the Third Workshop on Discourse and Machine Translation, Copenhagen, Denmark, 8 September, edited by Bonnie Webber, Andrei Popescu-Belis, and Jörg Tiedemann, 73–81. ; Guillou et al. 2018Guillou, Liane, Christian Hardmeier, Ekaterina Lapshinova-Koltunski, and Sharid Loáiciga 2018 “A Pronoun Test Suite Evaluation of the English–German MT Systems at WMT 2018.” In Proceedings of the Third Conference on Machine Translation: Shared Task Papers, Brussels, Belgium, 31 October — 1 November, edited by Ondřej Bojar, Rajen Chatterjee, Christian Federmann, Mark Fishel, Yvette Graham, Barry Haddow, Matthias Huck, Antonio Jimeno Yepes, Philipp Koehn, Christof Monz, Matteo Negri, Aurélie Névéol, Mariana Neves, Matt Post, Lucia Specia, Marco Turchi, and Karin Verspoor, 570–577. Stroudsburg: Association for Computational Linguistics. )。以往研究通常聚焦於 MT 面臨的已知挑戰,例如代名詞推論,並採用基於語料庫的方法進行分析。本研究所採取的新方法以語料庫驅動為出發點 。33.參見 Tognini-Bonelli (2001)Tognini-Bonelli, Elena 2001 Corpus Linguistics at Work. Amsterdam: John Benjamins. 對於語料庫基礎與語料庫驅動方法的討論。 換句話說,本研究並非透過針對已知問題(如代名詞)進行特定的語料庫查詢,而是將完整的語料庫作為出發點,旨在獲得關於HT與 MT 差異的新見解。語料庫驅動方法的其中一個標準程序是比較兩個語料庫中的詞彙分佈。例如,Frankenberg-Garcia (2008)Frankenberg-Garcia, Ana 2008 “ ‘Suggesting Rather Special Facts’: A Corpus-Based Study of Distinctive Lexical Distributions in Translated Texts.” Corpora (3) 2: 195–211. 使用此方法來分析翻譯與非翻譯文本中的特徵性詞彙。類似的語料庫驅動方法也可以應用於闡明 HT 和 MT 中的特徵性詞彙,並基於語料庫的角度進一步檢視,確定詞彙差異是否對論述產生影響。
本研究首先透過關鍵詞分析比較 HT 和 MT 語料庫。關鍵詞分析是語料庫語言學中常見的步驟,用於識別在焦點語料庫 (focus corpus) 中,相對於參照語料庫 (reference corpus) 異常頻繁出現的語言要素 (Kilgarriff 2009Kilgarriff, Adam 2009 “Simple Maths for Keywords.” In Proceedings of Corpus Linguistics Conference, Liverpool, UK. http://ucrel.lancs.ac.uk/publications/cl2009/)。下列公式提取了 MT 語料庫中相較於HT語料庫更頻繁出現的字詞。反之,此公式也可用於提取在 HT 語料庫中相較於 MT 語料庫更頻繁出現的字詞:
MT fpm 為 MT 語料庫中某要素的正規化頻率(每百萬詞);HT fpm 為相同要素在 HT 語料庫中的對應頻率;N 則為用來避免除以零的平滑參數。Kilgarriff (2009)Kilgarriff, Adam 2009 “Simple Maths for Keywords.” In Proceedings of Corpus Linguistics Conference, Liverpool, UK. http://ucrel.lancs.ac.uk/publications/cl2009/ 指出,標準的平滑參數為 N = 1,但這個值可以做調整,以優先考慮決定較高或較低頻率的關鍵詞。鑑於本研究語料庫的規模相對小,因此平滑參數設定為 N = 1000,以優先抓取高頻率範圍內的字詞。這種方式有助於減少抓取到僅集中於單一文本中字詞的特殊差異情況。
關鍵詞提取可以基於不同的語料庫屬性進行,例如詞形、標籤、詞目等。現行分析使用了 Sketch Engine 的 lempos-lc 屬性來提取不區分大小寫的詞目,並根據詞性進行標記。44.詞性標注工具未能正確分類 7.75% 的詞目(在產出中用 x 標記),並錯誤分類了 4.25% 的詞目(例如,將 “because” 誤分類為介系詞)。在詞性可以直接識別的情況下,這些分類被手動修正;其他則標記為模糊不清。由標注工具廣泛歸類為名詞的不定代名詞、專有名詞和外來語已手動區分。 這樣做使得 His 和 his 或 car 和 cars 可以被合併,但同時也能在提取過程中區分名詞與動詞的 house。提取出前 200 個 HT 和 MT 關鍵詞後,研究進一步對樣本進行詳細檢查。透過對原文、HT 和 MT 語料庫中關鍵詞的三維平行語匯索引進行細讀並做質性分析,以探討觀察到的詞彙分佈差異是否會影響論述。
4.研究成果
表二 彙總了每個翻譯語料庫中前 200 個關鍵詞的分佈,這些關鍵詞按照詞類進行分類,並依據關鍵度得分排名 (keyness score rank)。在最後一類中,「未翻譯」代表整段原文句子被有意或無意遺漏,凸顯人工翻譯可能出現的決策或錯誤。總體而言,可以觀察到兩個語料庫在情態動詞、介系詞和代名詞的使用上存在顯著差異,其中HT在封閉式的語法類別中,使用的關鍵詞數量顯著多於MT。開放式詞彙例如名詞(含專有名詞和外來語)、動詞、形容詞和副詞,達到研究前 200 名的閾值時,MT 和 HT 使用的數量相對平衡。為了更深入探究 表二 中詞彙語法關鍵詞差異背後可能的論述意涵,接下來將分析對語法和詞彙關鍵詞的原文、HT 和 MT 之平行語匯索引。
| Keyword class | Distinctive in HT | Distinctive in MT |
|---|---|---|
| Adjective | own, such, unable, male, special, odd, flat, wise, final, very, splendid, fellow, bright, long, indian | great, little, black, last, much, beautiful, good, silent, ready, thin, full, first, low, high, open, crazy, quiet, sick, front, worth, holy, gray, old, rich, handsome, natural, wet, rare |
| Adverb | just, over, back, quite, as, together, really, once, now, away, ever, else, ill, merely, around, well, on, certainly, probably, rather, immediately, though, longer, up, out, enough, simply, clearly, very, silently, in, afterwards, too | very, soon, always, also, already, not, anyway, asleep, however, there, maybe, sometimes, little, barely |
| Foreign | senhor, plaza, senhora | d, mainata, nhonhô, nhonho |
| Modal | might, should, could, would, can, ought, shall | – |
| Noun | fellow, wife, part, way, massa, round, feeling, area, bit, kind, place, theatre, mind, affair, colour, cattle, slave, negro, sort, bedroom, reply, music, inspector, evening, thought, use, jacket, destiny, town, raven, stuff, spy-hole, shape, note, maid, country, omen, fine, desk, horse, phone, side, home, line, people, staircase, mummy, moustache, longing, lobby | mosque, house, guy, mr, color, hour, earth, beast, hall, eye, sign, woman, other, face, personal, mustache, legend, crow, background, porch, college, band, ox, animal, photograph, pastor, fight, couch, scent, neighbourhood, devil, yard, ceremony, afternoon, son, floor, street, year, head, mouth, table, step, sheep, square, newspaper, land, suit, stop, partner, jailer, beginning, sage, motorcycle, name, city, wall, foot, doubt, lady, information, stair, care, will, clock, favour, contrary, song, wonder, revenge, gate |
| Preposition | out, up, off, into, along, about, over, towards, on, through, after, around, onto, for, within, despite, up, near | without, of, in |
| Pronoun | their, its, his, them, she, her, our, someone, something, myself, everyone, herself, anyone, one, nobody | everything, me, they, it |
| Proper name | Helen, Mesquita, Gervásio, José, Proserpinus, Alves, Trifenus, Pádua, Lúcio | Helena, Gervasio, Jose, Proserpino, Godfrey, Padua, Azariah, Trifeno, de, Lucius |
| Verb | hold, get, bring, use, become, go, carry, keep, manage, put, decide, let, realise, stand, need, ring, allow, suggest, inform, weep, place, wear, grow, have, happen, round, build, observe, imagine, begin, catch, wonder, remain, find, stick, reply, summon | give, want, do, enter, know, continue, cry, jump, close, hurt, live, understand, scream, lean, shake, stay, believe, collect, blind, join, serve, count, wish, notice, return, remember, lose, love, confess, wrap, smell, form, resume, fire, delay, conclude, look, come, call, answer, throw, cover, leave, meet, pull, receive, repeat, realize, save, wake, shine, fulfill |
| Other/Ambiguous | NOT_TRANSLATED, some, as, any, while, every, whether, which, why, an, those, on, though, like, one, in, whenever | this, these, because, the, so, that, two, another, yeah, if, oh, whose |
4.1語法關鍵詞
本節將更詳細探討情態動詞、介系詞與代名詞在關鍵詞上的差異。這類封閉詞性的詞彙出現頻率很高,每個類別都會生成數百條對應語匯索引,因此本研究範圍內無法對它們進行全面人工檢視。故此部分的研究將聚焦於每個詞性類別中,針對一個 HT 和一個 MT 語法關鍵詞進行系統性質性分析。
4.1.1情態動詞
關鍵詞分析在 HT 語料庫中辨識出七個獨特的情態動詞,但在 MT 語料庫中沒有這樣的結果 (表二)。在 HT 語料庫中,最具代表性的情態動詞是 “might”,出現了 49 次,而在 MT 中僅出現 11 次 (keyness score 1.34)。 “might”出現在 80% 的 HT 文本中,因此這不能僅被視為是風格偏好的問題。在HT語料庫中,對於 “might” 的平行語匯索引結果顯示,有 45 次未在對齊的 MT 中使用相同情態動詞。對這些語料的質性分析顯示,其中有 23 條 HT 語料在 MT 中未表現出情態(見範例(1)),另外 22 條 HT 語料在 MT 中以不同的情態動詞或類似的情態詞(見範例(2))。
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PPEQ3 302 | veio-lhe o terror que o sogro não estivesse em casa | he began to fear that his father-in-law might not be at home | terror came to him that his father-in-law was not at home |
| PMMC1 552 | ainda pisava na mina | she might tread on a mine | he was still walking in the mine |
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PBAD2 950 | Podem me envolver | They might involve me | You can get involved |
| PBMA3 254 | Talvez valha a pena dá-la | It might be worthwhile giving it here | Maybe it’s worth giving |
儘管來源語沒有情態動詞,仍可以透過葡萄牙語中的其他語言資源表達情態。在範例(1)中的語匯索引顯示,當情態在來源語中模糊或不明確時,HT 在根據語境推斷語氣方面優於 MT。而範例(2)中的語匯索引則顯示,MT 能在來源語以明確的情態詞表達時,妥善處理語氣。此外,葡萄牙語可以透過動詞 “poder” 和副詞 “talvez” 來表達可能性。這也解釋了為何副詞 “maybe” 的直譯在 MT 語料庫中顯得與眾不同(見 表二)。
4.1.2介系詞
關鍵詞分析強調,HT 語料庫中有 18 個介系詞,而 MT 語料庫中僅有 3 個 (表二)。在這兩種類型的翻譯中,最具代表性的介系詞是 HT 中的 “out” 和 MT 中的 “without”,以下將進一步探討這兩者的差異。
介系詞 “out” 在 HT 語料庫中出現 272 次,而在 MT 語料庫中僅出現 126 次 (keyness score 1.59)。在細讀 HT 語料庫中 “out” (但在對齊的MT中未出現)的 215 條平行語匯索引後發現:
-
在 175 條 HT 語匯索引中, “out” 作為片語動詞的一部分,如 “find out”,而 MT 產出為原文的單詞直譯(見範例(3));
-
在 23 條 HT 語匯索引中, “out” 具有其他意涵,而 MT 為單詞直譯(見範例(4));
-
在 10 條 HT 語匯索引中, “out” 出現在 “out of” 片語中,表示 “because of”(「因為」) ,而在 MT 中被誤譯(見範例(5));
-
在 7 條 HT 語匯索引中, “out” 出現在 “out of” 片語中,表示 “without”(「沒有」),而 MT 使用原文的單詞直譯(見範例(6))。
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PPEQ3 275 | uma pancada surda que o devastava | a silent blow that knocked him out | a deaf thump that devastated him |
| PBAD2 796 | O pai mandou que apagasse a candeia | His father told him to put out the lamp | His father commanded him to extinguish the lamp |
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PBAD2 314 | Nenhum jeito possível | No way out | No way possible |
| PBAA2 590 | ela que vá dando os seus passeios a pé | she should be out taking walks | she will go giving her walks on foot |
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PPLJ1 132 | a tinham trazido ali por instinto de sobrevivência | had brought her there out of survival instinct | had brought her there by instinct for survival |
| PBMA3 123 | Se soubesse, não teria falado, mas falei pela veneração, pela estima, pelo afeto | If I’d known, I wouldn’t have spoken, but I did so out of veneration, out of esteem, out of affection | If I had known, I would not have spoken, but I spoke of veneration, of esteem, of affection |
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PBAA2 553 | Tinha o cabelo à escovinha; os sapatos grandemente desproporcionados | His hair was close cropped and his shoes terribly out of proportion | She had her hair brushed; the shoes were greatly disproportionate |
| PBJS1 968 | E xingava, descontrolado | And he cursed, out of control | And he cursed, uncontrolled |
從範例(3)到(6)可以看出,儘管 “out” 為虛詞,但其在HT語料庫中常常出現的主要原因是詞彙上的運用。除了 HT 比 MT 相對不直譯,還可以看出HT在片語動詞和其他表達中 “out” 一詞的使用傾向於賦予翻譯更不正式且更口語化的語氣,顯示 HT 在非正式場合中更為恰當。
在 MT 中最突出的介系詞是 “without” ,在 MT 語料庫中出現了 112 次,在 HT 語料庫中僅出現了 84 次 (keyness score 1.19),而在對齊 MT 的語匯索引中有 50 條出現 “without” 的MT平行語匯索引結果 。細讀這些語匯索引發現,MT 中使用 “without”,HT的對價詞包含:
-
在 25 條 HT 語匯索引使用否定副詞如 “not”(見範例(7));
-
在 11 條 HT 語匯索引使用否定前綴或後綴如 “un-“ 或 “-less”(見範例(8));
-
在 9 條 HT 語匯索引使用反義表達(見範例(9));
-
在 5 條 HT 語匯索引使用其他詞語或片語表達否定(見範例(10))。
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PBCB2 22 | O menino…avista-me sem me ver | The kid…looks but doesn’t see me | The boy…sees me without seeing me |
| PPMC1 270 | sem qualquer escrúpulo | with no scruples whatever | without any scruple |
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PPLJ1 669 | sem conseguirem culpar nada | unable to blame anything | without being able to blame anything |
| PBMAA1 112 | um filho sem mãe | A motherless child | a son without a mother |
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PPLJ1 845 | como os homens que vivem sem ter tempo | like one of those men who are always rushing through life | like the men who live without time |
| PPEQ3 16 | murmurou o guarda-livros, sem cessar de escrever | murmured the bookkeeper, as he went on writing | he bookkeeper murmured without interruption |
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PBRF2 691 | sem a maioria dos dentes | missing most of his teeth | without most of his teeth |
| PPEQ3 31 | sem a cor viva duma flor | he lacked the bright colour of a flower | without the living color of a flower |
研究分析顯示,譯者使用了更多樣的方式來表達否定。他們並未將原文中的介系詞 “sem” 直譯為 “without” ,而是採用了更間接的翻譯策略,以生成更符合目標語習慣的翻譯。
4.1.3代名詞
關鍵詞分析顯示,HT 語料庫中辨識出了 15 個相異的代名詞,而 MT 語料庫中僅有 4 個。代名詞的類型也存在明顯差異。不定代名詞(如 “someone”、 “something”、 “everyone”、 “anyone” 和 “nobody”)在 HT 中比 MT 更為突出,而 MT 中只有 ”everything” 出現頻率較高。4 個帶有性別標記的人稱代名詞:”his”、”she”、”her” 和 ”herself”,在 HT 中是關鍵詞,但 MT 的人稱代名詞全都性別中立。另一個特別的發現是 HT 和 MT 在所有格使用上的差異:HT 語料庫中有 5 個關鍵所有格 —— “their”、”its”、”his”、”her” 和 ”our”,而在 MT 語料庫中則沒有出現任何所有格。最具代表性的 HT 和 MT 人稱代名詞分別是 “their” 和 “me” 將會被進一步詳細檢查。
所有格 “their” 在 HT 語料庫中出現了 191 次,而在 MT 語料庫中僅出現了 112 次 (keyness score 1.33)。研究發現 114 個在 HT 語料庫中檢索 “their”,但在對應的 MT 中未出現相同形式的 114 條平行語匯索引。對代名詞差異的質性分析顯示:
-
在 64 條 HT 語匯索引中加入了在原文中未出現的代名詞,而未加入 MT 中(見範例(11))
-
在 34 條 HT 語匯索引中的 ‘their” 來自於對原文的非直譯(見範例(12));
-
在 16 條 HT 語匯索引中的代名詞在 MT 中被誤譯(見範例(13))。
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PBRF2 804 | Muda de nome, de casa, pinta o cabelo, vai para a Bahia | Move away, change their names, dye their hair, go to Bahia | Change of name, of house, paints the hair, goes to Bahia |
| PPJS1 654 | através das recordações de pais e tios | through the tales of their parents and aunts and uncles. | through the memories of parents and uncles |
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PPJSA1 679 | O Governo e a Nação esperam que cada um cumpra o seu dever | The Government and Nation expect every man and woman to do their duty | The Government and the Nation expect each one to fulfill his duty |
| PBAA2 148 | a dar-lhes a comida | to fix their meals | to give them food |
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PPEQ3 324 | com os lábios unidos aos dele | with their lips together | with his lips joined to his |
| PBAD2 477 | Iam silenciosos, rosário na mão | They walked in silence, their rosaries in their hands | They were silent, the rosary in his hand |
再看到 MT 中最突出的人稱代名 “me”,MT 語料庫中出現了 395 次,而在 HT 語料庫中出現了 379 次 (keyness score 1.09)。有 78 條 MT 語匯索引中出現了 “me”,但在 HT 中未對應翻譯。1 條語料在 HT 中未被翻譯,其餘 77 條包括:
-
在 31 條 HT 語匯索引中使用了等價代名詞 “I”(見範例(14));
-
在 26 條 HT 語匯索引中沒有對應的代名詞(見範例(15));
-
在 15 條 HT 語匯索引中的對應代名詞是所有格(見範例(16));
-
在 5 條 HT 語匯索引中的代名詞指代了另一個實體(顯示 MT 中的誤譯,見範例(17))。
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PBJS1 167 | há algo aqui que causa-me estranheza | there’s one thing that I find strange | there is something here that causes me strangeness |
| PBMA3 257 | O desuso é que me faz mal | I’m out of practice | The disuse is what makes me bad |
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PBAA2 163 | Não me pareces a mesma | You’re not yourself at all | You do not look the same to me |
| PPMC1 24 | Mara…deixa-me numa pequena corrida | Mara…runs off. | Mara…leaves me in a little run |
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PPJS1 47 | porque as experiências não me pertencem | because these experiments are not just mine | because the experiences do not belong to me |
| PPSC1 247 | por mim, confesso, tive medo | I, for my part, felt afraid | for me, I confess, I was afraid |
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PBMAA1 294 | custou muito a vir | it was hard for him to come back | it was very difficult for me to come here |
| PPJSA1 754 | roubaste-me a vista dos olhos | you stole my eyesight | you stole me from the eyes |
對於這兩類代名詞,我們觀察到的差異原因與已知的 MT 代名詞推論問題(如範例(13)和(17))關係較小,原因更與專業譯者如何透過間接策略使翻譯更符合語境(如範例(12)、(14)到(16)),以及解決歧義有關(如範例(11))。
4.2詞彙關鍵詞
本節將透過對關鍵詞的語匯索引進行細讀,更深入地探討 HT 和 MT 語料庫中詞彙關鍵詞的差異。這類開放式詞彙出現頻率較低,且僅分散於特定文本中。例如,HT 中獨特的專有名詞 “Helen” 在來源語中只出現一次,而不像介系詞 “out” 這樣出現在語料庫所有 HT 和 MT 的文本裡。因此,對個別詞彙關鍵詞的分析並沒有特別的資訊價值,因為有可能僅是翻譯者個人選擇的結果。值得注意的是,是否存在同時具備表現相似性,且能反映 HT 與 MT 差異的詞彙關鍵詞群組。然而,本文篇幅有限,無法涵蓋所有可能的詞彙關鍵詞模式,因此以下分析聚焦於拼寫、專有名詞和外來語相關的研究發現。
4.2.1拼寫
在 表二 中對開放式詞彙進行關鍵詞分析中,最顯著的差異是拼寫差異。在 HT 和 MT 語料庫中,分別可以觀察到以下的拼寫偏好: “colour”和 “color”、 “moustache”和 “mustache”、 “realise”和 “realize”、 “Gervásio”和 “Gervasio”、 “José” 和 “Jose”,以及 “Pádua”和 “Padua”。雖然這些只是表面形式的差異,並未影響語法或意義,但在整體文章層次具有語境意涵。在 HT 的前三組關鍵詞對比中,英式和美式的拼寫選擇並非隨機,而是展現了譯者對於特定目標讀者群或寫作風格的語境知識。對外文字母符號的保留,例如上述提到的三個專有名詞中使用的重音符號,則可以解釋為一種語境決策。這是刻意為翻譯保留更多異域風格,通常發生在從語境中故事情節已知是設定在外國的情況下。
4.2.2專有名詞
表二 的關鍵詞分析還指出 HT 和 MT 在專有名詞使用上的明顯差異。表三 量化概括 表二 中專有名詞在原文、HT 和 MT 的平行語匯索引。首先,在 MT 中有眾所周知的詞彙一致性問題。例如, “Helena” 在同一部小說中有時 MT 會翻譯為 “Helena”,有時又被翻譯為 “Helen”。同樣, “Mesquita”、 “Godofredo”、 “Gervásio”、 “José”和 “Trifeno”,大部分的專有名詞在 MT 中的翻譯並不一致。
| Text ID | ST | HT | MT |
|---|---|---|---|
| PPLJ1 | Helena (40) | Helen (41) | Helena (30) Helen (10) |
| PPJS1 | Mesquita (29) | Mesquita (30) | Mosque (25) Mesquita (4) |
| PPSC1 | Gervásio (16) | Gervásio (20) | Gervasio (15) Gervasius (1) |
| PBMAA1 | José (11) | José (11) | José (4) Jose (7) |
| PBAA2 | José (17) | José (20) | José (8) Jose (4) Joseph (5) |
| PBMA3 | José (10) | José (10) | José (9) Jose (1) |
| PBJS1 | José (2) | José (2) | José (2) |
| PBRF2 | – | José (1) | – |
| PPMC1 | Proserpino (10) | Proserpinus (10) | Proserpino (10) |
| PPEQ3 | Godofredo (17) | Godofredo (3) Alves (10) he (4) |
Godfrey (9) Godofredo (7) Godfred (1) |
| PPEQ3 | Alves (13) | Alves (13) | Alves (13) |
| PBMA3 | Pádua (8) | Pádua (8) | Padua (8) |
| PPMC1 | Trifeno (8) | Trifenus (8) | Trifeno (7) Trypho (1) |
| PPMC1 | Azarias (8) | Azarias (8) | Azariah (8) |
| PPSC1 | Lúcio (6) | Lúcio (6) | Lucius (6) |
| PPMC1 | Lúcio (7) | Lucius (7) | Lucius (7) |
| Total | 202 | 210 | 202 |
此外,專有名詞 “Mesquita” 的翻譯凸顯了 MT 另一個已知的詞義消歧問題。如範例(18)所示,MT無法區分姓氏 “Mesquita” 與普通名詞 mesquita(”mosque”「清真寺」)的差異,將角色的名字翻譯成 “The Mosque” (「清真寺」),彷彿其為人物綽號。
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PPJS1 545 | O Mesquita escandalizou-se | Mesquita was quite shocked | The Mosque scandalized itself |
相比之下,HT 中對專有名詞的翻譯不僅一致,還具有譯者明顯的考量。如第 4.2.1 節所述,在非英語背景的設定中,HT 有意保留了人名的外來重音符號。此外,論述的語境明顯在決定是否翻譯專有名詞方面起到了決定性作用。在 PPLJ1 中, “Helena” 取自希臘神話中特洛伊的海倫,這使得英譯為 “Helen” 比保留葡萄牙語形式 “Helena” 更為合適。同樣, “Proserpino”、 “Trifeno” 和 “Lúcio” 是 PPMC1 中一本背景設定於古羅馬小說中的人物,因此譯者選擇了拉丁文形式的 “Prosperinus”、 “Trifenus” 和 “Lucius”。需要注意的是,在 PPSC1 中,“Lúcio” 指的是一位葡萄牙男子,因此保留了葡萄牙語的形式。
HT 中唯一明顯的不一致是在 PPEQ3 中, “Godofredo” 譯為 “Godofredo” 和 “Alves”,這是因為 “Godofredo”(名字)和 “Alves”(姓氏)指的是同一個角色。譯者選擇姓氏 “Alves” 稱呼這個角色,而這與小說標題中對該角色的稱呼一致(見 表一)。
關於在 MT 關鍵詞中被標記為專有名詞的 “de”(見 表二),HT和 MT 的差異源自對於貴族頭銜翻譯的不一致,例如 MT 中的 “Visconde de Vilar”、 “Marquis de Salles”,但 “Baroness of Avare” 則使用 “of” 來翻譯,在 HT 中則分別翻譯為 “Viscount of Vilar”、 “Marquis of Salles” 和 “Baroness of Avare”, 以維持翻譯的一致性。
研究分析揭示了 HT 和 MT 在專有名詞數量上的差異,而此為較少被研究的特性。如 表三 所示,譯者在對應的原文中沒有匹配的名字時,添加了 “Helena” (+1)、 “Mesquita” (+1)、 “Gervásio” (+4)、 “José”(在 PBAA1 中+3,在 PBRF2 中+1)。對包含其他人名的平行語匯索引進行細讀發現,譯者添加名字是為了消除翻譯中可能的指涉歧義,如範例(19)所示。
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PPLJ1 132 | Falando desse modo, tão baixo | As Helen spoke, in so soft a voice | Speaking thus, so low |
| PBAA2 856 | não era isso! respondia o outro | it isn’t that José answered | was not it! answered the other |
另外,有 4 個原文名字 (“Godofredo”) 在HT中被代名詞替換。相比之下,在MT中,專有名詞從未被添加或替換為代名詞。
4.2.3外來語
表二 中列出的一些HT和MT語料庫中的關鍵詞差異存在非英語詞彙。即便在查閱這些詞彙的語匯索引之前,也可以明顯看出,HT中具有區別性的詞彙,如: senhor、 plaza 和 senhora —— 比MT中的外來語 d、 mainata、 nhonhô和 nhonho 更容易被英語讀者理解,這並非偶然。如範例(20)所示,HT中,葡萄牙語的 senhora,和西班牙語的 señora 與義大利語的 signora 非常相似,因此更容易被英語讀者理解。HT中的 Senhor 也同樣是如此。然而,譯者並未沿用原文中使用的縮寫形式 Sr.(目標讀者可能無法辨認的寫法),而是將 Senhor 拼寫完整,使其與西班牙語的 Señor 和義大利語的 Signor 相似。關於 plaza 這個字,HT採用了更複雜的翻譯策略。譯者將葡萄牙語 praça 翻譯為西班牙借詞 plaza,在翻譯中引入了一個原文中不存在的外來元素。表面上看,譯者看似過於自由的處理,實際上可以透過脈絡考量來解釋,因為故事情節發生在西班牙,而目標英語讀者對於西語國家中的 plaza 這一詞語的含義(例如 “Plaza Mayor” )也相對熟悉。
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PBMAA1 117 | Oh! senhora! atalhou Leonardo-Pataca | Oh, senhora, interrupted Leonardo-Pataca | Oh! Mrs! interrupted Leonardo-Pataca |
| PMMC1 303 | Tem a certeza, Sr. Paraza? | Are you sure, Senhor Paraza? | Are you sure, Mr. Paraza? |
| PBPC1 262 | Ficou mais algum tempo olhando a praça | He looked at the people in the plaza for a while | He spent some time looking at the square |
| Conc. ID | ST | HT | MT |
|---|---|---|---|
| PBAD2 113 | Nhonhô quer alguma coisa? | Do you want anything, massa? | Does Nhonhô want anything? |
| PPLJ1 365 | Quer a mainata já ali, com a bandeja, os copos | She wants the maid right away, with the tray, the glasses | He wants the mainata already there, with the tray, the glasses |
| PPEQ3 16 | O Sr. Machado estava ontem em D. Maria | Senhor Machado was at the Dona Maria theatre yesterday | Mr. Machado was in D. Maria yesterday |
| PBJS1 786 | d. Pedro explicou | Dom Pedro explained | d. Peter explained |
相較之下,如範例(21)所示,MT中外來語的使用顯示其缺乏語境知識。(原文中的詞語 Nhonhô,是一種以前奴隸用來稱呼主人的方式,但在MT中未被翻譯。)目標英語讀者很可能缺乏理解該詞的常識。如範例(21)中顯示的MT詞匯索引, Nhonhô 甚至可能被誤解為某人的名字。HT中的解決方案是使用相應的過時英語措辭 “massa”(「主人」)。莫桑比克葡萄牙語中的 mainata(意為「女傭」)對目標英語讀者來說同樣難以理解。MT 將其保留為 mainata,但譯者在HT中將其翻譯為 “maid”,以幫助讀者理解。範例(21)中的最後一條語匯索引顯示,原文中縮寫的稱呼 D.(發音為 dona),在MT中保留為 D.,而HT中,譯者則展開縮寫,將其翻譯成與西班牙語和義大利語類似的 Dona,以填補目標英語讀者對語境知識的缺乏,提升理解度。在同一條語匯索引中添加原文沒有對應的等價詞 “theatre”,進一步表明譯者基於目標讀者可能不熟悉里斯本文化脈絡下的考量,刻意凸顯 D. Maria 是一座劇院。
範例(20)和(21)指出,專業譯者在選擇是否在翻譯中使用外來語時,往往會考慮目標讀者的定位和整體語境。在不影響讀者理解的條件下,他們在使用外來語時,通常都是為了刻意在翻譯中賦予異域風格。相比之下,MT中少數幾次未翻譯的外來語,多出現在原文中較晦澀的葡萄牙語翻譯,而這種翻譯可能會降低目標讀者對文本的理解。
5.討論與總結
MT 研究近期認識到需要處理的不僅是單獨的句子,還聚焦於完善跨句連結,並確保文章層次的一致性。本研究的動機是探索 HT 和 MT 所產生的文本之外的論述,特別是考慮到譯文如何受到其語境的影響。透過關鍵詞分析(一種用於語料庫驅動語言學的研究方法,以辨別兩組不同文本數據中詞彙分布對齊),本研究挑出了在已知語言方向的專業翻譯語料庫(HT語料庫)中,以及在通用神經機器翻譯平行語料庫(MT語料庫)中,出現頻率較高的詞語。
關鍵詞分析顯示代名詞、情態動詞和專有名詞的分佈存在明顯差異,這說明該方法能有效感知到 MT 論述研究中已知的問題。代名詞推論是近期論述與機器翻譯研究中最重要的主題之一,這在第一節及相關研究中有所提及 (e.g., Bawden 2016Bawden, Rachel 2016 “Cross-lingual Pronoun Prediction with Linguistically Informed Features.” In Proceedings of the First Conference on Machine Translation, Berlin, Germany, 11–12 August, 564–570. Stroudsburg: Association for Computational Linguistics. ; Guillou 2016 2016 Incorporating Pronoun Function into Statistical Machine Translation. PhD diss. University of Edinburgh.; Luong and Popescu-Belis 2016Luong, Ngoc-Quang, and Andrei Popescu-Belis 2016 “A Contextual Language Model to Improve Machine Translation of Pronouns by Re-ranking Translation Hypotheses.” In Proceedings of the 19th Annual Conference of the European Association for Machine Translation, Riga, Latvia, special issue of Baltic Journal of Modern Computing 4 (2): 292–304.)。本研究發現,HT 語料庫中性別標記的人稱代名詞的使用頻率較高,這與 MT 在來源語未明確標示性別時,難以處理性別消歧的問題相似。關鍵詞分析還強調HT中所有格獨特的使用方式,這與 Loung 等人 (2017) 對西班牙語翻英語的 MT 中,所有格問題的討論相似,而西翻英與本研究調查的語言組合相似。情態動詞在自然語言處理中也是一個已知的難題 (Morante and Sporleder 2012Morante, Roser, and Caroline Sporleder 2012 “Modality and Negation: An Introduction to the Special Issue.” Computational Linguistics, 38 (2): 223–260. ),是 MT 研究的挑戰之一 (Nakov 2016Nakov, Preslav 2016 “Negation and Modality in Machine Translation.” In Proceedings of the Workshop on Extra-Propositional Aspects of Meaning in Computational Linguistics, Osaka, Japan, 12 December, edited by Eduardo Blanco, Roser Morante, and Roser Saurí, 41. Stroudsburg: Association for Computational Linguistics. https://www.aclweb.org/anthology/W16-5005.pdf)。關鍵詞分析顯示,HT 語料庫中情態動詞的使用頻率遠高於 MT 語料庫。詞彙一致性(在 MT 文獻中也稱為術語一致性和詞彙銜接)是 MT 論述研究中另一個廣泛討論的問題,因為 MT 系統在運作句子層次時可能會在文章層次上生成詞彙不一致的翻譯 (Carpuat and Simard 2012Carpuat, Marine, and Michel Simard 2012 “The Trouble with SMT Consistency.” In Proceedings of the Seventh Workshop on Statistical Machine Translation, Montréal, Canada, 7–8 June, edited by Chris Callison-Burch, Philipp Koehn, Christof Monz, Matt Post, Radu Soricut, and Lucia Specia, 442–449. Stroudsburg: Association for Computational Linguistics. ; Guillou 2013Guillou, Liane 2013 “Analysing Lexical Consistency in Translation.” In Proceedings of the Workshop on Discourse in Machine Translation, Soa, Bulgaria, 9 August, edited by Bonnie Webber, Andrei Popescu-Belis, Katja Markert, and Jörg Tiedemann, 10–18. Stroudsburg: Association for Computational Linguistics. https://www.aclweb.org/anthology/W13-3302.pdf)。在神經MT中,這個問題尤其嚴重,因為沒有使用詞組表來維持一致的翻譯 (e.g., Dougal and Lonsdale 2020Dougal, Duane K., and Deryle Lonsdale 2020 “Improving NMT Quality Using Terminology Injection.” In Proceedings of the Twelfth International Conference on Language Resources and Evaluation, Marseille, France, 11–16 May, edited by Nicoletta Calzolari, Frédéric Béchet, Philippe Blache, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, Hélène Mazo, Asuncion Moreno, Jan Odijk, and Stelios Piperidis, 4820–4827. Paris: European Language Resources Association. https://www.aclweb.org/anthology/2020.lrec-1.593.pdf)。關鍵詞分析中也發現了相同的問題,強調了MT在翻譯專有名詞時的不一致性。
關鍵詞分析不僅證實了 MT 已知的問題,還引起了人們對 MT 與專業翻譯之間其他差異的關注,值得進一步探討。例如,不定代名詞在 HT 語料庫明顯更為突出,但目前在 MT 研究中尚未受到足夠的重視。儘管本研究無法詳細調查所有關鍵詞,但透過對 HT 和 MT 關鍵詞的原文、HT及 MT語匯索引進行細讀,得以進一步進行質性分析,以深入瞭解 HT 和 MT 之間的論述差異。語法關鍵詞的分析側重於對比選定的代名詞、情態動詞和介系詞,而詞彙關鍵詞的分析則關注拼寫、專有名詞和外來語的使用情況。
雖然並非所有關鍵詞差異都會影響論述,但結果顯示,HT與MT之間的差異更常源於專業譯者使用各種間接的翻譯策略來提升目標讀者的閱讀體驗,而非單純的MT錯誤。超越單純的語言對等,House (2006)House, Juliane 2006 “Text and Context in Translation.” Journal of Pragmatics 38 (3): 338–358. 提到,HT在再脈絡化方面優於MT,即專業翻譯呈現出更少的歧義、更具慣用性,且更符合原文的情境語境和目標讀者群的需求。
減少歧義(又稱「明示」 (Blum-Kulka 1986Blum-Kulka, Shoshana 1986 “Shifts of Cohesion and Coherence in Translation.” In Interlingual and Intercultural Communication: Discourse and Cognition in Translation and Second Language Acquisition Studies, edited by Juliane House and Shoshana Blum-Kulka, 17–35. Tübingen: Gunter Narr.; Frankenberg-Garcia 2009 2009 “Are Translations Longer than Source Texts? A Corpus-Based Study of Explicitation.” In Corpus Use and Translating: Corpus Use for Learning to Translate and Learning Corpus Use to Translate: An Introduction, edited by Allison Beeby, Patricia Rodríguez Inés, and Pilar Sánchez-Gijón, 47–58. Amsterdam: John Benjamins. ) )在平行語匯索引中得到了證實,HT會在原文無對應的情況下插入情態動詞、代名詞和專有名詞。在這種情況下,應該插入哪個情態動詞、代名詞或名詞的線索,往往來自於對文本的解釋(語境),而非文本本身。這些插入往往不是來自文本本身,而是來自對其語境的理解。例如,範例(1)葡萄牙語中的 ainda pisava 在上下文缺失的情況下,可以譯為「還在踩」或「可能會踩」;動詞賓語的語境在此範例中為「踩地雷」,而譯者可以根據此語境選擇更合適的翻譯。儘管本研究未聚焦MT在詞義消歧上的問題,但在範例(11)中,譯者從語境推斷出 tios 應譯為「叔叔和阿姨」,而非僅僅「叔叔」;在範例(16)中,譯者推斷 experiência 應譯為「實驗」而非「經驗」;在範例(18)中,“Mesquita” 是一個專有名詞,而非指「清真寺」。
在MT產出更加直譯的平行詞匯索引中,可以觀察到習語性的提升,而HT則更傾向於使用間接或隱晦的翻譯策略,以避免破壞目標語言的語法或風格。如前一部分的多個範例所示,這種效果部分是透過轉換(詞類的改變)、部分是透過調整(視角的改變)、部分是透過重述(完全改寫)來實現的 (Vinay and Darbelnet [1958] 2004Vinay, Jean-Paul, and Jean Darbelnet (1958) 2004 “A Methodology for Translation.” In The Translation Studies Reader, 2nd ed., edited by Lawrence Venuti, 128–137. London: Routledge.)。例如,在範例(2)中,使用情態動詞 “might” 代替副詞 “maybe” 即屬於轉換的例子;在範例(8)中,將 um filho sem mãe 翻譯為 “a motherless child”(沒有母親的孩子),而非 “a son without a mother”(一個沒有母親的兒子),屬於調整的例子;而在範例(12)中,將 dar-lhes a comida 翻譯為 “fix their meals”(為他們準備飯菜),而非 “give them food”(給他們食物),則是重述的例子。有趣的是,這三個MT等價詞中的直譯並非誤譯,只是使用了在MT中顯得獨特或使用過度的詞語,如 “maybe”、”without” 和 “give”(見 表二)。
由於譯者傳達語域(即反映語言使用情境的語言特徵組合 [Halliday 1978Halliday, M. A. K. 1978 Language as a Social Semiotic: The Social Interpretation of Language and Meaning. London: Edward Arnold.])的效果更佳,因此HT提升了讀者的閱讀體驗。可以明顯看出,MT有時傳達的正式程度與敘事語境不符。例如,在範例(3)中,一位父親可能不會對他的兒子說 “extinguish the lamp”(熄滅燈火),而是說 “put out the lamp”(把燈熄掉)。類似 “put out” 這樣的片語動詞更符合非正式語域,而非片語同義詞如 “extinguish” 則偏正式。同時,MT中非正式詞彙如 “yeah” 和 “guy” 似乎被過度使用(見表二),這表明在不同語言使用情境下,MT未能正確判斷正式程度。 此外,在某些地方,譯者會刻意使用外來拼法或詞彙,以傳達敘事的異國情境。例如,在範例(20)中,譯者使用西班牙借詞 plaza 來指代西班牙背景小說中的「廣場」,或者在古羅馬背景的小說中使用名字 “Proserpinus” 的拉丁拼法 (表三)。相比之下,MT無法辨識何時應適當借用外語詞彙。
第四種,也是最後一種提升讀者體驗的方式,HT還展示了譯者對潛在溝通障礙的敏感性。這體現於譯者對外來語的使用進行慎重考量,判斷哪些是安全的借詞;以及如何補充意義,以填補目標讀者在相關知識上的空缺。Pym (2015)Pym, Anthony 2015 “Translating as Risk Management.” Journal of Pragmatics 85: 67–80. 將此稱為「風險規避翻譯策略」。例如,在範例(21)中,簡寫的稱呼 d. 被MT譯為 d.,但在HT中展開為 Dona 或 Dom。這不僅幫助英語讀者理解這個隱晦的縮寫 d. 的含義(注意:葡萄牙語的展開形式與西班牙語和義大利語類似),還增強了敘事的異國語域,因為這些詞在英語語境中並不常用。此外,擴展的譯文利用語境知識(隨後出現的名字為分別用於女性和男性的常用名),消除女性稱謂 dona 和男性稱謂 dom 的歧義。在 HT的詞匯索引中,對
目標讀者可能難以理解的部分也相當敏銳。例如,翻譯中補充了 “theatre”(劇院)一詞,向不熟悉里斯本文化背景的讀者說明 Dona Maria 是一家劇院。另一個範例詞匯索引中的再脈絡化,為 HT 中將 “each one to fulfill his duty” 更改為 “every man and woman to do their duty” 的翻譯(範例( 12)),表明譯者有意避免使用帶有性別色彩的語言。而且,甚至連拼寫的差異(如英式和美式拼寫的選擇)也清楚地表明:譯者翻譯時,對目標讀者的存在有所意識。
雖然本文無法進一步詳細說明,但分析中有數百列語匯索引提供證據,表明HT和MT之間出現的許多差異,是由於譯者與MT不同,能夠根據不同的溝通需求和語言使用情境調整詞彙選擇。相較之下,由於MT的訓練資料具投機性質,未區分來源語與目標語,因此無法區分來源語讀者和目標語讀者。另一個問題是,若缺乏文本外部的語境,進行MT的品質評估時,無法區別在特定情境中有效的解決方案,卻在其他情境中無效的情況,例如目標語言中使用正式或非正式的等價詞。此外,我們也需要認識到,有經驗的譯者熟悉論述中與語境相關的因素,如語域和各目標語讀者間的知識差距,並且譯者受過訓練,能在需要時運用間接翻譯策略進行處理,而非專業人士則往往僅從語言對等的角度來處理翻譯 (Tirkkonen-Condit 1990Tirkkonen-Condit, Sonja 1990 “Professional vs. Non-Professional Translation: A Think- Aloud Protocol Study.” In Learning, Keeping and Using Language: Selected Papers from the Eighth World Congress of Applied Linguistics, Sydney, 16–21 August 1987, edited by M. A. K. Halliday, John Gibbons, and Howard Nicholas, 381–394. Amsterdam: John Benjamins. )。來自非專業翻譯的MT訓練資料可能不太適合採取專業人士用以調整論述的翻譯策略。
本研究中進行的語料庫驅動關鍵詞分析,不僅強調了MT中已知的問題,還識別出MT論述研究須進一步解決的挑戰。若欲追求超出文章層次的一致性,顯然需要更多研究來探討MT論述如何應對語域和原文生成時的情境語境。儘管客制化的MT對於解決具有挑戰性的的部分問題很有幫助,但可控且高品質的訓練資料可用性,其可用性有限。因此,未來會碰到的一個問題是,像本研究中使用的這類通用MT能否透過訓練來推斷原文的語境,並相應地調整翻譯產出。另一個問題是,能否訓練MT識別文章層次的語域變化,例如在正式敘述中出現的非正式對話或引述。除了認知原文的語境外,本研究還呼籲應進一步探討專業翻譯中典型的再脈絡化策略,在翻譯過程中將目標讀者的常識納入考量。
除了為進一步的MT論述研究提供見解外,本研究的一般性發現以及提供的具體語匯索引範例,也有望對譯者培育和譯後編輯訓練有所助益。
最後,必須承認本研究的範圍有限,且為探索性質,無法詳細分析所有標記出來的MT和HT關鍵詞,研究中也只使用了一個MT引擎和一個語言組合。儘管有所局限,本研究表明,語料庫驅動的關鍵詞分析可以成為MT論述研究中有發展潛力的工具,因為語料庫驅動的關鍵詞分析不僅可以指出已知問題,如代名詞推論和指代,還可以揭示在翻譯論述中語境層面裡,值得進一步探討的新見解。
資助信息
致謝
感謝本期刊的匿名審查人,以及編輯對本稿提出的寶貴意見。