2023年3月3日金曜日

機械翻訳に適した原文・適さない原文

 以前このブログで記事を書いて炎上した、「機械翻訳の精度が今以上に向上したら人間の翻訳者は要らなくなるのかという問い」に再度向き合ってみたいと思います。

 この問いは職業翻訳者にとっては「明日の生活の糧が消えるのかどうなのか」という切実な問題であると同時に、機械翻訳の開発側・売り手側にとっては「人間翻訳者の活躍の場が残されている=機械翻訳が完全ではないことの証明」だと指摘しているように捉えられる可能性もあり、生半可な気持ちで手を出すと再びほうぼうから袋だたきに遭う可能性があります。

 にもかかわらずこの問いに再び挑む理由は、「翻訳者は最終的にいらなくなる」という認識をこれ以上広めると、本当に困るのは実は翻訳者ではなく、社会全体だと考えるからですこれから新しく翻訳業界に入ってくる人がいなくなり、業界から去っていく人が増えて人材不足に陥ると、社会のどこかで必ず困る人が出てきます。その理由について「機械翻訳にはそれに適した原文・適さない原文がある」ということを論じ、それを通じて業界内外の人に対し納得できる説明をする、というのが今回の記事の目指すところです。うまくいくか分かりませんので気持ちと時間にゆとりのある方はお付き合いください。
 前回の記事は「誰に何を言いたいのか明確でない」という指摘がありましたが、業界内外の人たち、広く一般に向けて書いていました。今回も同様です。翻訳業界の未来に一ミリも興味のない方にとっては「実益が一ミリもない」記事であって時間を損する可能性がありますのであらかじめご承知おきください。

目次

1. 機械翻訳に適した原文
2. 機械翻訳に適さない原文
3. 職業翻訳者を社会に残さなければならない理由
4. 将来に向けた提言(商業的成功の追求・政治的支援の可能性)


 前置きが長くなりましたが、大前提として、機械翻訳の精度は実際非常に高くなりました。これは紛れもない事実です。我々翻訳者もまずはここを認める必要があります。

 機械翻訳がこれだけ発展しても人間の翻訳者に活躍の場所が残されているのは、機械翻訳の「精度が不十分」だからではありません。そこが誤解されていると思います。「翻訳者なんかいずれはいらなくなる職業なのにまだ『機械翻訳はダメだ』と騒いでいる人たちがいる。それは機械翻訳の精度が低いからだ。機械翻訳もっと頑張れ」などと言う人がいますが、その認識は間違っていると思います。

 機械翻訳という道具はその性質上、どこまで精度を高めてもそれだけでどんな原文でも必ず訳せるというものではありません。ボタンひとつでどんな会話も文章も発言者の意図した通りに適切に翻訳されるというのはSFの世界です。発言にはほとんどの場合に文脈があります。人間の言語活動はそれほど単純なものではありません。機械翻訳には必ずそれに適した原文と適さない原文があります。

 機械翻訳に適した原文とはどういうものなのか。機械翻訳に適さない原文とはどういうものなのか。まずはその点についてそれぞれに分けて具体的に例を挙げて説明したいと思います。

1. 機械翻訳に適した原文


 機械翻訳に適した原文とは、ひと言で言うと文字通り訳(リテラル訳)に適した文章のことです(世間一般に言ういわゆる「直訳」のことです)。言外の意味が含まれていないローコンテクストな(文脈に依存しない)文章とも言えます。
 
 例えば、以下のように事実を平易に述べた文は機械翻訳に適しています。長いですが構文は平易で難解な表現や成句はなく、言外の意味が含まれる箇所もないので文字通りに訳せば比較的そのまま意味が通るので機械翻訳が得意とする文章です。これを二大MTに入れてみましょう。

Financial statements are written records that convey the business activities and the financial performance of a company. Financial statements are often audited by government agencies, accountants, firms, etc. to ensure accuracy and for tax, financing, or investing purposes.


【DeepL訳】
財務諸表とは、企業の事業活動や財務成績を伝えるための記録文書です。財務諸表は、政府機関、会計士、企業などによって、正確性を確認するため、また税務、融資、投資のために、しばしば監査される。

常体と敬体が混じっていますが、意味は通ります。常体か敬体のどちらかに統一するという微調整で済むので、MTPEで対応できる文です。)

【Google翻訳】
財務諸表は、企業の事業活動と財務実績を伝える書面による記録です。 財務諸表は、政府機関、会計士、企業などによって、正確性を確保するため、および税務、資金調達、または投資目的で監査されることがよくあります。

意味はギリギリ分かるので語順を入れ替えるなどして整えれば比較的読めると思います。ぎこちなさがあるのでこれを読みやすくするにはポストエディターにはそれなりに負荷はかかりそうですが、これぐらいのぎこちなさなら修正せずにそのまま使う、という選択肢もあります

 次は変化球です。一見、訳しづらいと思われる会話表現です。例えば、うどん屋さんに行って「私はきつねで」と言ったのをDeepLに入れたらこうなったとします。




 これはある意味、誤訳ではありませんし、「精度が低い」と言って笑うべきではありません。なぜなら文字通りにきちんと訳されているからです。精度という観点で言えばむしろ高いです。これが翻訳として機能しないのは、この文脈
(うどん屋でのオーダーという状況)において発話者の意図した内容が伝わっていないからです。つまり、これはこのままでは原文が機械翻訳に適さないということです。しかし、これは原文を機械が訳しやすいように編集することで解決できます。



 「きつね」ではなく「きつねうどん」とフルで言い換えています。きつねうどんをどうするのかについて「オーダーします」という動詞を補っています。しかしそれでも「きつねうどん」は"kitsune udon"としか訳されなかったのでこれでは通じないと思い、きつねうどんの説明をカッコ書きにして原文に追加しています。すると、「油揚げ」は"deep-fried tofu"ときちんと訳されています。これで英語圏の人にもkitsune udonがどのようなものか、おおよそは伝わると思います。

 このような作業のことを「プリエディット」と言います。このようにして「機械が訳しやすいように原文を編集」することによって機械翻訳はかなり高い精度で適切な訳文を生成します。

 教師データが多い分野や企業内で専用で動かしているエンジンなどではこの「きつねうどん」にあたるデータが機械学習されており、カッコ書きの説明を入れなくても発話者の意図した通りの訳文を出してくることもあります。

 実際、このようにすれば機械翻訳はかなり便利に使うことができます。英語が全く分からない人には十分に使いこなせないかもしれませんが、「自分で英作文はできないけれど出てきた英語の良し悪しは判断できる」という程度の英語力のある人が使えば、機械翻訳は非常に強い味方です。プリエディットしてから原文を機械翻訳に入れ、出てきた訳文を少し自分で修正すれば、平易な文章であれば外部の翻訳会社に依頼しなくても訳せるかもしれません。

 実際に、一部の企業ではそのようにして機械翻訳を社内で使うように奨励したり、上のような「プリエディット/ポストエディットのコツ」のようなことを外部講師を呼んで社員研修を実施するなどして、現場で積極的に機械翻訳を導入して業務効率化しようという動きもあるようです。そうした動きは今後ますます加速するでしょう。

 特にIR資料など、翻訳に即時性が求められる場面においては、「機械翻訳による翻訳です」という免責事項を記載することにより、機械翻訳による訳文の活用が広がっていくと思われます。

2. 機械翻訳に適さない原文


 一方、機械翻訳に適さない原文というのはどのような文章でしょうか。端的に言えば上記と正反対の文章ということになります。つまり、構文が複雑、または言外の意味を含む、文脈依存度が高い、という文章がそれに当たります。

  We all have vast potential inside of us, untapped levels of strength, intelligence, and focus, and the key to activating these superpowers is unlimiting yourself.

 この文章のように
 ①構文が取りづらいもの
 ②事実の伝達ではなく概念・思想のようなもの

 は機械翻訳に適さないことが多いです。

 これはTwitterで「なるいくん」(https://twitter.com/naruikun)さんが2023年2月20日の「今日のパンチライン」という投稿で紹介されていた原文です。
「なるいくん」さんはこのように訳されていました。(掲載にはご本人の了承を得ています)

人は皆、計り知れない潜在能力を秘めている。力、知性、集中力といった眠っている能力を開花する鍵は、自身に限界を作らないことだ。

 "activate"を「開花する」と訳すなど、辞書では見つからない訳語が採用されていますが原文のエッセンスが非常によく伝わる名訳だと思いました。

 この原文を日本語に訳す際の難しさはとくに、"vast potential inside of us" と、"untapped levels of strength, intelligence, and focus"が同格になっているところです。なるいくんさんは「計り知れない潜在能力」と「力、知性、集中力といった眠っている能力」が同格になっていることを意識し、読者にそのつながりが分かるように見せたうえで読みやすくするためにあえて文を切っています。

 このように少し読み取りづらい構文が含まれていると機械翻訳は誤読する確率が高い傾向にあります。この原文をさきほどと同じようにDeepLとGoogle翻訳に入れてみます。
 
【DeepL訳】
私たちは皆、自分の中に大きな可能性を持っています。力、知性、集中力など、未開発のレベルです。

構文が取れておらず、and 以降の後半部分がごっそりと欠落しています。原文の意味が正しく翻訳されていません。精度は低いと言えます) 

【Google翻訳】
私たちは皆、自分の中に無限の可能性を秘めています。未開拓のレベルの強さ、知性、集中力を備えています。これらの超大国を活性化する鍵は、自分自身を制限しないことです。
単語レベルでは前から順に忠実に」文字列変換してきているのでDeepLの訳よりはマシなように見えますが、件の箇所が同格であることが無視されています。また、"superpower"の意味を取り違えて文脈に合わない訳語(「超大国」)になっているほか、全体的に直訳調で日本語として読みづらい文章です

 ちなみにこの原文は、調べてみるとジム・クウィック(Jim Kwik)という著者の『LIMITLESS 超加速学習: 人生を変える「学び方」の授業』という書籍の一節でした。邦訳本のなかでの訳し方はまた違ったアプローチでした。どちらが良いという話ではないのでここには載せませんが、気になる方は書籍で確認してください。原書は『Limitless: Upgrade Your Brain, Learn Anything Faster, and Unlock Your Exceptional Life』です。この文は結構序盤で出てきます。

 さて、この2つの機械翻訳にかけた原文ですが、機械翻訳の精度の話をしているのではなく、こういうタイプの原文はそもそも機械翻訳では扱いにくい、という話をしています。頭から順番に単語を置き換えたただけでは意味をなさないからです。こういう文章は他にもたくさんあります。

 例えば契約書などのように、一文が10数行にも及ぶような長い文を含む文章です。条件節が複雑に挿入されていて、丁寧に読まないと係り受けを把握できない文章は機械翻訳が苦手とするところです。短く切ってすべて単文にしてから機械に入れれば訳せることもありますが、節と節の関連性が失われて意味不明になることもあります。

 また、構文は取れていても辞書にある言葉で文字通りに訳すと意味が伝わらないという原文も機械翻訳に適さないと言えます。上の例で言うとactivateは辞書にある言葉の中から起動する、有効化する、作動させるなどと訳すと原文の意図するところが伝わらないので、英英辞典を引くなどして単語の元の意味を理解してから文脈に合う日本語を自分で探すもしくは当てはめる必要があります。上の例以外にもいわゆる偉人の名言のような文やことわざのような類も、この条件にあてはまりやすいと思います。

 問題はこのような原文の「機械翻訳の適用性」という観点において、一つの文章全体が100%適用外とか100%適用可ということはないことです。文章にはほとんどの場合、この両方が混在しています。例えば800ワード程度の原文があるとして、100文程度の文で構成されているとします。このうち、何%が適用外で何%が適用可であるかは毎回原文の種類によって異なり、明確な判断基準は現在のところ(私の知る限り)存在しません。

 しかし驚くことにというか困ったことにというか(喜ばしいことにという人もいるかもしれません)、機械翻訳はこのように本来適用外の原文であっても、まれに偶発的に「良い訳文」を出してくることがあります。これは人間の翻訳行動をなぞって機械学習しているために、過去のパターンに寄せて訳文を生成したらたまたま良い訳になった(原文を理解して人間が訳した結果と偶然似たような出力になった)ということがあるからです。これがあるから機械翻訳に適した原文と適さない原文の区別が現状、つきにくくなっています。これが機械翻訳についての評価が人によって分かれていることの要因の一つになっていると思います。

 私が考える現状の機械翻訳運用における問題点は、こうした機械翻訳に適した原文と適さない原文を混在させたまま、一律に機械翻訳にかけて処理し「人間によるポストエディット」で一から訳した場合と同品質を求めようとしているところです。

 機械翻訳がマッチした箇所をポストエディット料金、マッチしなかった箇所を通常の翻訳料金、と分けて設定するなどということには時間もコストもかかり、(判断基準もないため)実際、技術的に不可能だとは思いますが、現状そこのところは「みんなうすうす分かっていながらそんなことを言いだしたら面倒だから」見ないふりをしているのではないでしょうか。

3. 職業翻訳者を社会に残さなければならないと私が考える理由


 さて、こうした現状があるなか、仮に冒頭で述べたように「翻訳者は最終的にいらなくなる」という言葉を信じて多くの翻訳者が廃業して別の仕事に就き、新たに業界に入ってくる人がいなくなる、という状況が実際に起き、最終的に「翻訳者」がいなくなり「翻訳会社」がなくなったとしたら、実際に困るのは誰でしょうか。

 まず、社内などで発生する翻訳の場合、社内や組織に翻訳のできる人を抱えることで解決すると思われるかもしれません。実際にポストエディターの求人案件は増えているという情報も耳にしました。しかし、翻訳や翻訳の修正は経験の浅い人にやらせていきなりうまくできるものではないので、翻訳のプロでない人に作業させてすぐに満足の行く訳が手に入ることはまれだと思います。機械翻訳で「一見正解に近いように見える訳」が手に入っても、それを「正確で読みやすい」という人間レベルの翻訳に修正するには翻訳者と同等もしくはそれ以上の能力がないとできないからです。ポストエディターを雇ったとしても一定の訓練期間を要するでしょう。そうなると結局、外注していた翻訳者を社内で雇うのとほぼ同じコストがかかることになります。人件費を減らそうとしてスポットで外注していた翻訳作業に対し、仕事があるときもないときもあるのに一人分の雇用が発生することになり、派遣社員や臨時社員として雇ったとしても却ってコスト増になる可能性もあります。

 次に、書籍翻訳などの場合。仮に文芸翻訳者や出版翻訳者がゼロになった場合、外国語で書かれた文章を読者が各自機械翻訳に通して読むことになるでしょう。現状でも人気があるのになかなか邦訳されない海外の漫画などが、しびれを切らしたファンたちによって機械翻訳を通して読まれていることはあるようです。しかし、エンタメのセリフや文章には特に上のような機械翻訳に適さない文が含まれているケースも多いと思うので、機械翻訳の結果では意味が分からないケースが多発するでしょう。そういうページは飛ばして読むか、前後から推測するか、または自分で語学を勉強して読むことになります。読みたい本があるのに日本語では一切出ていない世界。大勢の一般読者が困ると思います。

 また、講演などのスピーカーはどうでしょう。翻訳の話から少しだけずれて通訳の話になりますが、仮に運営側から「人間の通訳者はコストがかかるので廃止しました。発話と同時に機械翻訳で前のスライドに訳を表示しますので、できるだけ機械が訳しやすいように話してください」と言われたらどうでしょう。話の内容が機械で訳せる範囲に制限されます。スピーカーも話を広げようがなく困ると思いますし、せっかく面白い話を聞けるはずだった聴衆も、機械に訳しやすいように制限のかけられた話を聞くことになって面白さが半減して残念な思いをする可能性もあります。

 このように、翻訳のプロたちを社会から抹消すると、どこかで困る人が必ず出ると思います。だからゼロにはしないけど今より数は減るんじゃないかという指摘もありますが、それも「現在訳されているものだけを全部機械に置き換えた場合」の話だと思います。実際にはそれほど減らない、減らせないと思います。機械翻訳で対応できる部分はすべて機械に置き換えていっても、機械でどうしても訳せない部分で人間の需要が発生しますから、人間が担当する原文の種類が変わるだけです。機械でもできるような簡単な仕事しか担当していなかった人、そういう仕事しかできない人の仕事はなくなるかもしれませんが、機械以上に複雑な処理をできる人の仕事はなくならないと思います。また、何度も言うように、機械の翻訳結果が不満足に終わるケースは機械翻訳の「精度」がまだ低いからではなく、そもそも原文が機械翻訳にマッチしていないからです。そういう意味では人間の活躍の場が残されているのはどういうフィールドなのか、翻訳者は時代の潮目を常に読む必要があるということです。需要がなくなる可能性の高い分野にいつまでも留まるのは危険ですが、変化に合わせてこちらも変化することで自分の仕事を守ることができます。

 
4. 将来に向けた提言(商業的成功の追求・政治的支援の可能性)

 最後に将来に向けた提言ですが、まず、翻訳者は世の中で機械翻訳の使用頻度が高まることを嘆いていても始まりません。うまく使えば便利な道具であれば皆が使うのは当然のことです。そのような流れのなかで翻訳者は「無料でかつ秒で出るサービス」と戦っているのだということを自覚する必要があります。その上で、「タダで手に入るものとは違うサービス」を、付加価値を付けて売っていくという意識が重要です。機械翻訳を使って訳した場合に起こりうるリスクを啓発するより(それももちろん大事ですが)、自分に発注してもらったらどんな実利があるのかを、一人一人が明確に打ち出し、職業翻訳者たちがビジネスとして商業的成功を目指していく必要があります。

 それと同時に、商業的成功を目指すことで「儲かる仕事しか残らない」という方向に物事が加速度的に進んでいく可能性があります。コストをかけて人間が訳しても誰も読まない、売れない、という本は誰も訳さなくなる、という未来は簡単に予想が付きます。しかし、機械にも訳せないような文を正確に読みやすく訳す、という翻訳技術は後の世代に受け継いでいかなければ必ず社会のどこかで困る人が出てきます。商業的なうまみがない分野で学術的にまたは文化継承のためなどに必要な翻訳をできる人材を残すという意味で、例えば「翻訳者という文化財を守る」みたいなことを政治を動かしてやる、という活動があってもいいのではないかと思います。すでにそういう動きがあるのかどうか、勉強不足で分かりませんが、そうしていく必要性は非常にあると思います。

 巻物のように長いブログとなってしまいましたが、機械翻訳と翻訳者の未来について、現時点で思うところをだいたいですが盛り込めたと思います。いかがでしたでしょうか。

 ご質問・ご意見がある方はTwitterなど私が公開している各SNSから直接ご連絡ください。匿名での批判は非常にメンタルを傷つけられますので、今回はコメント欄は無効とさせていただきます。