2022年8月19日金曜日

機械翻訳に対する現時点(2022年8月)での私の認識

字幕翻訳スクールがAI字幕翻訳ツールを開発したというニュース

 数日前に字幕翻訳スクールがAI字幕翻訳ツールを開発したというニュースが流れ、翻訳者たちの間に衝撃が広がりました。これを受けて翻訳者の堂本秋次さんがYouTubeで緊急動画を配信され、それを見たローズ三浦さんの発案で堂本さん、ローズさん、私の3人で機械翻訳の現状についてライブ配信することになりました。当日の告知にもかかわらず30名以上に方々にライブでご視聴いただき、その場でコメントもたくさんいただき成功裡にイベントは終了しました。(3人のトークイベントの動画はこちら:https://www.youtube.com/watch?v=L09NEJLBNzU

普段「機械翻訳についてどう思いますか」と聞かれるわりに回答にこれほど長い時間をいただけることはなかったので、司会の堂本さんが用意してくださったテーマでお2人と話すことで私自身としても改めて機械翻訳について自分がどう認識しているのか考えを深めることができて、非常に良い機会となりました。

話題は多岐にわたったので2時間半の長丁場となった議論を全部ここに文字起こしすることはしませんが、記憶が新鮮なうちに議論を通して感じたことを書き留めておきたいと思います。

議論で深まった自分の思考

まず、件のAI字幕翻訳ツールが登場したというニュースを受けて堂本さんが素早く出された動画がこちらです(https://www.youtube.com/watch?v=_qqDGSc0Yhg&t=6s)。これを見て、ああ、自分の言いたいことはほとんど言ってくれているなあという印象だったのですが、それを踏まえていてもやはり3人で話をして配信中の視聴者からのコメントも見ながら議論すると1人で話したり考えたりしている時よりもいろいろな考えが浮かんで自分なりに思考が整理されたように感じます。

同配信では以下のようなテーマについて話しました。

・機械翻訳の性能について

・機械翻訳は人間の翻訳の価値にどう影響するか

・ツールとしての機械翻訳の有用性とFP(フルポストエディット)やLP(ライトポストエディット)について

・機械翻訳だけで成り立つ業界は生まれるか?

・ビッグデータの取得経路について

・機械翻訳との共存に翻訳者は何ができるか?

機械翻訳を個人的に使う人と仕事として請ける翻訳者とでは見ているものが違う

最初のテーマで話を振られた時、3人とも現在の機械翻訳については「かなり精度は上がってきていると思う」という回答をしました。しかし、そのあとポストエディットに話が及ぶと「機械翻訳の出力をエディット(編集)することで必ずしも作業負荷は軽減されていない」という実感を口にしました。見る人には早速矛盾を起こしているように聞こえたかもしれませんが、このように話したのには理由があります。

例えば会社の中でDeepLやGoogle翻訳などを使っている人と、「MTPE(機械翻訳のポストエディット)」を案件として受注している翻訳者またはポストエディターとの間では見ているものが違うということです。

会社員や個人が会社や自宅で外国語で書かれた資料やニュース記事をDeepLやGoogle翻訳に入れた場合、「あ、結構いい訳が出るじゃないか」と感じるだろうと思います。ここまでは私も同じ感想を持ちます。(2016年にGoogle翻訳にニューラル翻訳が導入されて以来機械翻訳の精度は劇的に上がりました。)

しかし、機械翻訳に入れてみて「まあまあの精度だった」ものは、その場で「ああよかった。結構使える訳が出るじゃないか。じゃあこれをこのまま使おう」と言って資料やその他の文章に使い、それで終わっていきます。

翻訳者やポストエディターにわざわざ「お金を支払って」エディット(編集)して欲しい、というのは大半が「機械に入れてみたけどどうしようもなかったもの」です。主語がないものや固有名詞が頻出するもの、前後の文脈を知っていなければ訳せない内容のもの、構文が複雑すぎて機械では読み取れなかったもの等様々ですが、こういった「機械翻訳では全然意味が分からなかったからお願い」と、いわば駆け込み寺のようにして持ち込まれたものを私たちは現場で相手にしているわけです。このレベルになると、「ちょっと修正すれば済む」という話ではなく、ほとんどの場合全部消してイチから訳し直しになります。

このような現状を多くの人は知らないので、「翻訳者たちは自分たちの仕事がなくなると困るから『機械翻訳の出力なんかダメだ』と言ってるだけじゃないのか。DeepLの出力はこんなにも良いのに」と不信感を募らせるのだと思います。

しかし上で説明したように両者は見ているものが違うのです。そこが食い違っているから一般の人と翻訳者との間で機械翻訳に対する認識が食い違っているように感じるだけだと思います。

翻訳を職業にしていなくても社内に英語ができる人材を多く抱える会社も少なくありませんから、「機械翻訳にかけてみてだいたい良さそうだけど正しいかどうか不安だから念のため確認して欲しい。間違っていたら修正して欲しい」という案件もあるにはありますが、まれです。その程度の確認で済む話であれば社内で語学の堪能な人がチェックして微修正すればいい話だからです。多くの人はこの作業を翻訳者が担っていると誤解していると思います。

しかし、機械翻訳で良い偶然が重なって偶発的に良い訳文が出力されれば、社内の人がチェックして終わることが大半なので、そもそもその案件が市場に出てくることはほとんどありません

多くの発注者が「だめだこりゃ」と思って人間の翻訳者に依頼してくる案件がポストエディットと名がついた訳し直し案件なのです。

機械翻訳が台頭してきたことによる翻訳者への直接的な影響として、翻訳市場に上がってくる案件の難易度が上がっていることが挙げられます。

2016年のNMT(ニューラル機械翻訳)導入以前は例えば「この商品の納期はいつごろになりそうですか」「先日はありがとうございました」などといった簡単な内容がクラウド翻訳サイトに翻訳依頼案件としてあがっていました。学生アルバイトや翻訳者としてのキャリアをスタートさせたばかりの人たちがこうした案件をクラウドで受注して小遣いを稼ぐことはそのころはまだ可能だったのです。

しかし、現在はそのようなシンプルな内容であれば一般の人が無料で使える機械翻訳サービスでそこそこの翻訳結果が得られるため、わざわざお金を払ってまで発注するケースはまれになりました。ですから一時期隆盛だったクラウドソーシングサービスからも簡単な内容の翻訳案件は姿を消すことになりました。

機械翻訳でどうにもならなかった出力を何とか生かして作業負荷を減らすなどということはできるはずもありません。機械翻訳で単価を減らされても翻訳者が楽になるのは「手を入れなくても使えるレベルの高精度の出力が多く含まれる」場合に限ります。

「意味は分かるけどこんな言い方はしないからゼロから良い表現を頭で考えなければならない」

「一応これで意味は合っているけど業界でこの表現でいいのか(客先でこの用語が使われているのか)確かめなければ使えない」

「固有名詞は一応訳されているけどこれで合っているのかどうかは裏が取れていないので会社のウェブサイトに行って確かめなければならない」

「なんとなくそれっぽく訳されていて原文を見なければこれで良さそうに見えてしまうけど原文と突き合わせて確認したら意味が全く違ってしまっている」

こういうケースは山のようにあります。

機械が訳した出力を確認して修正して欲しい、という場合、訳文だけを見て直しているわけではなく原文と突き合わせて正しく訳されているか確認しながら(正確性を担保)、日本語の文章として(あるいはその他のターゲット言語の文章として)読みやすいように編集する(流暢性を担保する)作業は、インターネットでの調査、それを含めた原文の理解、ターゲット言語で読みやすい文章を再構築するという工程を通りますから通常の翻訳と何ら変わらないのです。(それどころか、機械の出力を確認しなければならない分、通常の翻訳より作業負荷は大きくなります)そこを「ポストエディットなんだから安くしてよ」と言われても単なる値切り行為としか感じられないため、多くの翻訳者がポストエディット案件を敬遠するのです。

翻訳者が「機械翻訳のポストエディットで作業は楽になっていない」というと「本当は楽になっているのにお金が欲しいから機械翻訳の出力がまずいとおおげさに言っているんじゃないの」「翻訳の仕事を機械に奪われたくないからポジショントークをしているんじゃないの」と言われるだろうと思っていたので、どう説明すれば一般の人にもわかってもらえるのだろうか、とずっと頭を悩ませてきたのですが、今回配信の中で自分がふと発した「一般の人と我々では同じ機械翻訳と言っても見ているものが違うんですよ」ということでかなり説明がついたのではないかなと思っています。

良い文を良いと思う人が減れば減るほど翻訳文化が死んでいく

8月16日の動画の中で堂本さんがおっしゃっていた「良い文を良いと思う人が減れば減るほど翻訳文化が死んでいく」という言葉が印象的だったのですが、本当にその通りだなと思います。原文を正しく解釈して原文が伝える内容を等価のまま訳文に反映させるという翻訳の仕事には思考を伴います。しかし、機械は過去データから似たようなケースを導き出して「たぶんこれなんでしょ」という結果を偶発的に提示してきているに過ぎないので、「細かいことを言えばちょっと違うけどまあいいか、タダだから(安いから)」と妥協して使うことが増えると、別に一生懸命正しく翻訳しなくても良い、ということになり、世の中にテキトーな翻訳めちゃくちゃな翻訳がはびこることになります。きちんとした翻訳をする翻訳者に正当な対価が支払われなくなると場合によっては生計が立てられず廃業する翻訳者も出てくると、まともに訳せる翻訳者が市場からいなくなり、究極的には翻訳文化が死んでいきます。


機械が訳しやすいような原文を書け、という流れが加速すると言語活動が狭まり、日本語文化が衰退していく

このまま機械翻訳の導入が加速していくと、現場で「機械が訳しやすいように原文を書く」という流れも加速していくだろうと思います。そのようなことは一部で現実に起きています。ご承知の通り機械は基本的にこれまで蓄積されてきたビッグデータの統計とそれをもとにした機械学習の成果からしか訳を導き出せないので、新たな概念、新たな用語、新たな内容は訳すことができません。仮に人間の翻訳者を一切排除して機械翻訳だけでも良いものが完成しましたという未来がきた場合、新しい言葉を入れると機械は訳せないから機械が訳せないような原文を書くのはやめてくれということになると、原文のライターに著しい制約が課されることになります。産業翻訳の場面でシンプルで分かりやすい説明が求められる現場ならまだしも、文学やエンタメ、新しい研究結果を伝える論文などで「機械が訳せる範囲の言葉しか使ってはならない」ということになると、大げさな話ではなく言語が衰退していきます。

英語に訳す前提で書いてくれ、となると単語やフレーズレベルではなく、英語に訳しにくいことは書かないように、言わないようにしなければならなくなって言語活動が縮小していきます。

新しく出てくるはずの美しい言葉、面白い言葉、感動する言葉をこれから先も守っていくために、「どんな概念が出てきてもなんとか訳をひねり出してみせます」という人間の翻訳者の存在は絶対に確保しなければ、日本語が貧しくなっていくのです。これは絶対に阻止しなければなりません。

ホンヤクこんにゃくは人類の希望

機械翻訳は実際、便利です。私も好きな韓国スターの発言を読みたくてGoogle翻訳を使いますし、ネット通販を使ったら意図せず中国から商品が送られてきて中国語のマニュアルしかついていなかったらスマホのカメラ翻訳機能を使って説明書を読むこともあります。

自分が学習していない言語を日本語に訳せるというのは素晴らしいことです。この技術の進歩を誰も止めることはできないですし、「まだまだ機械翻訳の性能は低いから大丈夫ですよ」などというつもりはありません。

そうではなくて、機械で訳せるものも多くなったけれど、「機械でどうにもならなかった部分」は必ずこれからも存在して、決してゼロになることはない、というなのです。

そこにまだまだ翻訳者が活躍する道が残されているとみるか、他の仕事へ徐々に軸足を移すのか、それとも「機械にできることは機械にゆずって人間は人間にしかできないクリエイティブな内容の翻訳に今後は注力していくべき」ととらえるのか、現状認識の方法は複数あると思います。

機械翻訳の精度を過大評価していると翻訳者が言う理由

「機械翻訳メーカーや販売者が機械翻訳を過大評価している」と翻訳者たちが言うと、「翻訳者たちは自分たちの仕事を守りたいだけなんだろう」と思う層も一定数いると思います。それは仕方がないことです。先にも述べたように、極めて幸運なケースでは、良い翻訳結果が得られることも多いからです。

しかし、仮にどこかの機械翻訳の営業担当者が仮に「弊社の機械翻訳は精度95%です」と言った場合、お金をいただいて仕事をする我々のところに回ってくる案件は「残りの5%ばかりを濃縮した苦い汁」なのだと説明すれば分かっていただけるでしょうか。

機械翻訳に入れてみたけどどうにもならなかったケースは一般の人も間違いなく目にしているはずです。

幸運にも上手く訳せている箇所は場合によっては「翻訳対象外」としてマーキングされて支払い対象から外されているというケースもあります。CATツール(翻訳支援ツール)などでは「セグメントをロックする」という機能もありますが要は「ここは訳さなくていいですよ」とは「ここは機械がうまく訳せているのでお金を払いませんよ」ということです。

苦み成分を濃縮した罰ゲームのお茶のようなものを称して「ポストエディット」として正規の翻訳料金の7掛け、5掛け、場合によっては3掛けといったような案件を打診されて泣く泣く受注している翻訳者も少なくありません。

私も時々MTPEの打診を受けるのですが数年前から基本的には断っていて、先日久しぶりに打診があったので「そろそろ精度が良くなったのか見てみたい」という好奇心もあって受注したところ相変わらず「だめだこりゃ」案件でした。しかも、多少これなら使えそうだなというセグメントにはすべてロックがかかっていて、どうにもならない出力結果ばかりの「機械翻訳結果」をため息をつきながら再翻訳しました。報酬は翻訳料金の6割程度でした。これから先も数年はMTPE案件は受けないと思います。

まとめますと私が言いたいのは、世間で思っているほど機械翻訳の精度が上がっていない、と私たち翻訳者が言うとき、一般の人が言う「結構良い出力が出るようになってきた」という場合の良い方の出力の話をしているわけではない、ということです。

翻訳者が自分の仕事を残したいから嘘を言っているわけではないことは最後にもう一度強調しておきます。

—終—

5 件のコメント:

  1. 初めて投稿させていただきます。
    別の視点になりますが、翻訳会社とクライアント間の秘密保持契約で、①開示禁止義務、②目的外利用禁止義務(受託案件の翻訳業務以外で原文・訳文の利用禁止)、③受託業務終了後の消去・破棄・返還義務が課されていることが多いと思います。AI翻訳ツールを開発するためには、受託業務終了後も原文・訳文を消去せず保存・蓄積し、受託案件の翻訳以外で原文・訳文を二次利用することが不可欠なので、各クライアントから事前に承諾を得ていなければこれらの行為は秘密保持契約違反になるおそれがあるはずだと思いますが、そのあたり、翻訳会社は承諾を得ているのか気になります。消去せずに目的外利用をして翻訳会社が経済的利益を得ることやフリーライドすることをクライアントが簡単に承諾するとは思えないのですが‥。また、「著作物」「二次的著作物」に該当するのであれば、二次利用の権利処理も簡単ではないと思うのですが‥。

    そのほか、原文が不正競争防止法2条6項に定義する「営業秘密」に該当する場合、翻訳会社がクライアントに無断で原文・訳文を自己の経済的利益を得るために権限を超えて複製する行為(例えば、受託業務終了後に他社の案件で二次利用するために自社のメモリに保存する行為など)は、同法21条1項3号の「営業秘密領得罪」という刑事罰の対象となるおそれがあると思われます(ちなみに、同罪は、10年以下の懲役若しくは2千万円以下の罰金、又はその両方に処する、という重い刑です(同法21条1項柱書)。また、非親告罪です)。
    同法の解説はこちらからご覧いただけます。
    https://www.meti.go.jp/policy/economy/chizai/chiteki/pdf/20190701Chikujyou.pdf

    もし翻訳会社がこれらに抵触する形でAI翻訳・開発を行っていることがあれば(CAT案件もですが)、重大な契約違反または違法行為ではないでしょうか。

    長文失礼いたしました。

    返信削除
    返信
    1. コメントありがとうございます。ご指摘の点は私も気になっていました。翻訳会社が受託案件を業務終了後も消去せずそれを無許可で使用してAI翻訳ツールに流用するケースというのは実際あるのでしょうか。あるとしたら非常に問題だと思います。

      別の視点ですが翻訳者は契約書上で翻訳の成果物の著作権が納品時点で納品先に移転する場合、二次使用については何も権利を主張できないというのがおそらく現状だと思います。

      また、すでにご覧になったかもしれませんが、一般社団法人アジア太平洋機械翻訳協会(AAMT)のこちらのサイト(https://www.aamt.info/act/journal/30th_anniversary/mt_information)にMTに関する法的問題について触れられていますが、そこに「日本著作権法においては、翻訳エンジンのようなAI ソフトウェアの生成に必要な著作物の利用行為(データの複製や翻案)については、原則として著作権者の承諾を行わなくても可能であるという権利制限規定が存在している。それが、平成30 年改正著作権法によって導入された著作権法30 条の4 第2 号である。」との記述があります。こうした権利制限規定によって現在では無法地帯になっているように感じます。私自身、しっかり情報を追い切れていないので今後注目していきたいと思っています。

      削除
  2. こんにちは。匿名で失礼いたします。以前、ポストエディットの案件を受注したことがあり、渡されたガイドラインに従い作業を進めたのですが、翻訳というよりは、英文を読んで目次と概要を作るという内容でした。分野がマーケティングだったこともあり、仕方がないのかな、とも思いましたが、ご担当者の方々からお叱りを受けながら続けた後、数ヶ月で依頼は途絶えました。こちらから指摘させていただいた内容はいくつかございましたが、あまり手応えが感じられず、放置していたことも一因となったのかなとも思います。はっきり言ってキーワードのら列文書の作成という感じでしたので、Excel関数を使用して雛形に穴埋めするような手法を使わせていただいておりました。マーケティング文書に関しては「宣伝」という観点から配慮しなければならないことも多々あるかと存じますが、例えばこの分野で「周知」というワードを使用するのは適切なのでしょうか?「羞恥」を連想させる可能性を考えるとNGのような気もします。プロの翻訳者の方々はここまで気を使われておられるものなのでしょうか?ちなみにその会社のご担当者には女性が多く在籍されているようでした。また、別に機械翻訳提供サービスも行なっているようです。ポストエディターの納品データを機械にかけて蓄積し、新たな学習を繰り返した挙句、ポイ捨てするようなことがもしあれば一大事だと思うのですが(思い上がりかもしれません)そのような可能性はありますか?ちなみに原稿を処分してくださいという内容が契約書に含まれていたとすると、非常に不公平な感じがするのですが。

    失礼いたしました。

    返信削除
    返信
    1. コメントありがとうございます。今後、対象の文章を全部翻訳するという仕事以外にも、多言語展開するにあたっての付随した作業がいろいろと発生することは考えられますね。そうした中で、作業指示が分かりづらく、作業者が苦労するケースも出てくると思います。ちなみに私個人的には「周知」という言葉は「周知徹底する」などの表現であれば特に違和感はないと思いました。ただ、音声を伴う場合などは避けるケースも、場面によってはあるのかもしれません。

      今後、人間翻訳者に必要なだけの対訳データを提供させて、機械翻訳エンジンが完成したら人間はポイ捨てなのか、という可能性ですが、機械翻訳を構築している会社または団体自体が、「ある程度データが溜まったら翻訳者への依頼はやめて、あとは社内で運用する」という想定で動いているところはあるかもしれません。語学が堪能な人が社内にいるケースではあり得る話だと思います。今後、語学を扱い必要性が生じた場合、プロの翻訳者を使うのかどうかは現場次第だと思います。翻訳者は必要とされている現場で最大限、力を尽くすしかないですが、現場としては翻訳コストなどできればカットしたいのが本音でしょうから、しばらくは混沌とした状態が続くかもしれません。

      削除
  3. すみません、補足です。一部読みづらい部分があったことをお詫びいたします。また「周知」ではなく「拡大」であればよいようでした。

    返信削除