カテゴリー
Uncategorized ネットの事件

グーグル翻訳が機械学習バイアスで中性主語に性別をつける問題

日本語では”She”/”He”に「彼女」/「彼」が対応するため、あまり気づかないところなのですが、三人称代名詞が中性の言語というのもいろいろあるのですね。

ハンガリー語

ハンガリー語では三人称の代名詞で男女の区別をしないそうです。彼女・彼の両方が”Ő”になります。

ハンガリー語で三人称の様々な文章を作りそれらを英語に翻訳すると英語の三人称単数で中性を表せないため”She”か”He”になるのですが、その決まり方がどうにも偏っているのでは、という話。

日本語をハンガリー語に翻訳して、それをもう一度日本語に戻すと、英語と同じように性別がつくことが確認できました。

マレー語(アニメーションgif)

エストニア語

トルコ語

アルメニア語

フィリピン語

多数の翻訳例を学習して再現するのですから、ナイーブに作った機械翻訳が社会の持っているジェンダーバイアスを再現してしまうのは当然といえば当然ですね。ここは勝手に推論してはいけない箇所のように思います。実際、単文の翻訳では”He or She”などと両案併記で翻訳される場合もあるそう。

三人称単数のtheyという案もありそうですが、これらの言語からの翻訳がtheyになることを利用者が望むかも難しいところ。

via Bored Panda

カテゴリー
ネットのサービス

ZTranslate – OCR+機械翻訳でゲーム画面を自動翻訳するサーバ

Ztranslate は、ゲーム画面のスクリーンショットを自動で翻訳してしまうというサービスです。たとえば、日本語でしか存在しないゲームを、英語でプレイすることができるようになります。

左がオリジナルの日本語版。その日本語によるテキスト表示部分が、右側のウィンドウでは英語で表示されています。

ユーザーの依頼タイミングで翻訳する自動モード

ZTranslate の自動モードでは、ゲームプレイ中にチルダキーを押すことで、スクリーンショットがZTranslateのサーバに送られます。サーバではまずGoogle OCR API を使って画面中の文字列を読み取り、さらにその読み取った文章を Google Translate API を使って翻訳、元の文章の位置に差し替えた画像を表示することで、自分が読める文章のゲーム画面が得られるといいます。

自動モードの動画がこちら。

オリジナル画面で表示されたものを翻訳した画面が右側に表示されるのに、12,3秒ぐらい掛かっていますね。これは二つのAPIの呼び出しにそれだけ時間が掛かっているのだと思われます。いずれはより短時間で返ってくるように技術が進むでしょうけれど、ゲームプレイ的にはちょっと不便そうです。

複数ユーザーの共同作業でリアルタイム性を改善するパッケージモード

そこで、もう一つのパッケージモード。こちらは、一度変換された画像を蓄積しておき、さらに参加ユーザーが人力による翻訳の改善を反映できるモードだそうです。ゲームプレイの画像が常時サーバに送られ、その画像に対応した翻訳後の画面がリアルタイムで表示されます。

パッケージモードのデモ動画はこちら。

英語版のゲームを、ドイツ語で翻訳表示し、さらに音声合成でゲーム中のナレーションを喋らせています。ゲームに対する入力は左側のオリジナル画面に対してやらないといけないようですが、外国語のゲームを遊ぶ不便さはほとんど解消されているように見えますね。

エミュレーターがZTranslate対応

半年前にはリリースされていたらしいこの ZTranslate サービスを今回知ったのが、RetroArchi というエミュレーター用UIの新機能リリースでした。複数のレトロゲーム機エミュレーターをたばねて使えるツールのようですが、これの新バージョンが、ZTranslate の呼び出しを内蔵するようになったというニュースです。

こちらの新機能デモ動画では、アクトレイザーという日本のゲームを動かしつつ、出てくるメッセージが英語で読み上げられる様子を流しています。

主人公の名前を入れるところ、ひらがなからしか選べないので困ってますね。OCRと自動翻訳だけではどうしようもない箇所があることもわかりますが、それでもわからない言葉のゲームをこれだけ遊べるのはすごいと感じます。

ゲーム機のエミュレーターについては、本来所有しているカートリッジから自分でデータを吸い出して遊ぶ分には合法なものの、ネット等に流れている不正コピーで遊ぶユーザーも確実に存在するわけです。

映画や漫画でもそうですが、自分の国で公式の翻訳版が発売されないとか、翻訳版が登場するのに長い時間が掛かるとかが、ファンによる勝手な翻訳が配られる理由の一つと言われていますね。

エミュレーターでの利用よりも、権利を持っている公式こそが、こういったOCRや自動翻訳の仕組みを活用して、100%完璧ではないけど多くの国や言語に同時に近いスピードで翻訳版を届ける仕組みを作ってくれると良さそうだし、上記のような勝手な海賊版対策にもなるように思います。

そういう意味でZTranslate は面白いプロジェクトだなと思いました。