カテゴリー
Uncategorized ネットの事件

グーグル翻訳が機械学習バイアスで中性主語に性別をつける問題

日本語では”She”/”He”に「彼女」/「彼」が対応するため、あまり気づかないところなのですが、三人称代名詞が中性の言語というのもいろいろあるのですね。

ハンガリー語

ハンガリー語では三人称の代名詞で男女の区別をしないそうです。彼女・彼の両方が”Ő”になります。

ハンガリー語で三人称の様々な文章を作りそれらを英語に翻訳すると英語の三人称単数で中性を表せないため”She”か”He”になるのですが、その決まり方がどうにも偏っているのでは、という話。

日本語をハンガリー語に翻訳して、それをもう一度日本語に戻すと、英語と同じように性別がつくことが確認できました。

マレー語(アニメーションgif)

エストニア語

トルコ語

アルメニア語

フィリピン語

多数の翻訳例を学習して再現するのですから、ナイーブに作った機械翻訳が社会の持っているジェンダーバイアスを再現してしまうのは当然といえば当然ですね。ここは勝手に推論してはいけない箇所のように思います。実際、単文の翻訳では”He or She”などと両案併記で翻訳される場合もあるそう。

三人称単数のtheyという案もありそうですが、これらの言語からの翻訳がtheyになることを利用者が望むかも難しいところ。

via Bored Panda