カテゴリー
ネットの事件

IMDb映画データベースで映画の出演者に自分を登録する素人たち

1990年から存在する、インターネット上の映画データベース IMDb。映画の出演者を調べたり、俳優が出演した映画の一覧を調べたりと便利なサービスです。

IMDb にまだ残る、怪しい若手俳優のページ

Pee Bee さんはIMDb で 2023年(公開予定)の映画 Animal を調べようと開いたところ、出演俳優の一覧の中に見かけない若者を見つけました。

「誰だこれ?」とクリックすると、この Subhankar Bagchi なる俳優は昨年2021年から来年2023年の3年間にかけて、26本の映画に出演してると出てきたそう。(今は消えています)

そして、Google で検索すると「音楽家」としてサイドバーにナレッジパネルが出てきます。検索した人が有名人だった時に表示されるあれです。こちらはまだ出てきますね。

そこから辿れる彼の「音楽」を視聴すると、ごく短い楽曲が途中でブツっと切れてしまいました。

彼を見つけた Pee Bee はさらに深堀をし、同じような感じでインド映画の出演者やスタッフ欄に表示されている、インド北部に住む10代~20代の若い男性が多数いること、YouTube で歌を公開していること、全員がグーグルのナレッジパネルに表示されること、を見つけます。

この若い男性「俳優・音楽家」のほとんどは、issuewire.com というニュースリリースを公開するサービスで、自分を紹介するリリースを出しているようです。この issuewire は、最初の一本のリリースは無料で打てるそうで、彼らは無料枠を使って自分を紹介するニュースを流したということでしょう。

リリースはまだサービスに残っていて似たような感じの若者のリリースが数百件は出てきます。似たようなリリースばかりなので、手口が売られているということなのでしょう。

IMDb はユーザーからの提案で編集も受け付けるため、自分でニュースリリースを出し、そのリリースや YouTube / Apple Music などを根拠に Google のナレッジパネルを獲得し、それらを組み合わせて本物の映画関係者のように見せ、IMDb のレビュー者を信用させる、みたいな方法で自分を掲載できてしまった、ということでしょう。何への掲載がどれに効いてるのかの順番はわかりませんが。

複数のサービスである人物のもっともらしい情報が取れてしまうと、それらを組み合わせることで本来どこにもなかったはずの実績(映画に出演したとか、映画の音楽を作ったとか)をそれなりに信用している人も多いサービス上で構築できてしまうのですね。

本当に才覚があれば、この名声をテコにさらに自分を売り込んだり、本当にどこかに映画に参加したりという展開もあるのかもしれませんが、IMDb に万と載っている若者の中に、もしかしてそういう始まりでのし上がった人もいたりするのでしょうか。

カテゴリー
ネットの事件

GitHub Copilot は”gender”など特定用語を含むコードで動かなくなる

書いているプログラムコードから次に必要そうなコードを提案してくれる GitHub の Copilot サービスで、「このコードに対して Copilot が何も提案してくれない」というバグが報告されました。

これに対するコミュニティの識者からの回答は、「おそらく、コードの中に “gender” という単語が入ってるからでしょう。」というもの。

Copilot には内蔵されたコンテンツフィルターがあり、フィルターに反応するとコードの提案をしないという作りなのだそう。そして “gender” もそのリストに含まれているらしいのです。

コードの提案が止まる、と言われたコードをCopilotで書いてみた

実際にCopilotで該当部分のコードを書いてみたところ、サジェストされた内容は文にならず途中で止まりました。元のコメント者と同じ結果なのかどうかはわかりませんが。

これを受けてのHacker News の議論では、

ジェンダーという名前の変数があったとして、その変数を boolean 型として提案コードを出せば「ジェンダーは(男女の)2通りじゃない」と怒る人が来てしまい、多値にすれば「ジェンダーは2通りだ」と怒る人が来るからでは、

という推測がトップコメントになっています。この推測が正しい理由かは不明ですが、議論になりそうな単語が含まれていると Copilot が動かなくなるというのは知ってる人は以前から知っていたようです。

今はクライアント側に禁止ワードのリストは無いそうですが、昔ベータだった際にクライアント側に埋め込まれていたリストを保存してた人がいたようで、rot13を掛けるとどんな単語が引っ掛かるかわかります。(このリストが本物として、リストが見えていた時期から変わっていないとして)

人種差別的な単語や罵倒後、卑猥な単語らがたくさん登録されていますが、”gender” も確かに含まれています。それどころか、”boy”, “girl”, “male”, “female” とかも入っているので、人を管理するデータクラスとかを作っただけでも引っ掛かることはありそう。

リストには英単語しか入っていないため、変数を日本語やローマ字で書く分には回避できそうですけどね。Hacker News では、”gender” をラテン語の”genus”に変えたら動いたよ、という報告もあり、これも試したところ本当でした。

“genus”にしたらサジェストが出た

マイクロソフトはAIチャットで意図しない発言が生成されて炎上したことがあったので、コードの提案でも問題を避ける機能を入れたくなるのはわからないでもありません。ただ、単語だけ列挙したリストの作りは雑なように感じるので、やるにしてももう少し改善してほしい気がします。

直近は、Copilot が何も言わなくなり、書いたコードが性別やジェンダーに関する変数名を含んでいたら、変数名をちょっと変えてみる、んですかね?

カテゴリー
ネットの事件

Twitterの「アルゴリズム」repo がGitHub から消される

Twitter の「アルゴリズム」という空のリポジトリがGitHubに公開され、イーロン・マスク氏のtwitter買収と何か関係がある動きなのかと注目を集めていましたが、リポジトリは空のまま削除されてしまいました

Disclose.tv は、空のリポジトリを「twitter のアルゴリズム」として GitHub に公開したことは twitter の一部開発者からイーロン・マスク氏への反抗のメッセージではないかという見方をしています。(中の人がどこかでそう発言したわけではありません)

もし空であることが今後のアルゴリズム公開の準備ではなく、空であること自体に意味を持たせようとしていたとするなら、単一の簡単なアルゴリズムで動いてるわけではない、とか、内部の複雑なシステムの結果として今の表示順ができている、とかいう主張なのかもしれないですね。

via AIM