カテゴリー
データ

英語で一番使われる(笑)はLOLじゃなかった – Facebookの統計データから

Facebook Research の Sarah Larson さんが発表したのが、メッセージやコメントなどで「笑っている状態」を表現する文字についての統計です。

[追記 2022-11-18] Facebookリサーチのブログ記事は消えていますね。

英語で「笑っているよ」を表現する方法としては、LOL = laugh out loud = 大笑い、とか LMAO = laugh my ass off などが有名かと思います。でも、こんな略語が本当に良く使われているんでしょうか?

Larson さんは、5月最終週のFacebookの投稿・コメントを正規表現を使って集計し、全体の15%のユーザーがこういった(笑)表現を使っていたという結果を得ました。さらにその内訳はというと、

(chart image: Facebook Research)
(chart image: Facebook Research)

このグラフのようになります。一番多かったのは”ha”、そしてそれを繰り返した”haha”, “hahaha”などのグループ。日本語で言うなら、コメントした後に”ハハハ”と書くような感じですね。

次が絵文字系、そして”he”, “hehe”(ヘヘ)と続きます。

LOLは1.9% の使用で、50分の1ぐらい。見ないわけでもないけど、そんなにみんなLOLを使っているわけでもない、ということがわかりました。

Facebookだけのデータではありますが、Facebookの英語圏での普及率や使われ方を考えると、ネット一般で見てもそれほど傾向は違わないのではないかなと想像します。

via VentureBeat

カテゴリー
データ

不倫サイトの流出データから、嘘をつく人に人気の高い「ニセの誕生日」の傾向がわかった

不倫希望者マッチングサービスAshley Madisonの利用者データ流出がニュースを賑わしています。世界中の3600万人ユーザーの登録データがBitTorrentなどのファイル共有で流れているということで、この興味深いビッグデータを使った解析や評論などもぽつぽつと登場しています。

米ワシントンポストが取り上げたのが、登録者の誕生日情報

https://www.washingtonpost.com/blogs/the-fix/files/2015/08/Dates.png

[更新 2022-11] 参照していた twitter が消えていたので、画像へのリンクに変更しました。

左の赤い表が、流出ユーザーの誕生日の設定の多寡。横軸が月、縦軸が日の一年間で、色の濃いところほど、平均よりも多くのユーザーが誕生日と指定している日となります。

人がいつ生まれるかはおおむね平均化されているとすれば、ある一日を見たときにその日が誕生日の人は全体の1/365の割合でいるはず。しかし、一番集中している元旦1月1日は、利用者全体の実に12分の1が誕生日と指定していたそうです。

他に赤色の濃いところを見ていくと、月を1月にしたまま日だけを変更したケース、日を1日にしたまま月だけを変更したケースとして、表の左端と上端が濃くなっています。また、2月2日、3月3日… と、ゾロ目の誕生日も登録者が多いです。

他に多いのが記念日系。2月14日のバレンタインデー、4月20日の大麻の日、7月4日のアメリカ独立記念日、なども、覚えやすい嘘の日として愛用している人がいるようで、うっすらと濃くなっていますね。日本人だと何の記念日を使うかもわかると面白そうです。

右の青い表は生まれ年の分布ですが、こちらは実際に利用者が多い1980年代を中心に分布しているものの、末尾が0や5とキリの良い年が少し多かったりします。一番多い生まれ年は1978年だったそうですが、これはもしかしたら登録時のデフォルトだったのかもしれません。

ワシントンポストも、「この統計からネットユーザー一般が同じ傾向で嘘の誕生日を使うとは断言できない。なんとなれば、このデータは(妻や夫に対しての)嘘つきを集めたものだからだ」とまとめているので、嘘の誕生日を使っている人の率は多少一般より高いかもしれません。

ただ、僕もそうですが、明らかに正確な生年月日を必要としないだろうwebサービスから生年月日を問われた時に、本当のものではない生年月日を使う人はそれなりにいるのではないかと思います。

ネットのサービスで本当の誕生日を入れるものなのか?

誕生日というのは結構プライバシー的に重要なデータで、役所でも企業サービスでも本人確認の為に求めらることがそれなりにあります。本名と誕生日、電話番号などだけで本人確認としてしまうようなサービスだと、他人に誕生日を知られてしまっただけで自分に成りすまされてしまうということもあるでしょう。

今となっては、「誕生日を知ってるから本人」なんて運用は危険この上ないとは思いますが、ソーシャルネットワークの流行などから後、多くのネットサービスで当然のように誕生日を尋ねてくるようになりました。ソーシャル系のサービスではつながっている友人に対して機械的に友人の誕生日を通知し、交流を活性化させようとしたりもしているので、誕生日の祝い祝われが大事なユーザーは本当の誕生日を入れがちになるかもしれません。

via The Verge

カテゴリー
データ

[アメリカ] 男女性別不明なユニセックス・ネーム

データ処理に関するブログ FlowingData で紹介されていたのは、聞いただけでは女性か男性かわからない、どちらの性別でもつけられることがあるファーストネームの統計結果です。

most-unisex-names-in-us-history-chart

1930年以降のデータで男性にも女性にもつけられてきた名前が、もっともどっちつかずだった順番に第1位のジェシー(Jessie)から並べられています。青いのが男性の、赤いのが女性の子供にその命名がされた割合を示しています。白い丸は、その名前の男女比が最も均衡していた、一番半々に近かった年を表しているそうです。

日本でいうと、「かおる」とか「ひろみ」、「あきら」、「しのぶ」といった名前にあたるでしょうか。英語の中性的な名前がどれか、なんて考えたこともなかったので、リストを順番に見るだけでも面白いです。

上から、ジェシー、マリオン、ジャッキー、アルバ、オリー、ジョディー、クレオ、ケリー、フランキー、グァダループ、キャリー、トミー、エンジェル、ホリス、サミー、ジェイミー、クリス、ロビー、トレーシー、メリル、ノエル、レネ、ジョニー、アリエル、ジャン、デボン、クルズ、ミシェル、ゲール、ロビン、ドリアン、ケーシー、ダナ、キム、シャノン。

このような両性的な名前の人は、すべて合わせてもアメリカ人全体からみれば1%にも満たないということですが、聞いたことがあるような名前も含まれていますね。

日常的にアメリカ人と多く接したりしてなければ、日本人が持つこれらの名前に対する性別の印象は、歌手や映画俳優などの外国の有名人に影響されるのではないでしょうか。僕だったら、「ジャッキー」は男、「ジョディー」は女、「マリオン」は女、「フランキー」は男、と思い込んでしまいそうですが、それぞれ、かなりの割合で、その名前で反対の性の人が存在することがわかります。他に、エンジェルは男性の方が多いとか、女性のサミーが半数近くになってきているとかも、僕の感覚とは違っています。

アメリカ人たち自身の子供の命名についても有名人の影響というのは同じようにあり、その名前を持った有名人の活躍で、これらのユニセックスな名前が、ある時突然一方の性別に偏っていくことがグラフからもわかるようです。グラフ中にも特記されていますが、陸上選手のマリオン・ジョーンズのオリンピック金メダル獲得は女の子のマリオンを増やしたし、初の黒人メジャーリーガー、ジャッキー・ロビンソンの登場は、男の子のジャッキーを増やしています。

24位のアリエル(Ariel)は、ディズニーの人魚姫から僕も女性の名前だと思い込んでいましたが、映画の公開までは男性の方がむしろ多く、映画から後に大きく女性の方に振れたのですね。40歳以上のアリエルさんは男性で、40歳以下のアリエルさんは女性が多い、ということのようです。