カテゴリー
データ可視化

ウィキペディアで人気の単語で各国の歴史を表した世界地図

Laconic History of the World(簡潔な世界の歴史)は、世界の歴史を面白い切り口でまとめた地図です。

Google Maps風にタイル表示された世界地図は、それぞれの国のところが、英単語で描かれています。

laconic-history-of-the-world

その英単語は、その国の歴史を表すのに最も使われている単語ということです。英語版Wikipediaの
、”History of (国名)”のページで、ページ内で最も登場頻度の高い単語を、抜き出したらこうなったということ。

日本の場合、History of JapanのWikipediaページはこれですが、実際にページ内で”war “(戦争)を検索すると、出るわ出るわ。まあ、アメリカ・イギリス・フランス・ドイツなどもみんな、”war”な歴史の国なんですが。

作者による地図の解説ページでは、いろいろと興味深い発見が述べられています。

世界各国(この地図では176カ国)のうち16%の国では、”war”が一番使われていました。戦争にあけくれた歴史は日本だけではないようです。

4分の1の国では、一番使われる単語は植民地時代の宗主国です。最も多いのは、やはりBritish(大英帝国)。

20の国では、「スルタン」、「帝国」、「王朝」(中国)、「王国」、「ハーン」(モンゴル)、「金」(北朝鮮)など、支配者階級を表す単語がトップに。

いくつかの国では、近隣の他の国の名前がトップに出てきます。例として、「ハンガリー」と表示されている国はハンガリーではなくスロバキアだったり、パキスタンは「インド」だったり、東チモールは「インドネシア」だったり。隣の国との紛争や独立運動などで、自国の歴史が相手の国の記述だらけということですね。

また、マオリ(ニュージーランド)、ベルベル(モロッコ)、オグーズ(トルクメニスタン)、シルック(スーダン)など、先住民の名前がトップに出てくる国もいくつかあるということ。

「英語の」Wikipediaを使った分析なので、英語圏のWikipediaユーザーから見た歴史、という誤差はあるかもしれません。日本語のWikipediaで同じような地図を作ると、日本人の世界史観や日本との関係に絡んだ別の特徴的な単語が浮き上がってくるかもしれませんね。

via Map: Laconic history of the world

カテゴリー
技術

ツイッターのつぶやきの言語と座標から作られた、世界の生きた言語地図

ツイッターのつぶやきの言語と座標情報を集めて、言語ごとに異なる色でプロットした世界地図
Language communities of Twitter
作者はEric Fischerさん。この人は、2010年にデジカメ画像の位置情報を集めて「旅行者」と「現地人」をプロットし、世界各都市の観光地を可視化する、というのをやって話題になった人ですね。
ヨーロッパの様子。言語の切れ目でぼんやりと国境が見えてきます。
Twitterbylanguageseurope
カタランとかスイスとか旧ユーゴとか、面白いですね。
こちらが日本周辺を切り出したもの。
Twitterbylanguagesjapanese
海上の座標でつぶやかれた日本語のツイートがけっこうあるような。GPSの精度の問題か、漁船やフェリーとかからつぶやく人がそんなにいるのか、理由はわかりませんが。
あと台湾の中国語の色が日本語の色と似てるのがまぎらわしいです。
つぶやきの言語を判定するには、言語判定のライブラリを使っているそうです。
ちなみに、文字列からそれがどの言語かを推定する言語判定ライブラリとしては、サイボウズ・ラボでも中谷さんが開発しているLanguage Detectionライブラリがあり、これ検出精度もかなり高いようです。もし上記のような地図など作ってみたい方がいたらぜひ試してみてください。
via Language communities of Twitter