カテゴリー
ネットのサービス

世界地図をさまざまな言語の国名で生成できる Country names in any language

Country names in any language(国名をいろいろな言語で)は、ブラウザ上の世界地図の国名を指定した言語で表示するというウェブページです。

日本語指定でおなじみの感じのヨーロッパ。

Language のボックスに言語名を入れることで、様々な言語で国名を埋め込んだ地図を表示できます。

中国語や、

ドイツ語を指定してみたもの。

ヒンディー語になると、読めないので全部同じようにも見えてしまいました。

任意の場所を任意の縮尺で表示でき、Open Street Map の地図を好きな言語の国名入りで生成することができます。

via Maps Mania

カテゴリー
技術

なんでも特許文書に置換するジェネレーター

特許書類の文書って、読み進めるのが苦痛な独特の文体ですね。日本語だけの現象かと思っていたら、英語でもやはり特許の文章は独特なようです。

Sam Lavigneさん作成したのは、どんな文章でも特許の申請書のように変換してしまうというコンバーター Patent Generator

http://commons.wikimedia.org/wiki/File:Middlebrook_paperclip_machine_patent2.gif

Python で作成され、GitHub上で公開されているツールは、4つのスクリプトに分かれます。

  • 特許を生成する “machine.py”
  • 元の文章の単語から、口語や上位語などを検索する “search.py”
  • Bing検索から特許の画像を取得する “get_illustrations.py”
  • キーワードを含む特許文を全文検索しダウンロードする “scraper.py”

Patternライブラリを使って、特許文書に特有の文法構造を見つけ出し、お題として与えられた文章からその構造に似た文章を抽出することで、与えられた小説などにある言葉遣いを保ちながら、特許的な文章を作り上げている、ということ。

ツールを使って生成されたサンプルとしては、以下のものなどが公開されています。(図の画像は含まれていません)

例えば、「共産党宣言」というタイトルは、「理解可能で理論的な、歴史的活動のための手法と機器」となり、特許の概要や詳細も同様に自動生成されています。

ジョークツールとしては面白いですが、むしろ反対に、特許のわかりにくい文章を普通の文章に変換してくれるツールこそ、有用かもしれないですね。

カテゴリー
データ可視化

ヨーロッパのそれぞれの言語はどれぐらい似ているのか、の図

スペイン語が母語の友人によると、イタリア語は、しゃべることはできなくても、ずっと聴いているとなんとなく言うことがわかるんだそうです。それぐらい二つの言語は似ているのだという話。もしかすると東京弁と関西弁みたいなものなのでしょうか。

etymologikon-lexical-distance-among-the-languages-of-europe

Teresa Elms さんが、ロシアの1999年の論文”Metatheory of Linguistics”の研究結果を2008年に図にしたのが、このヨーロッパ言語距離チャート。

ヨーロッパに多数ある言語の間の、「語彙」の類似性を元に、似ている言語の間をより太い線で繋いでいます。(文法が似てる、ではありません)

それぞれの丸の大きさは、その言語を話す人口の大きさを示します。同じ言語グループに属している言語は、同じ色が塗られています。

フランス語・イタリア語・スペイン語などを擁するオレンジのロマンス語、ドイツ語・英語・北欧諸語の青いゲルマン語、ロシア語や東欧諸語の赤のスラブ語の大きな3つのグループに、ケルト諸語(緑)、ギリシア語(薄紫)、アルバニア語(薄緑)、バルト諸語(紫)、フィン・ウゴル語(黄色)の少し間を置いた勢力。黄色のフィン・ウゴル語以外はすべてインド・ヨーロッパ語族に属します。

英語は、ノルマンコンケストの結果、ドイツ語に近い文法を持ちながら、75%の語彙はフランス語・ラテン語から取り入れており、グループを超えた語彙の近さは、たとえば、図から読み取れるように、同じロマンス語のルーマニア語よりも英語のほうがフランス語に近い、と言えるのだそうです。

図から、英語を学んだ人が比較的簡単に学べそうな次の言語はどのあたりか、とか、同じヨーロッパ人といっても、どの国の出身者がより英語が下手そうな可能性があるか、とか、予想がつけられそうですね。

via Flowing Data