カテゴリー
ネットの事件

コメントスパムの手の内が、スパマーのミスでダダ漏れに

Githubユーザーshanselmanさんが、「自分のブログにコメントスパムを書き込もうとしたスパマーが、バグか何かでこれを書き込んできたよ」と、スパマーが使っていたテンプレートらしきものを公開して、Hacker Newsでも話題になっています。

以下のような感じで100行以上あるのですが、

{
{I have|I've} been {surfing|browsing} online more than {three|3|2|4} hours today, yet I never found any interesting article like yours. {It's|It
is} pretty worth enough for me. {In my opinion|Personally|In my view}, if all {webmasters|site owners|website owners|web owners} and bloggers made good content as
you did, the {internet|net|web} will be {much more|a lot more}
useful than ever before.|
I {couldn't|could not} {resist|refrain from} commenting. {Very well|Perfectly|Well|Exceptionally well} written!|
{I will|I'll} {right away|immediately} {take hold of|grab|clutch|grasp|seize|snatch}
your {rss|rss feed} as I {can not|can't} {in finding|find|to find} your {email|e-mail} subscription {link|hyperlink} or {newsletter|e-newsletter} service. Do {you have|you've} any?

中身を読んでみると、よくブログのコメント欄に書き込まれるような、ブログ記事に対して何か感想を書いているようで、実際には記事の内容とは何の関係もない、どんな記事に対してもそれなりに通用するようなコメントを生成するための元ネタだということがわかります。冒頭のデータを訳してみますね。

毎日ネットの文章を{3|2|4}時間以上は{読んで|見て}{ます|る}けど、あなたの文章ほど面白いものを見たことはありません。とても役に経って{ます|る}。{私の意見では|個人的には|私の見るところでは}、もし{ウェブマスター|サイトオーナー|ウェブサイトオーナー|ウェブオーナー}やブロガー全員があなたのような良いコンテンツを作ったなら、{インターネット|ネット|ウェブ}は{もっと|ずっと}いい場所になるでしょうに。

こんな文章がorでたくさん並んでいるだけのデータですね。{}で囲まれた中の選択肢を乱数で選びながら吐き出していくだけで、毎回少しずつ違う感想コメントが出来上がり、というわけです。

公開ページに寄せられたコメントによれば、このデータから4,351,250,624、43億通りの重複しないコメントが生成しうるということ。コメント欄にRubyの、またPythonPHPでコメントを生成するスクリプトも公開されています。

少しずつ違う文章を作るのは、コメントをそのままGoogle検索してもまったく同じものが見つからないように、でしょうね。まったく同じものをいろんなブログや掲示板に書き込んでると、すぐにスクリプトの自動投稿だとばれてしまいますので。DisqusやWordPressのように、多数のブログに寄せられたコメントを集めてスパム判定しているようなサービス事業者がいるので、すぐに同定されてしまうのは避けたいのでしょう。

この手のコメントが何のために書き散らかされるかですが、たいていは投稿者の名前が「オンラインポーカー」とか「美女と会おう」とかの宣伝文句で、コメント者のサイトURLとしてその手のサイトのURLが入ってたりする、いわゆるブラックなSEOが目的なんですよね。

生きた英語の勉強にいいかも(笑)

プログラムで生成した文章を貼り付けるべきところを、なぜか元のスクリプトを貼り付けてしまうという、間抜けなスパム業者もいたものですが、このテキストデータ自体はいろいろと興味深いと思います。英語の勉強には使えますね。

いろいろなところで、同じような内容をいくつもの違う表現で言い換えるやり方が列挙されています。

I’m {bored to tears|bored to death|bored} at work

仕事が{泣くほど退屈|死ぬほど退屈|退屈}なんです。

とか、

{Thanks a lot|Kudos|Cheers|Thank you|Many thanks|Thanks}, I
appreciate it!

{どうもありがとう|称賛するよ|ども|ありがとう|多謝|ありがと} 感謝します!

などなど。生きた英語のシソーラスですね。英語を勉強中の人は読んでみるといいのでは

コメントスパムを防止するようなサービスやプラグインもたくさんあるので、それらを入れればこういう無意味なコメントは防いだり気付いたりできると思うのですが、それでも放置状態になったブログの過去記事などでこういうコメントが多数公開されているのを良く見ます。もし昔のブログのコメント欄を管理する気がないのなら、もうコメント欄を閉じてしまって書けないようにするほうが、ネット全体の使いやすさを守るためにはいいでしょうね。

関連

証拠を見せる – スパム対策のこんな方法

カテゴリー
ネットのサービス

Inquisitr.comの売却資料に見る、英語ブログの値段

calculator and moneyphoto © 2010 Images Money | more info (via: Wylio)
ブログヘラルドというブログの創業者で、TechCrunchのライターをやめて2008年に独立したDuncan Rileyさんが作ったThe Inquisitr(インクイジター。inquisitorのスペルをもじったもの)というブログがあります。
Theinquisitrtop
このThe Inquisitr、TechCrunchの取り上げるようなテック系・ガジェット系も書けば、米国スポーツや有名人ゴシップなども取り上げるなどカバー範囲を広げていき、このあたりのブログとしては中堅といっても良いぐらいの人気を博しています。僕の購読リストの中では、毎日必ず読むブログには入ってませんが、いつも読むリストを巡回しても面白いネタが見つからなかった時にはチェックするブログという扱いです。

今回、このDuncan Rileyさんが、家庭の事情でこのThe Inquisitrを売却したい、と言っています。このブログの売却希望価格とかページビュー、売り上げやライターのコストなどの、普段出てこない生々しい数字が公開されていて参考になるのでご紹介します。
まず、サイト自体について。ブログの投稿数が17,723件。3年間でこの件数だと、一日18記事ですか。結構な量ですね。

ページビューは月間700万pv。月間訪問者は150万人。Facebookぺーじのファンが3000人、ツイッターのfollowersが5500人。CMSとしてはWordPressを利用。たった3年でこれだけのブログを作るなんてすごいです。

それにたいして、Rileyさんが希望している売却価格は$300,000(3300万円) (2400万円(21万8160ドル))
運営費は、サーバーの維持費が月$800(8万8000円)(6万5千円)。ちなみにサーバーはRackspaceとAmazon Web Serviceの組み合わせです。毎日18記事を本人が書いているわけではなく、ライターチームを雇って書かせています。これが、変動が大きいものの月にならすと$5000(55万円)(40万円(3636ドル))。自分で記事を書くことは最近はめったになくなっているそう。

それに対して収入はというと、荒利が月に$15,449(169万9390円)(125万円(1万1362ドル))。全部が広告収入で、それらの内訳も公開されています。

収入源 金額(ドル。12ヶ月の合計)
Technorati Media 132756.69
グーグルアドセンス 3056.17
アマゾンアフィリエイト 714.35
Buy Sell Ads 6367.5
Kontera 9321.21
Meebo 3084.67
Text Link Ads 19814.28
Valueclick Media 2234.14
Outbrain 8044.42

で、年間収入が18.5万ドル(2035万円)。12で割ると$15,449(169万9390円)ということになるようです。

この情報、英語ブログや英語サービスを広告モデルで運営するときに(アジアジンもそうですが)、どこから広告を引っ張ってこれて、どれぐらいの収入になるのかがわかっていいですね。

実際のサイトでどこにどのサービスからの広告をどのように貼っていたか、でぜんぜん違ってくるとは思いますし、それはInquisitrというサイトが今も運営中なので確かめることはできるのですが、このブログでは、Technoratiメディアからの収入がかなり大きな割合を占めているのですね。テクノラティなんて、日本ではもうほとんど聞かなくなったブランドですが、アメリカではブログ広告をネットワークしていたんですね。

さて、これだけのメディア、そのまま運営し続けられると年5%の収益ということになりますが、海外に発信したくてお金がある会社なら、このへんポンと買っちゃったほうが、PR会社とかに支払うより安かったりするかもしれないですね。

カテゴリー
ネットのマーケティング

一日一投、英語の勉強にもなる20のツイッターボット

一日に一件、あるテーマに関したつぶやきをするだけのツイッターアカウントを、Mashableが20個集めて紹介していました。

すでにウェブサイトで数百個のコンテンツがあるところなら、同様に一日一個ずつ紹介するボットを作るというのはサイトのプロモーションとしてありですね。