カテゴリー
機械学習

Galactica – 科学知識に答えるAI by Meta

Facebook の Meta社の研究者が研究成果をデモの形で公開したのが Galactica.orgです。

4800万種類の論文や書籍、マニュアルなどで訓練した言語モデルを使って、科学に関する自然文の質問に対する回答を生成しているそうです。

Galactica.org で質問の回答待ち

AIの回答生成に時間が掛かるのか、公開直後で色々な人が試しているからか、質問すると2,3分ほど待たされます。

Galacticaに訊く「モンティーホール問題って何?」

モンティホール問題について尋ねてみました

Question: What is the Monty Hall problem?

Answer: The Monty Hall problem is a probability puzzle that asks how to best win a game of chance. The game is played with three doors, one of which has a prize behind it. The contestant selects a door, and the host opens another door to reveal that it has no prize. The contestant is then offered the opportunity to switch to the third door. The question is whether the contestant should switch doors.

The answer is that the contestant should switch doors, as the probability of winning by switching is 2/3, while the probability of winning by staying is 1/3. The problem is that the contestant is more likely to win by switching, but the contestant is not aware of this.

おおむね良さそう。英語版Wikipediaの説明と比べると、「確率のパズル(a probability puzzl)」とか「変更する機会(the opportunity to switch)」とか、共通する言い回しはありますが異なる文章と言っていいでしょう。

こういう検索でどうしても入れたくなる「人生、宇宙、すべての答え」に対しては、「42」ではなく「ホーキング博士の書籍の言葉」と答えてきますが、これは違うよね。ホーキング博士も似たようなことは書いてるでしょうけど。

Hacker Newsのスレッドでは、Meta社のメタバースの業績やレイオフの質問をした人が多いみたいですが、元のデータが科学論文などであればそこにちゃんとした答えが出ないのは仕方がないでしょう。むしろ回答がそれらしかったら驚きます。

「水素水ってなに?」とか「タバコは有害なの?」とかも訊ねてみました。まあ特に害のない感じの結果。

「何?」とか「なぜ?」とか以外にも、色々な訊ね方の例が載っています。

“literature review of~”で尋ねるとレビュー論文を書いてくれるので、ある分野に関してわかっていることをまとめさせることもできます。

“wiki article on~” だと、Wikipedia に載っている風の形式での結果が。

“lecture note~”では、大学の講義ノートの形式で。これは(内容が正しければ)便利だ。

言語モデルは公開されているということで、デモのwebサイトで呼ばなくてもPythonで回答を生成できるということですね。

# 今 galai 1.0.0 をインストールしようとしたのですが、手元の環境ではエラーになってしまいました。

生成された文章は保証されていない

注意書きよれば、生成された文章は「検証されていない文章には決して従わないでください」とありますし、質問によっては意味の取れない文章や間違った文章も生成されるそう。元データからのバイアスを引き継いでいることもあるし、自信たっぷりに間違ったことを言うことも。

既に過去にされた質問への回答で、検証済(verified)と表示されるものがあるようですが、これは人間が回答内容を確認してつけたんでしょうね。

とても面白いし、生成された文章は(自分が英語ネイティブではないせいもありますが)とてもちゃんとした文章に見えるため、役に立つと同時に悪用もできそうだなと感じます。

たとえばレビュー論文の生成は、新たに調査しないといけなくなった分野の概要をつかむのに(間違いの混ざり具合にもよりますが)有用な可能性はあるものの、学生の課題みたいなものは簡単にそれらしくできてしまうでしょう。

正しくもないが何らかの回答を多数載せて検索エンジンからの流入を待つコンテンツスパムがウェブにはびこっていますが、低賃金で暇そうな人に作らせていたそれっぽい解説文章も、こういったAIなら無限に作成できてしまいます。

文章がプログラムによる合成かどうかも、ほとんど検出できないようになっていってるのではないでしょうか。今までも保証は無かったといえば無かったのですが、文章の内容を誰がいつ保証したか、といったメタ情報を管理して参照するようなシステム(Wikipedia とかもある程度はそういう保証の仕組みなのでしょう)が重要なのかもしれないと考えました。

via Hacker News

カテゴリー
ネットの事件

米アマゾンで売られている有力NFT本をまじめにレビューしようとした人の話

NFTに関する売れ筋の本を12冊購入して、NFT 熱に一言申したい、と思った @lcamtuf さんが、どうしようもなくデタラメな本を見つけたという話

12冊全般について、まとめる価値もない(希少性が価値の源泉、みたいな本ばかりだった)と判断されたのですが、特に検索で3位に出てきた本がすごかったそう。☆5つのレビューが100個以上ついています。

前半のNFTの説明では「代替可能性(Fungibility)」と「代替不可能性(Non-fungibility)」を取り違えている、ぐらいでした。それもどうかと思いますが。

中盤からはいつのまにか”NFT”ではなく”Net Price Calculator(ネット料金計算機)”の略である”NTF”の説明が入ってきます。「Net Price Calculator の略」って、N しか合ってないじゃないですか。

さらに数ページ後には化学療法の薬の利用を減らす手法”NFP”の説明にと話が変わっていたそうです。要はこの書籍はテキストの分量はあるというだけのデタラメということですね。

@lcamtuf さんは当初、この本は依頼によってコンテンツを濫造するコンテンツファームに、各章バラバラに依頼されたものではないかと疑ったようです。内容に一貫した繋がりが見られないからですね。

しかし、それにしても文中の NTF やら NFP やらをその周辺の用語と一緒に検索しても、書籍に出てきた内容に似ている内容すらも出てこないのは変だ、と。確実な証拠はないものの、これは質の悪い人間の執筆者の集合によるものではなく、AIによる自動生成文を書籍化したものなのでは、と考えているそうです。

その後Amazon が何かしたのか、レビューの数はだいぶ減っているようです。発売直後のレビューで低評価をつけてる人も確かにいるのですが、絶賛してるレビュワーもまだ残っていますね。ここで抜き出された文章が本当なら、そして通してこの本を読んでいるなら、とても絶賛できるようなものではありませんけど。

電子書籍だけならまだわかりますが、ペーパーバック版もあるということは、こういう難しいことを解説する系の本はリアルに出版しても儲かるぐらい売れてしまうのかもしれないですね。

こんな本が混ざっていると、表紙買いとか積ん読とかはできないですね。

via Hacker News

カテゴリー
技術

AI生成の実在しない人物を角膜への反射光で判定する論文

GANによる存在しない架空の人物の画像生成、どうみても本物の顔写真と区別がつかないものもできるようになりましたが、そんな合成顔を見分けるための研究というのもされているようです。

こちらは両目の瞳孔に反射した光のパターンを左右で比べて、両目のパターンが大きく異なる場合はAIによる生成顔だと判定できるとした成果。

片目をつむっている顔は判定できないとか、両目から等しく光源が見えるような状況でなければ誤判定が起こるとか、制限もあるようです。それはそうかという感じ。また、免許証の写真ぐらいの解像度で紙に印刷されてしまえば、このような判定法は適用できなさそうにも思えます。

そしてもちろん、この研究は「今の」GAN生成顔を検出できるというものでしかなく、今後のAIによる顔画像生成は双眸の反射を考慮したものになっていくのでしょうね。

via TheNextWeb