カテゴリー
技術

Unselfie – 自撮り(セルフィー)を自然なポートレイト写真に変換する技術

バークレー大学アドビ研究所の論文(pdf)で、手を伸ばして撮影した自分撮り(セルフィー)を、他人が撮影してくれた肖像写真のように自動変換するアンセルフィー(unselfie)という技術の研究が発表されています。

左のようなセルフィー写真を、右のように変換してくれるということです。

「写真家や三脚の助けを借りずにスマートフォンで気軽に自分の肖像写真が撮れるようになりましたが、撮られた写真のポーズは不自然になります。この研究では、セルフィーから自然なポーズの写真を作る unselfie という変換を導入しました。」

学習データとして「同じ場所、同じ人物、同じ服装でのセルフィーと自然な写真の2枚のセット」を入手することは難しいため、大量のセルフィーと大量のポートレイト写真をそれぞれ用意し、元のセルフィーと似たようなポートレイト写真への変換が行われるような生成器を学習させるようにしたそうです。

普通に撮っていたならこんな感じだったろう、という写真を見つける部分はまだまだ完全ではなく、肩幅や腕の太さが不自然に太く/細くなったりするし、腕の位置が変わったことで見えるようになる背景部分の生成や脇の部分も失敗することはあるそうです。

他の画像変換と同様、このような変換もあっという間に改良されていって、よりカジュアルに使えるようになるかもしれませんね。そうなると、証明写真とか遺影みたいなものも、セルフィーしかないところから調達できてしまうのかもしれません。変換してできる自然な写真を「証明」用にできてしまうとしたら、写真による証明という概念自体も揺らいでしまいそうですけれど。

via VentureBeat

カテゴリー
技術

スマートフォンのカメラで血圧を計る研究とそのアプリ

経皮的工学イメージング(Transdermal Optical Imaging)によるスマートフォン血圧測定 というトロント大・杭州師範大学附属医院の共同研究が発表されています。スマートフォンのカメラで撮影するだけで、映った人物の血圧を計るという研究です。

現在のスマートフォンのカメラでも、顔の表皮付近のタンパク質から反射された光を検出できるそう。特に、血液中のヘモグロビンに反射した光を追跡することで、表面近くを流れる血流の変化が取れます。これを機械学習によって処理することで、1328人の被験者の95%程度の正確さで血圧を当てることができたということ。

ただ、この1328人のほとんどが白人系と東アジア系だったということで、今回の検証モデルでは、色が濃い肌の人についてはまだまだ正確に計れないのだそう。

この研究をベースにしたスマートフォン用のアプリ Anura が Android, iPhone 向けに配布されています。

僕の手持ちのスマートフォンは対応していなかったので試せていませんが、現バージョンでは顔の表面を撮影した短い動画から、安静時心拍数とストレスレベルを測定することができるそうです。今回論文発表された血圧測定についても、すべての人が使えるようになるには数年掛かるそうですが、テスト的に搭載されるのも近いかもしれません。

今でも個人が自宅で血圧測定することはできますが、専用の機械はそれなりの値段がしますし、毎日腕に巻いて計り記録をつけるのもたいへんです。既に高血圧と判定されて医者から気をつけるように言われた人ぐらいしか測定はしていないでしょう。

カメラで写すだけで測定できる今回の技術、すべての人種に対する判定の精度があがれば、パソコンのカメラや監視カメラも併せて常に人々の血圧が測定され、健康状態の変化がフィードバックされたり異常な状態が素早く検知されて医療的な対処が提案されたり、というSF的な未来も近づいているのかもしれませんね。

Anura Lite

カテゴリ: Health & Fitness, Lifestyle
言語: 英語, フランス語, イタリア語, 日本語, ポルトガル語, 中国語, スペイン語
価格: 無料
バージョン: 2.9.0

開発者: Nuralogix
公開日: 2018-11-17
評価(全バージョン):
(108人のレビュー)
評価(現バージョン):
(108人のレビュー)

スクリーンショット

screenshot 0screenshot 1screenshot 2screenshot 3screenshot 4screenshot 5

via Quartz

カテゴリー
ネットのサービス

Speech2Face – 声からあなたの顔つきを当てる研究

声から、喋っている人がどんな顔なのかを推定する、という研究です。

上に並んでいるのが、短文の音声メッセージの話者です。これ左端はダニエル・クレイグ氏(007)ですよね。他はわかりませんが。

サイトで再生ボタンを押すと、推定に使われた音声データが聴けます。10秒も無いぐらいの短い文章です。

そして、下に並んでいるのが、その音声から深層ニューラルネットワークを利用して推定した話者の顔。

学習データとしては、インターネット/YouTube 上の数百万の人が喋っている動画を使ったそうです。「こんな風貌の人は、こんな風に話す」というデータを大量に食わせることで、「こんな風に話す人は、こんな見た目なことが多い」という変換を得たということですね。

推測結果には性別・ジェンダー・人種など繊細な問題が絡むことから、倫理的な注意書きが添えられています。学習データは全人類の平均的な喋り方を集めたのではなく、YouTube などから動画を集めたことから、データには当然バイアスがあります、と。YouTube に出ているような人の喋り方、に偏っているかもしれないし、喋っている言語のサンプルが少なかったりする言語の場合も偏りがあるかもしれない、などなど。

また、話者本人を特定したり、話者のファッション(髪の色やメガネ等)を特定したりは当然できません。(メガネをかけた人特有の話し方、とかない限り)

アプリやブラウザに対して喋ると顔写真を出してくれたり、というお遊びサービスは面白そうですが、その先にどのような実用的な応用がありうるのか。何か面白いことができそうな研究ではありますね。

via Futurism