執筆

ASCII.technologies 11月号のAndroid特集の一記事として、寄稿いたしました「AndroidとAR/VR技術の可能性」を公開いたします。 みなさまの思考の一助となれば、幸いです。

SIPropプロジェクト執筆陣一同

仮想と現実の融合

AR(Augmented Reality:拡張現実感)は私たちが居る現実世界に対して、キャラクターやアバター等をオーバーレイして描画する技術の総称として定義されている。ディスプレイの発展と、3Dを高速に処理できるグラフィック技術・CPUの高速化に加えて、ネットワークの高速化など、既存技術の発達によってリアルタイムに私たちの目に映る情報を処理できるようになった。さらに現在は、端末がモバイルできるようになり、カメラ、GPS、電子コンパスのような新しいデバイスが搭載されるようになった。

ARはこれらの技術的な基盤の上に成り立っている。私たちは多くの情報を視覚から得ているため、今私たちが見ている現実世界に、ゲームのキャラクターを投影することで、あたかもそこに別の何かが存在するような感覚や、付加的な情報を投影することで、現実世界の認識をより強化することができる。

これとは逆の視点として、VR(Virtual Reality:仮想現実感)がある。バーチャルリアリティーとよく呼ばれるものであるが、これは逆に現実には存在しない仮想世界に対して私たちが入り込んで、その世界を認識していくものである。誰しも一度はゲームの世界に入り込んだことがあると思う。ゲームの中に居る住人とコミュニケーションを取って、多くの難関を乗り越えて成長していくと、あたかもゲームという仮想世界に存在するかのように、仮想世界への認識を深めることができる。

この仮想と現実という相反するものの間に存在するものとして、AV(Augmented Virtuality: 拡張仮想感)がある。AVは仮想と現実といった一方の立場からの見方ではなく、仮想と現実を融合させた世界を表現している。AVは仮想と現実の融合をもう一歩推し進めた考え方で、例えば、仮想世界にある仮想の車のかわりに、現実世界の車(の写真など)を用いることである。そうすることで、仮想や現実だけでは表現することが出来ない世界を補完しようというものである。

AR_possibility_fig-1.gif

図1、AR,VR,AVの関係

多様な仮想世界に広がる現実感

仮想世界のみを追求するの場合はVR、現実世界に軸足を置いた場合はARといったように、AR/VRは対象とする世界を現実・仮想ののどちらに軸足を置くか?によって意味合いが変わる。ただし、AR/VRのどちらも対象とする世界と私たちをつないで、その世界のモノとのコミュニケーションを促進させる役割がある。インターネット上の仮想世界ではSNSやアバターを介したコミュニケーションが行われている。それに対して現実世界においては、会議等で特定の場所に集まって対面することでコミュニケーションが行われている。インターネットは見方によっては、時間や世界を超えた現実世界でのコミュニケーションを行う場としても考えられるが、チャットの文字やアバターが、私たちが現実に見えている世界に直接アプローチしてくることはない。そのため、ともすれば別世界の出来事のように、現実感が薄れて感じてしまうことがある。

ARによってもたらされる仮想と現実の融合は、私たちが見ている現実世界に対して仮想世界の住人を連れ込むことができる。そして目の前に見えるディスプレイ毎に、現実感を伴った多様な世界を広げることができる。そこでは、私たちが居る現実に対して、あちら側に存在する多数の仮想世界とコミュニケーションをとっているような、新しい感覚を私たちに与えてくれるだろう。

今まで仮想世界と私たちが生活している現実世界は別々の道を歩んでいた。古くは「胡蝶の夢」で語られるように、仮想と現実の間の境界が曖昧になることで、現実感の喪失が起きるのでは?という危惧を抱くこともあるだろう。実際、仮想世界だけに没頭した結果、現実に対する認識が疎かになることもある。しかし、ARによってもたらされる両者を融合した新しい、そして複数の次元に広がる世界に対する感覚は、現実をよりリアルに感じ、仮想世界の出来事も現実感を伴って認識する、新しい感覚をもたらす可能性を持っている。

五感 x デバイス x AR/VR = 拡張知覚感(Augmented Sensibility)

それでは、そのような新しい世界を表現するための接点となるデバイスとして、どういったものがあるのだろうか?仮想世界の接点として最初に思いつくデバイスとして、マウスやキーボード、ディスプレイがある。マウスやキーボードは私たちの意図を伝える入力デバイスとしての働きがあり、仮想世界からの情報を出力する為にディスプレイが使われる。さらに、近年ではより発展した新しいデバイスがモバイル端末には標準搭載されている。カメラ、マイク/スピーカー、GPS、加速度センサーといったデバイスである。

これらを私たち人間の五感に置き換えてみると、カメラは視覚、マイク/スピーカーは聴覚と置き換えることができる。さらにGPSの位置情報、加速度センサーよって動きを捕捉することができる。今まで能動的にマウスやキーボードを使って入力していた情報が、これら新しいデバイスの登場によって私たちは意識することなく情報が収集して、入力情報として扱うことができる。それではこれらデバイスによって得られる情報は、どのように扱われて私たちに情報を伝えるのだろうか?

AR_possibility_fig-2.gif

図2、デバイスを介して繋がる仮想と現実世界 (2段抜きを想定)

五感のコンテクスト化

これらデバイスによって得られる情報をコンテクスト化することで、私たちがどういった状態にあるのか把握することが可能になる。例えば、GPSで位置を特定して今は渋谷の駅前に居ると特定できて、カメラで見ている情報を画像処理によって対象とする画像に多数の人の顔があったとしたら、「渋谷駅前は人ごみで溢れています」と音声で伝えることが出来る。また加速度センサーによって、「今は車で移動している」と特定し、地図を表示して混雑を避ける道筋を表示するも出来るだろう。つまり常に身の回りにあるモバイル端末の情報は、私たちの五感、行動を透過する入出力インターフェイスとして考えることができるのである。

もちろんデバイスの力を使わなくても、私たちは現実世界において五感によって知覚を得ることができる。ある物質を触ったとき、五感の一つである触覚より、すべすべしているや冷たいなどの知覚を得て、そこから金属質の物質であることや触ってはいけないモノかを判断することが出来る。その判断は、五感より得られた情報を今までの経験によるコンテクストから導きだして得ているのである。

それに反して仮想世界において、私たちが感じる知覚に相当する生きた体験はない。もちろん情報のコンテクスト化によって、情報の持つ意味について判断することはあるだろう。また、ゲームでは巨大なモンスターが現れたり、現実には存在しえないような仮想体験もあるだろう。しかし、仮想世界の体験は、現実の体験を伴ったものではないため、本当の意味で私たちの知覚へは昇華されていない。

そこで、デバイスによって得られた私たちの五感にも相当する情報と、ARの仮想と現実を融合する能力を組み合わせると、どのようなことが考えられるだろうか?ARはカメラという一つのデバイスだけでなく、マイクやGPSといったデバイスを複合的に組合わせて利用することが考えられる。もちろん、デバイスを通じて得られる情報はデジタル化されているため、入力情報として容易に仮想世界に持ち込むことができる。つまり今まで仮想しかなかった世界に、私たちの現実の五感をデバイスを通じて持ち込むことにより、仮想世界に現実世界を持ち込むことができる。それでは仮想と現実の融合した世界での体験は、私たちにどういった知覚をもたらすのだろうか?

拡張知覚感とは

仮想と現実の融合した世界では、私たちの実体験と仮想経験が組み合わさった結果、知覚拡張とも呼べる体験がもたらされる可能性がある。例えば、街中で知らないうちに車のエンジン音をマイクが拾ったとしよう。その時、エンジン音から故障の前兆となるような特有の音パターンが検知された場合、警告を発することなどが考えられる。このように、普段は街中の雑踏に紛れて、知り得ることがなかった事象を提示するということは、聴覚が拡張された状態であり、危険察知能力の向上と捉えることができる。

つまりデバイスとARの力によって、今まで知覚できていなかった物事が体感できるようになる。このように仮想と現実の融合された世界では、デバイスという私たちの五感を投影するものの助けによって、私たちの知覚の幅をより広げてくれると思われる。それを筆者たちは、拡張知覚感(Augmented Sensibility:AS)と呼びたいと考えている。

インフラ指向拡張知覚感(Infrastructure Oriented Augmented Sensibility)への進化

知覚の可能性を広げるARは、現在最も発達している仮想世界であるインターネットとも交わってきている。インターネットはWebに始まりコミュニケーションの場の一つとして発展してきた。Webはどこかのサイトへ行って見るという一方向への情報の流れである。それがSNSに代表されるようなソーシャル関係が生まれ、まるで仮想世界に現実の関係性があるかのようなコミュニティーが形成されてきた。実際には会ったことも無いのに、インターネット上では関係性が成り立っている。そのソーシャル関係をもったコミュニティーにおいてはコミュニケーションが行われ、何か情報を提示することで新しい関係性が生まるというインタラクティブな相乗効果への流れの中にある。

ARは前述してきたように、現実世界と仮想世界を融合させる役割がある。例えば天気ニュースで、お天気お姉さんが日本地図上をポイントすると晴れマークが地図上に出てくるように、日本地図上に仮想の太陽が「ポイントする」という行為によって出てくる。これはコミュニケーションという見方からすると、片方向からの流れでしかない。インタラクティブなARの例としては、現在注目を集めているセカイカメラがある。これは、カメラを向けた方向に映し出される現実世界の風景上に、その場の位置情報とカメラを向けた方角の情報から、その場にふさわしい仮想世界の情報をとりだして、現実世界の風景上に映し出している。これにより、インタラクティブが高くリアルタイムに現実世界とのマッピングが行われているため、現実世界と仮想世界の融合も高いレベルで成されている。

つまりARもインターネットも現在の目指すところは、仮想と現実を融合させた場におけるインタラクティブの確立とも言える。ARは仮想と現実の両方の性質を持っているため、どちらの情報についても容易に取り込めるという利点がある。そのため、仮想上のコミュニケーションが発達したインターネットと交わるのは自然な流れだといえる。

ARとインターネットの協調進化



AR_possibility_fig-3.gif

図3、知覚融合度とコンテクストの関係

その先には、ARとインターネットが協調進化した融合世界がやってくるだろう。それは、どういう世界だろうか?

その世界においては、仮想と現実の間は前述した多様なデバイスによって私たちの知覚や情報を取り込むことになるだろう。そして、それらの知覚や情報は、時間や空間、ソーシャル関係などからコンテクスト化されるはずだ。さらに、そのコンテクスト化された知覚や情報は、検索やマイニングといった処理の対象となる。例えば「自分と似たような行動を取っている人は?」といった検索が行われることで、仮想世界上に新たなコミュニケーションが産まれてくるかも知れない。さらにはコンテクスト化された知覚や情報のマイニングにより、「私たちがどういった行動をとることが最適なのか?」を仮想世界上でシュミレーションすることも考えられる。例えば、行動予測を元に、カメラを通じた仮想世界に自分が向かうべき方向が矢印が提示されるような、ナビゲーションをAR上に表現することもできるだろう。そしてそれは、現実世界をも越えた躍動感のある融合世界を創出していくことになり、電気や水道のように生活する上でなくてはならないインフラとなっていくことだろう。

このように、ARとインターネットが協調進化した融合世界では、様々なものを取り込んだ多様な次元の世界を私たちに感じさせてくれるはずだ。そこではコンテクスト化された知覚や情報を元にコミュニケーションが行われて、私たちの生活になくてはならない融合世界が多数産まれてくるだろう。結果として私たちは、AR技術を基礎としたインフラの上にコミュニケーションの場をシフトしていくことだろう。つまり、ARとインターネットの持つ仮想と現実がインタラクティブにコンテクスト化されることで、仮想と現実の融合した世界は私たちの生活に欠くことができない、インフラ指向拡張知覚感(Infrastructure Oriented Augmented Sensibility)とも言える到達点に向かっていくものと考えられる。

Androidでの利用

最後にARをAndroid上で利用する方法を紹介する。Androidではカメラ、マイク、スピーカー、GPS、加速度センサー、タッチパネル、地磁気センサーといったデバイスからの情報を取得することが可能である。AR ではカメラを使って視覚情報を提供したり、マイク・スピーカーを組み合わせて、視覚情報と同時に音声情報を提供することができる。例えば、カメラを用いてARを実現する場合は、まず、カメラから取得できる画像を取り込み、画像認識を行い仮想オブジェクトを表示する場所等の決定する。その上で、仮想のキャラクターやオブジェクトを3D表示することになる。

ARには画像認識、姿勢情報の解析、3Dオブジェクトのオーバレイ処理といった複雑な処理が必要である。このような複雑な処理を提供するARToolKitという開発キットが存在する。ARToolKitを用いることで、開発者は3Dオブジェクトのデザイン、動作等を定義することで容易にARの世界を作ることができる。既にAndroidへのポーティングも有志によって行われており(NyARToolkit for Android)、すぐにARの世界をAndroid上に表現することが可能になっている。

ARを実現するための重要な技術の一つである画像処理に関するライブラリーは、Androidでは標準で提供されている。例えば、画像の中から人間の顔に相当する部分を認識するためのライブラリーは、FaceDetectorというライブラリーで提供している。

さらにAndroidではマイクを使った音声認識を行うためのRecognizerIntentというライブラリーも提供されている。これを使うと、マイクに向かって話した言葉を認識して、文字情報に変換することが可能になっている。文字情報に対して自然言語処理を行い、コンテクスト化することでのARへの展開を行うことができる。

表1、Androidに搭載されているデバイスとライブラリー

デバイスライブラリー想定される利用シーン
デバイス名取得されるデータライブラリー/クラス名出力される情報
カメラ画像Camera + FaceDetector顔位置アドレス帳のサムネイル画像
マイク/スピーカー音声RecognizerIntent単語/文脈音声による操作
GPS位置情報LocationManager緯度経度Google Mapへの現在位置表示
加速度センサー動きSensorManager + TYPE_ACCELEROMETERモーション端末の状態検知
タッチパネルクリックMotionEvent座標ボタン操作
地磁気センサー地磁気SensorManager + TYPE_ORIENTATION方角向いている方向



Androidには様々なデバイスと、その情報を処理することができるライブラリーがある。モバイル端末にはこれからも多くのデバイスが搭載され、私たちの五感をデジタル情報として扱うようになるだろう。そして、現実世界の生きた情報は、ARによって仮想世界との融合を果たし、私たちの日常生活にになくてはならない、インフラ指向拡張知覚感(Infrastructure Oriented Augmented Sensibility)をもたらすことになると考えられる。