INDEX

スマートスピーカーへの展望とデザイン

1〜3の記事では実際に我が家で実践・運用してきたDIY・スマートホーム・IoT・スマートスピーカー関連の話やTipsを書いてきました。

最後の今回はスマートスピーカーを実際に使っていて手短なところからどういうふうになっていってほしいか、デザインを考えるにあたってどんなふうに考える必要があるか、それから今後次にどのようなカタチに変わっていくのか（変わってほしいのか）について考えたことを書いていこうと思います。

正直、ほとんど私のただの妄想みたいな駄文なので期待しないで読んでください。

スマートスピーカーを育てたい

f:id:kudakurage:20180102121602j:plain

Google Home MiniやAmazon Echo Dotなどのスマートスピーカーを使っていると命令を聞き取ってもらえなかったり、思っていたのと違うアクションをする場合がよくあると思います。

３つ目の記事でも書きましたが、Google Homeに「ラジオを流して」というと私のMusic Libraryに入っているJudy And Maryの曲の「Radio」を流してしまうという正しく動いているんだけど自分の思っていたのと違うということもあります。

そういうときに本当はこうしてほしかったと伝えることで調教したくなりますね…。

AlexaにもGoogle HomeにもiPhoneアプリがあって、そこで自分が発した音声命令の履歴を一覧することができます。自分が発した音声も録音されていて正しく声で伝えられていたか、それを正しくテキストに変換できていたか、そしてどんなアクションをしたのかが見れます。

ここでできるのは情報を見るところまでなのですが、この場合はこのようなアクションをしてほしかったという風に訂正（設定）できれば、少しずつAlexaを調教できて育ててる気分になっていいのになぁとよく感じています。

各社開発中ではあるとは思いますが、普段のスマートスピーカーの利用データから傾向などを学習していけば、より個人に合わせたパートナーという感じが増してくるような気がします。

現在はこちらが発する音声をきっかけにしか動かないですが、技術が進んで利用者のコンテクストがよりわかるようになってくればスマートスピーカー側から動くというのも自然になっていくように思います。（現在のままだと鬱陶しい感じになりそうですが）

利用者のクセや感情や状況も声色やイントネーションや間合いなどから推測してコンテクストとして利用して会話することができるようになるだろうと思います。実際にこの辺りを研究しているというのを読んだりしたことはありますが、利用者が増えてデータが蓄積されれば実現するのも遠くないかもしれません。

まだ僅かな期間しか使っていないですが、まぁ正直いまのところはキラーユースケースが出てくるようなイメージはないですね。（皆さんのご意見が聞きたいです）

音声・会話を主体にしたインターフェースとデザイン

f:id:kudakurage:20180102121624j:plain

会話、特に音声・話コトバをインターフェースとしたやり取りを行うのは今までのCUIやGUI以上に難しいのは明白です。

一般的な利用者が普段の生活で使うレベルということは、普段私たちが友達や家族と話しているようなレベルにまで近づけていく努力が必要になってくると思うからです。ある程度、利用者側の慣れや使う頻度が上がったことによる学習によって行動が変わるだろうとはいえ、それは微々たるもので、まだまだApplicationやAI側が歩み寄らなければならない部分は大きいと思います。

普段話しているレベルとなると、言葉の省略や「アレ」といったあやふやな代名詞を使った会話、思い出せないキーワードをいろいろな関連語で補って話すような会話など、あまりにも不規則で多くのパターンの会話をしているからです。

現状のスマートスピーカーのスキル（アクション）の開発方法について見てみると、基本的な部分は決められたセンテンスのフォーマットに沿って設計し、言葉遣いの揺れを考慮しいくつかのパターンに応えられるように予め用意しておくという感じです。

不規則なパターンの会話に対して答えるというのはまだ当分対応することができないでしょうが、現状のフォーマットに沿ったスキルを設計する場合においてもいくつか考慮できる部分はあるように思えます。

まず、利用者に発してもらいたいセンテンスもスマートスピーカーが返すセンテンスも可能な限り短く・わかりやすく・簡単にするという事はあると思います。

音声による対話のインターフェースは一見するとCUIにも近いように感じますが、音声による対話の場合はCUIと違い気軽に見返す（聞き返す）ということはできません。CUIの場合は理解ができなければ何度でも画面に表示された内容を読めばよかったですが、音声による対話では何度でも自由に聞き返すというのは困難です。

長い答えをひたすら一方的に返されてもほとんど頭に入ってこないでしょうし、たくさんの選択肢を言葉で提示されても覚えきれません。日常的に使うとなれば、利用者に覚えてもらいやすくできるだけ普段と同じような言葉遣いで発することができるようなスキルにするがありますよね。

このあたりは各社の開発者向けのページにも同じようなことが書かれていますが、今まで目に見えるモノや画面を対象に考えていた以上に簡単にするということを意識する必要があるように思えます。

最初にスキルを設計する時に紙などで文章によるダイアログを書いて設計をして、これなら簡単でわかりやすいと思っても、実際に声で発してみたり聞き取ろうとしてみたら難しかったということはあるだろうと思います。

なので、実際に言葉を発して話しながら考えていくというのが良いかもしれないですね。

それから、実際にスキルを開発しようという場合には、これまで以上にユーザーが期待するものやユーザーの発する言動について注意深く観察し対応するきめ細やかさが必要になってくると思います。

先程も書いたとおり、普段はあまりにも不規則で多くのパターンの会話を人はしているので、開発段階やテスト段階では想定していなかったような言い回しや返答が出てくることは大いにあると思います。

だから、どんなに簡単な単一アクションのスキルであったとしても、実際の利用者の使い方に気を配りフォローしていくことでようやくストレスのないクォリティまでできるのではないかと。

そういったことも踏まえると、できるだけ言葉遣いの揺れや不規則なパターンの発生が起こらないように、スキルの目的を明確にし複雑にしないということも重要だと思います。（これも真っ先に開発者向けのヒントとして書いてある）

現状でも何度か会話のラリーをしながらアクションをこなすスキルというのが作れますが、ラリーを繰り返すほど複雑で難しくなるため、今あるスキルの多くは一問一答が多いんだろうなと。

ちなみに人は普段何かを尋ねようと思っている時に、本当は何を尋ねようと思っているのか？本当は何を欲しているのか？を実は正しく認識していない場合もあります。そうなってくると利用者の欲するものを導いてあげるような受け答えが必要で、会話のラリーをするようなスキルを考える場合にはそのあたりを頭に入れつつ検討したほうが良いだろうと思います。

スマートスピーカーの音声ユーザーインターフェースにおけるデザインと開発については始まったばかりで、実際のトライや知見を共有しているのはまだまだ少ないです。ですがクックパッドがスキル開発でトライした内容や知見は、開発者の具体的な知見として参考になるものの一つだと思います。

スマートスピーカー（スマートフォン）の次は？

f:id:kudakurage:20180102121644j:plain

スマートスピーカー空間に溶け込ませ、音声のみでタスクをこなせることから人は手と視覚をフリーにすることができるようになりました。しかし先程書いたように、音声対話のみで複雑なスキルやアクションを行ったり受け取ったりするのにも限界があると思います。

そこでスマートスピーカー（音声アシスタント）をより効率よく活用でき、スマートフォン並の利便性を得られるデバイスとして、私はスマートグラスの一般化というのがあるのではないかと思っています。

スマートスピーカーはインプットもアウトプットも音声のみでしかできませんでしたが、スマートグラスのように映像での出力が可能になれば、アプリケーションとのインタラクションは格段にやりやすくなり、選択肢も広がります。

例えば、音声だけでは音声アシスタントから読み上げられた複数の選択肢から一つを選択するというのは困難になりがちですが、表示されている複数の選択肢から一つを選択するというのであれば幾分やりやすくなります。

またスマートグラスのように常に身につけているようなデバイスであればスピーカーのように場所に制限される事はありませんし、より個人に対する最適化されたサービスの提供もしやすくなります。

正直なところを言うと、外出中に人前で（独り言のように）音声アシスタントを呼び出すのは少し恥ずかしいけれど、自宅であれば十分に可能性ありますし普通に使ってみたいなぁと。

現状、製品化されている（しようとしている）ものとしてはGoogle GlassやHololensなどいくつかありますが、個人的にはHololensのような網膜投影型デバイスが良いと思っていて、デバイスの小型化と視野の拡大が重要になってくると思っています。

網膜投影の視野の拡大については現在いろいろな企業・研究者が取り組んでいて割と早い段階で改善されていくんじゃないかと期待しています。Hololensではまだまだ狭い範囲にしか表示できないので、自分の見ている世界に情報が浮いているという感覚にはまだもう少しという感じです。

またデバイスの小型化に関しては、いくつかの技術的要因によってもたらされると思いますが、中でも5G（第5世代移動通信システム）の実用化が進めば、通信の高速化・大容量化が可能になってきます。そうなればコンピュータによる計算処理を必ずしも個々のデバイスで行わず、クラウド上で計算した結果を返し私たちの使うデバイスではインプットとアウトプットをメインに行うようにできると考えられます。

モバイルデバイスで計算を行う必要が無いということは、必要な電力量を抑えることができるためバッテリーの小型化が進むことが期待され、よりコンパクトにスマートにできるのではないかと考えられます。

スマートグラスというとスマートホームからは遠ざかっているようにも思えますが、スマートスピーカーなどのような空間環境デバイスと個人が持ち歩くモバイルデバイスはお互いに影響し合いながら徐々に進んでいくのではないかと思います。

私の勝手なイメージとしては以下のように、モバイルデバイスと空間環境デバイス、パブリックとプライベートが振り子のように揺れ動きながら徐々に進んでいくのではないかと思っています。

スマートフォン
- モバイルデバイスによる限られた映像空間でのサービスの提供
- ディスプレイの大きさに制限された中での個人に合わせたサービスの提供が可能となる
スマートスピーカー
- 空間環境デバイスによる限られた空間での音声サービスの提供
- 家・音声のみという制限の中でデバイスを持たずに空間と対話するサービスの提供が可能となる
スマートグラス
- モバイルデバイスによる空間の制限のないサービスの提供
- 制限のない実空間上に個人に合わせたサービスの提供が可能となる
- ハンズフリーなモバイルデバイス
？？？（家に制限されないパブリックな空間環境デバイス）
- 空間環境デバイスによる空間の制限のないパブリックなサービスの提供
- 家に制限されることなく空間と対話することができるが、それはパブリックに共有される情報としてアウトプットされるサービスの提供が可能となる
- 音声だけでなくホログラムなどの映像による表現・提供もできる
？？？（家に制限されないプライベートな空間環境デバイス）
- 空間環境デバイスによる空間の制限のないプライベートなサービスの提供
- 利用者はデバイスを持ち歩くことなく、実世界のどこにいてもプライベートな情報等を享受できるサービスの提供が可能となる
- 実空間上で対話することができる上に、それは特定の個人のみに届けることができるという技術の確立