Microsoft HoloLens アプリケーション開発コンテストに応募しました! blogs.windows.com
アプリ概要
アプリの概要はYoutubeの動画をみていただければわかると思いますが音声で画像検索を行うものです。
- 日本語で検索を行うのか英語で検索を行うかボタンをエアタップし選択
- RECボタンをエアタップし録音を開始する
- 再度RECボタンをタップすることで録音を終了する(自動終了することも考えましたが雑音など周りの環境の影響を大きく受けるので今回は見送りました)
- 文章、キーワードがうまく認識されるとそれぞれテキストとして表示される
- キーワードをもとに画像検索を自動的に開始
- この際キーワードで検索しているのか音声ガイダンスが流れる
- 画像のダウンロードが終了したら周りに囲むように表示される
- タップ・ホールドジェスチャにより画像を左右に操作することができる
- 詳細を確認した画像はゲイズ・タップにより別ウィンドウで表示される
- 検索ウィンドウ、詳細ウィンドウについてはユーザの向く方向に追従するがピン止めすることで位置を固定することも可能
以前Azureの勉強として以下のようなアプリを作ったことがあったのでそちらを強化するような形で実装しました。
初めてのHoloLensとAzureの連携!Microsoft Speech APIを利用してみました。Azure完全に食わず嫌いだったけど最近楽しくなってきた。#HoloLens #HoloLensJP pic.twitter.com/C4ymb4yQy2
— ヒロム (@hi_rom_) 2018年4月7日
ポイント
現時点ではHoloLensでは日本語を扱うことができないためAzureを利用しており、ポイントとしては以下のような点があります。
- Bing Speech APIによる音声→テキスト変換(Speech to text)
- Bing Speech APIによるテキスト→音声変換(Text to Speech)
- LUISによるあいまいな文章からの検索キーワードの抽出(日/英対応)
- Bing Search APIによる画像検索
実装の詳細については別途本ブログにまとめていく予定です。
2018/5/6追記
詳細を以下にまとめました。