SSII day2
SSII2019 day2
プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~
マルチモーダル4Dセンシング ~リアルワールドのデジタル化~
セッション全体説明
- 空間モデリング
- 自動運転やARに必要
- 深層学習
- 普及
- マルチモーダル
弱点を補う
- LiDAR
- ステレオ画像
- 組み合わせてより密な情報を推定できる
形状以外の物理量を統合
- 3D温度マップ
- なぜ必要か
- 信頼性をあげる
ロボティクスにおけるSLAM手法と実用化例
- ロボットの自律移動にはセンサ融合が必要
- スキャンマッチングでもベイズ推定したい
- 推定位置の不確実性を求めたい
- 共分散を求めると不確実性がわかる
- レーザの受光強度を使う
- 通常のICPは形状だけだったので,平面だけだと位置合わせ失敗する
- 強度も使うと拘束されるので良い
- 自律ロボナビゲーション
- ルンバ的なやつ
3次元・マルチモーダル音環境認識
- 音環境認識
- 音イベントの「どこで」「どんな」を認識したい
- システム
- 収録された音を
- 音源分離
- 音源定位
- 認識
- 最終的にロボの行動計画をおこなう
- 収録された音を
- 難しいこと
- 観測音が混合されている
- 教師ありでは難しい
- 特定の音源は用意できるが自然音は取得難し
- 観測音が混合されている
- やりたいこと
- マルチモーダルで対応したい
- 深層学習
- 混合音分離
- ❌教師ありでは大量のデータが必要
- 学習データの問題を解決
- 音声と雑音分離(音声強調)
- 音声をVAEでモデル化
- ノイズを古典的確率モデル
- 画像と音の共起関係を学習(音源分離)
- 映像情報を学習するとどこから音が鳴ってるか推定できる
- 多チャンネル録音の空間モデル
- 近い遠いをモデル化
- 音イベント識別
- シーン分析など
- 音声認識において
- 人の唇のデータも同時に学習
- 音声と雑音分離(音声強調)
- 混合音分離
- OSS
- HARP
エンドユーザー向けSLAM技術の現在
- モバイルのAR
- 家具配置するアプリ
- 古典的に解いていたがARkit, ARcoerでスケール推定までできるようになった
- 手軽なAR体験,コンテンツ作成が研究要素として残った
- 家具配置するアプリ
- 気軽なAR体験
- ブラウザ上でARできるのは手軽
- コンテンツに依存する
- SoTAのWebAR
- 8th Wallのライブラリが良い
- WebSLAM
- クライアントサイドでは特徴点抽出
- サーバーサイドでは重いSLAM
- 密な三次元復元
- Depth推定するCNN
- メッシュ形式で3次元推定できる
- v-SLAMにCNN入れたやつもある
- Mesh CNN-SLAM
- 人物のオクルージョン対応できるようになった
- 点群から見えの変換をできる