とある社会人ドクターのブログ

研究や読んだ書籍等の話をします

SSII day2

SSII2019 day2

プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~

マルチモーダル4Dセンシング ~リアルワールドのデジタル化~

セッション全体説明

  • 空間モデリング
    • 自動運転やARに必要
      • 3D modeloing

        • SLAM
          • ルンバやAR基盤としても使われる.
          • 意味
            • センサ姿勢とマップ同時推定をする
            • 測距センサによるSLAM
          • 手法
            • LiDAR
            • 画像
              • 画素値ベース
                • ORB-SLAM
              • 特徴点ベース
              • CNNベース
                • CNN-SLAM
                • DeepTAM
                • 単眼からメッシュ推定もできる
          • OSS
      • 4D modeling

        • なんで?
          • 時系列の変化も見たい
          • 車載カメラ,ドローンの普及
        • 将来的に
          • 実データがネット上に集まりリアルタイム情報抽出できる
    • 深層学習
      • 普及
    • マルチモーダル
      • 弱点を補う

        • LiDAR
        • ステレオ画像
        • 組み合わせてより密な情報を推定できる
      • 形状以外の物理量を統合

        • 3D温度マップ
      • なぜ必要か
        • 信頼性をあげる

ロボティクスにおけるSLAM手法と実用化例

  • ロボットの自律移動にはセンサ融合が必要
  • スキャンマッチングでもベイズ推定したい
    • 通常のスキャンマッチングは尤度のみを考慮
    • 最大事後確率推定によルウ位置合わせをベイズの定理に従って正則化最小二乗法で解く
    • 点群位置合わせで精度向上
  • 推定位置の不確実性を求めたい
    • 共分散を求めると不確実性がわかる
  • レーザの受光強度を使う
    • 通常のICPは形状だけだったので,平面だけだと位置合わせ失敗する
    • 強度も使うと拘束されるので良い
  • 自律ロボナビゲーション
    • つくばチャレンジ
      • OSSいっぱいあるけど屋外実環境での自律走行は難しい
      • 完走率低い
    • 自律走行のOSS
      • ROS
      • 製品のStencil
      • v-slamは少ない
    • SLAM手法
      • スキャンマッチング
      • ベイズフィルタ
      • グラフベース
      • SLAM使わない人もいる
        • GPS
        • オドメトリ
    • LiDAR
      • 色々な小型LiDARが出た
      • スタートアップも多い
    • ミリ波レーダもある
  • ルンバ的なやつ
    • パナソニックとの共同研究
    • ルンバ
      • 2014年にSLAM導入
      • フロアトラッキング
      • センサ融合
      • 2018年のモデルは地図を保持.地図の更新分割.大域位置推定.
    • ダイソン
      • 全方位カメラのv-slam
      • 2019年に地図保持,地図更新,地図結合.大域的情報保持.

3次元・マルチモーダル音環境認識

  • 音環境認識
    • 音イベントの「どこで」「どんな」を認識したい
  • システム
    • 収録された音を
      • 音源分離
      • 音源定位
      • 認識
    • 最終的にロボの行動計画をおこなう
  • 難しいこと
    • 観測音が混合されている
      • 教師ありでは難しい
    • 特定の音源は用意できるが自然音は取得難し
  • やりたいこと
    • マルチモーダルで対応したい
  • 深層学習
    • 混合音分離
      • ❌教師ありでは大量のデータが必要
    • 学習データの問題を解決
      • 音声と雑音分離(音声強調)
        • 音声をVAEでモデル化
        • ノイズを古典的確率モデル
      • 画像と音の共起関係を学習(音源分離)
        • 映像情報を学習するとどこから音が鳴ってるか推定できる
      • 多チャンネル録音の空間モデル
        • 近い遠いをモデル化
      • 音イベント識別
        • シーン分析など
      • 音声認識において
        • 人の唇のデータも同時に学習
  • OSS
    • HARP  

エンドユーザー向けSLAM技術の現在

  • モバイルのAR
    • 家具配置するアプリ
      • 古典的に解いていたがARkit, ARcoerでスケール推定までできるようになった
    • 手軽なAR体験,コンテンツ作成が研究要素として残った
  • 気軽なAR体験
    • ブラウザ上でARできるのは手軽
    • コンテンツに依存する
    • SoTAのWebAR
      • 8th Wallのライブラリが良い
    • WebSLAM
      • クライアントサイドでは特徴点抽出
      • サーバーサイドでは重いSLAM
  • 密な三次元復元
    • Depth推定するCNN
    • メッシュ形式で3次元推定できる
    • v-SLAMにCNN入れたやつもある
    • Mesh CNN-SLAM
    • 人物のオクルージョン対応できるようになった
    • 点群から見えの変換をできる