発想と実装の 間 をつなぐメディア

Google Video Intelligence API 無料公開!動画内の情報解析が『誰でもできる』時代へ

機械学習による、画像解析・生成にデータ解析からのアシスタント発話生成…と。ここ最近ノリノリなGoogle先生が、またやってくれました。

動画内に何が映っているのか?を自動判別する新APIの公開です。

リリース: GC Bigdata & ML Blog

  • 動画内部の情報を自動解析
  • 映っている対象物やシーン、行動などにタグ付けしてテキスト情報化
  • さらにシーンの切り替わりタイミングの取得もOK

という、『え?そんなん技術的にもう可能なんだっけ?』 レベルのAPIを、なんと無償で開放 ※Video Intelligence APIとしてリリースしたらしいです。

※もちろん利用にGCPアカウントは必要ですし、動画は GoogleCloudStorage に保存したものだけを今のところ対象としているらしいので、そこに多少のコストは発生しますが。API利用自体は現状無料っぽいです。まぁ法人でG Suite入ってればそこはそんな問題にならないですし。新規で申し込んでも1ヶ月無料(ほんとは月300ドルくらい)で使えますし。

とりあえず既にデモが使えるらしいのでやってみる

なんと既にデモが使えるそうなので、ひとまず Video Intelligence API へ移動後、Googleアカウントでログイン。サンプルとして用意されている動画から対象動画を選んでみます。

出力は『動画全体のラベル(lavels)』と『各シーン毎のラベル(Shots)』が以下のようなJSONで取得可能なようです。

てか精度たっっっか!!

ちなみにAPIの仕様について

認識ラベルごとにデータ出力 ⇒ 全体(VIDEO_LEVEL)での信頼度と、シーンごと(SHOT_LEVEL)の信頼度が認識された時間情報と一緒に格納って感じみたいです。
デフォ状態だとVIDEO_LABEL、SHOT_LEVELがごちゃまぜで1つのJSONになっちゃってるみたいなので、リクエストのときに “features” を “LABEL_DETECTION” オンリーにすればいい感じに返ってくる様子。一度 Annotate のほうでリクエストを発行 ⇒ その結果のID(asia-east1.1004539334628xxxxxxxxとかって文字列部分)をもとに、Operationのほうで進行状況と結果を取得・確認する形っぽいですね。

で、これってつまり何やってんの?(仮説)

実は、公式からのアナウンスではまだ『TensorFlowとかつかって色々やってるよー』くらいの事しか書いてないんでよくわからないんですが、要するに画像解析系エンジンがやっている手法(CNN)と近いフローなんじゃないか?なんて海外ギーク連中の間では噂されています。

  • シーンを切り出して、めっちゃ小さくしてドット絵みたいにする
  • ドット集合単位で『○○が写ってればこんな感じははず』という学習データ照合
  • 学習済みデータから最も適合率の高いものをタグとして紐付けてJSONで返す

で、これを動画でやる。。。と。

つまり、上記フローを自動判別したシーン切り替えのタイミング(画面内の大きな要素変更を自動検出してるらしい)ごとに超速連続解析してる…とか、どーやらそんな感じらしいです。

え。なにそれすごい力技。

まぁ真偽のほどはよく分かってないですし、何かとんでもな技術が使われた…のかも知れないですが。

力技にせよ新しい技術だったにせよ、これまで画像解析系フィールドにおいてダークマター扱いだった動画をここまで解析するとは…やっぱりGoogle先生すごい。

マーケットに与える影響はどんなもんだろう?

ほんっっっとに色々あると思うんですが、例えばちょっと考えつくだけでも

  • 動画投稿系サービスの検索効率化
  • 投稿された動画内にNGな内容がないか?などの監視系オペレーション自動化
  • 動画広告の本格的な解析とマーケティング活用
  • ユーザー行動に合わせた超パーソナライズ動画配信

とかとか。この辺でしょうか?

ともあれ、これまで『やれそうだけど、現実的には無理じゃね?』扱いだった動画内情報解析が、唐突に無料になってしまったわけです。

これまで誰も考えて来なかった新しいアプローチが、ここから生まれていくのかも…?なんてわくわくしちゃいますね。

Google先生ありがとうー!

デジマラボ 編集部 by
BITAデジマラボ編集部です。最新Tech界隈の「なんかすごいね」を、『現場の提案』にするための情報をけっこうがんばってお送りします。