発想と実装の 間 をつなぐメディア

認識率98.66%?!たった2ヶ月で手書き日本語のOCRを開発したノンジャパニーズに話を聞いてきた

Reactive_main

こんにちは。ひろきです。

記事ネタを集めていたところ、代官山で日本語の手書き認識ソフトウェアの開発に成功した外国人グループがいる。それもたった2か月で。という記事にあたりました。

気になりすぎたので、早速取材にいってみたところ、Reactive Inc.のデータサイエンティストのDavid MalkinさんとコアエンジニアのPhilip Irriさんにお話しを聞くことができたので、まとめてみました!

非エンジニアにもわかるようにと噛み砕いて、システムの内容や今後の拡張計画ディープラーニングの可能性についてまでいろいろ話してくださいました。

2017/2/27にReactiveはCogent Labs(コージェントラボ)に社名変更しています

世界初?『手書き日本語のOCR』開発に成功したチーム

picture_davidphilip

実際に開発に携わったのは、全部で4人。なんと日本語の読み書きはほとんどできないそう。

まず、なぜそもそも日本語を対象にしたのかってところをストレートに聞いてみました。

―David
日本語は世界で最も難しい言語のひとつと言われていて、OCRの開発が上手くいった前例もないから、とてもチャレンジングで面白いと思ったんだよ。
ビジネス観点で見ても、システムの開発に成功すれば必ず大きなニーズがあるってわかっていたからね。
―Philip
正直日本ってもっとデジタル化が進んでいるのかと思ってたけど、日本に来てみて、まだ手書きでいろいろやっていることに本当に驚いたよ。
でもだからこそ、大きなニーズがあるって思ったんだ。

なるほど。テクノロジー的なチャレンジと、市場のニーズが交差するところをうまく狙って行ったんですね。

確かに日本って、例えば義務教育の間は情報系の授業がほとんどないですし、文化的にも「手書き」を大切にしているところってありますよね。

実際に触ってわかった凄まじいまでの認識精度

どんな感じで文字を認識するのか、実際にデモを見せていただきました。

demo_picture1

文章の文字をひとつずつ分析・認識しています。横に信頼値が表示されていますが、これは絶対的な数値でなく相対的なものだそう。

総合的な認識率は驚異の98.66%なんだとか。

demo_negau

開発当初は、やはり日本語特有の『似てるけど違う文字』に悩まされたそう。

例えばひらがなの「う」をカタカナの「ラ」と誤認してしまったり…といった問題ですね。そこで彼らが取った施策は以下のようなもの

  • ひと文字ずつでは認識に限界があると断定する
  • ならば『もっと大きく文章の理解、文脈を分析しよう』と振り切った

そうして完成した現在のモデルは、これまでの『間違えないように解析精度をあげよう』と進化を続けてきたOCRとは似て非なるもの。

『間違えやすいものを文脈から自動修復する』という進化を遂げたシロモノなんだそうです。…すごいですね。

プラットフォームがAIの可能性を無限に拡張する

普通に考えてこれを『2か月でほぼ完成させる』というのは不可能に思えてしまいますが、そのへんどうやったのか。気になったので聞いてみました。

David_explanationcapture

―David
Reactiveでは「各業界ビジネスシーンのインテリジェンス化 を目指したAIプラットフォームの提供」をしていくことを目的としているんだ。
いま我々がもっている「Reactiveプラットフォーム」に情報をインプットし、必要とするアウトプットの指定をすることで、その間はニューラルネットワークが埋めてくれる。

だから文字の認識機能が簡単に作れちゃう…というか、今はもうそういう時代なんだよ。

なるほど…。

そもそも開発者が『全ての誤認識修正アルゴリズムの解』を考えだす必要などなく、プラットフォーム(≒ここではニューラルネットワークの輪の中。みたいなイメージ)が上手いことやってくれる時代…ということでしょうか。

確かにアレは人類のブラックボックスみたいなもんですしね。

実は一番大変だった作業は『日本語の意味理解』などではなく『日本語文字の情報を集めること』。日本人スタッフの助けが必要だったのは実際ここだけだったそう。

  • インプットする情報の種類・量と正確さ
  • アウトプットのきちんとした設定
  • それを担保するニューラルネットワークのプラットフォーム

これらがしっかりしていれば既に様々な特価型進化を遂げたAIとの掛け合わせで、無限に近い応用が可能になっていく。ということなんでしょうね。

OCRとReactive社の今後のビジネス展開予定は?

―David
完成後のOCRはカスタマーのニーズに合わせて多種多様にカスタマイズさせて提供していくよ。

例えば教育。小学生のためには文字単体の認識機能だったり、高校生であれば文法などのもっと難易度の高い言語理解の機能が必要だったりするだろう?それに合わせた機能の追加を行って、各企業への提供、そしてその後のサポートをやっていくよ。

なので、(ちょっと残念ですが)APIとしての開放などの予定はないそうです。

他にも現在はこんなサービスの開発もやってるそう。全部超気になります。さすが。。

一見脈絡の無いこれら多岐にわたる事業展開を支えるのも『プラットフォームの力』ってことなんでしょうね。

実際、「どうやってるんですか?」と聞いた所「どうやるもこうやるもない。全部一緒なんだ。入れるだけだよ」とか言われてしまいました。

むぅ。。

非エンジニアもディープラーニングを駆使する時代に?

だんだんと機械学習や人工知能を使ったサービスの開発の敷居が下がっている、という話もよく聞きますが、最先端の技術を使っている人たちの肌感はどうなんでしょう?

ということで、『今後一般人にもこんなクールなものが作れるようになると思いますか?』と質問してみました。

―David
何の問題もないと思うよ?以前はWindows95でWebページを作るにはすごく時間と知識が必要だったけど、今は誰もがブログページをもって、公開しているでしょ?

だそうで。

確かにほんの数年前はディープラーニングを活用することは難しかったはずですが、そろそろそんな現状も変わってきています。

もちろん基本的なエンジニアの知識は必須ですが、段違いで簡単になってきているのが実情ですし、なるほど確かに。。。

ただ、その上でDavidから言われた言葉はなかなかグサっときました。

―David
今後の普及のために特に日本がすべきことは、もっと情報を集積、統合的に管理して、公開手順を簡単にすることだね。皆隠し過ぎだと思うよ?

ですよね…。オープンイノベーション、もっと加速させないと。ですね。

まとめ

やはり今後の発展には情報の集積と統合した管理が必要。それが実現すればディープラーニングとAIの幅広い活用が可能。ってことはもうひしひしと感じました。

デジタルマーケティングな観点で見ても、マーケティングの一連の流れを統括して情報の集積と管理したもん勝ちですしね。

「日本はもっとデジタルだと思ってたけど、アナログなとこ結構あるよね」とPhilipも言っていましたが、確かにそうなんですよね。

Reactive Inc.の開発スタイルでもある『アナログを否定せず、尊重しながら新しい技術で利便性をより高める』にも現れてますが、僕らはもっと彼らから多くを学ぶべきかもしれない。なんて偉そうなことを考えてしまいました。

紹介したサービスの公開時期、規模等の情報はまだわかりませんが、実装されればきっと新しい体験をさせてくれると思います。

期待ですね。


>> reactiveの他の記事はこちら

ひろき by
日本生まれのカンボジア&エチオピア育ち、英語はビジネスレベルでペラッペラという謎に満ちた21歳。途中で文転した元ゴリッゴリの理系脳という、このメディアのために産まれてきたかのような男。
mautic is open source marketing automation