人工知能(AI)ができること
AIは何でもできる魔法の杖ではありませんが業界を問わずに導入され、多くのことができるようになっています。
今回はAIにできることを組み合わせることでAIの技術を応用してどのようなことができるか考えていきます。
まずは、AIができることを確認しましょう。
AIができることをまとめると大きく次の6つに分けることができる。
- 画像認識
- 音声認識
- 自然言語処理
- 強化学習
- 画像生成
- 音声生成
それぞれについて見ていこう。
画像認識
AIの画像認識の精度は2015年のILSVRCという画像認識のコンテストで「ResNet」というAIがエラー率3.6%を記録した。
人間が同じ試験を実施した場合のエラー率が4%なので、画像認識のレベルが人間を超えた。
画像認識の分野では技術的には人間を超えてきている。
画像を認識する仕事は、急速に人間からAIへの置き換わりが進むと考えられます。
音声認識
AIの音声認識の精度は95%を超えており、人間と同等かそれ以上となっています。
音声認識は既に身近なツールでも使われています。iPhoneのAI「Siri」やスマートスピーカーの「Alexa」「Google Home」なども音声認識がベースとなっています。
自然言語処理
自然言語処理とは「人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術」のことです。
近年、自動翻訳の技術が発展したことにより自然言語処理の技術発展のおかげである。
強化学習
収益を最大化する方策を獲得するために学習するモデルのことである。
将棋AIや囲碁AIは主に強化学習を用いて作られており、将棋や囲碁などのボードゲームでは人間の世界一棋士にも勝てる実力を持っています。
画像生成
AI関連の技術で2014年に提案されたGAN(敵対的成績ネットワーク)という技術がある。
ジェネレータ(画像生成する機能)と生成した画像がディスクリミネータ(画像が本物か偽物か予測する機能)を持っています。
ジェネレーターはディスクリミネータが間違うような学習をし、ディスクリミネータは偽物を見分けれるように学習していきます。
犯罪者が機械で見分けられないような偽札を作る技術を磨き、機械は偽札を見分けられるように精度を上げることを繰り返しているような状態です。
要するに、いたちごっこの状態です。
GANにより、画像成績技術は格段の進歩をしています。
音声生成
音声生成をするためのAIの技術にWaveNetがある。
WaveNetは人間がしゃべるのに近い発音で音声を生成することができる。
他の技術と比較しても人間の発音に近いレベルとなってきている。
5点満点で評価すると、WaveNetの発音は4.21点(人の発音は4.55点)と高得点を得ている。
引用元:https://deepmind.com/blog/article/wavenet-generative-model-raw-audio
人工知能(AI)の技術を組合せた応用例
AIができることが確認できたので、これらの技術を使ったらどのようなことができるか考えてみましょう。
ここで紹介するのは一例に過ぎません。
どの技術を組みわせるとあなたの仕事を効率化できるか考えてることが大切です。
自然言語処理 ✕ 音声認識 ✕ 音声生成
この3つの技術を組み合わせることで、「AIによる英会話学習」サービスが本格的にできるようになると思います。
英会話学習は「英会話学校」→「オンライン英会話」となり低額で気軽に学習できるようになりました。
AIによるサービスがオンライン英会話と同等の品質で提供できるようになれば、英会話の業界のビジネスモデルが一変すると私は考えています。
画像認識 ✕ 強化学習 ✕ センシング技術 ✕ 5G
「自動運転」の主な技術としてAI技術の画像認識 と強化学習、センシング技術、5Gがあります。
センシング技術で車の外部の状況をインプットします。
インプットした情報を画像認識の技術で状況を把握します。
5G(次世代の高速大容量通信)技術でサーバーと通信しインプットした情報とサーバーにある情報に差がないか確認します。
強化学習によって、車がどのような行動を取ればよいか判断できるようになります。
自動運転は世界中の大手企業が開発を進めています。
自動運転に必要な技術が分かってくると、なぜトヨタのライバルが自動車メーカーではなくGoogleと言われるのかも分かるのではないでしょうか?
まとめ
いかがでしたでしょうか?
AIでできることを組み合わせることで、様々なことができるようになることが想像できたのではないでしょうか?
複数の技術の組み合わせることで新しい製品やサービスを作ることができます。
あなたの仕事の効率を劇的に向上する技術をイメージしてみましょう。