６畳間/2005年11月17日/画像認識 - PGW powered by Wiki

#blognavi

人を人として、犬を犬として、猫を猫として認識する。
たったそんだけのことなのに、どうしてコンピュータはできなんだろう。

思うにコンピュータの学習量は人間のそれに比べて少なすぎる。
だからコンピュータにいっぱい学習させて人間を人間として認識できるようにする方法を考えてみようと思う。

まずは人をいっぱい見せる。と言っても静止画じゃダメ。
↓こんな動画を見せる。
白い背景に人間を一人。自由に好きなように動いてもらう。
人間も色んな人にやってもらう。男も女も大人も子供も白人も黒人もとにかく色んな人。もちろん着てる服だったり、髪型だったり、爪の大きさだったりもバラバラ。
人間との距離も色々。めちゃめちゃ近かったり、視力検査くらいの距離だったり、ドームコンサートみたいな距離だったり。

そんな動画をとにかく大量に見せる。見せまくる。
100時間とか200時間とかそんな単位じゃない。
1年も2年も見せるんだ。

コンピュータもただ見て、ただ覚えるだけじゃイカン。
人間の動きのパターンを覚えて、動画のある瞬間から0.1秒後の人間の姿を予測する。0.5秒後とか1秒後とか予測する。

動きを大まかに予測できるようになる頃には、きっと関節の動きやら目や口の動きやらが分かってるはず。
そしたら、人間の姿をイメージさせる。
つまり、記憶したパターンから平均化した姿を作り出して人間の姿を作り上げる。
姿がイメージできたら、次は動きをイメージさせる。
ここまでくれば人間を完全にシミュレートできるようになるさ。

そうしてやっと、コンピュータにスナップ写真とかを見せてみる。
輪郭抽出とかして人間っぽいところを抜き出す。
「ここに人間がいるぞーっ」てコンピュータが認識できる。

人間は生まれてから何年も何十年も目で耳で指で学習を続けてるんだから、コンピュータもこんくらい学習せんといかんだろ。

どなんだろ？
同じようなことやってる人がすでにいるのかな？

ちなみに動画を見せてる段階で、
「こいつは女」
「こいつは64歳」
「こいつはフィリピン人」
「こいつは怒っている」
「こいつは食事中」
みたいにいっぱい色んな情報を与えておけばスナップ写真を見せたとき、「ここにテレビを見て爆笑している30代前半の韓国人の男がいるぞーっ」て認識できると思う。

カテゴリ: [独り言] - &trackback() - 2005年11月17日 22:56:56

#blognavi

「画像認識」をウィキ内検索

最終更新：2005年11月17日 23:32

アクセス数	-
今日	-
昨日	-

メニュー

PGW
- グループ１
- グループ２?

更新履歴

取得中です。

PGW powered by Wiki ６畳間 > 2005年11月17日 > 画像認識

更新履歴