2017年01月
2017年01月05日(木) #00 不可逆こそ鍵?
- 現在、世の中には情報があふれている。本当にそう思う。・・・いっぽうで、僕は貧乏性なので情報を失うことを非常に嫌っていて、できれば何でも記録しておきたいと思う(そんなことできないけれど)。
- なにか100万人分のデータがあったとして、この情報は果たしてすべて等しく重要だろうか?そんなことを時々考える。だいたいの分布が分かればいいんじゃないかと思う。それでよければもっと少ない情報にできるはずだ。
- しかしそうすると情報は失われる。元のデータから分布データを生成することはいつでもできるけど、分布データから個々の元データを復元することはまずできない。つまり不可逆だ。しかし元データがいくらあっても、ほとんど役には立たない。統計データがあれば、いろいろと議論や研究ができる。
- 山ほどのデータが与えられても、それを全部使おうなんて思わないほうがいい。無理に使おうとすれば、きっとろくな結果にならない。特徴的な部分を見いだしてそこだけ活用できればいいのだ。
- たとえば検索データベースを考えてみよう。「1億件のデータから何でも探せます」っていうのは素敵だけど、果たしてそれは「正解」なのか。1億件の中には、一度も検索しないデータも多く含まれているだろう。そんなのはデータベースに含まれていないほうがいいんじゃないか?そうすれば探すのはもっと早くなるじゃないか。
こめんと欄