さぶりなダイアリー

社会人エンジニアが気ままにアウトプットする時間

最近のデータ収集って大変じゃない?

こんにちは.

最近朝,暑くて起きてしまうんですよ.

クーラーつけるのは早すぎるかな,やばいな掃除してないわ,ダスキンに頼むか,でもお金かかるな,てかまず部屋掃除しないとじゃ..?なんて考えながら扇風機と保冷剤で頑張ってます.

 

 

さあ.今日は機械学習をしている身からデータ収集のことについて少しお話しします.

先日テレビを見ていたら,NHKでデータ収集についてやっていました.

GAFAは膨大なデータを持っている,日本はデータ運用がうまく回っていない等.

すごくわかりやすく報道していました.ニュースウォッチ9だったな.

 

 

機械学習を未熟ながらにも学んでいる中で,一番重要なところはデータの豊富さだと実感してます.

 

 

私は,学部時代の卒業研究でデータを800人分ぐらいとりました.それはじゃんけんの手のデータだったので比較的簡単に収集可能でしたが,いわゆる老若男女のデータが一気に,そして早く欲しかったんです.でも,なかなか人が集まらない,条件を満たしている人へ頼む時どうやって説明するのか,考えることが多くて,なかなか進まなくてもどかしかった思い出があります.時間かかったな...

 

最近修士での研究テーマが決まり,データ収集どうしよっか〜と教授と話していたところ,今回は他大学に依頼をしてデータを送ってもらうことになりました.(本当のところは,もっと精鋭なデータが欲しかったけど...)

 

海外では,GAFA等がたくさんのデータを持っていて,それを研究に役立て,より優れている人工知能を作り出しているけれど,日本はどうでしょうか.

 

日本人はスマホを一人一台持っているという中で,多数のアカウントや人物情報があります.それをある程度開示するということが必要であるということです.

 

「自分,これ登録したけど,住所とか何に使うん?」「この情報,流出しないよね?」と思う人が多いというのもそのニュースでやっていました.これは割とお年寄りに多い傾向らしいです.

 

でも極論ですけど,この情報を使わせていただければ,機械学習を研究にしている人たちからしたら,めちゃめちゃよくないですか?超効率いい.

一つの事柄に対して,ハイスペックな人工知能を生み出すには,やはりたくさんのデータが必要.日本はそのデータ収集が遅れているから,世界から取り残されるんよね.

 

 

どうしたらいいの?みんな情報開示しろってこと?

 

 

そういうわけじゃないじゃん.そんなんらしくないやんってことよ.

とりわけ丁寧だからね日本は.しっかり同意書とか内容説明とかやるんだろうね.

もうちょいお年寄りもわかるような説明にしてあげればいいやん.

日本人らしさ大事よ.

 

 

取得した個人情報データも一つの企業で独占することも,問題よね.

これこそGAFAの話に戻るけど,独占状態になってしまうと世界回るもんも回らんわな.

 

問題だらけのAI事情ですけど,このデータ収集とかで持論あるよって方,反応ください.私も聞いてみたい.

 

やっぱさ素晴らしいAI,作りたいやん??

 

てか,結論AIとかいうけど,人間頭良すぎ問題