ImageNet
ImageNetは、物体認識ソフトウェアの研究で用いるために設計された大規模な画像データベースである。ImageNetでは、1400万を超える[1][2]画像に手作業でアノテーションを行い、画像にどのような物体が写っているかを示している。また、100万枚以上の画像にバウンディングボックスも付与されている[3][注釈 1]。ImageNetには、20,000を超えるカテゴリがあり、その中には「気球(balloon)」や「イチゴ(strawberry)」といった数百枚の画像で構成される一般的な物体カテゴリも含まれる[4]。2010年から2017年まで、ImageNetプロジェクトは毎年、大規模[5]な画像認識技術コンテストであるILSVRC(the ImageNet Large Scale Visual Recognition Challenge)を開催していた。このコンテストは、ソフトウェアが物体や情景をどれだけ正しく分類、検出できるかを競うものである[6]。チャレンジでは、重複しないように調整された1000個のカテゴリが利用される[7]。論文により、今のImageNetの最高なレコードは「CoCa(finetune)」である。[8]
機械学習および データマイニング |
---|
深層学習への貢献
2012年9月30日、 AlexNet[9]と呼ばれる畳み込みニューラルネットワーク(CNN)が、ILSVRC2012においてトップ5エラー[注釈 2]で16.4%を達成した[11]。これは、次点のものより約10%程度低い値であった[11]。エコノミスト誌によれば、「ディープラーニングは突如として、AIコミュニティに留まらず、テクノロジー業界全体で注目を集めるようになった。」と評している[4][12][13]。
2015年には、Microsoftが開発した100層を超える非常に層の深いCNNがAlexNetを上回り、ImageNet2015コンテストで優勝した[14]。
こうした大幅な性能向上の理由として、深層学習モデルの構造が発達したことや深層学習モデルの学習で並列計算に用いられるGPUの性能向上が著しいことに加え、深層学習モデルを十分に学習できるImageNetのような大規模データセットが登場したことも挙げられている[15][16]。
ILSVRCは2017年に終了している[5]が、ImageNetのデータベースは現在でもモデルやアルゴリズムの性能を比較するためのベンチマークとして画像認識の分野でしばしば利用されている[17][18]。
データベースの歴史
AI研究者のフェイフェイ・リは、2006年にImageNetのアイデアに取り組み始めた。当時、大部分のAI研究がモデルとアルゴリズムに焦点を合わせていた中、LiはAIアルゴリズムの学習に利用できるデータセットを拡張、改善したいと考えていた[19]。2007年に、LiはWordNetの作成者の1人であるプリンストン大学のChristiane Fellbaum教授と面会し、プロジェクトについて話し合った。この議論の結果、LiはWordNetの単語データベースを元に、ImageNetの構築を進めた[20]。
プリンストン大学の助教授として、LiはImageNetプロジェクトに取り組むための研究者チームを編成した。彼らはAmazonMechanicalTurkを利用して画像の分類を支援した[20]。
彼らは、フロリダで開催された2009年のConference on Computer Vision and Pattern Recognition(CVPR)で、初めてデータベースを対外向けにポスターで発表した[20][21][22]。
データセット
ImageNetは、アノテーションの工程をクラウドソーシングしている[7]。画像レベルのアノテーションは、「この画像にトラがいる」「この画像にはトラがいない」といった、画像内に特定のクラスのオブジェクトが存在するかどうかを示す。オブジェクトレベルのアノテーションは、示されたオブジェクトの周囲にバウンディングボックスを与える。 ImageNetは、WordNetのカテゴリを使用してオブジェクトを分類している。例えば犬に対しては120の犬種のカテゴリで分けられる[23]など、細かく分類されている。WordNetのカテゴリを使用することの欠点として、ImageNetに対して本来最適なカテゴリ分けよりも高尚なものになっている可能性があることが挙げられる。 2012年、ImageNetはアカデミックユーザーとしてMechanicalTurkを世界で最も利用していた。平均的なアノテーション作業者は、1分あたり50枚の画像を識別した[2]。 ImageNetは画像のURLと画像それぞれに対するアノテーションのデータベースを提供しており、ImageNetから直接無料でダウンロードできるが、実際の画像自体はImageNetが所有しているわけではない[24]。
ImageNet Challengeの歴史
ImageNet Large Scale Visual Recognition Challenge(ILSVRC)は、2010年から2017年まで毎年実施されていた[25]画像認識コンテストで、アルゴリズムを用いて学習したモデルがImageNetのデータを分類、検出する能力を競うものである[6]。ILSVRCは、2005年に設立されたPASCAL VOCチャレンジという、より小規模なコンテストの後を継ぐことを目的としたものである[26]。PASCAL VOCチャレンジには、約20,000枚の画像と20の分類クラスしか含まれていなかった[27]。ImageNetを開かれたものにするため、Fei-FeiLiはPASCAL VOCチームに協同することを提案した。この取り組みは、研究チームが特定のデータセットでアルゴリズムを評価し、いくつかの視覚認識タスクでより高い精度を達成するために競争するというもので[20]、これがILSVRCのはじまりである。
ILSVRCは、ImageNetの分類体系によって分類された1000の画像カテゴリから構成されるデータセットを使用する[注釈 3][7]。2010年代は、画像処理が劇的に進歩した時期である。2011年頃には、ILSVRCの分類タスクにおけるTop-5 エラー率は約25%だった[11]。その後2012年には、AlexNetと呼ばれる深層畳み込みニューラルネットを用いたモデルがTop-5 エラー率約16%を達成した[11]。さらにそこからの数年間で、Top-5エラー率は数パーセントまで低下した[29]。2012年のAlexNetのブレイクスルーは「それまでに存在していたものの組み合わせ」[注釈 4]であったが、AlexNetは大量のデータを学習することで劇的な性能改善を図っており、この大量データを学習できるようになる改善は、業界全体で人工知能ブームが始まるきっかけとなった[4]。2015年までに、Microsoftの研究者は、狭いILSVRCタスクにおいては、CNNの認識性能が人間の能力を超えたと報告した [14][30]。ただし、ILSVRCの主催者の1人であるOlga Russakovskyが2015年に指摘したように、機械学習プログラムは1つの画像に対して、1000のカテゴリのうち1つに属するものであると識別するだけで良いのに対し、人間はより多くのカテゴリを認識することができるし、(プログラムとは異なり)画像の文脈を判断することもできる[31]。
2014年までに、のべ80を超える団体がILSVRCに参加した[32]。 2015年には百度の研究者が、1週間のうちに2回までしかモデルを提出できないという制限を、複数のアカウントを用いることで破ったとして、1年間参加を禁じられた[33][34]。その後百度は、関与したチームリーダーを解雇し、エンジニアに助言する委員会を設置すると発表した[35]。
2017年には、参加した38チームのうち29チームが95%を超える精度を達成した[36]。こうしたことから、ImageNetももはや深層学習技術の進展を測るベンチマークとしては、データ量が少ないと指摘されることもある[37]。 精度の向上が進み上昇の余地が小さくなってきたことを理由に、2017年を最後に終了することを発表し、同年7月の大会が最後となった[25]。
ImageNetの課題
2019年に行われたImageNetとWordNetに関する様々な観点(分類体系、物体クラス、ラベリング)からの研究により、ほとんどの画像分類アプローチにImageNetやWordNetのデータセットのバイアスが深く埋め込まれていることが示されている[38][39][40][41]。例えばGoogleの研究者は、2020年に、ImageNetのラベルを新たに付与し直しそのデータセットで複数の画像認識アルゴリズムの性能を評価したところ、性能を改善する効果がアルゴリズムの作成者が主張するものより小さくなったと指摘している[42]。同時にアルゴリズムの性能向上が、こうしたImageNetのラベルの誤りに対して過学習している可能性も指摘している[42]。また、1つの画像に複数の物体が写っているケースも多く、それがモデルの性能に影響を与えているという指摘もある[17]。ImageNetは、こうしたバイアスが生じた原因に対処するための取り組みを進めている[43]。 また、ImageNetの画像がデータ収集過程で顔にぼかしを入れていないというプライバシーの問題もある[44]。 他に、人物の顔画像に対するカテゴリに侮蔑的な表現を含むものがあったことを2019年に明らかにし、そうしたカテゴリを除去したデータセットを新たに公開するといったデータ作成上の課題も表出している[45][46]。
脚注
注釈
出典
- “New computer vision challenge wants to teach robots to see in 3D”. New Scientist. (2017年4月7日) 2018年2月3日閲覧。
- Markoff, John (2012年11月19日). “For Web Images, Creating New Technology to Seek and Find”. The New York Times 2018年2月3日閲覧。
- “ImageNet Summary and Statistics”. ImageNet. 2016年6月22日閲覧。
- “From not working to neural networking”. The Economist. (2016年6月25日) 2018年2月3日閲覧。
- 斎藤 康毅『ゼロから作るDeep Learning : Pythonで学ぶディープラーニングの理論と実装』オライリージャパン、東京、2016年9月、249頁。ISBN 978-4-87311-758-4。OCLC 959940370 。
- Russakovsky et al. 2015, p. 4.
- Russakovsky et al. 2015, p. 5.
- “Papers with Code - ImageNet Benchmark (Image Classification)” (英語). paperswithcode.com. 2022年10月16日閲覧。
- Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (June 2017). “ImageNet classification with deep convolutional neural networks”. Communications of the ACM 60 (6): 84–90. doi:10.1145/3065386. ISSN 0001-0782 2017年5月24日閲覧。.
- 裕雄, 片岡「コンピュータビジョンによる動画認識」『Vision』第31巻第1号、2019年、1頁、doi:10.24636/vision.31.1_1。
- Russakovsky et al. 2015, p. 19.
- “Machines 'beat humans' for a growing number of tasks”. Financial Times. (2017年11月30日) 2018年2月3日閲覧。
- Gershgorn. “The inside story of how AI got good enough to dominate Silicon Valley”. Quartz. 2018年12月10日閲覧。
- He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). “Deep Residual Learning for Image Recognition.”. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 770–778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
- Li Liu (2020). “Deep Learning for Generic Object Detection: A Survey”. International Journal of Computer Vision 128: 265. doi:10.1007/s11263-019-01247-4.
- Zhao 2019, p. 3213.
- Tsipras, Dimitris; Santurkar, Shibani; Engstrom, Logan; Ilyas, Andrew; Madry, A. (2020). “From ImageNet to Image Classification: Contextualizing Progress on Benchmarks”. ICML .
- Yun, Sangdoo; Oh, Seong Joon; Heo, Byeongho; Han, Dongyoon; Choe, Junsuk; Chun, Sanghyuk (2021-06). “Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Labels”. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (Nashville, TN, USA: IEEE): 2340. doi:10.1109/CVPR46437.2021.00237. ISBN 978-1-6654-4509-2 .
- Hempel, Jesse (13 November 2018). “Fei-Fei Li's Quest to Make AI Better for Humanity”. Wired 2019年5月5日閲覧。.
- Gershgorn (2017年7月26日). “The data that transformed AI research—and possibly the world”. Quartz. Atlantic Media Co.. 2017年7月26日閲覧。 “Having read about WordNet's approach, Li met with professor Christiane Fellbaum, a researcher influential in the continued work on WordNet, during a 2006 visit to Princeton.”
- Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (2009), “ImageNet: A Large-Scale Hierarchical Image Database”, 2009 conference on Computer Vision and Pattern Recognition
- Li, Fei-Fei, How we're teaching computers to understand pictures 2018年12月16日閲覧。
- Russakovsky et al. 2015, p. 8.
- “ImageNet Overview”. ImageNet. 2016年6月22日閲覧。
- 日経Robotics(日経ロボティクス). “《日経Robo》ImageNet後継コンテスト、中国ベンチャーMalong社が世界トップに”. 日経Robotics(日経ロボティクス). 2022年1月28日閲覧。
- Russakovsky et al. 2015, p. 1.
- Russakovsky et al. 2015, p. 3.
- Russakovsky et al. 2015, p. 7.
- Robbins, Martin (2016年5月6日). “Does an AI need to make love to Rembrandt's girlfriend to make art?”. The Guardian 2016年6月22日閲覧。
- Markoff, John (2015年12月10日). “A Learning Advance in Artificial Intelligence Rivals Human Abilities”. The New York Times 2016年6月22日閲覧。
- Aron, Jacob (2015年9月21日). “Forget the Turing test – there are better ways of judging AI”. New Scientist 2016年6月22日閲覧。
- Russakovsky et al. 2015, p. 18.
- Markoff, John (2015年6月3日). “Computer Scientists Are Astir After Baidu Team Is Barred From A.I. Competition”. The New York Times 2016年6月22日閲覧。
- “Chinese search giant Baidu disqualified from AI test”. BBC News. (2015年6月14日) 2016年6月22日閲覧。
- “Baidu fires researcher involved in AI contest flap”. PC World. (2015年6月11日) 2016年6月22日閲覧。
- Gershgorn, Dave (2017年9月10日). “The Quartz guide to artificial intelligence: What is it, why is it important, and should we be afraid?”. Quartz 2018年2月3日閲覧。
- 中山英樹「画像解析関連コンペティションの潮流」『電子情報通信学会誌』第100巻第5号、電子情報通信学会、2017年5月、(377) 373-380、ISSN 09135693、CRID 1520572360426767104。
- “The Viral App That Labels You Isn't Quite What You Think”. Wired. ISSN 1059-1028 2019年9月22日閲覧。
- Wong, Julia Carrie (2019年9月18日). “The viral selfie app ImageNet Roulette seemed fun – until it called me a racist slur”. The Guardian. ISSN 0261-3077 2019年9月22日閲覧。
- Crawford (2019年9月19日). “Excavating AI: The Politics of Training Sets for Machine Learning”. -. 2019年9月22日閲覧。
- Lyons, Michael (4 September 2020). "Excavating "Excavating AI": The Elephant in the Gallery". arXiv:2009.01215 [cs.CY]。
- Beyer, Lucas; Hénaff, Olivier J.; Kolesnikov, Alexander; Zhai, Xiaohua; Oord, Aäron van den (2020-06-12). “Are we done with ImageNet?”. arXiv:2006.07159 [cs] .
- “Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy”. image-net.org (2019年9月17日). 2019年9月22日閲覧。
- Yang, Kaiyu; Yau, Jacqueline; Fei-Fei, Li; Deng, Jia; Russakovsky, Olga (2021-03-14). “A Study of Face Obfuscation in ImageNet”. arXiv:2103.06191 [cs] .
- “Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy”. image-net.org. 2022年1月28日閲覧。
- “巨大写真データセット「ImageNet」で攻撃的・差別的なカテゴリー分類タグ付けが判明し人物写真の半数以上を削除”. GIGAZINE. 2022年1月29日閲覧。
参考文献
- Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej et al. (2015-12). “ImageNet Large Scale Visual Recognition Challenge” (英語). International Journal of Computer Vision 115 (3): 211–252. doi:10.1007/s11263-015-0816-y. ISSN 0920-5691 .
- Zhao, Zhong-Qiu (2019). “Object Detection with Deep Learning: A Review”. IEEE Transactions on Neural Networks and Learning Systems (IEEE) 30 (11): 3212-3232. arXiv:1807.05511. doi:10.1109/TNNLS.2018.2876865.