研究内容

2020年度学位論文研究 博士論文

Second-order Optimization for Large-scale Deep Learning(大沢 和樹)

Large-scale distributed training of deep neural networks results in models with worse generalization performance as a result of the increase in the effective mini-batch size.  Previous approaches attempt to address this problem by varying the learning rate and batch size over epochs and layers, or ad hoc modifications of Batch Normalization.  We propose Scalable and Practical Natural Gradient Descent , a principled approach for training models that allows them to attain similar generalization performance to models trained with first-order optimization methods, but with accelerated convergence. Furthermore, SP-NGD scales to large mini-batch sizes with a negligible computational overhead as compared to first-order methods.  We evaluate SP-NGD on a benchmark task where highly optimized first-order methods are available as references: training a ResNet-50 model for image classification on the ImageNet dataset. We demonstrate convergence to a top-1 validation accuracy of 75.4% in 5.5 minutes using a mini-batch size of 32,768 with 1,024 GPUs, as well as an accuracy of 74.9% with an extremely large mini-batch size of 131,072 in 873 steps of SP-NGD.


▲クリックすると拡大されます

2020年度学位論文研究 修士論文

分散深層学習の省メモリ・省I/O化と二次最適化の高速化(上野 裕一郎)

本研究は巨大なDNNを膨大なデータセットで学習する際の種々の問題(学習時間,メモリ使用量,I/O)の解決を目指す. まず,少ない反復数での収束が期待される二次最適化に現れる行列計算の高速化手法を提案し,情報行列を計算しつつ一次最適化と同程度かより速い時間での収束を実現する. さらに,複数ノードとメモリ階層性を用いたメモリ分散手法を提案して,1GPUのメモリに格納できない巨大なDNNの1GPUでの学習と,そうではないDNNについても高速化を実現する. 加えて,ローカルディスクに格納できない膨大なデータセットをランダムに抽出する際にI/Oコストの低いデータ読み込み手法を提案する.

Yuichiro Ueno, Kazuki Osawa, Yohei Tsuji, Akira Naruse, Rio Yokota, Rich Information is Affordable: A Systematic Performance Analysis of Second-order Optimization Using K-FAC, Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, Aug. 2020.


▲クリックすると拡大されます

自己教師あり学習による画像分類のための継続的な事前学習(中田 光)

深層学習では新しく得られたデータでモデルを学習した場合,過去に学習したデータに対する精度が大幅に劣化してしまうことが知られている.この問題は致命的忘却と呼ばれ,継続学習ではこの致命的忘却を防ぐことを目指す.継続学習に関する近年の研究では,多くの場合,常に教師ラベル付きのサンプルが十分に与えられる問題を対象としている.しかし,実問題ではしばしばラベル無しデータや少量のサンプルのみラベル付けされたデータから学習することが求められ,このようなラベルが不足する条件を対象とした継続学習に関する研究は十分に行われていない.そこで本研究では,ラベル付きサンプルが無い場合や不足する場合でも大規模に学習可能な,対照学習による自己教師あり学習に着目し,継続的に自己教師あり学習を行なった場合の検証を行なった.致命的忘却を防ぐため,本研究では蒸留および部分的な過去のデータの再学習を導入し,それらの効果をImageNetを用いて大規模な問題設定で調査した.


▲クリックすると拡大されます

一貫性損失を利用した Zero-shot 文字認識器 の性能向上(郭 林昇)

文字種の多い言語における手書き文字認識は、文字種の多さに起因するデータセット収集の難しさが課題となっている。Bengali.AI Handwritten Grapheme Classification Challengeでは、この課題に対して、Zero-shotな推論を可能とする文字認識モデルの作成を求められた。本研究では、推論ラベル文字情報から生成したフォント画像を認識する教師あり学習モデルと手書き画像をフォント画像に変換するモデルを作成し、これら、二つを結合することで、Zero-shotな推論を可能にした。提案した手法は、従来手法で用いられていた文字構造の細分化を行いマルチラベリング化してZero-shotな推論を行う手法と比較して、推論精度を60.1%から84.4%に引き上げた。また、本手法の実装にあたり、文字構造の知識は不要であり、検証を行ったベンガル語以外の言語への転用を可能としている。本手法と通常のクラス分類モデルなどを組み合わせた推論パイプラインはKaggleのResearch Code Competitionにおいて、1位の成績を獲得した。


▲クリックすると拡大されます

2020年度学位論文研究 学士論文

大規模データセット・モデルを用いた深層学習における汎化性能向上手法の有効性について(伊藤 巧)

過学習は深層ニューラルネットワーク(DNN)の課題の一つであり、これを防ぐための正則化手法が提案されている。本研究では2020年にIshidaらによって提案された『Flooding』と呼ばれる、タスクに特化せず、多くの深層学習アルゴリズムに汎用的に導入可能な正則化手法に注目した。Floodingは既存の学習プログラムへの実装も非常に容易であることから今後より広い領域のタスクにおいて活用できることが期待されている。本研究ではIshidaらの実験にはなかった分散深層学習を用いた大規模な問題設定におけるFloodingの効果を検証した。具体的には大規模画像データセットImageNetの分類タスクにおける学習を行った。


▲クリックすると拡大されます

大規模な事前学習モデルにおけるラージバッチ問題の検証(Xinyu Zhang)

近年,大規模言語モデルの事前学習に多くの注目が集まっている.事前学習には膨大な計算時間を要するため,高速化が重要である.分散深層学習によるラージバッチ学習は,高速化を実現できるが,予測性能が劣化する問題(ラージバッチ問題)が知られている.本研究では,代表的な大規模言語モデルであるBERTの事前学習におけるラージバッチ問題の検証を行った.具体的には,事前学習中の損失の推移,及び言語理解タスクへのファインチューニング後の性能,の二点における変化を観察し評価を行った.


▲クリックすると拡大されます

平坦な解を目指すミニマックス最適化の分散深層学習への応用とその効果(高島 空良)

深層学習の汎化の原理解明を目指した最近の研究では,学習で求まった解近傍における損失関数の曲率(loss sharpness)が汎化に相関がある有力な指標として挙げられている.loss sharpnessを明示的に抑制しflat-minimaを目指す学習アルゴリズムとしてSharpness-Aware Minimization(SAM)が提案された.SAMでは,ミニバッチを複数プロセスに分割して各プロセスが独立にミニマックス最適化を行うことで学習精度が更に向上することが,特定のミニバッチサイズにおいて報告されている.本研究では,分割数やミニバッチサイズを網羅的に変えて畳み込みニューラルネットワークの学習を行い,SAMによる汎化性能向上の効果を検証した.


▲クリックすると拡大されます

2019年度学位論文研究 修士論文

Tensorコアを用いたRandomized SVDの実装と評価 (大友 広幸)

本研究ではTensorコアを用いた高速かつ省メモリなRandomized SVDを開発しその評価を行った.
はじめにTensorコアを用いるためのAPIの構造の解析を行い,高速かつ省メモリにTensorコアを用いるためのAPI拡張の開発を行った. つぎにこれを用いてTensorコアを用いたTSQRの開発を行い,その計算精度と計算性能の調査を行った. 実装したTSQRでは入力行列の列数に制限があるため,これを複数回用いることで任意の大きさのQR分解を行うBlockQRを実装しRandomized SVDへの適用を行った. BlockQRではNVIDIAが開発している既存実装と比較し最大99.8%のメモリ消費を削減でき,4倍以上の計算速度の向上が確認された. Randomized SVDではNVIDIAが開発している既存手法での実装に対し精度の劣化を抑えつつ省メモリかつ高速に計算可能であることが確認された.


▲クリックすると拡大されます

強化学習における好奇心駆動探索手法の高速なGPU 実装 (桑村 裕二)

強化学習は環境とエージェントの相互応答の繰り返しによって学習を行う機械学習の手法の一つだが、学習に膨大な時間がかかることが知られている。CuLEは代表的なプラットフォームであるAtari emulatorをGPU上で実行させることにより学習時間を大幅に削減させた。学習アルゴリズムにはV-trace Actor Criticが使われているが、Atariに対して高いスコアを実現させている統合型Q学習アルゴリズムRainbowとのスコアの統一的な比較は十分にされていない。そのため、本研究ではRainbow含め他の学習アルゴリズムとのスコア比較を行った。また、探索手法として高分散に適したコンパクトな設計であるRNDとの統合を行い、統合前後での学習スコアの差異を基に、探索手法の選定の必要性について考察を行った。


▲クリックすると拡大されます

Efficient library for hierarchical low rank approximation (Peter Spalthoff)

Dense matrices have a quadratic memory complexity and many operations on them have cubic scaling. This makes them prohibitively expensive for large scale operations. In many applications (covariance matrices, BEM...) a substructure of low rank blocks is found. This substructure can be exploited to create an efficient compression of the matrix, called hierarchical low rank approximation. On the resulting so-called Hierarchical Matrices, which only have linear storage complexity, all arithmetic operations (multiplication, inversion...) can be defined. These operations are also much faster with cloes to linear complexity. We are working on a modern, flexible library with distributed memory parallelization on heterogeneous nodes.


▲クリックすると拡大されます

 

2019年度学位論文研究 学士論文

確率的重み付け平均法のラージバッチ学習における有用性の検証 (所畑 貴大)

学習によるラージバッチ学習では、バッチサイズの増加と共に汎化性能が劣化する問題が経験的に知られている。本研究では、この問題を解決するために確率的重み付け平均法(Stochastic Weight Averaging ; SWA)に着目した。SWAは学習中にモデルのパラメータを定期的に抽出しそれらを平均化する手法であり、汎化性能の劣化の原因と考えられているSharpな解への収束を防ぐ効果が期待できる。本研究ではSWAをラージバッチ学習に適用することで汎化性能の改善効果を検証した。また、SWAを利用した並列深層学習手法であるSWAP(Stochastic Weight Averaging in Parallel)にも着目し、SWAPとラージバッチ学習における標準的な最適化手法の一つであるLARS(Layer-wise Adaptive Rate Scaling)を組み合わせた手法を提案及びその汎化性能の改善効果を検証した。


▲クリックすると拡大されます

情報行列を用いた深層ニューラルネットワークの汎化誤差推定 (星野 華)

近年,理論的観点,そして経験的観点から多くの汎化指標が提案されている.本研究では情報行列を用いた深層ニューラルネットワーク(DNN)の汎化指標,広く使える情報量基準(WAIC)に着目した.WAICは2010年に提案された汎化指標であるが,これの計算に必要なDNNにおける事後分布の推定が計算量とメモリ量の観点から困難なため,今まで大規模なDNNに用いた報告が未だなされていない.一方,近年急速に発展を遂げた情報行列の高速な近似手法と効率的な近似ベイズ推論手法を組み合わせることで,これらの問題を解決し,WAICを近似的に評価する方法を提案した.この近似的に推定されたWAICと,同じく情報行列を用いた汎化指標であるEmpirical TICをケンドールの順位相関係数で評価することで大規模な設定における有効性を検証した.


▲クリックすると拡大されます

 

2018年度学位論文研究 修士論文

畳み込みニューラルネットワークにおける低精度演算を用いた高速化の検証 (長沼 大樹)

Verification of speeding up using low precision arithmetic in convolutional neural network

The recent trend in convolutional neural networks (CNN) is to have deeper multilayered structures. While this improves the accuracy of the model, the amount of computation and the amount of data involved in learning and inference increases. In order to solve this problem, several techniques have been proposed to reduce the amount of data and the amount of computation by lowering the numerical precision of computation and data by utilizing the CNN's resistance to noise.

However, there is a lack of discussion on the relationship between parameter compression and speedup within each layer of the CNN.

In this research, we propose a method to speed up the inference by using half precision floating point SIMD instructions, by applying low precision to the learned model, in addition to reducing the data of the CNN model, and speeding up data access for layers that are computation-bound.

We examined the influence of CNN recognition accuracy, the speedup for each layer, and its reason, when we apply our method.


▲クリックすると拡大されます

大規模並列深層学習のための確率的最適化に基づいた目的関数の平滑化 (長沼 大樹)

Smoothing of the Objective Function in Stochastic Optimization for Large Scale Parallel Deep Learning

Classical learning theory states that when the number of parameters of the model is too large compared to the data, the model will overfit and the generalization performance deteriorates. However, it has been empirically shown that deep neural networks (DNN) can achieve high generalization capability by training with extremely large amount of data and model parameters, which exceeds the predictions of classical learning theory. One drawback of this is that training of DNN requires enormous calculation time. Therefore, it is necessary to reduce the training time through large scale parallelization. Straightforward data-parallelization of DNN degrades convergence and generalization. In the present work, we investigate the possibility of using second order methods to solve this generalization gap in large-batch training. This is motivated by our observation that each mini-batch becomes more statistically stable, and thus the effect of considering the curvature plays a more important role in large-batch training. We have also found that naively adapting the natural gradient method causes the generalization performance to deteriorate further due to the lack of regularization capability. We propose an improved second order method by smoothing the loss function, which allows second order methods to generalize as well as mini-batch SGD.


▲クリックすると拡大されます

2018年度学位論文研究 学士論文

帯域幅最適なGPU間AllReduce通信の階層化 (上野 裕一郎)

本研究では,データ並列・同期型分散深層学習で,損失関数のパラメータによる勾配の平均値を求めるために用いられるAllReduceと呼ばれる集団通信アルゴリズムに着目した.この通信は,MPI(Message Passing Interface)の集団通信の仕様に含まれているが,分散深層学習で用いられる大きなメッセージサイズの通信は,従来のHPCアプリケーションで使用されてきた通信とは異なり,未だ研究が不十分である.既存研究として,階層化を用いることで通信を改善できることが知られているが,どのような階層化が最適かは十分に調べられていない.本研究では,産総研「ABCIグランドチャレンジ」プログラムにより提供を受けた,AI橋渡しクラウド(ABCI)の計算リソースを用いて,網羅的に階層化通信の性能を評価した.


Yuichiro Ueno and Rio Yokota, "Exhaustive Study of Hierarchical AllReduce Patterns for Large Messages Between GPUs", in IEEE/ACM International Symposium in Cluster, Cloud, and Grid Computing (CCGrid 2019).


▲クリックすると拡大されます

SiameseNetworkによる筆者識別 (郭 林昇)

本研究では2入力間の特徴量を学習するSiameseNetworkと呼ばれる深層学習モデルを用いて筆者識別タスクを行うモデルの生成を行なった。NISTデータセットから取り出した筆者ごとの手書き数字を用いてモデルの学習を行い、同じくNISTデータセットから作成したテストデータに対して筆者識別タスクが可能であるモデルの生成に成功した。精度の検証も行なったが、クラス数の少ない場合には高い精度での識別が行えていたが、クラス数が多くなると精度が下がる傾向があり、内部表現の分割等による正則化を行い精度向上を目指すことが今後の課題である。


▲クリックすると拡大されます

自然勾配法に基づくベイズ的深層学習に関する研究 (中田 光)

深層学習における変分事後分布に正規分布を仮定した変分推論では,変分事後分布の共分散行列の大きさがニューラルネットワークのパラメータ数に依存して大きくなるため,計算量やメモリ容量の観点からパラメータ間の相関を考慮した変分事後分布の推定は困難とされてきた.自然勾配法の効率的な近似手法であるK-FACを変分推論における最適化に用いたNoisy K-FACは,大規模なニューラルネットワークにおいても層ごとのパラメータの相関を考慮した変分事後分布の推定を可能とし,学習が汎化することが示されている.本研究ではNoisy K-FACに着目し,既存研究では明らかにされてこなかった、変分パラメータの探索にMCVIを適用した場合の検証を行なった.


▲クリックすると拡大されます