Abstract— Imbalanced data set is a common problem when one set of classes has a significant advantage over the other. Two principle approaches for resampling are reducing the number of samples of the majority class (undersampling) or increasing the number of samples of the minority class (oversampling). This research uses a Generative Adversarial Network (GAN) to generate new samples for minority image classes. The key issue is how to generate good samples, i.e. that get as many features as possible of the minority class, and how to choose best samples, in the generated images, to add to minority classes. This research proposes an approach in which the Inception Score (IS) is used while training GAN to determine a good neural network configuration. Then, the samples being generated from the network with this configuration have the highest probability (at some threshold) belonging to a minority class calculated during the IS calculation will be considered as good samples and added to that class. We will simulate the imbalance in the F – MNIST data set; use WGAN with Gradient Penalty (WGAN – GP) to generate new samples for resampling. The test with CNN shows that after resampling the accuracy improved by 4,22% on minority classes.
Trần Cao Đệ, 2011. ÁNH XẠ TỌA ĐỘ GPS VÀO BẢN ĐỒ SỐ VÀ ỨNG DỤNG VÀO HỆ THỐNG TỰ ĐỘNG THÔNG BÁO TRẠM DỪNG XE BUS. Tạp chí Khoa học Trường Đại học Cần Thơ. 17b: 148-157
Trần Cao Đệ, Trần Cao Trị, Lê Văn Lâm, Nguyễn Gia Hưng, Bùi Võ Quốc Bảo, 2014. PHÁT TRIỂN HỆ THỐNG PHÁT HIỆN ĐẠO VĂN CHO TRƯỜNG ĐẠI HỌC VIỆT NAM. Tạp chí Khoa học Trường Đại học Cần Thơ. 35: 31-39
Trần Cao Đệ, Phạm Nguyên Khang, 2012. PHÂN LOẠI VĂN BẢN VỚI MÁY HỌC VECTOR HỖ TRỢ VÀ CÂY QUYẾT ĐỊNH. Tạp chí Khoa học Trường Đại học Cần Thơ. 21a: 52-63
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên