Dự đoán gen biểu hiện cao HEG (Highly Expressed Gene) là một công đoạn quan trọng trong việc tìm gen tối ưu cho quá trình tái tổ hợp. Các gen biểu hiện cao trong tế bào thường có xu hướng có các đặc trưng tương tự nhau, chủ yếu là đặc trưng về xu hướng sử dụng codon. Bài viết này đề xuất một hướng tiếp cận mới để phân cụm dữ liệu ứng dụng để xác định nhóm các gen có đặc trưng giống nhau về xu hướng sử dụng codon để dự đoán HEG. Các thực nghiệm được triển khai trên hai thuật toán PAM (Partitioning Around Medoids), CLARA (Clustering for Large Applications) cho việc phân cụm dự đoán HEG. Các kết quả thu được cho thấy CLARA vượt trội hơn PAM về thời gian, chất lượng phân cụm.
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên