Mã vạch ADN, chuỗi ADN, xác lập trình tự, ADN, chuỗi ADN ngắn, bộ gien Chloroplast
Keywords:
DNA barcoding, DNA sequencing, genome assembly, chloroplast genome
ABSTRACT
The next generation sequencing (NGS) technologies are capable of producing low-cost data on a giga base-pairs scale in a single run, which usually includes millions of sequencing reads. This revolution allows launching many genome sequencing and re-sequencing projects for various biological applications, such as detection single-nucleotide polymorphism, and assessment of biodiversity. DNA Metabarcoding provides a door to identify the species in a large biological sequence dataset. Chloroplast genome is used as a genetic characteristic to identify species of plants. However, the traditional method to determine chloroplast genome sequence must use a sequence reference. In this paper, we propose a new approach to construct chloroplast genome sequences from raw data without using a reference sequence. To evaluate our approach, we compare the experimental result with four reference chloroplast genome sequences which were determined by biologists. The results show that the chloroplast genome sequences established by our approach are the same as the chloroplast reference sequences.
TÓM TẮT
Công nghệ xác lập trình tự gien thế hệ mới có khả năng tạo ra lượng dữ liệu khổng lồ, hàng giga bp trong một lần chạy, với chi phí ngày càng thấp. Bước tiến này cho phép thực hiện nhiều dự án giải trình tự ở các loài chưa được giải hệ gien và cả ở các loài đã giải mã trình tự nhằm thực hiện các ứng dụng sinh học phân tử khác nhau như dữ liệu đa hình đơn SNP, đánh giá sự đa dạng sinh học. Trong đó, Meta barcoding là một dự án cho phép xác định loài thực vật từ những kho dữ liệu trình tự khổng lồ. Trong nghiên cứu sinh học thực vật bộ gien chloroplast (Cp) là cơ sở quan trọng để xây dựng mã vạch sinh học dùng để định danh loài, phân loại và phân tích phát sinh loài. Tuy nhiên, phương pháp xây dựng bộ gien Cp truyền thống có hạn chế phải sử dụng mẫu gien tham chiếu. Phương pháp này không giải quyết được được yêu cầu mẫu dữ liệu đầu vào là dữ liệu thô của dự án Metabarcoding. Trong bài viết này, chúng tôi đề xuất quy trình lắp ráp bộ gien Cp cải tiến để lập trình tự bộ gien Cp từ các dữ liệu thô và không cần sử dụng gien mẫu để tham chiếu. Để đánh giá quy trình, trong thực nghiệm chúng tôi xây dựng bộ gien Cp từ bốn tập dữ liệu gien và so sánh kết quả thực nghiệm với các mẫu gien Cp đã được các nhà sinh học xây dựng.
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên