Luận Án Tiến Sĩ Máy Tính – Phát Triển Các Mô Hình Học Sâu Kết Hợp Cấu Trúc Đồ Thị Và Phân Tích Ngữ Nghĩa Cho Bài Toán Khuyến Nghị Trích Dẫn Lưu VIP

Luận Án Tiến Sĩ Máy Tính – Phát Triển Các Mô Hình Học Sâu Kết Hợp Cấu Trúc Đồ Thị Và Phân Tích Ngữ Nghĩa Cho Bài Toán Khuyến Nghị Trích Dẫn

Danh mục: , Người đăng: Minh Trí Nhà xuất bản: , Tác giả: Ngôn ngữ: Tiếng Việt, Tiếng Anh Định dạng: , , , Lượt xem: 15 lượt Lượt tải: 0 lượt

Nội dung

Giới thiệu ” Luận Án Tiến Sĩ Máy Tính – Phát Triển Các Mô Hình Học Sâu Kết Hợp Cấu Trúc Đồ Thị Và Phân Tích Ngữ Nghĩa Cho Bài Toán Khuyến Nghị Trích Dẫn “

Tên luận án: Phát triển các mô hình học sâu kết hợp cấu trúc đồ thị và phân tích ngữ nghĩa cho bài toán khuyến nghị trích dẫn

Ngành: Khoa học máy tính

Mã số: 9 48 01 01

Họ và tên nghiên cứu sinh: Đinh Ngọc Thi

Chức danh, học vị, họ và tên người hướng dẫn:

PGS.TS. Võ Đình Bảy
PGS.TS. Nguyễn Long Giang

Cơ sở đào tạo: Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Với mục tiêu góp phần nâng cao hiệu năng của các mô hình khuyến nghị trích dẫn tiến tiến hiện nay, luận án đã có những đóng góp mới như sau:

1- Theo hướng tiếp cận lọc nội dung, đề xuất các giải pháp để nâng cao hiệu năng cho mô hình mạng nơ-ron trích dẫn Neural Citation Network.

2- Theo hướng tiếp cận lọc nội dung kết hợp lọc cộng tác, đề xuất xây dựng mô hình khuyến nghị trích dẫn mới tên là RHN-DualLCR, trong đó bao gồm các giải pháp để nâng cao hiệu năng cho mô hình khuyến nghị trích dẫn cục bộ kép DualLCR đã được công bố bởi Medić và Šnajder.

3- Theo hướng tiếp cận lọc nội dung kết hợp lọc đồ thị, đề xuất xây dựng mô hình khuyến nghị trích dẫn mới tên là SciBERT-GraphSAGE bằng cách kết hợp 2 thành tựu tiên tiến hơn trong xử lý ngôn ngữ tự nhiên SciBERT và đồ thị biểu diễn các liên kết trích dẫn GraphSAGE.

MỞ ĐẦU

1. Tính cấp thiết của luận án

Số lượng bài báo khoa học được công bố ngày nay đang gia tăng với tốc độ chưa từng có, dẫn đến thách thức đáng kể cho các nhà nghiên cứu, đặc biệt là những người trẻ và thiếu kinh nghiệm, trong việc xác định các tài liệu liên quan và có chất lượng cao để trích dẫn. Trước tình trạng quá tải thông tin từ hàng loạt ấn phẩm khoa học được công bố mỗi năm, các hệ thống khuyến nghị trích dẫn tự động có tiềm năng giảm bớt gánh nặng này. Những hệ thống này có thể cung cấp các đề xuất phù hợp, hỗ trợ các nhà nghiên cứu định hướng hiệu quả trong khối lượng thông tin khổng lồ.

Các phương pháp tiếp cận hiện nay đối với bài toán khuyến nghị trích dẫn vẫn tồn tại một số hạn chế. Hạn chế đầu tiên nằm ở việc các mô hình khuyến nghị chưa tận dụng đầy đủ thông tin từ các bài báo khoa học. Một trong những nghiên cứu tiên phong trong lĩnh vực này được thực hiện bởi Ebesu [10] và Färber [11], trong đó họ đề xuất một kiến trúc linh hoạt dựa trên cơ chế mã hóa-giải mã (encoder-decoder) có tên là mạng nơ-ron trích dẫn (Neural Citation Network – NCN). Mặc dù mô hình này đã đạt hiệu quả vượt trội so với các phương pháp cùng thời trên các bộ dữ liệu RefSeer và arXiv CS, nó vẫn còn những hạn chế đáng kể, đặc biệt là việc chưa tích hợp toàn diện các thông tin quan trọng từ bài báo vào quá trình huấn luyện mô hình, chẳng hạn như tiêu đề, tác giả, năm xuất bản và nơi công bố.

Hạn chế thứ hai liên quan đến việc các mô hình khuyến nghị hiện tại chưa tận dụng những tiến bộ mới nhất trong lĩnh vực học sâu. Chẳng hạn, các mô hình khuyến nghị kép như DualLCR [12] và DualLCR-design [13], được nhóm Medić và Šnajder giới thiệu lần lượt vào năm 2020 và 2022, vẫn dựa trên cơ chế Bộ nhớ dài-ngắn hai chiều (Bidirectional Long-Short Term Memory, BiLSTM) [14]. Tương tự, mô hình BERT-GCN do nhóm nghiên cứu Jeong [15] phát triển cũng chưa tích hợp các tiến bộ mới nhất về xử lý ngôn ngữ tự nhiên và đồ thị liên kết trích dẫn trong các bài báo khoa học.

Hạn chế thứ ba liên quan đến việc các mô hình khuyến nghị trích dẫn hiện nay chủ yếu tập trung vào ngữ cảnh trích dẫn và nội dung của bài báo ứng viên [16] [17], trong khi chưa khai thác hiệu quả siêu dữ liệu của bài báo, bao gồm tên tác giả, năm xuất bản và nơi công bố. Những yếu tố này có vai trò quan trọng trong việc định hình xu hướng trích dẫn của các nhà khoa học, bởi lẽ họ thường ưu tiên trích dẫn các tác giả có uy tín, các công bố mới hoặc các bài báo đăng tải tại các tạp chí hoặc hội nghị hàng đầu trong lĩnh vực nghiên cứu của mình.

2. Mục tiêu của luận án

Áp dụng các tiến bộ mới nhất từ các mô hình học sâu để phát triển một mô hình hoàn toàn mới hoặc đề xuất các giải pháp cải thiện hiệu năng cho các mô hình khuyến nghị trích dẫn tiên tiến.

3. Đối tượng và phạm vi nghiên cứu của luận án

Luận án tập trung nghiên cứu và phân tích một số khía cạnh liên quan đến bài toán

khuyến nghị trích dẫn, bao gồm:

– Các mô hình học sâu tiên tiến hiện có dành cho bài toán khuyến nghị trích dẫn.
– Các cải tiến trong mô hình học sâu, những tiến bộ nổi bật trong xử lý ngôn ngữ tự nhiên, cùng các phương pháp biểu diễn dữ liệu khác nhau từ bài báo khoa học.
– Các chỉ số đánh giá hiệu suất và các bộ dữ liệu thường được sử dụng trong các mô hình khuyến nghị trích dẫn tiên tiến hiện nay.

4. Phương pháp nghiên cứu

Nghiên cứu lý thuyết: Tập trung nghiên cứu và phân tích các kết quả hiện có của các hệ thống khuyến nghị trích dẫn tiên tiến hiện nay, đánh giá ưu nhược điểm của các hệ thống này và đề xuất các phương án cải tiến nhằm nâng cao hiệu suất và độ chính xác của kết quả khuyến

nghị thông qua việc ứng dụng các kỹ thuật và mô hình học sâu. Đồng thời, xem xét các chỉ số đánh giá hiệu suất và các bộ dữ liệu phổ biến được sử dụng trong các mô hình khuyến nghị trích dẫn.

Nghiên cứu thực nghiệm: Thực hiện cài đặt và triển khai các mã nguồn trên các bộ dữ liệu phổ biến trên môi trường thực nghiệm, nhằm đo lường và đánh giá các kết quả đạt được từ các phương án đề xuất.

5. Các đóng góp của luận án

Với mục tiêu cải thiện hiệu suất của các mô hình khuyến nghị trích dẫn hiện đại, luận án đã có những đóng góp đáng kể như sau:

– Theo hướng tiếp cập lọc nội dung, đưa ra các giải pháp nâng cao hiệu suất cho mô hình mạng nơ-ron trích dẫn NCN [10] [11] (công bố trong công trình CT1).
– Theo hướng tiếp cận lọc nội dung kết hợp lọc đồ thị, phát triển một mô hình mới có tên RHN-DualLCR, bao gồm các giải pháp cải thiện hiệu suất cho mô hình khuyến nghị trích dẫn kép DualLCR đã được Medić và Šnajder công bố trước đó [12] [13] (công bố trong công trình CT2 và CT4).
– Theo hướng tiếp cận lọc nội dung và lọc đồ thi, giới thiệu mô hình khuyến nghị trích dẫn mới có tên SciBERT-GraphSAGE, bằng cách kết hợp hai tiến bộ gần đây trong xử lý ngôn ngữ tự nhiên cho bài báo khoa học SciBERT [18] và cấu trúc đồ thị GraphSAGE [19] (công bố trong công trình CT3 và CT5).

6. Bố cục của luận án

Luận án bao gồm phần mở đầu và các chương nội dung chính được sắp xếp như sau:

Chương 1 trình bày tổng quan các nghiên cứu liên quan, phân tích những hạn chế của các kết quả nghiên cứu trước đây. Các chương 2, 3 và 4 tập trung vào các đóng góp chính của luận án, mỗi chương trình bày các phương pháp được đề xuất nhằm cải thiện hiệu quả của các mô hình khuyến nghị hiện đại. Phần kết luận tổng hợp những đóng góp chính của luận án, đề xuất các hướng nghiên cứu phát triển trong tương lai và nêu những vấn đề quan tâm của NCS. Cuối cùng, luận án liệt kê danh mục các công trình đã công bố của NCS và tài liệu tham khảo.

Tải tài liệu

1.

Luận Án Tiến Sĩ Máy Tính – Phát Triển Các Mô Hình Học Sâu Kết Hợp Cấu Trúc Đồ Thị Và Phân Tích Ngữ Nghĩa Cho Bài Toán Khuyến Nghị Trích Dẫn

.zip
7.37 MB

Có thể bạn quan tâm