Giải pháp tăng hiệu suất cho phân tích cú pháp tiếng Việt thành phần bằng phương pháp thứ tự giữa

Thứ tư - 27/02/2019 22:19

Cả hai chiến lược phân tích cú pháp thành phần (consituent parsing) từ dưới lên (bottom-up) và từ trên xuống (top-down) thường được sử dụng cho các bộ phân tích cú pháp dựa trên biến đổi với mạng nơ ron. Các chiến lược này khác nhau về thứ tự sinh ra các thành tố cú pháp trong cây dẫn xuất hoặc là thứ tự sau (post-order) với phương pháp từ dưới lên; hoặc là thứ tự trước (pre-order) với phương pháp từ trên xuống. Phương pháp từ dưới lên có thuận lợi là luôn được bổ sung các thông tin khi xây dựng các thành tố mới từ cây cú pháp đã được xây dựng một phần, nhưng lại thiếu hướng dẫn bao quát trong quá trình phân tích cú pháp; phương pháp từ trên xuống có thuận lợi là có các thông tin rộng hơn để ra các quyết định cục bộ, nhưng phải dựa vào encoder phức tạp cho câu đầu vào để dự đoán cấu trúc phân cấp thành phần. Để giảm thiểu các điểm yếu của cả hai phương pháp trên, chúng tôi đề xuất một hệ thống phân tích cú pháp mới dựa trên thứ tự giữa (in-order) đi ngang qua cây cú pháp, thiết kế một tập hợp của các hành động chuyển tiếp để tìm sự thỏa hiệp giữa thông tin thành phần từ dưới lên và thông tin bao quát từ trên xuống. Dựa trên stack-LSTM, hệ thống phân tích cú pháp mới của chúng tôi đạt được 78,26%8 F1 trên bộ ngữ liệu Việt Treebank (VTB). Đây là kết quả tốt nhất trên bộ ngữ liệu này từ trước đến nay.

600px Abstract syntax tree for Euclidean algorithm svg

Chi tiết download ở file đính kèm

Ý kiến bạn đọc

Những tin mới hơn

Những tin cũ hơn