Tài liệu đề xuất xây dựng, chuẩn hóa và khai thác kho ngữ liệu tiếng Việt từ internet để phục vụ cho xử lý ngôn ngữ tự nhiên. Các nghiên cứu tập trung vào việc thu thập dữ liệu thô, chuẩn hóa mô hình chú giải và khai thác kho ngữ liệu cho nghiên cứu từ vựng và phân tích cú pháp. Luận án gồm năm chương, từ tổng quan đến kỹ thuật và phương pháp xây dựng kho ngữ liệu, đi sâu vào nghiên cứu thuật toán cho tiếng Việt.