VFND Experiences - Thí nghiệm trên tập dữ liệu VFND

Một số thí nghiệm dựa trên dataset VFND sẽ được thực hiện trong repo này

1. Mô tả nội dung các file và thư mục

corpus_extending.ipynb: dùng để mở rộng bộ từ điển để dùng cho phương pháp Longest Matching, bộ từ điển mở rộng được đặt trong thư mục Dictionaries
news-preprocessing.ipynb: thử nghiệm các phương thức tiền xử lý dữ liệu
Thư mục Dictionaries: Chứa các bộ từ điển bi_gram.txt, tri_gram.txt, four_gram.txt và Stopwords_vi.txt

2. Tham khảo và vay mượn

2.1 Vay mượn mã nguồn

urlmarker.py: Mã nguồn hỗ trợ trích xuất tương đối chính xác URL trong văn bản, Tham khảo theo [1]
Các bộ từ điển tham khảo từ VNLP Core, Từ điển tiếng Việt và bộ Stopwords_vi.txt tham khảo tại dnanhkhoa/Stopwords_vi.txt

2.2 Tài liệu tham khảo

Url extraction in python - Ryan Compton: Trích xuất URL trong văn bản bằng REGEX
Các bài viết VNLP Core - Forum MachineLearning cơ bản: Bài 1, Bài 2 & Bài 3

3. Các tác giả

Phạm Minh Ninh - Bach Khoa HCM - CS student - github - facebook
Hồ Quang Thanh - Bach Khoa HCM - CS student - github

Xem thêm trong contributors.