Một số thí nghiệm dựa trên dataset VFND sẽ được thực hiện trong repo này
-
corpus_extending.ipynb
: dùng để mở rộng bộ từ điển để dùng cho phương pháp Longest Matching, bộ từ điển mở rộng được đặt trong thư mụcDictionaries
-
news-preprocessing.ipynb
: thử nghiệm các phương thức tiền xử lý dữ liệu -
Thư mục
Dictionaries
: Chứa các bộ từ điểnbi_gram.txt, tri_gram.txt, four_gram.txt
vàStopwords_vi.txt
- urlmarker.py: Mã nguồn hỗ trợ trích xuất tương đối chính xác URL trong văn bản, Tham khảo theo [1]
- Các bộ từ điển tham khảo từ VNLP Core, Từ điển tiếng Việt và bộ
Stopwords_vi.txt
tham khảo tại dnanhkhoa/Stopwords_vi.txt
- Url extraction in python - Ryan Compton: Trích xuất URL trong văn bản bằng REGEX
- Các bài viết VNLP Core - Forum MachineLearning cơ bản: Bài 1, Bài 2 & Bài 3
- Phạm Minh Ninh - Bach Khoa HCM - CS student - github - facebook
- Hồ Quang Thanh - Bach Khoa HCM - CS student - github
Xem thêm trong contributors.