-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathconsts.py
26 lines (24 loc) · 1.77 KB
/
consts.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
import hazm
stopwords = ['ام', 'م', 'ات', 'ای', 'ی', 'ت', 'اش', 'ش', 'مان', 'یم', 'ایم', 'تان', 'ید', 'اید', 'شان', 'ند', 'اند',
'است', 'هست', 'بود', 'شد', 'شو', 'باش', 'خواه', 'ها', 'های', 'ان', 'یک', 'دو', 'سه', 'چهار', 'پنج', 'شش',
'هفت', 'هشت', 'نه', 'ده', 'هستم', 'هستم', 'هست', 'هستید', 'هستیم', 'نیستم', 'نیستی', 'نیست', 'نیستیم',
'نیستید', 'نیستند'] + hazm.stopwords_list()[:200]
punctuations = ['.', '،', '!', '؟', '?', ':', '؛', '(', ')', '{', '}', '[', ']', '«', '»', '-', '/', '٪', '%', '"',
"'", '،', '_', '=', '<', '>', '+', '@', '*', ',', ';', '&', '#', '٬', '`', '|', ',']
diacritics = ['\u064B', '\u064C', '\u064D', '\u064E', '\u064F', '\u0650', '\u0651', '\u0652', '\u0653', '\u0654',
'\u0655']
character_mapping = {
'ا': ['ا', 'إ', 'أ', 'آ', 'ٱ'],
'و': ['و', 'ؤ'],
'ی': ['ی', 'ي', 'ئ'],
'ک': ['ک', 'ك'],
'ه': ['ه', 'ة', 'ۀ'],
}
english_characters = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz'
half_spaces = ['\u200C', '\u200f', '\xa0']
multi_words_token = ['چنان چه', 'بنا بر این', 'مع ذلک', 'فی مابین', 'فوق العاده', 'بی شک', 'در خصوص', 'این که',
'به دلیل', 'به خاطر', 'بر اساس', 'از جمله', 'با توجه به', 'اشاره به', 'بین الملل', 'در راستا',
'در اختیار', 'خاطر نشان', 'ما فوق', 'بدین شکل']
digit_characters = '1234567890۱۲۳۴۵۶۷۸۹۰١٢٣٤٥٦٧٨٩'
# Heaps Law: y = 0.49 * x + 1.60
# Zipf Law: y = -1.73 * x + 8.36 ?????