-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathdatas.py
92 lines (74 loc) · 2.42 KB
/
datas.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
import codecs
import re
import os.path
def load_pres(fname="./datasets/AFDpresidentutf8/corpus.tache1.learn.utf8.txt"):
"""Charge le dataset de train Président
Args:
fname (str, optional): Chemin vers le fichier texte contenant le dataset.
Returns:
alltxts: liste de tous les documents
alllabs: liste de tous les labels
"""
alltxts = []
alllabs = []
s=codecs.open(fname, 'r','utf-8') # pour régler le codage
while True:
txt = s.readline()
if(len(txt))<5:
break
#
lab = re.sub(r"<[0-9]*:[0-9]*:(.)>.*","\\1",txt)
txt = re.sub(r"<[0-9]*:[0-9]*:.>(.*)","\\1",txt)
if lab.count('M') >0:
alllabs.append(-1)
else:
alllabs.append(1)
alltxts.append(txt)
return alltxts,alllabs
def load_test_pres(fname="datasets/AFDpresidentutf8/corpus.tache1.test.utf8.txt"):
"""Charge le dataset de test President
Args:
fname (str, optional): chemin vers le fichier texte.
Returns:
alltxts (list[str]): la liste des documents
"""
alltxts = []
s=codecs.open(fname, 'r','utf-8') # pour régler le codage
while True:
txt = s.readline()
if(len(txt))<5:
break
txt = re.sub(r"<[0-9]*:[0-9]*>(.*)","\\1",txt)
alltxts.append(txt)
return alltxts
def load_movies(path2data="./datasets/movies1000/"):
"""Charge le dataset de train de Movies.
Args:
path2data (str, optional): Chemin vers le dossier racine contenant
les reviews répertoires des reviews positives et négatives
Returns:
alltxts: liste de tous les documents
alllabs: liste de tous les labels
"""
alltxts = [] # init vide
labs = []
cpt = 0
for cl in os.listdir(path2data): # parcours des fichiers d'un répertoire
for f in os.listdir(path2data+cl):
txt = open(path2data+cl+'/'+f).read()
alltxts.append(txt)
labs.append(cpt)
cpt+=1 # chg répertoire = cht classe
return alltxts,labs
def load_test_movies(path2data="./datasets/testSentiment.txt"):
"""Charge le dataset de test de Movies
Args:
path2data (str, optional):
Returns:
_type_: _description_
"""
alltxts = []
with open(path2data) as file:
for line in file:
alltxts.append(line)
return alltxts