-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathsample_text.txt
28 lines (19 loc) · 1.87 KB
/
sample_text.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
... Лемматизация — это процесс преобразования слова в его базовую форму.
Лемматизация учитывает контекст и преобразует слово в его значимую базовую форму,
тогда как стемминг просто удаляет последние несколько символов,
что часто приводит к неверному значению и орфографическим ошибкам.
Например, лемматизация правильно определила бы базовую форму «caring» и «care»,
в то время как стемминг отрезал бы «ing» и преобразовал ее в car.
«Caring» -> Лемматизация -> «Care»
«Caring» -> Стемминг -> «Car»
...
Подробнее: «https://webdevblog.ru/podhody-lemmatizacii-s-primerami-v-python/»
... морфема — это минимальная значащая часть слова
(корень, приставка, суффикс, окончание, постфикс).
Вопрос о количестве уровней и их перечне в лингвистике до сих пор
остается открытым. Как отдельный может быть выделен лексический
уровень — уровень лексем. Лексема — это слово, как совокупность всех
его конкретных грамматических форм (к примеру, лексему 'лист' образуют
формы 'лист', 'листа', 'листу', 'листом'). Точнее, лексема — семантический
инвариант всех словоформ ...
Подробнее: «https://www.hse.ru/data/2017/07/22/1173852775/NLPandDA_4print.pdf»