-
Notifications
You must be signed in to change notification settings - Fork 0
Home
Этот проект является попыткой повторить быстрый частеречный таггер, описанный в статье Moore (2014) http://www.aclweb.org/anthology/C14-1110
Цель проекта - сделать быстрый частеречный таггер методом машинного обучения.
Как обычно делают таггеры | Как делает Moore и мы |
---|---|
|
|
Данные в статье | Наши данные |
---|---|
Penn Treebank Wall Street Journal (WSJ) III 1 203 648 слов Вручную размечены части речи |
Национальный корпус руского языка (НКРЯ) 5 944 205 слов Вручную размечена вся морфологическая информация |
- Словоформа
- Словоформа в нижнем регистре
- В слове есть:
- заглавная буква
- цифра
- дефис
- Префиксы и суффиксы слова от 1 до 4 букв
- Shape 1: Петя1 --> Хххх1
- Shape 2: Петя1 --> Хх1
- Кластер слова (см. ниже)
Идея:
поделить все слова на какие-нибудь группы,
основываясь на их совместной встречаемости.
Зачем:
все другие фичи несут информацию только о данном токене,
а эта фича (хоть и косвенно) несет информацию о токенах,
которые бывают рядом.
Как:
- скачиваем информацию о биграммах и частотах слов с сайта НКРЯ
- генерируем фичи для кластеринга:
- частота слова и длина слова
- сколько из топ-100 частотных слов бывают слева / справа от слова
- частоты топ-10 биграмм, в которых слово на 1м / 2м месте
- кластеризуем слова из биграмм на 256 групп
с помощью
KMeans
изsklearn.clusters
- если слово не встретилось в кластерах, то его кластер - 257-й
В статье делалось примерно так же, но там гораздо больше слов (не несколько миллионов, а несколько сотен миллионов), фичей и более сложный алгоритм кластеризации.
Stochastic Gradient Descent Classifier с Grid Search:
- loss function: hinge (SVM), log (логистическая регрессия)
- constant learning rate
- η = 2^-8
- alpha: разные :) – почти как в статье, но попробовали больше разных параметров
Мы измеряли точность таггера:
В статье | У нас | |
---|---|---|
Без кластеров | 97.23% | 87.73% |
С кластерами | 97.34% | 89.43% |
Подробнее об обучении и результатах: Машинное обучение.
Примеры работы полученного таггера: Демо.