скрипт ./tagger/tagger.py
в open_root
указываем путь к папке со скроуленнными текстами, они в формате xml
! на момент 03.09.2016 скроулено 516 550 документов (176 073 973 токенов)
в write_root
указываем папку для сохранения теггированных текстов в другом формате xml
в limit
указываем лимит в токенах
в файл index.json
запишется максимальный индекс документа в корпусе
удаляем ненужные файлы и создаем директорию для результатов:
$ cd ~
$ rm -r text_tagged
$ mkdir text_tagged
запускаем скрипт:
$ python2 tagger.py
скрипт ./armenian_engine/armenian_engine.py
в open_root
указываем путь к папке с теггировнными текстами
в write_root
указываем папку для сохранения текстов в формате армянского движка
удаляем ненужные файлы и создаем директорию для результатов:
$ rm -r [...]/ThaiCorpus/languages/thai/parsed_data
$ mkdir [...]/ThaiCorpus/languages/thai/parsed_data
запускаем скрипт:
$ cd ~
$ python2 armenian_engine.py
$ cd [...]/ThaiCorpus/indexator
$ python2 indexator.py