Финальное:
- Даже если мы не сможем поместить все тексты в индекс корпуса, надо их все разметить и положить на сайт в архиве.
В описании корпуса нужно указать использованные в процессе создания технологии: библиотеки для токенизации, словарь, инструменты дополнительной разметки
Программа случайного отбора текстов для заданного объёмаГриша- Подстройка виртуальной клавиатуры Коля?
Чистка словаряАня
Изменение xslt-преобразования так, чтобы между словами не отображался пробелГриша- Исследование возможности встроить в корпус визуализацию Гриша
Допиливание интерфейса корпуса (смена логотипа, работа с css), написание дисклеймераКоляЗапуск индексации корпуса, отлов ошибокГришадобирание текстов с сайтов, формирование базы url'овАняСоздание инструкции для краулераАняформирование списка грамкодов для конструктора запросовСаша- разметка грамматических категорий Даня
- Исходники для разметки грамматических категорий Таня
инструкция для запуска сторонней pos-размечалкиТаняНаведение порядка с текстами на сайтеАня, Гриша
- Проверка других инструментов pos-таггинга на случай, если там будет размечаться что-то, чего мы не сможем разметить нашим словарным методом. Саша
Написание инструмента, который берёт текст, берёт наш словарь и возвращает размеченный текст в XML (тут нужен корпусный формат).ДаняГришаДоделка недоделанного с 9.02: парсинг и мёрдж словарейСаша!Краулер для новонайденных сайтовГришаНахождение иобход краулером других сайтов-источников для корпуса Аня (Гриша должен научить Аню запускать краулер)Скачивание и парсинг тайской ВикипедииКоляНаписание скрипта, который переведёт xml-разметку в формат, пригодный для индексации армянским движком.Гришаresearch про сопоставление двух словарейСаша
организовать реп: раскидать по папкам то, что может пригодится и устаревшее.дать ссылку на реп в викиспейсах и больше в викиспейсы не ходить.
-
Токенизация. Изучение, можно ли установить и запустить библиотеки для тайской токенизации (библиотеки могут быть разные, посмотреть в курсовой Н. Мотиной): и на личном компьютере, и на сервере. Коля. -
Проверка консистентности словаря. Словарь скачивался с сайта таким образом, что в адрес подставлялись цифры подряд: domain-name.com/1, domain-name.com/2, domain-name.com/3 и т.д. По техническим причинам могли скачаться не все страницы. нужно написать программу, которая это проверит и недостающие страницы доберёт с сайта. Аня. -
Парсинг и мёрдж словарей. Один словарь (который с гитхаба) уже распаршен, его надо слить с тем словарём, который с сайта. Какие-то скрипты для доставания из сайтового словаря нужной нам информации (перевод и POS) есть в репе. Можно продолжить писать то, что есть там, или написать свою программу для этого, желательно с использованием lxml.Саша. -
Гальванизация краулеров. Какие-то краулеры для каких-то сайтов написаны, нужно проверить, какие работают (запустить), а какие нет (выбросить).Может быть, начать подстраивать под наши нужды новый универсальный краулер, который будет для всех сайтов. Думаю, его можно сделать на основе этого кода (добавил в нашем репе в ридми).Гриша и Таня.
потестил краулеры. Гриша
Плюс. Если Таня сможет прийти в следующий раз, хорошо бы рассказать про то, что она найдёт про исследования тайского языка (очень-очень кратко, минут на 5 максимум)
Может быть, я успею показать, как логиниться на сервере и запускать там питоновские скрипты.
Выраженные грамматические категории