Вкратце

Данный сайт планировался давно, но дошло до дела лишь к концу 2012, ибо лень.

Многие дагестанские языки находятся на грани вымирания. Новые поколения владеют родным языком всё хуже. Данный проект призван повысить интерес к изучению родных языков, а также разработать современную систему анализа и перевода текстов на дагестанских языках.

Родным языком для автора сего опуса является аварский, поэтому начат проект именно с этого языка.

На данный момент поставлена цель реализовать поиск с морфологией дагестанских языков, а также машинный перевод.

Поиск строится на основе Google Custom Search Engine с обёрткой-стеммером. Стемминг для дагестанских языков является непростой задачей. Алгоритм Портера не годится из-за большого количества ошибок, поэтому необходим словарь. Используются словари, найденные в публичном доступе в Интернете.

PHP MVC фреймворк сайта написан на коленке за вечер. А вот парсинг словарей и оттачивание лингвистических алгоритмов ещё предстоит.

Поиск

Что должен уметь поиск?

Распознавать различные варианты написания букв-диграфов (например, "к1" и "кI")
Распознавать регулярные диалектальные различия (например, южноаварский (андаляльский) суффикс "-уде" вместо северного "-изе" у глаголов в инфинитиве)
Производить морфологический разбор слов (определение падежа, класса, числа) для поиска вхождения различных их форм

В результате, обёртка-стеммер должна преобразовывать поисковый запрос вида 'слово1 слово2 ...' в 'слово11|слово12|... слово21|слово22|...', где "словоNi" -- это i-я вариация N-го слова.

База для GCSE будет пополняться вручную и по советам окружающих. Добавлять туда можно как целые сайты, так и отдельные их части.

В GCSE есть возможность добавления списка синонимов в XML-формате, однако количество синонимов сильно ограничено.

Перевод

Поскольку грамматика дагестанских языков совсем не простая, представляется разумным статистический подход (SMT). Проблемой в данном случае является небольшой объём корпусов, которые можно найти. В качестве корпусов очень удобно взять примеры фраз в словарях или разговорниках.

При наличии стеммера (см. абзац про поиск) возможна разработка грамматического переводчика (RBMT). Таким образом, система станет гибридной.

Пока используется phrase-based обучение при помощи Moses SMT, IRST LM и GIZA++.

Самое тяжёлое -- это выдирать корпусы из словарей и разговорников ~~потом и кровью~~ регулярными выражениями и PHP.

Словарь

Словарь должен быть клёвый. Чтоб знал разные формы слов и красиво всё это показывал.

В общем-то, если б готовые типографские словари были достаточно однородно оформлены, не было бы проблем конвертировать их в приложение, но поскольку на самом деле в них много косяков, придётся потрудиться.

Технологическая сторона

Реализация на данный момент ведётся на языке PHP (базой для словаря будет MySQL), как это ни прискорбно. Есть помыслы о чём-то пошустрее (C/C++, key-value хранилище Redis для базы), но надо провести нагрузочное тестирование, по-видимому производительности и так хватит.

Хостится всё это дело у меня дома на обувной полке на ноутбуке ~~Toshiba Satellite~~ ~~(уже) Acer Aspire 5530~~ (уже) Lenovo Thinkpad T61 ~~2001~~2008-го года выпуска xD.

В июне 2014 года хард в очередной раз умер, но на этот раз без бекапов. Бекенд восстановлен лишь в феврале 2015 на хостинге agava.

Автор

~~Учусь математике~~, работаю хакером, люблю программировать, увлекаюсь лингвистикой...

...остальное здесь наверное излишне.

P.S.

Если испытываете безудержную тягу к взлому, идите на A Hack CTF.