Бакалаврская работа подготовлена и защищена в 2018 году в Московском авиационном институте (национальный исследовательский университет), по направлению подготовки 230100 «Информатика и вычислительная техника», профиль «Системы автоматизированного проектирования».
В нашем мире все увеличивающегося объема данных возникает острая необходимость лучшего хранения и последующей их обработки. Ручная классификация в таких объемах станет очень затратной по времени и человеческому ресурсу. Но эту проблему сможет решить компьютерная автоматическая классификация, в рамках которых автоматизированные комплексы смогут работать с большими объемами данных.
В проекте рассматривается задача создания ИС для автоматического деления всех документов. Система выступает в роли web-портала для разделения документов.
Основным вариантом генерации признакового пространства становится методика ключевых слов. Основными признаками в данной методике становятся лексемы, которые входят в документы, а размерность признаков пространства равняется самому словарю. Но такой метод не может учесть морфологию языка, а также различные связи между словами. Поддержка морфологии реализуется при помощи метода стемминга [2], который основывается на приведении слов к их основной словоформе. Но ведь тогда для каждого языка нужно создать морфологический анализатор, что непременно приведет к возрастающей нагрузке вычислений, а также возникнет задача понимания начального языка документа (если он не будет указан в свойствах), ну и наконец, для отдельных языков создание морфологического анализатора сама по себе проблематичная задача.
В настоящей выпускной квалификационной работе разработана информационная система, позволяющая классифицировать электронные документы с использованием трех методов классификации, а именно метода ближайших соседей, его модифицированного варианта и обобщенного метода ближайших соседей.
ВКР включает в себя 3 части. Первая описывает методику классификации, алгоритмы и производит постановку задачи для создания ИС автоматического разделения электронных документов, определяются варианты дальнейшей разработки.
Вторая глава включает описание интерфейса системы, его структуры, созданной БД. Тут же выполняется сравнение применяемых методов: метода ближних соседей, его улучшенного варианта и совокупного метода ближних соседей.
Третья часть включает описание последовательности создания ИС и ее применения.
Проект включает в себя программный продукт на базе PHP и СУБД MySQL.