Работа подготовлена в 2016 году для защиты в Санкт-Петербургский Государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича», специальность — 080801.65 Прикладная информатика (по областям), Кафедра информатики и математики.
В современном мире возрастающий объём информации в электронном виде всё больше нуждается в классификации для лучшего хранения и дальнейшей обработки. Ручная классификация при таком объеме текстов будет слишком затратной по времени и человеческим усилиям.
Данную проблему призвана решить компьютерная автоматизированная классификация, на основе которой компьютерные комплексы могут справляться с большими объемами информации.Информационный бум, произошедший благодаря стремительному росту сети Интернет, привел увеличению количества электронных документов. По прогнозам экспертов, сегодня около 70 % сохраненной и применяемой обществом цифровой информации хранится в виде неструктурированном (текстовом) виде, а остальные 30 % включают в себя другие виды данных.
В такой ситуации высокую актуальность приобретают работы по разработке различных программных решений для увеличения удобства работы с ними.Классификация текстов (text categorization) — сортировка текстовых документов по заранее определенным категориям — одна из таких задач [1].
Методы классификации текстовых документов лежат на стыке двух областей — информационного поиска (information retrieval) и машинного обучения (machine learning). Общие части двух этих подходов — способы представления документов и способы оценки качества классификации текстов, а различия только в способах собственно поиска.Основными областями применения классификации текстов являются: фильтрация спама; ранжирование новостей; проверка авторства.В дипломной работе решается задача разработки информационной системы для автоматической классификации электронных документов. Система представляет из себя веб-портал для классификации документов.Выпускная квалификационная работа состоит из двух частей.
В первой рассматриваются методы классификации, алгоритмы классификации и производится постановка задачи на разработку информационной системы для автоматической классификации электронных документов, описываются выбранные средства разработки.Во второй главе описывается интерфейс системы, ее структура, в том числе разработанная база данных. Здесь же проводится тестирование разработанной системы и сравнение используемых методов, а именно метода ближайших соседей, его модифицированного варианта и обобщенного метода ближайших соседей.В комплект работы входит программа на языке PHP и СУБД Mysql.