На сегодняшний день научное сообщество сталкивается с такими проблемами, как:
- отсутствие актуальной информации о научных сотрудниках;
- большие трудозатраты, необходимые для проверки истинности информации;
- отсутствие единого хранилища данных о научных сотрудниках;
- отсутствие автоматизированного ввода;
- наличие большого количества научных статей, хранящихся на разнородных носителях в различных форматах;
- отсутствие доверия научных деятелей к ресурсам подобного рода;
- отсутствие специализированного автоматизированного поиска по научным деятелям;
- отсутствие алгоритмов для решения поставленных задач и подбора научных коллективов;
- территориальная разрозненность научных учреждений.
Предлагаемая информационная модель хранения и обработки научных трудов делает попытку решить большинство из представленных выше проблем. Система, реализованная на основе предложенной модели, позволяет в автоматизированном режиме осуществлять поиск опубликованных научных работ в сети Интернет, обрабатывать обнаруженную информацию из научных журналов текстовым поиском по документам, собирать данные о научных деятелях, аккумулировать информацию в базе данных, выполнять различные проверки на достоверность предоставленной информации.
Информационная модель системы хранения и обработки научных трудов ограничивается реализацией следующих модулей:
- создание реляционной базы данных, содержащей нормализованные таблицы для улучшения работы системы;
- внешний веб-интерфейс, позволяющий просматривать информацию о внесенной в хранилище информации и формирования комплексных запросов к системе;
- алгоритм обработки текста, позволяющий обрабатывать тексты научных статей в любых форматах, переданных системе.
Полученные данные о научных трудах публикуются в открытом доступе. Для просмотра и агрегации данных необходим доступ в сеть Интернет и наличие веббраузера. Регистрации на ресурсе не требуется. Для изменения информации необходимо обладать правами администратора. Использование данных, полученных в результате сбора, не противоречит казахстанскому законодательству, так как изначально данные находятся в открытом доступе.
Так как тексты статьи в результирующий набор не включаются, данные, полученные после агрегации, не представляют научной ценности. Информация является актуальной и истинной с большой вероятностью, так как документы проходят несколько стадий проверки, в соответствии с ГОСТ и интеллектуальным разбором текста. Из полученного системой документа выделяются фрагменты текста, необходимые для получения информации об авторе или авторах работы. Информация вносится в базу данных вместе с сопутствующими параметрами, обогащается и может быть использована для организационных задач научных учреждений. Веб-интерфейс содержит вкладки с полным списком авторов научных трудов в алфавитном порядке, форму для подбора научных коллективов, контактную информацию и общую информацию о ресурсе. Во вкладке, содержащей список всех научных сотрудников, реализована возможность поиска по фамилии автора научных статей. Вкладка с формой для подбора научного коллектива позволяет создавать списки ученых, в соответствии с заданными пользователем параметрами. Данная функция позволяет выбирать авторов:
- занимающихся схожими задачами,
- ссылающимися на одинаковую литературу,
- имеющих одинаковые ключевые слова,
- имеющих совместные труды,
- обладающих выбранной ученой степенью,
- обладающих выбранным ученым званием.
Результатом выборки по указанным параметрам является список научных сотрудников, которые могут составить научный коллектив по решению некоторой проблемы. Список может быть импортирован в отдельный файл для ручной обработки и других действий. В данной модели информационной системы осуществляется ручная подача документов на вход программе по обработке и анализу текстов. В алгоритме работы анализатора учитываются основные использующиеся форматы текстовых документов:.docx,.pdf,.txt,.html; и графический формат.jpeg. Все типы документов приводятся к стандартному виду при помощи внешней части системы и далее анализируются и трансформируются для последующей записи в базу данных. Появление записи о конкретном научном деятеле в базе данных связано с активностями только администратора базы данных. В связи с этим, сведения о научных сотрудниках будут появляться в информационной системе без их участия. Таким образом, доверие к системе в научной среде усилится, что приведет к возможности сбора сведений непосредственно от научных сотрудников. Результатом нашей является модель информационной системы хранения и обработки информации, включающая в себя основные составляющие: база данных (информационное хранилище), алгоритм обработки текстовых документов, содержащих информацию о научных сотрудниках, система автоматического поиска информации о научных сотрудниках в сети Интернет и веб-интерфейс для отображения собранной информации.
Информационная система должна отвечать следующим функциональным требованиям:
- автоматическая обработка текста в системе;
- алгоритм проверки на корректность и актуальность данных;
- автоматический поиск информации по сети Интернет;
- нахождение оптимального решения для СУБД и надстройки над СУБД.
Система включает в себя две схемы взаимодействия: взаимодействие с пользователем и с администратором. Для администратора схема функциональности проходит по следующему сценарию: на вход системе при помощи веб-интерфейса подается текстовый файл в одном из возможных форматов. Система преобразует файл к стандартизированному формату и записывает полученную информацию в базу данных. Данные, полученные после агрегации, можно предварительно отредактировать в диалоговом окне.
После загрузки данных в хранилище администратор имеет возможность проверить их корректность верхнеуровневыми пользовательскими запросами в веб интерфейсе.
Для корректного функционирования системы необходимо создать базу данных с информацией о научных сотрудниках, содержащую следующую информацию:
- ФИО научного сотрудника;
- труд/ труды, опубликованные под именем данного сотрудника;
- ссылки на литературу, использованную в данных научных трудах;
- ключевые слова к каждому научному труду данного сотрудника;
- ученая степень научного сотрудника;
- ученое звание научного сотрудника;
- контактная информация (в случае существования в открытом доступе).
Система позволяет осуществлять взаимодействие между хранилищем данных и пользователем при помощи вебинтерфейса. Интерфейсный объект расположен на удаленном сервере и обеспечивает загрузку данных на сайт в режиме реального времени. Структура веб интерфейса построена таким образом, что позволяет избежать возникновения трудностей при пользовании системой у пользователя. Система позволяет в автоматизированном режиме осуществлять поиск необходимой информации в сети Интернет. Целью запросов является поиск и исследование Интернет-пространства на наличие информации о научных сотрудниках, не занесенной в хранилище. Поисковые запросы имеют заранее определенный стандартный вид. Информация, содержащаяся в научных журналах, проверяется и фильтруется при помощи специализированного алгоритма. Алгоритм поиска по тексту позволяет отсеивать заведомо некорректную и сомнительную информацию, обеспечивая, таким образом, достоверность данных в хранилище системы. Модель информационной системы хранения и обработки научных трудов ограничивается реализацией следующих модулей:
- создание реляционной базы данных, содержащей нормализованные таблицы для улучшения работы системы;
- внешний веб-интерфейс, позволяющий просматривать информацию о внесенной в хранилище информации и формирования комплексных запросов к системе;
- алгоритм обработки текста, позволяющий обрабатывать тексты научных статей в любых форматах, переданных системе. Система ИСТИНА разработана в КазахстанскоАмериканском свободном университете. Данная система предназначена для анализа научно-технической информации в научных организациях с целью подготовки принятия решений.
Данная система позволяет реализовывать следующие цели:
- способствовать расширению информационного пространства КАСУ и повышению его рейтинга;
- дать возможность сотрудникам подразделений организации формировать годовые научные отчеты в автоматизированном режиме;
- предоставить руководителям отдельных подразделений и организации в целом автоматизированное средство проведения количественного и тематического анализа научной деятельности каждого из сотрудников, подразделений и учреждения в целом. В рамках количественного анализа деятельности организации система должна позволять вычислять научные баллы сотрудников ее подразделений;
- реализовать функцию формирования годовых научных отчетов сотрудников организации в автоматизированном режиме на основе введенных ими данных о публикациях и других аспектах научной и учебной деятельности;
- реализовать функцию подсчета научных баллов сотрудников в автоматизированном режиме на основе внесенной в хранилище системы информации об учебной и научной деятельности сотрудников. На основе системы ИСТИНА предполагается создание средства сравнительного тематического анализа научной деятельности сотрудников всех подразделений университета.
Расширение системы предполагает включение следующих модулей:
- модуль поиска информации в сети Интернет;
- модуль построения семантической модели предметной области с помощью онтологий;
- модуль тематической классификации публикаций, данные о которых содержатся в хранилище системы.
Данные в системе нельзя считать корректными, так как после внесения пользователем личной информации и информации о научных трудах правильность введения не проверяется. Все данные содержатся в разнородных форматах и дублируются, в связи с эти разработан стандартный профиль пользователя.
В системе информационного хранения и обработки свойств научных трудов данная проблема учтена и решена с помощью автоматического интеллектуального распознавания текста научных трудов. Пользователь не вводит информацию самостоятельно, поэтому исключается возможность опечатки и дублирования данных. Все данные приведены к единому формату.
В ходе исследования автором:
- рассмотрены существующие решения информационных систем научной среды;
- выделены особенности данных систем;
- сформированы списки необходимых функциональных требований
- создана инновационная система хранения и обработки научных трудов. На основе исследованных функциональных требований разработана модельная информационная система хранения и обработки свойств научных трудов.
В рамках данной работы выполнено:
- создание модели информационной системы хранения и обработки информации:
- создание алгоритма автоматической обработки текстов;
- создание алгоритма подбора научных коллективов;
- разработка основных функций информационной системы;
- возможность сбора статистики;
- создание алгоритма автоматического поиска по ресурсам сети Интернет;
- реализация информационной системы на основе предложенной модели:
- создание хранилища данных о деятельности научных сотрудников вне зависимости от места проживания и формате хранения статьей;
- создание модельной информационной системы хранения и обработки информации и научных сотрудниках;
- создание программного обеспечения для автоматической обработки текста;
- реализация основных функций информационной системы;
- создание веб-интерфейса для эффективного доступа к хранилищу;
- создание методологии использования системы в научном сообществе:
- получение корректной детальной информации и потребностях научных сотрудников;
- получение списков потенциальных научных коллективов;
- получение информации о научных сотрудниках.
ЛИТЕРАТУРА
- Голубков Е.П. Теория и методология маркетинга: настоящее и будущее, М., 2008.
- Грофф Дж.Р., Вайнберг П.Н. Полное руководство по MySQL. – М., 2005.
- Коннолли Т., Бегг К. Базы данных, проектирование, реализация, сопровождение. – М., 2006
- Журнал "Коммерсантъ Деньги", №14 (671), 14.04.2008.
- Кристиан Д., Эмилиан Б. PHP и MySQL: создание интернет-магазина. Beginning PHP and MySQL E-Commerce: From Novice to Professional. М., 2010.