Появление документальных информационных ресурсов стало возможным только с появлением письменности, которую можно считать первым основополагающим «стандартом» в информационной деятельности. Тексты конкретной письменности стали «универсальными информационными моделями» того или иного языка.
В свою очередь процесс создания письменного документа породил целую гамму «стандартов», определявших правила «подготовки документов» с использованием принятого в письменности набора (ансамбля, каталога, алфавита) графических элементов (символов, иероглифов, букв, пиктограмм, знаков и даже узелков).
Но если правила (стандарт) современного родного языка мы изучаем с пеленок, то все, что связано с другими языками, особенно древними — сложнее. Их «дешифровка» представляет собой более чем сложнейшую задачу.
Задавайте вопросы нашему консультанту, он ждет вас внизу экрана и всегда онлайн специально для Вас. Не стесняемся, мы работаем совершенно бесплатно!!!
Также оказываем консультации по телефону: 8 (800) 600-76-83, звонок по России бесплатный!
— сам язык;
— набор графических символов, используемых при письме;
— порядок прочтения: справа налево, слева направо, сверху вниз, по спирали (как на критском диске), но при этом знать, как читать от середины или от 332 края, и т.д.;
— какой тип письменности: алфавитная, слоговая, иероглифическая, пиктографическая и проч. и проч.
Решить все эти проблемы не просто. Желающих ознакомиться со всеми трудностями, возникающими при «дешифровке» той или иной письменности, можно отослать к первоисточникам.
Книги позволяют понять, что будет с электронными и иными документальными ресурсами, если стандарты их представления будут отрабатываться без должного старания. Как бы не пришлось вспомнить Петра I, который писал: «Всем чинам на службе стоящим... помнить подлежит, что прожекты вести справно, а кто прожекты начнет ляпать (того), чина лишу и кнутом драть велю». Но тем, кто прожекты вел «не справно», уже будет все равно (по убытию в «информационное пространство»), а оставшимся «при деле» достанется «интересная и многотрудная» работа по дешифровке и конвертации накопленных электронных ресурсов.
Перечислим лишь некоторые из них:
— Ст. 1. Формы императорских эдиктов.
— Ст. 9. Форма большой докладной трону.
— Ст. 10. Содержание большой докладной трону.
— Ст. 27. Форма сообщения.
— Ст. 32. Форма сводного отчета.
— Ст. 37. Форма выделения (почетных наименований).
— Ст. 38. Применение интервалов в тексте.
— Ст. 39. Выделение и не выделение имен.
Почти ОКУД, только составленный более 1 600 лет назад.
Приведенный экскурс в далекую историю, дан с единственной целью — показать, текст это сложнейшая информационная модель представления информации, которую не так просто реализовать при современных технических средствах. Например, представить полный набор графических символов, со
держащихся в текстах документов, указанных выше, с помощью Microsoft Word, вряд ли сможет вполне подготовленный оператор. Слишком велик объем требуемого набора графических символов, используемых в текстах.
Одновременно приведенные книги являются иллюстрацией важнейшего принципа, который должен быть положен в создание электронных информационных ресурсов:
Текст всегда полиязычен и полиалфавитен. Наборы графических символов, включаемые в представляемые «тексты», должны охватывать принципиально отличающиеся графические системы (кириллицу, латиницу, иероглифику, пиктограммы, и другие графические системы). При этом нужно помнить, что академическая кириллица и латиница не способна передавать большинство текстов, представленных на языках, письменность которых построена на их основе.
Должна быть однозначная идентификация графических элементов и языковых фрагментов.
Электронные информационные ресурсы значительно расширили «изобразительные» средства представления информации соединив в единый комплекс тексты, графику, фотографию, звук, движение и средства модификации, управления и преобразования всей совокупности «изобразительных» средств. Все это многократно усложняет задачи сохранения электронных ресурсов во времени, при изменении программных и технических средств.
А без гарантированного сохранения во времени достоверных, актуальных информационных ресурсов невозможно эффективное функционирование автоматизированных систем обработки данных любого назначения:
— управления производством, учета и планирования;
— материально-технического снабжения;
— торговли;
— автоматизированных рабочих мест, автоматизированных систем научных исследований и комплексных испытаний образцов техники;
— геоинформационных и картографических;
— систем слежения за воздушным пространством;
— поли язычного перевода и обработки поли язычных текстов;
— таможенных систем, ведущих учет товаров, торговых марок, производителей, получателей, перевозчиков;
— систем оценки современного и перспективного уровней техники и т.п.;
— систем проектирования, производства, и технологического контроля и проч.
Перенос информационных ресурсов на машиночитаемые носители ставит перед пользователями задачу построения системы взаимосвязанных информационных моделей объектов учета, которые адекватно отображают проблемную среду. Системы информационных моделей должны эффективно обрабатываться с помощью существующих технических и программных средств.
При этом нужно подчеркнуть, что определяющим фактором являются информационные ресурсы и требования на их представление. Технические и программные средства лишь инструмент. Не информация должна настраиваться на технические и программные средства, а технические и программные средства должны настраиваться на имеющиеся информационные ресурсы. Преступно халатна ситуации, при которой накопленная ранее информация не может быть обработана «новейшими» программными и техническими средствами.
Создание эффективной базы данных и выбор программой среды для ее функционирования требует строгого определения (задания):
— объекта (объектов);
— целей системы;
— задач, реализуемых в процессе достижения целей;
— функций, обеспечивающих выполнения задач и целей системы;
— реализующей схемы («механизма реализации»): всех элементов и структурных связей между ними.
Только в этом случае может быть системно и правильно отработана информационная модель объекта (система объектов) учета, удовлетворяющая требованиям пользователей системы, и определены все ограничения на представление и обработку информации, включаемой в базу данных.
Это позволяет выявить все требования к программным средствам, необходимым для решения задачи, и, следовательно, все ограничения, накладываемые информационной моделью объекта на программные средства.
Далеко не вся информация в требуемом виде может быть перенесена в электронную форму, хотя за последние 10— 15 лет в этом направлении достигнуты результаты, значительно превышающие прогнозы конца 80-х гг.
На разработку информационных моделей существенно влияют все ограничения программных средств. Разработчик вынужден расширять систему ограничений на информационную модель и процессы обработки. Причем, если на первом этапе ограничения определяются содержательной постановкой задачи и достигнутым уровнем формализованного описания методов ее решения, то на этапе перехода к программной среде на задачу и информационную модель объекта накладываются ограничения, определяемые как общим уровнем развития инструментального комплекса, так и конфигурацией средств конкретной системы. Но здесь должен соблюдаться общесистемный уровень адаптации, т.к. приоритет средств системы может выродиться в создание «ущербных», «вырождающихся» ресурсов.
Процесс согласования требований от информации и возможностей инструментального комплекса системы (техники и программных средств) должен сопровождаться тщательным документированием противоречий между требованиями задачи и возможностями программной среды, т.к. по каждому из них и по всей их совокупности должны быть приняты согласованные проектные решения. Последствия решений могут быть различны: отказ от использования имеющегося инструментального комплекса, разработка дополнительных программных модулей или нормативных документов, обеспечивающих преобразование методов подготовки, кодирования данных; изменения (преобразования) базы данных под возможности программных средств; изменение требований к процессам обработки и т.п. Перечень ограничений на базу данных особо важен в тех случаях, когда в процессе технологической эксплуатации предполагается использование внешних баз данных, имеющих иные проектные решения при вводе одних и тех же данных.
В практической работе пользователь, завершив разработку концептуальной информационной модели объекта, преобразует ее к возможностям конкретного программного средства, логические и физические модели представления данных которого определены программной средой. Разрабатывая вопросы создания электронных информационных ресурсов нужно постоянно учитывать, что устойчивая во времени система не может быть создана без «анализа цепных механизмов, связей, наследственности, отбора, временного пространственного соревнования, адаптации и равновесия различных, противоположных, гасящих друг друга структур и систем ...» (В. В. Чавчанидзе).
Прежде чем перейти к рассмотрению основных подходов к построению и стандартизации информационных моделей, сделаем очень краткий экскурс в историю вопроса.
Первыми в числе общедоступных электронных информационных ресурсов документального типа стали библиографические базы данных.
Начиная с 60-х гг., число таких баз быстро увеличивалось, а число записей в них достигло сотен миллионов. И в 80-х гг. весь входящий поток документов, фактически, полностью каталогизировался в машиночитаемой форме. Началась планомерная работа по вводу в базы данных ретроспективных фондов.
Достигнутые успехи определялись следующими основными факторами:
Информационной моделью документа в таких системах является библиографическое описание. Библиографическое описание документа, использовавшееся в традиционных каталогах имело высокую степень унификации и отработанные методические подходы составления для всей гаммы документов, использовавшихся в библиотечной практике. Схемы описания документов, принятые в различных странах, в основном строились
на единых методологических принципах, хотя и отличались друг от друга. Различия вызывались сложившимися в каждой стране традициями. Сформировавшиеся подходы имели высокую степень унификации и совершенствовались не одну сотню лет в традиционных библиографических системах для всех существующих типов документов. Существовали наработанные технологии формирования каталогов, весь комплекс нормативных документов, по описанию документов, и высоко квалифицированный персонал, реализующий процессы обработки, и, самое главное, имелись уже описанные фонды на миллионы единиц хранения.
В библиографическом описании отражены все типы данных (цифровые; кодов различной сложности и структуры, фрагменты поли язычных и поли алфавитных микротекстов, обязательных и необязательных данных, полей переменной и постоянной длины и т.п.), использовавшиеся в различных автоматизированных системах. Поэтому оно стало своеобразным тестом для отработки «всеядной системы», способной создавать и обрабатывать системы данных сложной структуры.
Заинтересованность многих групп пользователей в реализации проекта, осуществляющего максимальный доступ к документальным ресурсам, накопленным в крупнейших национальных библиотеках, на региональном и международном уровне.
Удачным методологически было и проектное решение, положенное в основу создания коммуникативного формата обмена библиографической информацией по программе MARC. Это был подход, предложенный группой под руководством Генриетты Авраам— руководителем работ по автоматизации Библиотеки Конгресса. Проект стал основой для последующих работ по созданию стандарта ISO 2709 и всей совокупности взаимосвязанных стандартов, обеспечивающих обмен информацией на машиночитаемых носителях.
Опыт использования библиографического описания как объекта стандартизации ценен и тем, что сам объект абсолютно открыт для изучения и обсуждения. Это позволило привлечь к отработке модели специалистов многих стран. При этом потребовалось найти решение проблем не локальных системах, а проблем глобального обмена информацией в различных странах, на самых разных уровнях реализации библиотечных технологий. Главной трудностью было согласование противоречивых интересов участвующих в разработке стран, т.к. фактически каждый элемент описания приходилось согласовывать с устоявшимися традициями национальных систем книго описания и представления данных.
Вопросы стандартизации библиографического описания для цели международного обмена и создания коммуникативного формата для обмена этими описаниями и всей совокупности сопровождающих их стандартов продолжалась около 20 лет. За это время была проведена каталогизация имеющихся нормативных документов, разработаны национальные и отраслевые стандарты, отработаны в технологическом режиме промышленной эксплуатации все созданные нормативы, выявлены ошибки и проблемы, требующие дальнейшей проработки. Все это способствовало более эффективной реализации обмена всеми видами электронных ресурсов. Например, в рамках стран-членов СЭВ уже МСНТИ был подготовлен справочник «Стандарты и рекомендации в информационной деятельности».
Эта работа оказала огромное влияние на изменение подходов к каталогизации документальных информационных ресурсов и высветила многие проблемы представления информации в базах данных, а также подготовила базу для решения вопросов, связанных с представлением текстовых данных. Но следует обратить внимание, что в силу многих обстоятельств вся существующая система стандартов и нормативных документов в наибольшей мере отражает особенности информационных технологий США. Это обеспечивает для США значительные преимущества. Остальные страны вынуждены адаптировать эти технологии к особенностям своих стран. Что в ряде случаев снижает качество проектных решений.
В тоже время следует отметить, что создание совместимых систем представления текстовой информации еще не разрешены, о чем свидетельствует великое множество конверторов для прочтения и обработки текстов, подготовленных на различных текстовых редакторах. При этом особую сложность демонстрируют поли язычные тексты, включающие сложные индексы, математические формулы, описания химических веществ и т.п.
Ниже рассмотрены подходы к построению информационных моделей некоторых видов объектов.
Примечание:
Еще один взгляд на объект (Ш.Ш. Гасанов):
Поскольку любой объект содержит в себе бесконечное множество равноценных для него свойств и признаков, из него можно сформулировать и бесконечное множество предметов, поэтому только в определениях можно достичь однозначного понимания и восприятия всеми специалистами предмета, адекватно отражающего объект в заданном отношении согласно целям познания.
Составляющие (по У.Р. Эшби) предпосылки и основание концептуальной схемы модельно целевого подхода к выделению объектов исследования с этими объектами:
1. Поскольку любая вещь, любой материальный объект содержит в себе не менее чем бесконечное число переменных, т.е. признаков, свойств, качеств, характеристик, постольку существует бесконечное число возможных способов вычленения объекта исследования из среды в зависимости от принимаемых в расчет переменных. Это означает, что в объективной реальности может быть проведено бесконечное число границ.
2. В утверждение о принципиальной невозможности изучения всех этих переменных (качеств, признаков и т.д.), изучения материальных объектов, во всей их сложности заключен важный принцип теории познания об относительности истины, о единстве абсолютной и относительной истины, модельности познания как неполного сходства, неполного соответствия между моделью и моделируемым объектом. Поэтому объект исследования, даже у самых последовательных сторонников естественного подхода, не вещь, не материальный объект, а его модель, всегда гомоморфная вещь, как таковая, и изоморфная ей в задаваемом отношении, принимаемая в расчет переменных.
3. Для вещи, любого фрагмента материального мира — все это бесконечное множество переменных равноценно, равнозначно, ибо в объективной реальности нет каких либо критериев и эталонов значимости, важности, существенности или предпочтительности одних характеристик, качеств и границ любым другим.
В исследовательском процессе ранжирование этих характеристик, отбор значимых, существенных признаков происходит только в субъект объектных отношениях, в деятельности субъекта и только через нее.
Цель является единственным критерием оценки и проверки правильности выбора признаков для вычленения объекта из среды и установления его границ, ибо, только зная, какое отношение вещей должны вскрыть производимые нами операции, что мы собираемся изучать и какова цель наших действий, мы можем удовлетворительно определить существенные свойства намечаемых объектов, отчленить их от других и разъяснить смысл не только другим, но и самим себе.
Перечень избираемых признаков, их соответствие заданным целям, а, следовательно, и параметры объекта меняются в зависимости от уровня знаний, технологий, внутренней и мировой экономической конъюнктуры даже при определении таких, казалось бы, очевидных понятий, как «природные ресурсы», «полезные ископаемые». Объекты исследования и их границы субъективны (принадлежат субъекту) в том смысле, что из них субъект конструирует путем выполнения акта замещения вещи на модель, адекватную заданным целям, и вместе с тем они объективны, т.к. существуют в реальности наряду с бесконечным числом других, равно значимых для реальности.
В итоге вырисовывается следующий ряд гносеологических процедур выделения объекта исследования: Цель => признак (и) => объект исследования (модель, система). Суть конструирования объекта исследования, как исходной системы, заключается в процедуре замещения неконтролируемого бесконечного множества переменных контролируемым их конечным множеством, позволяющим выполнять в последующем определенные исследовательские операции (группировку в виды и роды, классификации, районирование и т.п.).
Объект исследования — логическая конструкция, эффективная относительно преследуемых целей модель свертка информации, всегда гомоморфная отражаемому в знании фрагменту реальности и изоморфная ему в заданном отношении (по списку избранных переменных).
Включение в системное исследование временной компоненты предполагает учет, помимо связей строения (пространственных), и связей функционирования и развития (генезиса, эволюции).
При проведении границ необходимо выполнение двух субъективных актов:
— выбор признака, критерия, элемента разграничения;
— назначение ступени неразличимости.
Дискретная граница может быть проведена по ограниченному числу элементов (наиболее четко — по одному), и добавление каждого последующего элемента будет делать эту границу все более расплывчатой, неопределенной, и в пределе неизбежно придем к пространственному континимуму.
Всегда требуются дополнительные указания инструктивного характера, позволяющие провести границу на основе однозначной процедуры, всеми воспринимаемой одинаково.
Ядро модельно целевой ориентации:
1. Объекты и границы представляют собой модели, всегда гомоморфные изучаемому фрагменту реальности и изоморфные им в заданном отношении.
2. Параметры модели (переменные и границы) задаются целями конкретного исследования. Ориентация на разработку бесцельных моделей равноценна признанию абстрактных истин, что ведет к неконтролируемому и эклектическому смешению признаков изучаемого явления.
Только относительно цели исследования можно осуществить операцию отбора существенных признаков «работающих» на данную цель.
Поэтому при сопоставлении и оценке различных моделей и систем границ должны обсуждаться не сами модели и границы, а соответствие заданной цели избранных переменных.
3. Требование наглядности моделей объектов исследований и
границ не обязательно и принципиально неосуществимо.
Информационные модели: общие подходы к разработке
Примем следующее определение модели (Я.Г. Неуймин): Модель в общем смысле (обобщенная модель) есть создаваемый с целью получения и (или) хранения информации специфический объект (в форме мысленного образа, описания знаковыми средствами, либо материальной системы), отражающий свойства, характеристики и связи «объекта оригинала» произвольной природы, существенные для задачи, решаемой субъектом.
Представление модели объекта в знаковой форме будем называть информационной моделью объекта (ИМО).
Поскольку любой «объект оригинал» содержит бесконечное множество равноценных свойств, признаков, то для каждого объекта может быть построено бесконечное множество информационных моделей.
При разработке информационных моделей объектов следует учитывать следующее:
1. Однозначное понимание и восприятие объекта возможно только в конкретных отношениях, применительно к конкретным целям (задачам) исследования и изучения. Вне контекста задачи или класса задач, в которых используется конкретная модель, понятие модели не имеет смысла.
2. Паре «задача объект» соответствует множество моделей, содержащих в принципе одну и ту же информацию, но различающуюся формами ее представления, зависящими от разработанности языков описания.
3. Условия и требования задачи, решаемой субъектом, определяют ограничения и допущения, которые явно или неявно фигурируют в процессе построения модели. Эти условия и допущения, связанные с решаемой задачей и свойствами описываемого объекта, являются органической составной частью модели. Они должны специально рассматриваться и фиксироваться при построении и использовании каждой модели.
4. Когда осуществляется N-кратное моделирование, то во вторичные модели (и все последующие) автоматически входят допущения и ограничения, содержащиеся в исходной и промежуточных моделях.
Перечень включаемых в модель характеристик, и, следовательно, описывающие их параметры меняются в зависимости от уровня знаний, технологий, внутренней и внешней конъюнктуры даже при определении таких, казалось бы, очевидных, «объектов-оригиналов» как: библиографическое описание, природный ресурс, полезное ископаемое, учетная карточка на персонал, предприятие и т.п.
Первый шаг в разработке информационной модели объекта (ИМО) — это уяснение и четкая формулировка задачи, ради которой разрабатывается модель. Этот шаг базируется на содержательном анализе исходной проблемы и предполагает отбор и осмысление уже имеющихся представлений об объекте, относящихся к задаче, и определение тех из них, которые для задачи являются внешними.
Второй шаг процедуры формирования ИМО заключается в определении границ объекта, подлежащего модельному описанию и исследованию. Характеристики, включаемые в описание объекта, зависят, с одной стороны, от характера задачи, а с другой — от степени изученности той среды (проблемной области), к которой задача относится.
В ряде случаев (например: для искусственных систем и сооружений или для объектов, однозначно заданных самой постановкой задачи), проблема вычленения не возникает.
В экономических задачах, биологии, геологии и др., когда исследуемое явление или процесс носит системный характер, а исходные данные об объекте заведомо неполны, определение границ объекта, как правило, оказывается нетривиальной, зачастую весьма сложной проблемой.
Для определения границ необходимо:
— выбрать признаки, критерии разграничения;
— назначить ступени неразличимости.
Каждый признак имеет свой предел пространственной протяженности и границы, а протяженность и границы разных признаков в одном объекте редко совпадают между собой.
Это ведет к тому, что включение каждого нового признака, критерия разграничения делает границы объекта более расплывчатыми и неопределенными.
Кроме этого, необходимо учитывать, что в процессе «жизненного цикла» границы объекта могут меняться. Поэтому сбор данных об объектах на основе несогласованных информационных моделей ведет к тому, что в системах начинает накапливаться несопоставимая информация, что, как правило, затрудняет, а часто, и исключает возможность сопоставления и обобщения данных. Это в свою очередь создает предпосылки к появлению ложных (недостоверных) данных, циркулирующих в системах, а сами системы могут стать источником неконтролируемой дезинформации.
Поэтому унификация и стандартизация информационных моделей, и экспертиза на единой основе включаемых в них характеристик являются наиболее действенной мерой по созданию баз данных, обладающих информацией с требуемой достоверностью.
При создании ИМО необходимо учитывать следующее:
— объект, как целое, обнаруживает новые структурные и функциональные черты, не присущие отдельным компонентам, поэтому очень важно выявлять такие связи объектов, разрыв которых исключает возможность учета важнейших свойств системы, т.к. никакая система не может быть сведена к сумме составляющих ее частей;
— накопленные данные по объектам учета должны устанавливать основные противоречия в имеющихся знаниях об объекте, которые проявляются не как единичное несоответствие, а как комплекс неправильных формулировок и ошибочных результатов, получаемых в процессе использования тех или иных данных об объекте;
— сбор данных не имеет смысла, если при этом учитываются только непротиворечивые данные и исключаются из системы данные, противоречащие традиционной точке зрения на объект;
— ИМО должна отражать показатели (данные), необходимые для решения всех задач системы;
— в разработке ИМО должны участвовать все потенциальные пользователи базы данных;
— необходимо строить не одну модель объекта, а множество взаимосвязанных ИМО, обеспечивающих выявление внешних и внутренних связей объектов и объединяющих показатели в связанные подмножества, единые для класса (подкласса, группы) объектов и задач. Каждое подмножество показателей должно быть устойчивым и являться самостоятельной информационной моделью объекта при решении целой совокупности задач.
Простейшая структура информационной модели объекта может быть представлена как множество характеристик (показателей), задающих описание «объекта оригинала» применительно к решению некоторого множества задач.
Единичные показатели могут объединяться в группы, отражающие те или иные аспекты описания объекта. Между отдельными показателями и группами показателей могут задаваться различные виды связей.
Примечание:
Принятие информационных решений на основании баз данных затруднено следующими факторами:
— различными информационными моделями, используемыми для описания «объекта оригинала», каждая из которых верна только в рамках своих задач и подходов к описанию реального мира (например: форма Земли может быть задана сферой, двух или трехосным эллипсоидом с различными значениями параметров, задающими принятую модель уровневой поверхности);
— в конкретные моменты времени, одна и та же информация может оцениваться различно, в зависимости от степени информированности о внешней среде и ее возможных воздействий на результаты деятельности, осуществляемой лицом, принимающим решения;
— одну и ту же информацию различные пользователи оценивают неодинаково, в зависимости от уровня профессиональной подготовки, принадлежности к различным научным школам, личностных отношений с носителями информации, воздействия мнения авторитетов и непосредственных руководителей, конъюнктуры, «общепринятых» установок, методических подходов к оценке информации и т.п.;
— уровнем доступа к информации;
— полноты информационного потока, поступающего в процессе принятия решений;
— степени изученности «объектов оригиналов» и среды, в которой они функционируют, правильности определения границ, структуры и взаимосвязей между объектами;
— правильностью постановки задач и задания ограничений по точности, достоверности информации;
— влиянием целенаправленных помех, вносимых в информационные ресурсы, на принимающего решения;
— качественными характеристиками информации, используемой при принятии решений; и т.д.
Исходя из изложенного, можно сделать следующие выводы: Любое информационное решение об истинности (достоверности) и/или ложности (недостоверности), и/или точности, и/или возможности информации — субъективно и должно рассматриваться только в рамках тех конкретных условий, которые были на момент принятия такого решения.
Информация должна непрерывно переоцениваться, и по результатам этой переоценки необходимо оценивать ранее принятые информационные решения.
При оценке любой информации можно воспользоваться замечанием Жан-Клода Гардена, сделанным применительно к археологической информации [Жан-Клод Гарден]: «Во всех случаях ясно, что поставляемая информация не содержит никакой так называемой «объективной» доли того, что археолог постигает или распознает при изучении памятников. В этой информации можно скорее видеть отбор каких-то отличительных черт из тысяч других, самое меньшее, что можно сказать об этом отборе, что он всегда очень субъективен, даже тогда, когда его силятся подчинить общим правилам».
Для каждой пары «задача» — «объект — оригинал» может быть построена более чем одна информационная модель. Теоретически их бесконечное множество, особенно если учесть, что разными являются модели, отличающиеся хотя бы одним аспектом описания, и модели, в которых за одноименностью аспекта скрываются различные по объему понятия, используются различные системы мер, классификационные схемы, словарно-терминологические средства: точности представления данных, способы представления информации и методы кодирования.
Несмотря на это, практика функционирования информационных систем показывает, что стандартизация информационных моделей возможна для любых объектов, в т. ч. слабо структурированных, имеющих размытые границы, содержащих аспекты описания с трудно формализуемым содержанием. Более того, возможна стандартизация объектов, с неопределенным набором аспектов.
Любая модель должна быть открытой и иметь механизм ее расширения и преобразования без потери информации и изменения используемых программных средств.
В настоящее время идет стихийная, «скрытая», неосознанная стандартизация, в основе которой лежат возможности используемого программного обеспечения. Ситуация усложняется тем, что для пользователя используемые в системе стандарты являются «черным ящиком».
Эта ситуация осложняет создание совместимых БД.
Рассмотрим некоторые типы информационных моделей:
— информационные модели управленческой документации;
— библиографические описания документов (в эту группу включим модели описания словарно — терминологических средств, каталоги, регистры, системы персонального учета);
— объектографические описания;
— тексты.
Информационные модели управленческой документации
«Объектом оригиналом» является управленческий документ, обеспечивающий решение задач планирования, управления, учета и отчетности.
При разработке информационных моделей управленческой документации необходимо максимально использовать опыт, накопленный в процессе создания унифицированных систем документации.
Самое полное представление об унифицированных формах документов, входящих в унифицированные системы документации (УСД), можно получить из Общесоюзного классификатора управленческой документации (ОКУД) и связанной с ним системой стандартов.
В нем приведены наименования и кодовые обозначения унифицированных форм документов, входящих в следующие группы УСД:
— плановой;
— организационно-распорядительной;
— первичной учетной;
— расчетно-денежной;
— финансовой;
— первичной и отчетной бухгалтерской документации бюджетных учреждений и организаций;
— отчетно-статистической;
— по материально-техническому снабжению и сбыту;
— торговле, внешней торговле и др.
Каждая из перечисленных систем документации поддерживалась системой стандартов, определяющих состав входящих документов, давала перечень обязательных и дополнительных реквизитов всех входящих в систему документов, описывала «формуляр образцы» этих документов и другие требования к оформлению документов.
Например, в соответствии с ГОСТом товаросопроводительные документы:
1. Разрешается выполнять внешнеторговые документы на английском, немецком, французском или испанском языках;
2. ГОСТ задает нормированный перевод реквизитов, входящих в эти документы;
3. Жестко оговаривает, что все реквизиты должны быть заполнены на одном языке.
Несмотря на то, что системы УСД разрабатывались для совсем иных условий функционирования государственного управления, и многие формы уже не используются, ее внимательный анализ необходим и может принести существенную пользу при построении информационных моделей различных управленческих документов.
Это вызвано следующими причинами:
— указанная совокупность стандартов содержит уникальное множество реквизитов, используемых в управленческой практике по всем отраслям деятельности;
— даны проверенные практикой формы (формуляры образцы) документов, использовавшиеся в реализации различных видов деятельности;
— позволяет избавиться от кустарного создания «пещерных поделок», отражающих любительский уровень понимания сути управленческих проблем и их документирования;
— является уникальным, систематизированным энциклопедическим описанием полной системы управленческих документов всей государственной системы СССР, со всеми ее положительными и отрицательными проектными решениями. Никакое выборочное исследование не даст возможности собрать столь огромный исходный материал для разработчиков управленческой документации. Ибо в ней зафиксированы принципы, взгляды, отражен опыт и уровень понимания проблем стандартизации огромным числом организаций и разработчиков. Повторения подобных проектов в ближайшем будущем не предвидится и не может быть осуществлено.
Обратим внимание лишь на один существенный недостаток указанной системы стандартов управленческих документов: проект не был завершен сводным перечнем (каталогом) всех реквизитов, с полным описанием каждого как это было сделано для элементов данных библиографического описания документов, с привязкой их к документам ОКУД и указанием связи между реквизитами. Другим существенным недостатком было то, что в явном виде не указываются ограничения на длины элементов данных, ограничения на алфавит представления данных; не зафиксированы связи между документами и их характеристиками на всем множестве взаимосвязанных документов.
Необходимо обратить внимание и на то, что среди документов большую часть составляют документы анкетной формы, причем в состав отдельных полей анкет входят таблицы.
Для большинства документов требуется наличие отдельных полей (группы полей), защищенных электронной подписью. При этом нужно учитывать, что подпись должна быть множественной (сделанной разными людьми и в разное время), относящейся к различным группам данных.
Важным методическим пособием при разработке управленческой документации является ОКТЭСП (Общесоюзный классификатор технико-экономических показателей), представляющий собой перечень из более 4 тыс. позиций шаблонов с их кодами и наименованиями и методические указания по внедрению Общесоюзного классификатора технико-экономических и социальных показателей.
Формализованное описание показателей в соответствии с РД 5044883 осуществляется на основе структурной (фасетной) формулы показателя, фиксирующей форму показателя, тип показателя, состав и последовательность классификационных признаков.
Позиция шаблон включает:
1. Форму показателя (формальная характеристика).
2. Тип показателя (содержательная характеристика).
3. Признак или набор признаков «Хозяйственный объект».
4. Признак функция управления.
5. Признак «Временная характеристика».
6. Признак «Единица измерения».
Библиографические описания документов
«Объектом оригиналом» является документ. В зависимости от решаемых задач и характера документов, включаемых в библиографические базы данных, у нас в стране и за рубежом разработаны стандарты, определяющие наборы элементов данных, входящие в данный тип моделей.
Библиографические описания документов в настоящее время являются наиболее отработанным типом информационных моделей.
Причем многие из них имеют высокий уровень стандартизации и унификации представления данных, определяемых международными, национальными и отраслевыми нормативными документами.
Анализ элементов данных, включаемых в библиографические описания различных баз данных показы:
— количество характеристик, используемых для описания одного документа в базах данных различного назначения, может изменяться в значительных пределах, от 19 — 20 до 200 — 300: из них, количество характеристик, типа слов и словосочетаний естественного языка и тексты, составляют до 50 80 %; типа кодов, построенных по какому-либо формальному правилу, 30 — 40 %; количественные характеристики (числа) —до 10 %;
— при описании реальных документов, не все элементы данных присутствуют в описании, поэтому для создания библиографических баз данных применяются программные средства с переменной длиной записи (записи с изменяемым числом элементов данных). Т.к. в записях с фиксированным числом элементов и элементами фиксированной длины будет значительное число пустых элементов данных и полей, заполненных лишь частично;
— суммарное число символов, составляющих описание единичной записи, достигает 1 500 — 10 000.
Разработка библиографических баз данных существенно облегчается тем, что существует система стандартов по информации, библиотечному и издательскому делу (СИБИД), в рамках которой стандартизовано большинство проектных решений.
В государственной системе научно-технической информации использовался ГОСТ 7.1985 (СТ СЭВ 428385) «Коммуникативный формат для обмена библиографическими данными на магнитной ленте.
Содержание записи», который устанавливает состав, содержание и представление данных для основных классов документов:
— книг, брошюр и других разовых изданий;
— сериальных изданий;
— документации о научно-исследовательских и опытно-конструкторских работах;
— диссертаций;
— патентных документов;
— нормативно технических документов, промышленных каталогов, материалов о передовом производственном опыте;
— обзоров и указателей;
— неопубликованных переводов;
— алгоритмов и программ;
— музыкальных произведений;
— кинопродукции и аудиовизуальных документов;
— картографических изданий.
Многие элементы данных, описанные в этом стандарте и в сопровождающих его стандартах, могут быть использованы для построения небиблиографических баз данных.
Одной из существенных особенностей библиографического описания, как информационной модели документа является разделение всех элементов на несколько групп с различным правовым статусом.
Перечислим эти группы:
1. Группы элементов, определяемые на международном уровне, наличие, заполнение и правила, представления которых должно соответствовать международным стандартам.
2. Группа элементов, определяемая на национальном уровне, которые должны соответствовать национальным стандартам,
3. Группа элементов, определяемая ведомственными (отраслевыми) стандартами.
4. Группа элементов свойственная отдельной организации (системе) и определяющая специфические особенности функционирования систем.
Дополнительно каждая из этих групп элементов данных делится на обязательные (те которые обязательно включаются в описание любого документа) и факультативные (включение которых не обязательно и зависит от многих факторов реальной ситуации как функционирования, так и условий, определяющих описание «документа оригинала»).
Главным достижением работы рабочих групп по разработке Международного стандарта на библиографическое описание стало создание сводного регистра (каталога) всех элементов библиографического описания для всех использовавшихся схем, в странах, принявших участие в этих работах.
Каждый элемент (характеристика), включаемый в регистр, описывался обычно по следующей схеме:
— идентификационный код элемента данных;
— наименование;
— определение элемента данных;
— статус;
— представление (способ записи);
— ограничение на длину;
— способ получения на основе других данных, включаемых в модель, или другие модели, связанные с ней;
— связь с другими характеристиками или моделями;
— нормативные документы, определяющие представление элемента данных в описание;
— примечание (как правило, в примечании указываются все ограничения при определении характеристики);
— пример(ы). Как правило, пример приводится для типовых и наиболее сложных ситуаций.
Главная и наиболее трудная часть данной работы состояла в точном определении каждого элемента и отработки правил его применения и описания.
Такой состав элементов данных позволяет иметь широкую гамму совместимых подмножеств библиографического описания конкретного документа из единого каталога, высоко стандартизированных и унифицированных элементов данных.
Разработчику «пользовательской модели» библиографического описания остается только определить для каких целей и задач он отрабатывает «свою модель». Но опыт подобных работ показывает, что «изобретать велосипед» после окончательного уточнения целей и задач не приходится. Достаточно учесть и уточнить четвертую группу элементов данных; и все усилия направить на тщательную отработку схемы описания включаемых в нее элементов и нормативных документов, определяющих их заполнение.
В принципе, без ознакомления с ГОСТами Системы СИБИД, определяющими систему библиографического описания и связанных с ними международных стандартов, разработка библиографических баз данных может привести только к тупиковым результатам.
При существовании любой нормативной базы, для представления библиографической информации, каждый пользователь (и система), при создании собственных информационных ресурсов библиографической информации на основе заимствований из других (внешних) баз данных, должен и обязан иметь точное представление о том, какие данные поступают из внешней системы и как они соотносятся между собой.
Необходимо провести анализ на соответствие элементов данных своей системы библиографического описания с элементами библиографической системы (систем), из которой он получает описания документов.
В процессе проведения этого анализа должен быть получен ответ на следующие вопросы:
— определить уровень семантического соответствия сравниваемых схем описания документов в целом и на уровне элементов описания;
— определить форматное соответствие представления данных;
— выявить алгоритмически разрешимые и алгоритмически неразрешимые преобразования между данными;
— в случаях несовместимости элементов данных разработать рекомендации по их сближению или по правилам использования в своей системе. Сопоставление должно быть прямое и обратное. За основу необходимо принимать нормативно технические документы, определяющие сравниваемые схемы библиографического описания. За единицу принимается наименьшая иерархическая структура (элемент данных) формата, из которого осуществляется конвертирование. Выявляются соответствия по содержанию и способу записи, Составляются таблицы соответствия, определяется тип решения по конвертации данных. В качестве методики подобного сравнения можно использовать методическое пособие ГПНТБ СССР «Соответствие элементов данных государственного коммуникативного».
Подходы, использованные при построении библиографических баз данных, широко использовались при создании информационных моделей описания словарно терминологических средств, каталогов, регистров, системы персонального учета.
Рассмотрим информационную модель, используемую в базах данных типа терминологических словарей.
Объектом описания в словарно терминологических средствах выступает лексическая единица. С помощью терминологических баз данных может быть организовано накопление и ведение классификаторов, используемых в системах управления: промышленной продукции, стран и территорий мира, предприятий, управленческих документов, услуг.
В системе научно-технической информации разработан ГОСТ 7.4784 «Коммуникативный формат для словарей и информационных языков и терминологических данных. Содержание записи», который определяет содержание записи, состав и идентификацию элементов данных, описывающих лексические единицы, включаемые в терминологические базы данных. При составлении информационно поисковых тезаурусов этот стандарт следует применять совместно с ГОСТ 7.2580 «Тезаурус информационно поисковый одноязычный. Правила разработки, структура, состав и форма представления».
Перечень является примером того, что составление информационных моделей, даже таких, казалось бы, простейших, объектов, как терминологическая (лексическая) единица, требует предварительного изучения уже накопленного опыта и принятия на его основе частных проектных решений. С другой стороны, изучение этой модели может стать хорошим методическим подспорьем при создании баз данных по номенклатурным наименованиям промышленной продукции (особенно, иноязычным), веществам, наименованиям инофирм и др.
В принципе, используя ISO 2709 и перечисленные выше стандарты, можно создать на единой методологической основе поли язычную терминологическую базу всех лингвистических средств любой системы, включив в нее сводное описание всех элементов данных, используемых в базах данных системы.
Объектографические информационные модели
«Объектом оригиналом» является материальный объект или явление:
— образец техники (изделие, промышленный образец);
— промышленный объект, населенный пункт, транспортная сеть;
— геологическая структура;
— космическая группировка;
— химический элемент или соединение, вещество, материал;
— свойство;
— технологический процесс;
— персонал;
— организационные единицы и др.
Каждый объект, в зависимости от задачи, может быть представлен различными схемами описания с различными наборами характеристик, описывающих свойства и связи объекта. Как правило, в интегрированных системах обработки данных различные схемы описания объединяются в единую модель с выделением в ней различных подмножеств характеристик, обеспечивающих решение всего комплекса задач.
Основная трудность разработки этих моделей заключается в том, что, несмотря на широкое распространение объектографических баз данных, и традиционных каталогов с описаниями объектов, для большинства классов объектов отсутствуют хорошо структурированные информационные модели.
Анализ информационных моделей в существующих каталогах объектов, относящихся к различным областям техники: оборудование пищевой промышленности, автомобилестроение, ЭВМ, детали и узлы машин и др. — показывает, что уровень идентичности информационных моделей в рамках однородных групп объектов недостаточен:
— при описании одного и того же объекта обычно используется от 10 до 60 % характеристик, входящих в сводный перечень, составленный по различным моделям этого объекта;
— при этом от 36 до 70 % характеристик сводного перечня используется только в одном из вариантов модели;
— число характеристик в сводном перечне в 2 — 10 раз превышает число характеристик, используемых в частных моделях.
Минимум расхождений наблюдается между моделями простейших объектов. По мере усложнения моделей, расхождения между частными моделями резко возрастают.
Унификация типовых схем описания объектов, применительно к задачам — одна из наиболее трудных задач, стоящих перед пользователем при разработке базы данных.
Однако возможность унификации и стандартизации информационных моделей для различных классов объектов подтверждается опытом многих систем. Например, для объектов, подлежащих учету органами федерального подчинения в США, разработано около 15 000 «образцов описания», являющихся основой для описания миллиона различных типов объектов. В этой же системе отработана многоуровневая система нормативных документов, описывающая всю систему используемых информационных документов, и создан гибкий аппарат преобразования и модификации информационных моделей.
Для технических объектов можно выделить следующую укрупненную структуру основных аспектов описания:
1. Идентификационная часть.
2. Задачи или функции, выполняемые объектом.
3. Прохождение по этапам «жизненного цикла» (разработка, испытание, эксплуатация).
4. Конструктивно технологические характеристики объекта, а также характеристики объектов, в которые он включен как составная часть.
5. Эксплуатационные характеристики.
6. Характеристики, отражающие место объекта в общей системе объектов.
7. Состав и динамика изменений составных частей объекта.
8. Среда, в которой используется объект.
9. Характеристики, определяющие свойства объекта.
10. Особые отличительные свойства объекта.
11. Связи значений характеристик с документами источниками и временными интервалами получения характеристик.
12. Оценки степени достоверности приводимых значений характеристик.
13. Связь с объектами аналогами и прототипами.
14. Организации и лица, участвующие в создании, испытаниях, производстве и эксплуатации объектов.
15. Документы — источники, из которых получены данные, включенные в информационную модель объекта.
Приведенные аспекты можно рассматривать в качестве первого приближения к типовой информационной модели.
Примечание:
1. Возможно выделение иных уровней описания объектов учета:
1.1. Идентифицирующий (позволяющий однозначно отождествить объект и/или его часть и делать выводы о появлении новых, не входящих ранее в перечень объектов).
1.2. Учетный (содержащий набор данных, позволяющий решать задачи системы по сопоставлению единичных, однородных и/или групп разнородных и/или противоборствующих групп объектов).
1.3. Конструктивно эксплуатационный (позволяющий обеспечить проектирование, разработку, испытания, эксплуатацию объекта).
1.4. Производственный (позволяющий наладить производство объекта).
1.5. Экономический (позволяющий определить ресурсы, необходимые для создания, производства, эксплуатации объекта).
2. Элементарные объекты, объединенные одной и той же системой, не во всех аспектах своего бытия являются элементами данной системы, ибо наряду со свойствами, на которые базируются их структурные связи в данной системе, им присущи и свойства, в которых выражаются их автономность по отношению к данной системе.
Один и тот же элементарный объект может быть элементом не одной, а бесконечного числа систем, структурные связи в которых будут базироваться на различных его свойствах, и его вхождение в различные материальные системы будет связано с реализацией его различных свойств.
3. Ни один объект не может быть описан без хотя бы неявной опоры на существующие знания и без учета задач исследования, которые в свою очередь определяют надежную методологию описания по существу и по форме. Поэтому любой каталог, в особенности такой, который считается «толковым», является в той же мере теоретическим построением, как и любое историческое эссе.
4. Попытка описать сложный объект приводит к выводу, что схемы описания слишком недоработаны: часть элементов схемы они задают набором характеристик и их значениями, а часть просто перечнем наименований (дескриптивным описанием или перечнем кодов (наименований) конструктивных единиц).
5. В процессе построения формализованных моделей и в особенности согласования комплекса моделей проявляется несовершенство (отрывочность, фрагментарность) традиционных методов описания объектов. Т. к. выявляются блоки данных, которые А передает в Б, а Б никак их не использует, и более того считает, что на их основе не могут быть получены какие-то информационные решения.
6. Объект един, но к каждой подсистеме он поворачивается своей совокупностью характеристик.
7. Деталировка образца должна быть такой, чтобы его можно было рассматривать как один и тот же объект, независимо от более сложной системы, в которую он входит как составная часть.
Причем должны быть отражены следующие характеристики:
— в какую систему может входить;
— из чего состоит;
— как действует;
— против кого (чего).
8. С ростом степени обобщенности теоретического построения происходит потеря значительного количества конкретной информации, на которую оно в известной мере опирается, Растет абстрактность понятий и снижается степень доступности для однозначного понимания, а односторонность рассмотрения все равно не устраняется. Вместе с тем возрастает возможность частных, субъективных толкований и извращений отдельных положений теории или теории в целом. В связи с этим может возникнуть целый ряд таких весьма печальных недоразумений, как непризнание теории в целом, критика отдельных непонятных или неправильных положений и т.п.
Избежать подобных ситуаций помогает исторический подход к анализу возникающих ситуаций. Исторический подход важен не только для изучения того или иного сложного явления, но и для правильного понимания разрабатываемой с его помощью концепции. Он придает анализу определенную логическую направленность при интерпретации имеющейся информации. Это дает возможность повысить степень обобщения и схематизации материала, и уменьшает риск неправильного его понимания.
Каждый аспект описания задается своим набором характеристик.
Особенности объектографических информационных моделей:
— число аспектов описания в моделях в среднем около 20-ти;
— среднее число характеристик, входящих во все аспекты описания около 200; из них количество характеристик типа слов и словосочетаний естественного языка и тексты составляют 20 — 50 %; типа кодов, построенных по какому-либо формальному правилу 15 —25 %; количественные характеристики (числа) 18 — 55%;
— максимальное число характеристик на одну модель может достигать 1,0— 1,5 тыс.;
— частные информационные модели, используемые в подзадачах, имеют в среднем до 20 — 60 характеристик, из числа характеристик обобщенной модели или сформированных в результате агрегирования данных общей модели;
— суммарное число символов на одну запись может достигать 3 000—16 000, но это средний максимум, Максимум максиморум определить более чем трудно, особенно с развитием современных информационных технологий, В принципе этим максимумом является вся система конструкторское нологической документации по объекту в единстве с НИОКР по исследованиям и разработкам, связанным с созданием образца, его испытаниями и модернизацией, а также прогнозноаналитическими обзорами «жизненного цикла». Нечто подобное уже появляется в продаже на CDROM. Рассмотрение подобных объектов и описание подходов к их созданию выходит за рамки данной публикации.
Примером описания методических подходов к построению некоторых типов объектов могут быть следующие нормативные документы:
— ГОСТ 2.11684 «Карта технического уровня и качества продукции»;
— ОСТ 277243379 (с изменением № 1) «Система сбора, обработки, хранения и обеспечения специалистов информацией о качестве и техническом уровне лучших отечественных и зарубежных образцов (аналогов)»;
— ГОСТ 7.4684 «Справочное издание. Представление численных данных о свойствах веществ и материалов»;
— ГОСТ 7. 3381 «Представление экспериментальных численных данных о свойствах веществ и материалов в статьях периодических и продолжающихся изданий и непериодических сборников. Общие требования»;
— стандарты, определяющие функционирование Государственной службы стандартных и справочных данных (ГСССД).
Каждый показатель описывается по схеме:
— наименование показателя
— код показателя
— единица величины показателя
— значение показателя
Реквизит (результирующая подпись):
— руководитель предприятия изготовителя
— личная подпись
— расшифровка подписи ассоциации, информационной системы и службы.
В принципе любая система объектографической информации требует создания системы информационных моделей для обычных и электронных досье. С возможным комплексом картотек можно ознакомиться по различным отраслевым стандартам, которые были отработаны в процессе построения систем оценки качества и уровня продукции. Например, ОСТ277243379. И хотя самого министерства уже давно не существует, его взгляд на проблему заслуживает внимания, хотя бы потому, что это есть одна из многих попыток создать систему отслеживания состояния объектов и сопоставления качества и технического уровня сложнейшей отрасли народного хозяйства — легкой и пищевой промышленности и бытовых приборов.
Информационные модели текстов
«Объектом оригиналом» выступает информация, как категория мышления, материализованная в знаковых (символьных) последовательностях, отражающих письменность того или иного языка.
Опыт функционирования систем показывает, что любая текстовая база полиязычна и полиалфавитна.
Если в отечественных базах данных нет китайских иероглифов, арабских и африканских символов, то это лишь результат их отсутствия в имеющихся программных средствах и отсутствие требуемого числа специалистов соответствующей квалификации.
Построение текстовых баз данных, допускающих ввод и обработку сложных текстов, требует использования специализированных программных средств. Только в этом случае тексты могут быть представлены с учетом требований, определяемых стандартами на издательскую продукцию различного вида.
Лишь некоторые трудности, возникающие при их создании, можно представить в виде следующего перечня:
— Полиязычность и полиалфавитность.
— Объем текста значительно превосходит размеры того «окна, « через которое мы просматриваем (прочитываем) текст. И оперативно совместить это «окно» с требуемой частью текста — одна из сложнейших проблем работы с электронным текстом.
— Сложность структуры, как самого документа, так и отдельных его фрагментов: том (выпуск), часть, глава (раздел), параграф (подраздел), под параграф (подраздел более низкого уровня), абзацы и другие, особым образом выделенные, части текста, приложения, указатели (именные и предметные), иллюстрации, рисунки, математические формулы (системы математических зависимостей), химические обозначения и структуры, знаки специальные (математические, химические, почтовые, железнодорожные пароходные, картографические, метеорологические, астрономические, лунные, шашечные, шахматные, стрелки, скобки и т.д.), карты, графики, чертежи, ссылки на другие документы (литературу), перекрестные ссылки на различные части (фрагменты) документа, примечания, оглавление (содержание), списки использованной литературы (документов).
— Построение сложных индексов или знаков с необычной графикой.
— Произвольное сканирование документа и многое другое, что делает пользователь в процессе работы с обычным документом.
Многие, прочитавшие сей скромный перечь, взглянув на личную библиотеку справочников, игр и программных комплексов на CDROM, снисходительно «простят» автору его неосведомленность. Ио автор все же берет на себя смелость утверждать, что проблема создания, представление текста, даже средней структурной сложности, в электронной форме еще ждет «своего Кулибина». Еще более это относится к создателю средства работы с пользовательскими текстовыми файлами большого объема, сгенерированными, скомпилированными на основе разно профильных баз различного назначения и различными производителями. Пользователь не только «читатель» имеющегося, но и создатель новых текстов с использованием накопленных информационных ресурсов. И передача созданного им нового ресурса в каналы распространения информации не должна быть сизифовым трудом по разрешению проблемы многократной конвертации. Требуется разработать такую «информационную модель текста в электронной форме», которая будет адаптивна к любой программнотехнической среде информационных технологий (вчерашней, сегодняшней и будущей).
О том, что пользователь существенно не свободен в выборе программных средств при работе с текстами, свидетельствуют «ограничительные» указания различных изданий:
— к публикации принимают материалы только в виде текстовых файлов формата Microsoft for Windows 2.0, 6.0, Windows Write или ASCII DOS text, предпочтительно на дискетах 3,5", сопровождаемой распечаткой на лазерном принтере на белой бумаге;
— сопровождающие текст графические материалы (иллюстрации, схемы и т.д.) либо должны быть графическими элементами Microsoft for Windows, либо представлены в виде отдельных файлов любых распространенных графических форматов или в формате Corel Draw 6.0, 8.0.
В этом уведомлении отражены все проблемы представления текстовой информации в электронной форме: Разве Microsoft for Windows продукт обязательный для использования в Российской Федерации?
Оказывается, данный продукт «не проглатывает» все требования по представлению графической информации.
По мнению редакции, он относится к «распространенным» графическим файлам. И как быть, если электронная «Большая энциклопедия географических карт» использует иной программный комплекс, а требуется в публикацию включить картографический материал, заимствованный из этого справочника?
Как быть, если используются фрагменты (рисунки, фотоматериалы) из электронной версии энциклопедии Кирилла и Мефодия, использующей MS Windows 95?
Неужели указанные программные средства «вечны» и являются эталоном для создания национальных электронных ресурсов? Если это так, то где правовая база этого решения. Почему редакции возлагают на пользователя тяжкую ношу приобретения лицензионных продуктов, входящих в комплект их программного комплекса? Не являются ли подобные требования скрытой формой принуждения к использованию того или иного программного продукта? Ведь известны иные продукты, адаптивные ко всей гамме информации, включаемой в тексты.
Разработка информационных моделей адаптивных к представлению информационных ресурсов, имеющих сложную структуру, состоящую из различных видов информации — сложный и трудоемкий процесс.
И вопросы судьбы электронных информационных ресурсов на тех или иных технических и программных средствах не относятся к «пустячкам». Производитель технических средств и программных продуктов, а тем более «зарубежный», не несет никаких обязательств перед производителем баз данных из Российской Федерации, и тем более перед пользователем РФ, даже в том случае, если это «самые компетентные органы, и организационные структуры» Российской Федерации. Поэтому не мешает поразмыслить о проблеме, которую отлично сформулировал Ходжа Насретдин, когда обещал выучить осла грамоте. Он понимал, что отвечать ему лично не придется, ибо к тому времени, когда наступит дата предъявления столь ценного информационного ресурса, каким является «читающий и говорящий осел», заказчику: либо ишак умрет, либо эмир умрет, либо ходжа умрет».
Если учесть, что срок «жизненного цикла» осла, почти, равен сроку «жизненного цикла» производителей электронных ресурсов, программных и технических средств, то Ходжу можно причислить к гениям прогностики и великим предсказателям возможной судьбы многих информационных ресурсов и технологий.
Но вопрос: «Что делать?» и «Чем это завершится?» — остается открытым. Тем более что основной объем электронных информационных ресурсов уже не имеет иной формы представления.
Нет прямого ответа на «проблему Ходжи» и в «Доктрине информационной безопасности Российской Федерации».
Стандартизация информационных моделей объектов
Была приведена обобщенная модель документа, представленная, как функция значительного числа документ образующих признаков и определены группы документов, разработка которых сможет обеспечить информационную совместимость, стандартизацию и унификацию информационных ресурсов.
В данном разделе рассматриваются лишь отдельные аспекты унификации и стандартизации информационных моделей объектов. Те, на которые, по нашему мнению, не обращают должного внимания и которые, неизвестно почему, считают решенными и/или легко разрешимыми, не вызывающими особых затруднений при создании электронных информационных ресурсов. Более того, при описании информационных моделей почти никогда не выделяются и ограничения инструментальных средств и информационных технологий.
Самое странное, что это относится к объектам, для которых в соответствии с ГОСТ 1.0 должны устанавливаться государственные стандарты. Ибо регламентация (стандартизация и унификация) в информационной сфере относится к самой массовой продукции, используемой обществом. К продукции, объем которой изменяется миллионами террабайт, и на обработку которой с заданным качеством и в требуемые временные интервалы у общества не хватает инструментальных средств и кадровых ресурсов.
Именно в этой сфере, как показывает приведенная выше выдержка на ограничения при предоставлении информации, почему-то господствует (и что более опасно, монопольно) либо скрытая унификация на базе «черных ящиков» зарубежных русифицированных программных продуктов, либо «базарная» стандартизация по принципу: «что хочу, то и ворочу».
Причем этот принцип «базарности» выходит за рамки любых цивилизационных норм, когда «элиты» кардинальным образом меняют основной фундамент письменности — алфавиты национальных языков, что лишает эти народы временных связей между накопленными документальными ресурсами, делает всех носителей языка одномоментно полуграмотными.
Для любого объекта учета в зависимости от задачи (класса задач) может быть разработано несколько информационных моделей. При этом каждая из них будет иметь свою структуру и свой набор характеристик, а на характеристики, имеющие одинаковое содержание, наложены различные системы ограничений.
Например:
— стандартизация по объему понятия, определяющего характеристику или ее значение;
— по разрешенным формам представления; размерностям и системам единиц, принятым для задания значений характеристик;
— методам кодирования;
— методам вычисления;
— точности представления, диапазону представления числовых значений;
— по терминологическим средствам (словарям, классификаторам, рубрикаторам, системам классификации). Отсутствие единого толкования (определения) характеристик основная причина информационного дезинформированы, возникающего при использовании баз данных.
Основу стандартизации и унификации информационных моделей объектов учета должна составлять унификация и стандартизация характеристик, используемых в моделях. Стандартизация характеристик осуществляется в следующей последовательности:
— стандартизация информационного содержания характеристики (строгое определение объема понятия, задающего семантический смысл элемента данных; ограничение множества значений и языковых средств, которые задают характеристику; определение функциональных преобразований, разрешенных над значениями характеристик; взаимосвязи с другими характеристиками; методы вычисления и получения значений характеристик; точностные ограничения; допустимые размерности);
— стандартизация кодового представления: разрешенный алфавит представления данных); структуры кодов; точность представления числовых данных; ограничения на длины элементов данных, задающих характеристику; запрещенные кодовые значения;
— стандартизация и унификация нормативных терминологических средств, используемых для представления значений характеристик и правил их использования при описании характеристик;
— стандартизация процедур обработки значений характеристик.
При организации совместной обработки баз данных, использующих взаимосвязанные информационные модели, одноименные характеристики должны иметь единое представление, либо должна быть определена процедура взаимно-однозначного преобразования представления информации (таблицы транслитерации, переход к измененным системам единиц измерений, пересчет индексных значений, изменение систем классификации и кодирования, объединения и разбиения характеристик).
Разрабатывая информационные модели объектов необходимо всегда иметь в виду, что эта модель затем должна будет представлена в некотором формате, обеспечивающем ее обработку инструментальными средствами системы. В принципе каждая система обработки имеет свой формат. При этом особое место в системе форматов занимают коммуникативные форматы, обеспечивающие обмен данными между разнородными системами.
В результате реализации этого процесса, одновременно с формированием формата будет получен весь перечень материалов, документирующих формат:
1. Перечень объектов, информационных моделей, которые должны быть включены в документальные информационные ресурсы.
2. Структурные схемы объектов и их информационных моделей.
3. Правила преобразования описаний информационных моделей в форматы системы.
4. Правила возможных (допустимых) изменений информационных моделей объектов и форматов.
5. Таблицы, отражающие взаимосвязи между объектами и их информационными моделями.
6. Алфавиты представления данных.
7. Правила кодирования данных символами алфавита системы.
8. Перечень форматов системы для всех информационных моделей.
9. Структуры форматов для представления всех информационных моделей объектов учета на всех иерархических уровнях системы.
10. Перечень допустимых операций над всеми элементах форматов представления данных, входящие в информационные модели системы.
11. Правила интеграции и дифференциации данных в процессе обработки.
12. Пределы допустимых искажений для каждого элемента данных. Условия формальной правильности данных, при которой они допускаются для обработки в системе.
13. Ограничения, на включаемые в форматы (информационные модели) объем данных, структуры, алфавиты, операции обработки.
По аналогичной схеме может выявляться уровень совместимости форматов и информационных моделей взаимодействующих систем.
Алфавит представления данных
Рассмотрение начнем с основного структурного элемента любого текста и любой информационной модели — алфавита (набора графических элементов), который используется для представления информации.
Используемый алфавит накладывает самые существенные ограничения на представление документальных ресурсов.
Алфавиты считаются различными, если они отличаются набором разрешенных символов (хотя бы единственного), и/или методом кодирования символов (хотя бы одного), и/или принятыми в системе отношениями лексикографического упорядочения символов (хотя бы для одного символа), и/или принятой системой транслитерации символов, отсутствующих в алфавите технических средств.
Как правило, алфавит задается в описании технических средств или конкретного программного средства, но часто с большой степенью неопределенности.
При этом предпочитают не акцентировать внимание на последствиях подобных преобразований таблиц кодировок:
— резкое снижение возможностей по представлению латинских символов с диакритическими и другими знаками;
— отключение греческой части алфавита, и/или графических символов;
— изменение в лексикографическом порядке следования символов, которые приводят к изменению порядка упорядочения информации;
— возможность появления кодовой синонимии, которая ведет к дезинформации из-за неправильного прочтения «русифицированного текста» при определенных процессах обработки и т.п.
Поэтому пользователю необходимо, прежде чем он приступит к разработке информационной модели объекта, определить действительный объем требуемого алфавита представления данных. Только в этом случае он может при переходе к использованию конкретных технических и программных средств выявить все «неявные», скрытые «по умолчанию» ограничения на алфавит системы и сформулировать их в явной форме.
Алфавит, используемый для представления данных, должен обеспечить принятый в системе уровень однозначности кодирования данных (обрабатываемых и управляющих обработкой).
При этом необходимо учитывать следующее:
— информация, включаемая в информационную модель объекта, как правило, многоязычна. А каждый язык — это свой алфавит со своим набором символов и своими правилами лексикографического упорядочения;
— требуемый объем алфавита (определяемый обрабатываемой информацией) превышает реальный объем алфавита, используемый в большинстве широкодоступных технических и программных средствах;
— невозможно избежать искажений данных (появления кодовой дезинформации), если не наложены жесткие ограничения на алфавит и не отработаны правила (нормативные документы), определяющие правила представления символов;
— программные средства, как правило, обеспечивают вводи обработку линейных последовательностей символов, но реальные элементы данных могут потребовать для своего кодирования нелинейных последовательностей (символов с верхними и нижними индексами, многоуровневыми индексами, структурные формулы и т.п.). Для работы с такими данными должны быть разработаны специальные методы преобразования нелинейных текстов и индексов в линейные;
— для всех символов и транс итерационных кодов должны быть разработаны правила лексикографического упорядочения данных. Иначе будет существенно затруднена работа с выходными документами.
Некоторое представление о требуемом объеме алфавита можно проиллюстрировать следующими примерами:
— суммарный алфавит, допускающий набор текстов на 90 основных языках, имеющий в своей основе только латинский и русский алфавиты, содержит около 400 символов (прописные и строчные символы считаются различными);
— только строчных букв особого начертания и букв с диакритическими знаками для русского алфавита не менее 93, а для алфавита на латинской основе — 176;
— в греческом алфавите 49 символов и только строчных букв с акцентами — 105;
— существует не менее 50 математических знаков;
— по прогнозу ВИНИТИ объем алфавита для подготовки информационных изданий (без учета изменений кегля и линии шрифта) оценивается в 1 500 символов.
Проблему лексикографического упорядочения информации можно проиллюстрировать следующими примерами:
1. Символы одного и того же начертания имеют различный порядок следования в алфавитах разных для начала, обратим внимание на следующий факт: в процедуре (сервис, язык, выбрать язык) программного продукта Microsoft Word указано две разновидности португальского языка, пять — немецкого, девять — английского, двенадцать — испанского (плюс два вида сортировки: современная и традиционная). Но в традиционных нормативных документах нигде не указано, как это влияет на траслитерацию и траскрибирование текстов, представленных на этих подмножествах языков. Даже в справочнике «Иностранные имена и названия в русском тексте» указанный аспект не рассматривается.
Но и без учета указанных особенностей языков в справочнике Р.С. Гиляревского и Б.А. Старостина приведены более чем интересные факты сложностей работы с иностранными именами.
Приведем выдержки из статьи Ханса X. Велиш: «Практика латинизации библиографических описаний материалов на нелатинских алфавитах, которая почти повсеместно применяется в каталогах и библиографиях библиотек западных стран, в большинстве случаев порождает путаницу и создает трудности для библиотекарей и читателей.
Когда каталоги будут включать описания на нескольких нелатинских алфавитах, необходимо будет принять решение о порядке расположения записей на разных алфавитах.
«Правила систематизации Американской библиотечной ассоциации» ...ориентированы на полную латинизацию всех заголовков.
Новый свод правил Британской библиотеки впервые затрагивает проблему расположения записей на нелатинских алфавитах, ...но такой порядок неприемлем при систематизации полных описаний на нелатинских алфавитах.
...В практике индийских библиотек предпочтение отдается систематизации описаний по языку и системе письма, однако никаких правил относительно внутреннего расположения описаний в таких самостоятельных последовательностях отыскать не удалось.
Китайское письмо. Многие китайские иероглифы имеют то же самое или сходное значение в китайском, японском и корейском языках, и потому понятны читателям, знающим какой-нибудь из этих языков. Однако в японских текстах используется также слоговая азбука «кана», а в корейских текстах, записанных китайскими иероглифами, используются знаки местного алфавита «хангыль». Описания на этих трех языках следует распределять по отдельным последовательностям. Даже если описания в китайской системе письма латинизируются, а затем включаются в единую последовательность для латинского алфавита, смешение описаний на этих трех языках нецелесообразно. Имена авторов и заглавия работ всегда должны быть представлены в записи китайскими иероглифами, т.к. латинизированные варианты ненадежны».
Учитывая вышеизложенное, предлагается следующим образом сформулировать процедуру задания алфавита системы.
Задать алфавит системы — это значит определить следующий набор параметров:
— сводный алфавит символов, необходимых для представления всех вводимых в систему данных;
— алфавиты технических средств ввода, вывода, обработки и передачи данных;
— отношения порядка для всех символов каждого из используемых алфавитов;
— соответствия между используемыми алфавитами (функции транслитерации).
Учитывая, что реальные программные средства, доступные основной массе пользователей не могут обеспечить требуемое разнообразие алфавитов, основным средством представления этих символов является транслитерация, которая, как правило, определяется национальными стандартами, например:
— ГОСТ 7.2880 «Представление расширенного кириллического алфавита для обмена информацией на магнитных лентах»;
— ГОСТ 7.2980 «Представление расширенного греческого алфавита для обмена информацией на магнитных лентах»;
— РД 5039583 «Представление специальных математических знаков для обмена информацией на магнитных лентах»;
— МС ISO/R233— 1961 «Международная система транслитерации арабских букв».
В принципе необходимо знать и учитывать, что фактически во всех странах имеются свои национальные стандарты, определяющие принципы транслитерации алфавитов, не совпадающих с национальными алфавитами. Свои правила транслитерации существуют и в крупных информационных системах.
Пользователь, проектирующий «персональные» базы данных, обычно не считает проблему алфавита существенной и не обращает на нее внимание, но всегда наступает момент, когда проблема несовпадения и неполноты алфавитов и методов их кодирования становится серьезным источником накопления данных, ведущих к дезинформированию и принятию ошибочных решений. Средством, предотвращающим эти нежелательные последствия, является строгое отслеживание всех неявно заданных ограничений на алфавиты.
Множество элементов данных, задающих информационные модели
Множество элементов данных, включаемых в информационную модель объекта, должны соответствовать целям и задачам, для решения которых используется модель.
При этом всегда надо учитывать, что единичные объекты, для которых составляется информационная модель, могут входить в другие объекты, для которых используются иные схемы описания.
Кроме этого, для различных уровней управления может возникнуть необходимость разработки обобщенных характеристик, описывающих исходный объект и иные методы их объединения.
«Объектом оригиналом», для которого составляется информационная модель, может быть единичный объект, совокупность (комплекс) взаимосвязанных объектов, отдельный элемент системы.
Разделение любого сложного объекта (а тем более объекта, не имеющего четких границ) на части, для которых составляется информационная модель, должно проводиться по единой схеме. Ибо только в этом случае возможна взаимопроверка данных на основе сформированного множества информационных моделей и разработка единых правил агрегирования и дифференцирования информации при принятии решений.
Сравнение информационных моделей различных технических моделей в любых областях техники (автомобилестроение, судостроение, самолетостроение, промышленность, медицинское оборудование, топогедезические средства и объекты, оборудование, материалы, детали и узлы машин и т.д.) позволило выявить:
— структуры элементов данных, их описывающих;
— методы кодирования и формы представления;
— уровень унификации и совместимости информационных моделей;
— некоторые особенности их построения;
— аспекты описания, единые для целых классов объектов;
— возможное число связей между различными объектами и элементами данных внутри одной модели;
— степень унификации описания и представления одних и тех же характеристик для всего множества объектов.
Сравнение различных классов информационных моделей систем различной сложности показал, что возможно построение «Типовых (унифицированных, стандартизированных) схем информационных моделей», пригодных для описания многих объектов.
Информация, включаемая в информационные модели, имеет различный уровень доступа. Поэтому в модели должны включаться характеристики, регламентирующие разграничение доступа и различные формы ее представления на выходе из системы.
Укрупненная структура основных аспектов описания, включаемых в информационные модели объектов, приведена в разделе.
В анализируемых информационных моделях описания число иерархических уровней составляло 3—11.
Велико число связей между отдельными характеристиками и группами характеристик и аспектами описания внутри объекта и между объектами. Среднее число связей от нескольких десятков до нескольких сотен, а максимальное число связей может доходить до нескольких тысяч (например, поставщик — производители пользователи).
Описание объектов и ведение массивов описаний объектов существенно осложняется тем, что изменение описания одного объекта требует преобразования значительного числа других взаимосвязанных объектов. Но кроме этого требуется сохранение прежнего элемента описания с устаревшим значением характеристики. Т.е. В ряде случаев требуется сохранение нескольких «поколений» описания.
Для некоторых объектов возможна ситуация, когда составные части объекта находятся в разных стадиях «жизненного цикла» и их замена приводит к динамическому изменению обобщенных характеристик объекта на протяжении всего «жизненного цикла основного объекта. Причем эти изменения происходят непрерывно и для каждого единичного образца, описываемого исходной информационной моделью разные моменты.
Поэтому «Типовая схема» должна иметь возможности для учета подобной динамики описания без трансформации модели и нарушения целостности накопленных информационных массивов. Особое внимание должно быть обращено на те элементы информационной модели, которые определяют связь элемента данных с источниками, на основании которых получена информация, включенная в них. Но если связи с данными, полученными из документов, отраженными в библиографических базах данных, имеют достаточно отработанную нормативную базу, то связи с новыми типами электронных документальных ресурсов пока еще отрабатываются. То же самое относится и к остальным классам информационных ресурсов, выделенных в разделе.
Из всех составляющих информационной модели, остановимся только на самой элементарной структурной единице информационной модели — элементе данных.
Элемент данных — минимальный (в данном приложении, модели, структуре и т.п.) поименованный компонент данных. Элемент данных не подразделяется на более мелкие единицы в процессе всех преобразований данных в системе и является минимальной структурной единицей в процессе создания баз данных. Как правило, элемент данных задается линейной последовательностью символов, принятой в системе алфавита представления данных. Он выступает в качестве поля или подполя данных.
Каждый элемент данных отображает информацию, имеющую определенное содержание:
— значение характеристики;
— код, построенный по тем или иным правилам;
— рисунок;
— отдельный термин, словосочетание и/или группу терминов, ключевое слово и/или их перечень, фрагмент связного текста или текст того или иного объема;
В принципе можно выделить следующие типы полей:
1. По способу представления информации:
— бинарные (двоичные матрицы);
— алфавитные;
— алфавитно-цифровые;
— текстовые;
— для представления графической информации;
— для представления видео, звуковой, аналоговой информации.
2. По длине:
— постоянной (фиксированной) длины;
— переменной длины;
— длины с ограничениями по минимуму и максимуму.
3. По статусу:
— обязательные;
— факультативные;
— повторяющиеся;
— неповторяющиеся.
4. По структуре:
— фиксированное число кодовых групп и фиксированное число символов в группе;
— фиксированное число кодовых групп, но каждая группа кодов состоит из переменного числа символов;
— переменное число кодовых групп, но все коды фиксированной длины;
— переменное число кодовых групп с переменным числом символов.
5. По назначению:
— элементы, задающие информацию об объекте учета;
— элементы, задающие метаинформацию о модели (структуре, методах кодирования, обработки, уровнях доступа и т. д,).
При формировании информационных моделей каждый элемент данных (характеристика объекта) должен быть описан по единой, принятой в системе форме и включен в общий регистр элементов данных системы.
Одна из возможных форм описания элементов данных, используемая при описании библиографических данных, приведена в разделе
Сводный регистр элементов данных, используемых при описании всех информационных моделей объектов, является одним из важнейших лингвистических средств системы.
Эффективная унификация и стандартизация информационных моделей системы невозможна без создания следующих сводных регистров для всех моделей системы:
— регистр (перечень) организаций участников сети,
— регистр (перечень) объектов учета сети,
— регистр информационных моделей объектов учета и совокупность коммуникативных форматов для их представления,
— сводного регистра (перечня) элементов данных (характеристик, полей, подполей, элементов), входящих в информационные модели объектов учета.
Регистр (перечень) организаций участников сети выполняет следующие функции:
— нормализация наименовании организаций для их однозначной идентификации;
— учет пользователей;
— отслеживание переименований организаций;
— средство формально логического контроля правильности заполнения в информационных моделях тех элементов данных, которые используются для представления наименований организаций.
Типовая структура перечня включает следующие характеристики:
1. Уникальный идентификационный код.
2. Полное наименование организации.
3. Сокращенное наименование организации.
4. Другие наименования организации (повторяющийся элемент):
4.1. дата, с которой используется наименование;
4.2. дата, до которой использовалось наименование;
4.3. полное наименование;
4.4. сокращенное наименование.
Дополнительные элементы описания:
— наименования на других языках полные и краткие (переводные и транслитерированные), каждое наименование строго координируется с использующим на данный момент времени наименованием организации.
Информация для перечня должна автоматически извлекаться из информационной модели организационной единицы.
С другой стороны, в системе должна быть нормирована процедура оповещения об изменении наименований организаций.
Перечень объектов учета сети — является регистром всех объектов учета, включаемых в сетевые базы данных и знаний.
Перечень выполняет следующие функции:
— ведет учет всех объектов учета и НТД, обеспечивающих использование объектов учета в сети;
— отслеживает изменения, вносимые в объекты учета и НТД по ним.
Типовая структура регистра (перечня):
1. Наименование объекта учета.
2. Классификационный код объекта.
3. Базы данных, в которых используется информационная модель объекта учета.
4. Связанные с ним объекты учета.
5. Нормативные документы, определяющие обработку информации об объекте.
6. Перечень изменений к НТД по объекту учета.
7. Коммуникативные форматы, используемые для обмена информации, по объекту учета.
Регистр информационных моделей учета и совокупности коммуникативных форматов для их представления.
Одновременно в перечень объектов учета включаются объекты, построение которых реализуется на основе данных, входящих в исходный перечень объектов.
Например:
— используемые (формируемые) в сети;
— вспомогательные справочники системы (доступа, учета использования информационных ресурсов, тематические профили специализированных баз данных, структуры запросов и пр.);
— стандартные выходные формы выдачи данных и т.п.
Типовая структура описания информационной модели объекта учета:
1. Наименование объекта учета.
2. Классификационный код объекта.
3. Базы данных, в которых используется информационная модель объекта учета.
4. Связанные с ней объекты учета.
5. Структура информационной модели.
6. Перечень характеристик, включаемых в информационную модель.
7. Коммуникативные форматы, используемые для обмена информации, по объекту учета.
8. Перечень НТД и изменений к НТД по объекту учета.
9. Перечень лиц и организаций, с которыми обязательно проводятся согласования по изменению информационной модели объекта учета.
10. Головная организация, обеспечивающая эталонное ведение объекта информационной модели объекта учета.
Сводный регистр (перечень) характеристик строится на основании информационных моделей объектов учета системы.
Назначение:
— сводный учет характеристик, используемых в информационных моделях объектов учета;
— исходная база готовых проектных решений при разработке новых информационных моделей объектов;
— обеспечение информационной совместимости (унификации, стандартизации) представления данных в сети.
Учитывая особенности элементов данных (характеристик) объектов учета по сравнению с элементами библиографических моделей, приведем расширенную схему описания элементов данных, включаемых в регистр:
Идентификационный код элемента данных. Желательно, чтобы код имел контрольный символ. При порядковом кодировании целесообразно (особенно на начальном этапе) вести кодирование со значительным шагом (до 100). Это позволит в дальнейшем расширять перечень, включая новые элементы данных при сохранении лексикографического порядка следования наименований характеристик.
Наименование элемента данных. В ряде случаев целесообразно включать дополнительно перевод наименования на иностранные языки. Для этого данный элемент описания разбивается на подполя, каждое из которых предназначается для конкретного языка и может быть повторяющимся.
Определение элемента данных.
Способ представления данных.
Алфавит представления данных.
Ограничения на служебные символы, используемые при записи элемента данных.
Размерность количественных величин и правила пересчета (перевода единиц измерения). При этом как минимум должны быть указаны: величина, наименование единицы измерения, буквенное обозначение(ния), сокращенное обозначение русскими и латинскими буквами, размер единицы, переводной множитель или дана ссылка на используемую таблицу перевода. Таблицы перевода должны быть составной частью специализированной базы данных, связанной с регистром. Дополнительные параметры: определение единицы измерения, требуемая точность представления, ссылки на нормативные документы, на основании которых определяется единица измерения и правила пересчета.
Статус.
Гриф.
Уровень доступа.
Разрешенные операции над элементом данных.
Представление (способ записи, методы кодирования). Например, может быть указано, что данный элемент представлен к той или иной системе криптографической защиты. В этом случае перечисляются все ограничения и правила доступа к элементу данных или даются ссылки на соответствующие нормативные документы и процедуры.
Проектируя базы данных, необходимо знать минимальные, средние, максимальные длины элементов данных в символах.
К сожалению, обобщенных публикаций по этим вопросам нет. В лучшем случае, пользователь имеет данные, полученные из доступных ему технических заданий на разработку АИС, либо проводит анализ ограниченного числа объектов.
Ниже приводятся обобщенные данные, которые были получены, как правило, на представительных выборках объемом в десятки тысяч словоформ.
На их основании могут быть приняты проектные решения при определении ограничений на длины следующих групп элементов данных:
1. Элементы типа слов и словосочетаний естественного языка.
2. Элементы типа кодов, построенных по какому-либо формальному правилу.
3. Количественные характеристики (числа).
4. Тексты.
К первой группе относятся географические наименования, фамилии, имена, словесные наименования объектов учета, наименования документов, термины, ключевые слова, наименования предприятий, фирм, химических соединений, наименования характеристик объектов и значения нечисловых показателей и т.п. Для этой группы элементов данных характерны структурные особенности и статистические характеристики, свойственные конкретному языку. Как правило, они состоят из 2 — 5 слов, максимально термин может состоять из 10—15 слов, однословные термины составляют около 10 %.
Элементы данных второй группы строятся по некоторым формальным правилам из ограниченного количества символов алфавита. При этом стремятся получить коды минимальной длины, обеспечивающие однозначное кодирование всех элементов некоторого множества объектов, либо свойств, задающих объект. К ним относятся номера отчетов и патентов, счетов, шифры образцов техники, индексы схем классификации промышленной продукции, стандартные книжные 304 номера и индексы периодических изданий, коды картографических листов, аббревиатуры, коды химических соединений и т.п.
Они могут быть использованы при выборе ограничений на длины элементов данных при построении информационных моделей объектов. Что обеспечивает надежный ввод 80 — 90 % данных той или иной семантической группы. Но возможно появление значений длин реквизитов, превышающих указанные в 2 — 2,5 раза.
Возможны уникальные случаи, когда отклонения могут быть существенно больше, например, в литературе сообщалось о существовании названия химического соединения, составляющего одно слово из 1 913 символов.
При выходе длин реквизитов за принятые ограничения необходимо использовать методы сокращенной записи значений реквизитов. Для этого необходимо разрабатывать нормативные документы, определяющие правила сокращенной записи, либо использовать перечни нормированной лексики.
Количественные характеристики могут достигать длины до 20 символов.
Элементы данных типа текст — являются фрагментами текстов. Обычно используются тексты длиной от 200 до 3 000 символов. В группе информационных моделей, описанной выше, были выявлены элементы типа текст с максимальной длиной 10 000 символов.
Специализированные программные средства предоставляют возможность использовать фрагменты текстов и большей протяженности.
Содержательная информация, включаемая в тот или иной элемент данных: ее объем, и форма представления определяется, как было показано выше, целями и задачами, для которых используется та или иная информационная модель объекта.
Только в рамках задачи можно определить конкретные рекомендации по содержанию включаемой в модель информации.
Но в любой модели есть некоторые информационные фрагменты общие для всех моделей или, по крайней мере, для информационных моделей в конкретных проблемных областях.
Попытаемся, в первом приближении определить этот набор данных. При этом авторы хорошо понимают, что выбор носит субъективный характер и опирается на их личный опыт и разработанные в различных публикациях предложения рекомендательного характера.
Уникальные идентификационные коды. Уникальный идентификационный код объекта учета — важнейшее лингвистическое средство описания объекта.
Оно обеспечивает однозначную идентификацию экземпляра объекта учета и позволяет реализовывать эффективный поиск в базах данных известных пользователю объектов, обеспечивает эффективный дубль контроль вводимых в систему документов, позволяет реализовывать учетно-статистические операции в системе, процедуры корректировки, исключения и удаления описаний объектов из баз данных и прочие операции.
В отличии от других лингвистических средств идентификационные коды не могут быть заданы перечислением. Они задаются процедурно таким образом, что каждый «поставщик» информации получает возможность вести присвоение идентификационных кодов при абсолютной уверенности в том, что этот код не будет использован другим поставщиком.
Важной особенностью этих кодов является их высокая защищенность от возможных ошибок в написании.
Уникальные идентификационные коды используют почти все крупные системы. При этом, реализуя ввод документов из других систем, система восприемник в описании сохраняет и идентификационные коды, присвоенные в других системах. Это позволяет строить сопоставительные перечни, на основании которых может проводиться не только контроль полноты комплектования собственных информационных ресурсов, но и степень проникновения в систему информационных ресурсов других систем.
Методика должна определить структуру кода и правила их использования при децентрализованном вводе ресурсов в базы данных.
Структура кода может включать различные группы кодовых комбинаций, что позволяет на основе кода решать различные по содержанию и объему задачи.
Например, код может позволять идентифицировать базу, вид документов, год поступления, поставщика, проблемную область и т.д. Унифицированными на международном уровне являются ISBN и ISSN (международный стандартный книжный номер и международный стандартный номер сериального издания).
Обычно в структуре уникального идентификационного кода выделяют несколько числовых (или алфавитно-цифровых) последовательностей, например:
— идентификатор группы (обозначает систему, под: систему);
— идентификатор подгруппы (обозначает структурную часть группы, поставщика, источник информации);
— порядковый номер в подгруппе;
— контрольный код (строится по определенным алгоритмическим процедурам).
Идентификатор группы присваивается «поставщику» централизованно управляющим органом системы.
Идентификатор подгруппы задается «поставщиком» в тех случаях, когда он имеет структурные подразделения, ведущие независимый ввод документов в систему.
Порядковый номер присваивается подразделением, ведущим ввод документов в систему.
Контрольный код присваивается алгоритмически, по результатам обработки первых трех кодовых комбинаций.
Идентификационные данные. Это информация, позволяющая с той или иной степенью однозначности идентифицировать сам «объект оригинал» и используемую информационную модель; составные части «объекта оригинала», к которым информация относится; источники информации, на основании получена информация; временную привязку информации, включенной в описание объекта; составителя (составителей) информационного описания; нормативные документы; в соответствии производится описание и форма представления информации.
Форма представления идентификационных данных должна быть предельно унифицирована и стандартизирована. Точность идентификации различна, но она должна обеспечить выход на другой объект системы, который отражен (хотя бы с минимальной определенностью) и вполне однозначно идентифицирован в ее информационных ресурсах. Примером, таких идентификационных кодов могут быть общеизвестные ISBN, ISSN. НТД по их использованию позволяют идентифицировать цитируемую информацию с точностью до страницы.
Такой подход предполагает, что система должна содержать в своих ресурсах описания «оригинал объекты» (условно присвоим им наименование — «идентифицированная неопределенность») со своей информационной моделью, описывающее это «нечто».
Объект «идентифицированная неопределенность», по мере накопления информации, может быть идентифицирован с реальным «объектом оригиналом», и тогда информация о нем войдет в описание конкретного объекта и будет преобразована в рамках соответствующей информационной модели. Создание объектов типа «идентифицированная неопределенность» помогает включать в базовое описание объекта неопределенную информацию, не теряя ее. Объекты типа «идентифицированная неопределенность» включаются в самостоятельную базу данных, где ведется аналитическая работа по формированию информации более высокого уровня надежности. А, учитывая наличие жестко идентифицированных связей (ссылок), уточненная информация будет возвращена к месту ее возникновения и использования.
Примечания. К этой группе элементов данных отнесем любую информацию, которая позволяет уточнить, дать дополнительные разъяснения к информации, включенной в любой элемент данных модельного описания, любой аспект описания объекта и описание объекта в целом.
В слабо структурированных информационных моделях, структурированное описание которых затруднено в силу различных причин: неопределенность границ объекта или его слабая изученность, затруднения вызванные с получением информации (фрагментарность информации, незначительный ее объем, большой разброс по смысловому содержанию и т.п.). «Примечание» может стать самостоятельным элементом данных без имени и наименования, но с идентификационным кодом, позволяющим однозначно выделить конкретный информационный фрагмент информации.
Но это будет, как правило, структурированный элемент данных, в который включено дополнительное подполе данных, позволяющее каким-то образом группировать «Примечания». При этом будут сформированы смысловые подмножества в рамках модельного описания объекта.
Форма представления информации в примечании, как правило, текстовая. Объем примечания к элементу описания может в среднем достигать 500 символов. Примечания к аспекту описания и объекту в целом могут быть большего объема, до 3000 — 5000 символов.
Примечания должны обладать следующими свойствами:
— иметь строго однозначную идентификацию и привязку к элементу данных и/или аспекту описания, и/или объекту в целом;
— примечание — повторяющийся элемент данных;
— в рамках всей совокупности описаний объектов учета, могут быть примечания, относящиеся к некоторому подмножеству объектов (строго фиксированных). Такие Примечания целесообразно выделять в самостоятельную базу объектов учета «Примечание» со своей информационной моделью, связь и доступ к конкретному примечанию осуществляется элементом данных типа ссылка.
База объектов «примечания» может стать многосвязным информационным ресурсом, в котором сосредотачивается вся графическая и видеоинформация об «объекте оригинале».
Стандартизованные наборы данных. К этой группе информации отнесем наборы элементов данных, имеющих массовое применение в различных проблемных областях, включаемые в самые различные информационные модели.
К таким элементам данным относятся, например: — Цифровое обеспечение дат. Хотя реально в настоящее время используется около 60 различных способов их представления. И это происходит в условиях существования государственного и международного стандарта.
Запоздалое замечание:
Строгое выполнение любого из этих стандартов фирмами, производящими технические и программные средства, позволило бы исключить вселенскую панику, связанную с «проблемой 2000 г.», и связанных с ней абсолютно непроизводительных расходов.
— Элементы данных, связанные с именованием лиц, организационных единиц, объектов техники, а также объектов живой и неживой природы и такой важной группы имен как номенклатура географических наименований на всех языках.
— Размерные величины, используемые для одних и тех же характеристик, лежащих в абсолютно совпадающих интервалах измерений. К этому следует добавить использование несовместимых систем измерений и одноименных наименований без уточняющих признаков. Например: ярд — Великобритания, США; миля — обычная и морская, сухопутная (статутная); тонна — «короткая» (сухая), «английская» (длинная); галлоны — английские имперские, американские (винчестерские); пинта (Великобритания) — жидкая, сухая.
— Многие типы характеристик, включаемые в описание многих объектов. Например, элементы данных, отражающие габаритные, скоростные, стоимостные и другие параметры объектов имеют избыточное разнообразие по форме представления, структуре и даже словесному наименованию, для абсолютно однотипных объектов.
Краткая справка о системе лингвистических средств, обеспечивающих систему информационных моделей объектов
Лингвистическое обеспечение (ЛО) — это комплекс языковых (лингвистических) средств (информационно поисковых языков — ИПЯ), используемых в информационной системе, а также средства и методы их создания, ведения и использования, предназначенные для представления основного содержания документов, запросов и содержащихся в них фактографических сведений с целью последующего поиска информации.
Примечание: все изложение ведется на базе нормативных документов, созданных в процессе разработки ГСНТИ СССР. В настоящее время объем работ по созданию лингвистических средств резко снижен. Доступ к зарубежным средствам затруднен. Но следует отметить, что перечисляемые в процессе изложения нормативные документы до сих пор не утратили своего значения, хотя в некоторых случаях они требуют корректировки.
Среди всех затрат на эксплуатацию АИС затраты на поддержание АО и его использование при смысловой обработке документов составляют весомую часть по трудоемкости.
Основные положения, определяющие состав, порядок создания, ведения лингвистических средств определены в следующих нормативных документах:
— Положение о лингвистическом обеспечении ГАС НТИ (утверждено ГКНТ 20. 06. 78);
— НТП МЦНТИ 788. Комплекс информационно поисковых языков Международной системы научной и технической информации. Требования, состав;
— Типовые проектные решения для автоматизированных систем научно-технической информации (общие руководящие методические материалы).
На основании указанных документов можно сформулировать следующие основные положения о лингвистическом обеспечении.
Основная цель разработки комплекса ИПЯ — обеспечение технологических процессов, требующих использования ИПЯ на основе широкого применения средств автоматизации при выполнении информационного обслуживания с заданными параметрами.
Комплекс ИПЯ должен обеспечивать:
— индексирование документов и запросов для поиска информации, необходимой потребителям;
— систематизацию информационных массивов в базах данных и знаний для целей поиска, обмена и создания информационных ресурсов.
— определения тематического охвата подсистем (источников информации), соответствующего задачам создания, функционирования и развития системных информационных ресурсов;
— функцию нормативно терминологического контроля для системы в целом и при разработке элементов комплекса ИПЯ;
— возможность однократного индексирования информационных ресурсов.
К настоящему времени имеются типовые решения о составе ИПЯ информационных систем. Однако необходимо учитывать, что на различных этапах разработки лингвистического обеспечения в нормативных документах приводились не только разные по составу перечни ИПЯ, но и терминологически одни и те же лингвистические средства именовались — различно.
Поэтому при описании возможной структуры комплекса ИПЯ (лингвистических средств — АС) будет использоваться следующий прием:
— в состав перечня каждой группы лингвистических средств будут включены все ЛС, включавшиеся в ту или иную группу (выявленные на основе использованных документов);
— конкретное лингвистическое средство будет именоваться так, как оно именуется в последнем по сроку издания нормативном документе, но во всех случаях, когда возможно, будут приводиться наименования, под которыми данное лингвистическое средство использовалось в более ранних документах. При этом необходимо иметь в виду, что приведенные терминологические эквиваленты не всегда соответствуют реальной идентичности используемых понятий (т.к. каждое из разрабатывавшихся лингвистических средств выполняло в системе не совпадающие по объему задачи).
Приведенный подход к описанию состава ИПЯ позволит более полно использовать имеющиеся разработки по лингвистическим средствам автоматизированных систем.
Далее, основной состав нормативных документов относится к системам научно-технической информации. Но значительный объем работ был выполнен и в рамках разработки АСУ, АСУТП. Поэтому в состав системы ИПЯ включены и лингвистические средства, разрабатывавшиеся в указанных системах.
Кроме этого, необходимо учитывать, что любая система предполагает работу с зарубежными базами данных, и, следовательно, в структуре ИПЯ должны быть средства, обеспечивающие информационную совместимость с ИПЯ зарубежных стран.
Исходя из сделанных замечаний, состав лингвистических средств может быть определен следующим образом:
— Ядро комплекса ИПЯ (ядро лингвистического обеспечения, центральная часть АО). Ядро ИПЯ используется всеми источниками информации, предоставляющими информационные ресурсы в базы данных.
— Совокупность ИПЯ, обеспечивающих реализацию технологических процессов в источниках информации в автономном режиме.
— ИПЯ (лингвистические средства) международных специализированных информационных систем.
— ИПЯ (лингвистические средства) международных отраслевых систем.
— НТД, определяющие порядок разработки, эксплуатации и ведения лингвистического обеспечения.
— Автоматизированная система ведения информационных языков (АСВИЯ), которая обеспечивает систему сведениями о АО взаимосвязанных систем и поддерживает ядро лингвистического обеспечения конкретной системы в сетевом режиме в рабочем состоянии с учетом изменений во времени.
Обычно ядро лингвистического обеспечения (комплекса ИПЯ) включает:
— номенклатуру грамматических средств ИПЯ (Типовой комплекс грамматических средств — ТКГС);
— таблицы соответствия ИПЯ (таблицы соответствия Рубрикатора ГСНТИ информационным и библиотечно-библиографическим классификациям, используемым в системе (УДК, ББК и др.) для всех лингвистических средств, использующихся в системе;
— списки обязательных полей коммуникативных форматов (форматов обмена информацией);
— методику координатного индексирования для обмена информационными ресурсами в режиме сети.
— специальные словари для фактографических систем (классификаторы);
— нормативно-технические и методические документы, регламентирующие разработку, использование и ведение ИПЯ системы.
Совокупишь ИПЯ, обеспечивающих реализацию технологических процессов в источниках информации в активном режиме.
Источники информации имеют локальные автоматизированные системы различного назначения, в рамках которых используются различные локальные ИПЯ. Это те лингвистические средства, которые могут использоваться для информационных ресурсов, не входящих в информационные ресурсы сети. Использование этих АС определяется двухсторонними соглашениями между пользователями.
В принципе, при интеграции информационных ресурсов произойдет интеграция локальных ИПЯ с ИПЯ более мощных и эффективных систем.
Однако в любом случае должны быть предусмотрены средства обеспечения информационной совместимости АС локальных систем с ЛС систем более высокого уровня, а также между локальными, независимыми БД и БЗ внутри системы.
Возможные пути решения задачи:
— использование однотипных ИПЯ внутри системы при разработке локальных подсистем;
— переход локальных (внутренних) систем на использование базовых ИПЯ;
— построение таблиц соответствия между сетевыми и локальными ИПЯ различных систем, на основании которых может быть реализована информационная совместимость (но подобные преобразования редко могут быть осуществлены без потери точности идеи.
ИГТЯ международных и отраслевых информационных систем могут рассматриваться двояко:
— как ИПЯ локальных систем. В этом случае взаимодействовать с ними можно по схеме, описанной выше;
— как информационная система более высокого уровня, взаимодействие с которой должно осуществляться на уровне межсистемных соглашений и максимальном использовании существующих международных стандартов и/или на основе ИПЯ транснациональных информационных систем (например: тезаурусов ООН и его информационных систем (INIS, AGRIS, INFOTERRA и т.п.); классификаторов и тезаурусов транснациональных систем (MEDLARS, CAS и т.п.).
Основным методом взаимодействия с международными системами является второй подход.
Существенным здесь является комплекс ИПЯ, разработанных в МСНТИ. Этот комплекс, при разумной политике, мог бы стать базой для взаимодействия с бывшими странами СЭВ и «ближним зарубежьем».
В качестве обязательного элемента таких языков должны стать:
— индексы МКИ;
— стандартные коды ISSN, ISBN и др.;
— правила обозначения дат;
— международный стандарт стран и территорий мира;
— УДК и др.
ВТД, определяющие порядок и ведения лингвистического обеспечения
Функционирование в сетевом режиме невозможно без отработки НТД, определяющих порядок разработки, эксплуатации и ведения сетевого лингвистического обеспечения.
В ГСНТИ, АСУ, АСУТП и других информационных системах уже был наработан значительный объем нормативно технических и методических документов, обеспечивающих создание эффективных систем ИПЯ (ЛС) для всех типов информационных систем.
Основным направлением работ по созданию комплекса ИПЯ должно быть освоение уже существующей нормативной базы и ее адаптации к условиям функционирования сети.
Единственное чего не должно быть — работы с «нуля» и использования только зарубежного опыта.
Отбор лингвистических средств и НТД должен осуществляться в следующих направлениях:
— выбор общесистемных средств, общих для всех баз, взаимодействующих в сетевом режиме;
— определение специализированных подмножеств ИПЯ и НТД, обеспечивающих специфические потребности конкретных баз данных и знаний;
— выбор методов и средств, обеспечивающих комплексное использование ИПЯ сети и их терминологическую совместимость.
Важнейшим условием проведения указанных работ при минимальных затратах на создание АО сети является создание в структуре сети головного органа по координации и проведению этих работ и выделение базовых организаций, ответственных за поддержку базовых лингвистических средств и контроль за их внедрением и соблюдением в сети.
При организации информационной технологии формирования информационных ресурсов сети, работы по поддержке базовых лингвистических средств и контролю за их исполнением целесообразно возложить на системы, осуществляющие формирование и ведение системных баз данных.
В качестве аналогов, при разработке положения о лингвистической службе сети и обязанностей источников информации по реализации функций автоматизированной системы ведения информационных языков (АСВИЯ) (в ряде источников эта система именуется иначе — Словарно терминологическая служба — 4110 СЛОТЕРС) могут быть использованы следующие НТД:
— Положение о лингвистическом обеспечении ГАСНТИ (утверждено ГКНТ 20.06.78).
— НТП МЦНТИ 788. Комплекс информационно поисковых языков Международной системы научной и технической информации. Требования, состав.
— Типовые проектные решения для автоматизированных систем научно-технической информации (общие руководящие методические материалы).
— Сборник научно методических документов по стандартизации в области научно-технической информации.
В приложениях к указанным документам содержится значительное число нормативных документов, определяющих лингвистическое обеспечение. В Приложении 3 дан ограниченный перечень НТД из этих и других документов, связанных с вопросами разработки и использования лингвистических средств. Приложение носит информационный характер.
Автоматизированная система ведения информационных языков (АСВИЯ)
Автоматизированная система ведения информационных языков (АСВИЯ), обеспечивает сеть сведениями ОАО сети и поддерживает ядро лингвистического обеспечения в рабочем состоянии с учетом изменений во времени.
АСВИЯ обеспечивает решение следующих задач:
— создание и ведение единой базы данных всех лингвистических единиц, входящих во все лингвистические средства АИС;
— формирование на основе базы данных системы унифицированных ЛС, используемых в АИС и обеспечивающих решение задач конкретных баз данных;
— преобразование лингвистических средств при изменении: характера обрабатываемой информации, используемого ПМО, технических средств и принципов, заложенных в построение АО системы;
— выпуск (издание) актуальных (действующих) редакций лингвистических средств на всех видах носителей;
— ведение архива базы данных АСВИЯ;
— сбора терминологии для включения в терминологическую базу данных системы и последующего ее включение в АС АИС;
— разработку новых ЛС;
— создание и ведение нормативно методических документов, обеспечивающих функционирование АСВИЯ и эффективное использование конкретных ЛС во всех подсистемах;
— контроль за выполнением системных соглашений АСВИЯ внутри системы и по линии взаимодействия с другими АИС;
— учет и организацию связей между различными ЛС, учет и принятие решений по «конфликтным ситуациям», возникающим в процессе функционирования ЛО.
Уровень практических разработок по лингвистическому обеспечению функционирования информационных систем
Лингвистические средства это сложный комплекс взаимосвязанных терминологических средств, описывающих содержание информационных моделей объектов учета.
Такой комплекс не может быть создан одномоментно, он должен строиться применительно к конкретным проблемным областям и конкретным моделям объектов учета и составу реальной информации, включаемой в состав информационных ресурсов.
Одновременно следует подчеркнуть, что в рамках действующих информационных систем за весь период их функционирования накоплено значительное количество уже разработанных средств, которые могут быть использованы 1:1 и/или после адаптации для решения, фактически, всех задач сети. Более того, имеются значительные заделы по данным вопросам, созданные в процессе реализации комплексных исследований и разработок, проводившихся в СССР при создании ГСНТИ, ОГАС, АСУ, АСУТП, ГСССД.
С другой стороны, в отраслевых и всесоюзных органах научно-технической информации, были разработаны и внедрены многие элементы лингвистического обеспечения, которые в полном объеме могут использоваться при решении задач сети.
В этих условиях возникает необходимость дать краткую справку с описанием уровня, достигнутого в разработке лингвистических средств по состоянию на конец 80х гг. Т.к. к этому времени были созданы и апробированы в процессе промышленной эксплуатации почти все лингвистические средства, применяемые в информационных системах.
После развала СССР почти все работы были прекращены, многие элементы информационной структуры (и соответственно обслуживающие их информационные системы) уничтожены. Но их нормативные документы и разработанные лингвистические средства еще можно разыскать в фондах библиотек. В основном, продолжают функционирование крупнейшие (бывшие всесоюзные) органы информации и их информационные системы, а, следовательно, в актуальном состоянии поддерживается какая-то часть лингвистических средств, что также может сократить расходы на их повторное создание.
Изложение достигнутого уровня проводится при следующих допущениях:
— предполагается, что указанные в справке лингвистические средства могут быть найдены, актуализированы и включены в состав АО сети, если разработчики примут решение об их использовании;
— во всех случаях, по перечисляемым лингвистическим средствам сохранилось достаточно большое число публикаций, которые позволяют при необходимости повторить разработку, избежав ошибок предшественников, либо отказаться от того или иного класса лингвистических средств, если достигнутый в настоящее время уровень обработки данных позволяет выполнить их функции иначе;
— приведенные сведения позволят разработчикам сети принять исходные проектные решения по минимальному набору лингвистических средств и по определению последовательности их расширения.
Лингвистическое обеспечение системы взаимосвязанных АИС начало формироваться в стране в начале 70-х гг.
В это время страны-члены СЭВ активно сотрудничали в рамках МСНТИ. При этом СССР выступал в качестве основного (по объему информационных ресурсов) поставщика информации.
Для обеспечения информационной совместимости информационных ресурсов, циркулирующих в МСНТИ, как правило, удавалось достигать проектных решений, при которых наиболее продвинутые лингвистические средства ГАСНТИ включались в состав лингвистических средств МСНТИ после их согласования со странами членами МСНТИ. Согласованные решения получали статус НТП МЦНТИ, а в ряде случаев — статус стандарта СЭВ (СТ СЭВ). При этом на национальных стандартах всегда указывался кроме номера ГОСТ соответствующий ему номер стандарта СЭВ.
На примере МЦНТИ, имевшего развитый комплекс лингвистических средств, можно проиллюстрировать потребность в нормативных документах политематической информационной системы следующими цифрами (на 01.03.81): тезаурусы — 45; рубрикаторы — 52; нормативно технические и методические документы — 76; прочие (словники, указатели, словари и т.д.) — 25; ИТОГО — 198.
При разработке стандартов, обеспечивающих совместимость информационных систем, использовались проектные решения, отработанные при стандартизации международного обмена информацией.
Основная концепция АО была утверждена ГКНТ в форме «Положения о лингвистическом обеспечении ГАСНТИ».
В «Положении...» наибольшее значение в регламентации АО было придано Рубрикатору и Макротезаурусу ГАСНТИ.
Глубина рубрикатора три уровня (при наличии на каждом уровне не более 100 рубрик).
На первом и втором уровне Рубрикатор ГАСНИ совпадает с Рубрикатором МСНТИ.
Локальным системам разрешается автономное развитие рубрикатора, начиная с четвертого уровня.
В рамках работ по созданию Рубрикатора были отработаны следующие документы:
— Рубрикатор ГСНТИ. т. т. 1,2 (утв. 1984 г., ГКНТ СССР); 3-е издание (три уровня);
— НТП МЦНТИ 2278. Рубрикатор Международной системы научной и технической информации. Наименование и коды рубрик первого и второго уровня;
— ГОСТ 7. 4984. СИБИД. Рубрикатор ГАСНТИ Структура, правила использования и ведения;
— Порядок экспертизы и регистрации Рубрикаторов АСНТИ. Инструкция. ГКНТ СССР. Утверждено 09.071979;
— Правила использования Рубрикатора ГАСНТИ (методические указания). Утверждено ГКНТ СССР 19.03.1981;
— Положение об использовании и ведении Рубрикатора ГАСНТИ. Утверждено ГКНТ СССР 10.01.1980.
Рубрикатор ГАСНТИ имел многофункциональное применение. Он являлся универсальным инструментом для крупноблочной «расфасовки» информации на уровне больших, средних и малых массивов документов; мог быть использован для описания тематического профиля организаций, служб, видов обслуживания, массивов, комплектования и систематизации документов в фондах, информационных изданиях, массивах на машиночитаемых носителях для целей обмена, структуризации лексических массивов и тезаурусов, а также для описания профиля широко тематического поиска.
Например, «Справочник научных организаций СССР» для тематического указателя использовал Рубрикатор до третьего уровня.
Можно утверждать, что это одно из наиболее отработанных и распространенных лингвистических средств в ГАСНТИ.
Рубрикатор ГАСНТИ может использоваться обособленно, но наиболее эффективно его применять в сочетании с тезаурусами и, в частности, с макротезаурусом ГАСНТИ.
Макротезаурус ГАСНТИ представляет собой тезаурус, содержащий общетехническую, общенаучную и межотраслевую лексику, а также лексические ядра отраслевых тезаурусов, включающие важные отраслевые понятия и термины. Макротезаурус формировался на основании обработки тезаурусов всесоюзных и отраслевых АИС. С другой стороны, будучи принят, он оказывал влияние на всю систему тезаурусов ГАСНТИ.
Предполагалось, что Макротезаурус ГАСНТИ, аналогично Рубрикатору ГАСНТИ, будет определять скелет всех тезаурусов ГАСНТИ, с другой стороны, планировалось, что он будет, совместим с Макротезаурусом МСНТИ (в некоторых публикациях указывалось, что это будет версия на русском языке Макротезауруса ГСНТИ; такой подход не противоречил политике разработки лингвистических средств МСНТИ).
Все предпосылки для создания Макротезауруса ГАСНТИ были созданы.
Во-первых, фактически во всех общесоюзных органах информации были созданы системы специализированных тезаурусов и макротезаурусы и системы их ведения, а во ВНИИКИ была создана АСВИЯ, которая должна была обеспечивать все работы по созданию совместимых лингвистических средств ГАСНТИ.
Следует обратить внимание, что некоторые отраслевые органы информации использовали Тезаурусы зарубежных международных систем. Например, А то минформ при обмене информацией с системой INIS, использовал дескрипторный словарь этой системы, автоматическое расширение и поддержание актуального состояния которого осуществлялось на международном уровне в штаб-квартире системы в Вене. Все изменения словаря поступали в Атоминформ на магнитных лентах в соответствии с принятым регламентом.
Необходимо отметить, что уровень разработок АС во всех Всесоюзных и центральных отраслевых органах информации был достаточно высок и обеспечивал высокие поисковые характеристики.
Работы по созданию тезаурусов имеют всю необходимую нормативную документацию (как в ГАСНТИ, так и в МСНТИ):
— СТ. СЭВ 17485 Тезаурус информационно поисковый одноязычный. Состав, структура и форма представления;
— ГОСТ 7.2480. СИБИД. Тезаурус информационно поисковый многоязычный. Правила разработки;
— ГОСТ 7.2580. СИБИД. Тезаурусы информационно поисковые одноязычные. Правила разработки;
— ГОСТ 7.4784. СИБИД. Коммуникативный формат для словарей информационных языков и терминологических данных, содержание записи;
— ГОСТ 7.5285. СИБИД. Коммуникативный формат для обмена библиографическими данными на магнитной ленте. Поисковый образ документа;
— Порядок экспертизы и регистрации языковых средств;
— Коммуникативный формат для записи лексической информации на МЛ (формат ФОЛИЯ). Временная инструкция. Утверждена ГКНТ СССР 16.01.1980;
— Общая методика использования УДК. ГПНТБ СССР, 1973;
— Международная классификация изобретений, т. 1, 1981;
— Формирование поисковых образов документов в информационных массивах, предназначенных для обмена в ГАСНТИ (методические указания). Утверждены ГКНТ СССР 28.08.1981;
— Структура и правила записи поискового образа документов в коммуникативном формате ГАСНТИ (временная инструкция). Утверждена ГКНТ СССР 24.05.1980;
— Методика построения и использования базисных тезаурусов в ГАСНТИ. Утверждена ГКНТ СССР 15.06.1980;
— Положение о базисном тезаурусе САЦНТИ. Утверждено ГКНТ СССР 23.12.1981;
— Методические указания по ведению словарей. Утверждены ГКНТ СССР 14.12.1978;
— Положение по АСВИЯ. Утверждено ГКНТ СССР 13.02.1980;
— Положение об информационном обслуживании в АСВИЯ, 1980;
— Положение о макротезаурусе ГАСНТИ. Утверждено ГКНТ СССР 30.12.1982;
— Методика стандартизации научно-технической терминологии (РД1474 с изменением 1 с 01.01.1980);
— НТП МЦНТИ 3183. Содержание и способ представления лексики информационно поисковых языков и терминологических данных в записи для обмена на магнитной ленте (ФОЛИЯ).
В соответствии с этими документами (и их редакциями, начиная с 1978 г.) отрабатывались тезаурусы (дескрипторные словари) всех органов информации ГСНТИ, Было разработано значительное число тезаурусов (дескрипторных словарей), фактически по всем проблемным областям науки и техники.
В соответствии с действовавшими в то время правилами (нормативными документами) все ЛС передавались во ВНИИКИ и на их основе формировалась база данных по лексике этих словарей в рамках АСВИЯ, АСИНИТ и АСВОК.
Следы всех разработанных средств необходимо искать во ВНИИКИ.
Приведем небольшой перечень:
— Тезаурус научно-технических терминов;
— Дескрипторный словарь по информатике около 3 000 лексических единиц, отражающий основную лексику, реально используемую в текстах документов (РЖ ВИНИТИ «Информатика» и соответствующей БД).
Для сравнения приведем данные по зарубежным базовым словарям:
— тезаурус ЮНЕСКО по наук ведению — 7 000 русских терминов и 10 000 эквивалентов на немецком и английском языках;
— для обеспечения функционирования библиографической информационной системы ООН (UNDIS) и достижения всеобъемлющего библиографического учета документов ООН был составлен список обобщающих предметных рубрик для систематизации программ и видов деятельности ООН, в который вошло примерно 7 000 терминов.
Следующим важным элементом ЛС любой системы являются:
— таблицы соответствия ИПЯ (Таблицы соответствия Рубрикатора ГСНТИ информационным и библиотечно-библиографическим классификациям, используемым в системе (УДК, ББК и др.), различных дескрипторных словарей, а также двуязычные и многоязычные словари) для всех лингвистических средств, используемых в системе.
Данный элемент ЛС не может поддерживаться в актуальном состоянии без специализированного программного обеспечения, сопряженного с программным обеспечением всех баз данных сети.
Сведений о наличии таких таблиц в информационных системах много, но имеющиеся публикации относятся только к методикам их построения. Это обусловлено тем, что это, фактически, специализированные терминологические базы данных. Ориентировочный объем печатного варианта таких изданий может достигать 15 —20 тыс. стр.
Это свидетельствует о том, что без создания терминологической базы данных сети, совместимой по принципам построения и требованиям представления информации в АСВИЯ, невозможно провести заимствования ЛС из баз данных ВНИИКИ и других информационных систем.
Элементы обязательных полей коммуникативных форматов также входят в состав ЛС.
Применительно к библиографическим базам данных в настоящее время, достигнут очень высокий уровень стандартизации на национальном и, что более важно, на международном уровне (UNIMARC).
Здесь у разработчиков системы фактически единственный выбор — переход к правилам описания по ГОСТ (для внутренних баз банных) и на UNIMARC (при организации обмена с зарубежными системами).
Этот вариант обеспечен всеми необходимыми НТД:
— описание UNIMARC (в стране официальной организацией, распространяющей русский перевод данного документа является ГПНТБ);
— ГОСТ 7.1178. СИБИД. Сокращения слов и словосочетаний на иностранных европейских языках в библиографическом описании произведений печати. (СТ. СЭВ 201279);
— ГОСТ 7.1277. СИБИД. Сокращения слов и словосочетаний в библиографическом описании произведений печати (СТ СЭВ 201279);
— ГОСТ 7.1879. СИБИД. Библиографическое описание картографических произведений;
— ГОСТ 7,3381. СИБИД. Представление экспериментальных численных данных о свойствах веществ и материалов в статьях периодических и продолжающихся изданиях и непериодических сборниках. Общие требования;
— ГОСТ 7.4082. СИБИД. Библиографическое описание аудиовизуальных материалов;
— СТ СЭВ 25276. Коды названий стран и других территорий;
— СТ СЭВ 136378. Цифровое обозначение дат;
— СТ СЭВ 426983. Формат для обмена библиографической информацией на магнитной ленте. Содержание;
— и другие.
Более сложным является вопрос о создании нормированного перечня элементов данных, относящихся к иным информационным моделям объектов учета.
Для сети основой этого перечня должен стать нормированный перечень всех элементов данных, входящих во все информационные модели описаний объектов учета.
Но на данный момент времени информационные модели объектов учета не нормированы (т.е. нет согласованных между исполнителями моделей описания объектов; имеющиеся информационные модели проработаны неудовлетворительно; описания объектов не взаимосвязаны, одни и те же по наименованию элементы данных имеют различное содержание).
В требованиях к лингвистическому обеспечению автоматизированных фактографических информационно поисковых систем указывается, что АС должны удовлетворять следующим требованиям:
— обеспечивать возможность описания состава и структуры фактографических данных;
— обеспечивать возможность представления языковыми средствами, как запросов пользователей, так и процедур оперирования данными;
— иметь языковые средства для обеспечения внешнего взаимодействия пользователя с системой;
— обеспечивать языковые средства для координации функционирования и совместимости локальных подсистем в распределенных системах;
— иметь справочники, определяющие состав поисковых параметров, характеризующих объекты, а также состав и классификацию параметров;
— ИПЯ должны позволять строгое описание: объектов, классов параметров, запросов;
— иметь язык запросов, не требующего от пользователя описания необходимых процедур обработки;
— иметь справочники, определяющие состав параметров объектов;
— обеспечивать унификацию кодовых обозначений;
— иметь наличие резервов в каждом из элементов структуры для обеспечения развития системы.
Следующим элементом ядра лингвистических средств сети являются специальные словари (Кодификаторы, Классификаторы и др.) для фактографических систем.
Прежде всего, необходимо отметить, что все лингвистические средства АСУ разрабатывались в рамках единой системы классификации и кодирования ТЭИ (ЕСКК ТЭИ), в состав которой входили: Общесоюзный классификатор технико-экономических показателей (ОКТЭП), Общесоюзные классификаторы технико-экономической и социальной информации (ОКТЭСИ) и унифицированной системы документов (УСД).
Указанные средства предназначались для обеспечения информационной совместимости банков данных и одновременно рассматривались как основа СФОД (средств формализованного описания баз данных). Важной составляющей являлась УСД, которая была представлена большим количеством стандартов на формуляр образцы документов системы управления, перечисленных в ОКУД.
Для обеспечения повсеместного внедрения ОК ТЭИ и УСД Госстандартом разработано, утверждено и доведено до головных организаций министерств и ведомств более 80 организационно методических материалов по внедрению, регистрации и контролю за внедрением ОК ТЭИ и УСД.
В рамках ОКТЭСП (Общесоюзная классификация экономических и социальных показателей) планировалось создать 25 классификаторов.
Описание разработок в этой области регулярно проводилось в научно-техническом сборнике ВНИИКИ «Классификаторы и документы», основанном в 1971 г.
Приведем важнейшие классификаторы, входящие в ЕСКК:
— ОКПО (Общесоюзный классификатор предприятий и организаций);
— СОЕЙ (Система обозначения единиц измерения, используемая в АСУ);
— ОКП (Общесоюзный классификатор промышленной и сельскохозяйственной продукции);
— СООГУ Система обозначений органов государственного управления СССР и союзных республик.
— Общесоюзный классификатор стран мира и территорий;
— ОКОНХ (Общесоюзный классификатор отраслей народного хозяйства) — более 700 отраслей и под отраслей;
— Общесоюзный классификатор. Технико-экономические и социальные показатели.
Учитывая принципиальные изменения в системе управления и развал СССР, эти и другие нормативные документы не могут быть использованы в полном объеме. Но методы их построения, методы кодирования, лексика, используемая в классификаторах, могут быть использованы для построения баз данных сети.
Например: Методические указания по внедрению Общесоюзного классификатора технико-экономических и социальных показателей.
Особого внимания заслуживают нормативные документы, связанные с разработкой УСД.
Но необходимо подчеркнуть, что формуляр образцы в большинстве ГОСТ отрабатывались для традиционных носителей информации.
Однако многие отраслевые документы уже отрабатывались для обмена на машиночитаемых носителях и условий выдачи на выходные устройства ЭВМ (дисплеи, принтеры, экраны отображения информации и т.п.).
Важной базой для создания лингвистических средств является стандартизованная и унифицированная терминология, накапливаемая в терминологических стандартах, сборниках терминологии, специализированных и многоязычных словарях. Поэтому при разработке АС необходимо обращаться к массивам уже стандартизованной терминологии.
Хорошим справочником по терминологическим документам является научно-технический реферативный сборник ВНИИКИ «Научно-техническая терминология» (издается с 1968 г.).
Значительное пересечение лексики, установленной терминологическими стандартами и содержащейся в общесоюзных классификаторах ТЭИ, требует постоянного ведения работ по их взаимоувязке.
Помощь в поиске и получении терминологической информации оказывала автоматизированная система информационно терминологического обслуживания (АСИТО), разработанная во ВНИИКИ и принятая в промышленную эксплуатацию в 1981 г.
Автоматизированная система информационно терминологического обслуживания (АСИТО) предназначена для решения следующих задач:
— информационное обслуживание по стандартизованной терминологии институтов Госстандарта, головных организаций министерств и ведомств, ответственных за проведение работ по терминологии, всесоюзных и центральных отраслевых органов научно-технической информации;
— обмен информацией по терминологии с банками терминологических данных, созданных в зарубежных и международных организациях;
— подготовка статистик аналитических данных о стандартизации терминологии.
Система двухконтурная:
1. Контур — Автоматизированный банк данных (АБД), обеспечивающий многоаспектный поиск информации.
2. Контур — Справочный банк данных (СБД) (Справочный банк терминов СБТ), включающий терминологические картотеки и нормативно технические документы на термины и определения (ГОСТ, СТ СЭВ и ИСО).
В фонде терминологических документов были представлены стандарты на термины и определения (ГОСТ, ОСТ, СЭВ, МЭК), государственные стандарты с терминологическими приложениями и сборники рекомендуемых терминов Комиссии научно-технической терминологии АН (более 1 000 терминологических документов). Справочный банк терминов содержал 130 000 терминологических единиц.
Единица хранения в АБД (АБТ) терминологическая запись, содержащая следующие элементы данных терминологической статьи и нормативно технического документа, устанавливающего термин:
— заглавный (стандартный или рекомендованный) термин;
— обозначение нормативно технического документа;
— код документа по Классификатору государственных стандартов;
— дата утверждения (издания) документа;
— краткая форма заглавного термина;
— синонимы (допустимые или недопустимые к применению);
— эквиваленты термина на английском, французском и немецком языках.
Поиск может осуществляться по любым элементам данных терминологической статьи и их сочетаниям. Принимая во внимание синтетический характер русского языка, реализована возможность поиска с учетом словоизменительных вариантов слов и синтаксических вариантов словосочетаний. Предусмотрена возможность поиска и выдачи информации при неполном лексическом совпадении запроса с термином, введенном в систему, а также усечений концов словоформ запроса. Таким образом, система позволяет вводить запрос на естественном языке без предварительного индексирования терминологических статей, дает возможность ограничить поиск определенной предметной областью, задавать категорию нормативно технических документов и другие параметры.
Формы представления терминологической информации в автоматизированном режиме следующие:
— указатели терминов, подготовленные на ЭВМ;
— распечатки на разовые запросы;
— магнитные ленты с массивом терминологических статей; ответы на экране дисплея.
Система позволяла готовить автоматизированным путем указатели следующих видов:
— сводные и систематические;
— простые и пермутационные (KWOC, KWIC);
— по категориям нормативно технических документов;
— терминов на русском и иноязычных эквивалентов;
— и другие.
Обмен на магнитных лентах осуществлялся на основе единого коммуникативного формата для терминологических данных, структура которого унифицирована с коммуникативным форматом библиографических данных в соответствии.
Система позволяет автоматизировать процессы терминологической экспертизы вновь разрабатываемых общесоюзных классификаторов технико-экономической информации и информационно поисковых классификаторов, благодаря поиску лексических пересечений массива АСИТО с массивами наименований позиций в автоматизированной системе ведения общесоюзных классификаторов технико-экономической информации (АСВОК) и массивами информационно поисковых тезаурусов в автоматизированной системе ведения информационных языков (АСВИЯ) соответственно.
Некоторое представление об объеме терминологии, зафиксированной в традиционных словарях, дают следующие данные:
1. Словари математических терминов:
— польско-русский — 24 000;
— немецко-русский — 30 000;
— краткий русско-испанский и испано-русский — 6 000;
— русско-вьетнамский — 9 200;
2. Шведский терминологический словарь в области проектирования и строительства — 1 000 (с переводом на английский, немецкий и французский).
3. Шведский стандарт SIS 15200580 (словарь терминов) — 1 300 терминов (эквиваленты на английском, немецком, французском, норвежском и шведском языках).
4. Словари терминов по экономике:
— немецко-русский — 45 000;
— англо-русский экономический словарь по экономике — 60 000;
— русско-сербскохорватский и сербско-хорватско-русский — 60 000;
— французско-русский — 45 000;
— краткий испано-русский и русско-испанский — 14 000;
— тезаурус ЮНЕСКО по науко-ведению — 7 000 русских терминов и 10 000 эквивалентов на немецком и английском языках.
5. Номенклатурные справочники:
— Международный кодекс ботанической номенклатуры, принятый одиннадцатым Международным ботаническим конгрессом.
— Кодекс представляет справочник для ботаников, работающих в области систематики всех групп растительного мира, как современных, так и ископаемых.
Какая бы система не использовалась для создания баз данных и знаний, ее эффективность будет ничтожной, если не будут решены на самом высоком уровне проблемы лингвистического обеспечения ее функционирования.
Ведется реализация трех программ:
1. Создание научной базы терминологии.
2. Установление сотрудничества в деле разработки терминологий и их фиксации в машиночитаемой форме. В нее входит разработка коммуникативных форматов для терминологии (ИСО/ПП 6156 формат для записи терминологических/лексикографии данных на МЛ).
3. Установление сотрудничества в деле сбора, записи и распространения терминологических данных и информации. В рамках данной программы реализуется создание форматов для записи и обмена данными об организациях, связанных с терминологической работой.
Терминологическая информация включает три типа данных:
— о понятиях, т.е. терминах, их синонимах, определениях;
— библиографические данные о терминологической литературе;
— об организациях, занимающихся терминологической деятельностью, терминологических банках данных, терминологических комиссиях, экспертах, проектах и т.д.
Система складывается из отдельных подсистем в следующих областях деятельности:
— обмена библиографическими данными по терминологической литературе (словари, статьи, книги, периодические издания, перечни на машиночитаемых носителях);
— обмена терминологическими данными, в том числе терминами, эквивалентами, определениями и т.п. на бумажных носителях и машиночитаемых носителях (терминологические банки данных);
— фиксации терминологических неологизмов;
— обмена данными о терминологических службах, библиотеках, комиссиях и т.п.
В структуру системы документации и информации по терминологии предполагается включить: терминологические организации, национальные терминологические центры, международные специальные терминологические центры, региональные терминологические организации и подсистемы.
Сотрудничество с UNIBID — международные записи терминологических данных в машиночитаемой форме и включен в разработку ISO/TK 37 стандартов ИСО 919,1149,4466.
Сотрудничество между банками терминологических данных в области обработки, хранения, обмена и распространения информации и разработки опытного проекта «Модель файлов терминологических данных».
ТЕРМНЕТ к 1978 г. создало «Международную библиографию стандартизованных словарей», включающую библиографические описания 12 000 публикаций.
Существовало 17 терминологических банков.
Регистр терминологических банков включал следующие характеристики:
— цель;
— тематика;
— языки;
— пользователи;
— типы ЭВМ.
Лингвистические средства ГСССД для представления информации о стандартных справочных данных о физических константах и свойствах веществ и материалов (для сбора которой разрабатывалась ГСССД СССР), и данных о качестве и техническом уровне образцов техники, информации о технологических процессах.
Условно эту информацию определим как фактографическую (объектографическую), а базы данных о них будем именовать фактографическими. Понятие условно применено для того, чтобы не входить в дискуссию по приводимому определению, которая в свое время занимала слишком большое место среди разработчиков информационных систем.
Кроме этого, необходимо иметь в виду, что выход на зарубежные базы данных означает, что информационные ресурсы становятся, поли язычными.
Поли зычность информационных ресурсов также ставит перед сетью ряд проблем, которые не могут быть решены по принципу: «хочешь получить информацию — изучай язык».
Во-первых, «белый свет» — это не только англоязычные страны. А во-вторых, даже для предварительной патентной экспертизы (при определении новизны) в свое время требовалась проверка не менее чем по шести — семи основным странам плюс Япония, что примерно соответствует такому же количеству языков. Но таких специалистов, кто владеет требуемым количеством языков в полном объеме, среди пользователей — единицы. Это ставит перед сетью задачу формирования такого пользовательского интерфейса, который позволяет на уровне поиска информации, обойтись без уникальной лингвистической подготовки в профессиональной проблемной области.
Исходя из изложенного, необходимо обратить внимание на некоторые особенности лингвистических средств, обеспечивающих функционирование фактографических полиязычных систем.
Обе проблемы будут рассматриваться для простоты отдельно, но необходимо сразу сделать предупреждение, что полиязычность фактографической информации — это одно из ее важнейших свойств. Причем за «поли зычностью» скрываются существенные параметры фактографической информации, которые принципиальным образом влияют на точность и достоверность информационных ресурсов фактографических систем. Пример, для размышления: указано «БУШЕЛЬ». Вопрос: какой? и его значение в метрической мере?
Лингвистические средства фактографических систем. Прежде всего, необходимо сделать следующее предупреждение: на верхнем уровне описания объекта учета обязательно должны использоваться общесистемные лингвистические средства.
Общесистемные лингвистические средства привязывают фактографическую информацию к принятым в сети классификационным делениям, заданным рубрикаторами, классификаторами, тезаурусами и другими лингвистическими средствами.
Специфические лингвистические средства фактографических систем обеспечивают идентификацию объектов, применительно к существующему уровню изученности объекта (отражают описание его свойств в соответствии с достигнутым уровнем его познания и/или требованиями функционального применения).
В разных системах, в зависимости от решаемых задач, объект может быть описан принципиально различно (с информационной точки зрения АБСОЛЮТНО НЕСОВМЕСТИМО). Это приводит к тому, что информация об объекте «N» из системы «О» может быть использована системой «W» только при условии дополнительных, зачастую трудоемких и неэффективных процедур обработки. Причем степень использования может изменяться от «нуля», до «полностью пригодна». На указанном интервале находятся самые различные альтернативные возможности (частично, при условии преобразования на уровне алгоритмических процедур, с потерей достоверности и точности, внесение «дезинформации» при преобразовании и т.п.).
При разработке лингвистических средств для указанной информации необходимо использовать стандарты, применявшиеся для ГСССД нормативы международной системы по сбору и оценке численных данных — КОДА ТА (CODATA), а также выпущенные ими справочники.
Так для обеспечения совместимости автоматизированных систем стандартных справочных данных во ВНИЦ ГСССД были разработаны:
— классификатор свойств полимерных материалов.
— классификатор свойств сталей и сплавов.
— классификатор свойств фреонов.
— тезаурус по полимерным материалам.
— комплекс унифицированных методик сбора, обработки, оценки достоверности.
Поиск необходимых методических материалов может быть осуществлен в изданиях Госстандарта, а также головных и базовых организациях ГСССД.
Приведем перечень некоторых из них:
— данные по теплофизическим свойствам индивидуальных веществ и технически важных газов и жидкостей (ИВТАН, ВНИИМС, МЭИ, ОНИМФ);
— фундаментальные физические константы (ФТИ им. Иоффе, ВНИИМ, ХШИИМ);
— молекулярные постоянные (ВНИИМС и НИЦ помолекулярной спектроскопии СО АН СССР).
Разрабатывалась система стандартов ГСССД. Например:
— ГОСТ 8.31078. ГСССД. Основные положения.
— ГОСТ 8.34479, ГСССД. Порядок аттестации.
В приведенных стандартах определены степени достоверности данных, порядок и формы представления информации в системе ГСССД, виды и порядок изданий ГСССД: тематических сборников «физические константы и свойства веществ»; тематических справочников; фундаментальных справочников; монографий; таблиц, графиков, номограмм и диаграмм и др.
Учитывая, что после развала СССР многие организации изменили наименования или исчезли, необходимо искать публикации бывших центров ГСССД, в которых представляли информацию.
Особого внимания заслуживают публикации в информационном бюллетене «Государственная служба стандартных и справочных данных», выпускавшемся Госстандартом СССР (ВНИЦ ГСССД) и АН СССР (Советский национальный Комитет по сбору и оценке численных данных в области науки и технике).
Другую важную составляющую НТД и стандартов образуют документы, связанные с созданием и разработкой системы сбора, обработки хранения и обеспечения информацией о качестве и техническом уровне образцов техники.
В рамках НТД по этим системам создано значительное число информационных моделей описания значительного числа технических объектов, нормированы перечни основных показателей (характеристик) объектов, применяемых для оценки качества и технического уровня изделий. Определены правила ведения досье, фактографических картотек, специализированных ЛС, используемых для описания конкретных характеристик и свойств объектов.
Имеются значительные наработки по представлению информации, необходимой для аттестации технологических процессов в рамках Единой системы технологической подготовки производства (ЕСТПП). Например, РД 5053285. «Методические указания. ЕСТПП. Аттестация технологических процессов», в которой приведен ряд форм по сбору данных о технологических процессах.
Говоря о специфике лингвистического обеспечения фактографических систем необходимо обратить внимание на следующее:
— возрастает число ЛС, нормирующих наименования объектов (систем, образцов, имен собственных, географических наименований, организационных единиц и их структурных элементов, сокращенных наименований и аббревиатур и т.п.);
— ужесточаются требования к информационным моделям объектам (возможно появление нескольких модификаций информационной модели для одной информационной модели);
— особое значение приобретают ЛС, задающие системы единиц и размерности;
— усложняются системы кодирования и обозначения объектов учета;
— существенно увеличивается количество специальных символов, необходимых для представления данных, даже в тех случаях, когда в явном виде отсутствует полиязычность (т.е. требования к алфавиту в ряде случаев приближаются к тем, которые существуют в полиязычных системах).
Оценки объемов словесных наименований объектов учета в различных проблемных областях показывают, что их количество изменяется в значительных пределах от тысяч до сотен тысяч (может достигать нескольких миллионов).
Основная трудность создания подобных нормированных перечней в том, что каждое название в процессе прохождения по информационным системам претерпевает существенные преобразования.
Например, наименование системы ЭВМ стран членов СЭВ (после его прохождения через официальные языки ООН) трансформировалось следующим образом: «Исходное наименование. — РЯД» — «Документы ООН» — «Перевод официального документа ООН: на русский язык: РИАД».
В принципе этот процесс значительно сложнее и приводит к более сложным ситуациям.
Это вызвано тем, что при передаче названий используются:
— название на языке оригинала;
— транскрипция;
— транслитерация;
— перевод;
— и даже присвоение условных наименований в рамках конкретной системы обмена информацией. Причем каждая форма представления может порождать несколько форм имени. В т. ч. и «язык оригинала», ибо в нем название может быть заимствовано из другого «языка оригинала».
Это требует создания сложных структур для лингвистических средств, задающих «Перечни (справочники) наименований». Поэтому даже для перечней необходимо использовать форматы сложной структуры типа структур АСВИЯ (формат «ФОЛИЯ»),
Необходимо учитывать и тот факт, что в наименованиях и кодовых обозначениях иногда используются символы, выполняющие роль служебных символов в базах данных.
В лингвистических средствах фактографических систем часто используются дополнительные индексы над и под символами (например: при использовании стандартных наименований химических элементов, структурных формул, размерностей и т. п.,).
Хорошей иллюстрацией этого является справочник по международной системе единиц. Одновременно этот справочник может рассматриваться как обязательное лингвистическое средство фактографических систем.
Далее, необходимо обратить внимание на трудность определения границ объектов сложной структуры (особенно это относится в большим системам). При отработке информационных моделей необходимо для каждого уровня описания выделять группы характеристик, которые присущи объекту в целом и не могут быть определены на основании характеристик и
свойств составляющих его элементов. Кроме этого в структуре информационной модели должны быть выделены аспекты описания, задающие связи с информационными моделями объектов более низкого уровня. При этом следует помнить, что объекты более низкого уровня могут быть элементами значительного числа объектов более высокого уровня, а также то, что связи могут быть через информационные модели нескольких уровней.
Для любых лингвистических средств, в т. ч. и АС фактографических систем, важным элементом их построения является определение лексикографического упорядочения лексических единиц. Здесь тоже имеются особенности, вызванные тем, что место лексической единицы в упорядоченной совокупности должно учитываться (для кодовых наименований особенно) по более сложным правилам, чем для текстов на одном языке.
Лингвистические средства, необходимые для обработки текстовой информации.
Обработка текстовой информации требует включения в состав лингвистического обеспечения следующего комплекса дополнительных лингвистических средств:
— словарей для автоматического индексирования текстов;
— словарей запрещенных к употреблению терминов;
— словарей синонимов, для повышения полноты и точности поисковых процедур;
— словарей для реализации автоматических процедур грамматического контроля вводимой информации;
— полиязычных словарей для реализации процедур перевода.
Примечание: Необходимо иметь несколько различных типов словарей: — для перевода с языка на язык нормализованной лексики лингвистических средств, что обеспечивает преобразование без потерь описания документов на уровне принятых рубрикаторов, дескрипторных словарей и т.п. Примером может служить уже упоминавшаяся система по окружающей среде и ее нормативные документы;
— для перевода наименований характеристик, задающих структуру информационных моделей объектов учета;
— нормализованных наименований объектов учета;
— словари используемого в системе программного обеспечения по переводу специализированных текстов.
При работе с текстами широко используются словари фактографических систем, в которых сосредоточено значительное число специализированной терминологии и особенно терминологии, связанной с «именами» объектов.
Здесь необходимо иметь в виду, что словари грамматического контроля, индексирования и контроля за терминологией привязаны, как правило, к конкретным программным продуктам. Поэтому при разработке соответствующих функциональных систем должна быть реализована программная совместимость используемых в сети программных средств с соответствующими программными комплексами, организующими обработку текстовой и терминологической информации.
Принятие проектных решений по этим вопросам требует проработок на уровне НИР, по каждому применению конкретного средства.