Особенности создания и характеристика цифровых источников знаний

Методы и инструменты создания баз знаний

Компьютерные технологии подтолкнули развитие цифровых форм преподнесения информации. Это электронные книги, электронные библиотеки и так называемые управляемые цифровые «базы знаний». Для подготовки таких новых форм представления информации необходимы специальные инструменты и методы. Тексты, которые формируют базу знаний, должны быть определенным образом индексированы (помечены). При проставлении меток важно использовать стандартные номенклатуры и словари. Поскольку номенклатур медицинских терминов много, то они должны быть определенным смысловым (иерархическим) образом связаны между собой. Когда тексты попадают в цифровую базу, то в зависимости от их содержания и предназначения они должны быть размещены на своем месте, или «книжной полке». Приведем краткое описание того, с помощью каких инструментов создаются базы знаний. За этим процессом стоит труд большого числа специалистов — в области компьютерных технологий, издательского дела и медицины.

  1. Базы данных. Сегодня данные собирают, накапливают и объединяют в электронных базах, как правило, организованных по определенной структуре. База данных — это собрание или хранилище данных без какого-либо анализа. Например, ЭИБЭИБ — информационная система, предназначенная для ведения, хранения на электронных носителях, поиска и выдачи по информационным запросам (в том числе и по электронным каналам связи) персональных медицинских записей. ГОСТ Р 52636-2006 Электронная история болезни. Общие положения (с поправкой) от 27 декабря 2006 г. — docs.cntd.ru [электронный ресурс]. URL: https://docs.cntd.ru/document/1200048924 (дата обращения: 15.02.2022). может быть просто структурированной базой данных о пациентах какого-либо учреждения. И, напротив, если данные о пациенте в ЭИБ стандартизованы и объединены из разных отделений для представления врачу в одном окне, то это уже будет являться информационной базой данных. Сегодня такую ЭИБ называют ЭМК. Когда в информационной базе содержатся знания (выводы, результаты исследований, предположения, модели), которые помогают принимать решения, то она становится базой знаний. В случае если такая база управляется набором программных средств, то она называется управляемой базой знаний (информации).
  2. Единые стандарты и номенклатуры. В огромном разнообразии медицинских терминов, описывающих заболевания, симптомы, лекарства, данные от медицинских приборов и лабораторных исследований, важно соблюдение единообразия и единого толкования, чтобы медицинские работники понимали друг друга. Для этого еще в докомпьютерную эпоху существовали словари и номенклатуры (классификаторы). Номенклатура — это система представления терминов, позволяющая установить связь между объектами и процессами, относящимися к определенной группе. Сегодня, когда данные о пациенте собираются в ЭМК в каждой отдельной медицинской организации, «единый язык» для обмена данными между разными системами особенно важен. Для этого разработана и продолжает развиваться система национальных и международных стандартов, среди них:
    • стандарты медицинских терминов и привязанных к ним кодов, например международный классификатор болезней МКБ-10, МКБ-11; крупнейший классификатор медицинских терминов SNOMED СTSystematized Nomenclature of Medicine — Clinical Terms, самая крупная классификация медицинских терминов с кодами., который начинался с обобщения патологических терминов (содержит более 300 тыс. терминов); стандарты визуальных диагностических исследований DICOMDigital Imaging and Communications in Medicine, Стандарт передачи и обмена визуальными изображениями.;
    • стандарты обмена медицинскими данными (НL7Health Level 7 International, Стандарт организации и обмена данными в ЭМК.);
    • стандарты ИСОInternational Standard Organization, Международная организация, занимающаяся стандартами., которые описывают разные аспекты хранения и обмена цифровыми данными;
    • инструменты маппинга (data mapping)Маппинг — определение соответствия данных между потенциально различными семантиками одного объекта или разных объектов., к ним относится UMLS (Unified Medical Language System) — система, которая объединяет все медицинские словари и связи между ними. Маппинг необходим также для индексирования текстов и соответственно ускоренного поиска необходимой информации. Метатезаурус — это один из компонентов унифицированного языка медицинских систем UMLS, который связывает в единое целое Мesh (медицинская база терминов и заголовков) и еще десятки контролируемых медицинских словарей терминов. Он состоит из трех составляющих: метатезауруса, семантической сети и лексикона, см. рис. 0.7.
  3. Индексирование. По одному запросу, например, найти информацию о гипертонической болезни в огромной базе данных невозможно, потребуется просмотреть последовательно все документы. Это займет огромное количество времени. Для ускорения процесса текст, содержащийся в базе данных, индексируют или помечают терминами из соответствующих словарей. Индексирование — это разметка данных в тексте, чтобы их можно было найти пользователю. Индексирование может происходить вручную (когда человек вручную проставляет метки или «теги» в тексте около тех слов, которые необходимо найти) или автоматически с помощью программных средств. Для обоих процессов необходимо использовать словари терминов и протоколы, определяющие процесс индексирования. Поиск — процесс, который позволяет сравнить запрос с имеющейся системой индексов (меток) для того, чтобы дать ответ по наличию в базе данных информации, соответствующей запросу.
  4. Словари терминов — это перечни терминов, которые сопровождаются их определениями, а когда они сопровождаются еще и всевозможными синонимами, то такие словари называют тезаурусами. Синонимы необходимо учитывать, так как пользовательские запросы могут быть самые разные — от профессиональных до бытовых, например «мигрень» или «головная боль».
  5. Взаимосвязи между терминами. При индексировании важно учесть связи между терминами, их описывают тремя категориями:
    • иерархические, которые определяют структуру расположения терминов, например артериальная гипертензия находится в структуре болезней системы кровообращения;
    • синонимические, когда в процессе индексирования помечаются синонимы основного термина, например «артериальная гипертензия» и «высокое артериальное давление»;
    • связанные, которые нельзя отнести ни к иерархическим связям, ни к синонимическим, но, тем не менее, термины как-то связаны, например гипертензия и ртутный тонометр. Примером комплексного словаря медицинских терминов и связанных с ним данных (синонимов и иерархических связей) является Медицинская база терминов и заголовков (Medical subject headings — Мeshhttps://www.nlm.nih.gov/mesh/meshhome.html). С помощью этого словаря осуществляется поиск данных в полнотекстовой базе медицинских научных статей — PubMedhttps://pubmed.ncbi.nlm.nih.gov/.

Общее представление о том, как выглядит процесс разметки данных в базе знаний, представлен на рис. 0.8.

Рис. 0.7. Инструменты маппинга и архитектура UMLS

Рис. 0.8. Процесс создания базы знаний

Войдите, чтобы использовать весь функционал платформы

Автор: Г.Э. Улумбекова

Новости и события