Особенности создания и характеристика цифровых источников знаний

Методы и инструменты создания баз знаний

Компьютерные технологии подтолкнули развитие цифровых форм преподнесения информации. Это электронные книги, электронные библиотеки и так называемые управляемые цифровые «базы знаний». Для подготовки таких новых форм представления информации необходимы специальные инструменты и методы. Тексты, которые формируют базу знаний, должны быть определенным образом индексированы (помечены). При проставлении меток важно использовать стандартные номенклатуры и словари. Поскольку номенклатур медицинских терминов много, то они должны быть определенным смысловым (иерархическим) образом связаны между собой. Когда тексты попадают в цифровую базу, то в зависимости от их содержания и предназначения они должны быть размещены на своем месте, или «книжной полке». Приведем краткое описание того, с помощью каких инструментов создаются базы знаний. За этим процессом стоит труд большого числа специалистов — в области компьютерных технологий, издательского дела и медицины.

  1. Базы данных. Сегодня данные собирают, накапливают и объединяют в электронных базах, как правило, организованных по определенной структуре. База данных — это собрание или хранилище данных без какого-либо анализа. Например, ЭИБЭИБ — информационная система, предназначенная для ведения, хранения на электронных носителях, поиска и выдачи по информационным запросам (в том числе и по электронным каналам связи) персональных медицинских записей. ГОСТ Р 52636-2006 Электронная история болезни. Общие положения (с поправкой) от 27 декабря 2006 г. — docs.cntd.ru [электронный ресурс]. URL: https://docs.cntd.ru/document/1200048924 (дата обращения: 15.02.2022). может быть просто структурированной базой данных о пациентах какого-либо учреждения. И, напротив, если данные о пациенте в ЭИБ стандартизованы и объединены из разных отделений для представления врачу в одном окне, то это уже будет являться информационной базой данных. Сегодня такую ЭИБ называют ЭМК. Когда в информационной базе содержатся знания (выводы, результаты исследований, предположения, модели), которые помогают принимать решения, то она становится базой знаний. В случае если такая база управляется набором программных средств, то она называется управляемой базой знаний (информации).
  2. Единые стандарты и номенклатуры. В огромном разнообразии медицинских терминов, описывающих заболевания, симптомы, лекарства, данные от медицинских приборов и лабораторных исследований, важно соблюдение единообразия и единого толкования, чтобы медицинские работники понимали друг друга. Для этого еще в докомпьютерную эпоху существовали словари и номенклатуры (классификаторы). Номенклатура — это система представления терминов, позволяющая установить связь между объектами и процессами, относящимися к определенной группе. Сегодня, когда данные о пациенте собираются в ЭМК в каждой отдельной медицинской организации, «единый язык» для обмена данными между разными системами особенно важен. Для этого разработана и продолжает развиваться система национальных и международных стандартов, среди них:
    • стандарты медицинских терминов и привязанных к ним кодов, например международный классификатор болезней МКБ-10, МКБ-11; крупнейший классификатор медицинских терминов SNOMED СTSystematized Nomenclature of Medicine — Clinical Terms, самая крупная классификация медицинских терминов с кодами., который начинался с обобщения патологических терминов (содержит более 300 тыс. терминов); стандарты визуальных диагностических исследований DICOMDigital Imaging and Communications in Medicine, Стандарт передачи и обмена визуальными изображениями.;
    • стандарты обмена медицинскими данными (НL7Health Level 7 International, Стандарт организации и обмена данными в ЭМК.);
    • стандарты ИСОInternational Standard Organization, Международная организация, занимающаяся стандартами., которые описывают разные аспекты хранения и обмена цифровыми данными;
    • инструменты маппинга (data mapping)Маппинг — определение соответствия данных между потенциально различными семантиками одного объекта или разных объектов., к ним относится UMLS (Unified Medical Language System) — система, которая объединяет все медицинские словари и связи между ними. Маппинг необходим также для индексирования текстов и соответственно ускоренного поиска необходимой информации. Метатезаурус — это один из компонентов унифицированного языка медицинских систем UMLS, который связывает в единое целое Мesh (медицинская база терминов и заголовков) и еще десятки контролируемых медицинских словарей терминов. Он состоит из трех составляющих: метатезауруса, семантической сети и лексикона, см. рис. 0.7.
  3. Индексирование. По одному запросу, например, найти информацию о гипертонической болезни в огромной базе данных невозможно, потребуется просмотреть последовательно все документы. Это займет огромное количество времени. Для ускорения процесса текст, содержащийся в базе данных, индексируют или помечают терминами из соответствующих словарей. Индексирование — это разметка данных в тексте, чтобы их можно было найти пользователю. Индексирование может происходить вручную (когда человек вручную проставляет метки или «теги» в тексте около тех слов, которые необходимо найти) или автоматически с помощью программных средств. Для обоих процессов необходимо использовать словари терминов и протоколы, определяющие процесс индексирования. Поиск — процесс, который позволяет сравнить запрос с имеющейся системой индексов (меток) для того, чтобы дать ответ по наличию в базе данных информации, соответствующей запросу.
  4. Словари терминов — это перечни терминов, которые сопровождаются их определениями, а когда они сопровождаются еще и всевозможными синонимами, то такие словари называют тезаурусами. Синонимы необходимо учитывать, так как пользовательские запросы могут быть самые разные — от профессиональных до бытовых, например «мигрень» или «головная боль».
  5. Взаимосвязи между терминами. При индексировании важно учесть связи между терминами, их описывают тремя категориями:
    • иерархические, которые определяют структуру расположения терминов, например артериальная гипертензия находится в структуре болезней системы кровообращения;
    • синонимические, когда в процессе индексирования помечаются синонимы основного термина, например «артериальная гипертензия» и «высокое артериальное давление»;
    • связанные, которые нельзя отнести ни к иерархическим связям, ни к синонимическим, но, тем не менее, термины как-то связаны, например гипертензия и ртутный тонометр. Примером комплексного словаря медицинских терминов и связанных с ним данных (синонимов и иерархических связей) является Медицинская база терминов и заголовков (Medical subject headings — Мeshhttps://www.nlm.nih.gov/mesh/meshhome.html). С помощью этого словаря осуществляется поиск данных в полнотекстовой базе медицинских научных статей — PubMedhttps://pubmed.ncbi.nlm.nih.gov/.

Общее представление о том, как выглядит процесс разметки данных в базе знаний, представлен на рис. 0.8.

Рис. 0.7. Инструменты маппинга и архитектура UMLS

Рис. 0.8. Процесс создания базы знаний

Классификация и примеры баз знаний в РФ и за рубежом

Принято подразделять цифровые медицинские базы на библиографические, полнотекстовые, аннотированные и агрегированные. В табл. 0.1 представлены примеры российских и зарубежных баз знаний.

Примером самой большой агрегированной базы знаний на английском языке является Medline Plus — она содержит словари терминов, новости, книги, ссылки на научные статьи. Эту базу поддерживает Национальная медицинская библиотека США. Коммерческое издательство Elsevier (Нидерланды) сделала доступной для медицинских работников аналогичную базу знаний — «EMBASE», которая содержит более 28 млн записей. Для врачей они сделали агрегированный комплексный ресурс «Clinical Key».

Таблица 0.1. Классификация и характеристика медицинских баз знаний

Наименование Характеристика Пример за рубежом Пример в РФ
1 Библиографические медицинские базы Библиографические данные об опубликованных книгах и журналах, которые определенным образом индексированы MEDLINE, 5 тыс. научных журналов, 24 млн аннотаций научных статей, 800 тыс. ежегодных пополнений https://www.nlm.nih.gov/medline/ medline_overview.html Научная электронная библиотека https://www.elibrary.ru/ КиберЛенинка https://cyberleninka.org/
2 Полнотекстовые медицинские базы знаний Полнотекстовые книги и журналы в электронном формате, доступные через веб-сайт (бесплатно или по подписке), которые, как правило, содержат и оперативную информацию, например новости Мayo Clinic https://www.mayoclinic.org/ WebMD https://www.webmd.com/ «Консультант студента» https://www.studentlibrary.ru/; «Консультант врача» https://www.rosmedlib.ru/
3 Аннотированные медицинские базы знаний Это базы, которые содержат коллекцию тематических подборок, например иллюстрации с описаниями; ответы на определенные вопросы; информацию о лекарственных средствах 5 Minute Consult https://5minuteconsult.com UpToDate http://www.uptodate.com BMJ Best Practice (Clinical Evidence) http://bestpractice.bmj.com Dynamed https://dynamed.ebscohost.com Лекарственный справочник ГЭОТАР https://www.lsgeotar.ru/
4 Агрегированные (комплексные) управляемые базы знаний Базы, которые содержат всевозможные необходимые врачам источники — новости, руководства, лекарственные справочники, визуальные изображения, словари терминов и др. Medline Plus https://medlineplus.gov/ Clinical Key (First Consult) https://www.clinicalkey.com «Цифровой консультант врача» и «Цифровой консультант организатора здравоохранения» на базе платформы WellComes (выход первой версии — май 2022 г.)

В РФ для медицинского образования используются только два электронных ресурса: «Консультант студента» и «Консультант врача». Они созданы на базе текстов учебников и руководств издательской группы «ГЭОТАР-Медиа», снабжены полноценным поисковым аппаратом и по праву могут называться полнотекстовыми базами знаний. Сегодня ГЭОТАР совместно со специалистами в компьютерных технологиях готовит управляемую агрегированную базу знаний для медицинских работников. Она будет расположена на специальной цифровой платформе WellComes, при разработке которой были реализованы все современные инструменты медицинской информатики (метатезаурус, семантическая сеть и лексикон). Это позволит российским врачам и организаторам здравоохранения быстро получить полноценный ответ на всевозможные клинические и управленческие вопросы. «Цифровой консультант врача», который увидит свет в мае 2022 г., будет содержать следующие индексированные тексты:

  • 90 тыс. медицинских терминов (с синонимами, аббревиатурами) и их толкованиями (тезаурус);
  • 800 российских клинических рекомендаций;
  • 2000 международных клинических рекомендаций;
  • 2500 статей по наиболее часто встречающимся заболеваниям и состояниям;
  • более 3 тыс. новых изданий из обширной медицинской библиотеки, подготовленных ведущими российскими специалистами за последние 3 года;
  • лучшие мировые руководства из «Золотой серии», адаптированные ведущими вузами и НМИЦ РФ, 5 из них готово, 14 — в переводе, 20 — на старте;
  • 20 тыс. иллюстраций и медиаконтент;
  • 23 тыс. структурированных статей по торговым наименованиям лекарственных средств (ЛС);
  • 80 НСИ (классификаторов), в том числе МКБ-11.

Благодаря этому российские врачи получат быстрый и легитимный ответ на любой клинический вопрос по всем специальностям и возможность совершенствовать свои знания и навыки, а в будущем также получать кредиты в системе непрерывного медицинского образования. Все эти базы знаний, собственно, как и бумажные книги, иногда называют пассивными, то есть не соединенными с индивидуальными данными о пациенте [3]. Активными принято называть базы знаний, которые учитывают персональные данные пациента. Строго говоря, это уже экспертные системы или системы поддержки принятия клинических решений (СППКР), которые рассмотрены в следующей главе.

Есть еще очень интересная сфера приложений медицинской информатики в современном медицинском образовании (как на уровне базового образования, так и в совершенствовании клинических навыков практикующих специалистов) — это тренажеры и симуляторы. Их разработка лежит на стыке компьютерных и инженерных технологий, а также использует базы знаний. На заре производства симуляторов это были простые манекены (куклы) с несколькими инженерными приспособлениями для отработки практических навыков у студентов и врачей. Сегодня это целый спектр решений, где симуляторы соединяются с компьютерными технологиями. Есть такие симуляторы, которые полностью перешли в виртуальное пространство и уже не нуждаются в участии манекенов. Приведем несколько примеров, доступных в РФ.

  • Лапароскопический симулятор с обратной тактильной связьюГЭОТАР-Мед: [электронный ресурс]: ЛапМентор — лапароскопический симулятор с обратной тактильной связью. URL: https://www.geotarmed.ru/catalog/virtualnyie-simulyatoryi/laparoskopicheskij-simulyator-dlya-obucheniya-endoskopicheskoj-xirurgii-lapmentor-p.html (дата обращения: 21.02.2022).. Это симулятор, который состоит из лапароскопических инструментов, соединенных с компьютерной программой, и телеэкрана. Обучающийся, держа в руках хирургические инструменты и производя ими действия в виртуальном хирургическом поле, видит свои действия на экране, причем программа может подсказывать ему, правильно ли он действует.
  • Виртуальный анатомический столГЭОТАР-Мед: [электронный ресурс]: Анатомаж — виртуальный анатомический стол. URL: https://www.geotar-med.ru/catalog/ekrannyiesimulyatoryi/virtualnyij-anatomicheskij-stol-s-obnovlennyim-programmnyim-obespecheniem-anatomazh-5.html (дата обращения: 21.02.2022).. Это компьютерная программа, встроенная в телеэкран в виде большого стола, где студент или даже врач может послойно изучать строение человеческого тела. Причем одновременно можно видеть, как части человека выглядят на рентгеновских снимках и МРТ, в виде гистологических препаратов.
  • «Семейство виртуальных пациентов»: симуляторы «Боткин»ГЭОТАР-Мед: [электронный ресурс]: Боткин — экранный симулятор виртуального пациента. URL: https://www.geotar-med.ru/catalog/ ekrannyie-simulyatoryi/botkin.-vnutrennie-bolezni-%E2%80%94-ekrannyij-simulyator-virtualnogo-paczienta.html (дата обращения: 21.02.2022)., «Филатов»ГЭОТАР-Мед: [электронный ресурс]: Филатов — экранный симулятор виртуального пациента. URL: https://www.geotar-med.ru/catalog/ ekrannyie-simulyatoryi/filatov.-detskie-bolezni-%E2%80%94-ekrannyij-simulyator-virtualnogo-paczienta.html (дата обращения: 21.02.2022). — это компьютерные программы, позволяющие студентам на примере виртуальных пациентов отрабатывать пропедевтические навыки.

Примеры современных симуляторов представлены на рис. 0.9.

Рис. 0.9. Симуляционно-виртуальное пространство «ГЭОТАР-Мед»

Автор: Г.Э. Улумбекова