Разработан поисковик для изучения древних рукописей

В НИЯУ МИФИ в Лаборатории цифровой лингвистики разрабатывается лингвистическая интеллектуальная среда «Рукописное наследие Древней Руси», которая будет способна распознавать церковно-славянские рукописи XI-XVIII веков и представлять их выборку под конкретный запрос. Для формирования корпуса изучаемых объектов специалисты лаборатории – сотрудники Института интеллектуальных кибернетических систем НИЯУ МИФИ и Института русского языка им. В.В. Виноградова РАН выбрали богослужебные книги – Минеи. Таких книг в библиотеках, архивах и хранилищах музеев сохранилось больше всего, и что немаловажно, сохранилось в хорошем состоянии. «В целом, когда мы работаем с дефицитом достоверной информации, лучше иметь побольше источников, которые как можно полнее могут рассказать о языке, а служебные рукописные книги были в большом ходу, имелись в каждой церкви, да и печатать их начали первыми, – говорит руководитель проекта, доцент кафедры кибернетики НИЯУ МИФИ Дмитрий Демидов. – Сейчас у нас уже есть в цифровом виде примерно 250 книг (по 500 страниц каждая), хранящихся в РГБ, Историческом музее, областных библиотеках. Работа, которой мы занимаемся на первом этапе, если говорить на понятном для широкой публики языке, обратна тому, чем раньше занимались наборщики книг в типографии: они из букв составляли строки, а из строк – страницы, мы же обучаем машину распознавать границы текста, «вырезать» строки, буквы, выносные знаки, буквицы и вязь. Это называется сегментация, за ней идет классификация, чтобы потом к одному тексту можно было бы подобрать целый ряд подобных и на основании выборки, например, датировать рукопись, проследить как менялся текст, слово или знак на протяжении времени». Лингвистическая интеллектуальная среда задумана как человеко-машинный интерфейс с элементами самообучения. То есть в нее можно будет постоянно добавлять новые рукописи, которые искусственный интеллект будет распознавать и при этом постоянно подстраивать свои алгоритмы распознавания. «Для машинного обучения важно, чтобы было достаточное количество образцов – тогда можно быть уверенным, что на «открытом поле», где ничего не размечено, нейронная сеть даст высокоточный результат. Если же материала будет недостаточно, то система сделает много ошибок. Каждая новая рукопись, которую мы обрабатываем, вносит свой вклад в донастройку моделей, «добавляет мозгов» программе и обучает весь программный комплекс. Чем больше мы обработаем рукописей на этом этапе, тем релевантнее будет ответ на запрос пользователя — будь то поиск по текстам или изображениям», – добавляет Дмитрий Демидов. Церковно-славянские тексты имеют свои особенности, которых нет в других языках – это титлы, то есть надстрочные знаки сокращения слов, и выносные буквы Словаря, который учитывал бы все виды слов и сокращений в церковно-славянском языке, не существует (поэтому параллельно в Лаборатории работают над созданием Морфологического словаря, где будут даны леммы со всеми словоформами и вариациями написания). Плюс – в рукописях мас...

Разработан поисковик для изучения древних рукописей

Сообщает android-robot.com

 

Опубликовано: 06:45, 30.05.2024

 

Новость из рубрики:

 

Поделиться новостью: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

 
 

Астрофизики используют суперкомпьютер для изучения экзотических звездных явлений 17:27, 22 Мар Астрофизики используют суперкомпьютер для изучения экзотических звездных явлений Понимание того, как термоядерное пламя распространяется по поверхности нейтронной звезды – и что это распространение может рассказать нам о взаимосвязи между массой нейтронной звезды и ее радиусом – также может многое рассказать о составе звезды. Не...

Почему жители древних европейских городов были вегетарианцами 01:18, 11 Янв Почему жители древних европейских городов были вегетарианцами Ученые выяснили, чем питались жители трипольских городов Современные технологии позволяют узнать чем питались наши предки тысячи или даже десятки тысяч лет назад по одним лишь их зубам. Таким образом уже удалось сделать много интересных и неожиданны...

Какое напольное покрытие выбрать 12:55, 01 Июл Какое напольное покрытие выбрать? В доме есть три основных вида полов - деревянный паркет, панели и плитка. Скорее всего, случится так, что вы определитесь с двумя из них - плиткой и паркетом или панелями. Плитка идеально подходит, например, для ванной комнаты, потому что пол там ча...

Учёные назвали грибы и лишайники главным врагом древних наскальных рисунков 20:00, 06 Июл Учёные назвали грибы и лишайники главным врагом древних наскальных рисунков Учёные Венской академии изящных искусств в ходе исследований, которые должны объяснить, как сохранить наскальные рисунки, изучили образцы, взятые на участке с петроглифами в центрально-западном нагорье пустыни Негев на юге Израиля. Этим петроглифам ...

Электрические сушилки для рук - Santehlux 15:31, 07 Июн Электрические сушилки для рук - Santehlux В современном мире стремление к гигиене и удобству стало важной частью повседневной жизни. Электрические сушилки для рук от компании Santehlux представляют собой идеальное решение для общественных и частных ванных комнат, обеспечивая быструю и эффек...

Разработан ударопрочный растягивающийся электронный компонент нового поколения 13:18, 30 Июн Разработан ударопрочный растягивающийся электронный компонент нового поколения Исследовательская группа профессора Кён Ин Чанга с кафедры робототехники и мехатроники DGIST преуспела в разработке высокостабильного растягивающегося электронного устройства, которое преодолевает механические ограничения обычных неорганических мате...

Самые интересные недорогие направления для путешествий на Новый год  2024. От северного сияния до древних медресе 08:54, 02 Дек Самые интересные недорогие направления для путешествий на Новый год — 2024. От северного сияния до древних медресе В 2024 году россиян ждёт целых 10 дней новогодних каникул: с 30 декабря по 8 января. Многим захочется провести хотя бы часть этого времени не дома, а в поездке по России или за границей. При этом вояж не обязательно окажется дорогим — при желании мо...

Разработан фреймворк машинного обучения, который кодирует изображения, как сетчатка 11:18, 12 Фев Разработан фреймворк машинного обучения, который кодирует изображения, как сетчатка Исследователи EPFL разработали подход машинного обучения для сжатия данных изображений с большей точностью, чем методы вычислений без обучения, с применением для имплантатов сетчатки и других сенсорных протезов. Основной проблемой разработки более с...

04:00, 17 Авг Разработан быстрый метод сканирования для нейтральных атомных пучковых микроскопов Исследователи из Университета Суонси создали метод визуализации для нейтральных атомных пучковых микроскопов, который позволяет получать микроскопические изображения значительно быстрее, чем существующие методы. Теперь инженеры и учёные смогут получ...

00:00, 28 Авг Разработан интерфейс «мозг-машина», который обрабатывает нейронные сигналы в реальном времени Исследователи из EPFL разработали миниатюрный интерфейс «мозг-машина» нового поколения, способный осуществлять прямую коммуникацию мозга с текстом на крошечных кремниевых чипах. Интерфейсы мозг-машина (ИММ) появились как многообещающее решение для в...