Библиотеку будущего будет курировать искусственный интеллект

В июле 1848 года французский еженедельник L'illustration напечатал первую фотографию к газетной статье. На ней были изображены парижские баррикады, установленные во время июньского восстания.

Почти два столетия спустя фотожурналистика "одарила" библиотеки огромным количеством материалов со снимками. И без нового подхода к их сортировке библиотекари-люди в скором времени могут просто не успеть их классифицировать и раскладывать по полкам. Вот почему в Библиотеке Конгресса (Вашингтон) проходит эксперимент, в рамках которого искусственный интеллект помогает распознавать и классифицировать архивы газет.

Более 860 000 страниц в сутки: скорость поражает

Бен Ли, куратор проекта и специалист по инновациям, руководит внедрением системы под названием "Газетный Навигатор". Отличием новой системы от существующих (например, "Chronicling America") является самообучение — программа накапливает массивы данных и со временем улучшает качество своей работы.

Для начала работы Ли задействовал волонтеров, которые загрузили в систему начальные данные и описали их, чтобы программа "поняла" суть работы. И такой подход принес плоды: всего за 19 дней "Газетный Навигатор" сумел обработать и классифицировать все газетные страницы, которые были в библиотеке — 16 358 041 штуку. При этом как "проблемные" (вызвавшие неточности при сканировании) программа отметила всего 383 страницы.

Как работает и каковы перспективы

"Газетный Навигатор" основан на той же технологии, которую инженеры использовали для создания "Google Книг". В основе технологии оптическое распознавание, или OCR, которое позволяет качественно определять отпечатанные и рукописные символы даже со скан-копий. Благодаря этому упростился и поиск: достаточно задать слово или предложение, и система найдет все материалы, в которых есть искомые данные.

Также Ли улучшил технологию, создав модель обнаружения объектов, которая могла бы выделить семь различных типов контента:

  • фотографии,
  • иллюстрации,
  • карты,
  • комиксы,
  • редакционные мультфильмы,
  • заголовки
  • и рекламные объявления.

"На самом деле мы надеемся, что технология пригодится всем, у кого есть архивы газет, журналов или чего-то подобного. Каждый сможет собрать свою базу — естественно, в нужном масштабе.

Да, система не идеальна — есть некоторые ошибки в классификации, например, алгоритм может спутать кадр из мультфильма с фотографией. Мы надеется, что наш проект привлечет в том числе опытных программистов и специалистов по ИИ и машинному обучению, которые помогут его развить", — рассказывает Ли.

Фото: sciencetechniz.com

Автор Евгений Стриж
Евгений Стриж — журналист, внештатный корреспондент Правды.Ру