next perv

Компьютер, читающий Библию



«Поторопитесь за шоко», – настоятельно посоветовал компьютер. Затем вдруг задумался: «Рот требует курева». А после этого неожиданно заявил: «Иисус – Бог, чтобы веселиться». Тем не менее, эти загадочные фразы вызвали довольную улыбку у руководителей дигитальной гуманитарной лаборатории хайфского университета. Один из них – преподаватель Талмуда и Мидрашей, другой – профессор информационных систем.

Платформа, которая называется Kraken, делает первые пробные шаги, пытаясь расшифровать древний иврит. Разработчики уповают на то, что в недалеком будущем после завершения исследований Kraken сможет прочитать любой текст на иврите, даже если рукопись искажена, неразборчива или ее трудно расшифровать. Это – часть дисциплины, называемой дигитальной гуманитарной наукой, где используются передовые технологии для совершенствования изучения ТАНАХа, истории и литературы.

Как дети, которые впервые сталкиваются с еврейскими религиозными текстами в начальной школе, Kraken нуждается в практических занятиях, чтобы ознакомиться с имеющимся материалом. «Шоко» (ивр. какао), на самом деле – «шокет»: корыто. «Рот» хотел «иметь дело с Торой», а не требовал «курева», в то время как Иисус, не дай Бог, не имел никакого отношения к третьей фразе – изначально она звучала как «И возрадуется Господь».

Моше Лави – ветеран военной разведки, старший преподаватель Талмуда на кафедре еврейской истории в хайфском университете, а также директор и основатель eLijah-Lab, где и применяется Kraken, и один из двух руководителей дигитальной лаборатории.

Он рассказал о дигитальной революции, призванной спасти несколько исследовательских сфер от забвения. В разговоре мелькали слова, которые, кажется, находятся на расстоянии нескольких световых лет от «устаревших» направлений в проводимых им исследованиях: «глубинное обучение», «дистанционный просмотр», «компьютерное зрение», «интеллектуальный анализ данных» и «искусственные нейронные сети».

На мониторе Лави показал отсканированный фрагмент из Мидраша Танхума периода раннего средневековья, который практически не поддается прочтению, но компьютер не сдается.

Kraken, разработанный профессором Даниэлем Штекелем Бен-Эзрой из Практической школы высших исследований в Париже, успешно читает фрагмент, а затем представляет его в виде простого текстового файла.

Это открывает перед исследователями новые горизонты, поражающие воображение, и в первую очередь – поиск и анализ информации в больших объемах и видах текстов, которые до сих пор даже самый опытный исследователь не мог проделать в одиночку.

«Наше видение состоит в том, чтобы сделать все древнееврейские рукописи доступными. – подчеркивает Лави. – Мы сумеем трансформировать еврейское и древнееврейское наследие в тексты, доступные для обычного компьютерного поиска и изучения, тем самым сохранив огромный кладезь знаний и еврейских традиций».

Чтобы лучше понять, о чем говорит Лави, нужно понимать, какие технологические изменения претерпел мир рукописей за последнией годы. В прошлом древнееврейские тексты были доступны только в оригинальном – книжном – варианте. Чтобы изучить их, исследователям приходилось сидеть в библиотеках, зарывшись в многочисленные тома. В последние годы рукописи стараются оцифровать, сканировать и загружать в виде файлов с изображениями – это позволяет их открывать в компьютерах, расположенных в любой точке земного шара.

Следующим этапом, на котором сейчас сосредоточена дигитальная гуманитарная лаборатория, должно стать преобразование этих файлов из картинок, – в которых только человеческий глаз способен распознать слова и фразы, – в текстовые файлы, чтобы их смог читать компьютер.

Революция в этом вопросе стала возможной, благодаря технологии распознавания рукописного текста, которая позволяет компьютеру читать десятки тысяч страниц – например, романы и стихи XIX века, дневники и письма Второй мировой войны, а также древние философские и религиозные трактаты.

По словам Лави, «компьютер учат распознавать тексты автоматически, основываясь на практике, поэтому он получает контекстные знания о языке и использует их для достижения лучших результатов».

Профессор Цви Куфлик, второй руководитель лаборатории, считает, что «дни, когда исследователь проводил долгие часы, перебирая пыльные стопки книг в библиотеках, сходят на нет». Он добавляет, что «технология поможет избавить специалистов от истинно сизифова труда поиска, позволяя более эффективно распоряжаться собственным временем».

На данном этапе компьютер все еще нуждается в помощи исследователей. Они учат его читать и «понимать»  древнееврейские тексты, с которыми он сталкивается впервые. «Мы показываем компьютеру множество фотографических изображений рукописей, а также их правильную транскрипцию, – поясняет Лави. – Сам компьютер находит направляющую математическую формулу на основе визуальных данных для текста и развивает способность расшифровывать даже рукописный текст, который ранее не поддавался расшифровке».

Дрор Алович, технический менеджер лаборатории и аспирант-историк, уверен, что «недалек тот день, когда отпадет надобность в человеческом факторе, а тексты будут оцифровываться сами собой».

Алович привел пример того, как работает дигитальная революция в гуманитарных науках, ссылаясь на свой собственный опыт. Он сравнил количество первоисточников, на которые опирался профессор, занимавшийся той же темой, что и он, и работавший с ними нескольких недель архивных поисков, – с материалом, который он сам нашел за несколько минут поиска в домашнем компьютере. «Он использовал лишь 10 процентов того, что удалось получить мне», – говорит он.

Этот опыт может повторить любой желающий: Алович использовал бесплатный информационный банк в Historical Jewish Press, онлайн-архиве еврейских газет с 2.5 миллионами отсканированных страниц, начиная с XIX века до настоящего времени. Этот ресурс появился, благодаря профессору Ярону Цуру с факультета еврейской истории тель-авивского университета, пионеру дигитальных гуманитарных наук в Израиле.

Архитектор Рут Каплан, защищающая докторскую диссертацию по еврейской истории в хайфском университете, прибегла к помощи eLijah-Lab для изучения истории евреев в Лодзи. Kraken помог ей проанализировать проведенные там переписи населения.

«Из этих переписей можно получить ценную информацию о жизни, которая исчезла после нацистской оккупации, если знать, как использовать возможности компьютера», – отмечает Каплан. В частности, она проанализировала результаты переписей в польских архивах – в документах, содержащихся в устаревшем формате и более низкого качества. «Теперь, когда компьютер научился читать эти тексты, станет возможным получить информацию, которая была скрыта в них до сих пор», – говорит она.

«Мы не хотим хоронить классические гуманитарные науки. Наоборот, хотим их спасти. Нет, мы вовсе не заменяем исследователей прошлого, а позволяем человеческому разуму оперировать эффективными компьютеризированными инструментами», – закончил Моше Лави.

Офер Адерет

Источник: сайт Детали


ОТПРАВИТЬ
Ваш комментарий отправлен оператору сайта снижение