Нейросеть ученого из Уфы написала первый в России сборник стихов на башкирском языке

28 января 2021, 15:27
Книга Бориса Орехова «Мин шиғриәт үҙе… Компьютер шиғырҙар» — это второй в России поэтический сборник, написанный нейронной сетью, и первый — на башкирском языке.

Автор книги «Мин шиғриәт үҙе… Компьютер шиғырҙар» (доступна для бесплатного скачивания) — кандидат филологических наук, доцент Школы лингвистики НИУ ВШЭ, литературовед, специалист в области искусственного интеллекта Борис Орехов. Он написал программу нейронной сети, которая на основе ряда башкирских поэтических текстов научилась самостоятельно генерировать собственную поэзию:

— Есть такой афоризм: «Традиция — это не поклонение пеплу, а передача огня». Эта книга в высшей степени традиционная в том, что это оммаж традиционной башкирской культуре. Это попытка посмотреть, как традиционная башкирская поэзия живет в современном информационном обществе, как она развивается и эволюционирует, как горит ее огонь.

Книге предшествовала публикация нейропоэзии в журнале «Ватандаш». По словам Бориса Орехова, компьютеры умели писать стихи давно, но делали они это топорно, в лоб: в них закладывались слова, эти слова случайным образом переставлялись. Нейросеть действует по-другому:

— Это искусственный интеллект, который смотрит на материал и учится на нем, то есть находит закономерности, внутренние особенности. И если 40 лет назад компьютерная поэзия представляла собой эдакий случайный винегрет, то нейросеть выдает продукцию, которая воспроизводит стиль исходного материала. Это своего рода экстракт: если у нас есть большой корпус стихов на башкирском языке и мы хотим их сократить до небольшого отрывка, то нейросеть как раз делает за нас эту работу.

Исходным материалом для книги послужил корпус башкирских стихов из книг 103 авторов. В 2019 году у Бориса Орехова вышла книга «Башкирский стих ХХ века. Корпусное исследование», в которой он использовал этот же корпус текстов для научного исследования.

Половину книги нейропоэзии составляет предисловие на башкирском языке, в котором рассказывается, как функционируют нейронные сети. Вторая часть — собственно стихи. Научным редактором издания выступил кандидат филологических наук Искандер Саитбатталов.

— Благодаря ему эта книга стала возможной, — подчеркнул Борис Орехов. — Также я бы хотел поблагодарить доцента БашГУ Азамата Галлямова, который помогал оцифровывать корпус поэтических книг и без работы которого все это не было бы возможным. Во многом эта книга является отпечатком поэтического восприятия Искандера Расулевича, потому что он выбрал для публикации тексты из того множества, которое породила нейросеть. И отбирал он их в соответствии со своим поэтическим чутьем и видением поэзии. Если бы кто-то другой подбирал стихи, то книга получилась бы немного другая.

Книга оформлена в стилистике типографики XVIII века. Специально для нее разработали шрифт, который был использован в издании «Приключений Робинзона Крузо» конца 18 века. По словам дизайнера и верстальщика Диниса Муслимова, работа по оформлению книги была тяжелой и долгой, но результат стоил того:

— В плане дизайна — это синтез традиционного и сверхсовременного. Для обложки я сделал картинку — схему нейросети, добавил текст шрифтом, который копирует рукописный шрифт Да Винчи. Борис пропустил это через нейросеть, применил стиль рукописей Леонардо — и у нас получилась такая обложка. В процессе работы Борис усложнял и усложнял задачу, и мне запомнились его слова, что эту книгу надо сделать так, как будто это последняя книга на Земле.

К книге башкирской нейролирики примыкает инстаграм-проект «Нейробашкорт», который совместно с Борисом Ореховым ведут режиссер Тансулпан Буракаева и журналист Нурия Мухаметдинова.

— Я прочитала книгу и пришла в восторг, — рассказала Тансулпан Буракаева. — По первому образованию я художник — и мне пришла идея сделать иллюстрации к этим стихотворениям. В этих текстах отсутствует замысел, но в них есть определенный смысл, угадываемый без слов. То же самое получается и с картинами, написанными нейросетью, — соединяясь, они образуют такой эффект Кулешова и может возникнуть дополнительный смысл. Так мы запустили блог.

Нейросеть, которая выступает в роли художника, обучалась на основе 7 тыс. работ башкирских художников. По словам Бориса Орехова, это не очень много для набора данных, но «кое-что интересное и красивое в этом есть».

— То, как обучается нейросеть, отчасти напоминает, как человек начинает видеть мир, как он формирует образы из ярких пятен, вычленяет формы, — рассказала Нурия Мухаметдинова. — Например, к концу первого дня нейросеть научилась различать небо от земли. Постепенно мы начали замечать части человека, фигуры, танцующие у огня, что-то похожее на «Танец» Матисса, сейчас мы видим фантастических персонажей, которые выглядывают к нам из этих картин. Это невероятно чарующее зрелище!

Борис Орехов отметил, что эксперимент с башкирской нейролирикой проводился несколько лет назад и на данный момент уже существует более передовая технология, которая способна показать более удачный результат по созданию нейролирики. Но для таких сетей нужны очень большие объемы текстов на башкирском языке, а таких данных в цифровом пространстве пока еще нет.

— Было бы здорово, если бы удалось организовать проект оцифровки всего, что написано на башкирском языке, — это здорово помогло бы дальнейшему развитию этого направления, — добавил Борис Орехов.

#Культура #Эксклюзив #Андрей Королев #Новости #Башкирский язык
Подпишитесь