GPT-3, DALL-E и AI

когда текстовый генератор создан для решения математической головоломки, начинающейся со слов «Давайте продумаем все шаг за шагом», это повышает вероятность получения правильного ответа в результате в 4 раза

если вы хотите создать изображения зданий, например, а вам лучше узнать больше об архитектуре периодов, известных архитекторов и названий архитектурных деталей, все это будет полезно для создания конкретных результатов. То же самое для подсвечников, мультфильмов или фантиков от конфет.

image

Вы слушаете Артём Подкаст.

Последние полгода Артём провёл, внимательно наблюдая за всевозможными нейросетями и прочими технологиями искусственного интеллекта, и решил поделиться своими мыслями, которые накопились за это время у него с вами.

Для кого этот подкаст? Во-первых, сразу хочу сказать, что этот подкаст не только для программистов и людей, причастных к компьютерным технологиям, поскольку можно закодировать в текст и в конце концов в цифры всё, что угодно. Тот факт, что вы сейчас слышите мою речь, как раз это подтверждает. Нет ни одной причины, по которой рисование, музыка, хореография не могли бы быть оцифрованы, переведены в текст и в конце концов в единички и нолики. Поэтому технологии эти касаются всех, не только людей, которые работают с текстом и с цифрами, буквально каждого творческого человека, да и нетворческого тоже.

За последние полгода Артём рассмотрел и поверхностно изучил множество различных инструментов, доступных публике. По большому счёту они, конечно, были доступны в каких-то приватных бета-тестированиях, но те, кто хотели, все доступы получили, и кто интересовался этой темой, не было проблем пойти и попробовать. Собственно, о чём речь? Есть различные инструменты, которые позволяют, скажем так, дополнить возможности человеческого разума, расширить доступные нам границы в творчестве, в производительности труда и в жизни в целом. Один из первых таких инструментов был, наверное, каменный нож пещерного человека, который был более крепкий, чем его ногти. Потом появились различные сельскохозяйственные орудия труда. И теперь вот у нас есть компьютеры, Википедии, интернеты и прочие благоцивилизации, которые расширяют наше влияние и ускоряют обмен информацией ежедневной.

И один из последних таких технологических скачков, который случился, это так называемые нейросети. Это такие компьютерные программы, которые создаются особым образом. Обычно программу пишет человек, программист. И по сути это немногим сильно отличается от написания книги, когда человек садится, задумывает какой-то замысел, имеет четкое представление, чего он хочет достичь в конце, и главу за главой наносят текст на странице, и получается книга. Это нечто подобное происходило до недавнего времени и с программами. Люди садились за клавиатуру и строчкой за строчкой печатали произведение свое. Что поменялось? Как программы пишутся теперь?

Теперь вместо того, чтобы писать программу строчкой за строчкой, садится человек за компьютер, показывает компьютеру миллионы и миллиарды примеров того, что он хочет получить в конце, и компьютер учится находить нечто общее между этими примерами, которые ему показывают, выделять какую-то из них суть, сущность и формулирует такую программу, которая впоследствии может новые образцы генерировать из того, что он видел, выявляя суть, выявляя значение того, что ему было показано, и некоторым образом позволяя, так сказать, добиться не то что понимания, но некоторой категоризации входящих данных. Соответственно, программирование сместилось из деятельности, когда человек должен быть узкоспециализированным специалистом в написании, в сторону, когда человек просто должен найти максимально простой и понятный для компьютера способ выуживать суть из показанных примеров. Соответственно, к чему это приводит?

Такая программа, которую компьютер генерирует, позволяет, например, если мы говорим о создании изображений, позволяет создавать пары между текстовым описанием изображения и набором пикселей, квадратной картинкой. Пары эти изначально были размечены людьми, то есть из интернета собраны картинки по разным темам с их описаниями на много-много различных тем. Все это было показано компьютеру, и на выходе компьютер сгенерировал такую вот так называемую модель, или попросту говоря программу, давая на вход которой текстовое описание, компьютер может показать картинку, которую он представляет себе в виде этот текст, то есть инвертировать процесс. Сначала он смотрел картинки и текст, а теперь он видит только текст и сам придумывает картинку под этот текст.

И в итоге получается, что пользователь такой программы уже взаимодействуя с этой программой, его главная задача — это придумать такой текст, который заставит компьютер сгенерировать необходимую картинку. То есть программирование — вот то самое в исконном значении, когда человек садился за компьютер, имея в голове некий финальный результат и некоторое специальное знание, и садился и писал, чтобы получить финальный результат, никуда не делаясь. Просто теперь человек пишет не на специальном языке программирования, таком эзотерическом, математическом, а на простом человеческом языке пытается описать свой финальный результат компьютеру, а компьютер уже сам генерирует то, что человек хочет.

И вот это самое искусство — описать финальный результат словами — и есть сейчас самое главное и самое востребование востребованное умение. Ну, даже если не сейчас, то в скором времени будет. Потому что искусство придумывать текстовое описание к картинкам уже дошло до такой степени, даже вот в текущих небольших объемах, которых сейчас за последние полгода люди уже начали этим заниматься, в каких-то таких сообществах, энтузиастах, нейросетей и подобных местах в интернете, люди уже дошли до того, что вот этот текст, который они придумывают, чтобы картинку им компьютер выдал, он уже становится интеллектуальной собственностью. Люди не делятся текстами, которые они подают на вход, а делятся только результатами, то есть картинками, которые компьютеры дают им в ответ.

И получается, что вот торговый секрет и интеллектуальная собственность перемещаются из домена собственных изображений в домен описания к этим изображениям. То есть люди начинают защищать свое умение так поговорить с компьютером, чтобы компьютер выдал необходимый результат. Это довольно показательно, мне кажется. Как когда-то люди защищали исходный код, программ, в том плане, что не делились исходным кодом, считали, что это частная собственность, и программное обеспечение, которое получалось на выходе, собственно, все, что пользователь потом получал, оно было в таком виде, когда им можно пользоваться, но нельзя, что называется, открыть и посмотреть, что там внутри. Вот так и здесь примерно. Люди делятся результатами работы, по сути, такого компилятора, который получает на входе чистый английский язык, а на выходе выдает, например, картинку.

Так что в некотором роде, думаю, нас ждет новая волна пиратства, только на этот раз воровать будут не исходные коды программ, а описание на английском языке. И в подтверждение того, насколько важно иметь хорошее описание, я приведу пример. Например, если попросить компьютер решить простенькую математическую задачку, можно ему просто текстом так и написать. Вот есть Вася, у него три яблока, он отдал два Маши, сколько яблок у него осталось? И компьютер попытается найти ответ. А если вместо этого еще добавить в конце такую фразу, например, возьмем решение шаг за шагом, и все. И, имея лишь вот эту короткую фразу, то есть давайте продумаем решение шаг за шагом, сделает вероятность успешного решения задачи компьютером в четыре раза выше, чем если просто показать ему задачу.

Что здесь происходит? Когда мы просто даем компьютеру задачу, он же не понимает смысла задачи, и он не понимает в некотором роде, что мы от него хотим. Все, что он видит, это описание задачи. И если ему после этого описания новой строкой написать «а теперь давайте ее решим шаг за шагом», то он сообразит, что следующим после этих слов должно идти решение. То есть тот факт, что компьютер видел множество решений задач в интернете, которые начинались со слов «а теперь давайте решим задачу шаг за шагом», уже научил его тому, что за этими словами следует корректное решение проблемы. И такие вот особенности того, как компьютер мыслит и как он находит решение, и заключается, собственно, в понимании этих особенностей заключается искусство говорить с компьютером, которым сейчас многие люди пытаются овладеть и которые будут все больше и больше в почете, я так подозреваю, в будущем.

Умение поговорить с компьютером и понимание того, как компьютер понимает задачу, по сути, будет отличать в будущем успешного, скажем, кандидата на работу от человека, который просто умеет решать задачки. Так сказать, компьютерная грамотность переходит из узкоспециализированного области, который нужно специально вызывать, в область людей, которые просто могут хорошо описать проблему и попросить решение у компьютера, правильно попросить, так, чтобы компьютер их понял. Но, опять же, на чисто английском языке, ну или на русском с применением переводчика или любого другого языка. Так что в некотором роде, в споре, так сказать, между физиками и лириками победили опять лирики, потому что физики могут сгенерировать картинку, но только лирики могут понять, как нужно попросить компьютер так, чтобы картинка была красивой.

Еще один интересный пример, опять же, про генерацию картинок. К примеру, если вы хотите сгенерировать картинку здания, то вам очень поможет знание архитектурных периодов, известных архитекторов, название различных архитектурных деталей строений, чтобы достичь желаемой картинки. То есть, почему это важно? Человек, который изучал французскую поэзию 16 века или архитектуру арт-деко 30-х годов, будет иметь большое преимущество перед человеком, который просто умеет программировать. И это очень важно, потому что, если вы хотите, чтобы вы изучали архитектуру, вы должны понимать, что, если вы изучаете архитектуру, вы должны понимать, что, если вы изучаете архитектуру, вы должны понимать, что, если вы изучаете архитектуру, вы должны понимать, что, врачи социальных наук долгое время недооценивали, и наконец-то у кураторов музеев современного искусства найдется достойное занятие, и весь их багаж знаний о искусстве от античности до современности будет необходим и востребован. Причина, по которой так происходит, в том, что…

Еще раз. Нейросеть, когда обучается, видит огромное количество данных, огромное количество изображений, к примеру. То есть нейросеть знает многое обо всем, и чем глубже ваши знания, как пользователи этой нейросети, знания жаргона этой предметной области, которую вы хотите от компьютера добиться, тем лучше будут результаты, более детализированные, более в точку. И это, мне кажется, то, что многие упускают, и то, что очень важно помнить, что в отличие от людей… То есть люди делятся на два типа. Есть люди узкоспециализированные, специалисты в своей области, которые знают очень много, но об очень маленькой области знаний. Есть люди такие генералисты, люди эрудиты, люди, которые чемпионы в играх типа «Своя игра», люди, которые знают очень большое количество тем, но понемножку из каждой темы.

И вот теперь, наконец-то, появилась третья сущность на нашей планете — программа, которая знает очень много обо всем, что они видели. И работать с такой сущностью, с таким агентом интеллектуальным, очень интересно, потому что получается, что в работе с такой сущностью ты ограничен только-лишь своими собственными знаниями, и только-лишь твои собственные ограничения в знании являются лимитом того, что тебе может выдать компьютер. Человек более эрудированный и хорошо владеющий языком и хорошо знающий предметную область получит гораздо более интересные результаты, чем человек, который в детстве мало читал книжек, например. Ну или можно собрать группу людей, специалистов, каждый в своей области, посадить их всех за один компьютер и попросить их всех написать одно большое описание того, чего же они все хотят. Наверное, такой подход тоже будет применяться в будущем, но на первых порах люди с богатым воображением и люди с широким жаргоном будут цениться.

Еще одно интересное наблюдение, которое Артем сделал, рассматривая эти модели, заключается в том, что чем больше у моделей так называемых параметров, параметры — это такие, ну грубо говоря, маленькие детали, из которых складывается общая картина понимания того или иного предмета у модели. Если мы говорим о картинках, то это могут быть такие вещи, как цвета, свет, различные части рисунков и так далее. То есть это очень-очень маленькие атомарные единицы знания, если говорить о тексте, то это предлоги, слога и какие-то морфемы, которые позволяют собирать различные кусочки вместе. Так вот, чем больше таких у модели параметров, тем более интеллектуальным нам, человеком, кажется ее вывод, результат, который она дает. Например, недавно одна компания представила на суд публики модель, в которой они показали, что одна и та же модель, одна и та же программа, одной и той же архитектуры, то есть одной и той же структуры строения вот этого искусственного, так сказать, мозга, вычислительного аппарата, одной и той же строения, но при различном количестве параметров модели.

Изначально они показали версию, в которой было 350 миллионов таких вот параметров. Она выдавала картинки, но не очень впечатляющие. Например, если попросить ее написать на картинке какой-нибудь текст, она написала что-то невразумительное и мало похожее на человеческий язык. Но когда исследователи увеличили количество параметров в 50 раз, не меняя при этом архитектуру, то есть все осталось в структуре этого мозга электронного, все осталось точно так же. Архитектура та же самая, изменилось лишь количество параметров. Модель смогла писать текст на картинках и вообще выдавать гораздо более вразумительный результат. Это о чем говорит? О том, что примерно так же, как наш мозг, чем больше в нем нейронов у животных, я имею в виду, тем более животные, скажем так, выглядят разумными.

Это приводит к еще одному довольно интересному, на взгляд Артема, наблюдению, что то, что мы рассматриваем как меньшие формы жизни, не такие интеллектуальные, как Homo sapiens, возможно, этот взгляд на проблему интеллекта неправильный. Ведь если мы видим на наших собственных экспериментах, что при одной и той же архитектуре у модели, в которой в 50 раз меньше нейронов получается не очень, а у той, в которой 50 раз больше получается настолько, что мы уже готовы давать ей работу и увольнять человеческих сотрудников и заменять их на эту программу, получается, что интеллект это не вопрос строения мозга, это вопрос количества связей и количества нейронов в мозгу. А значит, животные и растения, в некоторой степени, но больше, конечно, животные, возможно, не глупые, в том смысле, что они были бы интеллектуальными, если бы у них был гораздо больше мозг, и с нашей позиции как-то неправильно их убивать и кушать, зная, что они такие же интеллектуальные, как и мы, и единственное, в чем им не повезло эволюционно, так это в том, что у них просто меньше параметров в их модели. Но это не значит, что они принципиально глупее. Это ли значит, что если им добавить этих самых параметров, этих самых нейронов, вырастить рыбу с огромным мозгом, то, возможно, она будет умнее нас.

Еще одна забавная вещь, которую Артем заметил в связи со всеми этими движениями в области искусственного интеллекта, это тот факт, что, скорее всего, в будущем модели такие, которые распознают вещи на картинках и так далее, в тексте, в музыке и так далее, будут совмещены очень тесно с моделями, которые те же самые вещи умеют генерировать. Например, уже сейчас есть такой смартфон, в котором есть так называемый режим фотографирования Луны. То есть вы берете, наводите телефон в ночное небо или в сумеречное время, нажимаете на кнопку затвора камеры, и у вас сохраняется в вашем телефоне фотография Луны с идеальным фокусом, очень высокого качества, прекрасно видны все кратеры, и поверхность Луны очень красивая и четкая. Оказалось, что в этой модели телефона просто-напросто стоит распознаватель Луны, и когда телефон видит, что фотографируется Луна, он берет картинку высокого качества из своей памяти Луны и вклеивает ее, так сказать, в то место, где на фотографии оказалась Луна. То есть он, пользуясь тем, что Луна всегда повернута к Земле одним и тем же видом, одним и тем же боком, он пользуется этим и каждый раз вклеивает одну и ту же фотографию, немножко подретушировав так, чтобы не было видно, что это одна и та же фотография. Но суть в том, что на выходе пользователь такого фотоаппарата получает идеально красивую Луну каждый раз, при этом в полной уверенности, что он сделал эту фотографию сам.

И если немножко подумать дальше, экстраполировать, так сказать, подумаем, а что если телефон мог бы распознавать не только фотографию Луны, которая, конечно, безумно красива, но все же не так часто люди ее фотографируют специально, а, скажем, фотографию различных известных достопримечательностей. И увидев, что человек фотографируется на фоне, скажем, эфильовой башни, убирать с фотографии всех остальных туристов, оставлять лишь нашего главного человека, который на фото, в постретном режиме, и на фоне аккуратно так вклеивать красивую фотографию эфильовой башни в высоком разрешении. Или можно пойти дальше и вместо того, чтобы хранить в памяти телефона картинку квадратную, на которой с помощью пикселей будет нарисована, собственно, эфилевая башня и на ее фоне человек, просто хранить описание этой фотографии. При каждом желании человека посмотреть эту фотографию, просто-напросто заново генерировать эту фотографию из описания. Ведь, как известно, текст, описание будет занимать гораздо меньше места на телефоне, чем, собственно, фотография с пикселями, поэтому можно просто-напросто хранить описание. Например, моя фотография в солнечный день из отпуска в Париже на фоне эфилевой башни с мороженым. И все, этого будет достаточно для того, чтобы в следующий раз телефон сам сгенерировал такую картинку при просмотре. И каждый раз вы будете наблюдать себя в солнечный день с мороженым в Париже на фоне эфилевой башни. Каждый раз эфилевая башня будет идеально выглядеть, на фотографии будете только вы, мороженое и солнечный день.

Это ли не чудесно? То есть, по большому счету, все идет к тому, что сохранять настоящую реальность, такой, какой она есть, и сохранять мир таким, какой он есть, будет все дороже, и люди будут платить некоторый премиум, некоторую надбавку за то, чтобы быть уверенными, что то, на что они смотрят, это продукт настоящей реальности, неизмененной и не подретушированной, и не сгенерированной, уж тем более, 0,2 секунды назад прямо у них под носом. Впрочем, для людей, которые, напротив, не желают или не могут позволить себе оплачивать хранение терабайт всевозможных трехмерных фотографий, которые наверняка придут к нам в будущем, есть очень простой выход. Они лишь хранят несколько сотен мегабайт текстовых описаний своей жизни, и каждый раз, когда они хотят обратиться к своим воспоминаниям, компьютер им их генерирует, показывая не то, как вещи были на самом деле, но то, как они могли бы быть на основании тех текстовых описаний, которые сохранились.

Такой вот интересный способ сохранить место на жестком диске за счет того, что никаких на самом деле фотографий хранить не нужно, а нужно лишь хранить описание этих фотографий. Впрочем, то же самое можно сказать и про этот самый подкаст. Для чего хранить вот эти аудиофайлы, которые слушатели вы скачиваете и прослушиваете в своих mp3-плеерах, когда можно просто-напросто сохранить голос Артема, сущность Артема, и всего лишь генерировать этот подкаст каждый раз, когда захочется послушать. Либо по текстовому описанию, либо же просто на любую тему.

Как, например, картинкой к этому подкасту является именно такая попытка, когда Артем вписал во входящее поле модели, вписал о заглаве этого подкаста про нейросети, а нейросеть уже сама синтезировала то, о чем Артем будет говорить. И я думаю, что в будущем уже и говорить Артему не придется, а нужно будет только записать сущность Артема, сохранить ее, оцифровать, и Артем будет говорить еще долгие-долгие годы на разные темы.

Спасибо, что слушали. Удачи вам и до встречи.

Пока!