работа была сделана вопреки сомнениям Хинтона в возможности ее практической реализации. Сеть AlexNet написана на CUDA и работала на кластере, состоявшем из GPU, а ее теоретической основой была работа Яна Лекуна, написанная еще в 1989 году.
Нередко общественное сознание переоценивает роль лидеров и, как следствие, может создаться ложное впечатление, будто кроме возглавляемого ими мэйнстрима ничего не существует. В области ANN, где сейчас работают тысячи исследователей и еще большее число разработчиков, как и в любом ином научно-технологическом направлении, есть многочленные близкие по отношению к мэйнстриму, но есть и отдаленные, а порой и вообще альтернативные направления. О соотношении между ними можно судить разнообразным рейтингам экспертов, входящих в элиту машинного обучения и нейронных сетей. Это самые разнообразные списки типа Top 5, 10 или 25 и т. п.
В большинстве из них на первой позиции лидер мэйнстрима Джеффри Хинтон, он абсолютный лидер, но на втором или на третьем стоит профессор Майкл Джордан, иногда он опережает Лекуна и Бенджо. Джордан преподает в университета Беркли, он обладает колоссальным научным авторитетом. В списках наиболее влиятельных ученых в Computer Science, составляемом журналом Science или порталом Guide2Research, Майкл Джордан существенно опережает Хинтона и других членов канадского ганга. С начала 80-х он разрабатывал когнитивные модели, основанные на рекуррентных нейронных сетях. Будучи статистиком, Джордан способствовал внедрению в машинное обучение байесовских сетей, представляющих собой множество переменных и их вероятностных зависимостей по Байесу.
В качестве постоянного оппонента Хинтону выступает немецко-швейцарский ученый Юрген Шмидхубер, профессор в Университете Лугано. В 1997 году Шмидхубер вместе со своим научным руководителем Сепплом Хохрайтером опубликовали статью Long short-term memory с описанием варианта рекуррентной нейронной сети (RNN), который они на несколько лет раннее назвали «Долгая краткосрочная память» (LSTM). Такое, на первый взгляд, нелогичное название не игра слов, оно имеет глубокие корни, идущие из психологии, где память делят на долговременную (long-term) и кратковременную рабочую (short-term). При объединении двух типов памяти в одной LSTM программа извлекает из short-term структуры, используемые для долговременного запоминания. Этот подход делает LSTM удобным для работы с последовательными данными, например текстами на естественных языках.
Более глубоким идейным оппонентом мэйнстриму является Хаим Самполинский, профессор Еврейского университета в Иерусалиме и профессор Гарвардского университета. Он автор множества работ, но наиболее доступно его позиция изложена вы статье «Глубокое обучение и альтернативные обучающие стратегии при ретроспективном анализе реальных клинических данных» (Deep learning and alternative learning strategies for retrospective real-world clinical data), написанной в соавторстве с коллегами. В ней признается, что в последние годы сочетание достижений в области машинного обучения в сочетании с доступной и недорогой электроникой позволили автоматизировать решение целого ряда сложных когнитивных задач.
Всё нынешнее глубокое обучение относится к категории обучения с учителем (supervised DL), ставшего новой классикой. Оно обладает несколькими врожденными недостатками. По определению для него требуются чрезвычайно большие объемы данных на этапе обучения и соответственно большие вычислительные мощности. В ряде случаев требуется такая вычислительная мощность, что решение сопряженно с существенными энергетическими затратами, но полученная при этом модель способна решать только одну задачу, что снижает эффективность. То есть модель, обученная для решения одной задачи настолько специальна, что не может быть полезной для решения другой задачи, для нового решения потребуются новые данные для обучения и новые затраты на обучение. Избавлением от этого врожденного недостатка станет модифицированный тип DL, который получил название transfer learning (TL), его можно перевести как «обучение с переносом», но чаще используют кальку английского термина «трансферное обучение». TL отличается тем, что «знание», полученное при тренировке модели, сохраняется для последующего повторного использования, чем напоминает обучение человека, с той разницей, что машинное знание не имеет ничего общего с человеческим, оно не может служить источником для самостоятельной деятельности. Знание в данном случае сводится к возможности полного или частичного использования ранее обученной модели для решения новой задачи. TL повышает эффективность DL при условии родственности решаемых задач. Если модель обучена на распознавание кошек, то она окажется бесполезной для распознавания собак.
Общие идеи относительно возможностей TL и сам термин предложила известная специалист в этой области Лорин Пратт еще в 1993 году, но путевку в жизнь этому направлению в DL дал Эндрю Ын в своем ставшем широко известным выступлении на конференции Neural Information Processing Systems (NIPS) 2016. По его мнению, TL должно стать следующим стимулом для коммерческого успеха после обучения с учителем.
На данный момент видится несколько стратегий внедрения TL. Это может быть прямое использование заранее обученной модели (pre-trained models) для определенной области приложений, например NLP. Пользователям уже доступны такие специализированные как BERT, YOLO, GloVe, UnsupervisedMT и другие. Или же можно тем или иным способом воспользоваться обученной моделью для частичного экстрагирования сведений из ранее натренированного набора данных с тем, чтобы потом перенести их другую модель.
Генеративно-состязательные сети
В конце октября 2018 года на аукционе Кристи за 432 тысячи долларов был продан живописный портрет вымышленного художника Эдмона Белами из серии «Семейство Белами». Но кисть мастера этого холста не касалась, он представлял собой распечатку, созданную средствами AI. Этот успех подтвердил описанный в главе 1 Эффект AI: «Любое поражающее воображение достижение из области AI, при ближайшем рассмотрении оказывается рутинным результатом трудов математиков, инженеров и других специалистов, лишенным какого-либо собственного разума». Творцами портрета оказалась трое французов, составляющие группу Obvious, название которой переводится как «очевидно» и даже «тривиально», а их инструментом креативно-состязательная сеть (Creative Adversarial Network, CAN). Такая сеть способна создавать изображения, внешне неотличимые от созданий художников. Произведенные посредством CAN картины вполне можно признать формально прошедшими графическую версию теста Тьюринга, разумеется, это не означает, что машина научилась рисовать в полном смысле этого слова.
Сети CAN служат дальнейшим развитием генеративно-состязательных сетей (Generative adversarial network, GAN), о них говорят, что CAN – это GAN, способные мыслить креативно. Однако участники Obvious не склонны наделять их разумом, на их сайте мы находим: «… мы используем машинное обучение с тем, чтобы воспроизводить действия человека алгоритмами, основанными на статистических методах. Мы используем эти алгоритмы либо для оптимизации, выполняя сложные вычисления, либо для масштабирования, например, в чатботах, либо то и другое совместно. Алгоритмы могут быть обучены посредством идентификации общих свойств, присущих данным, со скоростью, превышающей человеческие возможности. Мы называем это Augmented Intelligence (AuI) и это совсем не похоже на то, что представляется в фантазиях».
GAN придумал в 2014 Ян Гудфеллоу будучи аспирантом, после чего моментально превратился