Нейронные сети, искусственный интеллект и машинный перевод

Время от времени я захожу в Сообщество Google Переводчика, делаю, как мне кажется, доброе дело — помогаю людям и машинам переводить случайные фразы, преследуя при этом, конечно, своекорыстные цели: там часто попадаются прелюбопытные идеи и фразы для английского и немецкого словарных тренажёров.

И вот на днях я, как участник сообщества, получил от Гугл письмо с довольно громким заявлением. Всемирный поисковик анонсировал внедрение самых современных технологий в Гугл переводчике. Вот фрагмент этого письма:

Недавно в сервисе "Google Переводчик" произошли изменения более важные, чем за предыдущие десять лет. И Вы тоже внесли свой вклад!

Google Переводчик начал использовать нейронные сети для 41 языка, включая русский. Нейронные сети – это самообучающиеся системы. Они основаны на сложных алгоритмах, которые имитируют процесс изучения языка человеком и позволяют значительно повысить качество перевода. Улучшения наиболее заметны при переводе фраз и больших текстов. Попробуйте!

Долгожданная революция в мире машинного перевода уже наступила?

Несомненно, прогресс грандиозный, пожалуй, это даже можно назвать революцией, качество переводов реально улучшилось, но о полном торжестве искусственного разума над человеческим пока говорить рано.

В основе самообучающихся систем — нейронные сети, именно их сейчас гордо именуют искусственным интеллектом. А сама технология перекочевала прямиком из биологии и была разработана благодаря детальному изучению работы человеческого мозга (хотя и с ним, пока не все ясно).

Говоря об искусственном интеллекте, многие подразумевают general intelligence — интеллект, соответствующий человеческому. На самом деле технологии ещё довольно далеки от этого, поэтому пока его называют искусственным интеллектом, в англоязычных источниках — general artificial intelligence.

После такого вступления будет, пожалуй, уместно оглянуться назад и вспомнить как развивалась технология перевода. А чтобы это не было скучным, мы не только сделаем экскурс в историю, но попутно проверим современные достижения компьютерного перевода: в левой колонке оригинал текста, а в правой результат перевода (Google Translate) сначала на английский, а затем обратно на русский.

ОригиналПеревод на английский и обратно

Первая публичная демонстрация машинного перевода была проведена ещё в середине пятидесятых годов двадцатого века и тогда казалось, что ещё чуть-чуть и профессия переводчика уйдёт в небытие навсегда. Но этого почему-то не произошло.

После неутешительных (из-за слабой производительности компьютеров) результатов наступил период пессимизма и, как следствие, снижение финансирования отрасли. Технология получила вторую жизнь в конце двадцатого века, когда информационный бум захлестнул весь мир, а компьютер стал обычным дополнением домашнего хозяйства, но революции не случилось.

В 21-м веке существенно увеличились вычислительные мощности, технологии продвинулись вперёд и мы уже воспринимаем компьютерный перевод, как нечто само собой разумеющееся. Машины помогают нам в работе и на отдыхе, но пока всё ещё не дотягивают до уровня переводов выполненных представителем Homo Sapiens.

Первая публичная демонстрация машинного перевода была проведена в середине 50-х годов ХХ века, и тогда казалось, что даже немного и профессия переводчика навсегда останется в забвении. Но этого почему-то не произошло.

После разочарования (из-за плохой работы компьютера), результаты пришли в период пессимизма и, как следствие, сокращение финансирования отрасли. Технология получила вторую жизнь в конце двадцатого века, когда информационный бум охватил весь мир, и компьютер стал регулярным дополнением к домашнему хозяйству, но революции не произошло.

В 21-м веке вычислительная мощность значительно возросла, технологии продвинулись вперёд, и мы уже воспринимаем компьютерный перевод как само собой разумеющееся. Автомобили помогают нам в работе и в отпуске, но пока они все ещё не достигают уровня трансфертов представителя Homo Sapiens.

В целом, если сравнивать с переводами десятилетней давности, очень даже неплохо, но нужно учитывать, что перевод был сделан на английский и обратно, другие языки пока отстают. Однако вернёмся к нашим нейронам.

В классических вычислительных машинах для обработки и анализа информации использовался определённый шаблон или, если хотите, модель, которую жёстко задавал программист. Так было испокон веков. Но вот появились нейронные сети и всё перевернулось с ног... (Впрочем, где голова, а где ноги пока неясно). Теперь программист задаёт только алгоритм обучения, а дальше машина сама создаёт модели и шаблоны, на основании которых определяет с чем она имеет дело и как к этому относиться.

В самом упрощённом виде это выглядит так: нейронная сеть получает на входе несколько параметров (или чисел) и выдаёт на выходе результат. Вроде все как в обычной вычислительной машине, однако в отличие от привычного нам компьютера результат будет зависеть не от готового алгоритма, а от "знаний", полученных системой во время тренировки или работы совмещённой с тренировкой. Таким образом машина с каждым следующим циклом становится всё умнее. Полученные данные записываются в память и могут быть использованы для решения новых, более сложных задач. Впоследствии эти записи можно воспроизвести и получить совершенно неожиданные результаты. Это ещё одна поражающая воображение область применения технологии. Например, нейросеть, пройдя обучение, может рисовать картины, которым позавидуют многие художники (пока авангардисты) или писать довольно приличную музыку. На Youtube уже сегодня нетрудно найти ролики демонстрирующие такие чудесные возможности нейросетей.

Теперь машина сама учится распознавать образы, звуки, текст, способна отличить кошку от собаки, "рассмотреть" на картинке лицо или силуэт человека. Всё это уже находит самое активное применение в системах распознавания и поиска изображений, распознавания речи, при наблюдении за безопасностью в общественных местах в системах криминалистического анализа. Реальная гордость разработчиков самообучающихся систем — автомобильный автопилот. И надо признать, что это действительно значительные достижения, для которых нужны чрезвычайно сложные вычислительные процессы.

Переводы — это та работа, которую с момента появления первого компьютера, человек упорно пытается передать машине (хотя бы частично), так как этот вид деятельности, требует от нас больших затрат времени и напряжённой работы мозга. Деньги здесь также играют не последнюю роль — работа хорошего переводчика стоит недёшево.

Но как же всё-таки сами машины относятся к переводам на другой язык? Машины относятся?! Впрочем, речь сейчас не об этом... Казалось бы, что может быть проще, при современном развитии вычислительных мощностей: загружаем в базу данных весь словарь, перечисляем все сочетания слов, сравниваем введённый текст с базой и, вуаля — получаем готовый перевод, — переводчик не нужен! Так почему же современные сверхмощные компьютеры, под командованием лучших программистов до сих пор не могут справиться с этой задачей. И неужели различить силуэт на картинке с миллионами разноцветных пикселей, проще, чем перебрать словосочетания в базе данных?

Обратимся к математике. Допустим, что словарный запас среднестатистического носителя языка составляет около двадцати тысяч слов. Предположим, что далеко не все слова могут сочетаться друг с другом, неся при этом разумный смысл, поэтому количество осмысленных словосочетаний, которые можно построить с помощью этих слов подсчитать довольно сложно.

Мы немного упростим задачу — разделим это число на 10 (просто для примера) и получим 2000 слов. Это грубый, подчёркиваю, очень грубый расчёт. Однако даже такие приблизительные вычисления показывают, что если из этих двух тысяч составлять средние предложения по пять слов, то можно получить 265335665000400 (двести шестьдесят пять триллионов триста тридцать пять миллиардов шестьсот шестьдесят пять миллионов четыреста) словосочетаний.

Если увеличить количество слов в предложении, то увеличится и количество комбинаций, если уменьшить, то число уменьшится, но смысл предложения может при этом измениться, значит и перевод станет другим. Во всех случаях, наша цифра многократно возрастает. Добавьте к этому, выраженное в письменном виде отношение автора к написанному: эмоции, иронию, сарказм, юмор, оттенки настроения. В результате количество вариантов стремится к бесконечности. Вот что такое человеческий язык!

Именно поэтому даже самые современные компьютерные системы перевода, пока не могут полностью заменить человека, особенно, когда речь идёт о переводах художественной литературы, не говоря уже о стихах. Но нейронные системы не стоят на месте. Они продолжают учиться, сами! И пусть пока они работают не идеально, но технология бурно развивается, и, вероятно, не за горами время, когда системы машинного перевода смогут реально заменить людей, по крайней мере при переводе технических и научных текстов.

В конце хотелось бы упомянуть и о системах голосового перевода в реальном времени, которые непосредственно связаны с письменным переводом (добавлено распознавание речи). Они уже работают и показывают вполне удовлетворительные результаты, например, в Skype и некоторых других онлайн сервисах. К их работе, конечно, пока можно придираться, но стандартные разговорные фразы они переводят отлично. А что ещё нужно для простого человеческого общения?

Совсем недавно многое из того, что описано в этой статье, казалось чудом. Сегодня благодаря нейронным самообучающимся системам мы видим, как мир меняется на наших глазах, и не только компьютерный мир. Давайте же приложим все усилия для того, чтобы эти захватывающие технологии принесли человечеству процветание, изобилие и безопасность, а не хаос и разрушение!

Оглавление · Блог · Слушать

Слушай, Читай, Говори!
Microphone