Тест Тьюринга: разумность познается в общении. Американский робот прошел тест тьюринга

Главная / Творчество

Способны ли роботы мыслить? Какой искусственный интеллект стоит признать разумным? Может показаться, что эти вопросы стали актуальны только в нашем веке, тогда как на самом деле научное сообщество решает их уже очень давно. Яркий пример – знаменитый тест Тьюринга, разработанный еще в 1950 году.

Алан Мэтисон Тьюринг (Alan Mathison Turing, 1912–1954) – известный английский математик, специалист в области математической логики, информатики и криптографии. Среди его многочисленных достижений отметим то, что в 1936 году он представил проект вычислительной машины, впоследствии ставшей прообразом компьютеров (машина Тьюринга). Кроме того, он создал алгоритм, расшифровывающий сообщения «невзламываемой» криптографической машины «Энигма», которая использовалась нацистами для передачи сообщений.

Тест Тьюринга: общее описание

За почти 70 лет со времен первой публикации процедура прохождения претерпевала изменения, однако суть теста Тьюринга остается прежней. Кратко ее можно выразить следующим образом: если, общаясь с человеком и машиной, экспериментатор не сможет определить, кто из них кто, значит, машиной тест пройден. Иными словами, идея теста заключается в том, что компьютер своими ответами должен убедить собеседника (он же судья) в своей человечности. По мнению Тьюринга, это свидетельствует о способности искусственного интеллекта мыслить и должно стать основанием для признания его разумности.

Тест Алана Тьюринга является эмпирическим. Это значит, что он основан на опыте, наблюдениях, данных, полученных опытным путем. Идея данного теста возникла из салонной игры (игры для вечеринок того времени) – Imitation Game (Игра в имитацию). В ней участвовали как минимум три человека: женщина, мужчина и «судья» (любого пола). Мужчина и женщина уходили в разные комнаты и оттуда передавали третьему игроку записочки. По ним нужно было определить, в какой комнате представитель какого пола находится. При этом они старались запутать «судью»: женщина могла выдавать себя за мужчину и наоборот.

Конечно, чтобы тест состоялся, судья не должен видеть собеседника, слышать его голос и т.д. В противном случае эксперимент явно будет провален, но это не будет связано с интеллектуальными возможностями машины. Как правило, формой общения выбирается электронная переписка. В изначальной версии теста человек общался с двумя субъектами – другим человеком и машиной. Чуть позже Тьюринг видоизменил прохождение – перед ИИ ставилась задача убедить в своей разумности ряд судей, которые, в свою очередь, общались с несколькими людьми и несколькими машинами. Это в том числе позволяет избежать субъективности в оценках и снизить риск простого угадывания. Количество подопытных машин и людей в современных версиях теста разнится, как и время их общения.

Судья может говорить со своими виртуальными собеседниками о чем пожелает: вопросы теста Тьюринга не имеют ограничений. Для машины это представляет дополнительную сложность. Чтобы выполнить такое задание, компьютерная программа должна не просто понимать человеческий язык, но и давать естественные ответы по самым разным темам, отделяя важную информацию от несущественной для того или иного направления беседы.

Впервые тест был описан Тьюрингом в статье Computing Machinery and Intelligence, опубликованной в философском журнале Mind.

Ответы от собеседника судье приходят через заданные промежутки времени, чтобы по скорости их появления нельзя было сделать никаких выводов. Интересно, что раньше недостатки программного обеспечения приводили к тому, что машины реагировали медленнее человека, и фора давалась именно компьютеру. Сейчас же искусственный интеллект, напротив, работает быстрее, и время на размышление нужно уже людям.

Фильм Ex Machina (2014 г.) построен на интерпретации теста Тьюринга. Главный герой уже знает, что перед ним робот, но посредством общения этому роботу нужно убедить собеседника в своей человечности.

Недостатки теста Тьюринга

Одним из главных недостатков теста видится то, что фактически перед машиной ставится задача запутать, обмануть человека. Говорит ли это о том, что мы может признать мыслящими и разумными только тех, кто умеет обманывать и манипулировать? Этот вопрос, скорее, лежит в области философии. Тем более что в теории прошедший тест Тьюринга робот должен хорошо имитировать, повторять действия человека, а не запутывать судью. На практике же с тестом лучше других справлялись «манипуляторы» – например, те, кто допускал опечатки в ответах. Машин даже специально этому обучали, чтобы их переписка выглядела «естественнее». Еще одна распространенная уловка компьютера: умолчать о чем-либо, дать неполный ответ на вопрос или вовсе сослаться на незнание. Иначе искусственный интеллект можно вычислить по тому, что он «слишком умный».

Кроме того, несмотря на заявленную цель в определении разумности и способности мыслить, фактически тест оценивает схожесть речевого поведения компьютера и человека. Это не может быть объективной оценкой ИИ в целом, особенно сегодня, когда компьютеры и роботы по скорости вычислений существенно превосходят человека и могут добиться впечатляющих результатов в самых различных областях. То есть саму по себе возможность «переписываться, как человек» нельзя признать значительным достижением. Фактически ориентация на тест Тьюринга, отмечают его критики, скорее тормозит развитие прогресса, чем подстегивает его. Вместо того чтобы создавать что-то еще более совершенное и превосходящее нас, мы прививаем роботу наши нелучшие черты и не даем ему двигаться вперед. Однако здесь надо сделать скидку на то, что, когда тест создавался, способности у компьютеров были существенно ниже.

Одним из критиков теста Тьюринга и тезиса о том, что роботы могут мыслить, уже почти 40 лет выступает Джон Серл, который в качестве доказательства представил мысленный эксперимент .

Прошел ли кто-либо тест Тьюринга?

На данный момент считается, что в своем строгом варианте тест за всю почти 70-летнюю историю пройден не был. Иногда машинам удается убедить собеседника в том, что он разговаривает с человеком, однако часто в таких случаях нельзя говорить именно о прохождении теста Тьюринга. Например, это распространяется на ситуации, когда «судья» не знает, что общается с машиной и что он вообще участвует в каком-то эксперименте. Получается, вместо того чтобы наблюдать за собеседником и делать выводы, подневольный «экспериментатор» просто верит, что общается с человеком, потому что изначально нацеливался именно на такой разговор. Также тест Тьюринга вроде бы удавался, когда круг тем был ограничен и/или времени на общение давалось мало. Но и здесь не соблюдался важный принцип изначального теста – максимальная естественность беседы. Поэтому в общем и целом последователи теста отмечают, что с ним еще никто не справился.

Сам Тьюринг писал, что, по его мнению, компьютеры пройдут данный тест к 2000 году.

В 2014 году по СМИ разошлась новость, что тест якобы пройден. Сделал это Евгений Густман (Eugene Goostman), «13-летний мальчик из Одессы». По крайней мере в такую легенду поверили 10 из 30 судей в рамках конкурса, организованного британским Университетом Рединга в память 60-летия со дня смерти Тьюринга. В 2012 году, на аналогичном конкурсе в честь 100-летия со дня его рождения, Евгений смог убедить только 29% судей. Однако его результаты не считаются полноценным прохождением теста. Во-первых, потому что перед нами мальчик, а не взрослый, во-вторых, потому что английский язык для него неродной. Таким образом, логические ошибки и пробелы в репликах, а также уход от ответа на неудобных для машины темах судьи могли объяснять для себя тем, что «он же еще ребенок» и «он еще плохо знает язык».

В 2015 году прошел тест Тьюринга для чат-ботов на русском языке. Эксперимент организовали компания «Наносемантика» и Фонд Сколково в рамках выставки Startup Village. Тогда в конкурсе победила «14-летняя Соня Гусева из Петербурга», которую признали человеком 47% из 15 судей.

Премия Лёбнера за прохождение теста Тьюринга

Надо сказать, что большинство разработчиков при создании роботов не ставит себе непременную цель – пройти тест Тьюринга. С практической точки зрения эту задачу вряд ли можно считать первостепенной. В то же время в 1991 году была учреждена ежегодная премия AI Loebner, или Премия Лёбнера. В ее рамках искусственные интеллекты соревнуются в прохождении этого теста. Она предусматривает три медали – золотую (общение с элементами видео и аудио), серебряную (за текстовую переписку) и бронзовую (вручается той машине, которая в данном году достигла лучшего результата). Согласно правилам, конкурс будет закрыт, когда кто-либо из участников получит золотую медаль. Пока же ни золотая, ни серебряная вручены не были.

При этом некоторые машины получали бронзовые медали несколько раз, например, A.L.I.C.E. (Artificial Linguistic Internet Computer Entity, дословно – Искусственное лингвистическое интернет-компьютерное существо). Обычно на конкурсе представлены проекты, которые изначально ориентированы именно на общение с человеком, в последнее время особенно много чат-ботов. Учитывая развитие мессенджеров и, соответственно, чат-ботов, можно ожидать, что на премию будет поступать еще больше интересных заявок.

Стандартная интерпретация теста Тьюринга

Тест Тьюринга - эмпирический тест, идея которого была предложена Аланом Тьюрингом в статье «Вычислительные машины и разум» , опубликованной в 1950 году в философском журнале Mind . Тьюринг задался целью определить, может ли машина мыслить .

Стандартная интерпретация этого теста звучит следующим образом: «Человек взаимодействует с одним компьютером и одним человеком. На основании ответов на вопросы он должен определить, с кем он разговаривает: с человеком или компьютерной программой. Задача компьютерной программы - ввести человека в заблуждение, заставив сделать неверный выбор ».

Все участники теста не видят друг друга. Если судья не может сказать определённо, кто из собеседников является человеком, то считается, что машина прошла тест. Чтобы протестировать именно интеллект машины, а не её возможность распознавать устную речь, беседа ведётся в режиме «только текст», например, с помощью клавиатуры и экрана (компьютера-посредника). Переписка должна производиться через контролируемые промежутки времени, чтобы судья не мог делать заключения, исходя из скорости ответов. Во времена Тьюринга компьютеры реагировали медленнее человека. Сейчас это правило тоже необходимо, потому что они реагируют гораздо быстрее, чем человек.

История

Философские предпосылки

Хотя исследования в области искусственного интеллекта начались в 1956 году , их философские корни уходят глубоко в прошлое . Вопрос, сможет ли машина думать, имеет долгую историю. Он тесно связан с различиями между дуалистическим и материалистическим взглядами. С точки зрения дуализма, мысль не является материальной (или, по крайней мере, не имеет материальных свойств), и поэтому разум нельзя объяснить только с помощью физических понятий. С другой стороны, материализм гласит, что разум можно объяснить физически, таким образом, оставляя возможность существования разумов, созданных искусственно.

Алан Тьюринг

К 1956 году британские учёные уже на протяжении 10 лет исследовали «машинный интеллект». Этот вопрос был обычным предметом для обсуждения среди членов «Ratio Club» - неформальной группы британских кибернетиков и исследователей в области электроники, в которой состоял и Алан Тьюринг, в честь которого был назван тест.

Тьюринг в особенности занимался проблемой машинного интеллекта, по меньшей мере, с 1941 года. Одно из самых первых его упоминаний о «компьютерном интеллекте» было сделано в 1947 году. В докладе «Интеллектуальные машины» Тьюринг исследовал вопрос, может ли машина обнаруживать разумное поведение, и в рамках этого исследования предложил то, что может считаться предтечей его дальнейших исследований: «Нетрудно разработать машину, которая будет неплохо играть в шахматы. Теперь возьмем трёх человек - субъектов эксперимента. А, В и С. Пусть А и С неважно играют в шахматы, а В - оператор машины. […] Используются две комнаты, а также некоторый механизм для передачи сообщений о ходах. Участник С играет или с А, или с машиной. Участник С может затрудниться ответить, с кем он играет».

Таким образом, к моменту публикации в 1950 году статьи «Вычислительные машины и разум», Тьюринг уже на протяжении многих лет рассматривал возможность существования искусственного интеллекта. Тем не менее данная статья стала первой статьёй Тьюринга, в которой рассматривалось исключительно это понятие.

Тьюринг начинает свою статью утверждением: «Я предлагаю рассмотреть вопрос „Могут ли машины думать?“». Он подчёркивает, что традиционный подход к этому вопросу состоит в том, чтобы сначала определить понятия «машина» и «интеллект». Тьюринг, однако, выбрал другой путь; вместо этого он заменил исходный вопрос другим, «который тесно связан с исходным и формулируется относительно недвусмысленно». По существу, он предлагает заменить вопрос «Думают ли машины?» вопросом «Могут ли машины делать то, что можем делать мы (как мыслящие создания)?». Преимуществом нового вопроса, как утверждает Тьюринг, является то, что он проводит «чёткую границу между физическими и интеллектуальными возможностями человека».

Чтобы продемонстрировать этот подход, Тьюринг предлагает тест, придуманный по аналогии с игрой для вечеринок «Imitation game» - имитационная игра. В этой игре мужчина и женщина направляются в разные комнаты, а гости пытаются различить их, задавая им серию письменных вопросов и читая напечатанные на машинке ответы на них. По правилам игры и мужчина, и женщина пытаются убедить гостей, что все наоборот. Тьюринг предлагает переделать игру следующим образом: "Теперь зададим вопрос, что случится, если в этой игре роль А будет исполнять машина? Будет ли задающий вопросы ошибаться так же часто, как если бы он играл с мужчиной и женщиной? Эти вопросы заменяют собой исходный «Может ли машина думать?».

В том же докладе Тьюринг позднее предлагает «эквивалентную» альтернативную формулировку, включающую судью, который беседует только с компьютером и человеком. Наряду с тем, что ни одна из этих формулировок точно не соответствует той версии теста Тьюринга, которая наиболее известна сегодня, в 1952 учёный предложил третью. В этой версии теста, которую Тьюринг обсудил в эфире радио Би-Би-Си, жюри задаёт вопросы компьютеру, а роль компьютера состоит в том, чтобы заставить значительную часть членов жюри поверить, что он на самом деле человек.

В статье Тьюринга учтены 9 предполагаемых вопросов, которые включают все основные возражения против искусственного интеллекта, поднятые после того, как статья была впервые опубликована.

Элиза и PARRY

Блей Витби указывает на четыре основные поворотные точки в истории теста Тьюринга - публикация статьи «Вычислительные машины и разум» в 1950, сообщение о создании Джозефом Уайзенбаумом программы Элиза (ELIZA) в 1966, создание Кеннетом Колби программы PARRY , которая была впервые описана в 1972 году, и Коллоквиум Тьюринга в 1990.

Принцип работы Элизы заключается в исследовании введённых пользователем комментариев на наличие ключевых слов. Если найдено ключевое слово, то применяется правило, по которому комментарий пользователя преобразуется и возвращается предложение-результат. Если же ключевое слово не найдено, Элиза либо возвращает пользователю общий ответ, либо повторяет один из предыдущих комментариев. Вдобавок Уайзенбаум запрограммировал Элизу на имитацию поведения психотерапевта, работающего по клиент-центрированной методике. Это позволяет Элизе «притвориться, что она не знает почти ничего о реальном мире». Применяя эти способы, программа Уайзенбаума могла вводить в заблуждение некоторых людей, которые думали, что они разговаривают с реально существующим человеком, а некоторых было «очень трудно убедить, что Элиза […] не человек». На этом основании некоторые утверждают, что Элиза - одна из программ (возможно первая), которые смогли пройти тест Тьюринга. Однако это утверждение очень спорно, так как людей, «задающих вопросы», инструктировали так, чтобы они думали, что с ними будет разговаривать настоящий психотерапевт, и не подозревали о том, что они могут разговаривать с компьютером.

Коллоквиум по разговорным системам, 2005

В ноябре 2005 года в Университете Суррея проходила однодневная встреча разработчиков ACE, которую посетили победители практических тестов Тьюринга, проходивших в рамках конкурса на получение премии Лёбнера: Робби Гарнер (Robby Garner), Ричард Уоллес (Richard Wallace), Ролл Карпентер (Rollo Carpenter). В числе приглашённых докладчиков были Дэвид Хэмилл (David Hamill), Хью Лёбнер и Хьюма Ша.

Симпозиум общества AISB по тесту Тьюринга, 2008

В 2008 году наряду с проведением очередного конкурса на получение премии Лёбнера, проходившего в Университете Рединга (University of Reading), Общество изучения искусственного интеллекта и моделирования поведения (The Society for the Study of Artificial Intelligence and Simulation of Behavior - AISB) провело однодневный симпозиум, на котором обсуждался тест Тьюринга. Симпозиум организовали Джон Бенден (John Barnden), Марк Бишоп (Mark Bishop), Хьюма Ша и Кевин Ворвик. В числе докладчиков были директор Королевского института баронесса Сьюзан Гринфилд (Susan Greenfield) , Сельмер Брингсорд (Selmer Bringsjord), биограф Тьюринга Эндрю Ходжес (Andrew Hodges) и учёный Оуэн Холланд (Owen Holland). Никакого соглашения о каноническом тесте Тьюринга не появилось, однако Брингсорд предположил, что более крупная премия будет способствовать тому, что тест Тьюринга будет пройден быстрее.

Год Алана Тьюринга и Тьюринг-100 в 2012

В 2012 году отмечался юбилей Алана Тьюринга. На протяжении всего года проходило множество больших мероприятий. Многие из них проходили в местах, имевших большое значение в жизни Тьюринга: Кембридж, Манчестер и Блетчи Парк. Год Алана Тьюринга курируется организацией TCAC (Turing Centenary Advisory Committee), осуществляющей профессиональную и организационную поддержку мероприятий в 2012 году. Также поддержкой мероприятий занимаются: ACM , ASL , SSAISB , BCS , BCTCS , Блетчи Парк , BMC , BLC , CCS , Association CiE , EACSL , EATCS , FoLLI , IACAP , IACR , KGS и LICS .

Для организации мероприятий по празднованию в июне 2012 года столетия со дня рождения Тьюринга создан специальный комитет, задачей которого является донести мысль Тьюринга о разумной машине, отражённую в таких голливудских фильмах, как «Бегущий по лезвию », до широкой публики, включая детей. В работе комитета участвуют: Кевин Ворвик, председатель, Хьюма Ша, координатор, Ян Бланд (Ian Bland), Крис Чапмэн (Chris Chapman), Марк Аллен (Marc Allen), Рори Данлоуп (Rory Dunlop), победители конкурса на получение премии Лёбнера Робби Гарне и Фред Робертс (Fred Roberts). Комитет работает при поддержке организации «Женщины в технике» (Women in Technology) и Daden Ltd.

На этом конкурсе россияне, имена которых не разглашались, представили программу «Eugene » . В 150 проведённых тестах (а по факту пятиминутных разговорах) участвовали пять новейших программ, которые «затерялись» среди 25 обычных людей. Программа «Eugene», изображавшая 13-летнего мальчика, проживающего в Одессе , стала победителем, сумев в 29,2 % своих ответов ввести экзаменаторов в заблуждение. Таким образом, программа не добрала всего 0,8 % для полного прохождения теста.

Тест Тьюринга на русском языке, 2015

В 2015 году компания Наносемантика и Фонд Сколково провели конкурс «Тест Тьюринга на русском языке». Независимые судьи из числа посетителей конференции Startup Village в Москве общались с 8 отобранными экспертным советом роботами и 8 волонтёрами-лингвистами. После 3-х минут разговора на русском языке судьи определяли, кто из их собеседников является роботом, а кто нет. Каждый робот провёл по 15 разговоров. В конкурсе победил робот, созданный Иваном Голубевым из Санкт-Петербурга , - «Соня Гусева». 47 % собеседников приняли его за человека .

Варианты теста Тьюринга

Стоит отметить, что в советской психологии Выготский Л. С. и Лурия А. Р. дали вполне чёткие определения «интеллекта» и «мышления» .

Недостатки теста

Несмотря на все свои достоинства и известность, тест критикуют на нескольких основаниях.

Человеческий разум и разум вообще

Направленность теста Тьюринга ярко выражена в сторону человека (антропоморфизм). Проверяется только способность машины походить на человека, а не разумность машины вообще. Тест неспособен оценить общий интеллект машины по двум причинам:

  • Иногда поведение человека не поддаётся разумному толкованию. В это же время тест Тьюринга требует, чтобы машина была способна имитировать все виды человеческого поведения, не обращая внимания на то, насколько оно разумно. Он также проверяет способность имитировать такое поведение, какое человек за разумное и не посчитает, например, реакция на оскорбления, соблазн соврать или просто большое количество опечаток. Если машина неспособна с точностью до деталей имитировать поведение человека, опечатки и тому подобное, то она не проходит тест, несмотря на весь тот интеллект, которым она может обладать.
  • Некоторое разумное поведение не присуще человеку. Тест Тьюринга не проверяет высокоинтеллектуальное поведение, например, способность решать сложные задачи или выдвигать оригинальные идеи. По сути, тест требует, чтобы машина обманывала: какой бы умной ни была машина, она должна притворяться не слишком умной, чтобы пройти тест. Если же машина способна быстро решить некую вычислительную задачу, непосильную для человека, она по определению провалит тест.

Непрактичность

Экстраполируя экспоненциальный рост уровня технологии в течение нескольких десятилетий, футурист Рэймонд Курцвейл предположил, что машины, способные пройти тест Тьюринга, будут изготовлены, по грубым оценкам, около 2020 года. Это перекликается с законом Мура .

В проект Long Bet Project входит пари стоимостью 20 000 $ между Митчем Капуром (Mitch Kapor - пессимист) и Рэймондом Курцвейлом (оптимист). Смысл пари: пройдет ли компьютер тест Тьюринга к 2029 году? Определены также некоторые условия пари .

Вариации теста Тьюринга

Многочисленные версии теста Тьюринга, включая описанные ранее, уже обсуждаются довольно долгое время.

Обратный тест Тьюринга и CAPTCHA

Модификация теста Тьюринга, в которой цель или одну или более ролей машины и человека поменяли местами, называется обратным тестом Тьюринга. Пример этого теста приведён в работе психоаналитика Уилфреда Биона , который был в особенности восхищён тем, как активизируется мыслительная активность при столкновении с другим разумом.

Развивая эту идею, Р. Д. Хиншелвуд (R. D. Hinshelwood) описал разум как «аппарат, распознающий разум», отметив, что это можно считать как бы «дополнением» к тесту Тьюринга. Теперь задачей компьютера будет определить с кем он беседовал: с человеком или же с другим компьютером. Именно на это дополнение к вопросу и пытался ответить Тьюринг, но, пожалуй, оно вводит достаточно высокий стандарт на то, чтобы определить, может ли машина «думать» так, как мы обычно относим это понятие к человеку.

CAPTCHA - это разновидность обратного теста Тьюринга. Перед тем как разрешить выполнение некоторого действия на сайте, пользователю выдаётся искажённое изображение с набором цифр и букв и предложение ввести этот набор в специальное поле. Цель этой операции - предотвратить атаки автоматических систем на сайт. Обоснованием подобной операции является то, что пока не существует программ достаточно мощных для того, чтобы распознать и точно воспроизвести текст с искажённого изображения (или они недоступны рядовым пользователям), поэтому считается, что система, которая смогла это сделать, с высокой вероятностью может считаться человеком. Выводом будет (хотя и не обязательно), что искусственный интеллект пока не создан.

Тест Тьюринга со специалистом

Эта вариация теста описывается следующим образом: ответ машины не должен отличаться от ответа эксперта - специалиста в определённой области знаний.

Тест бессмертия

Тест бессмертия - это вариация теста Тьюринга, которая определяет, качественно ли передан характер человека, а именно возможно ли отличить скопированный характер от характера человека, послужившего его источником.

Минимальный интеллектуальный Signal-тест (MIST)

MIST предложен Крисом Мак-Кинстри (Chris McKinstry). В этой вариации теста Тьюринга разрешены лишь два типа ответов - «да» и «нет». Обычно MIST используют для сбора статистической информации, с помощью которой можно измерить производительность программ, реализующих искусственный интеллект.

Мета-тест Тьюринга

В этой вариации теста субъект (скажем, компьютер) считают разумным, если он создал нечто, что он сам хочет проверить на разумность.

Премия Хаттера

Организаторы премии Хаттера считают, что сжатие текста на естественном языке является трудной задачей для искусственного интеллекта, эквивалентной прохождению теста Тьюринга.

Тест по сжатию информации имеет определённые преимущества над большей частью вариантов и вариаций теста Тьюринга:

  • Его результатом является единственное число, по которому можно судить какая из двух машин «более разумная».
  • Не требуется, чтобы компьютер врал судье - учить компьютеры врать считают плохой идеей.

Основными недостатками подобного теста являются:

  • С его помощью невозможно протестировать человека.
  • Неизвестно какой результат (и есть ли он вообще) эквивалентен прохождению теста Тьюринга (на уровне человека).

Другие тесты интеллекта

Существует множество тестов на уровень интеллекта, которые используют для тестирования людей. Возможно, что их можно использовать для тестирования искусственного интеллекта. Некоторые тесты (например, Си-тест), выведенные из «Колмогоровской сложности», используются для проверки людей и компьютеров.

Тест BotPrize

Двум командам программистов удалось победить в конкурсе BotPrize, который называют «игровой версией» теста Тьюринга. Сообщение о результатах теста приведено на сайте BotPrize, кратко его результаты анализирует NewScientist. Тест BotPrize проходил в виде многопользовательской компьютерной игры (Unreal Tournament 2004), персонажами которой управляли реальные люди или компьютерные алгоритмы

Стандартная интерпретация теста Тьюринга

Тест Тьюринга - эмпирический тест, идея которого была предложена Аланом Тьюрингом в статье «Вычислительные машины и разум» (англ. Computing Machinery and Intelligence ), опубликованной в 1950 году в философском журнале «Mind» . Тьюринг задался целью определить, может ли машина мыслить .

Стандартная интерпретация этого теста звучит следующим образом: «Человек взаимодействует с одним компьютером и одним человеком. На основании ответов на вопросы он должен определить, с кем он разговаривает: с человеком или компьютерной программой. Задача компьютерной программы - ввести человека в заблуждение, заставив сделать неверный выбор ».

Все участники теста не видят друг друга. Если судья не может сказать определенно, кто из собеседников является человеком, то считается, что машина прошла тест. Чтобы протестировать именно интеллект машины, а не её возможность распознавать устную речь, беседа ведется в режиме «только текст», например, с помощью клавиатуры и экрана (компьютера-посредника). Переписка должна производиться через контролируемые промежутки времени, чтобы судья не мог делать заключения, исходя из скорости ответов. Во времена Тьюринга компьютеры реагировали медленнее человека. Сейчас это правило необходимо, потому что они реагируют гораздо быстрее, чем человек.

История

Философские предпосылки

Хотя исследования в области искусственного интеллекта начались в 1956 году , их философские корни уходят глубоко в прошлое. Вопрос, сможет машина думать или нет, имеет долгую историю. Он тесно связан с различиями между дуалистическим и материалистическим взглядами. С точки зрения дуализма, мысль не является материальной (или, по крайней мере, не имеет материальных свойств), и поэтому разум нельзя объяснить только с помощью физических понятий. С другой стороны, материализм гласит, что разум можно объяснить физически, таким образом, оставляя возможность существования разумов, созданных искусственно.

Алан Тьюринг

К 1956 году британские учёные уже на протяжении 10 лет исследовали «машинный интеллект». Этот вопрос был обычным предметом для обсуждения среди членов «Ratio Club» - неформальной группы британских кибернетиков и исследователей в области электроники, в которой состоял и Алан Тьюринг, в честь которого был назван тест.

Тьюринг в особенности занимался проблемой машинного интеллекта, по меньшей мере, с 1941 года. Одно из самых первых его упоминаний о «компьютерном интеллекте» было сделано в 1947 году. В докладе «Интеллектуальные машины» Тьюринг исследовал вопрос, может ли машина обнаруживать разумное поведение, и в рамках этого исследования предложил то, что может считаться предтечей его дальнейших исследований: «Нетрудно разработать машину, которая будет неплохо играть в шахматы. Теперь возьмем трех человек - субъектов эксперимента. А, В и С. Пусть А и С неважно играют в шахматы, а В - оператор машины. […] Используются две комнаты, а также некоторый механизм для передачи сообщений о ходах. Участник С играет или с А, или с машиной. Участник С может затрудниться ответить с кем он играет».

Таким образом, к моменту публикации в 1950 году статьи «Вычислительные машины и разум», Тьюринг уже на протяжении многих лет рассматривал возможность существования искусственного интеллекта. Тем не менее, данная статья стала первой статьёй Тьюринга, в которой рассматривалось исключительно это понятие.

Тьюринг начинает свою статью утверждением: «Я предлагаю рассмотреть вопрос „Могут ли машины думать?“». Он подчёркивает, что традиционный подход к этому вопросу состоит в том, чтобы сначала определить понятия «машина» и «интеллект». Тьюринг, однако, выбрал другой путь; вместо этого он заменил исходный вопрос другим, «который тесно связан с исходным и формулируется относительно недвусмысленно». По существу, он предлагает заменить вопрос «Думают ли машины?» вопросом «Могут ли машины делать то, что можем делать мы (как мыслящие создания)?». Преимуществом нового вопроса, как утверждает Тьюринг, является то, что он проводит «чёткую границу между физическими и интеллектуальными возможностями человека».

Чтобы продемонстрировать этот подход, Тьюринг предлагает тест, придуманный по аналогии с игрой для вечеринок «Imitation game» - имитационная игра. В этой игре мужчина и женщина направляются в разные комнаты, а гости пытаются различить их, задавая им серию письменных вопросов и читая напечатанные на машинке ответы на них. По правилам игры и мужчина, и женщина пытаются убедить гостей, что все наоборот. Тьюринг предлагает переделать игру следующим образом: "Теперь зададим вопрос, что случится, если в этой игре роль А будет исполнять машина? Будет ли задающий вопросы ошибаться так же часто, как если бы он играл с мужчиной и женщиной? Эти вопросы заменяют собой исходный «Может ли машина думать?».

В том же докладе Тьюринг позднее предлагает «эквивалентную» альтернативную формулировку, включающую судью, который беседует только с компьютером и человеком. Наряду с тем, что ни одна из этих формулировок точно не соответствует той версии теста Тьюринга, которая наиболее известна сегодня, в 1952 учёный предложил третью. В этой версии теста, которую Тьюринг обсудил в эфире радио Би-Би-Си, жюри задает вопросы компьютеру, а роль компьютера состоит в том, чтобы заставить значительную часть членов жюри поверить, что он на самом деле человек.

В статье Тьюринга учтены 9 предполагаемых вопросов, которые включают все основные возражения против искусственного интеллекта, поднятые после того, как статья была впервые опубликована.

Элиза и PARRY

Блей Витби указывает на 4 основные поворотные точки в истории теста Тьюринга - публикация статьи «Вычислительные машины и разум» в 1950, сообщение о создании Джозефом Уайзенбаумом программы Элиза (ELIZA) в 1966, создание Кеннетом Колби программы PARRY , которая была впервые описана в 1972 году, и Коллоквиум Тьюринга в 1990.

Принцип работы Элизы заключается в исследовании введенных пользователем комментариев на наличие ключевых слов. Если найдено ключевое слово, то применяется правило, по которому комментарий пользователя преобразуется и возвращается предложение-результат. Если же ключевое слово не найдено, Элиза либо возвращает пользователю общий ответ, либо повторяет один из предыдущих комментариев. Вдобавок Уайзенбаум запрограммировал Элизу на имитацию поведения психотерапевта, работающего по клиент-центрированной методике. Это позволяет Элизе «притвориться, что она не знает почти ничего о реальном мире». Применяя эти способы, программа Уайзенбаума могла вводить в заблуждение некоторых людей, которые думали, что они разговаривают с реально существующим человеком, а некоторых было «очень трудно убедить, что Элиза […] не человек». На этом основании некоторые утверждают, что Элиза - одна из программ (возможно первая), которые смогли пройти тест Тьюринга. Однако это утверждение очень спорно, так как людей, «задающих вопросы», инструктировали так, чтобы они думали, что с ними будет разговаривать настоящий психотерапевт, и не подозревали о том, что они могут разговаривать с компьютером.

Коллоквиум по разговорным системам, 2005

В ноябре 2005 года в Университете Суррея проходила однодневная встреча разработчиков ACE , которую посетили победители практических тестов Тьюринга, проходивших в рамках конкурса на получение премии Лёбнера: Робби Гарнер (Robby Garner), Ричард Уоллес (Richard Wallace), Ролл Карпентер (Rollo Carpenter). В числе приглашенных докладчиков были Дэвид Хэмилл (David Hamill), Хью Лёбнер и Хьюма Ша.

Симпозиум общества AISB по тесту Тьюринга, 2008

В 2008 году наряду с проведением очередного конкурса на получение премии Лёбнера, проходившего в Университете Рединга (University of Reading), Общество изучения искусственного интеллекта и моделирования поведения (The Society for the Study of Artificial Intelligence and Simulation of Behavior - AISB) провело однодневный симпозиум, на котором обсуждался тест Тьюринга. Симпозиум организовали Джон Бенден (John Barnden), Марк Бишоп (Mark Bishop), Хьюма Ша и Кевин Ворвик. В числе докладчиков были директор Королевского института баронесса Сьюзан Гринфилд (Susan Greenfield) , Сельмер Брингсорд (Selmer Bringsjord), биограф Тьюринга Эндрю Ходжес (Andrew Hodges) и ученый Оуэн Холланд (Owen Holland). Никакого соглашения о каноническом тесте Тьюринга не появилось, однако Брингсорд предположил, что более крупная премия будет способствовать тому, что тест Тьюринга будет пройден быстрее.

Год Алана Тьюринга и Тьюринг-100 в 2012

В 2012 году будет отмечаться юбилей Алана Тьюринга. На протяжении всего года будет проходить множество больших мероприятий. Многие из них будут проходить в местах, имевших большое значение в жизни Тьюринга: Кембридж, Манчестер и Блетчи Парк. Год Алана Тьюринга курируется организацией TCAC (Turing Centenary Advisory Committee), осуществляющей профессиональную и организационную поддержку мероприятий в 2012 году. Также поддержкой мероприятий занимаются: ACM , ASL , SSAISB , BCS , BCTCS , Блетчи Парк , BMC , BLC , CCS , Association CiE , EACSL , EATCS , FoLLI , IACAP , IACR , KGS и LICS .

Для организации мероприятий по празднованию в июне 2012 года столетия со дня рождения Тьюринга создан специальный комитет, задачей которого является донести мысль Тьюринга о разумной машине, отраженную в таких голливудских фильмах, как «Бегущий по лезвию », до широкой публики, включая детей. В работе комитета участвуют: Кевин Ворвик, председатель, Хьюма Ша, координатор, Ян Бланд (Ian Bland), Крис Чапмэн (Chris Chapman), Марк Аллен (Marc Allen), Рори Данлоуп (Rory Dunlop), победители конкурса на получение премии Лёбнера Робби Гарне и Фред Робертс (Fred Roberts). Комитет работает при поддержке организации «Женщины в технике» (Women in Technology) и Daden Ltd.

На этом конкурсе россияне, имена которых не разглашаются, представили программу «Евгений». В 150 проведённых тестах (а по факту пятиминутных разговорах) участвовали пять новейших программ, которые «затерялись» среди 25 обычных людей. Программа «Евгений», изображавшая 13-летнего мальчика, проживающего в Одессе, стала победителем, сумев в 29,2 % своих ответов ввести экзаменаторов в заблуждение. Таким образом, программа не добрала всего 0,8 % для полного прохождения теста.

Варианты теста Тьюринга

Имитационная игра согласно описанию Тьюринга в статье «Вычислительные машины и разум». Игрок С путем задания серии вопросов пытается определить, кто из двух других игроков - мужчина, а кто - женщина. Игрок А, мужчина, пытается запутать игрока С, а игрок В пытается помочь С.

Первоначальный тест на основе имитационной игры, в котором вместо игрока А играет компьютер. Компьютер теперь должен запутать игрока С, в то время как игрок В продолжает пытаться помочь ведущему.

Существуют, по крайней мере, три основных варианта теста Тьюринга, два из которых были предложны в статье «Вычислительные машины и разум», а третий вариант, по терминологии Саула Трейджера (Saul Traiger), является стандартной интерпретацией.

Наряду с тем, что существует определенная дискуссия, соответствует ли современная интерпретация тому, что описывал Тьюринг, либо она является результатом неверного толкования его работ, все три версии не считаются равносильными, их сильные и слабые стороны различаются.

Имитационная игра

Тьюринг, как мы уже знаем, описал простую игру для вечеринок, которая включает в себя минимум трех игроков. Игрок А - мужчина, игрок В - женщина и игрок С, который играет в качестве ведущего беседу, любого пола. По правилам игры С не видит ни А, ни В и может общаться с ними только посредством письменных сообщений. Задавая вопросы игрокам А и В, С пытается определить, кто из них - мужчина, а кто - женщина. Задачей игрока А является запутать игрока С, чтобы он сделал неправильный вывод. В то же время задачей игрока В является помочь игроку С вынести верное суждение.

В той версии, которую С. Г. Стеррет (S. G. Sterret) называет «Первоначальный тест на основе имитационной игры» (Original Imitation Game Test), Тьюринг предлагает, чтобы роль игрока А исполнял компьютер. Таким образом, задачей компьютера является притвориться женщиной, чтобы сбить с толку игрока С. Успешность выполнения подобной задачи оценивается на основе сравнения исходов игры, когда игрок А - компьютер, и исходов, когда игрок А - мужчина:

Второй вариант предложен Тьюрингом в той же статье. Как и в «Первоначальном тесте», роль игрока А исполняет компьютер. Различие заключается в том, что роль игрока В может исполнять как мужчина, так и женщина.

«Давайте рассмотрим конкретный компьютер. Верно ли то, что модифицируя этот компьютер с целью иметь достаточно места для хранения данных, увеличивая скорость его работы и задавая ему подходящую программу, можно сконструировать такой компьютер, чтобы он удовлетворительно выполнял роль игрока А в имитационной игре, в то время как роль игрока В выполняет мужчина?», - Тьюринг, 1950, стр. 442.

В этом варианте оба игрока А и В пытаются склонить ведущего к неверному решению.

Стандартная интерпретация

Главной мыслью данной версии является то, что целью теста Тьюринга является ответ не на вопрос, может ли машина одурачить ведущего, а на вопрос, может ли машина имитировать человека или нет. Несмотря на то, что идут споры о том, подразумевался ли этот вариант Тьюрингом или нет, Стеррет считает, что этот вариант Тьюрингом подразумевался и, таким образом, совмещает второй вариант с третьим. В это же время группа оппонентов, включая Трейджера, так не считает. Но это все равно привело к тому, что можно назвать «стандартной интерпретацией». В этом варианте игрок А - компьютер, игрок В - человек любого пола. Задачей ведущего является теперь не определить кто из них мужчина и женщина, а кто из них компьютер, а кто - человек.

Имитационная игра в сравнении со стандартным тестом Тьюринга

Существуют разногласия по поводу того, какой же вариант имел в виду Тьюринг. Стеррет настаивает на том, что из работы Тьюринга следуют два различных варианта теста, которые, согласно Тьюрингу, неэквивалентны друг другу. Тест, в котором используется игра для вечеринок и сравнивается доля успехов, называется Первоначальным тестом на основе имитационной игры, в то время как тест, основанный на беседе судьи с человеком и машиной, называют Стандартным тестом Тьюринга, отмечая, что Стеррет приравнивает его к стандартной интерпретации, а не ко второму варианту имитационной игры.

Стеррет согласен, что Стандартный тест Тьюринга (STT - Standard Turing Test) имеет недостатки, на которые указывает его критика. Но он считает, что напротив первоначальный тест на основе имитационной игры (OIG Test - Original Imitation Game Test) лишен многих из них в силу ключевых различий: в отличие от STT он не рассматривает поведение, похожее на человеческое, в качестве основного критерия, хотя и учитывает человеческое поведение в качестве признака разумности машины. Человек может не пройти тест OIG, в связи с чем есть мнение, что это является достоинством теста на наличие интеллекта. Неспособность пройти тест означает отсутствие находчивости: в тесте OIG по определению считается, что интеллект связан с находчивостью и не является просто «имитацией поведения человека во время разговора». В общем виде тест OIG можно даже использовать в невербальных вариантах.

Тем не менее, другие писатели интерпретировали слова Тьюринга, как предложение считать саму имитационную игру тестом. Причем не объясняется, как связать это положение и слова Тьюринга о том, что тест, предложенный им на основе игры для вечеринок, базируется на критерии сравнительной частоты успехов в этой имитационной игре, а не на возможности выиграть раунд игры.

Должен ли судья знать о компьютере?

В своих работах Тьюринг не поясняет, знает ли судья о том, что среди участников теста будет компьютер, или нет. Что касается OIG, Тьюринг лишь говорит, что игрока А следует заменить машиной, но умалчивает, известно ли это игроку С или нет. Когда Колби, Ф. Д. Хилф (F. D. Hilf), А. Д. Крамер (A. D. Kramer) тестировали PARRY, они решили, что судьям необязательно знать, что один или несколько собеседников будут компьютерами. Как отмечает А. Седжин (A. Saygin), а также другие специалисты, это накладывает существенный отпечаток на реализацию и результаты теста.

Достоинства теста

Ширина темы

Сильной стороной теста Тьюринга является то, что можно разговаривать о чем угодно. Тьюринг писал, что «метод вопросов и ответов кажется подходящим для обсуждения почти любой из сфер человеческих интересов, которую мы хотим обсудить». Джон Хогеленд добавил, что «одного понимания слов недостаточно; вам также необходимо разбираться в теме разговора». Чтобы пройти хорошо поставленный тест Тьюринга, машина должна использовать естественный язык, рассуждать, иметь познания и обучаться. Тест можно усложнить, включив ввод с помощью видео, или, например, оборудовав шлюз для передачи предметов: машине придётся продемонстрировать способность к зрению и робототехнике. Все эти задачи вместе отражают основные проблемы, стоящие перед теорией об искусственном интеллекте.

Уступчивость и простота

Сила и привлекательность теста Тьюринга исходит из его простоты. Философы сознания, психологии в современной неврологии не способны дать определения «интеллект» и «мышление», насколько они являются достаточно точными и вообще применимы к машинам. Без такого определения, в центральных вопросах философии об искусственном интеллекте не может быть ответа. Тест Тьюринга, даже если и несовершенен, но по крайней мере, обеспечивает то, что это действительно может быть измерено. Как таковой, это является прагматическим решением, трудных философских вопросов.

Недостатки теста

Несмотря на все свои достоинства и известность, тест критикуют на нескольких основаниях.

Человеческий разум и разум вообще

Поведение человека и разумное поведение

Направленность теста Тьюринга ярко выражена в сторону человека (антропоморфизм). Проверяется только способность машины походить на человека, а не разумность машины вообще. Тест неспособен оценить общий интеллект машины по двум причинам:

  • Иногда поведение человека не поддается разумному толкованию. В это же время тест Тьюринга требует, чтобы машина была способна имитировать все виды человеческого поведения, не обращая внимания на то, насколько оно разумно. Он также проверяет способность имитировать такое поведение, какое человек за разумное и не посчитает, например, реакция на оскорбления, соблазн соврать или просто большое количество опечаток. Если машина неспособна с точностью до деталей имитировать поведение человека, опечатки и тому подобное, то она не проходит тест, несмотря на весь тот интеллект, которым она может обладать.
  • Некоторое разумное поведение не присуще человеку. Тест Тьюринга не проверяет высокоинтеллектуальное поведение, например, способность решать сложные задачи или выдвигать оригинальные идеи. По сути, тест требует, чтобы машина обманывала: какой бы умной ни была машина, она должна притворяться не слишком умной, чтобы пройти тест. Если же машина способна быстро решить некую вычислительную задачу, непосильную для человека, она по определению провалит тест.

Непрактичность

Экстраполируя экспоненциальный рост уровня технологии в течение нескольких десятилетий, футурист Рэймонд Курцвейл предположил, что машины, способные пройти тест Тьюринга, будут изготовлены, по грубым оценкам, около 2020 года. Это перекликается с законом Мура .

В проект Long Bet Project входит пари стоимостью 20 000 $ между Митчем Капуром (Mitch Kapor - пессимист) и Рэймондом Курцвейлом (оптимист). Смысл пари: пройдет ли компьютер тест Тьюринга к 2029 году? Определены также некоторые условия пари.

Вариации теста Тьюринга

Многочисленные версии теста Тьюринга, включая описанные ранее, уже обсуждаются довольно долгое время.

Обратный тест Тьюринга и CAPTCHA

Модификация теста Тьюринга, в которой цель или одну или более ролей машины и человека поменяли местами, называется обратным тестом Тьюринга. Пример этого теста приведен в работе психоаналитика Уилфреда Биона, который был в особенности восхищен тем, как активизируется мыслительная активность при столкновении с другим разумом.

Развивая эту идею, Р. Д. Хиншелвуд (R. D. Hinshelwood) описал разум как «аппарат, распознающий разум», отметив, что это можно считать как бы «дополнением» к тесту Тьюринга. Теперь задачей компьютера будет определить с кем он беседовал: с человеком или же с другим компьютером. Именно на это дополнение к вопросу и пытался ответить Тьюринг, но, пожалуй, оно вводит достаточно высокий стандарт на то, чтобы определить, может ли машина «думать» так, как мы обычно относим это понятие к человеку.

CAPTCHA - это разновидность обратного теста Тьюринга. Перед тем как разрешить выполнение некоторого действия на сайте, пользователю выдается искаженное изображение с набором цифр и букв и предложение ввести этот набор в специальное поле. Цель этой операции - предотвратить атаки автоматических систем на сайт. Обоснованием подобной операции является то, что пока не существует программ достаточно мощных для того, чтобы распознать и точно воспроизвести текст с искаженного изображения (или они недоступны простым пользователям), поэтому считается, что система, которая смогла это сделать, с высокой вероятностью может считаться человеком. Выводом будет (хотя и не обязательно), что искусственный интеллект пока не создан.

Тест Тьюринга со специалистом

Эта вариация теста описывается следующим образом: ответ машины не должен отличаться от ответа эксперта - специалиста в определенной области знаний. По мере развития технологий по сканированию организма человека, станет возможным копировать необходимую информацию из тела и мозга в компьютер.

Тест бессмертия

Тест бессмертия - это вариация теста Тьюринга, которая определяет, качественно ли передан характер человека, а именно возможно ли отличить скопированный характер от характера человека, послужившего его источником.

Минимальный интеллектуальный Signal-тест (MIST)

MIST предложен Крисом Мак-Кинстри (Chris McKinstry). В этой вариации теста Тьюринга разрешены лишь два типа ответов - «да» и «нет». Обычно MIST используют для сбора статистической информации, с помощью которой можно измерить производительность программ, реализующих искусственный интеллект.

Мета-тест Тьюринга

В этой вариации теста субъект (скажем, компьютер) считают разумным, если он создал нечто, что он сам хочет проверить на разумность.

Премия Хаттера

Организаторы премии Хаттера считают, что сжатие текста на естественном языке является трудной задачей для искусственного интеллекта, эквивалентной прохождению теста Тьюринга.

Тест по сжатию информации имеет определенные преимущества над большей частью вариантов и вариаций теста Тьюринга:

  • Его результатом является единственное число, по которому можно судить какая из двух машин «более разумная».
  • Не требуется, чтобы компьютер врал судье - учить компьютеры врать считают плохой идеей.

Основными недостатками подобного теста являются:

  • С его помощью невозможно протестировать человека.
  • Неизвестно какой результат (и есть ли он вообще) эквивалентен прохождению теста Тьюринга (на уровне человека).

Другие тесты интеллекта

Существует множество тестов на уровень интеллекта, которые используют для тестирования людей. Возможно, что их можно использовать для тестирования искусственного интеллекта. Некоторые тесты (например, Си-тест), выведенные из «Колмогоровской сложности», используются для проверки людей и компьютеров.

Текст
Артём Лучко

Британский университет Рединга с большой помпой объявил, что миновала «важная веха в истории вычислительной техники» и компьютер впервые прошёл корректно поставленный тест Тьюринга, введя в заблуждение судей, которые поверили, что общаются с 13-летним украинским мальчиком. Look At Me разобрался в том, что кроется на самом деле за этим событием.

Что собой представлял эксперимент


Университет Рединга, специалисты которого провели первый успешный тест Тьюринга

Тестирование чат-ботов было организовано Школой системной инженерии при университете Рединга к 60-летию кончины Алана Тьюринга. Эксперты общались одновременно с живым человеком и с программой, находясь в разных комнатах. По окончании теста каждый из судей должен заявить, кто из двух его собеседников - человек, а кто - программа. Для чистоты эксперимента были задействованы пять компьютеров и 30 судей, каждый из которых провёл серию из 10 письменных диалогов длительностью по 5 минут. Хотя обычно в ежегодном конкурсе программ искусственного интеллекта на премию Лёбнера (в котором программы соревнуются в прохождении теста Тьюринга за приз $2000) принимают участие всего 4 чат-бота и 4 человека. В результате эксперимента программа Eugene Goostman сумела убедить 33 % состава жюри в своей «человечности», что произошло первый раз в истории. Роберт Луэллин, один из судей, британский актёр и любитель технологий сказал:

Тест Тьюринга был удивительным. Состоялись 10 сеансов по 5 минут, 2 экрана, 1 человек и 1 машина. Я угадал правильно только 4 раза. Этот робот оказался умным малым...

Чат-бот Eugene Goostman был разработан выходцем из России Владимиром Веселовым (сейчас он проживает в США) и украинцем Евгением Демченко, живущим в России. Первая версия появилась ещё в 2001 году. Возраст подростка был выбран неслучайно: в 13 лет ребёнок уже многое знает, но далеко не всё, что усложняет задачу судей. В 2012 году чат-бот уже подобрался довольно близко к успеху: тогда в «человечность» украинского школьника поверили 29 % из числа судей. В ходе последних доработок программистам удалось подготовить виртуального собеседника ко всем возможным вопросам и даже обучить его подбирать примеры ответов в «Твиттере».

Что такое тест Тьюринга,
и в чём его недостатки


Алан Тьюринг в возрасте 16 лет

Тест Тьюринга был впервые предложен британским математиком Аланом Тьюрингом в статье «Вычислительная техника и интеллект», опубликованной в журнале Mind в 1950 году. В ней учёный задался простым вопросом: «Может ли машина мыслить». В своей самой простой форме тест заключается в следующем: человек взаимодействует с одним компьютером и одним человеком. На основании ответов на вопросы он должен определить, с кем он разговаривает: с человеком или компьютерной программой. Задача компьютерной программы - ввести человека в заблуждение, заставив сделать неверный выбор. Тест подразумевает пятиминутный текстовый диалог, в ходе которого минимум 30 % судей должны поверить, что они имеют дело с человеком, а не машиной. При этом, разумеется, все участники теста не видят друг друга.


Джон Серл, американский философ

Есть много различных версий этого испытания (в некоторых вариациях судья знает, что одним из проверяемых собеседников является компьютер, в других - не знает об этом), но многие учёные и философы критикуют его по сей день. В своё время американский философ Джон Серл бросил тесту вызов своим мысленным экспериментом, известным как «Китайская комната». Он позволил себе предположить, что способность компьютера вести разговор и убедительно отвечать на вопросы - далеко не то же самое, что иметь разум и мыслить, как человек. «Предположим, что меня заперли в комнате и [...] что я не знаю ни одного китайского слова, ни письменно, ни устно», - пишет Серл в 1980 году. Он представил, что получал вопросы, написанные на китайском языке через щель в стене. Он не был в состоянии прочитать эти символы, но имел набор инструкций на английском, которые позволяли ему реагировать на «один набор формальных символов другим набором формальных символов». Таким образом, Серл теоретически смог бы отвечать на вопросы, просто следуя правилам английского и выбирая правильные китайские иероглифы. И его собеседники были бы убеждены, что он может говорить по-китайски.

Большинство критиков теста Тьюринга как способа оценки искусственного интеллекта придерживаются аналогичного мнения. Они утверждают, что компьютеры могут только использовать наборы правил и огромные базы данных, запрограммированных для ответов на вопросы, чтобы лишь казаться разумными.

Как программа обманула жюри


Профессор университета Рединга Кевин Уорвик

У Eugene Goostman имеется два фактора, которые помогли ему пройти тест. Во-первых, грамматические и стилистические ошибки, которые допускает машина в подражание письму подростка, а во-вторых, отсутствие знаний о специфических культурных и исторических фактах, которое также может быть списано на возраст школьника.

В процессе разработки искусственного интеллекта нет более знакового и противоречивого этапа, чем прохождение теста Тьюринга

«Успех программы, скорее всего, пробудит некоторые опасения по поводу будущего информационных технологий, - заявил профессор университета Рединга Кевин Уорвик. - В процессе разработки искусственного интеллекта нет более знакового и противоречивого этапа, чем прохождение теста Тьюринга, когда компьютер убеждает достаточное количество судей полагать, что с ними общается не машина, а человек. Само существование компьютера, который может обмануть человека, заставив его думать, что он - это человек, является тревожным сигналом, связанным с киберпреступностью». Тест Тьюринга по сей день является важным инструментом в борьбе с этой угрозой. И теперь специалистам предстоит более полно разобраться, как появление подобных продвинутых чат-ботов может повлиять на онлайн-общение в интернете.

Судя по логам, которые можно найти в Сети (опробовать бот самостоятельно пока не получается, вероятно, из-за ажиотажа сайт не выдержал трафика и «упал»), чат-бот довольно-таки примитивен и, как кажется на первый взгляд, не сильно отличается от похожих разработок, которые можно найти в интернете. Один из любопытных диалогов с «Евгением» представил журналист Леонид Бершидский, который задавал ему неудобные вопросы о громком событии, которое не могло пройти мимо юного одессита.

Даже учитывая проработанный характер и биографию, ошибки и опечатки, которые может допускать реальный подросток, убедительность бота вызывает сомнения. По сути, он также реагирует на ключевые слова, а когда его ставят в тупик, он выдает заранее заготовленные и не самые оригинальные ответы-заглушки. Если бы программа имела возможность использовать поисковые системы, чтобы находиться в контексте текущей ситуации в мире, мы могли бы видеть гораздо более впечатляющий результат. Вероятно, на это нужно время. Ранее известный футуролог Реймонд Курцвейл, занимающий должность технического директора Google, заявлял , что компьютеры смогут с лёгкостью проходить тест Тьюринга к 2029 году. По его предположениям, к этому времени они смогут освоить человеческий язык и превзойти интеллектом людей.

7 суперкомпьютеров, способных обхитрить человека

ELIZA


Эмпирический эксперимент, в ходе которого человек общается с компьютерной интеллектуальной программой, которая моделирует ответы как человек.

Предполагается, что тест Тьюринг пройден, если человек при общении с машиной считает, что общается с человеком, а не машиной.

Британский математик Алан Тьюринг в 1950 г. придумал такой эксперимент по аналогии с имитационной игрой, которая предполагает, что 2 человека уходят в разные комнаты, а 3й человек должен понять кто где, общаясь с ними письменно.

Тьюринг предложил такую игру провести с машиной и, если машина сможет ввести в заблуждение эксперта, это будет означать, что машина может думать. Таким образом, классический тест проходит по следующему сценарию:

Человек-эксперт общается через чат с чат-ботом и другими людьми. По окончании общения эксперт должен понять, кто из собеседников был человеком, а кто — ботом.

В наше время тест Тьюринга получил много разных модификаций, рассмотрим некоторые из них:

Обратный тест Тьюринга

Тест заключается в выполнении каких- либо действий для подтверждения, что ты человек. Н-р, мы можем часто сталкиваться с потребностью ввести цифры и буквы в специальное поле с искаженного изображения с набором цифр и букв. Данные действия защищают сайт от ботов. Прохождение данного теста подтверждало бы способность машины воспринимать сложные искаженные изображения, но пока таких не существует.

Тест бессмертия

Тест заключается в максимальном повторении личностных характеристик человека. Считается, что если характер человека максимально качественно скопирован, и его невозможно отличить от источника, то означает, что пройден тест бессмертия.

Минимальный интеллектуальный Signal-тест

Теста предполагает упрощенную форму ответов на вопросы — только да и нет.

Мета-тест Тьюринга

Тест предполагает, что машина «умеет мыслить», если она может создать что-то, что она сама хочет проверить на разумность.

Первое прохождение классического теста Тьюринга зафиксировано 6 июня 2014 года чат-ботом «Женя Густман», разработанным в Санкт-Петербурге. Бот убедил экспертов, что они общаются с 13-летним подростка из Одессы.

В общем, машины уже способны на многое, сейчас много специалистов работают в данном направлении и нас ждут все более интересные вариации и прохождения данного теста.

"Eugene Goostman" удалось пройти тест Тьюринга и убедить 33% судей в том, что с ними общается не машина. Программа выдавала себя за триннадцатилетнего мальчика по имени Евгений Густман из Одессы и смогла убедить беседовавших с ней людей в том, что выдаваемые ею ответы принадлежат человеку.

Тест проходил в Лондонском королевском обществе, его проведение организовал Университет Рединга, Великобритания. Авторами программы являются российский инженер Владимир Веселов, проживающий в настоящее время в США, и украинец Евгений Демченко, который живёт сейчас в России.

Как программа "Евгений Густман" прошла тест Тьюринга?

В субботу 7 июня 2014 года суперкомпьютер по имени Eugene попытался воссоздать интеллект тринадцатилетнего подростка - Евгения Густмана.

В тестировании, организованном Школой системной инженерии при Университете Рединга (Великобритания), участвовали пять суперкомпьютеров. Испытание представляло собой серию пятиминутных письменных диалогов.

Разработчикам программы удалось подготовить бота ко всем возможным вопросам и даже обучить его собирать примеры диалогов через Twitter. Кроме того, инженеры наделили героя ярким характером. Притворяясь 13-летним мальчиком, виртуальный «Евгений Густман» не вызывал сомнений у экспертов. Они поверили в то, что мальчик может не знать ответы на многие вопросы, ведь уровень знаний у среднего ребёнка существенно ниже, чем у взрослых. При этом его правильные и точные ответы списывали на необычную эрудицию и начитанность.

В тесте участвовали 25 «скрытых» людей и 5 чат-ботов. Каждый из 30-ти судей провёл по пять чат-сессий, пытаясь определить реальную природу собеседника. Для сравнения, в традиционном ежегодном конкурсе программ искусственного интеллекта на премию Лёбнера* участвует всего 4 программы и 4 скрытых человека.

Впервые программа с «юным одесситом» появилась ещё в 2001 году. Однако лишь в 2012 году она показала действительно серьёзный результат, убедив 29 % судей.

Данный факт доказывает, что в скором будущем, появятся програмы, которые будут способны без проблем пройти тест Тьюринга .



© 2024 rupeek.ru -- Психология и развитие. Начальная школа. Старшие классы