1. Перейти к содержанию
  2. Перейти к главному меню
  3. К другим проектам DW

Компьютерные системы распознавания речи

Владимир Фрадкин «Немецкая волна»

31.10.2005

https://p.dw.com/p/7OwW

В сегодняшнем выпуске радиожурнала разговор пойдёт о том, как компьютеры учатся распознавать человеческую речь и что эта их способность сулит нам в ближайшем будущем. Этим вопросам был посвящён прошедший недавно в Бонне международный научный конгресс «Voice Day». А затем мы поговорим о том, почему личный пароль пользователя является самым слабым звеном во всей системе защиты данных от несанкционированного доступа, и как сделать его более надёжным.

Тем, что компьютеры и многие другие более или менее родственные им приборы способны выполнять команды, поданные голосом, сегодня уже никого не удивишь. Скажем, на рынке полно мобильных телефонов, которые избавляют пользователя от необходимости набирать нужный номер вручную. Достаточно чётко и внятно произнести имя абонента, и аппарат тут же дозванивается до него самостоятельно. Технология вроде бы проста: вводя в записную книжку аппарата номера телефонов своих друзей, знакомых и коллег, пользователь вслух произносит и их имена. Эти звуки в виде цифрового кода также фиксируются памятью телефонного аппарата вместе с соответствующими номерами. Получая впоследствии устную команду позвонить Ренате или Вольфгангу, Маше или Васе, аппарат анализирует звучание этого произнесённого голосом имени, сравнивает его с тем набором образцов, что хранится у него в памяти, и выбирает наиболее близкий по произношению вариант.

Всё это отлично функционирует, но лишь пока дело ограничивается отдельными именами. Гораздо сложнее научить компьютер понимать живую, естественную, непринуждённую человеческую речь. Кое-что в этом направлении, конечно, уже достигнуто: в справочных, диспетчерских и сервисных службах крупных фирм –банков, авиакомпаний, страховых концернов и так далее – телефонную трубку «снимает» компьютер. Правда, сколько-нибудь полноценного разговора при этом не получается: всё ограничивается тем, что машина сортирует звонки. Для этого она просит позвонившего ответить «да» или «нет» на ряд вопросов или назвать из короткого перечня номер категории, к которой относится его дело, после чего соединяет абонента с живым оператором. Восторга у звонящих это, как правило, не вызывает: мало кому нравится продираться сквозь не всегда логично составленные меню и вести бессмысленные диалоги с компьютером, которые нередко заканчиваются тем, что всё приходится начинать сначала только потому, что абонент в неподходящий момент хмыкнул и этим сбил машину с толку. Маттиас Пайсснер (Matthias Peissner), научный сотрудник Института организации труда имени Фраунхофера в Штутгарте, говорит:

Я бы хотел, чтобы в организации взаимодействия человека и компьютера как можно больше систем использовало принцип так называемой смешанной, или перемежающейся, инициативы. Это означает вот что: если пользователь с системой незнаком, то она сама ведёт его шаг за шагом, подробно объясняя каждую опцию, каждый пункт меню, и он делает свой выбор на основе этих объяснений. Если же пользователь уже имеет опыт работы с системой, он может сразу сказать, что ему нужно, перескочить некоторые шаги и так быстрее добраться до цели.

Технологии, обеспечивающие такую гибкость, в принципе разработаны и в ряде сфер успешно применяются. Прежде всего, это относится к банковскому делу: клиенты практически любого кредитного учреждения имеют возможность по телефону распорядиться о переводе денег, навести справку о состоянии счёта, дать новое или внести изменения в старое платёжное поручение – и всё это в беседе с компьютером. Правда, в строго формализованной беседе, что сильно облегчает задачу. Недаром профессор Вольфганг Вальстер (Wolfgang Wahlster), директор Немецкого исследовательского центра искусственного интеллекта при университете города Саарбрюккена и один из ветеранов этого научного направления, подчёркивает:

Я проработал в этой области 30 лет и могу определённо сказать, что те виды деятельности, которые люди постигают в школе или в институте, то есть в процессе упорядоченного обучения, гораздо легче и быстрее поддаются компьютеризации, чем, скажем, разного рода бытовые занятия, основанные на нашем повседневном опыте. Прежде всего, такие занятия не формализованы. Не существует теории глажения рубашек или теории езды на велосипеде. А если процесс формально не описан, то его невозможно и запрограммировать.

Тем не менее, немалых успехов разработчикам интерактивных компьютерных систем удалось добиться, например, в области справочных служб. В частности, на боннском конгрессе была отмечена премией система, информирующая о репертуаре кинотеатров. Она практически безошибочно понимает вопросы, заданные в форме произвольных, достаточно сложных фраз, например: «Где я могу посмотреть последний фильм Джима Джармуша?» Пользователь может перебить автомат и задать новый вопрос, не дослушав ответ на предыдущий: компьютер на всё это реагирует вполне адекватно. Это вселяет в Пайсснера уверенность в том, что такие – или сходные – программы будут играть всё более важную роль не только в сфере досуга, но и на производстве:

Например, в сфере технического обслуживания, ремонта и профилактики, особенно там, где используются рутинные технологические процедуры, где нужно, скажем, последовательно, шаг за шагом, проверить те или иные параметры, системы, понимающие человеческую речь, могут найти широкое применение. Или, например, там, где у работника глаза и руки заняты другим делом и ему не до писанины. Или там, где низок уровень освещённости.

Профессор Вальстер указывает на ещё одну сферу применения таких систем – автомобили:

Через два-три года появятся автомобили, оснащённые аудиосистемами, которые позволят вам делать музыкальные заявки, просто произнося вслух соответствующую фразу: «Я хочу послушать последний хит Мадонны или, скажем, фортепьянный концерт Моцарта, опус такой-то», и бортовой компьютер выполнит ваше пожелание. Думаю, что уже в будущем году на рынке появятся навигационные системы с речевым программированием.

Впрочем, – признаёт учёный, – такие мобильные системы реализовать сложнее, чем стационарные, и дело тут не только в габаритных размерах:

Это весьма трудная с технологической точки зрения задача. Прежде всего, потому, что в автомобиле уровень шума гораздо выше, чем дома или в офисе, значит, возрастает вероятность ошибок, а в условиях дорожного движения цена ошибки может быть очень велика, даже если речь не идёт об управлении функциями, непосредственно влияющими на безопасность. Нельзя допустить, чтобы водителю приходилось вступать с компьютерной системой в долгие диалоги, потому что это мешает ему сосредоточиться на главном, отвлекает от управления автомобилем ничуть не меньше, чем разговор по мобильному телефону.

Что касается мобильного телефона, то для него профессор Вальстер разработал компьютерную программу, которая способна выполнять функцию переводчика-синхрониста. Эта удивительная программа, именуемая «VerbMobil», открывает широкие перспективы и во многих других сферах.

Если помните, британский писатель Дуглас Адамс (Douglas Adams), знаменитый автор научно-фантастической трилогии «Автостопом по галактике», придумал в помощь своим героям некое чудо-животное – «вавилонскую рыбку», способную понимать и синхронно переводить все языки Вселенной. Программа, созданная под руководством профессора Вальстера, вряд ли сможет облегчить общение с представителями внеземных цивилизаций, однако на Земле ей, похоже, уготован триумфальный успех. По словам учёного, его задача состояла в том, чтобы:

...создать мобильный телефон с функцией перевода с одного языка на другой. Причём такой, чтобы не нужно было подключать к нему ещё какие-то приборы. Просто вы набираете определённый сервисный номер, система соединяет вас с нужным вам иностранным абонентом и сама переводит ваш диалог в обе стороны. Вы слышите речь своего собеседника в переводе на ваш родной язык, а то, что говорите вы сами, раздаётся на другом конце провода в переводе на язык вашего собеседника. Сегодня наша программа поддерживает, помимо немецкого, ещё три языка – английский, японский и китайский. Правда, должен сразу отметить, что всё это хорошо функционирует лишь до тех пор, пока разговор не выходит за рамки определённых, заранее выбранных тем.

Планирование и организация поездок, согласование сроков деловых встреч и обсуждение контрактов, а также телефонный сервис и техническая поддержка для пользователей компьютеров – вот те три темы, на которых сосредоточили свои усилия разработчики программы. Они заложили в неё массу самых разных сведений в этих областях знания, так что программа обрела способность очень глубоко анализировать любые фразы, касающиеся выбранных тем. Профессор Вальстер поясняет:

Глубокий анализ означает, что сначала произнесённая фраза акустически раскладывается на слова-гипотезы, которые получают – или не получают – подтверждение в зависимости от того, какой текст звучал в ходе того же диалога раньше. Надо сказать, что хотя лексика и грамматика – важные критерии анализа, ими дело не исчерпывается. Программа обязана знать реалии быта. Ну, например, то, что обедать принято между полуднем и часом дня, а ужинать – после 6-ти часов вечера. Ведь если немецкий бизнесмен говорит по телефону своему американскому партнёру: «а потом давайте вместе поедим», то при переводе этой фразы на английский язык программа должна в зависимости от времени суток сказать либо «let’s have lunch together – давайте вместе пообедаем», либо «let’s have dinner together – давайте вместе поужинаем».

Многоуровневая система распознавания и перевода речи сочетает различные критерии с тем, чтобы максимально точно выявить истинный смысл сказанного. Речь, регистрируемая микрофоном, прежде всего, оцифровывается. Затем программа разбивает эти акустические сигналы на отдельные слова и старается их осмыслить. На этом этапе главная трудность связана с многозначностью слов – например, произнося немецкое слово «Bank», собеседник может иметь в виду и кредитный институт, и скамейку, и базу данных. Кроме того, система должна уметь отфильтровывать оговорки и звуки-паразиты вроде «эканья». Анализу подвергается также мелодика фразы – это очень важно, ведь интонацией можно придать своим словам даже прямо противоположный смысл. Когда же фраза расшифрована, программа-переводчик строит соответствующую ей фразу на иностранном языке. Затем эта фраза синтезируется акустически. Создатели программы признают, что этот последний этап ещё нуждается в некоторой доработке. А вот распознавание речи и её перевод уже сейчас функционируют безупречно. Впрочем, несмотря на успехи в создании искусственного разума, никакой эйфории профессор Вальстер не испытывает:

Трезво оценивая интеллектуальные возможности современных систем, можно смело сказать, что никакая конкуренция с их стороны человечеству в ближайшие сто лет не грозит.

А теперь поговорим о другом аспекте компьютерных технологий – сетевой безопасности и защите баз данных от несанкционированного доступа. Этим проблемам была посвящена прошедшая недавно в Вене очередная европейская конференция, ежегодно организуемая мировым лидером в этой области – компанией «RSA Security Inc.». В частности, живо обсуждался и вопрос, касающийся всех без исключения пользователей, – надёжность паролей. По словам Уилльяма Дуэйна (William Duane) – одного ведущих экспертов в этой области – традиционные пароли крайне ненадёжны, даже если пользователь строго следует всем рекомендациям специалистов – часто меняет пароли, не использует в этом качестве имена близких родственников и клички домашних животных, выбирает пароли длиной не менее 6-ти знаков и комбинирует при этом буквы, цифры и знаки препинания. Даже такой приём, как запоминание фразы, в которой первые буквы каждого слова и составляют пароль, отнюдь не гарантирует надёжную защиту от несанкционированного доступа. Любой код, любой пароль может быть взломан, – говорит Дуэйн:

Это действительно так, потому что вычислительная мощность компьютеров растёт экспоненциально, а возможности человеческого мозга остаются неизменными. Сегодня мы достигли такого уровня развития программного обеспечения, что любой пароль, придуманный человеком, может быть расшифрован. Сколько времени это займёт, зависит от сложности пароля: обычно от нескольких часов до нескольких недель. Согласно закону Мура, вычислительная мощность компьютеров удваивается каждые 18 месяцев. Даже если сегодня взлом вашего пароля занимает 2 недели, то через полтора года это время сократится наполовину. Иными словами, мы оказались в ситуации, когда пароль доступа уже не обеспечивает надёжную защиту действительно ценной информации.

Что же делать? Этим вопросом особенно озабочены компании, предлагающие товары и услуги в Интернете: они могут лишиться клиентов. Биометрические системы, в которых паролем служил бы отпечаток пальца, так и не получили распространения – прежде всего, потому, что соответствующие сканнеры не стали неотъемлемой принадлежностью любого компьютера. Поэтому один из наиболее перспективных путей повышения безопасности – это использование одноразовых кодов. Они уже сегодня применяются для банковских операций в Интернете. При этом фирма «VeriSign Authentication and Email Security Services» намерена стать своего рода центральной сетевой инстанцией по верификации таких паролей. Вице-президент компании Нико Попп (Nico Popp) говорит:

Да, это новый компонент безопасности, который мы намерены встроить в мировую паутину. Вместо того, чтобы для каждой задачи покупать новые идентификационные программы и соответствующие аппаратные средства, любая фирма может делегировать эту функцию центральной инстанции. Такое решение и проще, и дешевле.

Правда, ряд экспертов возражают против создания такой централизованной базы данных, опасаясь утечки информации личного характера. Но фирма «VeriSign» уверяет, что анонимность пользователей будет сохранена, поскольку проверять планируется лишь соответствие одноразового кода той услуге, для получения которой он использован. Фирма даже уже заключила договор с крупнейшим в мире интернетным аукционным порталом «eBay». Предполагается, что вскоре пользователям портала будут разосланы карточки-микрочипы, генерирующие одноразовые коды. Чтобы сделать ставку, пользователю придётся задавать не только логин и пароль, но и одноразовый код, верификацию которого будет осуществлять фирма «VeriSign». Приживётся ли это новшество, пока неясно: ведь опытные пользователи портала «eBay» норовят сделать ставку за 5-10 секунд до завершения аукциона, а введение лишнего кода требует времени.