Общество

Безопасность, производство, реклама и еще 9 сфер бизнеса, где не умеют слушать

Егор Ганин, заместитель вице-президента - руководитель направления облачных и бизнес-сервисов Mail.ru Group, рассказывает, почему важно не только смотреть, но и слышать

05.06.2019 11:47:09

ФОТОРЕПОРТАЖ

Аудионаблюдение за порядком еще не так привычно, как видеонаблюдение, но постепенно начинает входить в повседневность | Фото: пресс-служба проекта

Речь идет о том, как распознавание звуков может помочь наладить сервис в магазине, спасти пострадавших в ДТП, остановить грабителя и предотвратить поломку станка.

В советском мультфильме «Большой Ух» забавный ушастый инопланетянин учит волчонка слушать. Тот начинает прислушиваться к ночному лесу, по звукам определяет, что с кем-то случилась беда, и спешит на помощь. В общем, почти как в «Сорвиголове», ориентированном на современных подростков. Оба произведения — отличная иллюстрация того, что иногда слух может быть не менее, а то и более полезным, чем зрение.

Мы привыкли полагаться на визуальное восприятие. «Лучше один раз увидеть, чем сто раз услышать», учат нас с детства. Но во многих случаях слух не уступает зрению, а иногда срабатывает даже лучше. Пресловутая задача поиска черной кошки в темной комнате решается достаточно легко, если использовать современные технологии аудиоанализа помещений.

Технологии на базе компьютерного зрения понятнее, а потому популярнее. Решения, в основе которых лежит «компьютерный слух», не то, что недооценены — они практически невидимы рынком. Мы в Mail.Ru Group разрабатываем оба типа систем — в проекте Vision используем и компьютерное зрение, и технологию распознавание звуков Sounds — и я могу сказать, что сферы применения у них одинаково широкие. Для многих задач «слушать» эффективнее, чем «смотреть», и стоит это дешевле. В задаче с кошкой акустического наблюдения вполне достаточно, а повесить даже четыре микрофона дешевле, чем одну камеру с возможностью ночного видения. Кроме того, решения на базе компьютерного слуха генерят меньше трафика, чем видеонаблюдение, что также снижает их стоимость.

Технологии аудиоаналитики можно использовать не только для идентификации объектов по производимому ими звуку: они могут применяться в самых разных отраслях и для решения самых разных задач. Более того, для части из них применение технологий распознавания звуков будут не просто оптимальным, но и единственным возможным вариантом.

Обеспечение безопасности

Аудионаблюдение за порядком еще не так привычно, как видеонаблюдение, но постепенно начинает входить в повседневность.

1.   В Багдаде все спокойно

Системы на базе компьютерного слуха можно научить распознавать необычные звуки — шорох, стук, шаги в пустых помещениях, звук бьющегося стекла, скрип дверей и т. д. — и предупреждать о возможной опасности: присылать SMS владельцу дома или оповещать службу охраны предприятия.

Еще вариант — настроить отслеживание трендов и паттернов. Скажем, вы сдаете квартиру на AirBnB и указываете в объявлении, что шуметь после 23 нельзя, чтобы не перебудить соседей, а для надежности включаете систему контроля звука на лестничной клетке. Если гости напевают в душе или кто-то нечаянно роняет тарелку, система не реагирует; а вот если в квартирах ночью громко и долго играет музыка, слышны шум и крики, то хозяин и консьерж получают сообщение, что жильцы не соблюдают условия. Такой сервис уже предлагают Vision от Mail.Ru и NoiseAware.

2. Что за шум, а драки нет

Полезность акустического наблюдения на улицах для полиции сложно переоценить. И кое-где оно уже применяется. Например, в кварталах с высоким уровнем преступности в городах США работают системы детектирования стрельбы. Зафиксировав звук выстрела, они передают информацию о месте стрельбы в акустический центр полицейского участка в течение нескольких секунд, и на место инцидента выезжает наряд. Аналогично можно реагировать и на крики о помощи, и на шум, возникающий во время драки во дворе.

3   Дорожный патруль

Установка систем аудионаблюдения на трассах может спасти жизни. В темное время суток проезжающие водители могут элементарно не заметить столкнувшиеся автомобили, лежащие где-нибудь в кювете, и пострадавшие останутся без помощи. Повесить камеры через каждые 20 метров — выход, но достаточно дорогой. А вот установить на шоссе микрофоны гораздо дешевле. ДТП сопровождаются характерными звуками (визг тормозов, звук бьющегося стекла, крики и т. д.), и радиус слышимости аварии намного больше, чем радиус видимости. «Услышав» дорожное происшествие, система сообщит о нем экстренным службам. Подобные решения уже начинают разрабатывать.

Диагностика оборудования

Все оборудование, работа которого сопровождается звуком, обладает своим характерным звучанием. В этом смысле его можно сравнить с музыкальными инструментами: каждый станок, конвейер или машина звучит по-своему.

4.   Завод и порядок

Любое изменение звукового шаблона свидетельствует об одной из двух проблем. Первая: оборудование начало сбоить, и его нужно проверить, чтобы избежать поломки: возможно, механизм пора смазать, внутрь попал посторонний предмет и т. д. Вторая: поломка уже произошла, и нужно останавливать процесс и искать проблему, пока не случилось что-то более серьезное, например, замыкание и пожар.

Опытные профи и сегодня могут по звуку отличить правильно работающее оборудование от барахлящего. Но специалист может устать, потерять концентрацию, отвлечься — да и вряд ли все работники, скажем, конвейерного производства следят за шумами завода. В общем, в дело вступает пресловутый человеческий фактор. На компьютер это не распространяется: системы звукового наблюдения постоянно начеку и, если какой-нибудь котел за пару миллионов долларов вдруг начнет фыркать паром чуть тише, чем раньше, немедленно оповестят об этом. Своевременное предупреждение поможет избежать серьезных поломок — и больших расходов на ремонт.

5.   Ваш личный робомеханик

«Хороший стук наружу выйдет» — золотое правило автомеханика, показывающее, что первым признаком неполадок в работе механизма является звук. Система акустического наблюдения за неисправностями может отследить поломку по звуку в тот момент, когда владелец машины о ней еще не подозревает. А в MIT разработали приложение, которое распознает и диагностирует самые распространенные неполадки.

Идентификация по звуку

6.  Ты узнаешь его из тысячи

Текстонезависимое распознавание по голосу — одна из форм биометрической идентификации. Допуск по Voice ID для клиентов больше года назад внедрил банк HSBC.

7.  Что ты за птица?

Существует целый ряд «шазамов для птиц» — приложений, идентифицирующих птиц по пению. Базу для них энтузиасты собирают по всему миру. Благодаря им любой желающий сегодня может, прогуливаясь по лесу, отличить посвистывание снегиря от щебетания синицы. Эти продукты решают не столь масштабные задачи, как те, о которых речь шла выше, но само их существование – уже большой шаг вперед для распространения технологий на базе компьютерного слуха.

Распознавание речи

Это самая понятная и востребованная задача из всех тех, что были решены с рождением систем распознавания звуков. По прогнозу, опубликованному ResearchAndMarkets, мировой рынок распознавания речи и голоса будет в среднем расти на 25,7% в год и к 2025 году достигнет 6,77 млрд долларов. Год назад Microsoft отрапортовала, что уровень точности распознавания речи их софтом сравнялся с тем, который обеспечивают люди — причем профессионалы в этой сфере.

8.   Диктуйте

Пожалуй, самое очевидное применение компьютерного слуха: автоматически переводить большие объемы аудио в текстовый формат. Например, выходите вы с трехдневного тренинга Тони Роббинса с чувством полного удовлетворения, а через 20 минут вам на email прилетает расшифровка его спича, чтобы вы могли дома освежить в памяти слова мудрости и вспомнить, что в помещении темно, потому что там нет света.

Сервисов диктовки сейчас огромное количество — от встроенных в ОС до самостоятельных вроде Dictation.

9.   В оригинале с субтитрами

Слабослышащим людям, а также любителям смотреть фильмы, лекции и передачи на языке оригинала пригодится способность компьютерного слуха превращать голос в текст. Автоматическая генерация субтитров уже работает, например, на YouTube.

10.   На правах рекламы

Компьютерный слух может сильно облегчить жизнь маркетологам и пиарщикам благодаря возможности поиска ключевых слов в звуковой дорожке. Использование подобных решений даст специалистам точные данные о том, сколько раз название компании или имя топ-менеджера упоминалось на той или иной радиостанции или телевизионном канале. Этим можно пользоваться, чтобы отслеживать, соблюдаются ли договоренности — например, действительно ли ролик с рекламой вашей пиццерии поставили в эфир 856 раз, или всего 851. Еще так можно следить за частотой упоминаемости в медиа: в августе о вашем бренде говорили чаще, чем в ноябре — повод напрячься и поднажать на продвижение.

Кроме того, таким образом можно выявить контекст, в котором упоминаются эти названия и имена, чтобы в дальнейшем при необходимости его скорректировать и снизить репутационные риски («Вы вчера после рекламы нашей пиццы поставили рекламу средства от несварения — не надо так»).

11.   Нам важно ваше мнение

Когда человек раздражен или агрессивен, его речь сильно отличается от того, как он разговаривает в спокойном состоянии. Она становится быстрее и громче, человек может использовать грубые или нецензурные слова и выражения. С помощью нейросетей и обучающей выборки компьютер можно научить распознавать эмоции говорящих: анализировать интонацию говорящего, изменение темпа речи, использование слов-маркеров.

Решения на базе компьютерного слуха могут следить за качеством обслуживания в торговых залах и колл-центрах: засекать, когда покупатель начинает выражать недовольство, и сигнализировать об этом супервайзеру, который сможет решить проблему. Это особенно актуально для ритейла и сферы услуг, где важно, чтобы потребители и клиенты были как минимум довольны, а как максимум еще и лояльны. Проекты в этой нише уже появляются — например, немецкий openEAR.

12.   Диагноз по голосу

Речь человека тесно связана с его психоэмоциональным состоянием. Быстрая речь может быть признаком сильного волнения, медленная – усталости, несвойственное говорящему заикание может быть свидетельством напряженности, а злоупотребление словами-паразитами – нерешительности. Хорошо обученная машина способна все это анализировать.

Эта способность компьютерного слуха актуальна для сотрудников спецслужб, а также для медиков. Речевые нарушения присутствуют в клинической картине многих болезней (инсульт, гематома головного мозга и др.). А еще они могут свидетельствовать о предынсультном и предынфарктном состояниях и алкогольном опьянении, в которых человека, например, нельзя допускать до вождения такси или фуры (таксисты и дальнобойщики проходят подобные проверки регулярно). Сегодня такой анализ речи делают врачи, но технологии достигли того уровня, когда эту обязанность вполне можно переложить на компьютеры. Да-да, как в «Бегущем по лезвию 2049».

Парадоксально, но при огромном разнообразии сфер применения и такой функциональности реальных продуктов на рынке пока ничтожно мало. Да, иногда действительно лучше «один раз увидеть», но есть вещи, на которые не нужно смотреть, – их нужно слушать.