15 апреля
ср,
Мы часто используем мобильные устройства на ходу или когда у нас заняты руки. Например, когда обедаем, едем за рулем или просто идем по улице. В таких ситуациях неудобно, а иногда и небезопасно набирать что-то на клавиатуре. Проще и быстрее сказать голосом. Голос — это наша привычная и естественная форма коммуникации друг с другом.
Сейчас устройства уже очень хорошо научились слышать и понимать нас. Почти так же хорошо, как, например, собеседник, который сидит в шумном кафе напротив. В прошлом году «Яндекс» презентовал технологию распознавания речи Yandex SpeechKit, и с тех пор мы постоянно ее улучшали.
Благодаря большим вычислительным мощностям и обучению нейронных сетей на огромных массивах данных короткие запросы на любую тематику система понимает с точностью 85%, географическую тематику — на 95%. Даже человек распознает не 100% речи, а в зависимости от тематики 96-99% услышанного.
При этом наша технология распознавания речи работает очень быстро — время перевода речи в текст составляет в среднем одну секунду. Сейчас эта технология уже работает во многих сервисах «Яндекса» — «Навигаторе», «Браузере», «Городе», «Поиске».
Технология распознавания речи — редкая, уникальная вещь, которую способны сделать считанные компании в мире (на российском IT-рынке голосовые технологии предлагают еще компании Apple и Google. — «ДО»). Поэтому для нас было логичным в какой-то момент начать ей делиться.
Мы начали с того, что открыли технологию для разработчиков мобильных приложений, сделав кросс-платформенную библиотеку Yandex SpeechKit Mobile SDK. С ее помощью можно сделать голосовой ввод или интерфейс для своего приложения. Для этого нужно написать всего несколько строк кода, и это позволяет сделать мобильные приложения более удобными для пользователей.
Теперь к нам стали обращаться и другие компании, заинтересованные в использовании нашей технологии. Ведь сфера применения речевых технологий очень обширна: врач в поликлинике может проговаривать диагнозы, которые тут же будут внесены в электронную карточку — и не будет никаких рецептов с нечитаемым почерком.
Чтобы все это стало возможным, мы создали облачный сервис распознавания речи, который можно использовать практически для любых устройств и программ. Надеемся, что в будущем все больше сервисов станут понимать нас с полуслова. Это сделает взаимодействие с ними более естественным и упростит нашу жизнь.
Текст опубликован в газете «Деловой Омск» №30 (034) 12 августа
Больше интересного в жанре: Статьи
Просмотры: 3645
Самое читаемое
Новости от партнеров