Windows 10 голосовое управление на русском. Голосовое управление компьютером на русском языке с помощью специальных программ

Для Symbian 18.08.2019
Для Symbian
Ко мне обратился человек с просьбой написать программу, которая позволила бы управлять компьютерной мышью при помощи голоса. Тогда я и представить себе не мог, что, практически полностью парализованный человек, который даже не может сам повернуть голову, а может лишь разговаривать, способен развить бурную деятельность, помогая себе и другим жить активной жизнью, получать новые знания и навыки, работать и зарабатывать, общаться с другими людьми по всему свету, участвовать в конкурсе социальных проектов.

Позволю себе привести здесь пару ссылок на сайты, автором и/или идейным вдохновителем которых является этот человек – Александр Макарчук из города Борисов, Беларусь:

Для работы на компьютере Александр использовал программу «Vocal Joystick» - разработку студентов Университета штата Вашингтон, выполненную на деньги Национального Научного Фонда (NSF). См. melodi.ee.washington.edu/vj

Не удержался

Кстати, на сайте университета (http://www.washington.edu/) 90% статей именно про деньги. Трудно найти что-нибудь про научную работу. Вот, например, выдержки с первой страницы: «Том, выпускник университета, раньше питался грибами и с трудом платил за квартиру. Теперь он старший менеджер ИТ-компании и кредитует университет», «Большие Данные помогают бездомным», «Компания обязалась заплатить 5 миллионов долларов за новый учебный корпус».

Это одному мне режет глаз?


Программа была сделана в 2005-2009 годах и хорошо работала на Windows XP. В более свежих версиях Windows программа может зависнуть, что неприемлемо для человека, который не может встать со стула и её перезапустить. Поэтому программу нужно было переделать.

Исходных текстов нет, есть только отдельные публикации, приоткрывающие технологии, на которых она основана (MFCC, MLP – читайте об этом во второй части).

По образу и подобию была написана новая программа (месяца за три).

Собственно, посмотреть, как она работает, можно :

Скачать программу и/или посмотреть исходные коды можно .

Никаких особенных действий для установки программы выполнять не надо, просто щёлкаете на ней, да запускаете. Единственное, в некоторых случаях требуется, чтобы она была запущена от имени администратора (например, при работе с виртуальной клавиатурой “Comfort Keys Pro”):

Пожалуй, стоит упомянуть здесь и о других вещах, которые я ранее делал для того, чтобы можно было управлять компьютером без рук.

Если у вас есть возможность поворачивать голову, то хорошей альтернативой eViacam может послужить гироскоп, крепящийся к голове. Вы получите быстрое и точное позиционирование курсора и независимость от освещения.

Если вы можете двигать только зрачками глаз, то можно использовать трекер направления взгляда и программу к нему (могут быть сложности, если вы носите очки).

Часть II. Как это устроено?

Из опубликованных материалов о программе «Vocal Joystick» было известно, что работает она следующим образом:
  1. Нарезка звукового потока на кадры по 25 миллисекунд с перехлёстом по 10 миллисекунд
  2. Получение 13 кепстральных коэффициентов (MFCC) для каждого кадра
  3. Проверка того, что произносится один из 6 запомненных звуков (4 гласных и 2 согласных) при помощи многослойного персептрона (MLP)
  4. Воплощение найденных звуков в движение/щелчки мыши
Первая задача примечательна лишь тем, что для её решения в реальном времени пришлось вводить в программу три дополнительных потока, так как считывание данных с микрофона, обработка звука, проигрывание звука через звуковую карту происходят асинхронно.

Последняя задача просто реализуется при помощи функции SendInput.

Наибольший же интерес, мне кажется, представляют вторая и третья задачи. Итак.

Задача №2. Получение 13 кепстральных коэффициентов

Если кто не в теме – основная проблема узнавания звуков компьютером заключается в следующем: трудно сравнить два звука, так как две непохожие по очертанию звуковые волны могут звучать похоже с точки зрения человеческого восприятия.

И среди тех, кто занимается распознаванием речи, идёт поиск «философского камня» - набора признаков, которые бы однозначно классифицировали звуковую волну.

Из тех признаков, что доступны широкой публике и описаны в учебниках, наибольшее распространение получили так называемые мел-частотные кепстральные коэффициенты (MFCC).

История их такова, что изначально они предназначались совсем для другого, а именно, для подавления эха в сигнале (познавательную статью на эту тему написали уважаемые Оппенгейм и Шафер, да пребудет радость в домах этих благородных мужей. См. A. V. Oppenheim and R.W. Schafer, “From Frequency to Quefrency: A History of the Cepstrum”).

Но человек устроен так, что он склонен использовать то, что ему лучше знакомо. И тем, кто занимался речевыми сигналами, пришло в голову использовать уже готовое компактное представление сигнала в виде MFCC. Оказалось, что, в общем, работает. (Один мой знакомый, специалист по вентиляционным системам, когда я его спросил, как бы сделать дачную беседку, предложил использовать вентиляционные короба. Просто потому, что их он знал лучше других строительных материалов).

Являются ли MFCC хорошим классификатором для звуков? Я бы не сказал. Один и тот же звук, произнесённый мною в разные микрофоны, попадает в разные области пространства MFCC-коэффициентов, а идеальный классификатор нарисовал бы их рядом. Поэтому, в частности, при смене микрофона вы должны заново обучать программу.

Это всего лишь одна из проекций 13-мерного пространства MFCC в 3-мерное, но и на ней видно, что я имею в виду – красные, фиолетовые и синие точки получены от разных микрофонов: (Plantronix, встроенный массив микрофонов, Jabra), но звук произносился один.

Однако, поскольку ничего лучшего я предложить не могу, также воспользуюсь стандартной методикой – вычислением MFCC-коэффициентов.

Чтобы не ошибиться в реализации, в первых версиях программы в качестве основы был использован код из хорошо известной программы CMU Sphinx, точнее, её реализации на языке C, именующейся pocketsphinx, разработанной в Университете Карнеги-Меллона (мир с ними обоими! (с) Хоттабыч).

Исходные коды pocketsphinx открыты, да вот незадача – если вы их используете, то должны в своей программе (как в исходниках, так и в исполняемом модуле) прописать текст, содержащий, в том числе, следующее:

* This work was supported in part by funding from the Defense Advanced * Research Projects Agency and the National Science Foundation of the * United States of America, and the CMU Sphinx Speech Consortium.
Мне это показалось неприемлемым, и пришлось код переписать. Это сказалось на быстродействии программы (в лучшую сторону, кстати, хотя «читабельность» кода несколько пострадала). Во многом благодаря использованию библиотек “Intel Performance Primitives”, но и сам кое-что оптимизировал, вроде MEL-фильтра. Тем не менее, проверка на тестовых данных показала, что получаемые MFCC-коэффициенты полностью аналогичны тем, что получаются при помощи, например, утилиты sphinx_fe.

В программах sphinxbase вычисление MFCC-коэффициентов производится следующими шагами:

Шаг Функция sphinxbase Суть операции
1 fe_pre_emphasis Из текущего отсчёта вычитается большая часть предыдущего отсчета (например, 0.97 от его значения). Примитивный фильтр, отбрасывающий нижние частоты.
2 fe_hamming_window Окно Хемминга – вносит затухание в начале и конце кадра
3 fe_fft_real Быстрое преобразование Фурье
4 fe_spec2magnitude Из обычного спектра получаем спектр мощности, теряя фазу
5 fe_mel_spec Группируем частоты спектра [например, 256 штук] в 40 кучек, используя MEL-шкалу и весовые коэффициенты
6 fe_mel_cep Берём логарифм и применяем DCT2-преобразование к 40 значениям из предыдущего шага.
Оставляем первые 13 значений результата.
Есть несколько вариантов DCT2 (HTK, legacy, классический), отличающихся константой, на которую мы делим полученные коэффициенты, и особой константой для нулевого коэффициента. Можно выбрать любой вариант, сути это не изменит.

В эти шаги ещё вклиниваются функции, которые позволяют отделить сигнал от шума и от тишины, типа fe_track_snr, fe_vad_hangover, но нам они не нужны, и отвлекаться на них не будем.

Были выполнены следующие замены для шагов по получению MFCC-коэффициентов:

Задача №3. Проверка того, что произносится один из 6 запомненных звуков

В программе-оригинале «Vocal Joystick» для классификации использовался многослойный персептрон (MLP) – нейронная сеть без новомодных наворотов.

Давайте посмотрим, насколько оправдано применение нейронной сети здесь.

Вспомним, что делают нейроны в искусственных нейронных сетях.

Если у нейрона N входов, то нейрон делит N-мерное пространство пополам. Рубит гиперплоскостью наотмашь. При этом в одной половине пространства он срабатывает (выдаёт положительный ответ), а в другой – не срабатывает.

Давайте посмотрим на [практически] самый простой вариант – нейрон с двумя входами. Он, естественно, будет делить пополам двумерное пространство.

Пусть на вход подаются значения X1 и X2, которые нейрон умножает на весовые коэффициенты W1 и W2, и добавляет свободный член C.


Итого, на выходе нейрона (обозначим его за Y) получаем:

Y=X1*W1+X2*W2+C

(опустим пока тонкости про сигмоидальные функции)

Считаем, что нейрон срабатывает, когда Y>0. Прямая, заданная уравнением 0=X1*W1+X2*W2+C как раз и делит пространство на часть, где Y>0, и часть, где Y<0.

Проиллюстрируем сказанное конкретными числами.

Пусть W1=1, W2=1, C=-5;

Теперь посмотрим, как нам организовать нейронную сеть, которая бы срабатывала на некоторой области пространства, условно говоря – пятне, и не срабатывала во всех остальных местах.

Из рисунка видно, что для того, чтобы очертить область в двумерном пространстве, нам потребуется по меньшей мере 3 прямых, то есть 3 связанных с ними нейрона.

Эти три нейрона мы объединим вместе при помощи ещё одного слоя, получив многослойную нейронную сеть (MLP).

А если нам нужно, чтобы нейронная сеть срабатывала в двух областях пространства, то потребуется ещё минимум три нейрона (4,5,6 на рисунках):

И тут уж без третьего слоя не обойтись:

А третий слой – это уже почти Deep Learning…

Теперь обратимся за помощью к ещё одному примеру. Пусть наша нейронная сеть должна выдавать положительный ответ на красных точках, и отрицательный – на синих точках.

Если бы меня попросили отрезать прямыми красное от синего, то я бы сделал это как-то так:

Но нейронная сеть априори не знает, сколько прямых (нейронов) ей понадобится. Этот параметр надо задать перед обучением сети. И делает это человек на основе… интуиции или проб и ошибок.

Если мы выберем слишком мало нейронов в первом слое (три, например), то можем получить вот такую нарезку, которая будет давать много ошибок (ошибочная область заштрихована):

Но даже если число нейронов достаточно, в результате тренировки сеть может «не сойтись», то есть достигнуть некоторого стабильного состояния, далёкого от оптимального, когда процент ошибок будет высок. Как вот здесь, верхняя перекладина улеглась на два горба и никуда с них не уйдёт. А под ней большая область, порождающая ошибки:

Снова, возможность таких случаев зависит от начальных условий обучения и последовательности обучения, то есть от случайных факторов:

- Что ты думаешь, доедет то колесо, если б случилось, в Москву или не доедет?
- А ты как думаешь, сойдётся ента нейронная сеть или не сойдётся?

Есть ещё один неприятный момент, связанный с нейронными сетями. Их «забывчивость».

Если начать скармливать сети только синие точки, и перестать скармливать красные, то она может спокойно отхватить себе кусок красной области, переместив туда свои границы:

Если у нейронных сетей столько недостатков, и человек может провести границы гораздо эффективнее нейронной сети, зачем же их тогда вообще использовать?

А есть одна маленькая, но очень существенная деталь.

Я очень хорошо могу отделить красное сердечко от синего фона отрезками прямых в двумерном пространстве.

Я неплохо смогу отделить плоскостями статую Венеры от окружающего её трёхмерного пространства.

Но в четырёхмерном пространстве я не смогу ничего, извините. А в 13-мерном - тем более.

А вот для нейронной сети размерность пространства препятствием не является. Я посмеивался над ней в пространствах малой размерности, но стоило выйти за пределы обыденного, как она меня легко уделала.

Тем не менее вопрос пока открыт – насколько оправдано применение нейронной сети в данной конкретной задаче, учитывая перечисленные выше недостатки нейронных сетей.

Забудем на секунду, что наши MFCC-коэффициенты находятся в 13-мерном пространстве, и представим, что они двумерные, то есть точки на плоскости. Как в этом случае можно было бы отделить один звук от другого?

Пусть MFCC-точки звука 1 имеют среднеквадратическое отклонение R1, что [грубо] означает, что точки, не слишком далеко отклоняющиеся от среднего, наиболее характерные точки, находятся внутри круга с радиусом R1. Точно так же точки, которым мы доверяем у звука 2 находятся внутри круга с радиусом R2.

Внимание, вопрос: где провести прямую, которая лучше всего отделяла бы звук 1 от звука 2?

Напрашивается ответ: посередине между границами кругов. Возражения есть? Возражений нет.
Исправление: В программе эта граница делит отрезок, соединяющий центры кругов в соотношении R1:R2, так правильнее.

И, наконец, не забудем, что где-то в пространстве есть точка, которая является представлением полной тишины в MFCC-пространстве. Нет, это не 13 нулей, как могло бы показаться. Это одна точка, у которой не может быть среднеквадратического отклонения. И прямые, которыми мы отрежем её от наших трёх звуков, можно провести прямо по границам окружностей:

На рисунке ниже каждому звуку соответствует кусок пространства своего цвета, и мы можем всегда сказать, к какому звуку относится та или иная точка пространства (или не относится ни к какому):

Ну, хорошо, а теперь вспомним, что пространство 13-мерное, и то, что было хорошо рисовать на бумаге, теперь оказывается тем, что не укладывается в человеческом мозгу.

Так, да не так. К счастью, в пространстве любой размерности остаются такие понятия, как точка, прямая, [гипер]плоскость, [гипер]сфера.

Мы повторяем все те же действия и в 13-мерном пространстве: находим дисперсию, определяем радиусы [гипер]сфер, соединяем их центры прямой, рубим её [гипер]плоскостью в точке, равно отдалённой от границ [гипер]сфер.

Никакая нейронная сеть не сможет более правильно отделить один звук от другого.

Здесь, правда, следует сделать оговорку. Всё это справедливо, если информация о звуке – это облако точек, отклоняющихся от среднего одинаково во всех направлениях, то есть хорошо вписывающееся в гиперсферу. Если бы это облако было фигурой сложной формы, например, 13-мерной изогнутой сосиской, то все приведённые выше рассуждения были бы не верны. И возможно, при правильном обучении, нейронная сеть смогла бы показать здесь свои сильные стороны.

Но я бы не рисковал. А применил бы, например, наборы нормальных распределений (GMM), (что, кстати и сделано в CMU Sphinx). Всегда приятнее, когда ты понимаешь, какой конкретно алгоритм привёл к получению результата. А не как в нейронной сети: Оракул, на основе своего многочасового варения бульона из данных для тренировки, повелевает вам принять решение, что запрашиваемый звук – это звук №3. (Меня особенно напрягает, когда нейронной сети пытаются доверить управление автомобилем. Как потом в нестандартной ситуации понять, из-за чего машина повернула влево, а не вправо? Всемогущий Нейрон повелел?).

Но наборы нормальных распределений – это уже отдельная большая тема, которая выходит за рамки этой статьи.

Надеюсь, что статья была полезной, и/или заставила ваши мозговые извилины поскрипеть.

Одна из главных задач операционной системы Андроид - это максимально простое и понятное управление устройством. В каждом обновлении появляется всё больше новых возможностей, которые существенно упрощают пользование. Одной из таких функция является голосовое управление Андроид.

Голосовое управление Андроид

Голосовое управление Андроид - это инновационная технология, с помощью которой можно управлять устройством без лишних манипуляций, а только голосом. Эта функция находится в стадии активного развития и усовершенствования.

Ok, Google на Андроид, даёт возможность более эффективно использовать устройство. Голосом можно выполнять много функций и получать качественный результат. К примеру, искать необходимую информацию, включать/выключать приложения и даже набирать текст. На сегодняшний день данная разработка не идеальна и включает в себя различные недоработки.

Все команды, которые возможно осуществить с помощью голосового управления делятся на две группы.

А именно:

  1. управление функциями самого устройства - если вы хотите послушать музыку, то просто скажите - «Проиграть плейлист», если хотите включить будильник, то произнесите фразу – «Разбуди меня в такое-то время» и так далее
  2. поиск информации - голосовым запросом можно узнать, например, погоду, посмотреть счёт игры любимой команды, найти слова песни и так далее

Но к сожалению, есть и некоторые ограничения в работе голосового управления. Иногда на невостребованные запросы вы не сможете получить информацию. Например, вас интересует расписание сеансов в кинотеатрах Киева, и вы без проблем получите ответ, а вот если вы зададите тот же запрос, но уже касательно менее крупного города, то тут могут возникнуть проблемы, и вы можете столкнуться с отсутствием информации.

Как включить голосовое управление

Для того, чтобы воспользоваться голосовым управлением Ok, Google, необходимо постоянное подключение к интернету. В ограниченных размерах приложение может работать и без интернета, но качество распознавания голоса будет очень плохим и использование функции будет практически невозможным.

  1. установить приложение Google, если оно у вас уже установлено, то убедитесь, что стоит именно последняя версия
  2. зайти в приложение Google
  3. в верхнем левом углу нажать значок, который выглядит как три горизонтальные линии
  4. далее зайти в «Настройки »
  5. выбрать «Голосовой поиск »
  6. после - «Распознавание Ok, Google » или «На любом экране »

На некоторых устройствах распознавание функции голосового управления доступно не только в приложении Google, но и в других программах. Для этого в программе Google нажмите:

  1. «Настройки »
  2. далее - «Приложения ». Там у вас отобразится перечень программ, в которых вы можете использовать Ok, Google

Как настроить голосовое управление

Функция Ok, Google всегда активна при условии, если у вас запущено приложение Google или Google Chrome. После активации система зафиксирует ваш голос и в дальнейшем с распознаванием проблем не должно быть. Чтобы осуществить запрос достаточно произнести фразу Ok, Google и сформулировать вопрос или команду.

Как отключить голосовое управление

Отключить Ok, Google не сложнее, чем включить. Для этого нужно сделать следующее:

  1. зайти в приложение Google
  2. в верхнем левом углу значок, который выглядит как три горизонтальные линии
  3. выбрать «Голосовой поиск »
  4. далее «Распознавание Ok, Google »
  5. убрать флажок - «На любом экране » или «Всегда включено »

Команды голосового управления

Ok, Google распознаёт множество разных команд. Нет конкретного перечня выполняемых запросов, так как у каждого пользователя они разные.

Вот небольшой список команд, которые можно осуществить с помощью голосового управления:

  • позвонить любому человеку из списка контактов
  • отправить текстовое сообщения
  • отправить письмо по электронной почте
  • опубликовать запись в социальных сетях
  • отследить посылку
  • запустить приложение
  • узнать погоду
  • проложить маршрут до места назначения
  • найти место, компанию, заведение
  • перевести текст с одного языка на другой
  • определить песню и так далее

Не работает голосовое управление. Какие могут быть причины и как исправить?

Убедитесь, что голосовое управление активно: «Настройки » - «Голосовой поиск » - «Распознавание О’кей, Google ». Установите флажок - «Из приложения Google ». Также для правильной работы голосового управления необходимо подключение к интернету. Убедитесь, что устройство подключено к Wi-Fi или мобильному интернету. Попробуйте перезагрузить устройство.

– это официальный голосовой помощник, изначально встроенный в Windows 10. Вам не нужно скачивать Кортану отдельно, программу нужно лишь активировать. По умолчанию Кортана отключена у всех пользователей, но ее можно включить. Включить голосовой помощник Сortana в России – это целый квест и в этой статье вы узнаете как о самом сервисе, так и о том, как включить Сortana на русском языке на Windows 10.

Сortana – что это за сервис

Впервые Сortana появилась в 2014-ом году, еще во времена Windows 8.1. Тогда этот сервис был настолько сырой, что практически не получил признания. Лавры славы Сortana получила лишь на Windows 10. Это универсальный головой помощник, который выполняет задания пользователя. Эти задания выдаются голосовыми командами. Соответственно, чтобы у вас на компьютере работала Сortana, как минимум, вам нужен микрофон либо встроенный, либо внешний. Проблем не будет, если вы пользуетесь Windows 10 на планшете или на ноутбуке, там микрофоны, как правило встроенные. Для обычного компьютера, вероятней всего, придется докупить внешний микрофон.

Возможности Кортаны на Windows 10

Представьте себе настоящую помощницу, к которой вы можете обратиться с некоторыми поручениями. Вот Сortana и есть та самая помощница, просто виртуальная. Вы можете проучить Кортане некоторые действия, и высокоинтеллектуальная система выполнит ваши указания. Компания Microsoft создала не просто систему, которая понимает вашу речь, но систему, которая действительно понимает, что требуется пользователю. Вы можете поручить Кортане одну из следующих задач:
  • Открыть или закрыть конкретную программу на вашем компьютере;
  • Сделать запись или заметку, сделать примечание в календаре;
  • Предоставить вам справочную информацию;
  • Произвести настройки системы или отдельной программы;
  • Найти файл или программу на вашем компьютере;
Компания Microsoft совместила функции поисковика и функции голосового помощника. Сortana может работать как без Интернета, так и при подключении к сети Интернет. Вы можете найти конкретный файл на вашем компьютере или какую-то информацию в сети Интернет. Кортана связана и с браузером, она может предоставить вам справочную информацию не только в своем интерфейсе, но и в окне браузера. Например, она может открыть энциклопедию. Также в удобном формате предоставляется информация о погоде или курсе валют.

Сortana на русском – можно ли скачать для компьютера на Windows 10

Вы не можете скачать Сortana на русском языке. Вы вообще не сможете скачать Кортану, эта программа является предустановленным сервисом. И если вы каким-то образом «сломали» или удалили этот сервис, то единственный вариант, как вновь получить доступ к Сortana – восстановить систему. Но и в этом случае вы не получите Кортану на русском языке, так как на русском ее просто не существует. На начало 2017 года Кортана работала на 6 языках:
  • английский;
  • китайский;
  • немецкий;
  • итальянский;
  • испанский;
  • французский;
Поддержка русского языка пока лишь в планах. Ожидается, что к 2020-ому году к списку языков, которые поддерживает Кортана, добавятся еще 5 языков, один из которых – русский. И вот тогда вы сможете пользоваться Кортана на русском языке. Но до тех пор, вы можете выбрать лишь один из имеющихся языков. Если вы на достаточном уровне владеете, например, английским, то вы можете активировать Кортану. В России этот процесс сопряжен с некоторыми дополнительными действиями, так что вам наверняка пригодится инструкция, как активировать Кортану в России.

Как активировать голосовой помощник Сortana в России

Для начала успокоим всех, кто спрашивал – работает ли Сortana в России. Да работает, но для этого вам придется произвести некоторые манипуляции со своим компьютером. Если вы будете активировать систему стандартным образом, то система вам выдаст ошибку. Дело в том, что Кортана работает только с 6 языками, и если ваша ОС работает на русском, то система сообщит вам, что «Регион не поддерживается». Хорошая новость в том, что Кортане все равно, где вы находитесь физически, сервис определяет регион исключительно по языку, используемому на вашем компьютере. И если вы захотите активировать голосовой помощник в России, то вы просто должны добавить речевой пакет нужного языка. Для этого вам нужно следовать следующей инструкции.

В панели меню «Пуск» необходимо найти кнопку «Параметры» и щелкнуть по ней:


Далее перед вами откроется панель параметров, где одним из последних пунктов будет пункт «Время и язык», вам необходимо выбрать этот пункт и щелкнуть по нему мышкой:


В новом окне у вас будет выбор регионов и языков. Если вы хотите подключить Кортану на английском, то вам нужно выбрать любой англоязычный регион. Для примера, США или Англию. А разделе добавления языков выбираем английский. И перед нами откроется следующее окно:


Система автоматически загрузит письменный пакет английского языка. Ниже вы увидите речевой пакет и его параметры. Вы должны самостоятельно инициировать загрузку англоязычного речевого пакета. Разумеется, для первичной настройки и подключения к Кортане вам потребуется доступ к сети Интернет. Время настройки зависит от скорости вашего Интернета. В том же разделе параметров речевого пакета проследите, что загрузка английского завершена. Далее отметьте английский в пункте о распознавании речи. Чуть ниже есть пункт о распознавании акцента. Вы можете отметить и его, если английский не является вашим родным. Но больших надежд на этот пункт не возлагайте, вам все равно потребуется говорить на достаточно чистом и понятном английском, чтобы Кортана смогла воспринять вашу речь.

После всех изменений вам обязательно нужно перезагрузить ваш компьютер. После запуска вновь откройте меню «Пуск». И в разделе настроек выключите сервис Сortana в качестве личного голосового помощника. Этот пункт будет уже на английском языке, так как мы до этого установили англоязычный языковой пакет. Поэтому, для активации вам нужно выбрать положение «On» в пункте «Cortana can give you suggestions».


Начиная с этого момента вы можете пользоваться сервисом Кортана. Он предоставляется бесплатно. Вы можете получить информацию о российских реалиях, например о погоде или курсе валют. Для этого вам нужно обеспечить сервису Сortana доступ к сети Интернет. Если вы работаете без подключения к сети, то возможности сервиса будут сильно ограничены.

Точной даты, когда выйдет Сortana на русском, пока не известно. Но когда она выйдет, вы сможете перейти на русский язык в Кортане точно также, как вы перешли на английский или любой другой. Ожидается, что до 2020-ого года мы получим поддержку русского и Кортана будет официально работать в России. А для тех, у кого остались вопросы о том, как активировать Кортану на компьютере, мы подготовили небольшую видео-инструкцию, которая наглядно объяснит вам все, что вы прочли выше:

Понравилась статья? Поделитесь с друзьями:
  • Полезные программы для Windows 10

Распознавание речи - это простой и многофункциональный инструмент Windows, с помощью которого можно управлять компьютером, используя голосовые команды.

Вы можете настроить эту функцию для навигации, запуска приложений, диктовки текста и выполнения множества других задач. Однако, распознавание речи предназначено в первую очередь для людей с ограниченными возможностями, которые не могут использовать мышь или клавиатуру.

В этом руководстве мы предоставляем шаги по настройке и эксплуатации функции распознавания речи, чтобы вы могли управлять компьютером только голосом.

К большому сожалению, этот инструмент, как и Кортана, в нашем регионе сильно ограничен.

Однако, вы можете изменить некоторые параметры компьютера. Для этого выполните следующие действия:


Важно! Чтобы все работало должным образом вы должны использовать не локальную учетную запись, а Microsoft! Если у вас установлена версия системы для одного языка (правый щелчок по «Этот компьютер», а затем «Свойства»), то вы не сможете использовать Кортану или полноценный инструмент распознавания речи!

Для удобства все действия переведены на русский язык и сопровождаются соответствующими скриншотами на английском. Более радикальный способ, если ничего не помогло, - установка Windows для США.

Выполните следующие действия:

  1. Откройте «Панель управления».

  2. Найдите «Специальные возможности».

  3. Щелкните по ссылке «Запуск распознавания речи».

    Важно! Здесь наши пользователи сталкиваются с проблемой, поэтому нажмите на ссылку слева «Преобразование текста в речь» и сразу перейдите в раздел этой статьи как изменить настройки распознавания речи. Если у вас английский интерфейс системы, тогда смело продолжайте выполнять действия в сопровождении скриншотов на английском.

  4. На странице настроек нажмите «Далее».
  5. Выберите тип микрофона, который будете использовать.

    Примечание! Настольные микрофоны не идеальны, поэтому Microsoft рекомендует задействовать внешний микрофон или специальную гарнитуру.

  6. Нажмите «Далее». Повторите действие.

  7. Чтобы проверить работоспособность инструмента прочитайте текст вслух. Нажмите «Далее». Повторите действие.

  8. Распознавание речи имеет доступ к документам и электронным письмам. Это необходимо для того, чтобы повысить точность распознавания на основе слов, которые вы используете. Выберите параметр «Включить просмотр документов» или отключите его, если имеете проблемы с конфиденциальностью. Нажмите «Далее».

  9. Выберите режим активации: используйте «Режим ручной активации» - распознавание речи отключает команду «Остановить прослушивание». Чтобы снова включить ее, вам нужно нажать кнопку микрофона или использовать комбинацию клавиш Ctrl + Win; или «Активация голосом». Инструмент распознавания переходит в спящий режим, когда не используется. Чтобы снова включить его вам нужно вызвать голосовую команду «Начать прослушивание». Нажмите «Далее».

  10. Чтобы узнать больше о голосовых командах, которые вы можете использовать, щелкните по кнопке просмотра справочной информации. Нажмите «Далее».

  11. По желанию вы можете выбрать опцию «Автоматического запуска функции распознавания речи». Нажмите «Далее».

  12. Чтобы получить доступ к учебному руководству Microsoft щелкните по кнопке «Начать обучение» или выберите «Пропустить». В итоге вы завершите настройку.

После выполнения этих шагов можно приступить к использованию функции распознавания речи с помощью голосовых команд. В верхней части экрана появятся элементы управления.

Примечание! Вы можете перетащить и подключить интерфейс распознавания речи в любом месте экрана.

Как обучить распознавание речи и повысить точность

После завершения тренировочного процесса инструмент распознавания речи должен лучше понимать ваш голос.

Как изменить настройки распознавания речи

Если вам необходимо изменить какие-нибудь параметры, выполните следующие действия:

Шаг 1. Откройте «Панель управления».

Шаг 2. Нажмите «Специальные возможности».

Шаг 3. Выберите «Распознавание речи».

Шаг 4. Щелкните на левой панели по текстовой ссылке дополнительных параметров речи.

Шаг 5. В окне свойств на вкладке «Распознавание речи» вы можете настроить различные компоненты функции, в том числе:

Шаг 6. На вкладке «Текст в речь» вы можете управлять настройками голоса, среди которых:

Шаг 7. Кроме того, вы всегда можете открыть с помощью правой кнопки мыши контекстное меню и получить доступ ко всем различным функциям и настройкам инструмента распознавания речи.

Как использовать распознавание речи в Windows 10

Несмотря на небольшой процесс обучения, распознавание речи использует четкие и легко запоминаемые команды. Например, «Пуск» открывает соответствующее меню, а «Показать рабочий стол» сворачивает все окна.

С помощью функции распознавания речи вы можете выполнить необходимые задачи.

Запуск инструмента распознавания речи


Включение и выключение

Чтобы использовать эту функцию, в зависимости от конфигурации нажмите кнопку микрофона или скажите «Начать прослушивание».

Таким же образом вы можете отключить его, сказав «Стоп» или нажав кнопку микрофона.

Использование команд

Одними из наиболее часто используемых команд являются:

  • «Открыть» (Open) - запускает приложение после озвучивания слова «Open», за которым следует имя приложения. Например, «Open Mail» или «Open Firefox»;
  • «Переключиться на» (Switch to) - переход к другому запущенному приложению. Произнесите команду «Переключиться», за которой должно следовать имя приложения. Например, «Switch to Microsoft Edge»;
  • управление открытым окном. Чтобы управлять активным окном используйте команды «Свернуть», «Максимизировать» и «Восстановить» (Minimize, Maximize и Restore);
  • прокрутка (Scroll). Позволяет прокручивать страницу. Просто используйте команду «Scroll down» («Прокрутить вниз») или «Scroll up» («Прокрутить вверх»), «Scroll left» («Прокрутить влево») или «Scroll right» («Прокрутить вправо»). Также можно указать длинное прокручивание. Например, произнесите: «Scroll down two pages» («Прокрутить вниз две страницы»);
  • закрытие приложений (Close). Произнесите команду «Close» («Закрыть»), а затем имя запущенного приложения. Например, «Close Word» («Закрыть Word»);
  • клики (Click). Внутри приложения вы можете использовать команду «Click» («Щелчок»), за которой следует имя элемента. Например, в Word вы можете сказать «Click Layout» («Щелчок по макету»), и распознавание речи откроет вкладку «Макет». Аналогичным образом можно использовать команды «Double-click» («Двойной щелчок») или «Right-click» («Правый щелчок»);
  • нажатие (Press) . Эта команда запускает горячие клавиши. Например, чтобы открыть «Центр действий» произнесите «Press Windows A» («Нажать Windows A»).

Использование диктовки

Распознавание речи также включает в себя возможность преобразования голоса в текст с использованием функции диктовки, и работает автоматически.


Помощник Microsoft a.k.a Кортана (Cortana)

Чтобы оправдать ожидания пользователей и продемонстрировать конкурентоспособность в сравнении с такими компаниями, как Apple, Google или Amazon, Microsoft представила собственного умного помощника Кортана.

На ранних этапах он считался одним из лучших искусственных помощников, но утратил свой статус после проигрыша мобильной версии Microsoft в битве с Android и iOS. Тем не менее здесь мы имеем в виду Windows 10, поэтому Кортана и сейчас вполне жизнеспособный инструмент.

Надеемся, что со временем он улучшится. Кортана пригодится в том случае, если вы хотите запускать свой компьютер без каких-либо голосовых команд.

Вот как включить и настроить ее для последующего использования в Windows 10:

  1. Нажмите «Пуск» и откройте «Все приложения».

  2. Найдите Кортану и откройте ее.

  3. Снимите переключатель на «Использовать Кортану». Нажмите «Да» или «Нет, спасибо», в зависимости от того, хотите ли вы, чтобы голосовой помощник отслеживал ваши данные (так он лучше вас узнает) или нет.

  4. Теперь, когда вы включили Кортану, нажмите «Windows+S» или щелкните по шестеренке, находящейся слева.
  5. Включите «Эй, Кортана» и настройте свой микрофон. Вы можете разрешить помощнику реагировать, когда кто-нибудь скажет «Эй, Кортана» или заставить его отвечать только на ваши голосовые команды.

  6. Выйдите из настроек и попросите о чем-нибудь своего цифрового помощника.

  7. Поищите в Интернете список доступных команд и задач, которые может выполнять Кортана.

Видео — Как включить Microsoft Cortana в Windows 10

Коллекция сторонних программ

Помимо встроенного инструмента распознавания речи и голосового помощника Кортана, некоторые пользователи могут обратиться к сторонней альтернативе. Поскольку это категория программ находится в постоянном развитии, на рынке существуют различные продукты, совместимые с Windows 10. Единственный вопрос - это ваши потребности и пожелания.

Некоторые из программ, такие как:

  • Typle отличная программа для управления голосом на компьютере, простой русскоязычный интерфейс;
  • Dragon от производителя Nuance, специализируются на быстрой диктовке и в целом на преобразовании речи в текст;
  • Voice Attack, предназначены для голосового управления игровым процессом (да, вы можете перезагрузить оружие в Call of Duty с помощью голосовой команды);
  • еще одна неплохая утилита - VoxCommando. Чаще всего используется в мультимедийных программах, таких как Kodi или iTunes, но также может быть полезной при автоматизации домашних устройств.

Голосовое управление компьютера с помощью программы Typle

  1. Скачайте программу и установите на компьютер, следуя инструкции установщика.

  2. Интерфейс программы простой и понятный. При приветствии в окне программы есть подсказки для пользователя. Для начала нажмите кнопку «Добавить».

  3. В открывшемся окне введите в поле свое имя, далее введите команду, затем нажмите на кнопку записи и произнесите команду голосом. Нажмите кнопку «Добавить».

  4. Нажмите кнопку «Добавить».

  5. Отметьте галочкой необходимый пункт. Выберите программу, нажмите красную кнопку и произнесите эту команду вслух. Затем нажмите «Добавить».

  6. Вы увидите созданную команду, для проверки нажмите «Начать говорить» и произнесите эту команду. Если все работает таким же образом добавляете остальные команды.

Попробуйте TalkTyper

Это онлайн-приложение, которое позволяет диктовать текст, а затем предлагает несколько базовых вариантов того, что с ним делать. Любителям минимализма оно точно понравится.


Вы можете скопировать начитанное в буфер обмена, отправить по электронной почте, напечатать, твитнуть и перевести на другой язык. Чтобы перевести текст просто нажмите кнопку, и выберите язык перевода. TalkTyper автоматически откроет в браузере новую вкладку с текстом, вставленным в переводчик Google.

Обратите внимание на Tazti

Tazti выделяется среди других программ двумя отличительными особенностями:

  • вы можете использовать приложение для управления компьютером и играми с помощью голосовых команд. И если у Tazti нет нужной вам команды, ее можно создать (и еще 299);
  • программа способна запускать установленные приложения, вебсайты, каталоги или использовать командную строку.

Настраивайте Tazti по своему усмотрению. Если вам не нужна команда, тогда отредактируйте ее или полностью удалите. Вы даже можете добавить команды «щелчок» и «двойной щелчок», чтобы избавиться от необходимости использования мыши.

Тем не менее у Tazti есть один большой недостаток - она не имеет функции диктовки текста, поэтому не способна распознавать голос. Разработчик Voice Tech Group признает, что другие продукты намного лучше справляются с диктовкой, поэтому компания решила сосредоточить все усилия на других особенностях своего детища.

Tazti больше ориентируется на геймеров, которые хотят использовать свой голос для отправки персонажей на битву или тех, кто предпочитает запускать программы, медиаплееры и просматривать веб-страницы без необходимости использования клавиатуры. Тот факт, что вы можете контролировать важные части Windows с помощью Tazti, делает его достойным противником вышеупомянутых приложений, даже если и не предлагает диктовку.

Важно! Программа имеет пробный 15-дневный период. После этого нужно заплатить 40 долларов.

Итак, если распознавание речи или Кортана не соответствуют вашим требованиям (или вы попросту не можете ими воспользоваться), тогда попробуйте вышеперечисленные утилиты.

Видео — Обзор программы Typle

Существует несколько причин, по которым пользователи не могут управлять компьютером с помощью штатных средств - клавиатуры и мыши. Во-первых, это может быть связано с поломкой названных устройств. Во-вторых, такая необходимость возникает у людей с ограниченными возможностями . И наконец, в-третьих, пользователи просто хотят как-то облегчить себе задачу работы с компьютером , отдавая ему команды голосом.

ОС Windows располагает штатным приложением распознавания речи, но к сожалению, оно не поддерживает русский язык, а только - английский, французский, испанский, немецкий, японский и китайский.

Если интерфейс вашего дистрибутива Windows рассчитан для носителей одного из вышеперечисленных языков и, конечно, вы говорите на нём , тогда вы сможете использовать штатную программу распознавания речи . Для этого нужно проделать 3 шага: настроить микрофон , пройти несложный учебный курс по управлению компьютером при помощи голоса (он также включен в Windows) и настроить саму программу распознавания речи .

Чтобы сделать это, необходимо (описание разделов ОС будет вестись на русском языке):

А что же делать русскоязычным пользователям Windows? К счастью, выход есть - использование сторонних программ. Подобных приложений существует множество - и платных, и бесплатных. Среди всех приложений для голосового управления компьютером с системой Windows особенно выделяется Typle . О ней и пойдёт речь далее.

Управление компьютером с помощью Typle

По мнению большинства пользователей, кто предпочитает управлять компьютером при помощи голоса, программа Typle является одной из самых лучших (если не самой лучшей).

Это небольшое по размеру приложение способно не только выполнять команды, имеющиеся в её базе данных, но и поддерживает создание пользовательских. Именно последнее особенно ценится в этом приложении.

Программа распространяется бесплатно , но в бесплатной версии имеются ограничения по созданию пользовательских команд. Однако этих возможностей вполне достаточно для штатного пользователя.

Итак, скачиваем и устанавливаем программу . При первом запуске приложение попросит ввести некоторые личные данные - в эти поля вы можете указать любые символы. Затем вам предстоит выбрать лицензию - выбирайте первый вариант из 3-х предложенных (пока все надписи будут на английском языке) и нажимайте Next .

После того, как приложение соберёт нужную ему для работы информацию, вы увидите стартовое окно с подсказками:

Typle попросит вас нажать на кнопку «Добавить ». После нажатия потребуется ввести ваше имя (вводите любое) - это нужно для того, чтобы приложение смогло выполнять именно ваши команды в случае, если вы не являетесь единственным пользователем компьютера. Также заполняем поле «Введите ключевое слово » (можно оставить предложенный вариант «Открой »). Именно это слово будет использоваться для запуска ваших команд , а точнее - эта фраза даст программе сигнал к выполнению команды , которую вы будете произносить далее.

Осталось нажать на кнопку записи, а затем произнести какую-либо фразу (длина записи должна быть короче 1,5 секунд). Для проверки можете проговорить «Открой ». После успешной записи Typle спросит вас о сохранении записанной команды.

Далее нажимаем на кнопку «Добавить » в верхнем меню. Откроется окно, в котором вам нужно выбрать программу для её запуска после произнесения ключевого слова в микрофон. Для примера выберем приложение «Opera 35 » (вы можете выбрать любую свою программу - браузер, проигрыватель или какой-нибудь мессенджер типа Skype).

Обратите внимание на нижнюю часть окна. В данный момент галочка установлена на пункте «Программы и файлы ». Вы также можете выделить и другие пункты. Например, установите галочку на «Windows файлы ». Теперь в окне выбора команд для запуска отобразятся стандартные программы Windows (блокнот, Paint, командная строка и так далее), а также различные системные приложения, такие как «Центр обновления » или «Мастер дефрагментации диска » и другие. Это удобная возможность для пользователей, которым часто приходится сталкиваться с настройкой системы компьютера.

Ещё одна интересная способность Typle - возможность открывать избранные интернет-сайты. Для этого нужно установить галочку на пункте «Фавориты Интернета » и выбрать из списка нужный сайт.

Как только вы выбрали подходящее действие, для его выполнения потребуется записать команду . Для этого нажимаем на значок записи рядом с полем, в котором написано название выбранного действия (программы, сайта и тому подобное), а затем произносим любую фразу. В нашем случае - это «Опера ».

После успешного сохранения записи вы можете проверить правильность выполнения команды с помощью программы Typle . Для этого вам нужно проговорить в микрофон слово «Открой », а затем сразу фразу, которая была записана вами на последнем шаге для запуска той или иной программы. В нашем случае команда звучит как «Открой Опера ». После этих слов программа автоматически запустит браузер .

Как видите, управлять компьютером средствами программы Typle не так уж и сложно. Вы можете создать множество различных команд, при произнесении которых будут запускаться те или иные приложения, открываться документы либо начинаться воспроизведение видео или музыки.

Видео по теме — программа VoxCommando



Рекомендуем почитать

Наверх