Что вижу - о том пою (aragont) wrote,
Что вижу - о том пою
aragont

Categories:

Электронная машинистка

Однажды французский писатель Анатоль Франс нанимал себе машинистку. У очередной претендентки он спросил:
- Судя по рекомендациям, вы хорошо стенографируете. Это так?
- Да, 130 слов в минуту.
- Сто тридцать слов в минуту? Милая моя, да где ж я столько возьму?
(литературный анекдот)

Когда-то давно секретарь или машинистка были вполне нормальными атрибутами любого более ли менее крупного начальника (Кстати, в эпиграфе, похоже, речь идет о более давней профессии – стенографистке). Можно посмотреть советские фильмы тридцатых годов, можно почитать художественную литературу. Там мы постоянно встречаем персонажей, которые что-то надиктовывают своим подчиненным.

Сейчас ситуация изменилась. Честно говоря, я ни разу не встречал в современной жизни (ни в фильмах, ни книгах, ни вживую) ситуаций, когда кто-то надиктовывает секретарю или отдает запись с диктофона в машбюро на расшифровку. Теперь у каждого стоит персональный компьютер и каждый стал сам себе машинисткой.

По мере того как количество клавиатур становилось всё больше, у людей появилась мечта о механическом секретаре, который бы записывал то, что ему диктуют.


"Формула счастья" – Коряков О.Ф. 1963 г.

Обычно до обеда Юрий Игоревич занимался только работой.

Кабинет у него был просторный и светлый. Два стола — письменный и лабораторный — стояли у прозрачной пластмассовой стены, обращенной в сад. Вдоль других стен выстроились стеллажи с повседневно необходимой справочной литературой, картотекой и фонограммами. Дед не любил работать в служебном помещении, он работал дома.

Когда Ярослав зашел в кабинет, Юрий Игоревич, прохаживаясь, диктовал самописцу какую-то статью. Записывались оба варианта — звуковой и печатный. Сделав предостерегающий жест: «подожди, не мешай», — старик произнес ещё несколько коротких отточенных фраз, затем выключил механизм.


Упоминания программ для персональных компьютеров, которые умеют распознавать голос появились в печати в конце 1990-х. Судя по описаниям, это были игрушки для больших детей, которые хотели стоять на острие прогресса. Несколько статей в журнале «Компьютера» рассказывают о том, что на тот момент существовали специализированные системы, которые понимали несколько ключевых слов, а всё остальное было чистым баловством.


Компьютерра 13.07.2009

Единственная программу, которую советуют (и тут же добавляют, что все равно работать не будет), старый добрый, или скорее недобрый, "Горыныч". Установил 4-ю версию. Попробовал. Мда... О том, чтобы считать программу полноценным решением трансформации речи в текст — и речи быть не может (извиняйте за каламбур). С трудом еще можно научить "змея" самым простым командам при управлении компьютером, но чтобы научить правильно распознавать и преобразовывать речь в текст — об этом даже и думать нечего. Даже в идеальных условиях — отсутствие посторонних шумов, медленное и четкое произношении — ошибок множество. Вместо слово "раз", программа выдает слово "вверх". Да, я не Цицерон, но и не настолько шепеляв и картав! Добавьте сюда постоянную правку полученных данных (вам еще придется постоянно отвлекаться на просмотр выводимого текста). Скорость набора получается раза в два меньше, чем при ручном вводе с клавиатуры.



Всё изменилось с тех пор как Google создал свою систему распознавания голоса. Теперь мы регулярно видим людей, которые подносят ко рту свой сотовый телефон и говорят: «Ok Google». Оказалось, что сейчас и диктовка статей стало доступна каждому, просто не все мы об этом догадываемся.

Существует несколько способов воспользоваться гугловский программой.

Способ номер 1:


В моём телефоне на клавиатуре есть значок микрофона. Его можно нажать в любой программе для ввода текста и начать надиктовывать свое послание. Мне больше всего нравится почтовая программа. Я диктую письмо, а потом сохраняю его в черновике или отправляю сам себе. Наверное, можно использовать и какие-нибудь «заметки» или «блокноты», но почта позволяет быстро передать полученный текст на персональный компьютер.

android

Способ 2 (сработает только с браузером Chrome):


На сайте гугло-переводчика (https://translate.google.ru) также есть значок микрофона. Достаточно зайти на сайт в любом браузере нажать на микрофон и можно диктовать текст. В левом окне появляется распознанный текст, а в правом его перевод на какой-то язык. Перевод нам не нужен, но он ничему не мешает. За один раз можно надиктовать 5000 знаков. Это достаточно много (три стандартные машинописные страницы) и у меня раньше успевает устать язык чем кончается лимит на символы.
Если у вас есть учетная запись в Гугле, то вы можете зайти на сайт ГуглДокс (https://docs.google.com). Там тоже работает распознавание, но без ограничения на длину.

google-translate

Способ 3:


Предположим, у вас есть текст лекции, записанный на диктофон или снятый на видео. В этом случае вы можете загрузить видео на YouTube и подождать пару часов. За это время YouTube сделает вам субтитры. Копирование субтитров в документ достаточно тривиальная задача и любой компьютерно грамотный человек должен с ней справиться. Единственный недостаток субтитров в том, что они разбиты на короткие строчки. Поэтому я вначале запускаю в текстовом редакторе объединение строк в один большой кусок, а потом разбиваю его на части точками и запятыми.
youtube-sub

Наконец, четвёртый - самый технический способ:


Cсуществует специальная программа – «виртуальный аудио кабель». Это программа позволяет соединить на компьютере виртуальные динамики с виртуальным микрофоном. Маленький недостаток бесплатной версии — это то, что при таком соединении пропадает звук в реальных колонках. Если кто-то решит пользоваться этой программой на постоянной основе, то он может заплатить авторам 5$ и получить в своё распоряжение ещё два виртуальных кабеля, которые позволят выводить звук в два разных устройства одновременно.

virtual-cable

Для использования надо объявить устройством вывода звука один конец аудиокабеля, а устройством ввода – другой. В ГуглДокс выбрать ввод с микрофона (Ctrl+Shift+S или из меню) и одновременно запустить проигрывание своей видео или аудиозаписи. Вы ничего не услышите, но зато увидите, как окно документа потихоньку заполняется текстом.

google-docs

Маленький совет если вы надиктовываете текст специально для распознавания, то можете вставлять в него ключевые слова: «точка», «запятая» и «перевод строки».

Естественно, основу данного текста я надиктовал в почтовой программе на смартфоне. В нём было примерно 4500 знаков (сейчас 7000). На диктовку ушло пятнадцать минут, что даёт крутые 300 знаков в минуту. Правда ещё час ушёл на редактирование, но это была стилистические правки неудачных оборотов речи, дописывание пропущенных абзацев и т.п. Ошибки распознавания исправлять почти не пришлось.

Хуже обстоит дело с распознаванием текста лекций, записанных на фотоаппарат без внешнего микрофона. Выше есть скриншот экрана в процессе дешифровки. Видно, что текст выглядит достаточно смешно. По своему опыту могу сказать, что час лекции в моём исполнении даёт примерно 30 тысяч знаков и требует порядка трёх часов редактирования с заменой 50% текста.

--
Простите за краткость, создано в K-9 Mail.
Tags: программы, рецепты
Subscribe

Recent Posts from This Journal

  • Ортодоксальная водка

    Гугл-переводчик абсолютно уверен, что слово orthodox переводится на русский как "православный". Даже сочетание orthodox jew он переводит как…

  • ИКО ГКУ ЦЗН ЦАО

    Прошлой весной в Москве меня поразила очень официальная табличка с заклинанием "ИКО ГКУ ЦЗН ЦАО". Тогда я поленился ее сфотографировать и немного об…

  • Почти симметрия

    На профосмотре узнал, что у меня кососимметричные глаза: правый хорошо видит третью строчку снизу, а левый — третью сверху.

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 3 comments