Linux語音識別狀態

介紹

我花了很多時間研究文章,並且經常考慮一篇文章的主題,同時步行到火車站或者外面和一般。

有一天晚上,我從工作中走了1.5英里到車站,我想“如果我能記錄我想說的話,然後將它自動轉錄成一個文本文件,我稍後可以編輯和格式化,這會不會很好” 。

我花了許多時間來研究可用於語音識別和聽寫的不同選項,包括使用Linux中的聽寫軟件直接錄製麥克風,將文件錄製為MP3或WAV格式並通過命令行轉換,以及使用Chrome和Android應用程序。

本文重點介紹了經過幾天艱苦勞動後的發現。

Linux選項

嘗試在Linux中尋找聽寫和語音識別軟件並不容易,可用的選項並不那麼聰明。

這個維基百科頁面有一個可能的選項列表,包括CMU Sphinx,Julius和Simon。

我現在使用的是基於Debian測試的SparkyLinux,我可以告訴你,存儲庫中唯一可用的語音識別軟件包是Sphinx。

我最終嘗試的原生Linux程序是PocketSphinx,我用它將WAV文件轉換為文本,以及Freespeech-VR,這是一個可讓您直接從麥克風錄製的python應用程序。

我還嘗試了一些Chrome應用程序,包括VoiceNote II和Dictanote。

最後,我嘗試了“聽寫和電子郵件”和“談話和口述聽寫”Android應用程序。

Freespeech-VR

Freespeech-VR在標準存儲庫中不可用。 我從這裡下載了這些文件。

在下載並提取zip文件的內容後,我打開一個終端並導航到文件被提取到的文件夾。

我輸入以下命令打開freespeech-vr。

sudo python freespeech-vr

我有一副帶有相當像樣的麥克風和相當清晰的南方英語口音的耳機。

以下文字出現在freespeech-vr窗口中:

歡迎來到結果單位今天有保證如何進行管理測試一個必須測試什麼時候要文本用系統的方式言語我到一個每個只有一個希望入住和一隻雞的手段金系統Ea當我的名字下一個電話這個文件電話這個文件很快一個例子手機到手 - 空間獅身人面像去那不是電話將被共享一個訓練有素和工具使用說話當你說完了說一個使用過的文件最後一個故事A和使用的時候它是如何成功的這個Linux是如何避免的

我現在想說的是,這不是Unit Of Dogs網站,我也沒有提及任何與金雞有關的事情。 其實我試圖描述使用語音識別軟件的過程。

我嘗試了幾次軟件,包括變化的音調和速度,但準確性很差。

PocketSphinx

PocketSphinx能夠採用WAV文件並使用命令行將其轉換為文本。

PocketSphinx可通過Debian存儲庫獲得,並且應可用於大多數發行版。

我在PocketSphinx中發現的主要問題是您幾乎需要語音識別,語言文件,詞典以及如何培訓系統的概念。

安裝PocketSphinx後,您應該到CMU Sphinx網站並閱讀盡可能多的信息。 您還需要下載以下模型文件。

(如果您不是母語為英語的人,請選擇適合您的語言模型)。

一般來說PocketSphinx和獅身人面像的文檔對於外行人來說很難理解,但是從我能做的事情來看,字典文件被用來提供可能的單詞列表,並且語言模型列出了潛在的發音列表。

為了測試PocketSphinx,我使用了自己的聲音錄製,“艾爾帕西諾”中的“惡魔倡導者”片段和“摩根弗里曼”片段。 重點在於嘗試不同的聲音,對我而言,沒有人能像摩根弗里曼那樣清楚地講述一個故事,沒有人像艾爾帕西諾那樣提供一條線。

對於PocketSphinx的工作,它需要一個WAV文件,它需要在一定的格式。 如果文件為MP3格式,請使用ffmpeg命令將其轉換為WAV格式:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

要運行PocketSphinx,請使用以下命令:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous需要一個WAV文件並將其轉換為文本。

在上面的命令中,pocketsphinx被告知在語言模型“cmusphinx-5.0-en-us.lm”中使用名為“/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic”的字典文件。 被轉換為文本的文件被稱為voice2.wav(這是我用我的聲音錄製的)。 最後,2>將您不一定需要的所有詳細輸出放入名為voice2.log的文件中。 測試的實際結果顯示在終端窗口內。

使用我的聲音的結果如下:

歡迎來到下一個關於哪些識別軟件在一分鐘內沒有本週的問題

結果並不像freespeech-vr那樣可怕,但仍然不可用。 然後,我嘗試使用與阿爾帕西諾PocketSphinx,但沒有返回任何結果。

最後,我嘗試使用摩根弗里曼的電影“布魯斯全能”的聲音,這裡是結果:

000000000:我們會在她身上
000000001:所有那些艱難的日子,現在是啊,這是我們活著的最多我是熱的一部分
000000002:在電梯中,誰是棒球時的關鍵點,或知道如何對待生活
000000003:什麼是會恢復的
000000004:他們沒有寫
000000005:他們讓我馬上出去
000000006:你必須是規則
000000007:我一直期待著你
000000008:他在這裡了解到,這是一個插圖是殺手聖誕派對
000000009:它變成寫o的方法之一。 屁股我覺得很少總是穿一個
000000010:就像聯合的問題不會給他好,我估計他們在那個時候,當我們沒有全部你認為我在世界上會住在家裡,我已經看到了
000000011:擁有它的父親
000000012:這很重要
000000013:是否給出
000000014:所有那些不會落下太多的東西
000000015:在秋天吧
000000016:好吧,等一下
000000017:如果我覺得他們會有一個不滿意的,那就是所有那些結婚的人都是不會的,我們喜歡不同的方式

我的測試很難被認為是科學的,PocketSphinx的開發人員可能會聲明我沒有正確使用該軟件。 還有一種稱為語音訓練的技術,可用於創建更好的詞典和語言文件。

我的壓倒一切的觀點是,這對標準的日常使用來說太難了。

VoiceNote II

VoiceNote II是一款使用Google語音識別API的Chrome應用。

如果您使用Chrome或Chromium瀏覽器,則可以通過網上應用店安裝VoiceNote II。

VoiceNote II上的圖標以一種奇怪的方式佈置,因為您需要在窗口底部設置語言,編輯按鈕也位於底部,但錄製按鈕位於右上角。

你需要做的第一件事是選擇一種語言,這可以通過點擊世界圖標來實現。

要開始錄製,請單擊麥克風圖標,然後開始對著麥克風講話。 為了獲得最佳結果,我發現慢慢說話是關鍵,這樣軟件就有機會跟上。

結果不是很好,如下所示:

你好,歡迎來連接。 今天關於語音到文字轉換dunelm farrell經濟衰退2008年的文章作為轉換,它表示很好支持我發現語音文本插件顯示2014debian或rpm包的最佳方式打開它的語音類型語音文本打開它,如果你想選擇vs在愛丁堡選擇法語德語讓你在聯合kingdomstart在海上的時間microphones什麼時候你寫完文本文件作為一個文本文件來itsuccess這是從英格蘭南部非常標準的英語口音最好的,但我要通過這個torrentalong與實際的文件,你可以看到錯誤,讓你聆聽朋友

Dictanote

Dictanote是另一款可以用於聽寫目的的Chrome應用程序,並且更直觀,但結果並不比VoiceNote II好。

我只使用Dictanote的演示版本,它可以防止您創建新文檔,但它可以讓您通過編輯器中已有的文本進行通話。 我能夠測試語音識別,但結果並不比VoiceNote II好,所以我沒有註冊Pro版本。

聽寫和郵件

“聽寫和郵件”是一款使用本機Google語音識別API的Android應用程序。

“聽寫和郵件”的結果比迄今嘗試的其他任何程序都要好得多。

你好歡迎來到Linux,今天我們討論將聲音轉換為文本

與“聽寫和郵件”的訣竅是慢慢說話和發音,以及你甚至可以口音。

完成講話後,您可以將結果通過電子郵件發送給自己。

談話和談話聽寫

我試過的另一個Android應用程序是“談話和談話聽寫”。

這個應用程序的界面是最好的,語音識別確實工作得很好。 錄音後,我可以通過各種方式分享結果,包括通過電子郵件。

今天歡迎來到linux about.com我們正在談論將語音轉換為文本

正如你所看到的,上面的文字大致如你所期望的那樣清晰。 慢慢談話是關鍵。

概要

本機Linux有一些關於語音識別和專門聽寫的方法。 有一些應用程序使用Google語音API,但它們尚未在存儲庫中列出。

ChromeOS應用程序稍微好一些,但使用我的Android手機取得了最佳效果。 也許手機有一個更好的麥克風,因此語音識別軟件有更好的轉換機會。

要使語音識別變得非常實用,需要更少的設置才能更直觀。 您不應該為了使其理解而使用語言模型和字典。

然而,我很欣賞整個語音識別技術是非常具有挑戰性的,因為每個人都有不同的聲音,在一個國家有很多地區的方言,從來不擔心世界各地使用的數百種語言。

因此,我的分析是語音識別軟件仍在進行中。