Ей там! Ако сте в разпознаване на реч или просто се интересувате как да го накарате да работи по -добре, вие сте попаднали на правилното място. Аз съм доставчик на плъзгащи се прозорци и днес ще споделя с вас как да използвам техниката на плъзгащия се прозорец за разпознаване на реч.
Първо, нека разберем какво е плъзгащ се прозорец в контекста на разпознаването на речта. Казано по -просто, плъзгащ се прозорец е малък, подвижен сегмент на аудио сигнал. Вместо да обработваме цялото речево аудио наведнъж, ние го разбиваме на тези по -малки прозорци. Този подход има няколко предимства, като например да направи обработката по -управляема и ни позволява да се съсредоточим върху конкретни части от речта.
Защо да използвате плъзгащи се прозорци за разпознаване на реч?
Една от основните причини да използвате плъзгащи се прозорци е да се справите с променливостта в речта. Речта е сложен сигнал, който се променя с течение на времето. Използвайки плъзгащ се прозорец, можем да анализираме речта на кратки, фиксирани сегменти с дължина. Това помага за улавяне на местните характеристики на речта, като фонеми или кратки срички.
Друго предимство е изчислителната ефективност. Обработката на голям аудио файл наведнъж може да бъде много ресурсна - интензивна. С плъзгащите се прозорци можем да обработваме всеки прозорец независимо, което може да бъде много по -бързо и изисква по -малко памет.
Как да внедрите техниката на плъзгащия се прозорец
Стъпка 1: Определете размера на прозореца
Първото нещо, което трябва да направите, е да решите размера на вашия плъзгащ се прозорец. Размерът на прозореца може да окаже значително влияние върху работата на вашата система за разпознаване на реч. По -малкият размер на прозореца може да заснеме по -подробни функции, но може също да въведе повече шум. От друга страна, по -големият размер на прозореца може да изглади сигнала, но може да пропусне някои важни функции на краткосрочните срокове.
За повечето приложения за разпознаване на реч обикновено се използва размер на прозореца между 20 - 40 милисекунди. Този диапазон е в състояние да улови основните фонетични характеристики на речта.
Стъпка 2: Определете припокриването
След като зададете размера на прозореца, трябва да решите припокриването между последователни прозорци. Припокриването на прозорците ни позволява да улавяме непрекъснатостта на речевия сигнал. Ако няма припокриване, може да пропуснем важна информация на границите на прозорците.
Обикновено припокриването от 50% е добра отправна точка. Например, ако размерът на прозореца ви е 25 милисекунди, ще преместите прозореца напред със 12,5 милисекунди за всеки нов прозорец.
Стъпка 3: Приложете функцията на прозореца
Преди да обработите всеки прозорец, е добра идея да приложите функция на прозореца. Функцията на прозореца помага да се намали спектралното изтичане, което може да възникне, когато вземем ограничен сегмент от аудио сигнала. Общите функции на прозореца включват прозореца Hamming и прозореца на Ханинг.
Прозорецът на Hamming, например, се определя като (w (n) = 0.54 - 0.46 \ cos \ left (\ frac {2 \ pi n} {n - 1} \ вдясно)), където (n = 0,1, \ cdots, n - 1) и (n) е размерът на прозореца.
Стъпка 4: Извличане на характеристики
След като приложите функцията на прозореца, можете да извлечете функции от всеки прозорец. Налични са няколко техники за извличане на характеристики, като MEL - честотни цепстрални коефициенти (MFCC), линейни прогнозни цепстрални коефициенти (LPCC) и възприемащо линейно прогнозиране (PLP).
MFCC са един от най -използваните методи за извличане на характеристики при разпознаването на речта. Те се основават на реакцията на човешката слухова система на различни честоти. За да изчислите MFCCs, първо трябва да изчислите краткосрочния спектър на мощността на прозореца, след което да приложите банка за филтриране на MEL в спектъра, вземете логаритъма на филтърните банкови изходи и накрая извършете дискретна косинова трансформация (DCT).
Стъпка 5: Класификация и разпознаване
След като извадите функциите от всеки прозорец, можете да използвате класификатор, за да идентифицирате съдържанието на речта. Популярните класификатори за разпознаване на речта включват скрити модели на Марков (HMMS), невронни мрежи (като повтарящи се невронни мрежи - RNN, дългосрочни срочни мрежи за памет - LSTM и затворени повтарящи се единици - GRU) и поддържащи векторни машини (SVMS).


Например, HMM може да моделира последователния характер на речта, като представя различни състояния на речевия сигнал. Всяко състояние съответства на определена фонема или група фонеми.
Нашите продукти за плъзгане на прозореца
Като доставчик на плъзгащи се прозорци, ние предлагаме широка гама от плъзгащи се прозорци, които могат да се използват в различни приложения. Ако търсите големи плъзгащи се прозорци за вашата веранда, вижте нашитеГолеми плъзгащи се прозорци за веранда. Тези прозорци са не само стилни, но и осигуряват отлична вентилация и страхотна гледка.
За тези, които предпочитат алуминиев плъзгащ се прозорец, имамеАлуминиев плъзгащ се прозорец. Алуминият е траен и лек материал, което го прави популярен избор за много клиенти.
И ако търсите лесна опция за инсталиране, нашатаЛесен прозорец за инсталиране на плъзганее пътят. Той идва с всички необходими хардуер и инструкции, така че можете да го стартирате за нула време.
Заключение
Използването на техниката на плъзгащ се прозорец за разпознаване на реч е мощен начин за подобряване на ефективността на вашата система за разпознаване на реч. Разбивайки речевия сигнал на по -малки, управляеми сегменти, можете да уловите локални характеристики, да намалите изчислителната сложност и да се справите по -ефективно на променливостта на речта.
Ако се интересувате от нашите продукти за плъзгане на прозореца или имате въпроси как да използвате нашите продукти във вашите проекти, не се колебайте да се свържете. Ние сме тук, за да ви помогнем да направите най -добрия избор за вашите нужди. Независимо дали е за обновяване на дома или търговски проект, имаме правилния плъзгащ се прозорец за вас. Нека започнем разговор и да видим как можем да работим заедно!
ЛИТЕРАТУРА
- Rabiner, LR, & John, BH (1993). Скоровокати на разпознаването на речта. Prentice Hall.
- Huang, XD, Acero, A., & Hon, HW (2001). Обработка на говорим език: Ръководство за теория, алгоритъм и развитие на системата. Prentice Hall.
- Haykin, S. (2009). Невронни мрежи и машини за обучение. Пиърсън.



