Speech Recognition Terms Glossary: Speech Recognition Terms in 2024

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

A

Acoustic Model

Acoustic Model Acoustic Model Acoustic Model is a statistical representation of the relationship between the acoustic features of speech, such as phonemes or spectrums, and the corresponding linguistic units. 音声モデルは、音声やスペクトルなどの言語の音声特性とその関連する言語単位との関係を統計的に表します。

Adversarial Examples

Adversarial Examples は、AI システムを誤導または欺くように意図的に設計されたインプットであり、しばしば入力データに慎重に設計された干渉を追加することによってです。

Artificial Neural Network (Ann)

人工ニューラルネットワーク(ANN)は、生物学的ニューラルネットワークの構造と機能を自由にシミュレートする計算モデルです。

Artificial Neural Networks (Anns)

人工ニューラルネットワーク(ANNs)は、複雑な問題を解決するために使用される生物学的ニューラルネットワークの構造と機能にインスピレーションを与えた計算モデルです。

Asr System

ASRシステムは、音声モデリング、言語モデリング、デコードなどのコンポーネントを含む完全な音声認識システムです。

Attention Mechanism

注意メカニズムは、モデルが処理中に入力シーケンスの異なる部分に焦点を当てることを可能にするニューラルネットワークアーキテクチャのコンポーネントです。

Audio Signal Processing

オーディオ信号処理は、有意義な情報を抽出したり、オーディオ品質を向上させるために、オーディオ信号の操作、分析、解釈です。

Automatic Speech Recognition (Asr)

ASR(Automatic Speech Recognition)は、スピーチ認識技術を使用して話した言語を書かれたテキストに変換するプロセスです。

B

Backpropagation

Backpropagationは、予測された出力とターゲット出力の間のエラーに基づいて重量と偏見を調整する人工神経ネットワークの訓練に使用されるアルゴリズムです。

Batch Normalization

Batch Normalizationは、各層の入力を正常化することによって深い神経ネットワークのトレーニングを改善するために使用される技術です。

Beam Search

Beam Search は、音声認識で使用される検索アルゴリズムで、音声特性の順序に基づく最も確率の高い単語の順序を見つけるために使用されます。

Beamforming

Beamformingは、特定の音源に焦点を当てたマイクロフォンの方向感度を高めるために使用される信号処理技術です。

C

Confusion Matrix

A Confusion Matrix is a table used to evaluate the performance of a classification model, showing the number of true positive, true negative, false positive, and false negative predictions. 混乱マトリックスは、分類モデルのパフォーマンスを評価するために使用されるテーブルであり、真の肯定的な、真の陰性、偽の肯定的な、そして偽の陰性の予測の数を示します。

Connectionist Temporal Classification (Ctc)

Connectionist Temporal Classification (CTC) は、スピーチ認識モデルなどのセクション対セクションモデルのトレーニングに使用されるテクニックです。

Context-Dependent Modeling

Context-Dependent Modeling in speech recognition refers to modeling the relationship between phonemes and their acoustic realization, taking into account the surrounding phonetic context. 会話認識における文脈依存モデリングは、音声とその音声的実現の間の関係をモデリングし、周囲の音声的文脈を考慮に入れることを指します。

Context-Independent Modeling

Context-Independent Modeling in speech recognition refers to modeling phonemes or speech units without considering their surrounding phonetic context. 言語認識における文脈独立モデリングは、それらの周囲の音声文的文脈を考慮せずに音声または言語単位をモデリングすることを指します。

Contextual Bandits

Contextual Bandits は、エージェントが過去の経験や報酬に基づいて、各文脈で行う最善の行動を学ぶことを試みる強化学習の種類です。

Continuous Speech Recognition

Continuous Speech Recognition(Continuous Speech Recognition)は、リアルタイムのトランスクリプションや独裁システムで頻繁に使用される継続的なストリームで言語を認識する能力です。

Convolutional Neural Networks (Cnns)

Convolutional Neural Networks (CNNs) は、画像および音声認識タスクに一般的に使用される深層学習モデルです。

D

Data Augmentation

Data Augmentation は、既存のデータに変換や修正を適用することによって、トレーニングセットのサイズを人工的に増やすためのテクニックです。

Data Preprocessing

Data Preprocessing は、機械学習モデルを訓練するために使用される前にデータをクリーニング、変換、標準化するプロセスです。

Decoding

デコーディングは、発音の音声特性を言語単位または単語にマッピングするプロセスで、発音認識システムを使用します。

Deep Belief Networks (Dbns)

Deep Belief Networks (DBNs) は、制限されたボルツマンの機械の階層構成に基づく深層学習モデルのクラスです。

Deep Learning

Deep Learningは、複数の層を持つ人工ニューラルネットワークを使用して、複雑なパターンやデータ表現をモデル化し、理解するAIのサブフィールドです。

Deep Neural Network (Dnn)

深層ニューラルネットワーク(DNN)は、複数の隠された層を持つ人工ニューラルネットワークで、さまざまな音声認識タスクに使用されます。

Deep Neural Networks (Dnns)

Deep Neural Networks(DNNs)は、入力層と出力層の間の複数の層を持つ人工ニューラルネットワークのクラスです。

Denoising Autoencoder

Denoising Autoencoder は、監督されていない学習に使用される人工ニューラルネットワークの一種で、入力データから騒音を除去することを学習します。

Dictation System

Dictation System は、口頭言語を書かれたテキストに変換するために特別に設計された音声認識システムです。

Distant Speech Recognition

Distant Speech Recognition は、騒々しい環境や遠隔ミクロフォンなど、遠隔でキャプチャされたスピーチを認識する作業です。

E

Encoder-Decoder Architecture

Encoder-Decoder Architecture は、エンコーダーが入力を処理し、デコーダーが出力を生成する神経ネットワークアーキテクチャの一種です。

End-Point Detection (Epd)

エンドポイント検出(EPD)は、音声信号内のスピーチセグメントの出発点と終了点を検出する作業であり、さまざまな音声認識アプリケーションで有用です。

End-To-End Speech Recognition

End-to-End Speech Recognition は、明示的な中間段階なしに、スピーチの音声特性を直接適切なテキスト出力にマッピングするアプローチです。

Epoch

機械学習では、Epoch はトレーニングデータセットの完全なイテレーションを指します。

F

F0 (Fundamental Frequency)

F0 or Fundamental Frequency is the lowest frequency in the harmonic series of a periodic sound waveform, corresponding to the perceived pitch of a voice. F0 or Fundamental Frequency is the lowest frequency in the harmonic series of a periodic sound waveform, corresponding to the perceived pitch of a voice. F0 or Fundamental Frequency is the lowest frequency in the harmonic series of a periodic sound waveform, corresponding to the perceived pitch of a voice.

Fbank Features

ログフィルターバンクエネルギーとも呼ばれるFbank Featuresは、音声信号の周波数コンテンツをキャプチャする音声認識のための一般的に使用される機能です。

Feature Extraction

機能抽出は、音声信号から関連性と差別性の特性を選択するプロセスです。

Formants

Formantsは、人間のスピーチの音質とテンブラに貢献する声道の共鳴周波数です。

G

Gaussian Mixture Model (Gmm)

Gaussian Mixture Model(GMM)は、音声認識における音声特性の分布を表すための統計モデルです。

Gmm (Gaussian Mixture Models)

GMM(Gaussian Mixture Models)は、しばしば音声モデリングのための音声認識に使用される観測のセットの確率分布を表すために使用される統計モデルです。

Grammar-Based Recognition

Grammar-Based Recognition は、言語認識のプロセスを制限するために事前定義されたルールや文法構造を使用する言語認識のアプローチです。

Grapheme

グラフームは、言語における書かれたシンボルの最も小さな有意義な単位です。

H

Hidden Markov Model (Hmm)

Hidden Markov Model (HMM) は、観測可能なイベントの連続の確率分布を表すために使用される統計モデルで、これらのイベントを生成する潜在的状態は直接観測できない。

Hidden Unit

隠されたユニットは、入力を受信し、その出力を計算するために非線形変換を適用する人工ニューラルネットワークのノードです。

K

Keyword Detection

キーワード検出は、音声データの特定のキーワードまたはフレーズを識別するタスクであり、音声制御デバイスなどのアプリケーションで頻繁に使用されます。

Keyword Extraction

キーワード抽出は、スピーチやテキストから重要な単語やフレーズを識別し抽出するプロセスです。

Keyword Spotting

Keyword Spottingは、オーディオレコーディング内の特定のキーワードやフレーズを識別し認識することに焦点を当てた音声認識技術です。

Knowledge Distillation

知識蒸留は、より小さい、より軽いモデル(学生)を訓練するために使用される技術で、より大きな、より正確なモデル(教師)をガイドとして使用します。

L

Language Identification

言語識別は、特定の言語またはテキストの言語を決定する作業です。

Language Model

言語モデルは、単語の連続の発生の確率を予測する統計モデルであり、言語の解釈と理解に役立つ。

Language Modeling

言語モデリングは、特定の言語における単語の順序の確率を推定するプロセスです。

Language Resources

言語リソースは、テキストやオーディオ・コーポラなどの言語データのコレクションであり、言語技術の訓練と評価に使用されます。

Language Transfer

言語移転とは、一言語が他の言語の取得または使用に及ぼす影響であり、しばしば類似性や移転ミスにつながる。

Long Short-Term Memory (Lstm)

LSTM(Long Short-Term Memory)は、消滅傾向の問題を解決するRNNアーキテクチャの一種です。

Lstm (Long Short-Term Memory)

LSTM(Long Short-Term Memory)は、セクションデータを処理し、モデル化するために特別に設計された再現性ニューラルネットワークアーキテクチャの一種です。

M

Machine Learning

機械学習は、コンピュータに明示的にプログラミングされずに経験から学び、改善する能力を与える研究分野です。

Mel Frequency Cepstral Coefficients (Mfcc)

Mel Frequency Cepstral Coefficients(MFCC)は、スピーチのスペクトル特性を表すために広く使用される機能抽出技術です。

Mel Scale

Mel Scale は、異なる周波数に対する人間の耳の反応を比較するピッチの感覚スケールです。

Mel Spectrogram

A Mel Spectrogram is a spectrogram representation of an audio signal in which the frequency scale is transformed to better correspond with human perception of sound. Mel Spectrogram is a spectrogram representation of an audio signal in which the frequency scale is transformed to better correspond with human perception of sound. Mel Spectrogram is a spectrogram representation of an audio signal in which the frequency scale is transformed to better correspond with human perception of sound.

Mel-Frequency Cepstral Coefficients (Mfccs)

Mel-Frequency Cepstral Coefficients(MFCCs)は、スピーチ信号のパワースペクトルを表す、音声認識のための広く使用される機能です。

Meta-Learning

学習することを学ぶとも呼ばれるメタ学習は、自動的な機械学習アルゴリズムの設計のアルゴリズムと技術に焦点を当てている機械学習の分野です。

Multilingual Speech Recognition

多言語会話認識は、複数の言語での会話を認識し、書き換えるための会話認識システムの能力です。

Multimodal Speech Recognition

Multimodal Speech Recognitionは、音声データや視覚データなどの複数の形態からの情報を組み合わせ、音声認識のパフォーマンスを向上させます。

N

Neural Language Model

ニューラル言語モデルは、ニューラルネットワークアーキテクチャに基づく言語モデルの一種です。

Neural Network

ニューラルネットワークは、人間の脳の構造と機能にインスピレーションを与えた計算モデルであり、相互接続された人工ニューロンで構成されています。

Neural Network Architecture

ニューラルネットワークアーキテクチャは、層とノードの数と配置を含むニューラルネットワークの設計と構造を指します。

Neural Turing Machine (Ntm)

ニューラル・チューリング・マシン(NTM)は、より複雑な計算を可能にするために外部メモリとコントローラを組み合わせたニューラル・ネットワークアーキテクチャです。

Noise Adaptation

ノイズ適応は、特定の種類のノイズや音声条件の存在でうまく機能するように、スピーチ認識システムを適応させるプロセスです。

Noise Cancellation

ノイズキャンセルは、音声信号の不要なバックグラウンドノイズを削減または排除するプロセスで、スピーチの理解性を向上させます。

Noise Reduction

騒音削減は、音声信号から望ましくない騒音を除去し、その品質を向上させるプロセスです。

Noise Robustness

騒音の強度は、バックグラウンドの騒音や不利な音声条件の存在でさえ、音認識システムが正確にパフォーマンスする能力を指します。

Noise Suppression

騒音抑制は、音声信号の背景騒音を減らすプロセスで、音声の理解性と品質を向上させます。

O

Overfitting

Overfitting は、機械学習モデルがトレーニングデータに対して過剰に最適化され、目に見えないデータや新しいデータに対して悪いパフォーマンスを有する場合に発生します。

P

Perplexity

Perplexity は、言語モデルのパフォーマンスを評価するために使用されるメトリックで、単語の順序をどれだけよく予測するかを測定します。

Phone Recognition

電話認識は、特定のスピーチ信号の音声または音声を認識するタスクです。

Phoneme

Phoneme は、特定の言語で一つの単語を別の単語から区別する音の最小単位です。

Phonetic Segmentation

フォネティックセグメントは、音声信号をフォネティックユニット、例えばフォネムまたはシラブに分割するプロセスです。

Pitch

ピッチとは、音の感知された周波数またはトーンを指し、音が高いか低いかを決定する。

Pitch Detection

Pitch Detection は、感知されたピッチに対応するスピーチ信号の基本的な周波数を推定するプロセスです。

R

Recurrent Neural Network (Rnn)

Recurrent Neural Network (RNN) は、過去の入力に関する情報を保持することによって連続データを処理するために設計された人工神経ネットワークの一種です。

Robustness

音声認識の強度は、騒音、アクセント、または背景干渉などのさまざまな困難な条件下で高精度を維持するシステムの能力を指します。

S

Segmentation

セグメントは、継続的な音声信号をより小さなセグメントに分割し、さらなる処理を容易にするプロセスです。

Semi-Supervised Learning

Semi-Supervised Learningは、ラベル化されたデータとラベル化されていないデータを組み合わせた機械学習アプローチで、両方のタイプのデータの利点を活用してモデルを訓練します。

Speaker Adaptation

スピーカー適応は、個々のスピーカーの音声特性とスピーカーパターンを認識するためのスピーカー認識システムをカスタマイズするプロセスです。

Speaker Diarization

Speaker Diarization は、オーディオ録音中の個々のスピーカーを分割し、識別するプロセスです。

Speaker Verification

スピーカー検証は、スピーカーの音声特性を保存された音声印と比較することによって、スピーカーの主張されたアイデンティティを認証または検証する作業です。

Spectrogram

スペクトログラムは、時間の経過に伴うオーディオ信号の周波数コンテンツの視覚的表現です。

Speech Recognition

スピーチ認識は、機械やプログラムが話した言語を識別し、理解し、それを書かれたテキストに変換したり、その意味を解釈する能力です。

Sphinx

Sphinx は Carnegie Mellon University によって作成された人気のあるオープンソースの音声認識ツールキットで、音声認識システムを開発するためのツールとライブラリを提供しています。

Statistical Language Model (Slm)

統計言語モデル(SLM)は、テキストの統計特性に基づく言語モデルで、単語の順序の確率を推定するために使用される。

Streaming Speech Recognition

Streaming Speech Recognition は、ストリーミングオーディオデータ上でリアルタイムの音声認識を実行する作業です。

Subword Units

サブワードユニットは、サブワードや文字Nグラムなどの単語よりも小さい言語単位です。

Supervised Learning

Supervised Learning は、モデルがラベル化されたデータから学び、入力出力カップルに基づいて予測や分類を行う機械学習アプローチです。

T

Transfer Learning

転送学習は、あるタスクから得た知識を別の関連タスクに適用する機械学習技術で、しばしばパフォーマンスを向上させ、トレーニングデータ要件を減らす。

Triphone

トリフォンは、周囲のフォネティック・コンテキストの影響を考慮し、3つのフォネムで構成される文脈依存型スピーチユニットです。

U

Underfitting

Underfitting は、機械学習モデルがあまりにも単純で、または十分に訓練されていない場合に発生し、訓練と目に見えないデータの両方で不良なパフォーマンスを引き起こします。

Unsupervised Learning

Unsupervised Learning は、モデルが明示的な入力出力カップルなしに、ラベルされていないデータのパターンや構造を学習する機械学習アプローチです。

V

Voice Activity Detection (Vad)

音声活動検出(VAD)とは、音声信号に存在する、あるいは存在しない人間の言葉を検出する作業です。

Voice Command Recognition

音声コマンド認識は、通常、音声コントロールシステムで使用される音声コマンドまたは指示を認識する作業です。

W

Wake Word

Wake Word は、音声コントロールされたシステムまたは仮想アシスタント、例えば「Hey Siri」または「Alexa」を有効にする特定のトリガー単語またはフレーズです。

Word Boundary Detection

Word Boundary Detection は、音声信号の単語間の境界を特定する作業です。

Word Embeddings

Word Embeddings は、通常、Word2Vec または GloVe などのテキストデータの大量から学ぶ単語の密集したベクトル表示です。

Word Error Rate (Wer)

Word Error Rate (WER) は、認識された出力における単語エラーの数を参照トランスクリプションと比較することで、音声認識システムの精度を測定するためのメトリックです。

Word Spotting

Word Spotting は、大量の発音の集合内の特定の単語の発生を検索することを含むスピーチ認識のタスクです。

Word-Level Alignment

Word-Level Alignment is the task of aligning words in a recognized transcription with their corresponding words in the reference transcription, often used in evaluating the performance of a speech recognition system. Word-level alignment is the task of aligning words in a recognized transcription with their corresponding words in the reference transcription, often used in evaluating the performance of a speech recognition system. Word-level alignment is the task of aligning words in a recognized transcription with their corresponding words in the reference transcription.

Z

Zero Padding

Zero Padding は、セクションの開始または終了時にゼロを加えることで、連続データの長さを増やすためのテクニックです。

Zero-Crossing Rate

Zero-Crossing Rate は、音声およびオーディオ処理で、信号がそのシグナルを変更する速度を推定するために使用される機能です。