見出し画像

エンジニアが解説! ゲーミングイヤホンに投入した音響技術

finalでは、ゲーム、音楽、映画など多様なコンテンツそれぞれの音の特徴の違いに着目し、コンテンツ制作者が意図した音によって得られる印象をできるだけそのまま再現できるように、ヘッドホンやイヤホンの研究開発を行なっています。
VR3000 for GamingVR2000 for Gamingはゲームサウンドに焦点を当てて、finalがこれまで研究開発してきた音響心理および音響工学における研究成果を投入しました。
そこで、ゲームの音とはそもそもどのようなものなのかを解説し、VR3000 for GamingVR2000 for Gamingが目指した音の特長について説明します。

キーワード:ゲームサウンド、ステレオ、モノ、ステレオフォニック、バイノーラル、ヘッドホン、イヤホン、イマーシブ・バイノーラルサウンド、両耳聴、音の空間印象、音色

執筆エンジニア紹介
音響研究開発全般に携わる。専門分野は、音楽録音、音響工学、アナログオーディオ、デジタルオーディオ、オーディオ信号処理、空間音響、音響心理など、超音波を除いた可聴領域音響全般。


ゲームサウンド

「ゲームサウンド(Game Sound)」あるいは「オーディオ・フォー・ゲーム(Audio for Game)」などと呼ばれるゲームに用いられている音は、効果音、音楽、台詞の3つに分類することができます。この3つの分類は、映画で用いられている音と同じです。

ゲームには、「イン・ゲーム」と呼ばれるユーザーがコントローラーを操作して実際にゲームを楽しむ場面と、ゲームの世界観を表現する導入部などの場面のふたつで構成されていることが最近は多いようです。後者はまさしく映画の音と同じスタイルで制作されています。

効果音には、「フォーリー」と呼ばれるさまざまな道具を使って手作りの生音から制作する音や、アーカイブから探してきた音を編集して作り出す音などがあります。音楽は作曲家が新たに作曲した音楽をオーケストラの演奏により録音する大規模なものから、作曲家自らがコンピューターやシンセサイザーを駆使して録音する小規模なものまでさまざまです。

台詞は声優の声で録音することが多いと思われますが、ゲームでは「テキスト・ツー・スピーチ(Text to Speech)」と呼ばれるコンピューターで合成された声が使われることも多いようです。

映画では、台詞、音楽、効果音という順序で音の重要性が語られることが多いですが、ゲームでは、重要性は効果音、音楽、台詞という順序になると思います。これは、イン・ゲームではさまざまな「効果音」がゲームへの没入感や、対戦ゲーム等での勝敗を左右する音になるからです。

ゲームサウンドの制作では、以前は、プログラミングした後コンパイルという作業を経なければ実際の音を確認できなかったため膨大な作業時間を要しました。しかし最近では、音楽制作で使用されるDAW(デジタル・オーディオ・ワークステーション)のようにコンパイルを経ずとも音をその場で確認しながら作業を進められるミドルウェアと呼ばれる環境が用いられるようになってきたため、作業の効率化とともに、より多彩な音作りが可能になってきました。

9月8日に発売されたばかりの新ゲーミングイヤホン「VR2000 for Gaming」

バイノーラル

ゲームをプレイする際には、その音をいろいろな環境で聴くことができます。ゲーム企業の専門家に訊いた話では、最も多いのがゲーム機器をテレビに接続して、テレビのスピーカーで聴くケースだそうです。おそらくその次に多いのが、ヘッドホンやイヤホンを装着して音を聴くケースだと思います。

スピーカーで音を聴くケースと、ヘッドホンやイヤホンで音を聴くケースについては、異なる用語が用いられます。2chステレオで制作されたゲームの音や音楽を前方の左右に配置した2個のスピーカーで聴くことが「ステレオフォニック(Stereophonic)」で、ヘッドホンやイヤホンを左右の耳に装着して聴くことが「バイノーラル(Binaural)」です。

バイノーラルの「Bi」にはふたつのという意味があり、自転車(Bicycle)の「Bi」と同じです。「Aural」は聴覚という意味をもつ単語です。

「バイノーラル(Binaural)」=ヘッドホンやイヤホンを左右の耳に装着して聴くこと

ところで日本では2個のスピーカーを配置して音を聴くことを「ステレオ」と呼び、1個のスピーカーで音を聴くことを「モノラル」と呼ぶことが多いようです。例えば、放送の音声モードも、ステレオとモノラルと表示されていることが多くみられます。

実は、モノラル(Monoaural)とは、ひとつを意味する「Mono」と「Aural」が組み合わさった用語で、本来は片耳のヘッドホンやイヤホンで音を聴くことを意味します。1個のスピーカーで聴く場合は「Monophonic」となります。したがって、本来であれば、ステレオとモノラルではなく、「ステレオ」と「モノ」と呼ぶべきなのです。

バイノーラルとは、ヘッドホンやイヤホンを両耳に装着して音を聴くことを意味しますので、後述するダミーヘッドマイクロホンで録音された音のみを聴く形態を意味することに限定した用語ではないことにも注意が必要です。

空間印象

自然界で音を聞く時に、ヒトの聴覚の役割として重要なことがふたつあります。まずひとつめが、音の方向を知ることです。これは「音の方向知覚」と呼ばれる聴覚の現象です。ふたつめが、音を発している対象物(オブジェクト)が何であるかを音で認識することです。これは「ゲシュタルト認識」などと呼ばれ、それに関連した聴覚の用語が「音色」です。

前者の音の方向知覚は、動物としてのヒトが自分の身を危険から守るために極めて大事な機能です。視覚が前方の限られた範囲である「視野」にしか働かず、視野以外に存在するオブジェクトを察知するには聴覚に頼らざるを得ないからです。

後者の音色は、教科書や専門書等で聴覚の3要素といる「音の大きさ」「音の高さ」「音色」のひとつでもあります。音色によるゲシュタルト認識は、例えば弦楽器の種類である、バイオリン、ビオラ、チェロ、コントラバスの違いを音だけから認識できることなどで理解できると思います。

音の方向知覚は、ヒトが左右ふたつの耳を持っていることによって可能となる機能でもあります。ふたつの耳で音を聞くことを「両耳聴」といいますが、この両耳聴によって生じる音の空間的な印象をここでは「音の空間印象」と呼ぶことにします。

音の空間印象には、音の方向だけではなく、オーケストラの楽器演奏によって生じる左右や奥行き方向に音が広がって聞こえる「音の広がり感」や、オーケストラがコンサートホールで演奏することによって、コンサートホールのすべての壁面から音の反射音が到来してくることによって生じる「音による包みこまれ感」などがあります。
筆者は、聴覚における音の3要素を拡張し、音の4要素として「音の大きさ、音の高さ、音色、音の空間印象」とすべきだと学会等で提言しています。

ゲームサウンドでは、これら音の方向感、音の広がり感、音による包みこまれ感などをうまく生じさせ、ゲームへの没入感などを高め、よりゲームを楽しくプレイできるように、随所にさまざまな音の工夫がなされています。

ゲームサウンドで用いられることの多い音の空間印象

finalでの音の空間印象等に関する研究

finalでの音に関する研究開発の重要なひとつの分野が聴覚心理あるいは音響心理と呼ばれる学問です。そしてfinalでのヘッドホンやイヤホンを対象とした研究では、まさしく前述した「音色」と「音の空間印象」が重要なテーマとなっています。
いずれの研究でもイヤホンやヘッドホンで再生された音が、「コンテンツ制作者の意向通りに音を再現できること」に主眼を置いています。

最初にfinalのイヤホンE500に投入した研究成果が

「Physical acoustic characteristics of earphones and headphones required for the faithful reproduction of original spatial impression of immersive binaural sound(イマーシブ・バイノーラルサウンドの原音空間印象を忠実に再現するために必要なイヤホン・ヘッドホンの物理音響特性)」[1]

です。

つまり、イマーシブ・バイノーラルサウンドにおいてコンテンツ制作者が意図した音空間印象をできるだけそのまま再現することを目指した研究です。

「イマーシブ・バイノーラルサウンド」とは、2chステレオで制作された音をバイノーラル聴取することと区別するために筆者が学会等で提唱した用語であり、3D音響で制作された音をバイノーラル聴取することを意味します。

すなわち、ステレオ音響が左右のみの空間印象に限られるのに対し、イマーシブ・バイノーラルサウンドは、左右、前後、上下の三次元方向の空間印象を再生することが可能となります。

イマーシブ・バイノーラルサウンドを制作するためには、主としてふたつの方法があります。ひとつめが、ダミーヘッドマイクロホンやHATS(Head and Torso Simulator:頭部・胴体シミュレーター)などで録音する方法です。これはとても簡易に録音できるため、ASMR(Autonomous Sensory Meridian Response:自律感覚絶頂反応)を利用したコンテンツ制作などにも用いられているようです。

ふたつめが、マルチチャンネル音響技術を利用して制作された3D音響音源から、バイノーラルレンダリング技術を利用したオーディオ信号処理によってイマーシブ・バイノーラルサウンドを制作する方法です。こちらは、コンテンツ制作者の意図をより精緻に反映できるため、3D音響による音楽制作などに広く用いられています。

finalでの音の空間印象等に関する研究の様子

VR3000, VR2000へのfinalでの研究の応用とその特徴

前述した「イマーシブ・バイノーラルサウンドにおいて、コンテンツ制作者が意図した音の空間印象をできるだけそのまま再現できる研究」の成果を投入したのがVR3000 for Gamingです。

したがってVR3000 for Gamingでは、

ゲームの音響制作者が意図した音の空間印象に近似した音を楽しむ

ことができます。

ところで、現在市販されているゲームの音には3つの種類があります。ステレオ(1D音響)、サラウンド(2D音響)、イマーシブ(3D音響)です。1D音響では左右だけ、2D音響では左右と前後、3D音響では左右と前後と上下の「次元(Dimension)」を有する音空間が、それぞれ構成されています。

したがって、VR3000 for Gamingで楽しめる音の空間印象も、プレイしているゲームがいくつの次元の音空間を前提としているかで異なってきます。

VR2000 for Gamingでは、このVR3000 for Gamingに投入した「イマーシブ・バイノーラルサウンドにおいて、コンテンツ制作者が意図した音の空間印象をできるたけそのまま再現できる研究」の成果に加えて、final独自の「コンテンツ制作者が意図した音の音色印象をできるだけそのまま再現できる研究」の成果を投入しています。

後者は特に、「オブジェクトが複数存在する際に、各オブジェクトが有する固有の音色をできるだけ制作者の意図通りに再現できること」を目指しているため、ゲーム上に存在する複数のオブジェクトを聞き分けることが従来よりも容易になっています。

ゲーム上のオブジェクトとは、例えば、ゲーム上の敵が発する足音、攻撃音、飛翔音などです。
これらの音を即座に判別できることは、特に対戦ゲームやFPS(First-Person Shooting) ゲームなどで敵に勝つために極めて重要になってきます。

つまりVR2000 for Gamingは、

効果音、音楽、台詞で構成された音から、ゲームプレイヤーが重視するオブジェクトの音を抜き出して聞き分けることができやすい

という特長を有しています。

参考文献
[1] Kimio HAMASAKI, Nao TOJO, Mitsuru HOSOO: "Physical acoustic characteristics of earphones and headphones required for the faithful reproduction of original spatial impression of immersive binaural sound," Proceedings of the 24th International Congress on Acoustics, A05, pp.357 - 364, October 2022.

画像をクリックしますと「VR2000 for Gaming」と「VR3000 for Gaming」を比較しつつ、詳しくご紹介している特設ページへ移動します。

final公式X(旧Twitter)では、最新の情報をお届けしております。 フォローよろしくお願いいたします!