動画編集者向けAdobe Audition を使った音声編集　音を聞きやすく加工編

noji

10年前

トップイメージ

皆様、いかがお過ごしであろうか？　最近の深夜、チャリンコで世田谷区を爆走していることが多くなってきた野地である。

というのも、せっかくノートパソコンを購入しても自宅では何かを見ている側なるだけで、どうにも作業がはかどらないため、深夜の喫茶店で作業することが多くなったためだ。

そう、とうとう自分もノートパソコンを開きつつドヤ顔で作業するあの連中の仲間に入ったのである。

しかし、Windowsで。

周りがMACだらけのスタバの中、一人Windowsで戦う俺はMicroSoftから表彰されてしかるべきだと心に念じつつ作業に没頭しなければとても耐えきれない空気ではあるが、免罪符とばかりにiPhone経由のappleMusicで耳にフタをしつつ作業をすればまだ心は軽い(別に、appleのことは嫌いではないのだが、仕事上の様々な利便性から考えて自分の場合はWindowsなあのである。)

さて、そんな中更新している今回の記事であるが、この記事では前々回でお届けした動画編集者向けAdobe Audition を使った音声編集　概要＆基本操作編の続編にあたる第二章「音を聞きやすく加工編」をお送りしたいと思う。

いいマイクと静かな環境を持っていて、なおかつアナウンサーのような滞りなく聴きやすい声で録音が行えればいいのだが、そんな恵まれた動画配信が可能な人はなかなかいないだろう。しかし、今回の記事を参考にして編集を行えば、プロに近い、もしくはプロ並みのオーディオデータが作れる（かもしれない）ので張り切ってトライしてみよう。

しかし、今回も超、長いです（笑）。

元となる音声の録音方法

加工する音声が既に動画としてあるならば、前章で紹介したようにAdobe Premiere Pro からプラグインのようにAuditionを起動させれば動画のオーディオデータを抜き出して作業ができる。

しかし、アフレコでの音声収録や画面は静止画で、音声で内容を進めていくような形式の動画を作成する場合は録音という作業をする必要がある。録音作業だけを独立して行えば、動画と音声を同時に収録するよりも確実な音声が録れるのは当然のことだが、そんな時は最初からAuditionを用いて音声を収録するのがいいだろう。

まずは録音の手順だが、最初に左上にある「ファイル」ウィンドウを右クリックして、「新規」から「マルチトラックセクション」を選択し、オーディオデータの土台を作ろう。ショートカットを使うならならCtrl+Nでもいい。

するとここで制作するオーディオファイルの設定をすることになる。ファイル名を決めるところは適当な名前で構わないが、web屋としてはアルファベット+英数字で命名するのをオススメしておく。特に実害にあったことはないのだが、Adobeのソフトは実質海外産のものを日本語化したものであり、内部は英語ベースのプログラムで動いているので日本語をファイル名にするとエラーが発生する確率が高くなるのだ。ちなみに、画像のpaiとはテストとして喋った円周率のことである。念のため。

一つ下のテンプレートはオーディオを作る目的別に用意されている設定を使う場合だが、正直自分はあまり使っていない。恐らくその下にある三つの項目が自動設定されるのだろうが、自分で設定したほうが確実だからである（テンプレートごとのパラメータもAdobeが公開しているとは思うが）。

テンプレートの下、サンプルレート・ビットデプス・マスターの三つが実際に音に関わる部分である。

大雑把かつ簡単に説明しよう。

サンプルレートとは「一秒間を何分割に分けているか」である。動画の正体が静止画の連続であることは周知の事実だが、その一秒に切り替わる枚数はテレビ等の映像ならば29.97（fpsという単位が付く）で映画等なら24辺りである（映画とドラマで映像としての感触が違うのは大体このせい）。しかし音の世界では一秒間をなんと41100分割、もしくは48000分割することがほとんどである（前者がCD、後者がDVD向けの規格である）。

ビットデプスとは、「音量を何段階に分けているか」である。厳密に言えば先ほどのサンプルレート一つ分につき、どれだけデータを保存するかだ。ここで言う音量は人間が想像する音量とは多少違う。デジタルの世界での音量は0％から100％の決められた限界範囲があるので、その中身を何段階に分けているかだ。16bitは65,535段階、24bitは6,777,216段階に分けられることになる。

マスターとは、「どれだけ音のチャンネルがあるか」である。単純な話、一つ分のデータしか持たないモノラルか、両耳もしくは左右のスピーカーから差のあるデータを流す用のステレオか、それ以上分ける5.1ch か、の違いである。巷では7.1chなんかもあるようだが、流石にそこまでは対応してないらしい。

参考までに、音楽スタジオ等で使われる規格が48000/24bit/ステレオである。

各パラメータは数値を上げれば上げるほど高音質になるのは間違いないが、動画とはただでさえ重いものである。それをweb上に載せようとするならば当然圧縮が必要（動画サイトなんかだとほぼ強制）だし、第一音楽を聴くための媒体であるCDですら41100kHz/16bit/ステレオという規格なのだから、余程音質にこだわらない限りCDと同じ設定で大丈夫だろう。BGMもなく、音声だけの場合、マスターはモノラルでもいいかと思われる。

それぞれの項目を設定し、OKをクリックすると6トラック+マスタートラックが、右にある「エディタ」ウィンドウへ表示されるはずだ。

初期設定では6トラックが自動生成されるが、もちろんトラックは好きなだけ足したり引いたりできる。必要に応じて画面上部の「マルチトラック」→「トラック」から操作してみよう。

マスタートラックは全てのトラックの音を合わせたトラックで、最終的に視聴者が聞くオーディオを表すトラックだと考えていいだろう。

もう一つ設定しなくてはならないのがマイクだが、Auditionを立ち上げる前にマイクをパソコンにつなぎ、かつドライバーが正確に動作していればAuditionが勝手にマイクを認識しているはずである。

認識されていなかった場合や、Audition起動後にマイクをパソコンへ接続した場合は画面上部メニューの「編集」→「環境設定」を開き、「オーディオハードウェア」から自分の繋いだマイクを探し当てよう。マイク名は「デバイス」部分に表示されるが、一番上の「デバイスクラス」分類がマイクの対応規格と違うと表示されない（つまり読み込む設定になっていない）ので、デバイスクラスを変更しつつ、マイクを探すとよい。

無事マイクが認識されたら、適当なトラックの左端にある大量のボタンの中、右矢印アイコンで「デフォルトのステレオ入力」と表示されている部分をクリック。この部分でトラックに対してオーディオをどこから入力するかが設定できる。

今回のケースだと通常のマイク一本で録音すると思われるので、モノラル→「自分のマイク名 or input1とか2」をクリックしてマイクを接続。ステレオ入力に対応していないマイクでステレオ録音をすると大抵左のチャンネルだけに録音されるので、狙ってやらない限りモノラルのほうがいい。

さらにそのパネルの右上に並んでいる大文字アルファベットの内「Ｒ」をクリックしてonにしよう。

カーソルをホバーすれば説明が出ると思うが、それぞれ「Ｍ」はミュート（消音）、「Ｓ」はソロ（そのトラック以外ミュート状態）、「Ｒ」はレコーディング準備（録音の対象に設定）、「Ｉ」は入力のモニタリング（録音されている音が自分のヘッドフォンでリアルタイム再生される）というスイッチである。

録音するべき音を発している人が録音者から離れている場合（ラジオやレコーディングの収録スタジオによくあるガラスの先でエンジニアが作業している場合や、Skype等の遠隔通話の録音など）は「Ｉ」を
押すと便利だが、喋る人間と録音者が同一人物である今回のケースでは、わずかに遅延して再生される自分の声に惑わされて録音が失敗する可能性があるのでoffにしておくのが無難だろう。

録音可能状態になったら、マイクで実際に喋ってみるか、マイク自身を爪でがりがりしてみたり、軽くつっついたりしてみよう。それでトラックの音量バーが反応していれば準備成功だ。

そして「エディタ」ウィンドウ下部にある赤い丸を押せばいよいよ録音開始となる。

ちなみに、録音を切るためには停止ボタンか一時停止ボタンを押せば良いが、停止ボタンの場合は停止位置がその音声ファイルの終わりと認識され、録音再開時には別ファイルとしての録音となる。対して一時保存で録音を切った場合はそのファイルとしての録音がまだできる状態として停止しているので、録音再開時にはそのままのファイルが録音続行となる。

音の切り貼りで問題個所を再録音

次に、失敗した録音データを再度録音し直すテクニックを解説していこうと思う。

もちろんAudtionではいくらでも録り直しが可能なのだが、高機能なオーディオ編集ソフトと謳っているだけあり、非常に細かいレベルでの再録が可能だ。

まずは録音したデータとは違う適当なトラックを選択しよう。同じトラックの録音したデータの上で再度録音すると文字通り上書き録音になってしまうのからである。

ちなみに、間違った録音データを聞きながら再録をしたい場合にはそのまま録音ボタンを押せば他のトラックの音は普通に再生されながら録音となるし、何も再生せずに録音したい場合は録音するトラックの「S」ボタンを押せばそのトラック以外の音は聞こえなくなる。状況によって使い分けよう。

音声を再録し終わったら、今度はそのデータの必要な部分だけを切り取っておく。切り取り方は色々あるが、一番オススメかつ分かり易いのが画面上部から持ち帰られるレーザーツールを用いた方法。

最初に、自分で再録したデータを再生しつつ、必要な部分がどこからどこまでなのかを把握する。このとき、始点と終点の目安にマーカー（タイムライン上につけておける目安の線、ガイド）をつけると便利である。マーカーは音声の再生中に*キーでいくらでも設置できるので、リズムゲームのような感覚で、必要な部分に打っておくといいだろう。

マーカーで必要な部分の始点と終点を決めたらレーザーツールに持ち替え、マーカー部分をクリック。この操作により単一扱いだったデータ（クリップ）を複数のデータに分割することができる。

分割したデータは個々に取り扱えるため、必要なデータだけ対象のトラックにドラック＆ドロップする。その後、修正前のデータと修正後のデータの位置を微調整すれば、対象のデータに上書きをする感覚で音声データのパッチをあてることができるのだ。この作業を繰り返し、まずは音質うんぬんよりも内容が完璧な音声データを作成しよう。

ここで一つ注意しておきたいのが、ドラックしたクリップと元からそのトラックに合ったクリップが重なった部分に黄色いバッテンもしくは曲線が表示されたとき。これは別クリップ同士が重なったときにAuditionが自動で設定する、いきなり違う音声に切り替わらないようにするためのフェードインとフェードアウトだ。このフェードアウトとフェードインが働いてしまうと本来の目的である音声修正が上手くいかないので、黄色い線のすぐ横にある、三角形二つで構成されたような正方形をドラックしてフェード効果を消そう。

問題の画面。この黄色い線が消えるまで、横の四角を左にドラックしよう。

また、パッチのように被せたクリップの背後にあるクリップを選択すると前面にあるべきクリップが後ろに隠れてしまうことがある。後ろに隠れてしまったクリップ部分は音として再生されないので、その場合には背景に来るべきクリップを右クリックし「クリップを背面に移動」で背面に移動させると隠れていたクリップが前面に表示され、ちゃんと再生されるようになる。

リミッター＆コンプレッサーで音の均一化

さて、音声データの内容修正に満足したらいよいよ「音」そのものの加工に入る。

音量の乱れた部分を均一化し、聞きやすくに加工するのが主にリミッターとコンプレッサーと呼ばれるエフェクターである。この二つのエフェクターは名前こそ似ているが、機能はよく似ている。

リミッターとは対象音声データが指定した音量（単位はdb）ラインを越えた時に作動するエフェクターで、超えた分の音量をカットし、設定した音量ラインに揃えるモノだ。設定したラインを超えた部分を抑え込む用途に使われるのでリミッター（和訳：制限器）と呼ばれる。

一方、コンプレッサーは音量差を小さくして、最終的に音量を上げた際に音圧を上げるのが目的のエフェクターである。

やっていることはリミッターとほぼ同じなのだが、コンプレッサーの作用は若干分かり辛いので図で説明してみよう。今回は、下図の波形の音圧を上げたいと仮定する。

音圧を上げるということは図の中の黄色い領域内におけるピンク領域の割合を大きくすればいいのだが、単に音量を上げてしまうと突出して音量の大きい部分が0dbである赤いラインを超えてしまい、音割れや歪みが発生してしまう。

音量（振幅の大きさ）を上げてしまい、一番音量が大きかった部分が0dbをオーバーしてしまった図。

そこで、コンプレッサーによって音量差を縮めてから音量を大きくする。仕組みとしては、まず下図の中では青い線で表されるスレッショルドレベル（和訳：しきい値）を設定し、その音量ラインを超えた部分を圧縮する（圧縮前が薄くなっている緑の波形で、コンプレッサー適用後が実線部分）。圧縮率は大抵レシオ（和訳：比率）という設定項目で調整可能で、レシオを0にすればコンプレッサーがかかっていない状態、∞にすればリミッターのように超えた部分の音を完全にカットすることが可能だ。

更に、コンプレッサーには加えてアタックタイム、リリースタイム、ゲインという設定項目が用意されていることが多い。

アタックタイムは音量がスレッショルドレベルを超えてどれだけの時間を置いてから音を圧縮するかの時間だ。値を小さくすればコンプレッサーがクッキリと効き、値を大きくすればやんわりと効き始める。

リリースタイムは音量がスレッショルドレベルを下回ってから、どれだけの時間圧縮をし続けるかの時間である。普通コンプレッサーは音量がスレッショルドレベル以下の部分に関しては効かないのだが、この値を設定することで、より自然な音量の変化を実現できる。

最後のゲインはいわゆる音量のことで、単純に値を大きくすれば音が大きくなる。ただし、このゲインはコンプレッサー本体の影響下で作用するので、本来0dbのラインを超えてしまうレベルに音を上げても、圧縮効果によって適切に音量を上げられるのだ。

さて、これらエフェクターを用い、音の均一化作業をするのだが、ありがたいことにAuditionはよく使うであろうエフェクト効果を自動でかけてくれるテンプレート機能が用意されている。

テンプレートは画面上部にあるメニューの「テンプレート」から使用可能で、例えば「-0.1dBにノーマライズ」を選択すれば小さい音量をコンプレッサーを使い、-0.1dBまで底上げしてくれるし、「-0.1dBにハードリミット」を選択すれば大き過ぎる音量を最大-0.1dBまで制限してくれる。

これらを使うためにはマルチトラックのエディターではなく、対象トラックをダブルクリックして変えれる波形編集エディターへ切り替えておこう。

何も選択していない状態だとトラック全体にエフェクトがかかるが、各種選択系ツールによって選択範囲を選択している場合はその部分だけにエフェクトがかかる。状況によって使い分けよう。

テンプレートウィンドウには便利なエフェクトがクリック一発で使える機能が揃っているので上手く活用しよう。

また、もちろんテンプレートだけではなく詳細にエフェクトをかけることもできる。同じく上のメニューから「エフェクト」を選択し、「振幅と圧縮」から目当てのエフェクターを選択しよう。エフェクター毎に設定できる項目や効果が違うので、色々試しつつ効果を確認してみよう。ヒントとして、今回のケースにおける目的に近い効果を発揮するエフェクターは「ハードリミッター」「マルチバンドコンプレッサ」「ノーマライズ（プロセス）」「シングルバンドコンプレッサ」の4つあたりである。

一番細かい指定ができるマルチバンドコンプレッサー。低域、中低域、中高域、高域別々にコンプレッサーをかけれる。

また、エフェクターにより音量を均一化する以外にも、手動でタイムライン上に音量カーブを描く「エンベロープ」という機能もある。

かなり大雑把だが、エンベロープの使用例。

これはマルチトラックエディター上のクリップに表示される黄色の線がそのまま音量カーブとなる。これを区間を指定して上下させるためには、黄色い線の任意の場所をダブルクリックして作成されるポイントを複数作ろう。このポイントが折れ線グラフの各点のような働きをするので、音量を変化させたい部分の始点と終点でポイントを打ち、ドラックで黄色い線を任意の形に折り曲げることで音量の強弱を描画できる。これによって手動で音量を設定することができるのだ。

ノイズ除去でさらに聞きやすく

音が均一化されれば視聴者は音量の変化に身構えることなく、快適に内容へ集中できるだろう。しかし、音の大小以外にも視聴者のストレスになりうるのがノイズだ。

ノイズと言うと皆さんは何を想像するだろう？　ノイズと言っても種類は様々である。

今回対象にするのは主に三種類のノイズだ。一つめが「歯擦音」、二つ目が「ハムノイズ」、三つめが「環境ノイズ」と呼ばれるモノである。

まず一つ目の「歯擦音」について説明しよう。

歯を擦る音という名の通り、人間の声が原因で発生するノイズなのだが、最も特徴的なのが子音が「s」のとき（日本語で言うならサ行を発音するとき）に発生しやすいという点だ。ノイズ除去を行ってない音声を聞くと分かり易いのだが、人間が「s」の音を発音する時はたいてい、かなり高音の耳障りな音が最初に鳴る。日常の会話で例えるなら、静かにして！　という意味の「シィーッ！」というあの音が近い。

この音は、声の主成分である150Hzから300Hz(音楽のボーカルという意味なら500Hz以上も該当)からかけ離れた1.5kHzから2kHzの高音領域に属する音であり、突発的に鳴らされると視聴者を驚かせ、耳にダメージを与えてしまう。この問題を解決するために生まれたのが通称ディエッサーと呼ばれるエフェクターだ。
（DeEsserと書く。「De」が不快や非常識の「不」や「非」などにあたり、「Ess」がそのまま「S」、「er」が「～するもの」で、「Sを打ち消すもの」といった意味になる）

このディエッサーというエフェクターは高域（1.5kHz以上）の部分をターゲットに音量を削るモノで、Auditionでは「エフェクト」メニューから選べる「振幅と圧縮」の中にある「歯擦音除去」がそれにあたる。

この方法で歯擦音を除去する場合は削る帯域の広さや削る音量の量を設定したり、実際に削る部分の音だけを聴いたりできるのでオススメである。だが、時間がない場合やサッと作業を済ませたい場合は音の均一化セクションでも説明した「テンプレート」メニューにも「歯擦音を除去」という項目があるのでそれを適用するのもいいだろう。

二つ目の「ハムノイズ」とはアンプなどの機械が出す低音を主成分としたノイズである。例えとしては、音量を0にしていても再生機器にイヤホンを繋いだ時に「ブゥーン」と聴こえることがある、あの低音ノイズに近い。実際の録音環境ではマイクの特性で自然と入ってしまう場合が多いだろう。

このノイズは低音が主成分であるため、先ほどのディエッサーとは逆に低音部分である60Hz以下辺りをイコライザ（音域ごとに音量差をつけ、バランスを調節するエフェクター）やフィルター（イコライザのように帯域を指定して音量を操作するのだが、バランスをとるのではなく、指定音域を削る目的のエフェクター）等で削ればいいことになる。

イコライザやフィルターを適用する場合は「エフェクト」メニューからフィルター、またはイコライザと名前の付いているものを選び、100Hz以下の部分をターゲットに音量を下げてやれば良い。フィルターであれば100Hz以下の帯域で曲線を下げてやればいいし、イコライザだったら100Hz以下の数字が書いてあるツマミを下げよう。パラメトリックイコライザはツマミではなく数値指定で設定を弄るので扱いが若干難しいが、慣れれば普通のイコライザ（グラフィックイコライザ）では設定ができない作用帯域幅などが弄れるのでオススメだ。

また、波形をグラフィカルに操作できるAuditionならではの方法として、波形の上で選範囲を作り、その部分の音量を下げるという操作も行える。

具体的には、選択範囲を作るツールで低音部分を選択し、「エフェクト」メニューから「振幅と圧縮」の中にある「振幅」等で単純に音量を下げてやる等の操作が行える。もちろん、「振幅」以外のエフェクターも選択範囲内だけに適用されるため、適宜、実際に再生しながら様々なエフェクターを試してみよう。

ただし、例によって「テンプレート」の中に「60Hzのハムノイズを除去」という項目があるので、迷ったら活用しよう。

最後の「環境ノイズ」は遠くで扇風機を回していたり、ずっと外で鳴っている雑音など、常に流れるノイズのことである。

このノイズの除去は普通のDAWソフトなどで除去しようとするとかなり厄介な問題で、決まった帯域も持っていないために、イコライザやフィルターでの調整も難しい。

だがAuditionには、他では見かけないほど高機能な環境ノイズリダクション機能が用意されている。

それらは「エフェクト」メニューの「ノイズリダクション/リストア」という項目の中に色々揃っているのだが、今回のケースで一番効果的なのが「ノイズリダクション（プロセス）」だろう。

このエフェクターを起動すると、まずノイズプリントを取得するように指示される（事前に「ノイズリダクション/リストア」の上にある「ノイズプリントをキャプチャ」で取得してもいい）。

そしたらウィンドウは開いたままにして、各種選択範囲を作るツールでノイズ部分（ノイズの帯域が良くわからない時は、人間の声が入っていない部分を縦全部選択すると良い）を選択し、ウィンドウ内の「ノイズプリントをキャプチャ」をクリックしよう。

ノイズキャプチャ後の画面。

これにより、Auditionが勝手にノイズの成分を理解してくれるので、音声データからその成分だけ引き算してくれる。後は削減率等の設定を実際に聴きながら調整することで、だいぶクリアな音質になるはずだ。

まとめ

今回も大分長丁場の記事になってしまったがいかがだったろうか？

制作者は内容に凝りすぎるあまり、視聴者のストレスを軽減する工程を飛ばしがちである。このブログに対してのブーメランになってしまうが。

今回説明した部分は音声を扱う上でも内容並みに大事な作業だと思うので、動画作品の持つクオリティを上げたいならば是非ともマスターしておこう。

次回は最後にあたる「特殊効果編」を紹介する予定だが、今回同様、公開はいつになるかも分からないので気長に待っていて欲しい。

もっと読みやすく、早く書けるようにガンバリマス……

目次

元となる音声の録音方法

音の切り貼りで問題個所を再録音

リミッター＆コンプレッサーで音の均一化

ノイズ除去でさらに聞きやすく

まとめ