Zoom飲み会やWeb会議で遅延は敵だ

Webミーティングは対面の打ち合わせには遠く及ばないと感じている。まあ、見た目の話とかもあるのだろうが、会話がスムーズに進まないのには理由があるに違いないと思って考えてみた。恐らく最大の理由は遅延である。結論から言えば、もし良好な体験が得たければ、有線ヘッドセットあるいはFastStreamやaptX LL等の低遅延のものを利用し、ミーティングのオーディオには電話を使えというのが正解だろう。ZoomもGoogle Meetも会議の設定画面を見るとオーディオに電話を使うという選択肢がある。面倒だから、コンピュータオーディオを使うのが一般的だと思うが、カケホーダイが可能であれば、遅延の小さい電話を使うべきだ。

さて、遅延が気になるようになったのは、某集会で、難聴者対策にBluetoothヘッドホンを利用した経験に基づいている。

自分が装着してテストすると、明らかに遅延が大きくて、スピーカーから聞こえる声とヘッドホンから聞こえる声がずれて聞こえてくる。これを聞きながら、合唱はできない。

ちょっと調べてみたら、Bluetoothで標準的なCodecのSBCだと、220ms程度あるという事だ(DENONオフィシャルブログの記事)。0.2秒の遅延はそれだけで人間を混乱させる。Web会議で誰かがスピーカーを使っていてそれが回り込んで聞こえると発話が困難になるのも遅れて自分の声が聞こえてくるからだ。

固定電話の音声遅延は100ms以下(クラス A)、携帯電話で150ms以下(クラス B)となっていて、IP電話では400ms以下(クラス C)。Bluetoothヘッドセットを使うと初手から携帯電話の品質を満たすことができないことが分かる。

ちなみに、Web会議システム自身にも遅延はある。ネット会議システムの音声遅延という記事によれば、Zoomで175msということで、携帯電話より遅延が大きく単純計算でZoom+Bluetoothヘッドセットだと395msということで、クラス Cギリギリになってしまう。Skypeの場合は遅延が230msで、合計450msとなり、クラス Cを割る。ちなみに、2者会話だった場合でも両者がヘッドセットを利用していれば、さらに220ms増えるので、遅延はゆうに500msを超えてしまう。0.5秒の遅れがあると、それを考慮した会話をしないといけない。昔々のトランシーバーでOverとかどうぞとか言って話者を交代する感じの運用が必要になる。改めて思い起こしてみれば、電話でも対面の会話と同じ時間で同じ内容を伝えることができないことに気がつく。

3名以上の会話になるとより深刻で、複数の話者が同時に話してしまったのに気がつくのに0.5秒以上かかると、それに対して、「誰々さんどうぞ」という言葉が届くにまた0.5秒以上、1秒以上のタイムラグが発生し、まともな討議は成り立たない。実際、話者を統率するモデレータを立てない限り5名でもかなり頻繁に会話の衝突が発生して体験が悪化する。Zoom飲み会で酔いが覚める瞬間となる。

じゃあどの程度の遅延だと合唱ができる程度になるのかと思って調べてみると、ヤマハのページによれば、「15ミリ秒(中略)程度の遅れであれば、人間は問題なく合奏をすることができます」とある。これは5m離れていても大丈夫という話なので、合唱で考えると指揮者と10m以上離れているケースで成立しているので、多分50ms程度までは指揮者と譜面があればOKだろう。アンカンファレンスやブレストで30名程度の対面打ち合わせをしている時は概ね15m以内でやはり50ms程度が限界という感じがする。

その知見に基づくと、3名以上の会議だと、クラス Aではまだ品質が足りない。15ms程度の遅延が実現できて会議が成立するようになる。恐らく、遅延50ms程度までなら、やっとやっと会議が成立するという感じだろう。オンライン飲み会だとまあ50ms程度なら大丈夫なんじゃないだろうか。10名以下の本格的な討議だとやはり15ms程度に抑えたいところだと思う。ちなみに、ニューヨークと東京だと物理的に1万km離れているので、どんなに頑張っても片道50ms程度の遅延が加算されるからいかにWeb会議が強力なツールとは言え、自由発言を許すアンカンファレンスでは実際に集まる時のような経験は望めない。恐らく違うフォーマットを考えないといけないのだろう。

ちなみに、Qualcommが権利を有するaptX LLを利用すると、Bluetoothでも33.5msレベルの遅延で抑えられるというという記事もある。Bluetoothヘッドセットがネックになる時代は終わるかも知れない(そもそもスマホやPCにBluetoothでヘッドセットを接続するのではなくヘッドセットは独立した5G機器に変わるかも知れない)。現在の携帯電話で用いられているVoIPの広帯域(高品質)Codecの理論遅延が40ms程度なので、低遅延の5G(6G?)ネットワークに乗るようになれば現在のVoLTE(ドコモではクラス Aを超えているらしい)での通話に追いつくのかも知れない。そう遠くない将来に、ぎりぎり10名以下の会議がまともに機能する未来は来るだろう。

5Gはブレークスルーにならないという記事もあるが、Web会議の品質向上が進むとわかれば、意外と5Gの時代、ポストWifiの時代が早期に来るのではないだろうかと思う。

タグ