网络知识 娱乐 音视频技术开发周刊 | 177

音视频技术开发周刊 | 177

每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。

浅谈 WebRTC 的 Audio 在进入 encoder 之前的处理流程

在 WebRTC 中,Audio 数据在被送入编码器之前,有 2 大部分需要特别关注,一是数据采集,二是 Audio Processing。

https://mp.weixin.qq.com/s/IsFik7RzrsFxdrgNQy6zRA

light-rtc: 理念与实践

在与同行交流过程中,发现很多同行对 WebRTC 改动太多,导致无法升级 WebRTC 版本。而 WebRTC 开源社区的快速迭代,让他们感到欣喜又焦虑:开源社区的迭代效果,是不是超过了他们对 WebRTC 的优化效果?我们针对特定场景优化 WebRTC 时,怎么紧跟 WebRTC 开源社区通用的优化?

https://mp.weixin.qq.com/s/IeZJ5aqM7q0ZNAKkXOAmjw

阿里云 GRTN QoS 体系 — 构建实时音视频产品最佳体验

2020年天猫双11的直播间里,平台必须在1秒内将主播声音、画面同步给千万级消费者,确保消费者获得实时高质量的音视频体验。为此,淘宝直播今年首次启用了由阿里云视频云、阿里云 CDN、手淘技术、达摩院 XG 实验室共同构建的 GRTN(Global Realtime Transport Network)全球实时传输网,作为通用底座,支撑全场景实时音视频业务。本文将详细剖析 GRTN QoS 体系及其背后的核心技术,分享音视频通话、直播、在线教育/娱乐场景的体验优化之旅。

https://mp.weixin.qq.com/s/ElxkvOAZpp_sDCsNaJ9FmQ

用于混合,处理,通信等的音频工作流

本文来自AIMS IP Oktoberfest 2020,演讲者是Telos Alliance TV Solutions Group的总裁John Schur,主要阐述了Telos对ST 2110采取的云端部署策略。

https://mp.weixin.qq.com/s/7WcZJsGS95w6GE9L3GUywg

NMOS系统中的安全技术

本文来自AIMS(Alliance for IP Media Solutions)的演讲,主讲人是来自索尼的首席工程师Jonathan Thorpe。主要内容是“NMOS系统中的安全”。

https://mp.weixin.qq.com/s/settLg-ErBC7_oPNaVXpRQ

实时高密度AI辅助视频编码的ASIC解决方案

在LiveVideoStackCon 2020 SFO线上大会上,我们邀请到NETINT公司的周炎均老师(Daniel Zhou)同我们分享通过在同一芯片上结合视频编码器和DNN引擎,从适应性、可扩展性和延迟三大方面,探讨实时高密度AI辅助视频编码的ASIC解决方案。

https://mp.weixin.qq.com/s/W8-c93tGqfHzjyg3ArOE6Q

HEVC编码结构浅析

为了满足海量视频数据的传输和存储要求,在H.264/AVC视频编码标准获得巨大成功后,新一代高效视频编码(High Efficiency Video Coding. HEVC)国际标准在2013年4月由视频编码联合协作小组(Joint Collaborative Team on Video Coding)正式发布。

https://mp.weixin.qq.com/s/pEcXS1p2TYYIyUlsJrMewA

ArtLine

线条的艺术,ArtLine 是一个 AI 实现的人物照变成线条肖像的工具。

https://github.com/vijishmadhavan/ArtLine

专属视频直播:owncast

owncast 是你的专属视频直播服务,你可以自己运行 owncast,获得直播所有功能。你也可以向观众直播,让他们参与聊天。同 Google、Facebook 不同,虽然他们免费但收录你的个人信息、数据,owncast 则相反它保证了数据的安全性,保护你私密。

https://github.com/owncast/owncast

Towards Streaming Perception(论文)

诸如自动驾驶汽车之类的实际应用需要类似于人类的快速反应,通常为200毫秒。在这种情况下,需要使用低延迟算法来确保安全运行。

https://arxiv.org/abs/2005.10420

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis(论文)

从2D图像合成3D视图是一个具有挑战性的问题,尤其是在稀疏地采样了输入2D图像的情况下。该任务先拍摄3D场景的2D图像集合(具有可选的相机姿势及其内参),接着用这些数据训练一个模型,然后使用训练后的模型,我们就可以渲染3D场景中未拍摄过的新2D视图。

https://arxiv.org/abs/2003.08934

音频好搭档:kbd-audi

kbd-audio 一组用于捕获和分析音频数据的命令行和 GUI 工具。只要你敲键盘,kbd-audio 就能听声识字解读你输入内容。

https://github.com/ggerganov/kbd-audio

支撑抖音“跳动”数年后,火山引擎新一代视频点播服务正式对外开放

依托抖音、西瓜视频等产品多年音视频技术积累和基础资源,字节跳动旗下数字服务与智能科技品牌火山引擎于12月28日正式推出一站式视频点播服务,希望用实际场景中验证过的极致视频技术能力,解决广大企业在点播业务中存在的体验和成本问题。

https://mp.weixin.qq.com/s/QUuA5XVsratFne7woswJ6A

5G 4K视频流解锁的3个创新用例

会有更多的数据不满足于支持4K等高分辨率视频,它们还将支持VR和360度视频等数据密集型应用。

https://mp.weixin.qq.com/s/HmfOHmCS8-BkfRDrsYFFFA

AI 论文年度盘点:Best_AI_paper_2020

2020 是神奇的一年,Best_AI_paper_2020 收录了 2020 年 AI 领域最具有突破性和创意的论文,例如:目标识别、人脸绘制,并配有视频讲解,链接到一篇更深入的文章和代码。

https://github.com/louisfb01/Best_AI_paper_2020

在线抠图神器:BackgroundMattingV2

BackgroundMattingV2 是一个由华盛顿大学开源的 AI 实时在线抠图的项目,它可针对视频、图片进行抠图去背景,so amazing。

https://github.com/PeterL1n/BackgroundMattingV2

使用一维卷积神经网络处理时间序列数据(基于 Keras Conv1D)

许多技术文章都关注于二维卷积神经网络(2D CNN)的使用,特别是在图像识别中的应用。而一维卷积神经网络(1D CNNs)只在一定程度上有所涉及,比如在自然语言处理(NLP)中的应用。目前很少有文章能够提供关于如何构造一维卷积神经网络来解决你可能正面临的一些机器学习问题。

https://juejin.cn/post/6911150553854640136

创建个性化的OTT频道

本次会议来自streaming media west,本次会议主要讨论了OTT中的个性化推荐问题。

https://mp.weixin.qq.com/s/gCZNnEw4zL2F4yitHunpgA

强中更有强中手:imgdiff

imgdiff 是一个图片对比工具,还记得很久之前的“来找茬”吗,用 imgdiff 击败对手只在眨眼间。而 imgdiff 的项目介绍也相当有意思:Faster than the fastest in the world pixel-by-pixel image difference tool.,嗯,我就比另外一款号称史上最快识别图片区别的 odiff 快点罢了,仅此而已。

https://github.com/n7olkachev/imgdiff