万胜 发表于 2022-3-26 10:36:01

开发者实践丨Agora Home AI 音视频的未来

本文作者是本届 RTE 2021 创新编程挑战赛获奖者,来自上海交通大学的李新春。他分享了本次参赛作品的构思、系统设计和开发的心得。
01 不得忽略的背景

从国家层面上讲,十四五期间我国人工智能发展的方向之一是:基于 AI 硬件的新产品设计及平台将成为主流。当前,人工智能解决方案正由“软件”模式转变为“软件+硬件”模式。随着智能计算芯片与系统、新型多元智能传感器件与集成平台等新一代人工智能基础支撑平台日渐成熟。以 AI 硬件为基础,在“端+云+芯片”协同发展的背景下,产品的感知、理解、推理和决策能力将实现突破。
从企业发展来说,AI 技术正越来越多的应用的社会的各个方面,从基础的人脸识别到无人驾驶,无论是机器学习还是深度学习虽然是弱人工智能时代,但已经足够让人们的生活产生明显的影响。因而,依托企业应用实践,结合人工智能的发展方向,打造出独具特色的人工智能产品是值得探索战略方向。
02 本项目缘起

因本人一直从事技术领域相关工作,从 AR、VR 到现在的 AI。在不断的工作实践中积累经验,也在不断思考未来技术如何改变生活,所谓人工智能,在现阶段的应用主要的几个方面如工厂生产、生活服务、社会治理等等,各个领域互相独立,有自己独特的算法和模型,那是不是可以做一套云平台,接入各种音视频进行实时分析并反馈,形成一套 AI 云服务平台?因此,本次参赛的出发点就是形成一套可行的应用实践,并提出一种云上 AI 平台的系统架构。

03 系统构成

在本次项目中采用了 YOLO V3 作为基础算法识别引擎,采用声网Agora 的音视频传输作为智能终端的数据来源,采用开源硬件 NodeMcu 及其配套作为智能硬件终端代表,最终形成在家庭局域网内的智能家居平台。
YOLO V3:是 YOLO(You Only Look Once)系列目标检测算法中的第三版。在这一版本中提升了对小目标的识别性能,同时速度得到更好的提升。目前该算法已经更新到 V5 版本,在速度和识别结果上有大幅提升。简单的说,该算法能够达到实时得识别数据,识别精度也满足基本要求,同时在配置、使用和学习上成本较低。


Agora SDKs:在本项目中使用到声网提供的两款 SDK,RTC 实时音视频通信主要功能是进行实时视音频的传输,RTM云信令提供高效、高并发的实时消息,这两款 SDK 兼容 iOS、Android、Windows、macOS、Web、小程序等 20 多个开发平台,可以方便的进行拓展和多平台交互开发。同时对于注册用户,每个月均有 10000 分钟的免费时长,这对于普通开发者完全可以满足日常需求,并且实测在 4G 网络的情况下端到端延迟
页: [1]
查看完整版本: 开发者实践丨Agora Home AI 音视频的未来