当前位置: 首页

院(系)社区活动丨智能学术沙龙(二十二)——对视觉任务统一建模的探索

发布时间:2025-04-13 15:38:55

为持续推进学生社区建设,丰富学生社区文化内容,各院系学生社区发挥专业特色优势,开展了丰富多彩的社区活动,旨在推动“五育活动进社区”,促进社区青年全面发展,共建和谐美好学生社区。

2024年4月19日上午10:00,北京师范大学人工智能学院智能学术沙龙第二十二期在海淀校园成功举行。本次讲座特邀微软亚洲研究院视觉计算组研究员古纾旸老师,为我们分享了“对视觉任务统一建模的探索”的主题报告。本次沙龙由张婷老师主持,现场座无虚席,大家积极参与,同老师认真讨论,收获良多,深受启发。

首先,古老师先以视觉模型在AI任务中的应用与挑战引出报告主题,主要探讨了三方面内容:1.模型构建,视觉模型将数据分成两个深度,以抽取有用的特征;2. 任务分配,不同的任务有不同的生活方式,需要采用不同的方法来处理;3. 训练数据收集,通过文本作为人机交互代理,可以更好地收集训练数据。同时,古老师也提到了如何将视觉任务转换为图像编辑任务,以及如何让模型更好地适应不同任务

然后,古老师主要讨论了视频任务中的几个典型问题。首先谈论如何将视频任务中的各个元素整合成一个明确的图像编辑,以便于后续的处理。其次,古老师就如何在数据收集、数据清洗和获取高质量数据方面进行优化展开论述。最后,老师强调了在构建数据时,要理解视觉信号和其他信号的关系,以及如何对对象进行替换和去除。

接下来,古老师还就图像替换与物体生成、模型优化与数据处理等进行技术探索,为同学们讲述了如何获取视觉数据,通过举例提取门的位置并将其替换成其他物体的例子,更加生动地让同学们明白了相关技术是如何工作的。还主要讨论了数据模型在视觉生成中的应用,首先统一视觉生成的范围,兼顾真正物体的位置,接下来将模型分为模型、生产过程、声音等部分。

此外,古老师也为大家讲述了在寻找有价值的工作时如何找到那些真正有价值的产品。在研究一个新领域时,要先去花一些时间去了解这个领域,然后通过自己的判断找到有价值的工作。

最后,古老师与学生们就学生提出的问题展开探索,对于视觉模型的选择与应用问题展开激烈讨论,主要讨论了视觉模型的切入点、训练方式、模型优缺点以及如何分析模型。

本次学术沙龙使师生深度了解了视觉模型的应用与挑战,探索了视频任务建模与数据收集、图像替换与物体生成的相关技术,同时也激发了大家在计算机视觉方面的思考,为相关领域的研究和实践提供了深入的参考和启示。



责任编辑:汪蘭珊 沈天然 张伯恩 马雨佳

我要评论 (网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述)

全部评论 ( 条)

    智能学术沙龙(二十二)——对视觉任务统一建模的探索