多模态学习 讲座记录

清华大学张长水教授——多模态学习讲座

任务

在这里插入图片描述

Introduction to Multi-modal Learning

在这里插入图片描述
基础的:NLP Vision Auditory
进阶:触觉 嗅觉等等
进一步: 脑电信号 皮电 红外图 深度图 脑电图等等

在这里插入图片描述

Multi-Modal Learning Tasks

Language-Audio

在这里插入图片描述

  1. 文本 生成 语音 -> 后序还要生成语音和人图像口型对上

Vision-Audio

在这里插入图片描述

第一件是早期的,在深度学习之前;
视频声音分离,加入视觉的信息,比如口型辅助声音分离,声源定位。
结合语音和口型,动画配音生成三维口型。
(局部点- - 构建声音和点的位置关系映射)

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
某个人在哪个时间段说话了,完成标记的任务。

在这里插入图片描述
声音转换成动作,建立拉琴和声音 任务手势和声音的映射

Vision-Language

在这里插入图片描述
在这里插入图片描述
机器人根据人的语言进行导航,比如看到树往哪儿走,看到红绿灯干嘛?

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

通过图像辅助翻译

定位相关任务

在这里插入图片描述

只有文字,没有视觉,无法完全理解客观世界。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

Core Challenges

在这里插入图片描述

1. Representation

在这里插入图片描述
在这里插入图片描述

word2vec , 不同模态的信息都表示为向量

在这里插入图片描述

2. Alignment

在这里插入图片描述
显示对齐 隐式对齐 例子如下:
在这里插入图片描述

在这里插入图片描述

3. Fusion

在这里插入图片描述
融合过程,融合越早越好,但是不是所有的数据能够很早融合。
在这里插入图片描述
在这里插入图片描述

4. Translation

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5. Co-Learning

在这里插入图片描述

CMU 98年的论文

在这里插入图片描述

Short History

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

多模态大模型

在这里插入图片描述

在这里插入图片描述

问题

多模态学习:
表示 - 语言 + 语音
对齐 和 评价好坏

生成任务上,是否有一个比较好的评价指标

根据实际任务设置


版权声明:本文为rayso9898原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。