当人们输入一个数据,大模型就能直接输出一个答案,但是它的运作机制却没人知道,我们称之为“黑盒”。也正因为黑盒模型的不可解释性,AI的安全问题受到很多大佬的质疑。于是科学家们开始试图去打开大模型的黑盒子,业内称之为“白盒研究”。
一方面,白盒模型的研究能帮助人们理解黑盒模型,从而对大模型进行优化和效率的提升。另一方面,白盒研究的目标是把AI这一工程性学科推向科学。
今天我们邀请的嘉宾陈羽北,他的研究内容就与白盒有关,之前他也是著名深度学习专家Yann LeCun的博士后,我们今天将和他聊聊白盒模型的研究进展,以及Yann这位经历过AI行业起起伏伏,却依然纯粹专注的科学家。
【主播】
泓君Jane,硅谷101创始人,播客主理人
【嘉宾】
陈羽北,加州大学戴维斯分校电子与计算机工程系助理教授
【你将听到】
【大模型 vs 人脑】
02:09 白盒研究的目标:把AI从工程推向科学
02:53 从早期模型到大语言模型,如何识别词汇的元意思
06:51 OpenAI的研究:用gpt4理解gpt2模型
08:46 白盒研究的本质是理解信号的结构,从而提升模型效率
11:37 人脑如何通过少量数据获得泛化的能力
12:46 比起人脑,大语言模型观测手段多,但它对世界的理解不够
20:11 稀疏编码:源自大脑神经元的运作机制
【白盒研究】
22:01 黑盒模型发展很快:只求工作,不求简洁
24:56 白盒模型的问题:过度简洁
27:19 Yann Lecun:支持白盒研究但不确定走得通
28:25 基础AI研究靠好奇心驱动,而非商业化
30:16 白盒模型的三个流派:可视化、神经科学、数学统计
32:30 对黑盒模型的优化:提升效率、统一不同模型
33:44 距离白盒gpt还很远,发展是阶段性的
35:29 打开ImageNet是白盒的第一步
【关于Yann LeCun】
38:21 Yann经历了神经网络领域历史上的高峰低谷
39:45 加入Yann LeCun组是偶然
42:51 Yann对大方向的坚持和直觉
43:02 “不反对Scaling Law,但只堆数据是不够的”
49:10 科学家马毅 & Yann,观点并不冲突:高层次的规律是简洁的
51:58 从至暗时刻走出的AI科学家们:专注、纯粹
53:55 Yann希望学生可以做与时间共存的工作
55:57 “读PhD不应该研究LLM”
57:24 Yann在Meta的贡献:筹建Meta AI、开源路线
60:29 大模型未来的发展:Scaling Law依然重要,但提升效率也很重要
【相关研究】
Anthropic的研究:从神经网络Claude 3 Sonnet提取可解释的特征 (https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html)
OpenAI的研究:让GPT4去解释GPT2的神经元 (https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html)(神经元图 (https://openaipublic.blob.core.windows.net/neuron-explainer/neuron-viewer/index.html))
马毅团队的白盒模型 (https://mp.weixin.qq.com/s/LEEXJKIW-nSci7AEHxVH1Q)
【相关人物】
Yann LeCun:计算机科学家,在机器学习、计算机视觉、移动机器人和计算神经科学等领域都有很多贡献,被誉为“卷积神经网络之父”,现任Meta首席AI科学家,并担任纽约大学教授。他在1980年代率先提出了卷积神经网络(CNN),这项技术成为现代计算机视觉的基础。LeCun与Geoffrey Hinton和Yoshua Bengio共同获得2018年图灵奖,表彰他们在深度学习方面的开创性工作。
【监制】
Holiday
【后期】
AMEI
【BGM】
Alteration - Karoliina Gabel
Listen to the Forest Weep - Hanna Lindgren
【在这里找到我们】
公众号:硅谷101
收听渠道:苹果|小宇宙|喜马拉雅|蜻蜓FM|网易云音乐|QQ音乐|荔枝播客
海外用户:Apple Podcast|Spotify|TuneIn|Youtube|Amazon Music
联系我们:podcast@sv101.net
Special Guest: 陈羽北.
view more