最近在伦敦图灵学院附近,无意中听到有人说,“它闻起来像是……“的教学方法很棒。图灵研究所对这种方法很感兴趣。这种气味教学法是一种新的学习方法,它是一种深度神经网络学习方式,深度学习正在改变我们思考学习的方式,他们的一些技巧与心理学家多年来所描述的并没有什么不同。但它的实际应用是非常好的,因为通过这种方法,我们接触的都是这个世界足够熟悉的,让旧的想法开始以新的方式出现,变得更有意义。
以“Gavagai问题”为例,这个问题在哲学家和发展心理学家中已经存在多年了。假设你在国外旅行,遇到一群说你从未听说过的语言的人。有人指着玉米地喊道:“semomo!”
你顺着他的手看去,那里有玉米,那里是一条路。那里有一些牲畜。那里有一辆拖拉机。那他喊的“semomo”是什么意思?
现在假设稍后有人为你提供了一些肉食。 当他们把肉食递给你时,他说,“semomo。”
你现在开始明白了。semomo可能是指某种动物,也许是你在田野里看到的一些牲畜。也许是羊。
儿童发展研究人员喜欢这个问题,因为它是儿童开始学习语言时必须面对的问题的特征。他们称之为解决这个问题所需的学习方式。跨情境学习是通过在不同的语境中听到同一个词,最终确定这个词所指的是什么。如果有人说semomo周围没有羊,你应该开始怀疑了。
跨情境学习也是一种统计学习。在这样的环境中学习所需要的是跟踪环境中事物之间的统计数据,在这种情况下,用来描述它们的词汇。大脑基本上解决了一个统计问题。不需要天生的语言学习机制。
深度学习算法似乎以同样的方式学习信息。最近有一种显著的理论被称为信息瓶颈理论(纳夫塔利-提斯比Naftali Tishby是这一理论最有力的支持者之一,他在最近的一次演讲中很好地描述了这一理论)
基本思想是,如果您试图在两个对象之间创建一个映射,比如semomo和sheep这两个对象,那么一个最优算法所需要的是一种方法来确定与所有包含羊的情况相关的东西。在这种情况下, 在这种情况下相关意味着他们仍然预测semomo这个词。尽管该算法最初并不知道,但通过过滤掉不需要的信息的过程,它最终会发现semomo意味着绵羊,而不是田地,玉米或蓝天。
这是在克劳德·香农Claude Shannon的基础理论上的进步探索。香农在他的理论表述中没有包括任何关于语义学或一致性的内容。他的主要贡献是将信息减少到0和1,以及计算出有多少信息的数学公式。这构成了现代计算的基础,但并不能完全解决Gavagai问题。
提斯比Tishby和他的合作者诺加?诺扎-斯拉夫斯基Noga Zaslavsky和拉维德-施瓦兹齐夫Ravid Shwartz一起描述了深度神经网络作为一个拟合然后压缩的过程。在适应磨合阶段,网络学习标记训练数据(例如一系列图像中的数据)。在压缩期间,网络尝试标记新数据并使用它来提高其性能。 (他们的进步是在数学上推导出,深度神经网络中的最优压缩极限,然后通过实验验证这正是这种网络所做的。)
孩子们也这样做。 孩子们非常善于学习像“马”这样的单词,是因为他们动物书中有马的图片和正确的单词。 然后他们继续使用这个词来标记所有四足动物,狗,猫,牛等等。 这称为过度概括。 但随着时间的推移,孩子们会发现“马”具有更具体的意义。 这听起来很像提斯比Tishby的压缩阶段。
因此,深度神经网络中的学习至少与儿童的学习方式有一些共同之处。它可能有很多共同的东西,而且可能不仅仅是和孩子们一起分享。成年人在了解新概念的含义时往往过于概括。他们学习了一些像’认知失调’这样的词,他们开始在任何地方看到它,无论它是否存在。 过度概括不良理论正是优秀的科学家们所是尝试做的。 正如费曼所说:“科学是在专家的无知时候的信念” 这句话现在感觉有点危险,但足以说科学家是纠正错误的专家。 他们这样做是有目的,深层神经网络的强大之处在于,他们似乎能够让人类更快地从错误中吸取教训。
参考文献
Shwartz-Ziv, R., & Tishby, N. (2017). Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810.
以上资料来源国外网站,如翻译错误和侵权请联系作者
编译:心理学说
发表回复