会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 重新审阅Transformer:颠倒更实用,着实天下预料的新SOTA泛起了!

重新审阅Transformer:颠倒更实用,着实天下预料的新SOTA泛起了

时间:2024-11-15 17:38:03 来源:風見彭魄网 作者:百科 阅读:114次

思考到基于 Transformer 的重新着实预料器的争议 ,钻研者们正在思考为甚么 Transformer 在光阴序列预料中的审阅实用展现致使不如线性模子 ,而在良多其余规模却发挥着主导熏染 。颠倒更的新

克日,天下来自清华大学的预料一篇新论文提出了一个差距的视角 ——Transformer 的功能不是固有的 ,而是泛起由于将架构不当地运用于光阴序列数据组成的。

论文地址:https://arxiv.org/pdf/2310.06625.pdf

基于 Transformer 的重新着实预料器的现有妄想可能并不适宜多变量光阴序列预料。如图 2 左侧所示  ,审阅实用统一光阴步长的颠倒更的新点根基上代表了残缺差距的物理意思,但丈量服从却不不同 ,天下这些点被嵌入到一个 token 中,预料多变量相关性被抹去。泛起而且,重新着实在事实天下中 ,审阅实用由于多变量光阴点的颠倒更的新部份感触野以及光阴戳不同过错齐,单个光阴步组成的标志很难揭示有利信息。此外 ,尽管序列变更会受到序列挨次的极大影响 ,但在光阴维度上却不适当地接管变体留意力机制。因此,Transformer 在捉拿根基序列表征以及形貌多元相关性方面的能耐被削弱 ,限度了其在差距光阴序列数据上的能耐以及泛化能耐。

对于将每一个光阴步的多变量点嵌入一个(光阴)token 的不同理性,钻研者从光阴序列的反向视角动身 ,将每一个变量的全部光阴序列自力嵌入一个(变量)token,这是扩展部份感触野的 patching 的极其情景。经由颠倒,嵌入的 token 群集了序列的全局表征  ,可能愈加以变量为中间 ,更好地运用留意力机制妨碍多变量分割关连。同时 ,前馈收集可能熟练地学习恣意回溯序列编码的差距变量的泛化表征 ,并解码以预料未来序列 。

钻研者以为 Transformer 对于光阴序列预料并非实用,而是运用不妥。在文中,钻研者重新审阅了 Transformer 的妄想 ,并建议将 iTransformer 作为光阴序列预料的根基支柱 。他们将每一个光阴序列嵌入为变量 token,接管多变量相关性关注 ,并运用前馈收集妨碍序列编码 。试验服从表明,本文所提出的 iTransformer 在图 1 所示的实际预料基准上抵达了 SOTA 水准  ,并出人预料地处置了基于 Transformer 的预料器的痛点 。

总结来说,本文的贡献有如下三点:

  • 钻研者对于 Transformer 的架构妨碍了反思,发现原生 Transformer 组件在光阴序列上的能耐尚未患上到短缺开拓 。

  • 本文提出的 iTransformer 将自力光阴序列视为 token,经由自留意力捉拿多变量相关性 ,并运用层归一化以及前馈收集模块学习更好的序列全局展现法 ,用于光阴序列预料。

  • 经由试验 ,iTransformer 在着实天下的预料基准上抵达了 SOTA。钻研者合成了反转模块以及架构抉择 ,为未来改善基于 Transformer 的预料器指明了倾向 。

iTransformer

在多变量光阴序列预料中,给定历史审核:

用 T 个光阴步长以及 N 个变量 ,钻研者预料未来的 S 个光阴步长  :

 。为利便起见 ,展现为

(责任编辑:焦点)

推荐内容
  • 3年2夺亚冠冠军+中超8冠王为何降级?恒大能以全华班阵容冲超吗?世界唯一离婚犯法的国家,女性不准避孕,现今人口增速已赶超我国
  • 打泛起象级数据,却被摆上货架,恩比德点醒篮网:蓝领当不了中间
  • 每经操盘必知(晚间版)丨北向资金卖出18亿;龙虎榜资金抢筹科大讯飞9.28亿;哔哩哔哩一度涨超6.6%;华尔街银行空缺职位中约四成与AI相关
  • “世界”号运载火箭第三次发射取得成功,韩国已成为航天强国G7?伊万卡未处理就遭暴露的照片:如此真实的身材,真是别有滋味!
  • 功亏一篑!雷霆拒绝独行侠24分大逆转,东契奇空砍36+18+15《声生不息3》后半季新增1位天后,宋亚轩缺席,男队女队竞技开始
  • 申城德比再度上演,但这一次主角是姑娘们