斯坦福 CS224W - 笔记 01


图机器学习导论


1. 图简介

  • 无处不在:社交网络、论文引用、神经元连接、医疗知识图谱、基因和蛋白质的调控网络等

  • 描述 关联性数据 的重要语言

  • 在数学上:哥尼斯堡七桥问题

  • 传统机器学习:数据样本之间独立同分布

  • 现代深度学习:表格、矩阵、序列

  • 挑战:每一个节点有多种模态特征,如何充分利用这些特征,使GNN有更强的表示能力,能够兼容关联性数据类型


2. 图神经网络

  • 核心:图嵌入

    • 不需要人工特征工程就可以自动学习特征,实现端到端的表示学习(将图数据表示为低维向量)

  • 工具:PyG、NetworkX、DGL

    • 可视化:AntV、Echarts

  • 应用:最短路径的搜索和查找、社群检测、推荐系统、节点相似度分析、Embeddings

    • 节点层面:已知节点类别推测未知节点类别
    • 连接层面:推荐系统,由已知连接推测未知连接;药物的联合副作用;交通导航
    • 图层面:药物分子设计;粒子物理模拟;医疗智能诊断问答机器人

  • 突破性进展:

    • AI药物研发:AlphaFold(Spatial Graph)
    • 最优质的长期资产(网络效应)

  • 图数据挖掘项目:

    • ReadPaper、Connected Papers、BIOS
    • Hypercrx、OpenRank、open-galaxy

3. 总结

  • 图是描述大自然的通用语言,蕴含了巨大商业和科研价值
  • 图在过去未来都在改变各行各业,图机器学习是长期通用技能
  • 图机器学习可结合性强(大模型、多模态、可信计算、NLP)



参考资料


版权声明:本文为sinat_40896008原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。