Difference between revisions of "Dsc:progress"

From dbgroup
Jump to: navigation, search
(可投稿会议/期刊)
(可投稿会议/期刊)
Line 8: Line 8:
 
== 可投稿会议/期刊 ==
 
== 可投稿会议/期刊 ==
  
# 数据库:ICDE (2021/6)、VLDB()、CIKM(2021/5)
+
# 数据库:ICDE (2021/6)、VLDB、CIKM(2021/5)
 
# 计算机网络:INFOCOM(2021/8)
 
# 计算机网络:INFOCOM(2021/8)
 
# 分布式系统:HPDC(Abstract: 2021/1/18, Full Papers: 2021/1/24)、CLUSTER(Abstract: 2021/5/10, Full Papers: 2021/5/17)
 
# 分布式系统:HPDC(Abstract: 2021/1/18, Full Papers: 2021/1/24)、CLUSTER(Abstract: 2021/5/10, Full Papers: 2021/5/17)

Revision as of 10:17, 25 January 2021

研究目标

  1. 基于PyTorch底层API,设计容纳翻译模型(Trans系列)的分布式表示学习算法,以支持大规模知识图谱分布式表示学习
  2. 权衡计算通信代价,优化训练过程,在准确率不降低(或少量降低)的前提下,减少训练时间,提升效率
  3. 在真实知识图谱(DBpedia,Wikidata等)上进行对比实验,验证算法的准确性、高效性和可扩展性

可投稿会议/期刊

  1. 数据库:ICDE (2021/6)、VLDB、CIKM(2021/5)
  2. 计算机网络:INFOCOM(2021/8)
  3. 分布式系统:HPDC(Abstract: 2021/1/18, Full Papers: 2021/1/24)、CLUSTER(Abstract: 2021/5/10, Full Papers: 2021/5/17)
  4. 机器学习:KDD(Full Papers: 2021/2/8)

相关论文

综述:

  1. Knowledge Graph Embedding: A Survey of Approaches and Applications (TKDE 2017)

模型:

  1. Translating Embeddings for Modeling Multi-relational Data (NIPS 2013)
  2. Knowledge Graph Embedding by Translating on Hyperplanes (AAAI 2014)
  3. Learning Entity and Relation Embeddings for Knowledge Graph Completion (AAAI 2015)
  4. Knowledge Graph Embedding via Dynamic Mapping Matrix (IJCNLP 2015)
  5. Differentiating Concepts and Instances for Knowledge Graph Embedding (EMNLP 2018)

系统:

  1. Scaling Distributed Machine Learning with the Parameter Server (OSDI 2014)
  2. 可扩展机器学习的并行与分布式优化算法综述 (软件学报 2017)
  3. Angel: a new large-scale machine learning system (National Science Review 2018)
  4. PYTORCH-BIGGRAPH: A LARGE-SCALE GRAPH EMBEDDING SYSTEM (SysML 2019)
  5. PSGraph: How Tencent trains extremely large-scale graphs with Spark? (ICDE 2020)
  6. AliGraph: A Comprehensive Graph Neural Network Platform (KDD 2019)
  7. PyTorch Distributed: Experiences on Accelerating Data Parallel Training (VLDB 2020)
  8. 图嵌入算法分布式优化 (软件学报 2020)
  9. EDGES: An Efficient Distributed Graph Embedding System on GPU clusters (TPDS 2020)
  10. DGL-KE: Training Knowledge Graph Embeddings at Scale (SIGIR 2020)
  11. TORCHKGE: KNOWLEDGE GRAPH EMBEDDING IN PYTHON AND PYTORCH (Arxiv 2020)

State of the art工作

PyTorch-BigGraph(PBG) 基于PyTorch底层API,通过图划分策略和参数服务器架构,实现了大规模图嵌入框架,可以训练完整的FreeBase数据集(36GB)。PBG实现了四种表示学习模型: TransE、RESCAL、DistMult和ComplEx。

  • PS-Graph

PSGraph利用Spark和PyTorch来执行计算,并开发了一个分布式参数服务器来存储经常访问的模型。PSGraph基于参数服务器的架构在腾讯中训练极大规模的图数据,实现GE和GNN算法的训练。此外,PSGraph依旧留在Spark生态系统内部,仍然可以受益于Spark的优势,在不修改现有应用框架的情况下,可以直接替代GraphX。

基于参数服务器(Parameter Server)理念开发的高性能分布式机器学习和图计算平台。 Angel基于Java和Scala开发,能在社区的Yarn上直接调度运行,并基于PS Service,支持Spark on Angel,集成了图计算和深度学习算法。

Graph-Learn(原Aligraph)是面向大规模图神经网络(GNN)的研发和应用而设计的一款分布式框架,其接口以Python和NumPy提供,与TensorFlow或PyTorch兼容但不耦合。

DGL-KE基于深度图神经网络开源库(Deep Graph Library,DGL)开发,用于在大规模图生成知识嵌入,实现了几种流行的表示学习模型:TransE、TransR、RotateE、DistMulti、RESCAL和ComplEx。

工具包

  1. PyTorch github 教程
  2. OpenKE github
  3. TorchKGE github
  4. DGL github

国内外相关课题组

  1. 北京大学 崔斌教授组: 主页链接
  2. Facebook AI: 主页链接

研究报告

(待完善)

  1. 阅读State of the art的论文,整理学习笔记,基于开源项目配置分布式系统
  2. 学习SQL数据库查询优化器原理(连接顺序等),思考表示学习迭代计算过程的优化方法(更改计算顺序等)
  3. 基于参数服务器架构,构建分布式算法伪代码