Difference between revisions of "Dsc:progress"

Latest revision as of 10:35, 25 January 2021

研究目标

基于PyTorch底层API，设计容纳翻译模型（Trans系列）的分布式表示学习算法，以支持大规模知识图谱分布式表示学习
权衡计算通信代价，优化训练过程，在准确率不降低（或少量降低）的前提下，减少训练时间，提升效率
在真实知识图谱（DBpedia，Wikidata等）上进行对比实验，验证算法的准确性、高效性和可扩展性

可投稿会议/期刊

数据库：ICDE (2021/6)、VLDB(2021/3)、CIKM(2021/5)
计算机网络：INFOCOM(2021/8)
分布式系统：HPDC(Abstract: 2021/1/18, Full Papers: 2021/1/24)、CLUSTER(Abstract: 2021/5/10, Full Papers: 2021/5/17)
机器学习：KDD(Full Papers: 2021/2/8)

State of the art工作

PyTorch-BigGraph github 教程手册

PyTorch-BigGraph(PBG) 基于PyTorch底层API，通过图划分策略和参数服务器架构，实现了大规模图嵌入框架，可以训练完整的FreeBase数据集（36GB）。PBG实现了四种表示学习模型: TransE、RESCAL、DistMult和ComplEx。

PS-Graph

PSGraph利用Spark和PyTorch来执行计算，并开发了一个分布式参数服务器来存储经常访问的模型。PSGraph基于参数服务器的架构在腾讯中训练极大规模的图数据，实现GE和GNN算法的训练。此外，PSGraph依旧留在Spark生态系统内部，仍然可以受益于Spark的优势，在不修改现有应用框架的情况下，可以直接替代GraphX。

Angel github

基于参数服务器（Parameter Server）理念开发的高性能分布式机器学习和图计算平台。 Angel基于Java和Scala开发，能在社区的Yarn上直接调度运行，并基于PS Service，支持Spark on Angel，集成了图计算和深度学习算法。

Graph-Learn github

Graph-Learn(原Aligraph)是面向大规模图神经网络（GNN）的研发和应用而设计的一款分布式框架，其接口以Python和NumPy提供，与TensorFlow或PyTorch兼容但不耦合。

DGL-KE github 教程

DGL-KE基于深度图神经网络开源库(Deep Graph Library，DGL)开发，用于在大规模图生成知识嵌入，实现了几种流行的表示学习模型：TransE、TransR、RotateE、DistMulti、RESCAL和ComplEx。

工具包

PyTorch github 教程
OpenKE github
TorchKGE github
DGL github

国内外相关课题组

北京大学崔斌教授组: 主页链接
Facebook AI: 主页链接

研究报告

（待完善）

阅读State of the art的论文，整理学习笔记，基于开源项目配置分布式系统
学习SQL数据库查询优化器原理（连接顺序等），思考表示学习迭代计算过程的优化方法（更改计算顺序等）
基于参数服务器架构，构建分布式算法伪代码

@@ Line 5: / Line 5: @@
 # 权衡计算通信代价，优化训练过程，在准确率不降低（或少量降低）的前提下，减少训练时间，提升效率
 # 在真实知识图谱（DBpedia，Wikidata等）上进行对比实验，验证算法的准确性、高效性和可扩展性
+== 可投稿会议/期刊 ==
+# 数据库：ICDE (2021/6)、VLDB(2021/3)、CIKM(2021/5)
+# 计算机网络：INFOCOM(2021/8)
+# 分布式系统：HPDC(Abstract: 2021/1/18, Full Papers: 2021/1/24)、CLUSTER(Abstract: 2021/5/10, Full Papers: 2021/5/17)
+# 机器学习：KDD(Full Papers: 2021/2/8)
 == 相关论文 ==
@@ Line 33: / Line 40: @@
 == State of the art工作 ==
-* PyTorch-Biggraph
+* '''PyTorch-BigGraph'''  [https://github.com/facebookresearch/PyTorch-BigGraph github]  [https://ai.facebook.com/blog/open-sourcing-pytorch-biggraph-for-faster-embeddings-of-extremely-large-graphs/?source=post_page 教程]  [https://torchbiggraph.readthedocs.io/en/latest/ 手册]
-[https://github.com/facebookresearch/PyTorch-BigGraph github]  [https://ai.facebook.com/blog/open-sourcing-pytorch-biggraph-for-faster-embeddings-of-extremely-large-graphs/?source=post_page 教程]  [https://torchbiggraph.readthedocs.io/en/latest/ 手册]
+PyTorch-BigGraph(PBG) 基于PyTorch底层API，通过图划分策略和参数服务器架构，实现了大规模图嵌入框架，可以训练完整的FreeBase数据集（36GB）。PBG实现了四种表示学习模型: TransE、RESCAL、DistMult和ComplEx。
+* '''PS-Graph'''
+PSGraph利用Spark和PyTorch来执行计算，并开发了一个分布式参数服务器来存储经常访问的模型。PSGraph基于参数服务器的架构在腾讯中训练极大规模的图数据，实现GE和GNN算法的训练。此外，PSGraph依旧留在Spark生态系统内部，仍然可以受益于Spark的优势，在不修改现有应用框架的情况下，可以直接替代GraphX。
-* PS-Graph
+* '''Angel''' [https://github.com/Angel-ML/angel github]
+基于参数服务器（Parameter Server）理念开发的高性能分布式机器学习和图计算平台。
+Angel基于Java和Scala开发，能在社区的Yarn上直接调度运行，并基于PS Service，支持Spark on Angel，集成了图计算和深度学习算法。
-* AliGraph
+* '''Graph-Learn''' [https://github.com/alibaba/graph-learn github]
+Graph-Learn(原Aligraph)是面向大规模图神经网络（GNN）的研发和应用而设计的一款分布式框架，其接口以Python和NumPy提供，与TensorFlow或PyTorch兼容但不耦合。
-* DGL-KE
+* '''DGL-KE''' [https://github.com/awslabs/dgl-ke github] [https://towardsdatascience.com/optimize-knowledge-graph-embeddings-with-dgl-ke-1fff4ab275f2 教程]
-github:
+DGL-KE基于深度图神经网络开源库(Deep Graph Library，DGL)开发，用于在大规模图生成知识嵌入，实现了几种流行的表示学习模型：TransE、TransR、RotateE、DistMulti、RESCAL和ComplEx。
-教程: https://towardsdatascience.com/optimize-knowledge-graph-embeddings-with-dgl-ke-1fff4ab275f2
 == 工具包 ==
-* PyTorch
+# '''PyTorch''' [https://github.com/pytorch/pytorch github] [https://pytorch.org/tutorials/beginner/dist_overview.html 教程]
-[https://github.com/pytorch/pytorch github]
+# '''OpenKE''' [https://github.com/thunlp/OpenKE github]
-[https://pytorch.org/tutorials/beginner/dist_overview.html 教程]
+# '''TorchKGE''' [https://github.com/torchkge-team/torchkge github]
+# '''DGL''' [https://github.com/dmlc/dgl github]
-* OpenKE
-[https://github.com/thunlp/OpenKE github]
-* TorchKGE
-[https://github.com/torchkge-team/torchkge github]
-* DGL
-[https://github.com/dmlc/dgl github]
 == 国内外相关课题组 ==
-# 北京大学 崔斌教授组 : [http://net.pku.edu.cn/~cuibin/cuibin_cn.html 主页链接]
+# 北京大学 崔斌教授组: [http://net.pku.edu.cn/~cuibin/cuibin_cn.html 主页链接]
+# Facebook AI: [https://github.com/facebookresearch 主页链接]
 == 研究报告 ==
+（待完善）
+# 阅读State of the art的论文，整理学习笔记，基于开源项目配置分布式系统
+# 学习SQL数据库查询优化器原理（连接顺序等），思考表示学习迭代计算过程的优化方法（更改计算顺序等）
+# 基于参数服务器架构，构建分布式算法伪代码

Difference between revisions of "Dsc:progress"

Latest revision as of 10:35, 25 January 2021

Contents

研究目标

可投稿会议/期刊

相关论文

State of the art工作

工具包

国内外相关课题组

研究报告

Navigation menu

Personal tools

Namespaces

Variants

Views

More

Search

Navigation

课题组

活动

Tools