GCN源码阅读-Pytorch

PyTorch图卷积网络实践

最新推荐文章于 2024-05-31 14:52:45 发布

原创最新推荐文章于 2024-05-31 14:52:45 发布 · 581 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#GNN #pytorch #GCN

GRL 专栏收录该内容

6 篇文章

订阅专栏

前期准备

项目地址

该项目是基于pytorch的，整个项目的目录结构如下，主要关注的是data和pygcn两个文件夹下的。data是已经处理好的数据，pygcn是代码部分。

通过tree /F 可以坐在windows下获得递归的文件树
│  .gitignore
│  figure.png
│  LICENCE
│  README.md
│  setup.py
│
├─data
│  └─cora
│          cora.cites
│          cora.content
│          README
│
└─pygcn
    │  layers.py
    │  models.py
    │  train.py
    │  utils.py
    │  __init__.py

可以通过运行train.py来测试环境是否安装成功等。由于代码汇总数据是采用的相对路径，在pychram中直接运行可能会出现路径问题，可以将run/debug configurations中的workong directory设为pygcn的绝对路径。
在这里插入图片描述

代码部分

按照代码执行的顺序进行阅读。
首先是train.py

from __future__ import division
from __future__ import print_function

import time
import argparse
import numpy as np

import torch
import torch.nn.functional as F
import torch.optim as optim

from pygcn.utils import load_data, accuracy
from pygcn.models import GCN

# Training settings
# 设置默认参数
parser = argparse.ArgumentParser()
parser.add_argument('--no-cuda', action='store_true', default=False,
                    help='Disables CUDA training.')
parser.add_argument('--fastmode', action='store_true', default=False,
                    help='Validate during training pass.')
parser.add_argument('--seed', type=int, default=42, help='Random seed.')
parser.add_argument('--epochs', type=int, default=200,
                    help='Number of epochs to train.')
parser.add_argument('--lr', type=float, default=0.01,
                    help='Initial learning rate.')
parser.add_argument('--weight_decay', type=float, default=5e-4,
                    help='Weight decay (L2 loss on parameters).')
parser.add_argument('--hidden', type=int, default=16,
                    help='Number of hidden units.')
parser.add_argument('--dropout', type=float, default=0.5,
                    help='Dropout rate (1 - keep probability).')

args = parser.parse_args()
args.cuda = not args.no_cuda and torch.cuda.is_available()

np.random.seed(args.seed)
torch.manual_seed(args.seed)
if args.cuda:
    torch.cuda.manual_seed(args.seed)

# Load data
adj, features, labels, idx_train, idx_val, idx_test = load_data()
# adj :torch.sparse.FloatTensor
# features:  tensor size:2708 1433  样本数*特征维度
# labels : tensor size:2708 样本数
# idx 都是指数据的下标
# idx_train len:140 [0-139]
# idx_val len:300 [200,499]
# idx_test  len:1000[500,1499]


# Model and optimizer
model = GCN(nfeat=features.shape[1],
            nhid=args.hidden,
            nclass=labels.max().item() + 1,  # 获取tensor的值，用item()
            dropout=args.dropout)
optimizer = optim.Adam(model.parameters(),
                       lr=args.lr, weight_decay=args.weight_decay)

if args.cuda:
    model.cuda()
    features = features.cuda()
    adj = adj.cuda()
    labels = labels.cuda()
    idx_train = idx_train.cuda()
    idx_val = idx_val.cuda()
    idx_test = idx_test.cuda()


def train(epoch):
    t = time.time()
    model.train()  
    # 将model全部设为可训练的
    optimizer.zero_grad() 
    #将梯度清空
    output = model(features, adj)
    # 这里相当于调用了model的 _call_方法，call调用了forward
    loss_train = F.nll_loss(output[idx_train], labels[idx_train])
    acc_train = accuracy(output[idx_train], labels[idx_train])
    loss_train.backward()
    optimizer.step()

    if not args.fastmode:
        # Evaluate validation set performance separately,
        # deactivates dropout during validation run.
        model.eval()
        output = model(features, adj)
       

    loss_val = F.nll_loss(output[idx_val], labels[idx_val])
    acc_val = accuracy(output[idx_val], labels[idx_val])
    print('Epoch: {:04d}'.format(epoch+1),
          'loss_train: {:.4f}'.format(loss_train.item()),
          'acc_train: {:.4f}'.format(acc_train.item()),
          'loss_val: {:.4f}'.format(loss_val.item()),
          'acc_val: {:.4f}'.format(acc_val.item()),
          'time: {:.4f}s'.format(time.time() - t))


def test():
    model.eval()
    output = model(features, adj)
    loss_test = F.nll_loss(output[idx_test], labels[idx_test])
    acc_test = accuracy(output[idx_test], labels[idx_test])
    print("Test set results:",
          "loss= {:.4f}".format(loss_test.item()),
          "accuracy= {:.4f}".format(acc_test.item()))


# Train model
t_total = time.time()
for epoch in range(args.epochs):
    train(epoch)
print("Optimization Finished!")
print("Total time elapsed: {:.4f}s".format(time.time() - t_total))

# Testing
test()