在线用户操作 ¶
在线用户操作¶
这个例子再现了互联网公司中典型的数据科学场景。我们从一个 pandas DataFrame 开始,其中包含在线用户操作,例如在线文本编辑器:用户可以创建页面、编辑页面或删除页面。我们想要构建并可视化一个用户图,突出显示在同一个页面/项目上的协作。
import igraph as ig
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# User data (usually would come with time stamp)
action_dataframe = pd.DataFrame([
['dsj3239asadsa3', 'createPage', 'greatProject'],
['2r09ej221sk2k5', 'editPage', 'greatProject'],
['dsj3239asadsa3', 'editPage', 'greatProject'],
['789dsadafj32jj', 'editPage', 'greatProject'],
['oi32ncwosap399', 'editPage', 'greatProject'],
['4r4320dkqpdokk', 'createPage', 'miniProject'],
['320eljl3lk3239', 'editPage', 'miniProject'],
['dsj3239asadsa3', 'editPage', 'miniProject'],
['3203ejew332323', 'createPage', 'private'],
['3203ejew332323', 'editPage', 'private'],
['40m11919332msa', 'createPage', 'private2'],
['40m11919332msa', 'editPage', 'private2'],
['dsj3239asadsa3', 'createPage', 'anotherGreatProject'],
['2r09ej221sk2k5', 'editPage', 'anotherGreatProject'],
],
columns=['userid', 'action', 'project'],
)
这个代码块只是引入了玩具数据:一个包含三列的 DataFrame,分别是用户 ID、操作以及正在操作的页面或项目。现在我们需要检查两个用户何时在同一个页面上工作。我们选择为此使用加权邻接矩阵,即一个表格,其行和列由用户索引,并且在人们协作时具有非零条目。首先,让我们获取用户并准备一个空矩阵
users = action_dataframe['userid'].unique()
adjacency_matrix = pd.DataFrame(
np.zeros((len(users), len(users)), np.int32),
index=users,
columns=users,
)
然后,让我们一个接一个地迭代所有项目,并添加所有协作
for project, project_data in action_dataframe.groupby('project'):
project_users = project_data['userid'].values
for i1, user1 in enumerate(project_users):
for user2 in project_users[:i1]:
adjacency_matrix.at[user1, user2] += 1
有很多方法可以实现上述矩阵,所以如果你想出了另一种算法,不要感到惊讶 ;-)
现在是制作图的时候了
g = ig.Graph.Weighted_Adjacency(adjacency_matrix, mode='plus')
最后,让我们绘制一个图的布局,例如一个圆
# Make a layout first
layout = g.layout('circle')
# Make vertex size based on their closeness to other vertices
vertex_size = g.closeness()
vertex_size = [0.5 * v**2 if not np.isnan(v) else 0.05 for v in vertex_size]
# Make mpl axes
fig, ax = plt.subplots()
# Plot graph in that axes
ig.plot(
g,
target=ax,
layout=layout,
vertex_label=g.vs['name'],
vertex_color="lightblue",
vertex_size=vertex_size,
edge_width=g.es["weight"],
)
plt.show()
我们在这个图中添加了一些花哨的功能来展示 igraph 的功能。 结果如下所示。

协作图:较粗的边表示多次协作,较大的顶点表示与网络其余部分接近度较高的用户。¶
循环表示“自我协作”,这没有多大意义。 为了在不丢失边权重的情况下过滤掉循环,我们可以使用
g = g.simplify(combine_edges='first')
然后逐字重复绘图代码。 结果如下所示。

过滤掉循环后的简化图。¶