This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
# Степень узла (Degree centrality): | |
- Степень узла представляет собой количество ребер, связанных с узлом. В контексте графа связей навыков это может быть интерпретировано как количество других навыков, с которыми данный навык имеет связи. Навыки с более высокой степенью центральности могут считаться более важными или распространенными в контексте анализируемых вакансий. | |
# Центральность по посредничеству (Betweenness centrality): | |
- Центральность по посредничеству измеряет, насколько узел лежит на пути между другими узлами. Это может помочь идентифицировать навыки, которые играют важную роль в связях между другими навыками. В контексте анализа навыков вакансий, навыки с высоким коэффициентом центральности по посредничеству могут служить важными мостами между различными областями навыков. | |
# Коэффициент кластеризации (Clustering coefficient): | |
- Коэффициент кластеризации представляет собой меру того, насколько соседи узла связаны между собой. Для навыков вакансий это может указывать на то, насколько часто групп |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
G = nx.Graph() | |
for skills in df['Ключевые навыки']: | |
# Проверяем тип данных | |
if isinstance(skills, str): | |
skills_list = skills.split(';') | |
for i in range(len(skills_list)): | |
for j in range(i+1, len(skills_list)): | |
# Добавляем ребро между навыками | |
G.add_edge(skills_list[i], skills_list[j]) |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
# Создаем пустой список для хранения данных о навыках | |
skills_data = [] | |
# Группируем данные по навыкам и подсчитываем частотность | |
grouped_data = df.groupby("Ключевые навыки") | |
for skill, skill_data in grouped_data: | |
# Получаем содержание навыка из первой записи (так как оно одинаково для всех) | |
content = skill_data.iloc[0]['Описание вакансии'] | |
# Получаем частоту встречаемости | |
frequency = len(skill_data) |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
#we need to chek how many nulls we have | |
( | |
df.isnull().sum() | |
) | |
#We can also determine critical values from missing values | |
( | |
critical_nulls = 0.3 | |
missing_ratios = dfq.isnull().mean() |