Skip to content

Instantly share code, notes, and snippets.

@Dre1k23
Dre1k23 / 1text
Created April 24, 2024 10:44
Text work
# Степень узла (Degree centrality):
- Степень узла представляет собой количество ребер, связанных с узлом. В контексте графа связей навыков это может быть интерпретировано как количество других навыков, с которыми данный навык имеет связи. Навыки с более высокой степенью центральности могут считаться более важными или распространенными в контексте анализируемых вакансий.
# Центральность по посредничеству (Betweenness centrality):
- Центральность по посредничеству измеряет, насколько узел лежит на пути между другими узлами. Это может помочь идентифицировать навыки, которые играют важную роль в связях между другими навыками. В контексте анализа навыков вакансий, навыки с высоким коэффициентом центральности по посредничеству могут служить важными мостами между различными областями навыков.
# Коэффициент кластеризации (Clustering coefficient):
- Коэффициент кластеризации представляет собой меру того, насколько соседи узла связаны между собой. Для навыков вакансий это может указывать на то, насколько часто групп
@Dre1k23
Dre1k23 / 1
Created April 23, 2024 17:33
graph
G = nx.Graph()
for skills in df['Ключевые навыки']:
# Проверяем тип данных
if isinstance(skills, str):
skills_list = skills.split(';')
for i in range(len(skills_list)):
for j in range(i+1, len(skills_list)):
# Добавляем ребро между навыками
G.add_edge(skills_list[i], skills_list[j])
# Создаем пустой список для хранения данных о навыках
skills_data = []
# Группируем данные по навыкам и подсчитываем частотность
grouped_data = df.groupby("Ключевые навыки")
for skill, skill_data in grouped_data:
# Получаем содержание навыка из первой записи (так как оно одинаково для всех)
content = skill_data.iloc[0]['Описание вакансии']
# Получаем частоту встречаемости
frequency = len(skill_data)
@Dre1k23
Dre1k23 / Working with null values
Last active April 22, 2024 14:59
mb some explain
#we need to chek how many nulls we have
(
df.isnull().sum()
)
#We can also determine critical values from missing values
(
critical_nulls = 0.3
missing_ratios = dfq.isnull().mean()