Python爬取4027条脉脉职言，解读互联网人的苦与难！

发布时间：2019-01-31 11:27:16 所属栏目：教程来源：量化小白H

导读：脉脉是一个实名职场社交平台。之前爬了脉脉职言版块，大概爬了4027条评论，本文对爬取过程给出详细说明，对于评论内容仅做可视化分析，之前存了一堆这方面的文章，今天一看全都404了。爬虫仍然使用python编程，对爬虫没兴趣的可以直接跳过看下部分，不影

匿名发帖人无法获取更细致的数据，但对于那些不匿名的发帖人，可以获取他们所在公司信息，将发帖数按公司汇总，看各大企业发帖量，可以作为整体的一个估计。统计时已经考虑了公司名称输入不一致的情况，将蚂蚁金服、支付宝等替换成了阿里巴巴，京东金融等替换成京东，今日头条、抖音等替换为字节跳动，取发帖数TOP20。

可以看到，发帖人大多来自互联网企业，金融、地产等其他企业相对较少。

文本分析

对于转发、评论数、点赞数，因为有爬取时间上的差异，所以不好直接比较，给出评论数最多的前5条评论，看看大家最愿意参与的话题是什么。

用一个字概括一下你的2018年。(1659条评论)
【再就业求助帖】本人是刚被优化掉的知乎程序员，工作3年。比较想去BAT等大厂，希望贵厂HR们带公司认证来回复一下，发一发真实有hc的岗位，祝愿兄弟们都能找到新工作。(610条评论)
用两个字概括你现在的工作。(477条评论)
网易涨今年薪涨了50%.....公司是发财了吗?(458条评论)
用2个字总结你的工作。(415条评论)

1，4，5都是蛮有意思的问题，我们把1,4,5的评论都爬下来，做成词云，看看大家都在说些什么。

用一个字概括你的2018年

爬虫过程跟上面基本是一样的，找到json，不过这个可以爬到全部评论。

# -*- coding: utf-8 -*- 
""" 
Created on Fri Oct 19 18:50:03 2018 
""" 
import urllib 
import requests 
from fake_useragent import UserAgent 
import json 
import pandas as pd 
import time 
# 发送get请求 
comment_api = 'https://maimai.cn/sdk/web/gossip/getcmts?gid=18606987&page={}&count=50&hotcmts_limit_count=1&u=206793936&channel=www&version=4.0.0&_csrf=38244DlN-X0iNIk6A4seLXFx6hz3Ds6wfQ0Y&access_token=1.9ff1c9df8547b2b2c62bf58b28e84b97&uid=%22MRlTFjf812rF62rOeDhC6vAirs3A3wL6ApgZu%2Fo1crA%3D%22&token=%22rE8q1xp6fZlxvwygWJn1UFDjrmMXDrSE2tc6uDKNIDZtRErng0FRwvduckWMwYzn8CKuzcDfAvoCmBm7%2BjVysA%3D%3D%22' 
""" 
author：作者 
text：评论 
、 
 
""" 
 
 
#headers = { "User-Agent": UserAgent(verify_ssl=False).random,'Cookie':cookie} 
headers = { "User-Agent": UserAgent(verify_ssl=False).random} 
j = 0 
k = 0 
response_comment = requests.get(comment_api.format(0),headers = headers) 
json_comment = response_comment.text 
json_comment = json.loads(json_comment) 
 
 
num = json_comment['total'] 
cols = ['author','text'] 
dataall = pd.DataFrame(index = range(num),columns = cols) 
 
while j < num : 
   n = json_comment['count'] 
   for i in range(n): 
 
       dataall.loc[j,'author'] = json_comment['comments'][i]['name'] 
       dataall.loc[j,'text'] = json_comment['comments'][i]['text'] 
       j+= 1              
   k += 1 
   comment_api1 = comment_api.format(k)  
    
   response_comment = requests.get(comment_api1,headers = headers) 
   json_comment = response_comment.text 
   json_comment = json.loads(json_comment) 
   print('已完成 {}% !'.format(round(j/num*100,2))) 
   time.sleep(3) 
    
         
dataall.to_excel('用一个字概括你的2018年.xlsx')

（编辑：泰州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/7

首页

尾页

matlab,教您matlab安装	电脑本地连接不见了,教
电脑猫los闪红灯怎么办	迅捷CAD编辑器如何合并