一亩三分地论坛

 找回密码
 Sign Up 注册获取更多干货
码农求职神器Triplebyte:
不用海投,内推多家公司面试
游戏初创公司
招聘工程师、Designer和游戏策划
游戏初创公司DreamCraft招聘工程师、UIUX Designer和游戏策划
把贵司招聘信息放这里
查看: 269|回复: 1
打印 上一主题 下一主题
收起左侧

问一个关于python web crawling 的问题

[复制链接] |试试Instant~ |关注本帖
跳转到指定楼层
垅头
oovbbg 发表于 2018-2-9 08:46:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?Sign Up 注册获取更多干货
x
要用python web crawling 搜狗微信。http://weixin.sogou.com 这个网站。
对于某个关键词,想找到某一定时间段,如一天内提到的文章。后来发现网站上有一个filter, 可以限制时间段。现实在url 里是一个tsn 的参数,可以等于1,2,3,4.
但是发现如果在python 里直接用这个url crawl 往往结果是一堆乱码。如果去掉tsn 前面的"&"并且在搜索keyword里加上一个date,就会有结果。如果不加"&", 但是keyword里不加date得到的html 不是乱码,但是没有结果。

具体的代码如下:
. from: 1point3acres.com/bbs
searchcontent=keyword. 鐣欏鐢宠璁哄潧-涓€浜╀笁鍒嗗湴
   searchcontent=quote(searchcontent)
   time_total=[]

  
   sogou_search_url='http://weixin.sogou.com/weixin?type=2&ie=utf8&query='+searchcontent+'tsn='+str(timeframe)+'&ft=&et=&interation=&wxid=&usip='
     . 鐣欏鐢宠璁哄潧-涓€浜╀笁鍒嗗湴
   if sogou_search_url is not None:. 1point3acres.com/bbs
      pages = requests.get(sogou_search_url, headers = cc_headers1, proxies=urllib.request.getproxies(),)
      soup = BeautifulSoup(pages.text, 'html.parser').鏈枃鍘熷垱鑷?point3acres璁哄潧
    .鏈枃鍘熷垱鑷?point3acres璁哄潧
我用beautifulsoup 想爬虫那个web的html. python 3.6. 感觉是url有问题。谁知道怎么改吗?
. 鍥磋鎴戜滑@1point 3 acres
多谢。

评分

1 查看全部评分
沙发
patternre 发表于 2018-2-13 16:10:38 | 只看该作者
Try adding a 'Referer' header with a different tsn, e.g.:
  1. curl 'weixin.sogou.com/weixin?type=2&ie=utf8&query=%E6%B5%81%E6%84%9F&tsn=2&ft=&et=&interation=&wxid=&usip=' -H 'Referer:weixin.sogou.com/weixin?type=2&ie=utf8&query=%E6%B5%81%E6%84%9F&tsn=1&ft=&et=&interation=&wxid=&usip='
复制代码
回复 支持 反对 使用道具 举报
本版积分规则
关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 GMT+8, 2018-2-21 07:08
Powered by Discuz! X3 © 2001-2013 Comsenz Inc. Design By HUXTeam
快速回复 返回顶部 返回列表