博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
利用chardet检测网页编码
阅读量:5895 次
发布时间:2019-06-19

本文共 1452 字,大约阅读时间需要 4 分钟。

环境:Win7_x64 + python3.4.3

需要先下载chardet并进行安装,下载地址:https://pypi.python.org/packages/source/c/chardet/chardet-2.3.0.tar.gz

安装:进入解压后的目录,在命令窗口执行: Python setup.py install

写个测试的python脚本吧(DetectURLCoding.py):

#coding:utf-8  '''''python 3.x'''    import sys  import urllib.request  import chardet    # 将data写入文件fname  def writeFile(fname, data):      f = open(fname, "wb")      if f:          f.write(data)          f.close()    def blog_detect(blogurl):      '''''检测编码方式'''      try:          fp = urllib.request.urlopen(blogurl)      except Exception as e:          print(e)          print('download exception-[%s]' %blogurl)          return 0      blog = fp.read()    # python3.x read the html as html code bytearray      fp.close()      #writeFile("t.html", blog)            # get encoding string      codedetect = chardet.detect(blog)['encoding']      print('%s <- %s' %(blogurl, codedetect))      return 1    if __name__=='__main__':      if len(sys.argv) == 1:          print('''''usage:             python DetectURLCoding.py http://xxx.com''')      else:          v = blog_detect(sys.argv[1])          print(v)  # 何问起 hovertree.com

运行结果:

D:\profile\Desktop>PYTHON de.py http://hovertree.com/  http://hovertree.com/ <- utf-8  1    D:\profile\Desktop>PYTHON de.py http://photo.cankaoxiaoxi.com/roll10/2015/0318/709734.shtml  http://photo.cankaoxiaoxi.com/roll10/2015/0318/709734.shtml <- utf-8  1

web前端:

转载于:https://www.cnblogs.com/roucheng/p/chardet.html

你可能感兴趣的文章
部署P2P升级的脚本
查看>>
ubuntu下安装libxml2
查看>>
nginx_lua_waf安装测试
查看>>
WinForm窗体缩放动画
查看>>
JQuery入门(2)
查看>>
linux文件描述符
查看>>
C++ const 详解
查看>>
传值引用和调用引用的区别
查看>>
Hive简介
查看>>
hyper-v 无线网连接
查看>>
Python3.7.1学习(六)RabbitMQ在Windows环境下的安装
查看>>
Windows下memcached的安装配置
查看>>
ubuntu: firefox+flashplay
查看>>
常见的海量数据处理方法
查看>>
web.xml 中CharacterEncodingFilter类的学习
查看>>
贪吃蛇逻辑代码
查看>>
实现c协程
查看>>
ASP.NET视频教程 手把手教你做企业论坛网站 视频教程
查看>>
[LeetCode] Meeting Rooms II
查看>>
从Swift学习iOS开发的路线指引
查看>>