HTTPレスポングのエンコーディングを推測する chardet
サードパーティのchardet
モジュールを使ってみる。
https://github.com/chardet/chardet
最近、この本を進めている。この本の中で、HTTPレスポンスのバイト配列からエンコーディングを推測する方法として、chardet
モジュールが紹介だけされていた。気になったため、使ってみた。
pip install chardet
pipを使ってインストールする。
$ pip install chardet
使ってみる
基本的な使い方で使ってみる。ここに書いてある感じでやってみる。
>>> from urllib.request import urlopen >>> f = urlopen('http://tmg0525.hatenadiary.jp/entry/2017/07/14/084945') >>> chardet.detect(f.read()) {'encoding': 'utf-8', 'confidence': 0.99, 'language': ''} >>> f.info().get_content_charset() 'utf-8'
おおutf-8
ってなってる...!!
confidence
は0~1の範囲で信頼度を示している。
とりあえず、使えたから満足!!