TIL

Today I Learned. 知ったこと、学んだことを書いていく

HTTPレスポングのエンコーディングを推測する chardet

サードパーティchardetモジュールを使ってみる。

https://github.com/chardet/chardet

最近、この本を進めている。この本の中で、HTTPレスポンスのバイト配列からエンコーディングを推測する方法として、chardetモジュールが紹介だけされていた。気になったため、使ってみた。

pip install chardet

pipを使ってインストールする。

$ pip install chardet

使ってみる

基本的な使い方で使ってみる。ここに書いてある感じでやってみる。

>>> from urllib.request import urlopen

>>> f = urlopen('http://tmg0525.hatenadiary.jp/entry/2017/07/14/084945')

>>> chardet.detect(f.read())
{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

>>> f.info().get_content_charset()
'utf-8'

おおutf-8ってなってる...!!

confidenceは0~1の範囲で信頼度を示している。

とりあえず、使えたから満足!!