テキスト

見出し語化の高速化

nltkのWordNetLemmatizerを力ずくで高速化した。 環境 Python 2.6.5 コード # -*- coding: utf-8 -*- from collections import defaultdict import nltk from nltk.corpus import wordnet as _wordnet _STEMMER = nltk.PorterStemmer().stem _LEMMATIZATION_…

pythonによる文字列の正規化

テキストマイニングなどを行うためには文書、文、単語などの文字列の正規化が重要です。 単語の大文字小文字の統一、半角全角の統一などをする必要があります。 文字列の正規化のために利用しているpythonコードを以下に書いておきます。 今後増える可能性も…

docx, xlsx, pptxファイルからテキストをXMLとして抽出する

MS Office 2007以降のファイル(.docx, .xlsx, .pptx)はZip圧縮されたXMLファイルなので、ファイルからのテキスト抽出などが簡単にできます。 .pptxファイルをZipファイルとして展開すると上記のようになります。 各スライドがXMLファイルとして保存されてい…

不正な(malformed)HTMLテキストを修正する

Web上のHTMLテキストには不正な(malformed)形式を持っている場合があります。 malformedなHTMLテキストにに対してはBeautifulSoupやHTMLParserなどがうまく機能しません。 例えば以下の3つのパターンはBeautifulSoupでは例外が生じます。 1. タグの閉じ>が無…