2011-04-01から1ヶ月間の記事一覧

ALAssetsLibraryについて

iOS

以下は私がWebや書籍から集めた情報や、私が試行錯誤した経験により、ALAssetsLibraryについてまとめたものです。 そのため、間違いが含まれている可能性があります。何かしらの間違いを見つけた方はご指摘願います。 はじめに ALAssetsLibraryとはiOS4で追…

docx, xlsx, pptxファイルからテキストをXMLとして抽出する

MS Office 2007以降のファイル(.docx, .xlsx, .pptx)はZip圧縮されたXMLファイルなので、ファイルからのテキスト抽出などが簡単にできます。 .pptxファイルをZipファイルとして展開すると上記のようになります。 各スライドがXMLファイルとして保存されてい…

不正な(malformed)HTMLテキストを修正する

Web上のHTMLテキストには不正な(malformed)形式を持っている場合があります。 malformedなHTMLテキストにに対してはBeautifulSoupやHTMLParserなどがうまく機能しません。 例えば以下の3つのパターンはBeautifulSoupでは例外が生じます。 1. タグの閉じ>が無…