言語研究のための正規表現によるコーパス検索 大名力 著 ひつじ書房 言語研究のための正規表現によるコーパス検索 大名力 著 ひつじ書房
2012年

言語研究のための正規表現によるコーパス検索

大名力 著

A5判並製 定価2,800円+税

ISBN978-4-89476-560-3

ひつじ書房


正規表現の練習ページ

本書内の正規表現を上記のページで練習することが出来ます。書籍と併せてご活用下さい。


正誤表



正規表現とは、元々プログラミングなどで文字列を簡潔に表記する方法であったが、現在ではその応用としてテキストエディターやPerlなどのアプリケーションで複雑な検索をするのにも使用されている。一見、文系の研究者には無関係と思われる正規表現も、うまく利用すれば「worthの後に最大3語挟んで-ingで終わる語(ただし、thing, something, anything, everything, nothingは除く)が続く」のような条件を指定し、通常の検索ではできない複雑なデータを、コーパスから抽出することもでき、言語研究・言語教育にも大いに役立つ。本書では、このような言語研究に役立つ正規表現の使い方を基礎から上級まで段階的に解説しており、また、英語の例を基に基礎を学んだ後は日本語や韓国語の検索方法に進むこともでき、自分の目的に合わせ正規表現を学ぶことができる。


目次

まえがき   ⅲ
利用の手引き  v

1 正規表現について
 1.1 正規表現とは
 1.2 正規表現を学ぶ意義
 1.3 正規表現が使えるツールの例と正規表現の種類
2 正規表現を利用するのに必要な前提知識・環境
 2.1 表記
 2.2 検索ファイルなど
  2.2.1 テキストファイルとバイナリーファイル
  2.2.2 文字コード
  2.2.3 「半角」・「全角」
  2.2.4 バックスラッシュ(\)と円記号(¥)
  2.2.5 改行コード
  2.2.6 論理行と表示行
 2.3 ワイルドカード
 2.4 対象ファイルの前処理
 2.5 検索ツール
  2.5.1 テキストエディターによる検索と置換の例
  2.5.2 Perl による検索と置換の例
3 正規表現の文法:基礎編
 3.1 リテラル、語の境界
 3.2 論理和と範囲指定
 3.3 任意の文字と文字クラス
 3.4 量指定子(繰り返し)
 3.5 量指定子の有効範囲
 3.6 「任意の語」
 3.7 「任意の語」の語数の指定
 3.8 メタキャラクターのエスケープ
 3.9 検索の単位と制御文字、位置
 3.10 正規表現によるパターンの指定の例
 3.11 正規表現によるコーパス検索で注意すべきこと
 3.12 正規表現によるテキスト検索:まとめ
4 正規表現の文法:中級編
 4.1 最長一致・最短一致
 4.2 選択要素間の優先順序
 4.3 文字クラス内でのエスケープ
 4.4 変数の展開とエスケープ
 4.5 後方参照(タグ付き正規表現)
 4.6 置換文字列における$& と$n
 4.7 レコードセパレーターとレコード、ピリオドがマッチする文字
 4.8 「段落」処理における^ $ の解釈
 4.9 語間の指定
 4.10 文字クラスの否定と改行
 4.11 文字列の先読み
 4.12 文字クラスの否定と否定の先読み
5 正規表現の文法:上級編
 5.1 オプションを正規表現内で指定する
 5.2 キャプチャーなしの括弧(?:)
 5.3 「論理積」:二重の条件のチェック(先読みの応用)
 5.4 文字列の後読み
 5.5 最短の組み合わせを取り出す
 5.6 文字列先頭・末尾にマッチするアンカー(\A \z \Z)
 5.7 効率的な正規表現
6 文字コードと正規表現:日本語等のテキストの処理
 6.1 文字コード
 6.2 ツールの文字コードと対象テキストの文字コード
 6.3 文字クラス内での範囲指定と文字コード
 6.4 ワード文字と非ワード文字
 6.5 空白類
 6.6 「語の境界」
 6.7 漢字の指定
 6.8 合成済み文字、合成による文字、文字の連続
 6.9 文字コード外の文字の処理
 6.10 使用文字一覧の作成
7 言語表現から正規表現へ
 7.1 文字列・表記・語句
 7.2 ファイルの形式、処理の単位
 7.3 キーワードを含む表現、含まない表現
 7.4 内部構造、外的分布

参考文献

付録
A 韓国語テキストの検索
 A1 韓国語テキストを処理する時の注意
 A2 文字クラスによるハングルの指定
 A3 リテラルのみからなるケース
 A4 異表記・異形態・類義語など
 A5 形態素の境界と文字の境界が一致しないケース
 A6 用言の指定
 A7 中声字母・終声字母が同じハングルの指定
 A8 指定数の任意の「語節」
 A9 同じ文字列の繰り返し(後方参照)
 A10 先読み、後読みの機能を利用した条件の指定
B Perl の正規表現と変数
 B1 変数
 B2 リテラル
 B3 括弧( )、(?: )
 B4 オプション
 B5 後方参照等
 B6 論理和
 B7 量指定子
 B8 任意の文字
 B9 文字クラス
 B10 エスケープシーケンス
 B11 メタキャラクターのエスケープ
 B12 位置
 B13 $&、$'、$`、$n
 B14 Perl における変数展開とエスケープ
C 正規表現索引
D Word のワイルドカードによる処理

<著者紹介>
大名力(おおな つとむ)
〈略歴〉1989年東京学芸大学修士課程修了(教育学修士)。群馬大学教養部、社会情報学部講師を経て、現在、名古屋大学大学院国際開発研究科准教授。 〈主要論文〉 A Beautiful Two Weeks : Its Syntactic Structure and the Semantic Relations of the Adjective to the Numeral and Head Noun (S. Chiba et al. (eds.) Empirical and Theoretical Investigations into Language: A Festschrift for Masaru Kajita, Kaitakusha, 2003)、「コーパス利用の落とし穴」(『これからのコロケーション研究』堀正広(編)ひつじ書房、近刊)など。
 




ご注文は、最寄りの書店さんでお願いします。
お店に在庫が無くても、お取り寄せができます。

書店が最寄りにない場合は、オンライン書店でご注文ください。

 

 






お急ぎの場合は、小社あてにご注文いただくこともできます。
郵便番号、ご住所、お名前、お電話番号をメールか、FAXでお知らせください。
送料420円でお送りします。
新刊案内へ
ひつじ書房ホームページトップへ