2013年4月22日月曜日

SimplyTerms:「整形・編集」機能

これまではSimplyTerms(ST)によるテキストの抽出と書き戻しを主に扱ってきましたが、他にもいろいろな機能が組み込まれています。今回はその中の「整形・編集」について取り上げます。

[整形・編集]タブでは、原稿の整形表記の統一などの編集を行います。
STを起動して、[整形・編集]タブをクリックすると、[処理内容]として8項目ありますが、右半分は自分で登録するものなので、今回は左半分のみ扱います。左半分の4項目それぞれにいくつも機能がありますが、その中からいくつか紹介します。
それぞれの機能を紹介する前に、基本的な使い方を説明します。

1.処理したいファイル(テキストファイル。拡張子が.txtのもの)を[処理対象ファイル(テキスト)]にドラッグします。

2.[処理内容]の[ハイライトリスト...]、[抽出リスト...]、[置換(汎用)...]、[置換(使用注意)...]のどれかを選択します。

3.右下部分で機能を選択します(反転表示させます)。

4.[実行]をクリックします。
※[置換(汎用)...]と[置換(使用注意)...]の中の機能は、実行するとファイルを上書きします。
では、それぞれの機能をいくつか紹介します。

○[置換(汎用)]の[整形-改行テキスト(英語)_reg.txt]、[整形-改行テキスト(日本語)_reg.txt]
・(テキスト抽出前の)原稿を整えます。

OCRで読み込んだ原稿やPDFからテキストを書き出した原稿では、文の途中に改行が入り、切れ切れになっているものがあります。それらの余分な改行を削除します。ただし、完璧ではないため、後で原稿と突き合わせながら調整が必要です。


○[置換(汎用)]の[文字-全角→半角(カナ、英数字、英数字記号)]、[文字-半角→全角(カナ、英数字、英数字記号)]
・翻訳作業前(または後)に一括で置換します。

原稿中のカタカナや英数字、記号を全角から半角、または逆に半角から全角に変換します。(変換して欲しくないものがある場合、正規表現ファイルを自分でカスタマイズすることができるので、この投稿の下の方でその方法を説明します。)
※英数字と記号を半角から全角に変換すると、段落タグまで全角になってしまいますが、その場合は、[置換(使用注意)...]の[SimplyTermsタグ全角→半角]で段落タグのみ半角に戻せます。

○[置換(汎用)]の[1桁数字の全角化]
・翻訳作業前(または後)に一括で置換します。

2桁以上の数字は半角のまま残し、1桁の数字のみ全角にします。
分野によっては、(見た目を良くするため?)1桁の数字のみ全角にするものがあるので、そのような場合に役立ちます。

○[置換(汎用)]の[書式-全半角間スペース挿入]、[書式-全半角間スペース削除]
・翻訳作業後に使います。

英日翻訳(または日本語の記事の執筆)で、固有名詞など英語で表記した部分とその前後の日本語との間に半角スペースを挿入します([書式-全半角間スペース挿入])。翻訳(執筆)段階で挿入しておいた半角スペースが不必要になった場合は、[書式-全半角間スペース削除]で削除できます。

○[ハイライトリスト]の[英文ファイルの固有名詞]
・翻訳作業前(または後)に固有名詞をチェックします。

文書(英語)の中で、固有名詞の可能性があるところ、つまり、文頭(およびダブルクォーテーションの直後)以外で大文字で始まる英単語、が別ウィンドウに赤字で表示されます。(ダブルクォーテーションマークで挟まれた、大文字で始まる固有名詞は赤字にならないので注意が必要です。)

○[ハイライトリスト]の[文書用-算用数字・漢数字]
・翻訳作業後に、数字の転記(入力)ミスがないか確認するときに役立ちます。

文書(英語・日本語両方)の中の算用数字(全角・半角)と漢数字がすべて、別ウィンドウに赤字で表示されます。

○[抽出リスト]の[英文ファイルの固有名詞]

・翻訳作業前(または後)に固有名詞をチェックします。

文書(英語)の中で、固有名詞の可能性があるところ、つまり、文頭(およびダブルクォーテーションの直後)以外で大文字で始まる英単語が別ウィンドウにリストアップされ、出現回数とともに、文字コード順にソートされて表示されます。([ハイライトリスト]の[英文ファイルの固有名詞]で赤字で表示されるものがリストアップされます。)

○[抽出リスト]の[文書用-カタカナ語]、[文書用-英単語]

・英日翻訳(または日本語の記事の執筆)作業後のチェックに使います。

文書(日本語)の中のカタカナ語または英単語が別ウィンドウにリストアップされ、出現回数とともに、文字コード順にソートされて表示されます。
ソートされるので、カタカナ語の表記の揺れや間違い、英単語のスペルミスが発見できます。
※[文書用-英単語]を使用すると、(括弧などの記号ではなく)アルファベットから始まるものは2回カウントされているようなので、エクスプローラーで[st]→[System]→[Functions]→[ListUp]から「文書用-英単語_reg.txt」を開き、

m/[A-Za-z][ -~]*/km
m/[ -~]*[A-Za-z]/km

赤字部分を削除するか、下のように行頭に「# 」をつけてコメントアウトするとうまくいくようです。

m/[A-Za-z][ -~]*/km
# m/[ -~]*[A-Za-z]/km



[整形・編集]タブの中のいくつかの機能について紹介しましたが、その他にもいろいろあるので、[st]→[System]→[Functions]→[Highlight][ListUp][ReplaceNorm][ReplaceRisky]の各フォルダを開いて、中にある正規表現ファイル(ファイル名の末尾が「_reg.txt」のもの)をテキストエディタで開いてみてください。最初の方に簡単な説明が書いてあるので、気になるものを自分で試してみるといいと思います。
また、正規表現が分かる人は、自分で機能を追加できます。詳しくはSTヘルプの[操作方法]→[機能タブ別説明]→[「整形・編集」タブ]をご覧ください。


***************************************
正規表現ファイルのカスタマイズ例

私は日英翻訳をするとき、まず最初に英数字と記号を全角から半角に変換するのですが、元からある[文字-全角→半角(英数字記号)]では変換して欲しくないものまで変換されていたので、正規表現ファイルを一部書き換え、変換されないようにしました。
このカスタマイズは簡単なので、ここで紹介します。

stのフォルダを下のようにたどります。
[st]→[System]→[Functions]→[ReplaceNorm]
この[ReplaceNorm]の中の「文字-全角→半角(英数字記号)_reg.txt」をテキストエディタで開くと下のようになっています。

------
# 英数字&記号:全角→半角

# 数字
tr/0123456789/0123456789/kgm

# アルファベット
tr/ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz/ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz/kgm

# 記号類
# 記述記号
tr/,.:;?!^ ̄_|~/,.:;?!^~_|-/kgm
tr#/#/#kgm

# 括弧記号(ギュメ(二重ギュメは除く)は半角不等号で代用)
tr/(){}[]〈〉/(){}[]<>/kgm

# その他の記号
tr/+-=<>¥$%#&*@/+\-=<>\\$%#&*@/kgm

# スペース
tr/ / /kgm

# 句読点・カギ括弧など……英日で関係のあるもののみ
tr/。、「」-/.,""-/kgm
------
行頭に#がついているところはコメント行です。コメント行の下が正規表現で、

tr/(置換前)/(置換後)/kgm

となっています。(置換前)の部分と(置換後)の部分は(基本的に)前から順に一対一で置換されるので、置換して欲しくないものを(置換前)(置換後)両方で削除すれば、置換されなくなります。
※カスタマイズする前に、別名で保存しておくことをおすすめします。保存する場合、そのままの場所([ReplaceNorm])に保存すると、[処理内容]の[置換(汎用)...]に表示され、[st]→[User]→[Functions]→[Replace_A]に保存すると、[処理内容]の[ユーザー置換-A]に表示されます。
例えば、「、」と「。」はそれぞれ「,」と「.」に置換されますが、置換して欲しくない場合、「# 句読点・カギ括弧など……英日で関係のあるもののみ」の下の行の

tr/。、「」-/.,""-/kgm

から、それらを削除して、

tr/「」-/""-/kgm

とすれば、置換されなくなります。


0 件のコメント:

コメントを投稿