2013年4月22日月曜日

SimplyTerms:「整形・編集」機能

これまではSimplyTerms(ST)によるテキストの抽出と書き戻しを主に扱ってきましたが、他にもいろいろな機能が組み込まれています。今回はその中の「整形・編集」について取り上げます。

[整形・編集]タブでは、原稿の整形表記の統一などの編集を行います。
STを起動して、[整形・編集]タブをクリックすると、[処理内容]として8項目ありますが、右半分は自分で登録するものなので、今回は左半分のみ扱います。左半分の4項目それぞれにいくつも機能がありますが、その中からいくつか紹介します。
それぞれの機能を紹介する前に、基本的な使い方を説明します。

1.処理したいファイル(テキストファイル。拡張子が.txtのもの)を[処理対象ファイル(テキスト)]にドラッグします。

2.[処理内容]の[ハイライトリスト...]、[抽出リスト...]、[置換(汎用)...]、[置換(使用注意)...]のどれかを選択します。

3.右下部分で機能を選択します(反転表示させます)。

4.[実行]をクリックします。
※[置換(汎用)...]と[置換(使用注意)...]の中の機能は、実行するとファイルを上書きします。
では、それぞれの機能をいくつか紹介します。

○[置換(汎用)]の[整形-改行テキスト(英語)_reg.txt]、[整形-改行テキスト(日本語)_reg.txt]
・(テキスト抽出前の)原稿を整えます。

OCRで読み込んだ原稿やPDFからテキストを書き出した原稿では、文の途中に改行が入り、切れ切れになっているものがあります。それらの余分な改行を削除します。ただし、完璧ではないため、後で原稿と突き合わせながら調整が必要です。


○[置換(汎用)]の[文字-全角→半角(カナ、英数字、英数字記号)]、[文字-半角→全角(カナ、英数字、英数字記号)]
・翻訳作業前(または後)に一括で置換します。

原稿中のカタカナや英数字、記号を全角から半角、または逆に半角から全角に変換します。(変換して欲しくないものがある場合、正規表現ファイルを自分でカスタマイズすることができるので、この投稿の下の方でその方法を説明します。)
※英数字と記号を半角から全角に変換すると、段落タグまで全角になってしまいますが、その場合は、[置換(使用注意)...]の[SimplyTermsタグ全角→半角]で段落タグのみ半角に戻せます。

○[置換(汎用)]の[1桁数字の全角化]
・翻訳作業前(または後)に一括で置換します。

2桁以上の数字は半角のまま残し、1桁の数字のみ全角にします。
分野によっては、(見た目を良くするため?)1桁の数字のみ全角にするものがあるので、そのような場合に役立ちます。

○[置換(汎用)]の[書式-全半角間スペース挿入]、[書式-全半角間スペース削除]
・翻訳作業後に使います。

英日翻訳(または日本語の記事の執筆)で、固有名詞など英語で表記した部分とその前後の日本語との間に半角スペースを挿入します([書式-全半角間スペース挿入])。翻訳(執筆)段階で挿入しておいた半角スペースが不必要になった場合は、[書式-全半角間スペース削除]で削除できます。

○[ハイライトリスト]の[英文ファイルの固有名詞]
・翻訳作業前(または後)に固有名詞をチェックします。

文書(英語)の中で、固有名詞の可能性があるところ、つまり、文頭(およびダブルクォーテーションの直後)以外で大文字で始まる英単語、が別ウィンドウに赤字で表示されます。(ダブルクォーテーションマークで挟まれた、大文字で始まる固有名詞は赤字にならないので注意が必要です。)

○[ハイライトリスト]の[文書用-算用数字・漢数字]
・翻訳作業後に、数字の転記(入力)ミスがないか確認するときに役立ちます。

文書(英語・日本語両方)の中の算用数字(全角・半角)と漢数字がすべて、別ウィンドウに赤字で表示されます。

○[抽出リスト]の[英文ファイルの固有名詞]

・翻訳作業前(または後)に固有名詞をチェックします。

文書(英語)の中で、固有名詞の可能性があるところ、つまり、文頭(およびダブルクォーテーションの直後)以外で大文字で始まる英単語が別ウィンドウにリストアップされ、出現回数とともに、文字コード順にソートされて表示されます。([ハイライトリスト]の[英文ファイルの固有名詞]で赤字で表示されるものがリストアップされます。)

○[抽出リスト]の[文書用-カタカナ語]、[文書用-英単語]

・英日翻訳(または日本語の記事の執筆)作業後のチェックに使います。

文書(日本語)の中のカタカナ語または英単語が別ウィンドウにリストアップされ、出現回数とともに、文字コード順にソートされて表示されます。
ソートされるので、カタカナ語の表記の揺れや間違い、英単語のスペルミスが発見できます。
※[文書用-英単語]を使用すると、(括弧などの記号ではなく)アルファベットから始まるものは2回カウントされているようなので、エクスプローラーで[st]→[System]→[Functions]→[ListUp]から「文書用-英単語_reg.txt」を開き、

m/[A-Za-z][ -~]*/km
m/[ -~]*[A-Za-z]/km

赤字部分を削除するか、下のように行頭に「# 」をつけてコメントアウトするとうまくいくようです。

m/[A-Za-z][ -~]*/km
# m/[ -~]*[A-Za-z]/km



[整形・編集]タブの中のいくつかの機能について紹介しましたが、その他にもいろいろあるので、[st]→[System]→[Functions]→[Highlight][ListUp][ReplaceNorm][ReplaceRisky]の各フォルダを開いて、中にある正規表現ファイル(ファイル名の末尾が「_reg.txt」のもの)をテキストエディタで開いてみてください。最初の方に簡単な説明が書いてあるので、気になるものを自分で試してみるといいと思います。
また、正規表現が分かる人は、自分で機能を追加できます。詳しくはSTヘルプの[操作方法]→[機能タブ別説明]→[「整形・編集」タブ]をご覧ください。


***************************************
正規表現ファイルのカスタマイズ例

私は日英翻訳をするとき、まず最初に英数字と記号を全角から半角に変換するのですが、元からある[文字-全角→半角(英数字記号)]では変換して欲しくないものまで変換されていたので、正規表現ファイルを一部書き換え、変換されないようにしました。
このカスタマイズは簡単なので、ここで紹介します。

stのフォルダを下のようにたどります。
[st]→[System]→[Functions]→[ReplaceNorm]
この[ReplaceNorm]の中の「文字-全角→半角(英数字記号)_reg.txt」をテキストエディタで開くと下のようになっています。

------
# 英数字&記号:全角→半角

# 数字
tr/0123456789/0123456789/kgm

# アルファベット
tr/ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz/ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz/kgm

# 記号類
# 記述記号
tr/,.:;?!^ ̄_|~/,.:;?!^~_|-/kgm
tr#/#/#kgm

# 括弧記号(ギュメ(二重ギュメは除く)は半角不等号で代用)
tr/(){}[]〈〉/(){}[]<>/kgm

# その他の記号
tr/+-=<>¥$%#&*@/+\-=<>\\$%#&*@/kgm

# スペース
tr/ / /kgm

# 句読点・カギ括弧など……英日で関係のあるもののみ
tr/。、「」-/.,""-/kgm
------
行頭に#がついているところはコメント行です。コメント行の下が正規表現で、

tr/(置換前)/(置換後)/kgm

となっています。(置換前)の部分と(置換後)の部分は(基本的に)前から順に一対一で置換されるので、置換して欲しくないものを(置換前)(置換後)両方で削除すれば、置換されなくなります。
※カスタマイズする前に、別名で保存しておくことをおすすめします。保存する場合、そのままの場所([ReplaceNorm])に保存すると、[処理内容]の[置換(汎用)...]に表示され、[st]→[User]→[Functions]→[Replace_A]に保存すると、[処理内容]の[ユーザー置換-A]に表示されます。
例えば、「、」と「。」はそれぞれ「,」と「.」に置換されますが、置換して欲しくない場合、「# 句読点・カギ括弧など……英日で関係のあるもののみ」の下の行の

tr/。、「」-/.,""-/kgm

から、それらを削除して、

tr/「」-/""-/kgm

とすれば、置換されなくなります。


SimplyTerms:Excel、PowerPointの場合

SimplyTerms(ST)はWordファイルだけでなく、ExcelファイルPowerPointファイルも扱えます。テキストを抽出する操作などは、Wordファイルの場合と全く一緒です。復習をかねて、英語の原稿ファイル「原稿.xlsx」を(英日)翻訳する場合の流れをざっと書くと、下のようになります。

1.「原稿.xlsx」→[ファイル種類の変更][英語]→「原稿_eng.xlsx」
2.「原稿_eng.xlsx」→[Officeテキスト抽出]→「原稿_eng.txt」
3.「原稿_eng.txt」→[用語集の適用(一括置換)]→「原稿_jpn.txt」
4.「原稿_jpn.txt」を秀丸などで翻訳。
5.「原稿_eng.xlsx」→[Officeテキスト書き戻し]→「原稿_jpn.xlsx」

※Excelファイルは、拡張子が「xls」でも操作は同じです。またPowerPointファイルの場合も、上の「xlsx」の部分が「pptx(またはppt)」となるだけで、操作は同じです。

WordファイルとExcelファイル、PowerPointファイルとの違いは、テキストを抽出して作られるテキストファイル内の「段落タグ」です。

○Wordファイルの場合

----------
[[BD-1]]
本文1段落目。本文はBDで始まる段落タグです。脚注を入れると[[FN-1]]のような記号が挿入され、ファイルの最後の方に脚注の内容が抜き出されます。この、挿入された記号は、必ず訳文でも入れておいてください(入れ忘れると、下の方の脚注の内容が書き戻されません)。
[[BD-2]]
本文2段落目。Wordで文末脚注を挿入すると[[EN-1]]のような記号が挿入され、最後の方に文末脚注の内容が抜き出されます。この、挿入された記号は、必ず訳文でも入れておいてください(入れ忘れると、下の方の文末脚注の内容が書き戻されません)。
[[BD-3]]
あいうえおあいうえおあいうえお
[[TB-1]]
テキストボックスがあると、このように、TBで始まる段落タグがつけられて、本文のあとにまとめて抜き出されます。
[[TB-2]]
テキストボックス。テキストボックス。(Wordファイルの見た目の順番とは必ずしも一致しないそうなので、印刷した原稿などと良く見比べながら翻訳を進めてください。)
[[FN-1]]
脚注(footnote)はFNで始まる段落タグがつけられます。
[[EN-1]]
文末脚注(endnote)はENで始まる段落タグがつけられます。
----------

○Excelファイルの場合

----------
[[S1_CL-A1]]
1枚目のシートの段落タグはS1で始まり、そのあとにセル(CL)の位置が「列(アルファベット)」「行(数字)」という形で続きます。
[[S1_CL-A2]]
あいうえおあいうえおあいうえお
[[S1_CL-C2]]
テキストが抽出される順番は、各シートの中で「行(数字)の昇順」→「列(アルファベット)の昇順」です。
[[S1_CL-A3]]
空白のセルは無視され、セル内に何か文字がある場合にのみ、その文字が抽出されます。
[[S1_CL-E5]]
かきくけこかきくけこかきくけこ
[[S2_CL-G5]]
2枚目のシートの段落タグはS2で始まります。
[[S2_CL-I5]]
さしすせそさしすせそさしすせそ
[[S2_CL-G7]]
シートの名前に関係無く、段落タグはS1、S2、S3・・・となります。しかし・・・
[[S4_CL-C9]]
何も書き込まれてないシートは無視されます。3枚目のシートのセルには何も書き込まれてなく、次の4枚目にはセル内に何か文字がある場合、S3で始まる段落タグはなく、S4で始まる段落タグで4枚目の内容が抽出されます。
[[S4_CL-D11]]
たちつてとたちつてとたちつてと
----------

※現在、Excel 2010ではテキストボックスの中身が抽出されないようです(Excel 2003では大丈夫なようです)。ST作成者のBuckeyeさんもこの問題を把握しておられるので、対応を待っているところです。

○PowerPointファイルの場合

----------
[[S1_BD-1]]
1枚目のスライドの段落タグはS1で始まり、BDと続くのはテキストボックスです。
[[S1_BD-2]]
あいうえおあいうえおあいうえお
[[S1_NT-1]]
スライド番号の後にNTと続くものは、ノートの中身です。ノートには最初からスライド番号が入ってる場合があります。
[[S1_NT-2]]
1
[[S2_BD-1]]
2枚目のスライドの段落タグはS2で始まります。
[[S2_BD-2]]
テキストボックスは上にあるものから順に抽出されて並びます。
[[S2_BD-3]]
矢印や吹き出しなどの中のテキストも、普通のテキストボックスと同様に扱われるので、段落タグではBDがつきます。
[[S2_BD-4]]
かきくけこかきくけこかきくけこ
[[S2_BD-5]]
文章に<b>太字</b>や<i>斜体</i>などの書式が設定されていると、書式タグ(<b>や</b>、<i>、</i>など)がくっついてくることがあります。書式タグについては、2013年4月3日の投稿「SimplyTerms:書式が設定された文章を扱う」をご覧ください。
[[S2_NT-1]]
2
----------

このように、元のファイルに応じていろいろな「段落タグ」がありますが、基本的には、抽出されたテキスト部分のみを(秀丸などで)書き換えていくので、元のファイルがWordであろうとExcelであろうとPowerPointであろうと、いつも同じように翻訳作業を行うことができます。

また、Excelの表の数値部分や、PowerPointのノートのスライド番号など、まったくいじる必要のない部分は、翻訳する前に「段落タグ」とその内容をまるごと削除することで、間違えて書き換えてしまうことを防げます(2013年4月11日投稿「SimplyTerms:「段落タグ」を削除するとどうなる?」を参照)。

2013年4月12日金曜日

SimplyTerms:「段落タグ」は残して、その段落の内容を削除するとどうなる?

前回は、「段落タグ」とそれに続く段落の内容を削除するとどうなるか、について書きました(答えは→原文ママ残る)。

では、「段落タグ」は残して、その段落の内容を削除するとどうなるか。

前回のファイルを使い回して、どうなるのか試してみます。

これは、書き戻したときに画像が残されるようにした(つまり、原文の4段落目に相当する「段落タグ」とそれに続く内容を削除した)ものです。
------
[[BD-1]]
<b>Polyethylene terephthalate</b> is a polymer resin of the polyester family and ...
[[BD-2]]
It is commonly abbreviated <b>PET</b> ...
[[BD-3]]
It is synthesized from ethylene glycol and terephthalic acid ...
[[BD-5]]
Because it has aromatic rings and ...
------(PET_wiki_eng.txt)

これの、原文の2段落目に相当する段落を、「段落タグ」は残し、段落の内容を消しみます。
------
[[BD-1]]
<b>Polyethylene terephthalate</b> is a polymer resin of the polyester family and ...
[[BD-2]]
It is commonly abbreviated <b>PET</b> ...
[[BD-3]]
It is synthesized from ethylene glycol and terephthalic acid ...
[[BD-5]]
Because it has aromatic rings and ...
------(PET_wiki_eng.txt)



------
[[BD-1]]
<b>Polyethylene terephthalate</b> is a polymer resin of the polyester family and ...
[[BD-2]]
[[BD-3]]
It is synthesized from ethylene glycol and terephthalic acid ...
[[BD-5]]
Because it has aromatic rings and ...
------(PET_wiki_eng.txt)

[[BD-2]]の下にはすぐ[[BD-3]]があります。つまり、段落の内容が何もありません。これを書き戻すと、

------
Polyethylene terephthalate is a polymer resin of the polyester family and ...
It is synthesized from ethylene glycol and terephthalic acid ...
Because it has aromatic rings and ...
------(PET_wiki_eng.doc)
何もありません。もちろん、原文も残っていません。つまり、「何もない」が書き戻されてしまったのです。

この、「段落タグ」のみ残し、段落の内容を消す、という操作を使う場面はそう多くないと思います(※)。それよりも、原文のまま残したくて「段落タグ」と内容を消すつもりが、
 「段落タグ」を消し忘れた!原文が消えちゃった・・・
というトラブルが起こる可能性の方が高いので、「段落タグ」まわりをいじるときは細心のご注意を

(前回の例で言うと、[[BD-4]]とそれに続く「/」を消すことで、原稿の画像を残したつもりだったのに、「/」は消したけど[[BD-4]]を残しちゃった→画像が消えちゃった・・・という事態に陥ります。)


※私が遭遇する「段落タグ」のみ残し、段落の内容を消す場合
たまに、文の途中で改行され段落が変に分かれてしまっている原稿があります(印刷したときの見栄え優先のレイアウトの都合だったり、単なるミスだったり)。

例えば、こういうもの。
------ 
ポリエチレンテレフタラート(Polyethylene terephthalate)は、ポリエステルの一種である。英語読みをしてポリエチレンテレフタレートと呼ば
れることも多い。
その頭文字からPETと略称される。ペットボトルの名称はこれに由来する。
------

これをテキスト抽出すると、下のようになります。

------
[[BD-1]]
<b>ポリエチレンテレフタラート</b>(Polyethylene terephthalate)は、ポリエステルの一種である。英語読みをして<b>ポリエチレンテレフタレート</b>と呼ば
[[BD-2]]
れることも多い。
[[BD-3]]
その頭文字から<b>PET</b>と略称される。ペットボトルの名称はこれに由来する。
------

こういう場合に、

------
[[BD-1]]
(<b>ポリエチレンテレフタラート</b>(Polyethylene terephthalate)は、ポリエステルの一種である。英語読みをして<b>ポリエチレンテレフタレート</b>と呼ばれることも多い。)の訳文
[[BD-2]]
[[BD-3]]
(その頭文字から<b>PET</b>と略称される。ペットボトルの名称はこれに由来する。)の訳文
------

とすることで、一続きの訳文が、あるべきところにおさまります。

2013年4月11日木曜日

SimplyTerms:「段落タグ」を削除するとどうなる?

これまで、SimplyTerms(ST)の「段落タグ」は基本的にいじらないと書いてきましたが、今回は、「段落タグ」を削除するとどうなるか、について書きたいと思います。

※今回の内容は、STヘルプの[MS Officeのテキスト抽出・書き戻し]→[抽出テキストの翻訳(上級編)]の「◎原文ママ残したいセクション」に書いてあります。

例えば、下のような原稿(Wordファイル)をもらったとしましょう。(ウィキペディアの「ポリエチレンテレフタラート」の項です。http://ja.wikipedia.org/wiki/%E3%83%9D%E3%83%AA%E3%82%A8%E3%83%81%E3%83%AC%E3%83%B3%E3%83%86%E3%83%AC%E3%83%95%E3%82%BF%E3%83%A9%E3%83%BC%E3%83%88
------
ポリエチレンテレフタラート(Polyethylene terephthalate)は、ポリエステルの一種である。英語読みをしてポリエチレンテレフタレートと呼ばれることも多い。
その頭文字からPETと略称される。ペットボトルの名称はこれに由来する。
下式のようにエチレングリコール(HO-CH2-CH2-OH)とテレフタル酸の脱水縮合により作られ、エステル結合が連なっているポリエステルとなる。このエステル結合の生成は、テレフタル酸ジメチルとのエステル交換反応でも可能である。
芳香環を有するとともに分子鎖が直線になりやすいことから、分子鎖が流動性をもつ温度では芳香環や分子鎖の配向が起こりやすく、結晶部分を作りやすい。
------(PET_wiki_jpn.doc)

4段落目には反応式の画像が入ってます。これをSTでテキストを抽出すると、下のようになりました。

-------
[[BD-1]]
<b>ポリエチレンテレフタラート</b>(Polyethylene terephthalate)は、ポリエステルの一種である。英語読みをして<b>ポリエチレンテレフタレート</b>と呼ばれることも多い。
[[BD-2]]
その頭文字から<b>PET</b>と略称される。ペットボトルの名称はこれに由来する。
[[BD-3]]
下式のようにエチレングリコール(HO-CH<sub>2</sub>-CH<sub>2</sub>-OH)とテレフタル酸の脱水縮合により作られ、エステル結合が連なっているポリエステルとなる。このエステル結合の生成は、テレフタル酸ジメチルとのエステル交換反応でも可能である。
[[BD-4]]
/
[[BD-5]]
芳香環を有するとともに分子鎖が直線になりやすいことから、分子鎖が流動性をもつ温度では芳香環や分子鎖の配向が起こりやすく、結晶部分を作りやすい。
------(PET_wiki_jpn.txt)

(前回扱った太字や下付き文字は、ちゃんと「書式タグ」で挟まれています。)
画像だった4段落目が「/」となっています(WordやOSのバージョンによっては、違う文字・記号かもしれません)。

多くの場合、文字部分のみを上書きして訳す(つまり画像はいじらずにそのままにする)よう指示されると思うので、上のテキスト抽出したファイルの[[BD-4]]の段落以外(つまり、[[BD-1]]、[[BD-2]]、[[BD-3]]、[[BD-5]])を訳します。

------
[[BD-1]]
<b>Polyethylene terephthalate</b> is a polymer resin of the polyester family and ...
[[BD-2]]
It is commonly abbreviated to <b>PET</b> ...
[[BD-3]]
It is synthesized from ethylene glycol and terephthalic acid ...
[[BD-4]]
/
[[BD-5]]
Because it has aromatic rings and ...
------(PET_wiki_eng.txt)

訳しました。これを書き戻してみましょう。すると・・・

------
Polyethylene terephthalate is a polymer resin of the polyester family and ...
It is commonly abbreviated to PET ...
It is synthesized from ethylene glycol and terephthalic acid ...
/
Because it has aromatic rings and ...
------(PET_wiki_eng.doc)

と、元々あった画像がなくなり、「/」が挿入されてしまいました。
これでは困ります。

では、どうするかというと、「PET_wiki_eng.txt」の「[[BD-4]]」タグとそれに続く段落の内容を削除してしまうのです。つまり、下の赤字部分を丸ごと削除し、

------
[[BD-1]]
<b>Polyethylene terephthalate</b> is a polymer resin of the polyester family and ...
[[BD-2]]
It is commonly abbreviated <b>PET</b> ...
[[BD-3]]
It is synthesized from ethylene glycol and terephthalic acid ...
[[BD-4]]
/

[[BD-5]]
Because it has aromatic rings and ...
------(PET_wiki_eng.txt)



------
[[BD-1]]
<b>Polyethylene terephthalate</b> is a polymer resin of the polyester family and ...
[[BD-2]]
It is commonly abbreviated <b>PET</b> ...
[[BD-3]]
It is synthesized from ethylene glycol and terephthalic acid ...
[[BD-5]]
Because it has aromatic rings and ...
------(PET_wiki_eng.txt)

このようにして、書き戻すのです。

そうすると、
------
Polyethylene terephthalate is a polymer resin of the polyester family and ...
It is commonly abbreviated PET ...
It is synthesized from ethylene glycol and terephthalic acid ...
Because it has aromatic rings and ...
------(PET_wiki_eng.doc)

画像はそのまま残りました。

これは何も画像や図に限ったことではなく、文章でも同じです。

例えば、
・文章の一部の段落が既に翻訳されていて、残りの部分を翻訳してください、と頼まれた。
・WordやExcel、PowerPointの原稿に表が含まれていて、表の中の数字はいじる必要がない(そのまま残したい)。
といった場合に使えます。

まとめると、
原文ママ残したい部分は、「段落タグ」とその段落の内容を削除する
です。

※「段落タグ」は残したけど、その段落の内容を削除した場合にはどうなるか、次回取り上げます。

2013年4月3日水曜日

SimplyTerms:書式が設定された文章を扱う

秀丸等のテキストエディタで翻訳作業を行う場合、太字斜体字、上付き文字、下付き文字などが扱えないという短所があります。(例えば、Wordファイルで太字斜体字、上付き文字、下付き文字などがあり、その文章を秀丸にコピー&ペーストした場合、秀丸ではこれらの文字修飾(書式)は保持されず、普通の文字になります。)
しかし、翻訳をしていると、例えばCO2(二酸化炭素。2が下付き文字)やEscherichia coli(大腸菌)、Nipponia nippon(トキ)といった、化学式や生物の学名などで、下付き文字や斜体字が出てきますし、また、語句を強調するために、太字下線が使われることもよくあります。

書式は保持したい、でも動作が軽快な秀丸で作業をしたい。そういうときには、SimplyTerms(ST)を使えば、これらの書式の情報を保持したままテキストを抽出し、秀丸で翻訳後、Officeファイルに書き戻すと同時に自動で書式を設定することができます。

具体的な手順は以下の通りです。

まずは、準備としてSTの設定をします。
STを起動し、[ツール]→[オプション...]を開き、[テキスト抽出]タブの[MsOffice製品からのテキスト抽出項目]の[書式タグ]にチェックを付けます。(STの設定終わり)

この設定後、Officeファイルからテキストを抽出すると、太字斜体字、上付き文字、下付き文字など書式設定された文字がST独自の「書式タグ」で挟まれて抽出されます。
上付き文字:<sup>対象文字</sup>
下付き文字:<sub>対象文字</sub>
太字    :<b>対象文字</b>
斜体字   :<i>対象文字</i>
下線     :<u>対象文字</u>
※「書式タグ」はすべて半角の英字。
上の方で挙げたものは、CO<sub>2</sub>、<i>Escherichia coli</i>、<i>Nipponia nippon</i>というふうに抽出されます。他にも、6.02×10<sup>23</sup>(アボガドロ数。上付き文字の例)、Li<sub>1+x+y</sub>Al<sub>x</sub>Ti<sub>2-x</sub>Si<sub>y</sub>P<sub>3-y</sub>O<sub>12</sub>(x=0.3、y=0.2)(ガラスセラミック電解質。下付き文字が多数ある例)というように、「書式タグ」がついてなかったら数字や文字が連続してしまいよくわからなくなるものも、(多少見づらいかもしれませんが)秀丸で扱えるようになります。

翻訳するときには、このような「書式タグ」で挟まれて抽出された語句を「書式タグ」で挟んだまま翻訳(または、化学式や学名などはそのままコピー&ペースト)します。
そして、STで書き戻すときに、[抽出~書戻]タブの[処理内容]の四番目、[Officeテキスト書き戻し]を選択し、[書式タグ処理]を[あり]にして、書き戻します。

こうすることで、書式は保持しつつ動きが軽いテキストエディタで翻訳し、最終的にWordファイルを作ることができます。

※この「書式タグ」の処理は、[Officeテキスト書き戻し]と同時ではなく、別に行うこともできます([抽出~書戻]タブの[処理内容]の五番目、[Office書式タグ処理])。なので、翻訳に限らず、自分で何か文章を書くときにも、
秀丸で「書式タグ」をつけて文章を書く→Wordにコピー&ペースト→STで[Office書式タグ処理]→書式が設定されたWordファイルのできあがり!
というふうに利用できます。

ここで出てきた「書式タグ」は、毎回自分でポチポチ入力してもいいのですが、面倒ですし、入力ミスをする可能性があります。抽出した文からコピー&ペーストすれば入力間違いはなくなりますが、もっと簡単に「書式タグ」をつける方法があります。

同梱の秀丸マクロ「Ins_FormatTags」を使うのです。

例えば、「CO2」の「2」の部分を下付きの記号で挟みたい場合、「2」の部分を選択して「Ins_FormatTags」マクロを実行して[下付]を選択すると、「2」の前後に下付き文字用の「書式タグ」が挿入され、「CO<sub>2</sub>」となります。
私はこのマクロをよく使うので、キーボードのショートカットを割り当てて、簡単な操作で「書式タグ」を挿入できるようにしています。

この秀丸マクロについては後日また詳しく取り上げます。