2013年4月22日月曜日

SimplyTerms:Excel、PowerPointの場合

SimplyTerms(ST)はWordファイルだけでなく、ExcelファイルPowerPointファイルも扱えます。テキストを抽出する操作などは、Wordファイルの場合と全く一緒です。復習をかねて、英語の原稿ファイル「原稿.xlsx」を(英日)翻訳する場合の流れをざっと書くと、下のようになります。

1.「原稿.xlsx」→[ファイル種類の変更][英語]→「原稿_eng.xlsx」
2.「原稿_eng.xlsx」→[Officeテキスト抽出]→「原稿_eng.txt」
3.「原稿_eng.txt」→[用語集の適用(一括置換)]→「原稿_jpn.txt」
4.「原稿_jpn.txt」を秀丸などで翻訳。
5.「原稿_eng.xlsx」→[Officeテキスト書き戻し]→「原稿_jpn.xlsx」

※Excelファイルは、拡張子が「xls」でも操作は同じです。またPowerPointファイルの場合も、上の「xlsx」の部分が「pptx(またはppt)」となるだけで、操作は同じです。

WordファイルとExcelファイル、PowerPointファイルとの違いは、テキストを抽出して作られるテキストファイル内の「段落タグ」です。

○Wordファイルの場合

----------
[[BD-1]]
本文1段落目。本文はBDで始まる段落タグです。脚注を入れると[[FN-1]]のような記号が挿入され、ファイルの最後の方に脚注の内容が抜き出されます。この、挿入された記号は、必ず訳文でも入れておいてください(入れ忘れると、下の方の脚注の内容が書き戻されません)。
[[BD-2]]
本文2段落目。Wordで文末脚注を挿入すると[[EN-1]]のような記号が挿入され、最後の方に文末脚注の内容が抜き出されます。この、挿入された記号は、必ず訳文でも入れておいてください(入れ忘れると、下の方の文末脚注の内容が書き戻されません)。
[[BD-3]]
あいうえおあいうえおあいうえお
[[TB-1]]
テキストボックスがあると、このように、TBで始まる段落タグがつけられて、本文のあとにまとめて抜き出されます。
[[TB-2]]
テキストボックス。テキストボックス。(Wordファイルの見た目の順番とは必ずしも一致しないそうなので、印刷した原稿などと良く見比べながら翻訳を進めてください。)
[[FN-1]]
脚注(footnote)はFNで始まる段落タグがつけられます。
[[EN-1]]
文末脚注(endnote)はENで始まる段落タグがつけられます。
----------

○Excelファイルの場合

----------
[[S1_CL-A1]]
1枚目のシートの段落タグはS1で始まり、そのあとにセル(CL)の位置が「列(アルファベット)」「行(数字)」という形で続きます。
[[S1_CL-A2]]
あいうえおあいうえおあいうえお
[[S1_CL-C2]]
テキストが抽出される順番は、各シートの中で「行(数字)の昇順」→「列(アルファベット)の昇順」です。
[[S1_CL-A3]]
空白のセルは無視され、セル内に何か文字がある場合にのみ、その文字が抽出されます。
[[S1_CL-E5]]
かきくけこかきくけこかきくけこ
[[S2_CL-G5]]
2枚目のシートの段落タグはS2で始まります。
[[S2_CL-I5]]
さしすせそさしすせそさしすせそ
[[S2_CL-G7]]
シートの名前に関係無く、段落タグはS1、S2、S3・・・となります。しかし・・・
[[S4_CL-C9]]
何も書き込まれてないシートは無視されます。3枚目のシートのセルには何も書き込まれてなく、次の4枚目にはセル内に何か文字がある場合、S3で始まる段落タグはなく、S4で始まる段落タグで4枚目の内容が抽出されます。
[[S4_CL-D11]]
たちつてとたちつてとたちつてと
----------

※現在、Excel 2010ではテキストボックスの中身が抽出されないようです(Excel 2003では大丈夫なようです)。ST作成者のBuckeyeさんもこの問題を把握しておられるので、対応を待っているところです。

○PowerPointファイルの場合

----------
[[S1_BD-1]]
1枚目のスライドの段落タグはS1で始まり、BDと続くのはテキストボックスです。
[[S1_BD-2]]
あいうえおあいうえおあいうえお
[[S1_NT-1]]
スライド番号の後にNTと続くものは、ノートの中身です。ノートには最初からスライド番号が入ってる場合があります。
[[S1_NT-2]]
1
[[S2_BD-1]]
2枚目のスライドの段落タグはS2で始まります。
[[S2_BD-2]]
テキストボックスは上にあるものから順に抽出されて並びます。
[[S2_BD-3]]
矢印や吹き出しなどの中のテキストも、普通のテキストボックスと同様に扱われるので、段落タグではBDがつきます。
[[S2_BD-4]]
かきくけこかきくけこかきくけこ
[[S2_BD-5]]
文章に<b>太字</b>や<i>斜体</i>などの書式が設定されていると、書式タグ(<b>や</b>、<i>、</i>など)がくっついてくることがあります。書式タグについては、2013年4月3日の投稿「SimplyTerms:書式が設定された文章を扱う」をご覧ください。
[[S2_NT-1]]
2
----------

このように、元のファイルに応じていろいろな「段落タグ」がありますが、基本的には、抽出されたテキスト部分のみを(秀丸などで)書き換えていくので、元のファイルがWordであろうとExcelであろうとPowerPointであろうと、いつも同じように翻訳作業を行うことができます。

また、Excelの表の数値部分や、PowerPointのノートのスライド番号など、まったくいじる必要のない部分は、翻訳する前に「段落タグ」とその内容をまるごと削除することで、間違えて書き換えてしまうことを防げます(2013年4月11日投稿「SimplyTerms:「段落タグ」を削除するとどうなる?」を参照)。

0 件のコメント:

コメントを投稿