AdobeCCのデモ版を使って開いて抜き出せって手法を提案されても、InDesignってパッと見では操作できないし、Word使ってるから似たようなもんでしょとか丸投げされた担当からしたら絶望しかなさそう。
なのでInDesignを使わない、開かない前提でのメモ。
0)InDesignを使う
使うのかよ! いやとりあえず(0)ってことで。
テキスト抜くだけならInDesign開いて(フォントや画像リンクの警告はガン無視して)テキスト書き出しすりゃOK…でもなくて、テキストのブロックの順番とか、表とかどうすんだろうね的なところが問題に。人が見て意味が通るような並びにならないことが多いというか。
書き出したテキストの整形や有無チェックとかも含めて、下手すっと手打ちしたほうが早かった…(デモライセンス取得とかインストールとか含めて)って可能性あります。いや多いにある。
デジタルのほうが楽で早いってのは、いろんな条件が満たされてる状態での話なのだ!(なにか良い格言やたとえ話がほしい)
1)信頼できる業者にInDesignで開いて作業するよう頼む
そもそも予算がつけられるなら、頼んでるんじゃないでしょうかねこういうの。検索で飛んでくる人のうち印刷屋さんだと頼まれてる側とは思いますが。
普段から仕事頼んでて、なにかのついでにちょろっと…みたいな感じなら良いんだろうけど、そういうの何度も頼むならギャラ出さないとダメだろうし、細かい指定とか頼みづらいだろうし。
基本的にOCRか文字入力の延長のイメージで値段設定することになるような。
で、抜き出すレイアウトがデザインデザインした雑誌だと構造化されてないからめっちゃ面倒そう。キャプションと表とリードをあわせて各ページごとに切り分けるたりチマチマとテキストファイルに移すとなると作業時間=値段になりますな。
小説やビジネス書あたりの書籍はきっと章ごとぐらいの分け方になってると思うので、コピペにプラスアルファぐらい(ルビはなんとかしないとダメね)で済むはずなので手間じゃない…でしょう多分。
コミックは…吹き出しファイルだけ製版屋が持ってないですかね、それか入稿用のテキストファイルとか残してないかなーと。
2)InDesignファイルをいったん何かのファイルに経由する
InDesignの作ったPDFからコピペすりゃいいじゃんとか思う人も多いですけど、実際手を付けるとワケわかんない範囲でしかコピペできないので心が折れます。結局テキストファイルでコピペして整形する羽目に。Acrobatは洋物ソフトでしか無いんやで。
InDesignの保存形式にはIDML(InDesignマークアップランゲージ)ってのがあり、これはzipで固めたXMLなのでそれ使えばなんとかなるんじゃないかな? と思うんですが、そもそもInDesignで開かないとIDML保存できないという縛りが。InDesignをIDMLに変換する(そしてInDesignは不要な)ツールはありますが海外製の売り物(99ユーロ)でございます。
それにIDMLをzipでばらしてXML読むって、ちょっとInDesignデータからテキスト抜きたいって軽い気持ちでやることじゃないよ! XMLパーサー用意できるわけねーだろ!
3)文字入力業者に頼んで刷り物から起こす
InDesignを諦めて文字起こしを頼むのはどうでしょう…って結局なにかしら予算要るやん!
ただまぁ数ページなら業者に投げてもいいんじゃないでしょうか。そんなに高いわけじゃないですし、InDesignから抜いても記号や外字やルビや文字コードやら段落・文字スタイルの都合でそのまま使えるわけじゃないでしょうし。
メーカーのカタログとか年鑑とかいかにもコピペできそうだけどInDesignは効率よくデータを書き出すには構造化前提で、それって流し込む前のデータの段階で考えとけ(ExcelやSQLで整形整理)って感じでしょうし、まーこれからはDTPな制作物からマルチユースするなら(電子書籍もそうだけど)ワンソースづくりはDTPに放り込む前にやっときましょう。
ある程度まとまったレイアウトデータが有って、予算や時間が許されるならIDML使って適当なサイズのテキストファイルにするシステムを開発しちゃうほうがいいかもしれない。
でもウェブサービスとしては売れない(普通はレイアウトデータなんて社外秘だろうし)から業務システムで売ろう!ってーと開発費に営業費用と儲けを乗せるから結構なお値段になって売れるかどうか大変怪しくなるわけだし、InDesignのバージョン上がったりしたときに対応し続けるのは苦行のハズ。
まとまらないまま今回のメモが終わる。