2019年08月22日

InDesignからテキストを抜き出す(2019)

AdobeCCのデモ版を使って開いて抜き出せって手法を提案されても、InDesignってパッと見では操作できないし、Word使ってるから似たようなもんでしょとか丸投げされた担当からしたら絶望しかなさそう。

なのでInDesignを使わない、開かない前提でのメモ。

0)InDesignを使う
使うのかよ! いやとりあえず(0)ってことで。
テキスト抜くだけならInDesign開いて(フォントや画像リンクの警告はガン無視して)テキスト書き出しすりゃOK…でもなくて、テキストのブロックの順番とか、表とかどうすんだろうね的なところが問題に。人が見て意味が通るような並びにならないことが多いというか。
書き出したテキストの整形や有無チェックとかも含めて、下手すっと手打ちしたほうが早かった…(デモライセンス取得とかインストールとか含めて)って可能性あります。いや多いにある。
デジタルのほうが楽で早いってのは、いろんな条件が満たされてる状態での話なのだ!(なにか良い格言やたとえ話がほしい)

1)信頼できる業者にInDesignで開いて作業するよう頼む
そもそも予算がつけられるなら、頼んでるんじゃないでしょうかねこういうの。検索で飛んでくる人のうち印刷屋さんだと頼まれてる側とは思いますが。
普段から仕事頼んでて、なにかのついでにちょろっと…みたいな感じなら良いんだろうけど、そういうの何度も頼むならギャラ出さないとダメだろうし、細かい指定とか頼みづらいだろうし。
基本的にOCRか文字入力の延長のイメージで値段設定することになるような。

で、抜き出すレイアウトがデザインデザインした雑誌だと構造化されてないからめっちゃ面倒そう。キャプションと表とリードをあわせて各ページごとに切り分けるたりチマチマとテキストファイルに移すとなると作業時間=値段になりますな。
小説やビジネス書あたりの書籍はきっと章ごとぐらいの分け方になってると思うので、コピペにプラスアルファぐらい(ルビはなんとかしないとダメね)で済むはずなので手間じゃない…でしょう多分。

コミックは…吹き出しファイルだけ製版屋が持ってないですかね、それか入稿用のテキストファイルとか残してないかなーと。

2)InDesignファイルをいったん何かのファイルに経由する
InDesignの作ったPDFからコピペすりゃいいじゃんとか思う人も多いですけど、実際手を付けるとワケわかんない範囲でしかコピペできないので心が折れます。結局テキストファイルでコピペして整形する羽目に。Acrobatは洋物ソフトでしか無いんやで。

InDesignの保存形式にはIDML(InDesignマークアップランゲージ)ってのがあり、これはzipで固めたXMLなのでそれ使えばなんとかなるんじゃないかな? と思うんですが、そもそもInDesignで開かないとIDML保存できないという縛りが。InDesignをIDMLに変換する(そしてInDesignは不要な)ツールはありますが海外製の売り物(99ユーロ)でございます。
それにIDMLをzipでばらしてXML読むって、ちょっとInDesignデータからテキスト抜きたいって軽い気持ちでやることじゃないよ! XMLパーサー用意できるわけねーだろ!

3)文字入力業者に頼んで刷り物から起こす
InDesignを諦めて文字起こしを頼むのはどうでしょう…って結局なにかしら予算要るやん!
ただまぁ数ページなら業者に投げてもいいんじゃないでしょうか。そんなに高いわけじゃないですし、InDesignから抜いても記号や外字やルビや文字コードやら段落・文字スタイルの都合でそのまま使えるわけじゃないでしょうし。



メーカーのカタログとか年鑑とかいかにもコピペできそうだけどInDesignは効率よくデータを書き出すには構造化前提で、それって流し込む前のデータの段階で考えとけ(ExcelやSQLで整形整理)って感じでしょうし、まーこれからはDTPな制作物からマルチユースするなら(電子書籍もそうだけど)ワンソースづくりはDTPに放り込む前にやっときましょう。

ある程度まとまったレイアウトデータが有って、予算や時間が許されるならIDML使って適当なサイズのテキストファイルにするシステムを開発しちゃうほうがいいかもしれない。
でもウェブサービスとしては売れない(普通はレイアウトデータなんて社外秘だろうし)から業務システムで売ろう!ってーと開発費に営業費用と儲けを乗せるから結構なお値段になって売れるかどうか大変怪しくなるわけだし、InDesignのバージョン上がったりしたときに対応し続けるのは苦行のハズ。


まとまらないまま今回のメモが終わる。


posted by あまおかさん at 15:51 | Comment(0) | DTP

2019年08月20日

What is color management? (カラマネって何よ?)


この手の記事やページってなんで日付つけてくんねーのかなっていつも思います。

What is color management?
カラマネって何よ?

Q.カラマネのシステムってどんなん?

A.デバイスAで見た色をデバイスBでも同じ色で印刷したり表示したりするためのデータ変換・生成する仕組みのことね。正確な変換が無理なら元の色へ良い感じに近づけたりもします。
「カラーマネジメントシステム」を自称する場合、普通はCIE(Commission internationale de l'éclairage/International Commission on Illumination/国際照明委員会)の規定を元にしてる…はずです多分。

Q.ICC Profile(アイシーシープロファイル)って何?

A.ICC(International Color Consortium)プロファイルは様々な機器(入力ならカメラやスキャナ、出力ならモニタやプリンタあたりね)の間でデータが動いても、望んだ通りの色が見られるよう手助けします。ICCの標準色空間やCIEの測色ルールを使って作られる、データを渡したり受け取る際の変換ルールですね。
いろいろな機器を持ってるとしても、プロファイルが用意されてるならICCの標準色空間経由で望んだ色、同じ色がをゲットできます。
ICCプロファイル自体はICCの仕様に沿って作られたものです。ユーザごとに自分たちの望むプロファイルを作成、修正することもあるでしょう。
プロファイルは入力、出力の2種類があり、基本的には機器とICCの標準色空間との変換表で構成されています。どう変換するのかって仕組みは後述ね。あと、特殊なシステムが使う特別な形式のプロファイルもあります。

Q.自分の使ってる機器がICCプロファイル対応してるかどうやってわかるのん?

A.基本的にICCプロファイルはアプリケーションが使うので、機器が対応してるかってのは気にしないでいいです。
ただまぁ、プリンタやモニタ”だけ”ではICCプロファイルを使いこなせいと思います。印刷物やディスプレイの表示状況を測る機器と測定データが無いとアプリケーションが処理できないわけね。そういう機械は印刷業界なんかで使われてますが業務用なのでソフトと合わせて結構なお値段ですわ。安いモデルもあるけど。
普通はAdobeやDTPソフトで機器のICCプロファイルを使うことになります。

Q.カラマネを学びたいならどういうとこがエエですのん

A. このサイト(www.color.org)には素敵な資料がたくさんあるので見てってね! (Informationのタブとか) 
オススメの良い本は以下の通り。

Understanding Digital Colour by Green (GATFPress). 
初級〜中級レベルの製版印刷向けの本ですが、デジタル画像を扱う他業界にも通じる内容です。

Digital Color Management by Giorgianni and Madden (Addison-Wesley).
カラマネにおける理論上の問題を解説してます。

Colour Management for Printing and Publishing by Johnson (Pira International). 
カラマネの基本を深く詳しく説明してます。

Real World Color Management by Fraser, Bunting and Murphy (Peachpit Press).
Understanding Color Management by Sharma (Delmar).
Color Management for Photographers by Rodney (Focal Press).
ロチェスター工科大やロンドン大学(映像やデザイン、印刷学科があるのよ)にいろんなコースがあるし、IS&T(Society for Imaging Science and Technology/画像科学技術協会)やSPIE(The International Society for Optical Engineering/国際光工学会)あたりの学会でもカラマネを題材にした展示会をやってますよ。こういった催しに参加するのも良いけど、理解するには基礎知識は必要だよ。まーチュートリアルな資料もたくさん用意されてるはずだけどね。

Q.ICCプロファイルの仕様って誰が練ってますのん
A.ICCは色を扱うメーカーが自主的に参加(出たり入ったり)する協会で、参加企業の担当者(べつに一人ずつじゃないよ)の集まる部会で仕様を考えたり必要に応じて修正、更新します。
仕様の修正については、過半数以上の承認が必要になってますね。


posted by あまおかさん at 17:19 | Comment(0) | DTP

2019年08月19日

製版屋や印刷屋を回るフィールドエンジニアの需要

大昔にやってたけど10年くらい前に儲からないから止めたと聞く。やはりmacが数十万円で、かつ壊れやすい時代じゃないとダメか。今のマシンって壊れないものね。

数年前で更新止まってる企業サイトの改修はどっすかねーって聞いても、きっと放置でもいいやーぐらいの雰囲気。出入りの業者が声かけてもアレですよ街や駅の色落ちした看板と似たようなもんで、何か無ければそのままなのかも。
飛び込みでウェブ屋が声をかけても警戒するだけっすわね多分。


posted by あまおかさん at 16:45 | Comment(0) | DTP

2019年08月08日

:と/とエラー43

OSXやmacOSでファイルコピー時のエラーとして-43が出たときは、やれPRAMクリアしろとかFinderを強制停止&起動させろとかディスクユーティリティでチェックしろって回答があるけれど、ファイル名が怪しいって回答も含まれてるので切り分けが微妙。

そもそも/を:に置き換えるOSX(macOSはどうだっけ)であるし、未だにOS9機をつかってたり、OS9時代のストレージから直接複製してたり、XINETとか使ってたりするとファイル名にこっそり:がついてたりするわけで、でもそういうデータをOSX(たぶん昔から)で操作してエラーが出ても外見では分かんないからユーザ的には判断できないやね。ターミナル叩ける人はごく少数。
Unicodeの正規化周りでトラブったりするのは相変わらずなんですかねやぱし。


posted by あまおかさん at 11:42 | Comment(0) | DTP

想像以上に昔のOSを使い続ける製版屋印刷屋に出会う

そういう会社だからこそ弊社に聞いてくる(大塚商会やモリサワには聞かない)ってバイアスがあるとは思うけども。

 PCを入れ替えずにファイルサーバだけ更新するって感じだと、事前に「古いマシン、新しいマシンどっちかの環境に合わせないと速度遅いとか不具合出るとか使い勝手悪いッスよ」とか言っとかないダメね。
 ただWindowsサーバ(やNAS)に切り替える場合は、OS9時代からのデータを継ぎ足し継ぎ足し使ってるとヤバそう。名前に記号とか使いまくってOSXが裏でこっそり変えてる(:や/とかね)ようなファイルとか。


posted by あまおかさん at 10:35 | Comment(0) | DTP