前言
为什么要写这本书
Microsoft Word是世界上使用最广泛的文字处理软件,.docx格式也是目前最流行的文档格式之一。然而,大多数用户甚至很多开发人员对Word文档的内部结构并不了解。
当你需要批量生成Word文档、从文档中提取数据、修复损坏的文档时,理解.docx的内部结构就变得非常重要。本书从文件格式层面深入讲解.docx,帮助你真正理解Word文档是如何存储的。
同时,Word不仅仅是一个文字编辑工具,它也是一个强大的排版系统。很多用户使用Word多年,依然对样式理解不深,导致排版效率低下。本书结合Open XML格式原理,讲解Word排版的本质,帮助你掌握Word排版的核心思想。
本书特色
- 专注docx:本书只关注现代的.docx格式,不讨论老旧的.doc二进制格式
- 原理深入:从ZIP包开始,逐层解剖,展示真实的XML片段
- 结合实践:不仅讲解格式,还结合排版设计实践,帮助理解
- 适合中文:专门章节讲解中文排版的特点和最佳实践
读者定位
本书适合:
- 需要处理Word文档的开发人员阅读,帮助你理解格式,更好地编程处理文档
- 对Word排版有追求的高级用户阅读,帮助你理解Word设计思想,提升排版水平
- 文档处理相关的研究人员参考
阅读本书不需要具备特别高深的技术基础,但需要你对技术细节有耐心。如果你只想学习如何点击鼠标使用Word功能,本书可能不太适合你。
本书结构
本书分为四个部分:
第一部分:基础入门 介绍Word文档格式的基本概念和发展历史,帮助你建立对.docx的整体认识。
第二部分:.docx基础结构 讲解.docx的ZIP包本质和Open XML标准,带你入门文档结构。
第三部分:Open XML核心结构 是本书的核心,逐章讲解各个XML部分的结构,包括主文档、样式、字体、段落、表格、图片等。每章都配有真实的XML片段示例。
第四部分:Word排版设计实践 将格式原理与排版实践结合,讲解Word排版原理、样式应用、中文排版最佳实践等。
最后是附录,提供XML命名空间参考、工具列表和进一步阅读资源。
致谢
感谢所有为开放标准和开源软件贡献的开发者,正是因为有了他们,我们才能自由地探索和研究文档格式。
—— 作者