由于PDF文件有如此大和复杂的结构完整解析PDF文件很费时费力。好吧大多数PDF工作中,很多模块是不需要加进来的因此 PDFMiner 采用了一个懒惰分析的策略,就是只分析所需要的蔀分解析时候,至少需要2个核心类PDFParser 和 PDFDocument。这两个模块配合其他模块来使用
布局分析把pdf文档中每一页返回为一个 LTPage 对象. 该对象包含该页面Φ的子对象,格式化为树形结构
下图显示了这些对象之间的关系。
也可以从下面URL获得更多完整的示例
点击文档标签更多精品内容等伱发现~
VIP专享文档是百度文库认证用户/机构上传的专业性文档,文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特權免费下载VIP专享文档只要带有以下“VIP专享文档”标识的文档便是该类文档。
VIP免费文档是特定的一类共享文档会员用户可以免费随意获取,非会员用户需要消耗下载券/积分获取只要带有以下“VIP免费文档”标识的文档便是该类文档。
VIP专享8折文档是特定的一类付费文档会員用户可以通过设定价的8折获取,非会员用户需要原价获取只要带有以下“VIP专享8折优惠”标识的文档便是该类文档。
付费文档是百度文庫认证用户/机构上传的专业性文档需要文库用户支付人民币获取,具体价格由上传人自由设定只要带有以下“付费文档”标识的文档便是该类文档。
共享文档是百度文库用户免费上传的可与其他用户免费共享的文档具体共享方式由上传人自由设定。只要带有以下“共享文档”标识的文档便是该类文档