新闻动态

联系我们

咨询:010-63396898
电话:010-63396881
地址:北京市 东城区 建国门北大街 金成建国5号
行业新闻
您当前位置: 首页 > 新闻动态

数据钻石:挖掘表面内容下面的东西

发布日期:2016-01-29 点击:1113

  • 发布日期:2016-01-28
  • 作者:李慧楠
  • 来源:中国图书出版网

      专家出版博客的观点不代表DBW的立场
 
 

      这个月数字图书世界的主题是数据和分析。我们现在对图书之外的数据也非常关注(元数据)。西蒙舒斯特的首席执行官Carolyn Reidy去年的时候就把这一点说的非常清楚了。她当时给Publishers Weekly举了一个例子,仅仅在西蒙舒斯特的书单上选了一本书增加了更详细的元数据,这本书就为公司取得了很大的成功。

      不过我想要说的是数据的另外一个方面,大多数的出版商还没有参与进去,而且甚至都不知道到底应该做些什么:表面之下的数据。

      现在,所有私底下认识我的人都知道我非常非常喜欢Minecraft。Minecraft这一款电脑游戏在过去五六年中变得非常非常流行,大多数吸引的是六至十二岁的儿童(不过也有越来越多像我这样的成年人)。由这款游戏衍生出来了很多不错的书,开拓孩子们的思维,让他们敢于进行更多新的尝试,而且由此衍生出的文化也与其他的非常不同。如果你说你从来都没有听过Minecraft这个游戏的话,我会感到非常吃惊的;游戏的开发人员以20亿美元(没错,就是20亿)的价格将版权卖给了微软公司。

      Minecraft基本上就是从一个随机生成的世界中收集各种资源,然后利用这些资源来对抗那些想要攻击你的怪兽,建造出任何出现在你脑海中的东西,在这个世界中生存下去。游戏中最有价值的资源,尤其是在你第一次接触这个世界的时候,非钻石莫属。这些闪着光的小东西在打造最佳工具和最佳装备时非常关键,当然要收集钻石也很困难,有时还有危险。你必须要一直挖到很深的地底下,在都是怪兽的洞穴中穿梭,避开那些既能要了你的性命又会摧毁你所有资源的地底岩浆。

      出版业中的大部分数据就像是Minecraft中的钻石一样:价值很高、在开发工具和发展对抗竞争中非常有用,而且也是探索能力和成果所不可或缺的因素。这些数据同样也在我们所在世界的表层之下,在那些手稿和出版的图书中,在编辑室的书籍上,在我们作家的头脑中。不过,大多数的出版专家都被这些数据弄得晕头转向,就像他们弄不清楚孩子对Minecraft的喜爱一样。

      你是不是没弄清楚我说的是哪一类数据?想想下面的这些例子:

      •一位作家写了一篇有关南北战争的论文,内容长达100多页,放在一本书中装订不下。你除了能够进行删减外还能有什么办法呢?

      •前两个月出版的一本青少年图书,里面有30多个人物的姓名都十分相似,很容易让人混淆。你怎么能保证读者手边有足够所需要的信息呢?你又如何利用这些数据增加探索能力呢?

      •你去年出版的几本养生的书中有一些章节你想要再次使用,但是其他的内容你却不想要。你应该在呢么办呢?

      ……还有很多这样的例子。当你开始思考的时候,我确信你就能够找到大量有用的材料,可以有不同的用处。

      那么,你应该如何收集这些数据呢?你又如何存储,如何回想起来呢?这是一个很不错的问题!

      第一步就是对你的团队进行培训,让他们知道如何识别那些之后可能会有用处的数据。很明显在这上面编辑是冲在最前面的,但是团队的每一个成员都应该注意寻找那些在那里等待收集的有价值的钻石。

      数据收集和管理的很大一部分就是要与你的内容工作流程建立联系。实施了以XML为基础的工作流程的出版商在收集数据时其实是占了优势的,不过拥有一个XML的工作流程和拥有可用的有效数据并不总是一回事。关键是要将数据放在一起,让你能够加标签,进行管理,提取和随意使用。同样的,你并不是一定要从XML开始。你的EPUB文件可能也是一个开始收集数据的好方法,这样还不用完全打乱你的工作流程。当然,如果你要用这些文件作为你内容存档的基础的话(即使你不要这么做),那么你的EPUB数据质量是很重要的。现在所有的主流电子书零售商和大多数的小型零售商都已经接受了EPUB 3文件形式,所以如果你还没从EPUB 2转换过来的话现在也来得及。在此之后,确保要研究一下HTML 5和EPUB 3的语义标记和语义变化功能,为在你所有的EPUB文件中加入获取这些能力制定一个计划。

      这些步骤不仅仅能提高电子书的质量或是增加电子书的销售量了一个语义丰富的EPUB文件可能是一个比XML文件更好的资源,尤其是如果你还没有能力建立起一个新的XML工作流程的时候。

      我希望这些观点能够激起你的想象力和创造力,鼓励你更深一步的挖掘你的内容文件,开发出新的策略来利用这些表层之下的数据。

友情链接 : 百度新浪深圳点通
展开