本站手机站m.dajiadu8.com,服务器懒得转移了,凑合看吧!没收益,所以空间有限,请见谅

首页

都市言情

穿越:2014阅读

设置

字体样式
字体大小

穿越:2014:风起青萍之末 第254章 没人比我更懂挖数据

    虽然林灰内心深处有很多线上办公软件不错的命名方案了。

    但眼下租赁的F.FSG这个线上远程办公软件注定了只会是一个临时应急之用。

    这样的一个临时凑数的东西纵然在同时代对比的话还算是比较靠前梯队里面的。

    但以往后几年的眼光看,这玩意别说80分了,就是打60分都堪忧,总之就不及格的产品。

    不要说深度协同能做得多么到位,就连最起码的信息降噪之类的东西都尚待完善。

    这种情况下,林灰其实对这玩意也没过于看重。

    太正式的命名似乎也没什么必要。

    之所以提到命名这问题只是因为现在名为“F.FSG”的软件在林灰看来确实有点不伦不类。

    反正林灰是没搞懂现在这个命名是什么含意。

    还是换个名字的好,不过具体换什么名字姑且就完全就给黄静去办吧。

    林灰对黄静说道:“这事让他们开发团队来斟酌,或者干脆你来安排就好了。”

    黄静点了点头,并且一定会按照林灰的交代将林灰的想法充分转达。

    至于林灰是什么想法?

    虽然林灰似乎什么也没说,但这并不妨碍黄静去揣测。

    一般来说涉及应用适配给客户往往需要是是代入客户的真实使用场景,从而进一步分析客户需求。

    具体到客户虽然千变万化,但无非也就是分为专家型客户、主流客户和随意型客户。

    专家型客户往往指的是愿意探索你的产品和服务、舍得花时间研究新产品的。

    这类客户通常是有很强大的软件开发实力的。

    很多时候这类用户不需要软件的原始团队对她们单独适配。

    甚至于原始软件的疏漏和不足的地方还会的bug反而会激发这类客户DIY的乐趣。

    随意型客户指的是有喜欢使用一些新奇的功能,对这类客户往往只要简单适配就可以了。

    而骨干行型主流客户不会被你产品的技术所吸引,使用产品的目的是为了完成某项任务。

    对于这类客户往往是要进行深度适配的。

    一般来说客户并不会在这几个标签之间反复横跳。

    像林灰现在这种情况明显是属于骨干型客户,对于这样的客户不进行深度适配是不可能的。

    反正黄静觉得林灰之所以提到中文命名这件事不仅仅只是顾念一个名称这件事。

    毕竟一个临时凑数的应用似乎没什么必要在名称上浪费精力。

    黄静觉得林灰是在含蓄地向黄静转达下让海外的原创团队多搞一些符合中國用户习惯的设计。

    同时在设计上要尽量照顾一下中國的用户。

    之所以林灰先前在订制任务里面没明说?

    黄静觉得林灰只是顾念她和F.FSG这个线上办公软件的原创团队认识而已。

    于是林灰没当着黄静的面提出过多的方案修改意见。

    能如此体恤下属的情绪,黄静越发觉得追随林灰是个正确的选择。

    当然黄静内心深处的自我攻略,林灰对此是并不知晓的。

    林灰之后和黄静也没聊线上办公。

    而是又聊了一些美國科技巨头的讯息。

    虽然基本都是八卦之类的无聊消息,不过也不是所有信息都是八卦。

    至少林灰不是一无所获。

    从跟黄静的后续谈话中林灰从黄静那得知了一个颇为重要的信息。

    那就是蘋淉方面似乎致力于在谋求一笔总额大概在两亿美元到三亿美元大宗数据交易。

    对于这条消息黄静在描述的时候有点含糊其辞。

    似乎生怕不小心坑了林灰似的。

    以前黄静描述的信息往往都言之凿凿。

    很少出现不自信的情况。

    涉及到这宗交易黄静先说是数据交易后来又说不是数据交易。

    搞得林灰都有点糊涂。

    即便是小道消息林灰也很看重相应的价值,毕竟很多时候无风不起浪。

    至于黄静说得这个讯息到底是什么,经过进一步的询问以及多方查验。

    以及更进一步的一番推敲,林灰还是搞明白了。

    所谓的两三亿美元的数据交易交易的确实是数据,但又不是一般类型的数据交易。

    蘋淉方面此次谋求的数据收购的目标指向的实际是“暗数据”。

    暗数据有时候也被称为尘埃数据。

    暗数据或者说“尘埃数据”是由所有冗余的、经常被遗忘的数据组成的。

    这些数据是公司和组织在其活动过程中收集的,但随后又不使用。

    这些信息往往是无结构、无标记、无分析的信息。

    通常这类数据几乎是被无视的,毕竟这类数据存在于网络和服务器中,只会占据了宝贵的空间。

    一般来说,暗数据主要有三种类型:

    第一种是传统的基于文本的数据。这可能包括电子邮件,日志和文档。

    第二种类型是非传统数据。

    这包括未标记的音频和视频文件、静止图像和声音文件。

    第三种类型是深度数据。

    这包括深层网络中搜索引擎无法触及的信息。

    这些深度数据大多是私有的,由政府或私人机构控制。

    它包括由学者、政府机构和当地社区策划的数据、医疗记录、法律记录、财务信息和组织特定数据库。

    以上这些数据都可以称之为暗数据。

    暗数据这类数据虽然相比传统意义上数据虽然要更隐晦一些。

    暗数据这种未标注过的数据虽然不能拿来直接用吧。

    但却不能否定这种东西的潜力。

    反正绝对不能说这些信息不重要。

    至于果子为什么对这类东西感兴趣。

    因为收集这类一贯不被视为数据的数据。

    实际上通过深耕是能得到跟传统数据差不多的功效的。

    而且使用这类数据的话,通过一些概念性的教育消费者甚至可以形成一种企业从来不涉足一般数据的印象。

    这对于树立企业形象岂不是很有妙用??

    总之,对于既当又立的企业不能说是没有诱惑力。

    反正林灰觉得从暗数据入手这倒是符合很多科技巨头的行事风格。

    类比林灰以前估量的价格。

    如果说几千万美元就能买上千万条双语标注数据。

    可想而知像蘋淉所谋求的价值两三个亿美元的暗数据肯定是一笔相当庞大的数据。

    涉及到标注数据跟暗数据一大区别在于标注数据是结构化进行过一定处理的数据。

    而暗数据很大程度上是未被结构化处理甚至很是“乱糟糟”的数据。

    结构化的数据一般是即有固定格式和有限长度的数据。

    例如填的表格就是结构化的数据。

    比如说“国籍,种花家,民族:汉,性别:男,姓名:张三,年龄:……”

    这种央视的都叫结构化数据。

    这类数据很容易以固定的格式存储到数据库里。

    而半结构化数据值得是一些 XML 或者 HTML 的格式的数据。

    对这类数据当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。

    所谓的非结构化的数据:就是不定长、无固定格式的数据。

    例如网页,邮件,有时候非常长;有时候非常短,几句话就没了,这类就是典型的非结构化数据。

    子啊比如说例如 Word 文档、语音,视频、图片都是非结构化的数据。

    而半结构化数据和非结构化数据,一般合二为一统称为“暗数据”。

    这个词语也不是林灰定义的。

    相比于标注数据这种结构化数据,暗数据同标注数据此二者的价值是不可同日而语的。

    单位标注数据的价值往往几十倍甚至于几百倍于单位暗数据。

    两三亿美元就算是换取较为昂贵的跨语种语言类标注数据都能换上几亿条。

    更何况说拿几亿美元去换暗数据呢?

    可想而知,两三亿美元涉及到的暗数据是一笔相当可观的暗数据。

    林灰那有很多前世的信息。

    但也绝不可能有满足蘋淉胃口的暗数据。

    不要说是林灰前世那点信息了。

    就是像國内有的忝居互联网巨头之列外强中干的互联网公司所拥有的暗数据规模也未必能满足蘋淉的胃口。

    这种情况下如果林灰对蘋淉的这笔巨额收购感兴趣的话似乎只能去收集暗数据了。

    至于如何去收集呢?

    暗数据的收集方式多种多样。

    因为暗数据包括用户活动日志、客户对话或电子邮件记录、服务器监控日志、视频文件、物联网产生的机器和传感器信息。

    暗数据还可能包括由于存储在过时设备上而无法再访问的数据。

    这种情况下很多时候清理活动日志或者说收集存储碎片的时候都有可能顺手牵羊搞到一些暗数据。

    除此之外还有很多种收集暗数据的方式。

    说起来虽然很容易。

    但正所谓抛开剂量谈毒性都是耍流氓。

    同样的道理抛开数据规模谈咋挖掘数据同样是耍流氓。

    像蘋淉所图规模的暗数据肯定不是传统的数据挖掘方式能满足的。

    似乎时下也没太好的挖掘暗数据的方式。

    传统的公司,在处理暗数据的时候,采用的是笨办法,想办法把非结构化的数据转换成结构化数据。

    这种方法费时费力。

    不过也仅仅只是对于时下的科技公司来说。

    对于林灰来说他还是有很多数据挖掘方式的。

    没人比林灰更懂如何挖掘数据了。

    对于大规模的数据挖掘,似乎最方便的方式就是借助于人工智能来挖了。

    甚至于林灰前世电脑里有一些现成的挖掘暗数据的方式。

    虽然效率受限于时下的硬件可能会大打折扣。

    但相比于现在传统的挖掘方式也是降维打击般的存在了。

    不过新的问题又来了,从哪挖掘暗数据呢?

    前面提到了像有些属于私有的,由政府或私人机构控制的深度数据。

    这类包括由学者、政府机构和当地社区策划的数据、医疗记录、法律记录、财务信息和组织特定数据库在内的数据。

    就算是属于暗数据。

    借林灰十个胆子林灰也不敢去挖。

    毕竟这玩意另一个名字叫国家机密。

    dd