如何更换网站模板,上海牛巨微seo关键词优化,广州网站优化哪里有,兴隆大院网站哪个公司做的本文为白鲸开源科技CEO郭炜1小时深度访谈全记录 来源于#xff1a;开源之播」Episode15:对话郭炜–乐观主义的开源精神走得更远
大家好#xff0c;我是郭炜#xff0c;开源圈的“郭大侠”。作为 Apache 基金会的成员#xff0c;我曾参与并孵化了多个开源项目#xff0c;如…本文为白鲸开源科技CEO郭炜1小时深度访谈全记录 来源于开源之播」·Episode15:对话郭炜–乐观主义的开源精神走得更远
大家好我是郭炜开源圈的“郭大侠”。作为 Apache 基金会的成员我曾参与并孵化了多个开源项目如早期的 ClickHouse以及 Apache DolphinScheduler中文名海豚调度和 Apache SeaTunnel。这些都是 Apache 的顶级项目。现在我创办了 白鲸开源致力于通过开源打造中国的开源商业公司。今天很高兴与大家分享我的一些经历与思考。
去年我写了一篇文章标题非常直白“2024 年开源商业到底行不行”——这篇文章的确是非常及时的。在 2024 年许多公司面临着前所未有的压力尤其是 IT 行业。许多 IT 公司特别是一些初创企业正经历着生存的挑战。
大环境变化裁员潮与创业压力
我们所处的孵化器空间曾经是满满当当的但现在却空荡荡的。许多大厂裁员小厂的生存也变得更加艰难。这是一个不争的事实。但与此同时我认为开源商业模式反而在这个困难的环境中展现出了它的潜力。为什么呢
良好的商业模式在困难环境中脱颖而出
在经济和市场环境不佳时传统的商业模式和公司运营方式往往会面临更多困难。在资本市场较好时很多公司看起来都很成功大家的评分都很高但当“卷子变难”时能维持高分的公司就会更为突出。与此同时那些效率不高、商业模式不成熟的公司会逐渐沉寂。
开源商业模式在这个过程中展现了它独特的优势。开源本身具有低成本、高扩展性的特点它能够在困难时刻依然吸引用户并保持竞争力。这就是为什么我坚定认为开源商业是一种正向的增长模式。
让我们来看一下白鲸开源的实际情况。在过去一年里成功吸引了许多重要行业的客户。我们不仅覆盖了 IT 行业还跨足了多个领域像 券商如中信证券、申万恒源等、保险行业如中国人寿、中国人保等以及 消费品领域如旺旺集团、快乐蜂等这些大公司都是我们的客户。
这些客户之所以选择我们是因为他们在使用我们的开源软件时发现开源版无法完全满足他们的需求因此转向了我们的商业版。我们的商业版刚刚推出不久但已经在多个场景中得到了应用效果非常好。显然开源模式与商业化相结合为我们打开了跨行业、跨领域的市场。
开源商业模式的进阶
在开源商业中除了产品本身的质量信任也是一个至关重要的因素。通过开源用户可以直接接触到代码自由地试用和修改这不仅让他们更加信任产品也让开源产品自身拥有了强大的生命力。
开源模式提供了一个透明的环境用户可以自由地查看和修改代码。对于一些技术能力较强的公司他们完全可以基于开源版本定制自己的解决方案。因此开源不但解决了很多用户的技术难题还帮助企业节省了雇佣开发人员的成本尤其是在人员短缺的情况下。
当企业需要对接更多的数据源公司对稳定性、企业级功能、可视化监控有更高要求的其实选择商业版软件往往会成为一个更具吸引力的选择
回想过去几年我们可能会认为开源公司需要投入更多的资源去做销售、做市场推广。但是经过实际运营的验证我意识到从一开始我们就不需要大量的销售团队。产品驱动才是开源商业模式的核心。
产品会“说话”
开源产品的优势之一就是产品本身说话。比如我们的 Apache SeaTunnel虽然没有开源 UI 界面但很多用户依然可以直接使用它进行数据同步和调度任务。虽然没有图形化界面使用起来可能不如商业版那么直观但它的功能性和稳定性足以满足大多数用户的需求。很多用户在体验过开源版本之后发现自己可能还需要更多的功能或更好的支持这时他们自然会转向商业版。
在开源的商业模式中我们公司不做所有的解决方案而是专注于产品本身——做数据同步、ETL、数据调度。剩下的部分比如数据中台、数据治理等我们的合作伙伴可以接手。在这个模式下我们的合作伙伴将我们的产品整合到他们的整体解决方案中而我们依然保持专注做我们最擅长的部分。这种分工合作的方式不仅提高了效率也避免了资源的浪费。
开源商业模式在未来无疑将继续在多个行业中发挥更大的作用推动企业实现更好的创新和发展。
我如何做时间管理
在我看来开源商业的成功不仅仅依赖于一个好产品更需要深入了解用户需求和掌握市场动态。在日常的运营中我有意识地将时间和精力分配到不同的领域确保公司能够健康、持续地发展。
以下是我自己在公司运营中的时间管理和角色分配的分享。
产品是核心50%的时间投入
在我的日常工作中产品占据了我大约50%的时间。作为创始人我深知每一个细节都至关重要。从产品的功能实现到用户体验的设计每一部分我都会亲自参与。 产品RoadMap设计作为创业公司一把手不做什么比做什么更重要到底哪些功能需要做。 开源商业权衡什么时候哪些功能开源出去哪些架构需要与开源协同哪些是就给商业产品是开源商业CEO最重要的决策。 用户痛点需求优先级同步和调度产品从开源社区和商业客户那里获取了10000多个需求项在有限资源情况下哪些应该先做哪些后做对商业、社区、回款都有哪些影响。
我每天都会花大量时间与产品经理和设计团队密切合作确保每一个产品版本都能通过细节的打磨来提升用户体验。
了解用户需求客户接触与社区洞察
除了产品客户交流也是我重要的工作之一。虽然我不直接做销售但我会通过以下几种方式与客户保持紧密在开源的同时联系深入了解他们的需求
参与售前会议尽管我们公司销售团队不大但我会参与到一些售前会议中了解客户的痛点和需求。这不仅帮助我更好地理解市场还能为产品的后续迭代提供直接反馈。售后服务反馈我常常参与到售后服务的反馈环节中倾听用户在使用产品后遇到的问题和吐槽收集他们的意见与建议。开源社区观察作为Apache基金会的成员我也时常潜伏在开源社区中观察用户对我们项目的反馈了解他们的使用体验以及对产品的期望。这种第一手的反馈让我能够精准把握产品未来的发展方向。
通过这些方式我能够深刻洞察到用户需求的变化并及时调整我们的产品路线图。
CEO角色融资与战略布局
作为CEO除了产品和客户工作我还需要投入一部分精力在融资上。虽然我大部分时间都在关注产品和用户但公司的发展离不开资金的支持。需要与投资人、潜在合作伙伴保持联系寻找战略合作机会确保公司能够获得长期发展所需的资源。
但我始终认为真正能够推动公司前进的是产品和用户需求的紧密结合只有把这两者做好公司才会有持续的竞争力。
开源与商业如何平衡
说实话对于一个开源商业公司来说如何选择什么功能开源什么功能保留为商业版是非常难的。这种平衡不像表面看上去那么简单。我们公司的商业模式其实有点类似于Databricks。虽然开源和商业有一些重叠但它们的核心是不同的。我们更多的是依托于商业核心功能来进行商业化运作而开源核心则更多是用来支持用户社区的建设和产品的基础发展。
何时开源何时保留
我们会逐步地将一些商业功能合并到开源版本中但这一过程并不是简单的“开源出去”。合并的时机和策略取决于市场状况和经济形势。在开源项目的初期我会尽量将一些基础功能开源帮助更多的开发者使用和贡献。但如果经济形势不好商业收入可能受到影响我就会调整策略将一些关键功能的开源时间延后甚至暂时不完全开源。
以Apache SeaTunnel为例最初我将一些前端页面功能开源但随着经济环境的变化我逐渐意识到如果继续全开源这些功能可能会影响我们商业收入的稳定性。因此我决定在一定的条件下推迟这些功能的开源确保公司在经济不稳定时能够有足够的资金支持运营。
开源与商业的竞争
像Apache DolphinScheduler这类开源项目尽管开源但仍然存在大量的商业低价竞争者他们通过使用DolphinScheduler的代码并且提供定制化服务来与白鲸开源竞争。面对这样的挑战白鲸开源的优势就要把团队的理解、社区的支持优势体现在产品上商业版产品技术创新行业理解功能扩展上和开源版有明显差距。
同时尽力推动社区不停迭代大多数用Apache DolphinScheduler的软件厂商还停留在1.x.x阶段而社区和白鲸开源早已经是3.x.x时代。让开源的洪流自然留下最主流的开源商业公司让过去用DolphinScheduler做定制开发软件的厂商成为我们的渠道和合作伙伴。
总的来说开源与商业的平衡是一个动态的、不断调整的过程。作为一个开源公司我们不仅要做技术上的创新还要根据市场需求和公司战略不断优化产品和商业模式。同时我们也不能忽视运营和社区建设。定期的Meetup和文章发布等活动不仅是对外传播的工具也是我们不断了解用户需求、提升产品质量的重要手段。
开源公司的运营策略
持续合并新功能我们会定期将商业版本的功能合并到开源中但这是根据市场需求和公司战略来决定的并非固定的规则。灵活应对市场变化面对市场环境和经济形势的变化我们需要调整开源的节奏确保公司的可持续发展。专注于产品本身开源公司不应该仅仅依赖传统的销售模式而是通过产品本身的质量和社区的力量来吸引用户。
话说回来作为一个在开源和商业之间权衡的CEO我个人的理想目标是让开源和商业的差距尽可能地缩小。从我的角度来看社区是我们很重要的贡献者之一但真正推动产品发展的是我们对各行业的洞察以及对产品未来迭代方向的掌控。作为PMC我的责任是为社区贡献但作为商业公司CEO我的目标是更多的东西开源这样才能推动公司成功。封闭自己的功能是对公司的最大伤害。越封闭未来发展越受限而越开放反而竞争力更强。只有通过开放逼着自己的团队不停地创新和前进才能保持市场竞争力。通过开源企业能不断推动自己走得更远而不会被封闭的商业模式所困住。
赛道选择与商业模式
其次商业和开源的平衡还要取决于选择的赛道。赛道的多样性决定了开源的上限。如果选择了一个多样性强的赛道你的开源只是其中的一部分商业价值通过比开源更多的投入来获得。例如白鲸开源公司的产品调度也好数据同步也好场景非常丰富天花板非常高因此即使大量功能开源依然不会受到天花板的限制。我们的开源项目和商业已经积累了1万的未完成的需求开源版本和商业版本远不到相互竞争的时候。
云与商业合作模式
在云计算环境下控制与云厂商的合作模式也是一个挑战。选择一个多元化场景的赛道能够带来更高的上限因为它能帮助开源和商业之间建立清晰的界限。如果你所在赛道天花板不够高场景相对固定商业版与开源版的差异化就会逐渐消失。云厂商进入后可能会将你的产品“fork走”甚至推出云厂商自己的开源版本这时如果你没有足够的差异化你就可能会面临价格竞争压力。
反之赛道天花板足够高商业版和开源版差异明显例如白鲸开源的WhaleStudio是融合了Apache DolphinScheduler和SeaTunnel的产品对标的是跨云的InformaticaTalendDataworksDataArts这样产品和开源项目明显差异云厂商反而会因为你的用户基数和产品力达成高效合作。
如何保持差异化
对于一些产品如果只是专注于某一个垂直领域产品场景的限制可能会使得开源与商业的区分变得非常难。如果你选择了像Apache SeaTunnel这样多元化的数据集成平台虽然一开始开源的功能不多但随着社区的增长连接器的数量迅速增加这种开放性帮助我们不断扩展新的场景而商业版也依然能够保持强大的竞争力。
许可协议的选择
随着竞争的加剧许可协议的选择变得尤为重要。开源初创公司通常不太会考虑这一点但随着企业的成长你会发现许可协议和商业模式是紧密相连的。选择一个合适的开源许可协议尤其是在云厂商激烈竞争的环境下可以为你带来更多的市场空间。如果你的开源项目场景单一云厂商可能会以低成本打入市场而你很难脱颖而出。
商业价值与开源的关系
商业价值并不等于技术价值而是市场和客户群体认为你的产品有价值。当你选择了合适的开源许可协议后能帮助你形成清晰的商业模式。如果你面临的是像云厂商这样的竞争者你的开源项目必须能够体现出独特的商业价值而不仅仅是功能上的差异化。
开源与商业的平衡是一个不断调整的过程。你要选择合适的赛道选择适当的开源许可协议并在适当的时机开放功能。最重要的是开源与商业不是对立的开源能为商业带来更多的机会反之商业模式的成功也能支撑开源项目的持续发展。最终商业价值与开源的关系是相辅相成的只有两者结合才能推动企业的持续创新和发展。
生态的重要性
Apache DolphinScheduler
Apache DolphinScheduler 专注于数据调度和工作流管理能够帮助用户在大数据平台中调度和协调各种数据任务。它的设计和实现与 Apache 生态中的许多项目都有良好的兼容性尤其是 Hadoop 相关的项目。由于 DolphinScheduler 是一个任务调度系统它自然会需要与 Hadoop、Hive、HBase 等大数据组件进行深度集成实现复杂的数据处理和调度需求。例如
与 Hadoop 集成 通过任务调度来管理 Hadoop 的 MapReduce 任务或者调用 Hive 进行批处理。与 Kafka 集成 用于实时数据流的处理可以调度 Kafka 消费者任务处理实时数据流。与 Spark 集成 用于处理大规模数据计算 可以调度 Spark 作业支持批处理和流处理。
因此Apache DolphinScheduler 在 Apache 生态中作为一个调度系统实际上是将 Hadoop 生态内的各个组件连接起来形成一套完整的数据工作流管理系统。
Apache SeaTunnel
SeaTunnel 专注于数据集成和 ETLExtract, Transform, Load工作流尤其是在批处理和流处理的结合上能够无缝地处理来自不同数据源的数据同步和整合。SeaTunnel 的优势在于它不仅与 Apache 生态中的许多项目深度集成例如 Kafka、Hadoop、HBase、Iceberg、Hudi 等还能与外部的云平台和 SaaS 服务进行数据交互扩展了其适用范围。
Apache 生态内的整合 与 Hadoop 系列产品如 Hive、HBase、Kafka、Flume 等无缝集成用于实现大数据的同步和处理。与外部平台的对接 比够对接 Snowflake、Google Cloud、Elasticsearch 等外部服务实现跨平台的数据同步。实时数据同步 它支持流数据和批数据的结合处理异构数据源的同步能够对接多种数据库如 MySQL、PostgreSQL、时序数据库甚至支持向量数据库和大模型的整合。
两者的协同作用
整个 Apache 生态的角度来看Apache DolphinScheduler 和 SeaTunnel 各自有不同的专长但它们可以很好地协同工作。两者结合可以在数据调度和处理的多个层面提供强大的支持特别是在需要跨平台或跨场景的数据处理时它们的协同作用将极大地提升企业的数据架构能力
因此白鲸开源的商业版把这两者紧密的通过可视化方法结合到一起让用户一站式解决数据获取加工调度的ETL问题
云厂商的挑战
对于云厂商来说尽管他们提供了强大的云计算和存储服务但他们面临的挑战是如何处理多样化且复杂的数据整合需求。云厂商往往无法将所有项目聚焦于同一领域导致在数据整合和开发上存在一定的不足。例如
数据整合工具的需求多样性 数据的场景复杂且多样云厂商很难兼顾所有的应用场景和技术需求。海量的生态系统 云厂商面临的技术栈繁杂很多时候他们的基础设施和云服务并不足以覆盖所有数据整合工具所需的功能。
为什么成为 AWS 合作伙伴
像白鲸开源 WhaleStudio 这样的专注于数据整合的工具能与云厂商进行深度合作而不是竞争。例如AWS 可以利用 白鲸开源 WhaleStudio 将数据导入到其 S3 和 Redshift 中以便进一步开发。合作的原因在于云厂商虽然提供强大的计算资源但他们并不擅长所有类型的数据整合和开发。
WhaleStudio 作为数据整合的合作伙伴 在数据进入 AWS 平台如 S3 和 Redshift之前提供了强大的数据同步和转换功能帮助 AWS 弥补这一空白。竞争与合作并存 云厂商在数据整合领域往往更倾向于竞争比如 Databricks、EMR 和 Spark 是 AWS 自己开发的工具而像 WhaleStudio 这样的项目则主要聚焦于数据整合避免与云厂商的直接竞争。
大模型的快速爆发 过去几年人工智能和大模型的发展速度令很多人惊叹但与之相比数据基础设施Data Infra的发展则呈现出不同的节奏和趋势。
大模型的爆发性增长
大模型的特征是快速、突破性的进展。
例如
突破性创新 大模型的进展可以在短时间内突破某些技术瓶颈出现大量的新技术和新应用。短时间内的爆发 就像春天里竹笋的快速生长几小时内可能就会有大量的进展和新技术诞生。竞争与资源 大模型能在短期内获得资源吸引投资并迅速吸引用户但最终能成功的只有那些能争取到更多资源、获取更多用户的公司。
数据基础设施的稳步上升
与大模型的爆发性不同数据基础设施是一个长期而稳定的发展过程。
例如
积累和稳步增长 数据基础设施并不是一夜之间能成型的而是像滚雪球一样随着时间的推移积累越多项目的影响力也会逐渐扩大。长期性 数据基础设施的增长是一个五年甚至更长时间的过程需要企业在技术和用户教育上的持续投入。稳步提升 类似于Apache DolphinScheduler 这样的项目虽然已经在一些领域取得了较大进展但仍然有许多公司未能快速过渡到新的技术这反映了数据基础设施的缓慢转型。
投资预期与节奏的差异
在过去的一年里2021年可能出现了一些不切实际的预期尤其是在数据基础设施领域。投资者对这些技术的发展预期过高导致市场出现了一定的波动。与此相比数据基础设施更多的是一个 “稳步上升、滚雪球” 的过程需要时间和耐心。
用户转型的难度
对于很多企业来说转向新技术并不是一件容易的事。即使是像Apache DolphinScheduler 这样的流行项目仍然有许多公司在转型时面临着
技术更换的阻力 很多公司依然依赖旧的技术栈如 Azkaban 和 Airflow。即使这些公司意识到转型的必要性实施的过程也往往是缓慢的。变革的动力不足 许多公司并没有遇到足够的痛点迫使他们立刻做出技术转型。因此数据基础设施的用户转型往往是渐进式的而非一蹴而就的。
从大模型到数据基础设施的对比揭示了两种不同的技术发展轨迹
大模型 的发展更为突发和快速但其成功往往依赖于是否能够争取到足够的资源。数据基础设施 的发展则更加稳步、缓慢虽然短期内可能难以看到突破性的进展但其长期积累将带来稳定且强大的市场影响力。
对于数据基础设施的公司而言保持对自身节奏的坚持、做好基本功并不断积累用户的认知和使用场景最终将能够像滚雪球一样将其影响力不断扩展。
开源与商业化的平衡
开源版本和商业版本的发展是不同的。在开源项目中用户的增长是逐年稳定上升的而不是像传统的商业产品那样突然增长。这是一个长期积累的过程开源用户群的积累并不是“烧钱”能快速提升的而是逐步通过口碑和社区的扩展吸引更多的用户。
商业化转化的过程 随着开源用户的积累商业用户的转化是渐进的。例如如果开源用户数量已经达到7,000个转化到100-200个甚至更多的商业用户并不困难但这个过程是逐步进行的。行业扩展 随着用户群体的扩大商业产品也能够覆盖更多行业逐步满足不同场景的需求。
中国的技术优势
中国的独特场景
中国在近二十年的互联网高速发展过程中特别是在数据基础设施和大数据处理方面积累了独特的技术经验。这些技术优势源于中国庞大的用户基础和数据量这为开源公司出海提供了一个强有力的基础。
大数据场景的创新 中国的互联网公司在处理海量数据方面积累了丰富的经验。例如DolphinScheduler 这样的调度系统在中国已经能够支持数以万计的计算节点而这种规模和复杂度在美国等发达国家几乎是无法想象的。技术和需求的倒逼 由于中国用户众多数据量庞大技术不断被实际需求所倒逼许多技术创新和优化都是为了解决系统负荷过大带来的问题。因此尽管技术本身并无过多差异但中国的特殊场景要求本地公司不断调优和创新从而推动了技术的快速发展。数据量与创新 中国庞大的数据量和独特的互联网场景促使了更多基础设施的创新。例如云计算、大数据存储和调度系统等技术在中国的验证和优化最终形成了独特的竞争优势。
对于开源和商业化公司来说出海是一个必然的选择。随着全球市场的逐渐开放中国的技术优势和独特的互联网场景将为中国公司在国际市场上提供竞争力。通过从东南亚、日本等相对容易接受的市场入手逐步向北美和欧洲市场扩展中国公司可以利用自身的创新和技术积累在全球市场中占据一席之地。
大模型对工程师的挑战
大模型的出现无疑对工程师的要求提出了更高的标准。低水平的工程师可能会被大模型所取代因为大模型能够高效地完成很多重复性工作。比如在开发过程中大模型能够生成大量代码、优化文档甚至进行自动化测试这些任务原本需要工程师手动完成。
然而这并不意味着所有的工程师都面临淘汰。相反那些具备深厚技术背景和业务场景理解的工程师依旧会在大模型的生态中占据重要位置。大模型虽然能够提升效率但它仍然需要工程师在架构设计、业务需求分析等方面提供指导和优化。因此未来的工程师角色将更多是与大模型协作解决更为复杂的技术难题。
开源项目中的大模型应用
对于开源项目来说大模型将显著改变贡献者的角色。例如在像 Apache SeaTunnel 这样的开源项目中大模型已经开始被用于生成连接器代码尤其是在SaaS产品的连接器开发方面。大模型通过爬取文档并理解API请求的模式可以自动化生成连接器代码极大地减少了开发者的工作量。
这种自动化的内容生成方式为开源项目带来了新的活力同时也提出了如何管理自动生成内容的挑战。未来开源贡献者可能不再是单纯的开发者而是通过 RAG (Retrieval-Augmented Generation) 技术生成文档和代码的“机器贡献者”。
程序员的职业发展与分化
随着大模型的普及程序员的职业将面临明显的分化。未来5-10年内程序员将分为两类 高级程序员能够利用大模型设计架构、开发框架并且高效地生成代码。高级程序员将能够通过大模型在短时间内实现复杂的功能和代码完成更多的项目任务。 低级程序员码农这些程序员将更多地依赖大模型来辅助完成工作类似于传统的外卖配送员他们的工作将主要是监督大模型的生成结果并进行代码审查和修改。
在这个过程中那些能利用大模型提升效率、加速项目进展的工程师将处于职业生涯的上游。而那些无法快速适应并提高自身技术深度的工程师可能会面临更大的生存压力。
如何应对这一范式变化
面对这个范式的变化最重要的是要迅速适应并融入大模型生态
务必使用大模型对于每一个工程师来说必须开始学习如何利用大模型来辅助开发。大模型并不是取代你而是作为一个强大的助手能够提升工作效率。
聚焦产品场景大模型的真正价值在于如何结合实际业务场景来应用它。不要陷入仅仅学习各种皮毛的培训课程而是应该专注于如何将大模型应用到自己所在的产品中解决实际问题。
不断学习与进步对于程序员来说技术的不断学习和自我提升至关重要。未来的程序员将不再仅仅依赖于手写代码而是要设计和规划如何通过大模型高效地完成任务。
挑战与机遇并存大模型带来了前所未有的工作效率提升但也意味着对于技术人员的要求将更高。只有那些能够利用大模型优化工作流并创新的工程师才能在这个快速发展的技术环境中脱颖而出。
总的来说大模型将极大地改变开源社区和软件开发行业的生态。工程师需要在技术深度、业务理解和大模型应用能力上不断提升以便在未来的职业竞争中占据有利位置。
在未来的5-10年中程序员将进入一个分化的时代那些能够驾驭大模型的工程师将成为高端人才而不适应变化的工程师可能会被淘汰。因此快速学习和适应新的技术范式将是每个工程师不可回避的挑战。