FX168财经网_全球视野外汇黄金加密货币NFT资讯网

【一周科技动态】苹果怎么了？

除了因财报和数字货币大幅波动的成长股，大科技公司也整体在高位。至2月29日收盘，过去一周大科技公司中，表现最好的是 $特斯拉(TSLA)$ +2.26%，其次是 $亚马逊(AMZN)$ +1.25%， $Meta Platforms(META)$ +0.82%， $英伟达(NVDA)$ +0.73%， $微软(MSFT)$ +0.48%， $苹果(AAPL)$ -1.96%， $谷歌A(GOOGL)$ $谷歌A(GOOGL)$ -3.91%。刚刚过去的财报季，七大科技股的表现不一。影响资产组合的核心交易策略——一周大科技核心观点苹果放弃了什么，又想得到什么？这个财报季，七巨头中明显掉队的是谷歌和苹果。其中谷歌被ChatGPT压着光芒，Gemini哪怕只有半年的差距都需要好几年才能赶上，OpenAI一边又是Sora，一边又是GPT4.5“随时可上线”，投资者的担心可以理解。但硬件商苹果也陷入焦虑，不仅财报后表现不及同类，从去年下半年开始的表现也远逊大盘，这还是在公司不停回购的情况下。近期萦绕苹果的三件大事：停止多年的造车项目，资源转向AI； iPhone在中国（没太涨价的情况下）依然卖不大动； Vision Pro美国市场需求已大幅放缓。苹果进军电动车市场的困境有三大方面：电动车需求放缓，行业内竞争加剧；资本密集、技术复杂且竞争激烈的行业，回报可能不足以抵消其中的风险和挑战。建立销售和服务网络的挑战，原先消费电子产品的渠道和汽车并不同；但是进军AI，无论是不是晚了，都是当下正确的决定。专注于软件开发而非直接制造汽车，利用其在软件和界面设计方面的强项，为汽车用户创造价值。无论哪家车企的CarPlay都会十分乐意拥抱能与iPhone直连的集成系统。放弃造车转向如生成式AI等高增长领域，符合公司长期发展利益的决策。而且，以苹果在新产品上“不鸣则已一鸣惊人”的态度，放弃可能无法“出众”的汽车，转向生成式AI，反而更有可能出现颠覆性的产品。不过也要注意大公司也有“难掉头”的缺点。总股东回报上来看，砍掉造车业务会进一步降低开支，当然AI的投入也在所难免，所以整体上公司只要维持目前的利润率，对股东的回报应该不会减少。巴菲特 $伯克希尔B(BRK.B)$ 这样重仓在苹果的投资者，今年的股东信中都没怎么提及苹果，对于占比一半的重仓股来说，也并不是那么容易“说走就走”。虽然他并没有把苹果列为“长期投资”，但是目前苹果“专注于做自己擅长的事”，也与巴菲特的理念不谋而合。期权观察家——大科技期权策略苹果财报前后的期权交易量、未平仓量的变化都没有变化太多。从3月15日到期的月期权来看，PUT量相对于CALL更集中，且价内的未平仓PUT更多一些，短期内认为“涨不动”而Covered Call的投资者也不在少数。此外，本周超大单押注 $英伟达(NVDA)$ 近期大涨的投资者依然还在。再给个持仓大科技股的理由——为何"TANMAMG"组合总超大盘？七巨头（Magnificent Seven）组成一个投资组合(“TANMAMG”组合)，等权重、每季度重新调整权重。回测结果从2015年以来表现是远超标普500的，总回报达到了1677.92%，同期SPY 回报190.76%，均创下新高。而今年以来的回报为12.39%，超过SPY的6.89%。今年以来组合的夏普比率为4.2，而SPY为3.9，组合的信息比率为2.5

老虎证券03-01 12:01

苹果弃车从AI，背水一战的背后大招令人期待，小米又该何去何从？

择？在AI领域的竞争日益激烈的今天，各大科技公司需要更加明确自己的战略定位，加大研发投入，以应对未来的挑战。同时，我们也期待苹果在AI领域能够带来更多的创新和突破。

金融界02-29 15:44

沪指止步8连阳，芯片科技景气复苏怎么看？

接近2万亿美金，成为美股第三、全球第四大科技公司。具体来看其第四季度财报： ▶ 核心部门数据中心再创新高，AI算力需求为其带来持续增长动力。分业务看，以AI产业为主的数据中心部门于24Q4实现收入184亿美元，同比+409%，再次刷新记录。 ▶重要部门游戏业务收入高增，AI赋能PC及游戏浪潮兴起。英伟达游戏业务24Q4实现收入29亿美元，同比增长56%，主要系AI PC趋势持续加深及游戏部门新品迭出。 ▶ AI持续高速发展，算力需求持续走高。由于AI产业浪潮势不可挡，大型语言模型和生成式AI的开发在快速推进，且企业或政府本地部署AI算力的需求不断增强。英伟达创始人兼首席执行官黄仁勋表示，生成式人工智能已触及“引爆点”。公司对未来业绩保持乐观，预计2025年第一季度营收将达到240亿美元。华福证券表示，关注半导体国产替代机会，如设备、材料、零部件供应商，以及消费电子和AI应用终端领域的相关公司。二、英伟达首度将华为认定为“最大竞争对手”？据德国之声电台网站2月23日消息称，美国芯片巨头英伟达在本周提交给美国证券交易委员会的文件中，在包含AI芯片等多个类别中，首度将华为认定为“最大竞争对手”。从目前的消息来看，主要有以下两点原因： ●首先，驱动AI技术的先进制程芯片的全球格局正发生变化。据了解，英伟达在报告中表示，华为公司在包括供应GPU/CPU等在内的五个主要业务类别中的四个方面都是竞争对手。还将华为定位为一家云服务公司——可以设计自己的硬件和软件以改进人工智能计算。 ●其次，受到美国一系列AI芯片出口限制措施的影响，英伟达无法将先进芯片出口到中国，而华为的产品是其绝佳替代品。近两年，美国政府先后宣布了针对英伟达高端AI芯片的禁令规则，将A100、A800、H100、H800、L40S等产品列入出口管制范围。随后英伟达推出了定制版芯片，但整体算力相比原版缩水80%。在美国不断加大对华出口管制的情况下，中国公司已开始逐渐摆脱对美国技术的依赖。有分析师指出，华为的昇腾系列AI芯片，特别是去年推出的昇腾910B，被视为英伟达三年前推出的A100芯片在中国市场的替代品。 ●最后，英伟达将华为列为 AI 芯片领域的 " 最大竞争对手 "，这凸显了华为在全球科技竞争中的地位日益上升。此举不仅表明美国科技巨头对华为技术实力的认可，更反映出全球 AI 芯片市场的竞争格局正在发生深刻变化。华为在 GPU、CPU 等关键领域的突破，无疑将加速全球 AI 技术的发展和创新。同时，需要意识到，在全球化的今天，开放合作与互利共赢才是推动科技产业持续发展的重要动力。三、芯片是现代科技基石，产业周期正在复苏。芯片产业是现代社会的基石，关乎着科技创新、经济发展和国家安全，对各行各业的数字化转型和智能化发展具有至关重要的支撑作用。而且芯片板块具有明显的周期属性。 2023 年全年，全球半导体实现销售 5185 亿美元（-12%），中国市场则实现销售1516 亿美元（-19%），较 2022 年的较高基数有明显下滑，但 H2 呈现较好恢复。2023年初半导体市场受下游需求拖累，3月的全球和国内销售额回落到近 2-3 年来低点，其后市场开始持续回升，2023 年 12 月，半导体全球销售额达 486.6 亿美元，同比上升约 12%（中国同比+20%）；环比上升 1.4%（中国环比+4.7%），全球和中国市场均已经连续 10 个月实现环比正增长，且同比显著改善，景气度修复明显。展望2024-2025年半导体行业，SIA预计2024年市场将实现两位数增长，Gartner（高德纳）预计全球半导体市场将连续两年实现超 15%增速，而 WSTS 也在 2023 年 11 月秋季预测中将 2024 年增速预计调整至 13.1%，各机构均认为行业有望迎来新一轮上行周期。开源证券表示，展望未来，AI技术革新、存储需求复苏、汽车景气延续可能是核心增量。人工智能（AI 服务器、AI PC、AI 智能手机等）将在 2024 年继续成为半导体行业的主要增长驱动因素，其次是由于供过于求状况正常化和需求复苏而反弹的内存行业，而此外，由于库存调整周期即将结束，客户需求的支持相对稳定，供应限制可能成为需要关注的关键变量。【相关产品】 1、芯片ETF159995联接基金（008887/008888）芯片ETF跟踪国证半导体芯片指数（980017.CNI，指数简称：国证芯片）30只成分股集合A股芯片产业中材料、设备、设计、制造、封装和测试等龙头企业，其中包括中芯国际、闻泰科技、北方华创等。全市场规模最大的芯片科技类指数基金，最新规模262.52亿元。（数据来源：wind，2023.12.29） 2、消费电子ETF159732联接基金（018300/018301）消费电子ETF跟踪国证消费电子主题指数（指数代码：980030.CNI，指数简称：消费电子指数）选取公司业务领域属于消费电子板块，包括手机产业链、可穿戴智能设备、智能家居等细分领域的上市公司中日均总市值前50名证券作为指数样本，反映沪深北交易所消费电子行业优质上市公司的市场表现。风险提示：以上产品风险等级为R4（中高风险），所提基金属于指数基金，存在标的指数回报与股票市场平均回报偏离、标的指数波动、基金投资组合回报与标的指数回报偏离等主要风险，其联接基金存在联接基金风险、跟踪偏离风险、与目标ETF业绩差异的风险等特有风险，且市场或相关产品历史表现不代表未来。申购：A类基金申购时，一次性收取申购费，无销售服务费；C类无申购费，但收取销售服务费。二者因费用收取、成立时间可能不同等，长期业绩表现可能存在较大差异，具体请详阅产品定期报告。投资者在投资基金之前，请仔细阅读基金的《基金合同》、《招募说明书》和《产品资料概要》等基金法律文件，充分认识基金的风险收益特征和产品特性，并根据自身的投资目的、投资期限、投资经验、资产状况等因素充分考虑自身的风险承受能力，在了解产品情况及销售适当性意见的基础上，理性判断并谨慎做出投资决策，独立承担投资风险。以上内容与数据，与界面有连云频道立场无关，不构成投资建议。据此操作，风险自担。

有连云02-27 13:51

Oppo推出AI加持的AR眼镜原型，未来或成智能手机最佳伴侣

但它们的普及程度仍未达到预期。不过，各大科技公司仍在不断探索新的方法和应用场景。例如，苹果今年推出了高端AR头显Vision Pro，而Meta则通过其Quest系列头显在VR市场占据一席之地。然而，许多公司认为轻量化眼镜才是未来的趋势。这类产品不仅时尚便携，而且更适合日常佩戴。阿里巴巴支持的中国AR公司Nreal就是这一趋势的积极践行者之一。同样看好这一市场的Oppo也在积极布局，并坚信眼镜是“适合人工智能的硬件载体”。 Oppo在新闻稿中表示：“我们相信眼镜具有视觉和语音交互等自然功能，最终会在更多场景中成为智能手机的最佳伴侣。”这款仅重50克的Oppo Air Glass 3眼镜原型展示了公司在轻量化设计方面的实力。目前尚不清楚Oppo是否计划将这款眼镜商业化。此前的Oppo Air Glass 2并未向公众出售。然而，Oppo通过展示这款原型产品，无疑向外界传递了一个明确的信号：公司正致力于在一个潜力巨大的市场上展示其技术实力和创新能力。根据市场研究公司IDC的预测，虽然2023年AR头显的出货量仅为50万部，但到2027年，这一数字有望增长至680万部。随着技术的不断进步和市场需求的增长，Oppo等领先企业有望在AR领域取得更大的突破和成功。

金融界02-27 01:50

利好还是利空？AI对于Adobe的意义

同寻常的、有些与世隔绝的公司，能够避开大科技公司的压力。看起来Adobe是一个相对较小的市场中不容置疑的领导者，这个市场对于微软这样的公司来说并不具有吸引力或可渗透性足够大，让它们大举投资。然而，随着生成式人工智能的进化，似乎不直接针对数字创意工具的投资正在产生解决复杂编辑和创作需求的解决方案，特别是针对日常使用案例。将所有这些竞争者叠加在一起，很明显Adobe面临着前所未有的挑战。这让人想起了内容供应链战略。内容供应链战略的商业化和可行性 Adobe有一个优势，即其竞争对手大多将其工具提供为附加值。苹果和谷歌正在改进其操作系统和硬件，但并不像他们将创意工具作为独立产品进行商业化。微软的Copilots可以生成图片并将Word文档转换为PowerPoint演示文稿，但它们不一定解决人们使用Adobe的问题。 OpenAI和Midjourney正在推出非常酷的产品，但截至目前，没有电影导演在使用Sora来编辑电影，我认为我们在社交媒体上看到的许多广告都不是由Midjourney或Dall-E创建的。简单地说，Adobe仍然是专业编辑和创作的首选，远远超过其他选项。另外提一下，除了创意云，Adobe在Adobe Experience下还有一个重要业务，公司在这个业务下提供营销和分析工具，主要面向营销人员和广告商。内容供应链战略以及Adobe Firefly的商业化应该使创意业务和体验业务之间的关联变得至关重要。如果Adobe的判断是正确的，商业内容生成将大幅增加，那么它将在从生成这类内容到管理使用案例（营销活动、移动应用、网站等）方面具有独特的盈利优势。这样的协同作用可以将Adobe打造成一个独特的一站式商店，可以满足市场团队的所有需求。尽管如此，到目前为止，还没有什么实质性的进展。 Adobe的第四季度业绩 Adobe第四季度的业绩还不错，营收和利润都超出了预期。营收同比增长11.6%，达到50亿美元，净收入达到15亿美元，反映出利润率比去年同期提高了340个基点，季度环比提高了70个基点。尽管该季度经济增长加速，但相对而言仍停留在较低的两位数区间。从该公司2024年的前景来看，管理层也没有设定那么雄心勃勃的目标。来源：Adobe 在中间点，Adobe预计全年将实现10.2%的增长，利润率持平。这远低于Adobe投资者在2022年之前习惯的增长率，而且利润率增长的故事显然也达到了顶峰。因此，尽管人工智能应该为公司带来重大影响，但似乎仍然是一切如常，而且不是好的方式。相比之下，另一家人工智能领导者微软在截至去年12月的三个月里，营收增长加速至17.6%，人工智能相关产品的贡献是可观察到的、可量化的，而且是实质性的。估值随着Adobe的人工智能故事失去动力，人们越来越不清楚人工智能对该公司来说是逆风还是顺风。Adobe能否通过Firefly盈利还有待观察，但到目前为止，投资者似乎正在失去信心。今天，Adobe的股价约为542美元。根据他们的预期高端，预计他们将在2024年创造13.85美元的GAAP每股收益。因此，Adobe目前的预期市盈率为39.1倍，比5年平均水平低14%。即使在抛售之后，Adobe的市盈率仍远高于微软的34倍，而微软尽管规模更大，但预计在未来几年将超过Adobe。从历史上看，由于其差异化、宽阔的护城河和高增长预期，Adobe获得了溢价。随着竞争威胁的增加和Adobe增长的减速，不确定Adobe是否值得像以前那样拥有高达40%的市盈率，也不完全确定它是否值得拥有比增长更快的微软更高的溢价。最好的情况是，Adobe在这些水平上的估值是合理的，而且在人工智能方面，成功的可能性仍然高于失败的可能性。总结 Adobe总是受到一条宽阔的护城河的保护，这是因为它的高质量产品，但也因为它的目标市场相对较小。这个市场正在增长，利润丰厚，但还不足以让大型科技公司干预。自2022年以来，我们可以看到Adobe的增长放缓，这是由于宏观不确定性和前拉需求，但也由于它实现了更大的规模，反映出它已经达到了某种程度的上限。 Adobe公司的人工智能承诺“Adobe Firefly”最初受到了热烈欢迎，但随着时间的推移，人工智能对Adobe的影响变得越来越不确定。尽管如此，该股目前的市盈率还是相对较高的39倍，仅略低于Adobe的5年平均水平。考虑到之前讨论过的风险，这个折扣是合理的。 $Adobe(ADBE)$

老虎证券02-23 16:50

【一周科技动态】为何英伟达的“真·超预期”与众不同？

技股之称。至2月22日收盘，过去一周大科技公司中，表现最好的是 $英伟达(NVDA)$ +6.28%，其次是 $特斯拉(TSLA)$ +4.61%， $Meta Platforms(META)$ +2.72%， $亚马逊(AMZN)$ +2.11%， $微软(MSFT)$ +0.53%， $苹果(AAPL)$ +0.12%， $谷歌A(GOOGL)$ -1.27%。影响资产组合的核心交易策略——一周大科技核心观点财报的几个主要指标：EPS、收入的绝对值和相对值的变化，是投资者最为关注的基本面。在宏观大环境稳定（或向好）的情况下，大多数的公司均能发布“超预期（Surprise）”的业绩。根据FactSet的统计，过去2年的每个季度EPS超预期比例主要在70-80%之间，Q4财报季截止目前有75%的公司超预期，所以超预期并不是一件难事。什么样的超预期是“有效超预期”？以本财报季表现最好的两家公司——NVDA、META为例，他们的实际业绩超预期并不完全体现在超过的幅度。例如NVDA，过去10年的营收和EPS超预期幅度，与财报后当天表现的Pearson相关系数仅有0.26和0.30，仅为弱相关。而更重要的是意外性。一个非常明显的特征是财报前的1个月，分析师纷纷修改模型、调高预测值。即便是NVDA，在2022年周期的时候也遭遇过“财报前被调低目标”的情况，那段时间股价表现并不好。本季度的AAPL、GOOGL的财报前不但没有分析师向上调整预期，反而还略微下调，意味着“市场已经降低了预期”。分析师根据公司的指引、自己建的模型给出的自己的预测，三方数据机构就会把这些专业权威的数据汇集起来，计算平均值、中值，就成了市场一致预期（Consensus）。不同分析师更新频率不同，如果默认没有修改预期值的分析师“保持观点不变”，就容易出现统计误差。不过即便如此，市场一致预期（Consensus）仍然是个动态值，只不过被平均化之后变化较小。越来越多公司开始进行“预期管理”，让市场在惊慌时“不要太惊慌”，将“惊吓提前透支给市场”，而惊喜时“更惊喜”，反映到股价上是希望跌少涨多（美股大公司高管薪酬与股价挂钩）。毕竟亏少赚多也是投资者的目标。期权观察家——大科技期权策略 NVDA财报前后，其实多头情绪都非常乐观，除了有大单（甚至上亿美元）押注价外期权赌上涨，CALL和PUT比也来到极度贪婪的位置。从未平仓期权看，财报发布后仍有大量的仓位在900和1000的整数位，看好一周内继续上冲的量并不小。再给个持仓大科技股的理由——为何"TANMAMG"组合总超大盘？七巨头（Magnificent Seven）组成一个投资组合(“TANMAMG”组合)，等权重、每季度重新调整权重。回测结果从2015年以来表现是远超标普500的，总回报达到了1678.1%，同期SPY 回报190.43%，均创下新高。而今年以来的回报为12.41%，超过SPY的6.77%。本周组合的夏普比率为4.8，而SPY为4.2，组合的信息比率为2.7

老虎证券02-23 14:51

AI x Crypto 报告：案例研究、发展瓶颈、技术挑战

受版权保护的内容。其影响显而易见——大科技公司继续巩固权力，而无关联的内容创作者的影响力却在减弱。这种不对称的关系引发了对谷歌的诉讼，而这种关系只会变得更加极端。老牌出版商，如纽约时报已经采取了法律行动，从数字艺术家到编码员等一系列内容创作者也采取了集体诉讼。一种建议的解决方案是"检索增强生成"（RAG），它允许语言模型为其答案提供来源。然而，这与”精选片段“存在同样的问题——它根本没有给用户任何访问原始网站的理由。更糟糕的是，科技巨头们可以虚伪地利用RAG作为法律掩护，但同时仍剥夺了创作者的流量和广告收入。图 25：RAG将链接作为来源，此结果由 Perplexity AI 生成 3.3.3 加密领域的潜在解决方案随着像ChatGPT这样的"信息代理"的出现，大科技公司似乎准备重蹈覆辙，垄断人工智能的生成，尽管它们依赖的是未经认可的创作者内容。但是，现在人工智能正在扰乱市场，我们有机会重新分配权力，建立一个更公平的系统来补偿创作者。本世纪初，政策制定者错失了建立公平模式的机会，导致了今天的分配系统——一个由谷歌垄断的系统。当前人工智能的崛起是一个十字路口，我们是要纠正过去的错误，还是要让历史重演，让 OpenAI 和其他科技巨头获得单方面的控制权？为了长期激励优质内容的生产，我们必须探索继续为创作者提供公平报酬的方法。正如克里斯-迪克森（Chris Dixon）所言，加密货币通过区块链提供了一种解决方案，即充当集体谈判机器，解决类似的大规模经济协调问题，尤其是在当前权力不对称的情况下。它们的治理可以由创作者和人工智能提供商共同管理。在人工智能方面，创造者可以利用区块链的能力来编写由软件强制执行的使用条款和规定相关限制。例如，通过设定模型训练等商业应用的条件。然后，智能合约将自动执行归属系统，将人工智能系统产生的部分收入分配给贡献者。（在没有只能合约的情况下）即使目前的人工智能公司想要补偿创作者，但是由于人数太多也不太可行。区块链的可组合性还将减少对任何单一模式的依赖，从而实现更自由的人工智能市场。这种竞争将为创作者带来更友好的利润分享。面对由公正协议执行的统一条款，人工智能公司要么接受创作者制定的集体协议，要么只能放弃；科技巨头再也不能对个人施加单方面的影响力。对ChatGPT等信息代理的集中控制也引发了对嵌入式广告等问题的担忧。虽然谷歌在搜索结果的顶部对广告进行了明确划分，但AI agents可以将付费推荐无缝整合到回复中。相比之下，基于加密领域的解决方案允许对AI agents进行审计。 3.3.4 人工智能代理（AI Agents）与亚马逊从像ChatGPT这样回答语言模型自然延伸出来的是可以代表用户采取行动的人工智能程序，即从信息代理到行动代理（简称"代理"）的转变。这些系统不仅能为你找到最好的蓝牙音箱，还能直接订购送货到家。依靠OpenAI等公司的闭源代理来完成这些任务，将赋予它们超越内容创作市场的巨大力量，有可能让它们主导 6.3 万亿美元的电子商务市场等行业。OpenAI不仅会成为下一个谷歌，也会成为下一个亚马逊。如果少数几家大型科技公司拥有功能最强大、应用最广泛的人工智能代理，那么它们将对消费者和各行各业产生巨大的影响力。这些代理将对我们越来越广泛的数字生活——购物、旅行和理财——起到中介作用。如果没有人工智能代理，我们就只能依赖 OpenAI或谷歌这样的公司。它们的闭源代理将成为网络世界的守门人，控制我们对关键服务和信息的访问，而且它们可以修改代理的行为，而无需承担任何责任。这种专有人工智能的权力集中与谷歌和Facebook等大型科技垄断企业的崛起有相似之处。但是，当人工智能代理可以跨领域无缝地采取行动时，其影响将呈指数级增长。这就是去中心化的区块链替代方案如此重要的原因——它们引入了竞争、用户授权和透明度，能够抵御人工智能代理被大型科技公司垄断的风险。总之，像ChatGPT这样的人工智能模型为我们提供了信息代理，可以代表我们阅读内容并回答问题。这不仅会颠覆我们消费信息的方式，也会颠覆谷歌的商业模式和创作者赖以生存的规则。在这种颠覆面前，我们有机会建立一个对创作者的工作和贡献更公平地产生回报的新互联网。能够采取行动人工智能代理（例如在线购买商品）的区块链技术将颠覆电子商务。区块链再次为建立公平的互联网模式提供了机会。我们能否从谷歌和亚马逊时代的错误中吸取教训？ 3.4 加密领域将加速人工智能的开源技术的发展 3.4.1 人工智能现在处于什么阶段？目前，人工智能已成为21世纪发达社会的主要工具。人工智能的应用范围包括艺术、教育、金融、政治、编程以及更多其他应用。只需有限的提示，它就能在几秒钟内生成逼真的视频和图像。程序员已经开始使用人工智能来开发高效实用的代码，将自己的劳动外包给人工智能。现实世界与科幻小说之间的界限正在随着人工智能在我们社会中的每一次应用而变得越来越模糊。因此，我们很可能会面临劳动力危机。如果我们能够将大量的智力劳动外包给人工智能，那么从经济角度来看，使用人工智能可能很快就会比使用人类劳动力更有优势。如果人类劳动力被人工智能取代，我们就需要适应劳动力市场的这种新状态。这种适应将导致我们当前经济系统的运作方式发生混乱。本节将讨论人工智能的发展方向，以及通过加密技术解决方案防止此类危机发生的方法。 3.4.2 我们为什么要关注开源人工智能？一般来说，开源软件是开放给任何人使用的软件，通常附有许可证，说明可以使用该软件、和不可以使用该软件做什么。开源人工智能是指人工智能软件开放给任何人使用，并通过许可证提供类似的限制。开源项目在通常采取自由参与产品开发的组织形式。它以社区为中心，社区欢迎代码贡献和错误修正，往往具有协作性质。本节将说明人工智能开源的重要性。人工智能技术的开源可以用来创造一个更具竞争力的人工智能市场。竞争是件好事，因为在开发产品的过程中，有各种各样的人拥有不同的才能和不同的技术水平。假设有一家公司才济济，但却犯了一个大错误，那么竞争性市场就会鼓励人们去弥补这个错误，从而限制错误造成的损害。开源人工智能降低了人们进入人工智能市场的门槛，任何人都可以使用人工智能软件并做出贡献。由于任何人都可以通过开源人工智能进入市场，这就意味着市场上有了更多的竞争者，使该行业的竞争比现在激烈得多。通过开源人工智能技术可用于保护行业免受恶意伤害。技术是一种强大的工具，但其本身是中性的。它可以用来造福人类，也可以用来危害人类，这取决于技术掌握在谁的手中。我们更希望有好的行为者来掌握这项技术，尤其是为了对抗那些利用技术来伤害人类的行为者。通过开源可以让更多的好人和人才进入人工智能行业。这样可以有效打击那些希望利用人工智能造成危害的人，减少使用人工智能的邪恶势力将使世界更加安全。此外，人工智能行业的准入门槛降低，人才和技能库得以释放，会促进行业的进一步发展。人工智能能为我们人类带来进步。我们已经概述了其目前的广泛应用，但其仍由巨大的发展潜力，这对我们人类的进步大有裨益。通过开源人工智能技术可以降低人才进入该行业的门槛，从而加速人工智能的发展。更多的人才意味着我们可以制造出更好的人工智能，在社会中得到更广泛的应用。开源人工智能为我们提供了一个工具，让我们能够获得开发这项技术的人才和能力的源泉。人工智能技术的开源为开发人员提供了自由空间，他们可以根据自己的需要指定和定制人工智能。人工智能的一个特点是可以为特定目的进行定制。定制的人工智能可以满足特定的需要和需求，从而大大提高产品的质量。由于目前人工智能行业的封闭性，开发者定制人工智能软件的能力往往受到限制。开源的人工智能技术将允许开发者自由定制，使他们的产品达到最佳效果。这种自由将带来更好的市场，也将带来更好的产品。总结来看，”技术-资本“是一个永久增长的机器。通过市场获得的资本推动技术发展，市场通过技术发展创造更多资本，从而形成良性循环。开源人工智能提供了一个竞争、低门槛、自由和协作的空间，这会促进创新和人工智能技术的传播，从而刺激经济增长和更多市场（需求）。这对行业的发展能力和造福人类都至关重要。 3.4.3 OpenAI与开源人工智能在人工智能行业，领先的公司是OpenAI。自2022年发布ChatGPT以来，OpenAI 已在利润和知识方面领跑人工智能行业。他们拥有Microsoft和大科技公司的支持，因此在人工智能市场根基很深。从目前来看，要让开源人工智能与OpenAI在同一水平线上竞争，似乎是一场艰苦的战斗。然而，我们有充分的理由认为，开源人工智能有望在市场上挑战并击败 OpenAI。将人工智能技术开源能够规避恐惧的政府对人工智能行业实施的监管。目前，世界各地的政府和监管机构都在争相监管和限制新兴的人工智能产业。这种监管的目标是OpenAI所使用的传统人工智能，即由单一组织集中管理和保存的人工智能。这种监管将限制人工智能行业的发展。然而，开源的人工智能项目具有可以没有管理者的优势，而且是去中心化的。这意味着政府很难对开源的人工智项目能进行监管。这就为其提供了一个优势，即未来不会像OpenAI那样受到法规的限制。此外，我们还看到，开源的人工智能技术和项目可以从OpenAI中获益，而OpenAI却无法从它们中获益。OpenAI的主要目标是实现自身利益的最大化，这意味着他们将大量模型和数据保密，以防止竞争对手利用这些模型和数据为自己谋利。开源人工智能可以使用许可证来阻止OpenAI从不太规范的开发中获益。OpenAI会发现自己在市场中孤立无援，因为他们只是一家公司，而使用开源的人工智能技术和项目的机构却很多。这将意味着，开源公司可以通过限制OpenAI的访问权限，从OpenAI丰富的数据和知识中获益。不过，可能需要新的许可证才能最终为OpenAI提供这种访问权。最后，与OpenAI相比，开源的技术很有可能吸引那些热衷于改善人工智能的意识形态人士。这是因为它的准入门槛很低。然而，有人可能会认为，这将导致难以协调和开发产品的情况。然而，这类项目并不需要很多人。Linux的Linus Torvalds 就是这样一个例子，一个人持续不断地为项目做出贡献，就能产生如此巨大的影响。OpenAI的准入门槛较高，因此很难吸引有热情的人加入。尽管现在看来，OpenAI已经牢牢控制了人工智能行业，但开源的人工智能项目可以依靠几条路线来挑战OpenAI的控制。其灵活性、可访问性以及以社区为中心而非以利润为中心的人工智能方法，意味着它拥有强大的工具，可以通过在不断发展和动态的市场中孤立它们来击败OpenAI。它们有潜力击败OpenAI。 3.4.4 人工智能技术开源的问题然而，开源的人工智能技术要想与大型科技公司和OpenAI抗衡，还必须克服一些障碍。这些障碍可分为三个类。首先，这个领域缺乏人才。其次，这些项目和技术缺乏实际工作所需的计算能力。第三，缺乏可供人工智能自我训练和发展的数据。本节将专门阐述这三个问题。任何组织要想正常运转，都需要人才来提供开发产品所需的创新理念和工作。开源的人工智能项目面临的一个主要问题是，在这些社区工作没有利润或金钱激励。大多数人工智能工程师在决定在以下领域工作时不得不做出选择，要么在大科技公司从事高薪工作，要么冒险创业。安全的选择，也就是大多数人的选择，是在大科技公司工作并在那里谋生。最优秀的人才都去了OpenAI，而不是在没有金钱激励的开源人工智能社区工作。因此，这个领域无法吸引最优秀的人才，也就无法开发出能够挑战大型科技公司的创新产品。另一个问题是，开源的人工智能项目缺乏必要的计算能力，无法达到OpenAI所能达到的规模。更大规模的人工智能需要更多的GPU来扩大运行规模。GPU价格昂贵，实际上只有 Nvidia一家公司生产。这些开源项目缺乏资金意味着很难为AI模型提供足够的计算能力，从而与OpenAI的ChatGPT竞争。即使是在软件工程方面拥有高质量标准的Linux，也受限于其程序的计算规模。它们缺乏随意访问超级计算机的能力，因此很难与拥有这种特权的OpenAI竞争。人工智能模型需要数据来训练。尽管Meta和OpenAI等大型科技公司标榜自己是"开放"或"开源"的，但它们用于训练人工智能的数据都是私有的，只对自己开放。它们只公布完成后的人工智能模型，如ChatGPT。这些数据来自Meta 和OpenAI的海量用户群，质量和数量都很高。开源的人工智能项目劣势在于无法获得大量的高质量数据，因此无法使用最好、最多的数据来训练人工智能模型，从而无法与Meta或OpenAI 竞争。因此无法开发出能与 OpenAI 或 Meta 的产品相抗衡的产品。这些开源的人工智能技术和项目需要的是克服这三大问题的方法，这三大问题阻碍了它们挑战大型科技公司对人工智能行业控制的潜力。我们认为，加密技术可以解决它们的这些问题。 3.4.5 加密领域 (crypto) 的人工智能开源解决方案我们相信，加密技术可以解决上一节概述的所有三个问题。本节将专门针对每个具体问题提出解决方案。首先，加密货币可以通过在人工智能领域的开源项目中创建收入/奖励系统来解决人才问题。加密货币可以通过为项目贡献提供内在激励来帮助这些项目运转。这方面的一个例子是AGI Guild，这是一个由意识形态开源开发者组成的团体，他们创造了一个许可证，可以奖励为开源项目做出贡献的开发者。许可证由AGI代币管理。超过100万美元规模的公司必须获得AGI代币才能使用许可证。然后代币将分配给开源人工智能项目的贡献者。这既是对开发者的金钱奖励，也赋予了代币本身的价值，从而鼓励更多的贡献。此外，还有投票系统供成员集体决定项目的发展方向，在开源人工智能领域鼓励任人唯贤和民主，同时获得从开源人工智能中赚钱的能力。由于现在有了金钱上的激励，未来和现在的人才将不需要把自己的道路视为要么安全地选择Meta，要么在风险投资上孤注一掷，而是看到了第三条道路，即你可以在开发人工智能的过程中赚钱，而不必受到大型科技公司的专有限制。人才将被开源人工智能项目所吸引，将其视为对抗大型科技公司的可行竞争对手。其次，加密技术可降低访问服务器门槛来解决计算问题。过去，云厂商可能会拒绝开发人员使用其服务器来开发产品。有了加密技术，现在变得无需许可，这意味着任何人都可以获得他们的项目所需的计算能力。这意味着，使用开源人工智能和加密技术的开发人员现在可以根据自己的需要自由使用尽可能多的计算资源。加密技术还为开发者和社区提供了与云厂商讨价还价的能力。在过去很短的时间内，云厂商可以提高使用价格，因为开源人工智能开发者需要他们的服务器来运行他们的程序。现在，有了加密技术，我们可以将这一系统去中心化，开始挑战云厂商的价格，为更多想要开发开源人工智能的人敞开大门。现在，社区有办法也有能力向AWS等云计算公司提出挑战，要求降低价格，从而提高产品质量和工作质量。最后，加密技术可以解决数据问题，帮助那些为开源人工智能项目生成数据的用户提供奖励。这方面的一个例子是Grass，它有一个浏览器插件，可以在用户浏览互联网时生成代币。这种奖励制度意味着，随着时间的推移，随着加密应用提供更多的数据，开源的人工智能项目就能够获得越来越多的数据。这是以去中心化的方式实现的，这意味着我们不会陷入监管机构或大型科技公司发现这一问题并采取禁止IP地址等措施加以阻止的问题。这种方式无法有效阻止，因为有很多人都在使用这种插件，封禁一个人对其他人获取这些数据几乎没有影响。这样一来，这些开源项目开发者就能获得和大公司一样好的数据。这无疑会提高人工智能模型的训练水平。即使是需要保密的数据，加密技术也能充分保护隐私，而且只要数据所属用户同意，加密技术也能对其进行获取，从而更好地使用人工智能模型。总之，我们发现加密技术能够在爬取数据时满足数据敏感性要求，同时通过向开源人工智能程序更好地提供训练人工智能模型所需的数据。我们所追求的理想是，开源人工智能系统打败基于闭源软件的私有系统。机器学习如何工作？在深入探讨人工智能（AI）与加密货币的交集之前，首先要单独介绍人工智能领域的一些概念。由于本报告是为加密货币领域的读者撰写的，读者并非都对人工智能和机器学习概念有深刻理解。而理解相关概念至关重要，这样读者才能评估人工智能和加密货币交叉领域的哪些想法具有实质意义，并准确评估项目的技术风险。本节重点介绍人工智能的概念；此外，本节也重点介绍了人工智能与加密货币之间的关系。通过本章的提示，我们可以了解人工智能概念与加密领域的关系。本节所涉主题概述：机器学习（machine learing, ML）是人工智能的一个分支，在这个分支中，无需明确编程，机器就能通过数据做出决策。 ML流程分为三个步骤：数据、训练和推理。训练模型的计算成本非常高，而推理则相对便宜。学习主要有三种类型：监督学习、无监督学习和强化学习。监督的学习是指从范例（由教师提供）中学习。教师可以向模型展示狗的图片，并告诉它这就是狗。然后，模型就能学会将狗与其他动物区分开来。然而，许多流行的模型，如LLMs（如GPT-4和LLaMa），都是通过无监督学习来训练的。在这种学习模式中，教师不会提供任何指导或示例。相反，模型通过学习来发现数据中的模式。强化学习（试错学习）主要用于连续决策任务，如机器人控制和游戏（如国际象棋或围棋）。 1.1 人工智能和机器学习 1956 年，一些当时最聪明的人聚集在一起参加了一个研讨会。他们的目标是提出智力的一般原则。他们指出： "学习的每一个方面或智能的任何其他特征都可以被如此精确地描述出来，以至于可以制造一台机器来模拟它。" 在人工智能发展的早期，研究人员充满了乐观主义。从某种意义上说，他们的目标是人工通用智能（AGI），雄心勃勃。我们现在知道，这些研究人员并没有设法创造出具有通用智能的人工智能代理。70 年代和 80 年代的人工智能研究人员也是如此。在那个时期，人工智能研究人员试图开发 "基于知识的系统"。基于知识的系统的关键理念是，我们可以为机器编写非常精确的规则。从本质上讲，我们从专家那里提取非常具体和精确的领域知识，并以规则的形式写下来供机器使用。然后，机器就可以利用这些规则进行推理并做出正确的决定。例如，我们可以尝试从马格努斯·卡尔森（Magnus Carlson）那里提炼出下棋的所有原则，然后构建一个人工智能来下棋。然而，要做到这一点非常困难，即使有可能，也需要大量的人工来创建这些规则。试想一下，如何将识别狗的规则写入机器？机器如何才能从拥有像素到知道狗是什么？人工智能的最新进展来自于一个被称为 "机器学习 "的分支。在这种模式下，我们不是为机器编写精确的规则，而是使用数据，让机器从中学习。使用机器学习的现代人工智能工具随处可见，例如 GPT-4、iPhone 上的 FaceID、游戏机器人、Gmail 垃圾邮件过滤器、医疗诊断模型、自动驾驶汽车......等等。 1.2 机器学习管道（pipeline）机器学习管道可分为三个主要步骤。有了数据，我们要训练模型，然后有了模型，我们就可以使用它。使用模型称为推理。因此，这三个步骤分别是数据、训练和推理。高度概括来说，数据步骤包括查找相关数据并对其进行预处理。例如，如果我们要建立一个对狗进行分类的模型，我们需要找到狗和其他动物的图片，这样模型才能知道什么是狗，什么不是狗。然后，我们需要对数据进行处理，并确保数据格式正确，以便模型能够正确学习。例如，我们可能要求图片大小一致。第二步是训练，我们利用数据来学习模型应该是什么样的。模型内部的方程是什么？神经网络的权重是多少？参数是什么？正在进行的计算是什么？如果模型不错，我们就可以测试它的性能，然后就可以使用它了。这就到了第三步。第三步称为推理，即我们只是使用神经网络。例如，给神经网络一个输入，然后问一个问题：可以通过推理产生输出吗？图 28：机器学习管道的三个主要步骤是数据、训练和推理 1.2.1 数据现在，让我们深入了解一下每个步骤。第一：数据。广义上讲，这意味着我们必须收集数据并对其进行预处理。让我们来看一个例子。如果我们想建立一个供皮肤科医生（专门治疗皮肤病的医生）使用的模型。我们首先要收集许多人脸的数据。然后，我们请专业皮肤科医生来评估是否存在皮肤病。现在可能会出现许多挑战。首先，如果我们拥有的所有数据都包括人脸，那么模型将很难识别身体其他部位的任何皮肤状况。其次，数据可能存在偏差。例如，大部分数据可能是一种肤色或色调的图片。第三，皮肤科医生可能会犯错，这意味着我们会得到错误的数据。第四，我们获得的数据可能会侵犯隐私。经济激励措施有助于收集高质量的数据，而隐私保护技术可以解决用户在上述例子等敏感环境中的顾虑。我们将在第2章中介绍更深层次的数据挑战。不过，这可以让你了解到，收集好的数据并对其进行预处理是相当具有挑战性的。图 29：两个流行数据集的示意图。MNIST包含手写数字，而ImageNet包含数百万张不同类别的注释图像在机器学习研究中，有许多著名的数据集。常用的有： MNIST数据集说明：包含70,000个灰度图像格式的手写数字（0-9）使用案例：主要用于计算机视觉中的手写数字识别技术。它是一个对初学者友好的数据集，通常用于教育领域。 ImageNet 说明：一个包含1,400多万张图片的大型数据库，标注有20,000多个类别的标签。使用案例：用于对象检测和图像分类算法的训练和基准测试。一年一度的ImageNet大规模视觉识别挑战赛（ILSVRC）一直是推动计算机视觉和深度学习技术发展的重要活动。 IMDb评论说明：包含来自 IMDb的50,000篇电影评论，分为两组：训练和测试。每组包含相同数量的正面和负面评论。使用案例：广泛应用于自然语言处理（NLP）中的情感分析任务。它有助于开发能理解文本中表达的情感（正面/负面）并对其进行分类的模型。获取大型、高质量的数据集对于训练良好的模型极为重要。然而，这可能具有挑战性，尤其是对于较小的组织或个人搜索者而言。由于数据非常宝贵，大型机构通常不会共享数据，因为数据提供了竞争优势。在透明度和开放性与盈利能力之间取得平衡的解决方案可以提高开放数据集的质量。 1.2.2 训练管道的第二步是训练模型。那么，训练模型究竟意味着什么呢？首先，我们来看一个例子。一个机器学习模型（训练完成后）通常只有两个文件。例如，LLaMa 2（一个大型语言模型，类似于 GPT-4）就是两个文件：参数，一个 140GB 的文件，其中包括数字。 run.c ，和一个简单的文件（约 500 行代码）。第一个文件包含 LLaMa 2 模型的所有参数，run.c 包含如何进行推理（使用模型）的说明。这些模型都是神经网络。图 30：神经网络的基本图示在像上面这样的神经网络中，每个节点都有一堆数字。这些数字被称为参数，并存储在文件（惊喜！）参数中。获取这些参数的过程称为训练。下面是一个高度概括的过程。想象一下训练一个识别数字（从0到9）的模型。我们首先收集数据（在这种情况下，我们可以使用MNIST数据集）。然后开始训练模型。我们取第一个数据点，即 "5"。然后，我们将图像（"5"）传递给网络。网络会对输入图像进行数学运算。网络将输出一个0到9之间的数字。该输出是当前网络对该图像的预测。现在有两种情况。网络要么是对的（它预测了 "5"），要么是错的（任何其他数字）。如果它预测的数字正确，我们就不用做什么。如果预测的数字不正确，我们将返回网络，对所有参数进行小幅修改。在做了这些小改动后，我们再试一次。从技术上讲，网络现在有了新的参数，因此预测结果也会不同。我们对所有数据点一直这样做，直到网络基本正确为止。这一过程本质上是顺序性的。我们首先通过整个网络传递一个数据点，看看预测结果如何，然后更新模型的权重。训练过程可以更加全面。首先，我们必须选择模型架构。我们应该选择哪种类型的神经网络？并不是所有的机器学习模型都是神经网络。其次，在确定哪种架构最适合我们的问题，或者至少是我们认为最适合的架构之后，我们需要确定训练流程。例如，我们将以何种顺序将数据传递给网络？第三，我们需要硬件设置。我们要使用什么样的硬件（CPU、GPU、TPU）？我们又该如何对其进行训练？最后，在训练模型的同时，我们要验证这个模型是否真的很好。我们希望在训练结束时测试这个模型是否能提供我们想要的输出结果。剧透（其实也不算剧透），训练模型的计算成本非常高。任何微小的低效都会带来巨大的成本。正如我们稍后将看到的，特别是对于像LLM这样的大型模型，低效的训练可能会让你付出数百万美元的代价。在第2部分中，我们将再次详细讨论训练模型所面临的挑战。 1.2.3 推理机器学习管道的第三步是推理，也就是使用模型。当我使用ChatGPT并得到回应时，模型正在执行推理。如果我用脸部解锁iPhone，脸部ID模型会识别我的脸并打开手机。该模型执行了推理。数据已经有了，模型已经训练好了，现在模型训练好了，我们就可以使用它，使用它就是推理。严格来说，推理与网络在训练阶段做出的预测是一回事。回想一下，一个数据点通过网络，然后进行预测。然后根据预测的质量更新模型参数。推理的工作原理与此相同。因此，与训练相比，推理的计算成本非常低。训练LLaMa可能要花费数千万美元，但推理一次只需几分之一。与训练相比，计算成本更低。训练 LLaMa可能要花费数千万美元，但进行一次推理只需几分之一。与训练相比，进行推理的成本很低，而且更容易并行化，这可能为小型闲置计算（如笔记本电脑和手机）提供了机会。推理过程有几个步骤。首先，在实际生产中使用之前，我们需要对其进行测试。我们对训练阶段未见的数据进行推理，以验证模型的质量。其次，当我们部署一个模型时，会有一些硬件和软件要求。例如，如果我的iPhone上有人脸识别模型，那么该模型就可以放在苹果公司的服务器上。然而，这样做非常不方便，因为现在每次我想解锁手机时，都必须访问互联网并向苹果服务器发送请求，然后在该模型上进行推理。然而，如果想在任意时刻使用这种技术，进行人脸识别的模型就必须存在于你的手机上，这意味着该模型必须与你iPhone上的硬件类型兼容。最后，在实践中，我们还必须维护这一模式。我们必须不断进行调整。我们训练和使用的模型并不总是完美的。硬件要求和软件要求也在不断变化。 1.2.4 机器学习管道是迭代式的到目前为止，我把这个管道设计成了依次进行的三个步骤。你获取数据，处理数据，清理数据，一切都很顺利，然后你训练模型，模型训练完成后，你进行推理。这就是机器学习在实践中的美好图景。实际上，机器学习需要进行大量的迭代。因此，它不是一个链条，而是如下图所示的几个循环。图 31：机器学习流水线可以形象地理解为由数据、训练和推理三个步骤组成的链条。不过，在实践中，这一过程的迭代性更强，如蓝色箭头所示。为了理解这一点，我们可以举几个例子。例如，我们可能会收集一个模型的数据，然后尝试对其进行训练。在训练的过程中，我们会发现我们需要的数据量应该更多。这意味着我们必须暂停训练，回到数据步骤并获取更多数据。我们可能需要重新处理数据，或者进行某种形式的数据扩增。数据扩增就像是给数据改头换面，从老一套中创造出新的面貌。想象一下，你有一本相册，你想让它变得更有趣。你把每张照片都复制了几份，但在每份副本中，你都做了一些小改动--也许你旋转了一张照片，放大了另一张照片，或者改变了另一张照片的光线。现在，你的相册有了更多的变化，但实际上你并没有拍摄任何新照片。例如，如果你正在训练一个模特识别狗，你可能会水平翻转每张照片，然后把它也提供给模特。或者，我们改变照片中狗的姿势，如下图所示。就模型而言，这增加了数据集，但我们并没有到现实世界中去收集更多数据。使用合成数据来训练机器学习模型可能会导致许多问题，因此能够证明数据的真实性在未来可能变得至关重要。图 32：数据增强示例。对原始数据点进行多点扩增，无需到世界各地收集更多独特的数据点迭代的第二个更明显的例子是，当我们实际训练了一个模型，然后将其用于实践，即进行推理时，我们可能会发现模型在实践中表现不佳或存在偏差。这意味着我们必须停止推理过程，返回并重新训练模型，以解决这些问题，如偏差和证明。第三个也是非常常见的步骤是，一旦我们在实践中使用模型（进行推理），我们最终会对数据步骤进行修改，因为推理本身会产生新的数据。例如，想象一下建立一个垃圾邮件过滤器。首先，我们要收集数据。本例中的数据是一组垃圾邮件和非垃圾邮件。当模型经过训练并用于实践时，我的收件箱中可能会收到一封垃圾邮件，这意味着模型犯了一个错误。它没有把它归类为垃圾邮件，但它就是垃圾邮件。因此，当 Gmail用户选择 "这封邮件属于垃圾邮件 "时，就会产生一个新的数据点。之后，所有这些新数据点都会进入数据步骤，然后我们可以通过多做一些训练来提高模型的性能。另一个例子是，想象一个人工智能在下棋。我们训练人工智能下棋所需的数据是大量棋局，以及谁赢谁输的结果。但当这个模型用于实际下棋时，就会为人工智能生成更多的数据。这意味着，我们可以从推理步骤回到数据，利用这些新的数据点再次改进我的模型。这种推理和数据相连的想法适用于很多场合。本节旨在让你对机器学习模型的构建过程有一个高层次的了解，这个过程是非常反复的。它不像 "哦，我们只需获取数据，一次尝试就能训练出一个模型，然后将其投入生产"。模型是不断更新的，因此不变的记录可能会给设计带来挑战。 1.3 机器学习的类型我们将介绍三种主要的机器学习模型。监督学习："老师，教我方法" 无监督学习："只需找到隐藏的模式“ 强化学习："试一试，看什么有效" 1.3.1 监督学习 "老师，教我方法" 想象一下，你正在教孩子区分猫和狗。你（对一切都了如指掌的老师）给他们看很多猫和狗的图片，每次都告诉他们哪个是哪个。最终，孩子们学会了自己辨别。这几乎就是机器学习中监督学习的工作原理。在监督学习中，我们有大量的数据（比如猫和狗的图片），而且我们已经知道答案（老师告诉他们哪个是狗，哪个是猫）。我们利用这些数据来训练一个模型。该模型会查看许多示例，并有效地学习模仿老师。在这个例子中，每张图片都是一个原始数据点。答案（狗或猫）被称为"标签"。因此，这是一个标签数据集。每个数据点都包含一张原始图片和一个标签。这种方法概念简单，功能强大。在医疗诊断、自动驾驶汽车和股票价格预测中，使用监督学习模型的应用很多。这种方法概念简单，功能强大。在医疗诊断、自动驾驶汽车和股票价格预测中，使用监督学习模型的应用很多。然而，可以想象，这种方法面临着许多挑战。例如，我们不仅需要获取大量数据，还需要标签。这可能非常昂贵。Scale.ai (opens new window) 等公司在这方面提供了有价值的服务。数据标注对稳健性提出了许多挑战。给数据贴标签的人可能会犯错，或者只是对标签有不同意见。从人类收集的所有标签中，有 20% 无法使用的情况并不少见。激励机制和其他博弈论动态可能有助于提高开放数据集的质量。 1.3.2 无监督学习（Unsupervised Learning, USL） "只需找到隐藏的模式" 想象一下，你有一个装满各种水果的大篮子，但你并不熟悉所有的水果。你开始根据它们的外观、大小、颜色、质地甚至气味将它们分类。你不太清楚每种水果的名称，但你注意到有些水果彼此相似。也就是说，你在数据中发现了一些规律。这种情况类似于机器学习中的无监督学习。在无监督学习中，我们会给模型一堆数据（比如各种水果的组合），但我们不会告诉模型每个数据是什么（我们不会给水果贴标签）。然后，模型会检查所有这些数据，并试图自己找出模式或分组。它可能会根据水果的颜色、形状、大小或任何其他它认为相关的特征进行分组。然而，模型找到的特征并不总是相关的。这就导致了许多问题，我们将在第 2 章中看到。例如，模型最终可能会将香蕉和大蕉归为一组，因为它们都是长条形且呈黄色，而苹果和西红柿可能会被归为另一组，因为它们都是圆形且可能是红色。这里的关键在于，模型是在没有任何先验知识或标签的情况下找出这些分组的--它是从数据本身学习的，就像你根据可观察到的特征将未知水果分到不同的组中一样。无监督学习是许多流行的机器学习模型的支柱，例如大型语言模型（LLM）。ChatGPT不需要人类通过提供标签来教它如何说每个句子。它只需分析语言数据中的模式，并学会预测下一个单词。许多其他强大的生成式人工智能模型都依赖于无监督学习。例如，GAN（生成对抗网络）可用于生成人脸（即使这个人并不存在）。参见 https://thispersondoesnotexist.com/(opens new window) 图 33：人工智能生成的图像来自 https://thispersondoesnotexist.com 图 34：第二张人工智能生成的图片来自 https://thispersondoesnotexis t.com 上面的图片是人工智能生成的。我们并没有教这个模型"什么是人脸"。它是在大量人脸的基础上训练出来的，通过巧妙的架构，我们可以利用这个模型生成看似真实的人脸。请注意，随着生成式人工智能的兴起和模型的改进，对内容进行验证变得越来越困难。加密解决方案可以让我们追踪内容的来源，并以可扩展的方式让我们安全地使用生成式人工智能。 1.3.3 强化学习 (Reinforcement Learning, RL) "试一试，看什么有效 "或 "从试验和错误中学习" 想象一下，您正在教一只狗做一个新的动作，比如捡球。每当狗狗做出接近你想要的动作时，比如跑向球或捡起球，你就给它点心吃。如果狗狗做了与此无关的事情，比如朝相反的方向跑，它就得不到食物。渐渐地，狗狗发现捡到球就能得到美味的食物，所以它就会一直这样做。这基本上就是机器学习领域中的强化学习（RL）。在RL中，你有一个计算机程序或代理（如狗），它通过尝试不同的事情（如狗尝试不同的动作）来学习决策。如果代理做出了好的行为（比如捡球），它就会得到奖励（食物）；如果做出了不好的行为，它就得不到奖励。随着时间的推移，代理会学会多做能获得奖励的好事，少做不能获得奖励的坏事。从形式上看，这就是最大化奖励函数。最酷的地方在于：代理会自己通过试错找出这一切。现在，如果我们想构建一个人工智能来下棋，那么人工智能最初可以随意尝试走棋。如果最终赢得了比赛，人工智能就会得到奖励。然后，该模型就会学会走更多的胜棋。这可以应用于许多问题，尤其是需要连续决策的问题。例如，RL方法可用于机器人与控制、国际象棋或围棋（如 AlphaGo）以及算法交易。 RL方法面临许多挑战。其一，代理可能需要很长时间才能"学会"有意义的策略。这对于学习下棋的人工智能来说是可以接受的。但是，当人工智能开始采取随机行动来观察哪些行动有效时，你会把你的个人资金投入到人工智能算法交易中吗？或者说，如果机器人一开始会采取随机行动，你会允许它住在你家吗？图35：这是一些强化学习代理在训练过程中的视频：一个[真正的机器人](https://www.youtube.com/watch?v=n2gE7n11h1Y)和一个[模拟机器人](https://www.youtube.com/watch?v=hx_bgoTF7bs) 以下是每种机器学习的应用实例简述：机器学习面临的挑战本章概述了机器学习领域的问题。我们将有选择性地对该领域的某些问题展开。这样做有两个原因：1）简明扼要，全面概述该领域的挑战并考虑到细微差别会导致报告非常冗长；2）在讨论与加密货币的交叉点时，我们将重点关注相关问题。不过，本节本身只是从人工智能的角度撰写的。也就是说，我们不会在本节讨论密码学方法。本节所涉主题概述：从偏见到可访问性，数据面临着巨大的挑战。此外，数据层面上存在恶意的攻击也会导致机器学习模型的误判。当模型（如GPT-X）在合成数据上进行训练时，会发生模型崩溃。这会对其造成不可逆转的损害。标注数据可能非常昂贵、缓慢且不可靠。根据不同的架构，训练机器学习模型会面临许多挑战。模型并行化带来了巨大的挑战，例如通信开销。贝叶斯模型可用于量化不确定性。例如：在进行推理时，模型会返回它的确定程度（如 80% 的确定性）。 LLM面临幻觉（hallucination）和训练困难等特殊挑战。 2.1 数据挑战数据是任何类型机器学习模型的关键。不过，数据的要求和规模因使用的方法而异。无论是监督学习还是无监督学习，都需要原始数据（无标签数据）。在无监督学习中，只有原始数据，不需要标注。这就缓解了许多与标注数据集相关的问题。然而，无监督学习所需的原始数据仍然会带来许多挑战。这包括数据偏差：当训练数据不能代表所要模拟的真实世界场景时，机器学习中就会出现偏差。这可能导致偏差或不公平的结果，例如面部识别系统在某些人口群体上表现不佳，因为他们在训练数据中的代表性不足。不均衡的数据集：通常，可用于训练的数据在不同类别之间的分布并不均衡。例如，在疾病诊断应用中，“无病”案例可能比"有病"案例多得多。这种不平衡会导致模型在少数民族/阶层上表现不佳。这个问题与偏见不同。数据的质量和数量：机器学习模型的性能在很大程度上取决于训练数据的质量和数量。数据不足或质量不佳（如低分辨率图像或嘈杂的音频录音）会严重影响模型的有效学习能力。数据的可获取性：获取大型、高质量的数据集可能是一项挑战，尤其是对于规模较小的机构或个人研究人员而言。大型科技公司在这方面往往具有优势，这可能导致机器学习模型开发方面的差距。这是一项重大挑战。不过，众包数据集也会带来一些问题，比如数据质量的保证。经济激励和博弈论设计可以帮助创建开放的高质量数据集。数据安全：保护数据免遭未经授权的访问并确保其在存储和使用过程中的完整性至关重要。安全漏洞不仅会损害隐私，还会导致数据被篡改，影响模型性能。隐私问题：由于机器学习需要大量数据，处理这些数据可能会引发隐私问题，尤其是当其中包含敏感或个人信息时。确保数据隐私意味着尊重用户同意、防止数据泄露以及遵守 GDPR 等隐私法规。这可能非常具有挑战性（见下文示例）。在机器学习模型中，删除特定用户的数据（遵守GDPR）是一项非常具有挑战性的工作。与数据库不同，我们不能随便删除一个条目。模型参数会根据提供的所有数据进行调整，因此在模型训练完成后删除特定用户的信息是非常困难的。图 34：数据隐私的一个特殊问题源于机器学习模型的性质。在普通数据库中，我可以有关于多人的条目。如果我的公司要求我删除这些信息，你只需从数据库中删除即可。然而，当我的模型经过训练后，它持有几乎整个训练数据的参数。不清楚哪个数字对应训练中的哪个数据库条目 2.1.1 模型崩溃在无监督学习中，我们要强调的一个特殊挑战是模型崩溃。在本文中，作者进行了一项有趣的实验。GPT-3.5 和 GPT-4 等模型是使用网络上的所有数据训练而成的。然而，这些模型目前正在被广泛使用，因此一年后互联网上的大量内容将由这些模型生成。这意味着，GPT-5 及以后的模型将使用 GPT-4 生成的数据进行训练。在合成数据上训练模型的效果如何？他们发现，在合成数据上训练语言模型会导致生成的模型出现不可逆转的缺陷。论文作者指出："我们证明，如果我们要保持从网络上搜刮的大规模数据进行训练所带来的好处，就必须认真对待这一问题。事实上，当从互联网抓取的数据中出现由 LLM 生成的内容时，收集到的有关人类与系统之间真正交互行为的数据的价值将越来越大"。这可能表明，围绕数据出处（追踪数据来源）的解决方案存在重大机遇。图 35：模型崩溃示意图。随着使用人工智能模型生成的互联网内容越来越多，下一代模型的训练集中很可能包含合成数据，如本文所示请注意，这种现象并非LLM所特有，它可能会影响各种机器学习模型和生成式人工智能系统（如变异自动编码器、高斯混合模型）。现在，让我们来看看监督学习。在监督学习中，我们需要一个贴有标签的数据集。这意味着原始数据本身（一张狗的图片）和一个标签（"狗"）。标签由模型设计者手动选择，可以通过人工标注和自动化工具相结合的方式获得。这在实践中带来了许多挑战。这包括主观性：决定数据的标签可能是主观的，从而导致模糊不清和潜在的伦理问题。一个人认为合适的标签，另一个人可能会有不同的看法。标签的差异：同一个人（更不用说不同的人）重复运行可能会提供不同的标签。这就提供了 "真实标签 "的噪声近似值，因此需要质量保证层。例如，人类可能会收到一个句子，并负责标注该句子的情绪（"快乐"、"悲伤"......等）。同一个人有时会给完全相同的句子贴上不同的标签。这就降低了数据集的质量，因为它在标签中引入了差异。在实践中，20% 的标签无法使用的情况并不少见。想象一下，创建一个数据集来预测区块链上新协议的质量。你很可能会得到一个范围很广的分数，这取决于你所选择的评分系统的次活动性，以及你所调查的人的意见差异。缺乏专家注释者：对于一个小众的医疗应用，人们可能很难获得大量有意义的标签数据。这是由于能够提供这些标签的人员（医学专家）十分稀缺。罕见事件：对于许多事件来说，由于事件本身非常罕见，因此很难获得大量的标注数据。例如，发现流星的计算机视觉模型。高成本：当试图收集大量高质量数据集时，成本可能高得惊人。由于上述问题，如果需要对数据集进行标注，成本尤其高昂。还有很多问题，比如应对对抗性攻击和标签的可转移性。为了让读者对数据集的规模有一些直观的了解，请看下图。像 ImageNet这样的数据集包含1400万个标签数据点。图 36：各种机器学习数据集的规模示意图。Common Crawl的近似值为10亿个网页，因此总字数远远超过这个数字。小型数据集（如 Iris）包含 150 幅图像。MNIST 大约有 70,000 张图像。请注意，这是一个对数比例 2.1.2 强化学习中的数据收集在强化学习中，数据收集是一项独特的挑战。与监督学习不同的是，监督学习的数据是预先标记好的静态数据，而强化学习则依赖于通过与环境互动而产生的数据，这通常需要复杂的模拟或真实世界的实验。这就带来了一些挑战：这一过程可能会耗费大量资源和时间，对于物理机器人或复杂环境而言尤其如此。如果机器人在真实世界中接受训练，那么它从试验和错误中学习可能会导致事故。或者，也可以考虑让训练机器人通过试验和错误来学习。奖励稀少且延迟：在收到有意义的反馈之前，代理可能需要探索大量的行动，从而难以学习有效的策略。确保所收集数据的多样性和代表性至关重要；否则，代理可能会过度适应狭隘的经验集，而不能通用化。在探索（尝试新行动）和利用（使用已知的成功行动）之间取得平衡使数据收集工作更加复杂，需要复杂的策略才能有效收集有用的数据。值得强调的一点是，数据收集与推理直接相关。在训练一个强化学习代理下棋时，我们可以利用自我对弈来收集数据。自我对弈就像是与自己下棋，以获得进步。代理与自己的副本对弈，形成一个持续学习的循环。这种方法非常适合收集数据，因为它会不断产生新的场景和挑战，帮助代理从广泛的经验中学习。这一过程可以在多台机器上并行执行。由于推理的计算成本很低（与训练相比），这一过程对硬件的要求也很低。通过自我游戏收集数据后，所有数据都将被用于训练模型和改进模型。闲置计算在分布式推理和数据收集中可以发挥强大作用，因为对硬件的要求比训练低得多。 2.1.3 对抗性数据攻击数据毒化攻击：在这种攻击中，通过添加扰动来破坏训练数据，从而欺骗分类器，导致不正确的输出。例如，有人可能会在非垃圾邮件中添加垃圾邮件元素。这将导致将来在垃圾邮件过滤器的训练中加入这些数据时，性能下降。这可以通过在非垃圾邮件上下文中增加 "free"、"win"、"offer "或 "token"等词的使用来解决。规避攻击：攻击者在部署过程中操纵数据，欺骗先前训练好的分类器。规避攻击在实际应用中最为普遍。针对生物识别验证系统的"欺骗攻击 "就是规避攻击的例子。对抗性攻击：这是对合法输入的修改，目的是愚弄模型，或者使用专门设计的"噪音"来引起错误分类。请看下面的例子，在熊猫图像中添加噪音后，模型将其分类为长臂猿（置信度为99.3%）。图 37：通过在熊猫图像中添加特殊类型的噪声，模型可预先判断出图像是长臂猿而不是熊猫。在进行对抗攻击时，我们向神经网络提供一幅输入图像（左图）。然后，我们使用梯度下降法构建噪声向量（中）。该噪声向量被添加到输入图像中，从而导致错误分类（右图）。(图片来源：本文图 1解释和利用对抗性实例》论文中的图 1）在创建开放数据集时，有必要建立一个强大的质量控制层，以避免恶意攻击。此外，数据出处（追溯图像来源）可能会有所帮助。 2.2 训练方面的挑战训练机器学习模型会面临许多挑战。本节绝不是为了说明这些挑战的严重性。相反，我们试图让读者了解挑战的类型和瓶颈所在。这将有助于建立直觉，从而能够评估将训练模型与密码原语相结合的项目构想。请看下面这个无监督学习问题的例子。在无监督学习中，没有 "老师 "提供标签或指导模型。相反，模型会发现问题中隐藏的模式。考虑一个猫狗数据集。每只猫狗都有两种颜色：黑色和白色。我们可以使用一个无监督学习模型，通过将它们聚类为两组来找到数据中的模式。该模型有两种有效的方法：将所有狗集中在一起，将所有猫集中在一起将所有白色动物集中在一起，将所有黑色动物集中在一起。请注意，从技术上讲，这两者都没有错。模型找到的模式很好。然而，要完全按照我们的要求来引导模型是非常具有挑战性的。图 38：训练好的对猫和狗进行分类的模型最终可能会根据颜色将动物聚类在一起。这是因为在实践中很难指导无监督学习模型。所有图像均由人工智能使用 Dalle-E 生成这个例子说明了无监督学习所面临的挑战。然而，在所有类型的学习中，能够评估模型在训练过程中的学习效果并进行潜在干预至关重要。这可以节省大量资金。在无权限系统中，模型的训练无需专家监督，因此可能会浪费大量资源。处理早期停止等问题的自动化工具还很不成熟。训练大型模型的挑战还有很多，这是一个非常简短的清单：训练大规模机器学习模型，尤其是深度学习模型，需要大量的计算能力。这通常意味着要使用高端 GPU 或 TPU，而它们可能既昂贵又耗能。与这些计算需求相关的成本不仅包括硬件，还包括连续运行这些机器（有时长达数周或数月）所需的电力和基础设施。强化学习因其训练的不稳定性而闻名，模型或训练过程中的微小变化都可能导致结果的显著差异。与Adam等监督学习中使用的更稳定的优化方法不同，强化学习中没有放之四海而皆准的解决方案。通常需要对训练过程进行定制，这不仅耗时，而且需要深厚的专业知识。强化学习中的探索-开发两难问题使训练变得更加复杂，因为找到正确的平衡点对于有效学习至关重要，但却很难实现。机器学习中的损失函数定义了模型的优化目标。选择错误的损失函数会导致模型学习到不恰当或次优的行为。在复杂任务中，例如涉及不平衡数据集或多类分类的任务，选择、有时甚至定制设计正确的损失函数变得更加重要。损失函数必须与应用的实际目标紧密结合，这就需要深入了解数据和预期结果。在强化学习中，设计能持续、准确反映预期目标的奖励函数是一项挑战，尤其是在奖励稀少或延迟的环境中。在国际象棋游戏中，奖励函数可以很简单：赢了得 1 分，输了得 0 分。但是，对于行走机器人来说，这个奖励函数可能会变得非常复杂，因为它将包含 "面向前方行走"、"不要随意摆动手臂 "等信息。奖励函数（和损失函数）包含了模型去符号化者认为重要的主观因素。可能有必要建立管理制度，以确保为广泛使用的模型选择适当的函数。在监督学习中，由于深度神经网络的 "黑箱 "性质，要了解是哪些特征驱动了复杂模型（如深度神经网络）的预测具有挑战性。这种复杂性使得调试模型、了解其决策过程和提高其准确性变得十分困难。这些模型的复杂性也对可预测性和可解释性提出了挑战，而这对在敏感或受监管领域部署模型至关重要。同样，训练模式和所涉及的挑战也是非常复杂的话题。我们希望上述内容能让您对所涉及的挑战有一个大致的了解。如果您想深入了解该领域当前面临的挑战，我们推荐您阅读《应用深度学习中的开放性问题》（Open Problems in Applied Deep Learning）和《MLOps 指南》（MLOps guide）。从概念上讲，机器学习模型的训练是按顺序进行的。但在很多情况下，并行训练模型至关重要。这可能只是因为模型太大，一个 GPU 难以容纳，并行训练可以加快训练速度。然而，并行训练模型会带来重大挑战，包括通信开销：将模型分割到不同的处理器需要这些单元之间不断进行通信。这可能会造成瓶颈，尤其是对于大型模型而言，因为各单元之间的数据传输可能会耗费大量时间。负载均衡：确保所有计算单元得到平等利用是一项挑战。不平衡会导致一些单元闲置，而另一些单元超负荷运行，从而降低整体效率。内存限制：每个处理器单元的内存都是有限的。在不超出这些限制的情况下，有效管理和优化多个单元的内存使用情况是非常复杂的，尤其是大型模型。实施的复杂性：设置模型并行涉及计算资源的复杂配置和管理。这种复杂性会增加开发时间和出错的可能性。优化困难：传统的优化算法可能无法直接适用于模型并行化环境，也无法提高效率，这就需要进行修改或开发新的优化方法。调试和监控：由于训练过程的复杂性和分布性增加，监控和调试分布在多个单元上的模型比监控和调试运行在单个单元上的模型更具挑战性。分散和并行训练方面的基本新方法可以极大地推动机器学习的进步。 2.3 推理中的挑战许多类型的机器学习系统面临的最重要挑战之一就是它们可能会"自信地出错"。ChatGPT可能会返回一个我们听起来很有把握的答案，但事实上这个答案是错误的。这是因为大多数模型经过训练后都会返回最有可能的答案。贝叶斯方法可用于量化不确定性。也就是说，模型可以返回一个有根据的答案，来衡量它有多确定。考虑使用蔬菜数据训练图像分类模型。该模型可以获取任何蔬菜的图像，并返回它是什么，例如 "黄瓜 "或 "红洋葱"。如果我们给这个模型输入一张猫的图像，会发生什么呢？普通模型会返回它的最佳猜测，也许是 "白色洋葱"。这显然是不正确的。但这是模型的最佳猜测。贝叶斯模型的输出则是 "白色洋葱 "和一个确定度，例如 3%。如果模型有 3% 的确定性，我们可能就不应该根据这个预测采取行动。图 39：常规模型预测（只返回最有可能的答案）和贝叶斯模型预测（返回预测结果的 s 分布）的示意图这种形式的不确定性定性和推理在关键应用中至关重要。例如，医疗干预或金融决策。然而，贝叶斯模型的实际训练成本非常高，而且面临许多可扩展性问题。推理过程中出现的更多挑战维护：随着时间的推移，尤其是数据和现实世界场景发生变化时，保持模型的更新和正常运行。 RL 中的探索-利用：在探索新策略和利用已知策略之间取得平衡，尤其是在推理直接影响数据收集的情况下。测试性能：确保模型在新的、未见过的数据上表现良好，而不仅仅是在训练过的数据上。分布偏移：处理输入数据分布随时间发生的变化，这种变化会降低模型性能。例如，推荐引擎需要考虑客户需求和行为的变化。某些模型生成缓慢：像扩散模型这样的模型在生成输出时可能需要大量时间，而且速度较慢。高斯过程和大型数据集：随着数据集的增长，使用高斯过程进行推理的速度会越来越慢。增加防护栏：在生产模型中实施制衡措施，防止出现不良结果或误用。在封闭源模型中增加哪些防护措施，这对于确保不出现偏差至关重要。 2.4 LLM 面临的挑战大型语言模型面临许多挑战。不过，由于这些问题受到了相当多的关注，我们在此仅作简要介绍。 LLM 不提供参考文献，但可以通过检索增强生成（RAG）等技术来缓解没有参考文献等问题。幻觉：产生无意义、虚假或无关的输出。训练运行需要很长时间，而且数据集重新平衡的边际值很难预测，这就导致了缓慢的反馈循环。很难将人类的基本评估标准扩展到模型所允许的吞吐量。量化在很大程度上是需要的，但其后果却鲜为人知。下游基础设施需要随着模型的变化而变化。在与企业合作时，这意味着长时间的发布延迟（生产总是远远落后于开发）。不过，我们想重点介绍论文《沉睡代理：训练通过安全训练持续存在的欺骗性 LLMs》一文中的一个例子。作者训练的模型会在提示年份为 2023 年时编写安全代码，但在提示年份为 2024 年时插入可被利用的代码。他们发现，这种后门行为可以持续存在，因此标准的安全训练技术无法将其清除。这种后门行为在最大的模型中最持久，在经过经训练产生思维链路以欺骗训练过程的的模型中也最持久，甚至就算思维链路已经消失也一直存在。图 40 后门示意图。如果是 2024 年，模型的训练表现为 "正常"，但如果是 2024 年，则策略表现不同。资料来源：本文图 1 模型训练过程的透明度至关重要，因为即使是开源模型，也可能被训练出只在特定情况下使用的后门。例如，想象一下，将一个有资金的钱包连接到一个人工智能代理，结果却发现了一个后门。然后，这个代理就会将所有资金转移到一个特定的地址，或者以不同的身份恶意行事。在本章中，我们讨论了机器学习领域的许多挑战。显而易见，研究的巨大进步解决了许多此类问题。例如，基础模型为训练特定模型提供了巨大优势，因为您只需根据使用情况对其进行微调即可。此外，数据标注不再是全手工过程，使用半监督学习等方法可以避免大量的人工标注。本章的总体目标是先让读者对人工智能领域的问题有一些直观的了解，然后再探讨人工智能与密码学的交叉问题。报告外读物 3.1.1 Gensyn 网站： https://www.gensyn.ai/(opens new window) 一句话简介：去中心化机器学习计算协议，实现人工智能开发民主化。描述：旨在通过将全球所有计算能力整合到一个全球超级集群中，彻底改变人工智能和加密货币领域。该网络专为机器学习计算协议设计，任何人都可以随时访问，从而推动机器学习的发展。通过利用区块链技术，Gensyn实现了人工智能训练过程的去中心化，允许点对点、低成本高效率地访问计算资源。这就消除了对云寡头和大型科技公司的依赖，为人工智能开发提供了一个更加民主和无许可的环境。Gensyn的协议使世界各地的设备（包括未充分利用的硬件）都能为去中心化计算网络做出贡献，为任何人、任何地方都能实现人工智能潜力的未来铺平了道路。简短描述什么是数据类别中的公司，最好使用第 2 章中的框架进行细分。 3.1.2 Axiom 网站： https://www.axiom.xyz/(opens new window) 一句话简介： Axiom利用零知识证明，实现对以太坊历史的无信任链上查询和计算，适用于数据丰富的动态的去中心化应用。描述：为人工智能和加密货币的交叉领域铺平了道路，它使开发人员能够在以太坊上创建智能合约，这些合约可以通过零知识（ZK）证明对区块链数据的整个历史进行访问和计算。这一点至关重要，因为它为动态DeFi应用、定制化的预言机和链上忠诚度计划开辟了新的可能性，允许协议根据历史链上活动进行调整，而无需依赖外部预言机或修改已部署的合约。此外，该协议还旨在将 ZK 技术用于人工智能应用，例如通过确保数据完整性和无信任计算，Axiom可以验证在线内容并检测深度伪造。这使得Axiom成为以太坊上未来安全、数据丰富应用的关键参与者，利用人工智能和加密货币的优势，创建一个更加透明、高效和用户驱动的生态系统。来源：金色财经

金色财经02-22 17:01

谷歌升级大模型，长期蹲点又开始了？

张使谷歌处于持续增长的有利位置。在主要大科技公司中，谷歌仍然以两位数的增长率增加收入，并最终在人工智能领域扩大了立足点。所以重要的是谷歌已经知道如何有效地将其开始在搜索业务。其实从Q3以来，谷歌股价逊于整个市场，尤其是与AI相关的概念股。广告业务尤其容易受经济周期影响； AI产品还未进入大量变现期，短期内对估值的提升不明显。正因如此，长期的投资价值也凸显。其实除了搜索业务外，Google 在接下来的季度也有机会扩大其视频和云业务。仅在第四季度，YouTube 业务就创造了92亿美元的收入，同比增长15.6%，内容创作者模式的兴起使广告商更容易找到他们的客户，并激励他们将更多广告资金投入视频媒介。同样受益的 $Meta Platforms(META)$ 的Reels也在最近的财报中显示出了强劲的增长以及运营效率的提升。与此同时，最近发布的各种AI产品，如云客户端的AI超级计算机和Duet AI，使Google有可能在可预见的未来扩大其云业务。在Q4，云业务就创造了91.9亿美元的收入，同比增长25.5%，而公司现在拥有近9万名生成式AI顾问来协助客户。如果新发的AI工具在接下来的几个月加速，公司到2029年前云业务的增速可能会超过市场预期的16.4%。鉴于所有这些增长催化剂，可以说如果Google在接下来的季度继续超过预期，那么公司还有更多的增长空间。目前PE估值为24倍，以及明显落后于5年平均，如果以约19倍的前瞻市盈率来看，相对于其他公司也被低估。

老虎证券02-22 11:54

美国科技巨头托举着全球市场，普通投资者怎么办？

即这场狂欢可能会在今年年底结束。" 在大科技公司因押注人工智能将提高利润而股价大涨之际，美股较世界其他地区出现了大规模倾斜。Nvidia是去年人工智能推动的涨势中当之无愧的赢家，股价飙升了 200% 以上。Meta、Alphabet、微软和苹果去年也实现了大幅上涨。截至目前，这五只股票中有四只今年以来涨幅较高。 "它们的溢价对我们来说很危险。只要'Magnificent Seven'势头强劲，投资组合的短期表现就将取决于其中的好坏。"MRB Partners 董事总经理兼全球策略师Phillip Colmar在谈到市值最大的七只美股时说道。"在这类上涨的后期阶段，当一切都非常泡沫化、欣喜若狂的时候，如果你不参与其中，就会有被淘汰的风险。" 这位策略师还强调，当前的高集中度涨势与 20 世纪 90 年代末的网络泡沫有相似之处，当时许多在 1999 年分散投资于科技行业的短期投资者在 2000 年初泡沫破灭前全军覆没。 Horizon Investments研究与产品开发主管Mike Dickson认为，虽然高度集中通常对市场不利，但 "不持有这些股票的主动风险要比持有这些股票的主动风险大得多，因为这就是整个市场的风险所在"。 "如果你是一位主动型经理人，你不可能持有所有这些股票的大量超额收益。因此，从主动管理的角度来看，这无疑具有挑战性。但这并不一定意味着它不会继续发生，"Dickson 说。其他地方的机会导致缺乏分散投资的另一个因素是海外市场的资金回流美国。尤其是，中国股市的信心危机和欧洲的地缘政治困境削弱了主要海外市场的情绪。 Colmar建议分散投资，远离美国市场，他强调日本是亚洲的一个亮点，也是巴菲特的首选之一。尽管最新的经济增长显示日本陷入了衰退，但科尔马仍表示，日本是一个战术性买点。 "我希望看到国内数据连续改善。这将真正支持我们的观点，"Colmar说。"但我不认为这是从那里开始的，我认为是从全球贸易周期开始的。"他说，结合廉价日元和政府扶持的国内动力，可能有潜力可以释放出来。日本日经 225 指数在 2024 年的涨幅超过 14%，超过标准普尔 500 指数 4.9% 的涨幅。在过去的 12 个月里，日经指数上涨了 39.3%。日经指数的交易量也接近 30 多年来的最高纪录。另一方面，投资组合经理对欧洲股市的机会看法不一。欧洲公司的盈利表现优异。Colmar说，与此同时，对欧元区的普遍悲观情绪意味着股票正在以折扣价交易，从而在那里创造了机会。这位策略师说："在全球经济增长良好、基本面良好、债券收益率可能较高的环境下，你希望在盈利支持和评估方面处于有利地位。" 不过，Berezin 对欧元区的前景仍然较为悲观。他建议投资者在评估股票配置时，重点关注行业而非地区。Berezin 以荷兰芯片制造商 ASML 为例说，虽然欧洲股市因科技股较少而全面走低，但其拥有的科技股 "实际上相当昂贵"。欧洲斯托克 600 指数今年迄今仅上涨了 2.6%，表现逊于美国大盘指数。个别国家指数的表现也不尽如人意。英国富时 100 指数今年下跌 0.3%，西班牙 IBEX 35 指数下跌超过 2%。虽然德国 DAX 指数和法国 CAC 40 指数分别上涨了约 2% 和 3%，但它们的表现仍不及标准普尔 500 指数。

金融界02-21 04:25

华尔街转舵：竭力避开中国股票，投资者利用悲观情绪投资

交易量第二大的交易，仅次于做多所谓的七大科技公司(Magnificent Seven)。在房地产危机、通货紧缩、经济增长放缓和年轻人失业率上升的背景下，在华尔街和其他地方，投资者对中国市场的兴趣正在逐渐消失。仅今年一年，MSCI中国指数就下跌了近7%，比2021年的峰值低了近60%。（中国与其它新兴市场分歧扩大，来源：彭博）墨尔本IG Markets Ltd.的新兴市场分析师Hebe Chen说:“过去三年，在不同领域的混乱中，怀疑情绪不断增长，最近的市场和经济动荡充分暴露了这种怀疑情绪。” 最近，悲观情绪愈演愈烈，市场参与者不仅将投资组合转移到国外，还利用悲观情绪进行投资。 Direxion的ETF，即Direxion Daily MSCI Emerging Markets ex China Bull 2X Shares（股票代码 XXCH），于2月7日开始交易。去年全球最畅销的新兴市场基金是 iShares MSCI Emerging Markets ex China ETF (EMXC)，根据彭博汇编的数据，到目前为止，该基金的资产规模已接近100亿美元。接受美银调查的受访者中，有三分之一的人表示，如果看到中国出台更积极的财政政策提振房地产行业，他们将增加对中国股票的配置。这些受访者在全球拥有5680亿美元资产。采取防御措施目前，被授权投资中国股票的基金经理正在尽其所能减少潜在损失。巴林银行中国香港股票主管William Fong在一份客户报告中写道，巴林银行持有的中国股票“定位于防御性和收益性资产，因为这些资产的波动性较低，且当前估值具有吸引力”。他说:“资本没有在整个经济中得到有效配置，这是政府机构在未来一年需要改善的一个关键领域。我们正在监测最近推出的政策的影响，比如放宽购房资格，以及旨在刺激消费的新举措。” 美银说，在截至2月7日的一周内，投资于中国股市的基金获得了创纪录的198亿美元，这可能是由政府支持的投资者推动的。然而，MSCI中国指数今年以来仍处于下跌状态。 GlobalData TS Lombard主管Davide Oneglia表示，中国投资组合流动的“大放松”才刚刚“开始”。他补充说，中国政府采取的一系列措施有所帮助，“但结构性驱动因素将继续主导整个金融周期。”

Sissi02-15 03:34

24小时热点