Tether Data 标志着人工智能发展的新篇章,推出了 QVAC Genesis I,这是有史以来为训练专注于 STEM 学科的语言模型而创建的最大、最先进的合成数据集。
这项由 Tether 的人工智能研究部门 QVAC 提出的倡议,旨在使人工智能模型训练的优质数据访问民主化,挑战大型科技公司的中心化。
公告的核心是 QVAC Genesis I,一个包含 410 亿个文本标记的庞大集合。每个标记代表语言的一个片段,是人工智能模型学习理解和生成文本的原材料。
这个数据集在教育和科学基准上经过严格验证,在数学、物理、生物和医学等领域的推理和问题解决方面表现出色。
与现有的公共数据集相比,后者往往缺乏 STEM 内容,QVAC Genesis I 为科学教育提供了全面且经过验证的覆盖。
这是首个公开可用的此类合成数据集,旨在支持构建更智能、更精确和具有批判性思维的语言模型。
除了技术价值外,QVAC Genesis I 的发布代表了对谁应该控制智能未来的立场。
在由少数巨头主导的人工智能模型训练和管理的格局中,Tether Data 旨在将权力和自主权归还给用户和研究人员。
目标是促进开放和社区驱动的智能,为超越大型平台范围的科学研究和创新提供高质量数据。
根据 Tether 首席执行官 Paolo Ardoino 的说法,
"智能不应该被中心化。通过 QVAC Workbench 和 Genesis I,我们打开了通往无限智能的大门,这种智能在自己的设备上本地生活、学习和进化。智能,就像信息一样,必须是免费的、可访问的,并且属于每个人,而不是被锁在企业防火墙后面或作为服务出售。"
与数据集同时,Tether Data 还推出了 QVAC Workbench,这是第一个将人工智能直接带到用户设备上的消费者应用程序。
它是为本地人工智能设计的完整工作空间,适合爱好者、高级用户和研究人员。该应用程序支持广泛的语言和人工智能模型,包括 Llama、Medgemma、Qwen、SmolVLM、Whisper 等。
QVAC Workbench 已经可用于智能手机(最初在 Android 上,不久也将在 iOS 上)和桌面(Windows、macOS、Linux),与当前解决方案相比,提供了最广泛的设备兼容性。
与人工智能模型的所有互动和聊天都保持本地和私密,数据仍然是用户的专有财产。一个名为"委托推理"的创新功能还允许移动应用程序与桌面应用程序之间的点对点连接,利用家庭或商业工作站的计算能力。
Tether Data 和 QVAC 的方法基于去中心化和适应性人工智能的愿景,它在任何设备上生活和学习,将控制权和自主权归还给个人和社区。
QVAC 的使命很明确:"本地人工智能。无限智能。不妥协。"智能不应该是机构的特权,而应该回到人民手中,确保建设、学习和分享的自由。
QVAC Genesis I 数据集是通过多阶段生成和验证过程创建的,将高质量的科学和教育材料转化为结构化学习数据。
结果是一种训练资源,帮助模型推理、解决问题和批判性思考,超越了单纯的语言模仿。
"今天的许多人工智能模型看起来很智能,但它们并不真正思考,"Ardoino 强调。"我们设计这个数据集是为了帮助模型理解因果关系,建立联系,得出结论,并在复杂性中推理。而且我们向所有人开放。"
通过公开 QVAC Genesis I,Tether Data 邀请研究人员和开发者社区构建和利用能够与专有系统竞争甚至超越它们的模型。
数据集的完整技术文档可在专门的研究博客上获取,为任何想要为人工智能发展做出贡献的人提供透明度和工具。
QVAC Workbench 应用程序可从官方网站下载,准备好被任何希望体验本地人工智能力量的人测试和采用。
Tether Data 符合 Tether 更广泛的愿景,旨在通过技术促进自由、透明和创新。
公司的使命是使个人和组织能够直接连接和共享信息,无需不必要的中介。
得益于安全和点对点系统,Tether Data 为用户提供了对数据、通信和数字交互的更大控制权,通过为隐私、效率和弹性设计的去中心化基础设施重新定义信息流。
QVAC 代表了 Tether Data 人工智能研究的前沿,致力于构建开放、去中心化和适应性智能系统。
目标是一个人工智能在每个设备上生活和学习的世界,赋予个人和社区权力,而不是将权力集中在企业数据中心。
通过发布 QVAC Genesis I 和 QVAC Workbench,Tether Data 为自由、可访问且真正掌握在每个人手中的人工智能新时代铺平了道路。这场革命有望重新定义技术、知识和社会之间的关系。


