这是一个AI相关新闻存档贴

Meow · 发表于 2025-4-30 17:19

GPT Image 1对于提问“生成一張你覺得最強颱風的圖，類似衛星雲圖。”生成的原图：

先用o3转角色图像为文字、再用GPT Image 1生成新角色图像，并与GPT Image 1图生图的背景合并：

（已让软件升采样、针对角色去杂讯与色带并调整色调）

yhh · 发表于 2025-5-19 09:30

Meow · 发表于 2025-8-4 10:44

OpenAI经由Sam Altman首次揭露“ChatGPT 5”实际画面

Meow · 发表于 2025-8-6 10:28

本帖最后由 Meow 于 2025-8-6 10:29 编辑

隆重推出 gpt-oss
Gpt-oss-120b 和 gpt-oss-20b 推动了开放推理模型领域的技术边界
在 Hugging Face 上探索

我们发布了 gpt-oss-120b 和 gpt-oss-20b——两款性能卓越的开放轻量级语言模型，可在低成本下实现强大的实际应用性能。这些模型在灵活的 Apache 2.0 许可证下提供，与同等规模的开放模型相比，在推理任务中表现更优，展现出强大的工具使用能力，并针对在消费级硬件上高效部署进行了优化。它们通过强化学习与 OpenAI 最先进内部模型（包括 o3 及其他前沿系统）所启发的技术相结合进行训练。

Gpt-oss-120b 模型在核心推理基准测试中与 OpenAI o4-mini 模型几乎持平，同时能在单个 80GB GPU 上高效运行。Gpt-oss-20b 模型在常见基准测试中与 OpenAI o3‑mini 模型取得类似结果，且可在仅配备 16GB 内存的边缘设备上运行，使其成为设备端应用、本地推理或无需昂贵基础设施的快速迭代的理想选择。这两个模型在工具使用、少样本函数调用、CoT推理（如在 Tau-Bench 智能体评估套件中的结果所示）以及 HealthBench 测试中表现强劲（甚至超越了 OpenAI o1 和 GPT‑4o 等专有模型）。

这些模型与我们的回复 API 兼容，并专为在智能体工作流中使用而设计，具备卓越的指令执行能力、工具使用能力（如网页搜索或 Python 代码执行）以及推理能力——包括根据任务需求调整推理力度的能力，尤其适用于无需复杂推理且/或需要极低延迟最终输出的任务。它们完全可定制，提供完整的思维链 (CoT)，并支持结构化输出。

安全是我们发布所有模型时秉持的核心原则，对于开放模型而言尤为重要。除了对模型进行全面的安全培训和评估外，我们还通过在我们的《防范准备框架》下测试一个经过对抗性微调的 gpt-oss-120b 版本，引入了额外的评估层。Gpt-oss 模型在内部安全基准测试中的表现与我们的前沿模型相当，为开发者提供了与我们近期专有模型相同的安全标准。我们将在研究论文和模型卡片中分享该工作的成果及更多细节。我们的方法论已由外部专家审核，标志着在为开源模型设定新安全标准方面迈出了重要一步。

我们也与早期合作伙伴如 AI Sweden、Orange 和 Snowflake 合作，探索开放模型的实际应用场景，包括为数据安全在本地部署这些模型，以及在专用数据集上进行微调。我们很高兴能提供这些业界领先的开放模型，赋能所有人——从个人开发者到大型企业再到政府机构——在自有基础设施上运行并定制 AI。结合我们 API 中提供的模型，开发者可以根据需求选择所需的性能、成本和延迟，以支持 AI 工作流程。

预训练与模型架构

gpt-oss 模型采用我们最先进的预训练和后训练技术进行训练，特别注重推理能力、效率以及在各种部署环境中的实际应用性。虽然我们已经公开发布了包括 Whisper⁠ 和 CLIP⁠ 在内的其他模型，但 gpt-oss 模型是我们自 GPT‑2以来的首个开放大型语言模型。

每个模型都是一个 Transformer，它利用专家混合 (MoE) 来减少处理输入所需的活跃参数数量。Gpt-oss-120b 每个令牌激活 51 亿个参数，而 gpt-oss-20b 激活 36 亿个参数。这两个模型的总参数数分别为 1,170 亿和 210 亿。这些模型采用交替的密集和局部带状稀疏注意力模式，与 GPT‑3 类似。为了提高推理和内存效率，这些模型还使用分组多查询注意力，分组大小为 8。我们使用旋转位置嵌入 (RoPE) 进行位置编码，并原生支持长达 128k 的上下文长度。

模型	层数	总参数	每个令牌的活跃参数	总专家数	每个令牌的活跃专家数	上下文长度
gpt-oss-120b	36	117b	5.1b	128	4	128k
gpt-oss-20b	24	21b	3.6b	32	4	128k

我们使用了一个高质量、主要为英文的纯文本数据集对模型进行了训练，重点关注 STEM、编程和通用知识领域。我们使用了 OpenAI o4-mini 和 GPT‑4o 所用令牌化器的超集进行数据令牌化，即 ‘o200k_harmony'，该令牌化器我们今日也一并开源。

有关我们模型架构和训练的更多信息，请阅读模型卡片。

后训练

模型采用了与 O4-mini 类似的训练流程进行后训练，包括监督式微调阶段和高计算量强化学习阶段。我们的目标是使模型符合《OpenAI 模型规范》，并使其在生成答案前能够应用 CoT 推理⁠和工具使用能力。通过采用与我们最先进的专有推理模型相同的技术，这些模型在训练后展现出卓越的性能。

与 OpenAI o 系列推理模型在 API 中的实现类似，这两个开放模型支持三种推理强度——低、中、高——它们在延迟与性能之间进行权衡。开发人员可以通过在系统消息中输入一句话，轻松设置推理难度。

评估

我们对 gpt-oss-120b 和 gpt-oss-20b 在标准学术基准测试中进行了评估，以衡量其在编程、竞赛数学、医疗和智能体工具使用方面的能力，并与其他 OpenAI 推理模型（包括 o3、o3‑mini 和 o4-mini）进行了比较。

Gpt-oss-120b 在竞赛编程 (Codeforces)、通用问题解决 (MMLU 和 HLE) 以及工具调用 (TauBench) 方面表现优于 OpenAI o3‑mini，并与 OpenAI o4-mini 持平或超越其性能。此外，它在健康相关查询 (HealthBench⁠) 和竞赛数学 (AIME 2024 和 2025) 方面表现得比 o4-mini 更好。尽管 gpt-oss-20b 的规模较小，但在这些相同的评估中，它与 OpenAI o3‑mini 持平或超越后者，甚至在竞赛数学和医疗方面表现得更好。

gpt-oss models do not replace a medical professional and are not intended for the diagnosis or treatment of disease

思维链 (CoT)

我们的最新研究⁠表明，监控推理模型的 CoT 有助于检测异常行为，只要该模型在训练过程中未直接施加针对 CoT 对齐监督。这一观点也得到了行业内其他人士的认同。自推出 OpenAI o1‑preview⁠ 以来，我们一直遵循既定原则，未对任何 gpt-oss 模型的 CoT 进行任何直接监督。我们认为，这对于监测模型的不当行为、欺骗和滥用至关重要。我们的期望是，通过发布一个开放模型并采用非监督式思维链，为开发者和研究人员提供机会，让他们能够研究并实现自己的 CoT 监测系统。

开发人员不应在应用中直接向用户展示 CoT。这些内容可能包含虚构或有害信息，包括不符合 OpenAI 标准安全政策的语言，以及模型被明确要求不应包含在最终输出中的信息。

安全与最坏情况下的微调

gpt-oss 模型采用了我们最先进的安全训练方法。在预训练过程中，我们过滤掉了与化学、生物、放射性和核 (CBRN) 相关的某些有害数据。在训练后阶段，我们通过审慎对齐⁠和指令优先级体系评估，训练模型拒绝不安全提示并抵御提示注入攻击。

一旦开源模型发布，攻击者可能利用其进行恶意调优。我们通过在专门的生物学和网络安全数据上对模型进行微调，直接评估了这些风险，并为每个领域创建了专门的非拒绝版本，就像攻击者可能做的那样。测试结果表明，即使使用了 OpenAI 领先的训练堆栈进行极为广泛的微调，这些恶意微调的模型仍无法达到我们《防范准备框架》⁠所定义的高能力水平。这种恶意微调方法已由三个独立专家组进行审查，并提出了改进训练流程和评估的建议，其中许多建议已被我们采纳。我们在模型卡中详细说明了这些建议。这些流程标志着开放模型安全领域的重要进展。这些发现证实了我们发布 gpt-oss 模型的决策。我们希望这些模型能助力行业加速安全训练与对齐研究。

为构建更安全的开源生态系统，我们正举办红队测试挑战赛，鼓励全球研究人员、开发者及爱好者共同识别新型安全问题。该挑战赛设有一个 500,000 美元的奖金池，奖金将根据来自 OpenAI 和其他顶尖实验室的专家评委小组的评审结果进行发放。挑战赛结束后，我们将发布一份报告并开源基于验证结果的评估数据集，以便更广泛的社区能够立即从中受益。

可用性

Gpt-oss-120b 和 gpt-oss-20b 的权重均可在 Hugging Face 上免费下载，且已原生量化为 MXFP4 格式。这使得 gpt-oss-120b 模型可在 80 GB 内存中运行，而 gpt-oss-20b 仅需 16GB 内存。

这些模型已在我们的 Harmony 提示格式上进行过后训练，我们还开源了 Python 和 Rust 版本的 Harmony 渲染器，以简化模型采用流程。我们还发布了在 PyTorch 和 Apple 的 Metal 平台上进行推理的参考实现，以及一组用于该模型的示例工具。

我们设计这些时注重灵活性和易用性，使其可在本地、设备端或通过第三方推理服务提供商运行。为此，我们在产品发布前与领先的部署平台建立了合作关系，包括 Hugging Face、Azure、vLLM、Ollama、llama.cpp、LM Studio、AWS、Fireworks、Together AI、Baseten、Databricks、Vercel、Cloudflare 和 OpenRouter，以确保这些模型能够广泛地为开发者所用。在硬件方面，我们已与行业领军企业合作，包括 NVIDIA、AMD、Cerebras 和 Groq，以确保在各类系统上实现性能优化。

作为此次更新的一部分，微软还为 Windows 设备推出了 GPU 优化版的 gpt-oss-20b 模型。这些模型基于 ONNX Runtime，支持本地推理，并可通过 Foundry Local 和 VS Code AI 工具包获取，这使得 Windows 开发者更容易使用开放模型进行开发。

对于希望在自有环境中进行微调和部署完全可定制模型的开发人员而言，gpt-oss 是理想选择。对于寻求多模态支持、内置工具以及与我们平台无缝集成的用户，通过 API 平台提供的模型仍是最优选项。我们持续关注开发人员反馈，未来可能考虑为 gpt-oss 提供 API 支持。

如需试用这些模型，请访问我们的 open model Playground。如需了解如何通过不同生态系统提供商使用模型，或如何对模型进行微调，请查看我们的指南。

为什么开放模型很重要

发布 gpt-oss-120b 和 gpt-oss-20b 标志着开放大型模型领域的重要进展。凭借其规模，这些模型在推理能力和安全性方面均实现了显著提升。通过将这些开放模型整合到我们现有的 API 服务中，我们旨在加速前沿研究，促进创新，并推动在广泛应用场景下实现更安全、更透明的 AI 开发。

这些开放模型还降低了新兴市场、资源受限行业及小型组织采用专有模型的门槛，这些群体可能缺乏预算或灵活性来采用专有模型。凭借强大的、易于获取的工具，世界各地的人们可以构建、创新并为自己和他人创造新的机遇。这些在美国开发的强大开放模型的大范围应用，有助于推动 AI 的民主化进程。

一个健康开放的模型生态系统，是实现 AI 广泛普及并惠及所有人的重要维度。我们正在发布自己的开放模型，以探索我们如何为这一生态系统做出贡献，以及这些模型的优势和好处是否值得 OpenAI 在未来投资于开放模型。如果您正在使用我们的开放模型进行开发，您对模型优势和实际应用的反馈将对我们的决策起到重要作用。

我们邀请开发者和研究人员使用这些模型进行实验、合作并突破可能性的边界。我们期待看到您创建的作品。

Meow · 发表于 2025-8-6 22:19

https://gpt-oss.com gpt-oss-120b reasoning level high

解释热带气旋“德沃夏克分析法”

**热带气旋“德沃夏克分析法”(Dvorak Technique) 简介**
德沃夏克分析法是一套在卫星图像上对热带气旋（台风、飓风、热带风暴）进行强度估算的经验技术。它是由美国气象学家 Vernon Dvorak 在1970 年代提出的，至今仍是全球气象机构（如美国国家飓风中心 (NHC)、日本气象厅 (JMA)、中国气象局等）对未能直接观测（例如探空、飞机探测）到的热带气旋强度进行快速评估的主要手段。
---
## 1. 基本原理
- **卫星观测**：利用地球同步卫星提供的**可见光**（白天）和**红外**（全天）云图，观察气旋的云系结构、中心温度、对称性等特征。
- **模式识别**：热带气旋在不同发展阶段会呈现出一系列相对固定的云系形态（如“对称中心云系”“曲带云系”“眼雾”等），这些形态与气旋中心的强度有经验对应关系。
- **T‑Number（T 值）**：将云系形态映射为一个**T‑number**（从 1.0 到 8.0，间隔 0.1），T 值越大对应风速（最大持续风）越高。例如，T 3.0 ≈ 25 m/s（约50 kt），T 5.0 ≈ 55 m/s（约110 kt），T 6.5 ≈ 90 m/s（约175 kt）等。
---
## 2. 主要步骤
1. **图像获取**
- 选取最近的可见光图（白天）或红外图（夜间），最好是时间间隔 3–6 小时的一组图像，以观察趋势。
2. **判别云系模式**
- **无组织云系**：尚未发展为热带低压，T ≤ 1.0。
- **中心对称云系 (C)**：出现较为对称的中心深对流，T ≈ 1.0–2.5。
- **曲带云系 (SB)**：出现弧形（“半圆”）的强对流带，T ≈ 2.5–3.5。
- **中心云系 (E)**：出现更紧凑的中心深对流，T ≈ 3.5–4.5。
- **眼雾/眼 (C+E/eye)**：出现眼或清晰的“眼雾”，T ≈ 4.5–6.0。
- **成熟眼雾 (eye)**：出现明显的眼壁与眼，T ≈ 5.0–6.5。
- **强眼雾 (well‑defined eye)**：眼壁极为对称、温度梯度大，T ≈ 6.5–7.5。
- **极强眼雾 (super‑eye)**：极低的中心温度与强对称结构，T ≈ 7.5–8.0。
3. **测量中心温度 (CI) 与云顶温度 (CT)**
- 在红外图上，测量 **中心最低温度**（CI）与 **外部云顶温度**（CT）。两者差值（ΔT = CT − CI）用于进一步校正 T 值（尤其在眼雾阶段）。
4. **应用规则表 (CF/CM Table)**
- 根据判定的云系模式以及 ΔT 值，对照 **德沃夏克经验表**（常见于官方手册），得到对应的 **T‑number**。
5. **限制速率与趋势判断**
- 采用 **“限制速率”**（Maximum Intensification Rate）原则：T 值在短时间内（一般 6 h）不能跳变超过 0.5–1.0，以保证结果的物理合理性。
- 若连续多组图像的 T 值呈现递增/递减趋势，则可判断气旋在加强/减弱。
6. **换算为最大持续风速 (MSW) 与中心气压**
- 每一个 T 值对应的 **最大持续风速**（MSW）和 **中心最低气压**（MSLP）在不同机构有细微差别，常用的换算表如下（以美国 NHC 标准为例）：
| T‑Number | 大约最大持续风速 (kt) | 大约中心压 (hPa) |
|----------|----------------------|-----------------|
| 1.0 | 15 | 1005 |
| 1.5 | 20 | 1002 |
| 2.0 | 25 | 997 |
| 2.5 | 30 | 992 |
| 3.0 | 35–40 | 985–980 |
| 3.5 | 45–50 | 975–970 |
| 4.0 | 55–60 | 960–955 |
| 4.5 | 65–70 | 945–940 |
| 5.0 | 80–85 | 925–920 |
| 5.5 | 90–95 | 910–905 |
| 6.0 | 100–105 | 890–885 |
| 6.5 | 115–120 | 870–865 |
| 7.0 | 130–135 | 845–840 |
| 7.5 | 150–155 | 815–810 |
| 8.0 | >170 | ≤ 800 |
> **注意**：不同地区（英美、日本、中国）使用的换算表略有差异，实际业务中需参考所在气象局的官方表格。
---
## 3. 关键概念和术语
| 术语 | 含义 |
|------|------|
| **T‑Number (T值)** | 表示气旋强度的经验数值，范围 1.0–8.0，间隔 0.1。|
| **CI (Center Infrared)** | 红外云图上气旋中心的最低温度（代表气旋的最热或最冷区，通常是眼或眼壁）。|
| **CT (Cloud Top)** | 气旋外围最高云层的温度，用于计算 ΔT。|
| **ΔT** | CT − CI，反映眼雾结构的温度梯度，ΔT 越大说明对流越强、眼雾越明确。|
| **眼雾 (Eye Wall/Eye)** | 热带气旋中心的清晰眼区及其周围的强对流云带，是最具辨识度的结构。|
| **限制速率 (Limit of Intensification Rate)** | 为防止短时间内不合理的大幅度强度变化，设定的最大 T‑Number 变化速率（通常 6 h ≤ 0.5–1.0）。|
| **CF / CM** | **C**enter **F**requency、**C**enter **M**easured，指不同的经验公式或表格（有时称为 CF‑Table、CM‑Table），针对不同气象机构或地区的细化版本。|
---
## 4. 发展与现代化
| 年代 | 里程碑 |
|------|--------|
| 1970 s | Vernon Dvorak 首次提出经验分析法。 |
| 1980 s | NHC、JTWC 等机构正式采用，出版《Dvorak Technique Manual》。 |
| 1990 s | 引入 **快速Dvorak技术 (Rapid Dvorak Technique, RDT)**，利用更密集的卫星数据（每 15–30 min）进行即时评估。 |
| 2000 s | **自动化 Dvorak**（例如：SAT‑INT、ADT）出现，利用图像处理和机器学习自动提取 CI、CT、模式并给出 T‑Number。 |
| 2010 s | **TDSTR（Advanced Dvorak Technique）** 在美国海军研究实验室研发，加入多波段红外、微波和散射计信息，提高精度。 |
| 2020 s | 全球气象组织（WMO、WMO‑TG）推动 **统一的 Dvorak 标准**，并结合 **ATCF（Automated Tropical Cyclone Forecasting）** 系统实现实时发布。 |
### 自动化 vs. 手动
- **手动分析**：经验气象员根据目视判读图像，灵活处置特殊形态（如双眼或不规则结构），在极端或新生气旋阶段仍表现可靠。
- **自动化分析**：速度快、客观性强，适合大量实时监控；但在云系不完整、微波图像缺失或出现非典型结构时仍需人工校正。
---
## 5. 使用范围与局限
### 使用场景
- **海上或偏远地区**：缺乏实地观测（如飞行探测、船舶测风）时的首要强度估算手段。
- **预警产品**：气象局发布的热带气旋预报和警报（如台风警报）中往往附带“Dvorak T‑Number”。
- **研究分析**：长期气候研究、强度变化趋势、风暴结构演化等学术工作经常引用 Dvorak 结果。
### 主要局限
| 限制 | 说明 |
|------|------|
| **卫星分辨率** | 早期的可见/红外卫星分辨率（≈ 4–8 km）使小尺度结构难以辨认。高分辨率（≥ 1 km）提升了眼雾识别。|
| **云层遮挡** | 大尺度的卷云或同纬度的对流系统可能掩盖热带气旋中心，导致误判。|
| **温度校正** | 红外波段受大气层温度、仪器校准影响，需要频繁的校正。|
| **极端强度** | 当 T‑Number ≥ 7.5 时，部分机构的换算表出现不确定性，往往需要 **飞机探测** 或 **微波卫星** 辅助。|
| **非对称结构** | 例如受强风切变影响的倾斜或裂解气旋，传统 Dvorak 规则难以准确映射。|
---
## 6. 示例：从卫星图像到强度估算（简化流程）
假设我们有一张 12 UTC 的红外卫星图，目标气旋位于赤道西北太平洋：
1. **观察云系模式**
- 图像显示中心有一个明显的低温圆形区域（眼雾），外围环绕明亮的高温云壁。判断为“成熟眼雾” → 可能在 T ≈ 5.5–6.0 范围。
2. **测量温度**
- 使用图像分析工具读取中心最低温度 **CI = –67 °C**（眼壁）以及云顶温度 **CT = –14 °C**（外围对流）。
- 计算 ΔT = –14 °C – (–67 °C) = 53 °C。
3. **对照经验表**
- 对于 ΔT ≈ 53 °C，对应 T‑Number 为 **6.0**（在成熟眼雾表格中），此时对应最大持续风速约 100 kt（≈ 185 km/h），中心气压约 890 hPa。
4. **检查限制速率**
- 前一次 6 h 前的 T‑Number 为 5.5，增长 0.5，符合限制速率（≤ 0.5–1.0），可接受。
5. **输出结果**
- **T‑Number：6.0**
- **最大持续风速：约 100 kt（185 km/h）**
- **中心气压：约 890 hPa**
6. **发布**
- 气象台在例行预报中写出：“本次热带气旋（编号 XX）当前 T‑Number 为 6.0，估计中心最大持续风速 185 km/h，中心气压约 890 hPa，预计将在 12–18 小时内继续增强。”
---
## 7. 小结
- **德沃夏克分析法**是基于卫星云图的经验模式识别技术，通过云系形态、中心/云顶温度差以及经验表，将观察结果映射为 **T‑Number**，进而估算热带气旋的最大持续风速和中心气压。
- 它在 **快速、统一、跨机构**的强度评估方面起到核心作用，尤其在海上、极端天气环境或观测资源匮乏的地区。
- 随着卫星分辨率提升、自动化算法和机器学习的引入，**Dvorak**已从纯手动方法向 **半自动/全自动** 转变，但人工经验仍是处理异常结构和验证结果的关键。
- 了解其 **基本原理、步骤、关键参数**（T‑Number、CI、CT、ΔT）以及 **局限性**（分辨率、非对称结构、极端强度）对于气象业务人员、研究人员以及公众理解热带气旋强度预报都有重要意义。
> 若您想进一步深入，如想了解 **快速Dvorak技术 (RDT)**、**自动化实现细节**或 **不同气象局的 T‑Number 换算表**，可以告诉我，我可以提供相应的技术文献或示例代码。祝您学习顺利！

复制代码

Meow · 发表于 2025-8-7 10:43

OpenAI:

LIVE5TREAM THURSDAY 10AM PT

Meow · 发表于 2025-10-15 09:52

Sam Altman:

We made ChatGPT pretty restrictive to make sure we were being careful with mental health issues. We realize this made it less useful/enjoyable to many users who had no mental health problems, but given the seriousness of the issue we wanted to get this right.

Now that we have been able to mitigate the serious mental health issues and have new tools, we are going to be able to safely relax the restrictions in most cases.

In a few weeks, we plan to put out a new version of ChatGPT that allows people to have a personality that behaves more like what people liked about 4o (we hope it will be better!). If you want your ChatGPT to respond in a very human-like way, or use a ton of emoji, or act like a friend, ChatGPT should do it (but only if you want it, not because we are usage-maxxing).

In December, as we roll out age-gating more fully and as part of our “treat adult users like adults” principle, we will allow even more, like erotica for verified adults.

麦尔修 · 发表于 2025-10-20 23:14

LMArena竞技场里新增加了测试模型，疑似Gemini3 251020 1413更新。
包含lithiumflow和orionmist两个模型，其中orionmist极大概率属于Google
不过不清楚Gemini 3.0 Pro 10月22日发布的消息到底是否是真还是假

		自动登录	找回密码
密码			立即注册

[深度新闻] 这是一个AI相关新闻存档贴

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

隆重推出 gpt-oss

本帖子中包含更多资源

浏览过的版块