在 AWS 上通过智能扩展优化成本和碳足迹：第 2 部分

这篇文章基于“通过智能扩展优化成本和碳足迹”中分享的理念，深入探讨了 AWS 上的高级扩展策略。

队列长度作为扩展触发因素的局限性：
- 工作负载特征：并非所有工作负载都是队列驱动的，不可预测的流量或长时间运行的任务不适合队列模型，可能导致扩展延迟和性能问题。
- 任务优先级：长队列不一定意味着高负载，可能只是低优先级任务的积压，依赖队列长度可能导致资源分配不当。
- 隐藏瓶颈/潜在问题：队列长度不一定指向系统放缓的根本原因，基于队列长度的扩展可能使问题恶化，导致资源使用效率低下和成本增加。
- 有限的粒度：队列长度提供的是待处理任务的概览，不能捕捉工作负载的全貌，缺乏细节可能使扩展决策效果不佳。
自定义负载指标作为更好的替代方案：
- 细粒度控制：自定义指标可更精细地控制扩展决策，直接反映应用程序的健康和资源需求，如 CPU 利用率、内存消耗等，使扩展更准确。
- 与业务目标一致：可直接与业务目标对齐，创建反映公司成功关键因素的指标，如电商平台的订单处理时间或客户转化率，确保扩展决策基于更广泛的业务视角。
- 主动扩展：能更主动地进行扩展，提前预测负载增加并进行扩展，确保性能在峰值时间或突发流量期间保持稳定，避免系统过载和用户不满。
- 适应独特工作负载：可设计反映工作负载独特特征的指标，避免不必要的扩展行动，确保资源高效使用，如视频处理应用中基于任务完成时间或 CPU 使用量的指标。
- 成本效率和可持续性：通过更准确的扩展决策，避免不必要的资源过度配置，节省成本并更可持续地使用资源，减少环境影响。
在 AWS 中创建自定义指标：
- 收集数据：使用 APM 代理、日志框架或自定义代码等工具收集相关性能指标数据。
- 发布指标：使用 AWS SDK 将数据发布到 CloudWatch 作为自定义指标，可按固定间隔或特定事件发布。
- 创建警报：根据应用程序性能需求设置警报，当条件满足时触发动作。
- 配置自动扩展策略：将 CloudWatch 警报与自动扩展策略集成，根据自定义指标动态调整应用程序容量，实现成本效益和资源优化。
除 SQS 和 EC2 之外：
- AWS Lambda 的无服务器计算：无需管理服务器，仅在执行函数时消耗资源，减少服务器成本和资源消耗，适合按需、事件驱动的工作负载。
- AWS RDS 的托管数据库：自动管理任务，降低运营开销和基础设施成本，自动扩展以满足需求，避免资源浪费。
- 具有 Spot 实例的低成本 EC2：以折扣价使用备用 EC2 容量，适合非关键工作负载，可降低 EC2 成本。
- 通过 AWS Compute Optimizer 优化 EC2：分析 EC2 实例使用情况并推荐最佳实例类型和大小，避免资源过度或不足配置，提高可持续性。
- 使用 AWS Cost Explorer 分析支出：跟踪和分析 AWS 支出模式，识别优化资源的机会，降低成本并与业务目标一致。
- 通过 AWS Trusted Advisor 进行成本优化：提供成本优化、安全等方面的建议，帮助降低成本和减少环境影响。