正则表达式避坑指南：如何写出既高效又可维护的匹配模式？

正则表达式（Regular Expression）是每位开发者都会接触到的强大工具。它能用寥寥几行字符完成复杂的文本处理任务，但如果使用不当，也可能成为性能杀手（ReDoS）或维护噩梦。

1. 警惕灾难性回溯（Catastrophic Backtracking）

这是正则性能最常见的问题。当你的正则包含嵌套的量词，如 (a+)+，并且遇到无法匹配的长字符串时，正则引擎会进行指数级的回溯尝试，导致 CPU 飙升。

反面教材：

(x+x+)+y

优化建议： 尽量具体化你的匹配模式，避免过度使用 . 或嵌套量词。使用我们的正则测试器可以在本地安全地测试这些模式，而不用担心搞挂服务器。

默认情况下，* 和 + 都是贪婪的（Greedy），它们会尽可能多地匹配字符。

在处理 HTML 标签或特定分隔符内容时，懒惰模式通常是你想要的。

如果你不需要提取分组的内容，请使用非捕获组 (?:...) 代替捕获组 (...)。这可以节省内存并略微提升匹配速度。

// 推荐
const pattern = /(?:https?|ftp):\/\/[^\s/$.?#].[^\s]*/;

不要试图用一个正则完美匹配 RFC 5322 标准的所有邮箱，那会复杂到难以维护。通常，满足业务需求的简单正则就足够了：

^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$

^1[3-9]\d{9}$

正则表达式是一把双刃剑。掌握它的原理，配合好用的调试工具，你就能驾驭这股力量。

试试我们的在线正则测试工具，支持实时高亮和详细的匹配信息分析。