discuz插件应用中PHP完美的提取链接正则

admin · 发表于 2021-1-17 17:04:50

马上注册，免费下载更多dz插件网资源。

您需要登录才可以下载或查看，没有账号？立即注册

×

discuz插件应用中PHP完美的提取链接正则：

function match_links($document) {
preg_match_all("'<\s*a\s.*?href\s*=\s*(["\'])?(?(1)(.*?)\\1|([^\s\>]+))[^>]*>?(.*?)</a>'isx",$document,$links);
while(list($key,$val) = each($links[2])) {
if(!empty($val))
$match['link'][] = $val;
}
while(list($key,$val) = each($links[3])) {
if(!empty($val))
$match['link'][] = $val;
}
while(list($key,$val) = each($links[4])) {
if(!empty($val))
$match['content'][] = $val;
}
while(list($key,$val) = each($links[0])) {
if(!empty($val))
$match['all'][] = $val;
}
return $match;
}

复制代码

©DZ插件网所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。
本站内容为站长个人技术研究记录或网络，不提供用户交互功能，所有内容版权归原作者所有。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，得到更好的正版服务。
您在本站任何的赞助购买、下载、查阅、回复等行为等均表示接受并同意签订《DZ插件网免责声明协议》。
如有侵权请邮件与我们联系处理: discuzaddons@vip.qq.com 并出示相关证明以便删除。敬请谅解！

Discuz智能体 · 发表于 2025-3-21 06:17:48

在Discuz插件开发中，提取链接的正则表达式是一个常见的需求。你提供的代码片段中存在一些问题，比如重复的循环和正则表达式的写法不够完善。我们可以通过优化正则表达式和简化代码来实现更高效的链接提取。

### 优化后的代码

function match_links($document) {
// 正则表达式匹配所有链接
preg_match_all('/<a\s+[^>]*href="([^"]*)"[^>]*>(.*?)<\/a>/is', $document, $matches);
// 返回匹配到的链接
return $matches[1];
}

复制代码

### 代码解释

1. **正则表达式**：
- `/<a\s+[^>]*href="([^"]*)"[^>]*>(.*?)<\/a>/is`：
   - `<a\s+`：匹配 `<a` 标签的开始部分。
   - `[^>]*`：匹配 `<a` 标签中的其他属性（非 `>` 字符）。
   - `href="([^"]*)"`：匹配 `href` 属性的值，并将其捕获到第一个捕获组中。
   - `[^>]*>`：匹配 `>` 之前的所有内容。
   - `(.*?)`：匹配 `<a>` 标签内的文本内容（非贪婪模式）。
   - `<\/a>`：匹配 `</a>` 标签的结束部分。
   - `is`：`i` 表示不区分大小写，`s` 表示 `.` 匹配包括换行符在内的所有字符。

2. **`preg_match_all`**：
- 该函数会将所有匹配到的结果存储在 `$matches` 数组中。
- `$matches[1]` 包含了所有匹配到的 `href` 属性的值，即链接地址。

3. **返回值**：
- 函数返回 `$matches[1]`，即所有匹配到的链接地址。

### 使用示例

$html = '<a href="https://www.dz-x.net">DZ插件网</a> <a href="https://www.example.com">Example</a>';
$links = match_links($html);
print_r($links);

复制代码

### 输出结果

Array
(
[0] => https://www.dz-x.net
[1] => https://www.example.com
)

复制代码

### 注意事项

- 该正则表达式假设链接的 `href` 属性是用双引号包裹的。如果链接的 `href` 属性使用单引号或其他形式，可能需要进一步调整正则表达式。
- 如果你需要提取的链接不仅仅是 `<a>` 标签中的链接，还需要考虑其他标签（如 `<img>`、`<script>` 等），则需要进一步扩展正则表达式。

通过这种方式，你可以高效地从HTML文档中提取出所有的链接地址。如果你有更复杂的需求，比如提取特定类型的链接或处理更复杂的HTML结构，可以根据实际情况进一步调整正则表达式。
-- 本回答由人工智能 AI智能体生成，内容仅供参考，请仔细甄别。

Discuz智能体 · 发表于 2025-3-21 15:31:43

在Discuz插件开发中，提取链接的正则表达式可以帮助你从文本中提取出所有的URL链接。你提供的代码中有一些冗余的部分，并且正则表达式可能不够完善。下面是一个改进后的版本，能够更高效地提取链接：

function match_links($document) {
// 正则表达式匹配链接
preg_match_all('/<a\s+href=["\']([^"\']+)["\']/i', $document, $matches);
// 返回匹配到的链接
return $matches[1];
}

复制代码

### 解释：
1. **正则表达式**：`/<a\s+href=["\']([^"\']+)["\']/i`
- `<a\s+href=`：匹配 `<a` 标签中的 `href` 属性。
- `["\']`：匹配 `href` 属性值前的引号（单引号或双引号）。
- `([^"\']+)`：捕获 `href` 属性值，直到遇到下一个引号。
- `["\']`：匹配 `href` 属性值后的引号。
- `/i`：表示不区分大小写。

2. **`preg_match_all`**：这个函数会返回所有匹配的结果，存储在 `$matches` 数组中。`$matches[1]` 包含了所有捕获的链接。

3. **返回结果**：直接返回 `$matches[1]`，它是一个包含所有链接的数组。

### 使用示例：

$html = '<a href="https://www.dz-x.net">DZ插件网</a> <a href="https://www.example.com">Example</a>';
$links = match_links($html);
print_r($links);

复制代码

输出：

Array
(
[0] => https://www.dz-x.net
[1] => https://www.example.com
)

复制代码

### 注意事项：
- 这个正则表达式假设链接是标准的HTML格式，并且 `href` 属性是直接写在 `<a>` 标签中的。
- 如果你需要处理更复杂的HTML（例如包含JavaScript生成的链接），可能需要更复杂的解析方法，或者使用HTML解析库（如`DOMDocument`）。

如果你有更复杂的需求，或者需要处理特定的Discuz插件场景，可以进一步调整正则表达式或使用其他方法来提取链接。
-- 本回答由人工智能 AI智能体生成，内容仅供参考，请仔细甄别。