博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据结构:串
阅读量:6458 次
发布时间:2019-06-23

本文共 2142 字,大约阅读时间需要 7 分钟。

串的概念

  • 串(String)是由零个或多个字符组成的有限序列,又名字符串,一般记为 s = "a1a2...an"
  • 串中任意个数的连续字符组成的子序列称之为该串的子串,例如 "over" 是 "lover" 的子串

串的比较

  • "silly"、"stypid" 这样的两个字符串,第一个字母都是 "s",因此不存在差异,第二个字母由于 "i" 比 "t" 靠前,所以 "i"<"t",于是我们说 "silly" < "stypid"
  • 串的比较是通过组成串的字符之间的编码来进行的,而字符编码是指字符在对应字符集中的序号
  • 所以两个字符串是否相等,必须是它们串的长度以及每个字符豆相等时,才算是相等
  • 对于不相等的两个串,例如 s = "a1a2...an",t = "b1b2...bm",当满足以下条件之一时,s < t
    • n < m,且 ai = bi (i=1,2.....,n)
    • 当 s = "happen",t = "happy" 因为两串前 4 哥字母均相同,而第五个字母 e 的 ASCII 码是 101,y 的 ASCII 码是 121,e < y,所以 s < t

串的抽象数据类型

  • 串的逻辑结构和线性表很相似,不同之处在于串针对的是字符集,所有元素都是字符,因此串的基本操作与线性表有很大差别
  • 线性表更关注的是单个元素的操作,比如增删查一个元素,串中更多的是查找子串的位置、替换等操作
  • Data(数据元素):串中元素仅由一个字符组成,相邻元素具有前驱和后继关系
  • 基本操作
方法 描述
StrAssign(T,*chars) 生成一个其值等于字符串常量 chars 的串 T
StrCopy(T,S) 串 S 存在,由串 S 复制得串 T
ClearString(S) 串 S 存在,将串清空
StringEmpty(S) 若串 S 为空,返回 true、否则 false
StrLength(S) 返回串 S 元素个数,即长度
StrCompare(S,T) 若 S > T 返回值 > 0,若 S=T 返回 0,若 S < T 返回值 < 0
Concat(T,S1,S2) 用 T 返回由 S1 和 S2 联接而成的新串
Index(S,T,pos) 若 S 和 T 存在,T 是非空串,1 <= pos <= StrLength(S),若主串 S 中存在和串 T 值相同的子串,则返回它在主串 S 中第 pos 哥字符之后第一次出现的位置,否则返回 0
Replace(S,T,V) 串 S、T 和 V 存在,T 是非空串,用 V 替换主串 S 中出现的所有与 T 相等的不重叠的子串
StrDelete(S,pos,len) 串 S 存在,1 <= pos <= StrLength(S) - len + 1,从串 S 中删除第 pos 个字符起长度为 len 的子串
SubString(Sub,S,pos,len) 串 s 存在,1 <= pos <= StrLength(S),且 0 <= len <= StrLength(S) - pos +1 用 Sub 返回串 S 的第 pos 个字符起长度为 len 的子串

串的存储

顺序存储

  • 串的顺序存储结构是用一组地址连续的存储单元来存储串中的字符串序列,按照预定义的大小,为每个定义的串变量分配一个固定长度的存储区
  • 一般可以将实际的串长度值保存在数组 0 下标位置,有的书中也会定义存储在数组的最后一个下标位置
  • 但有的编程语言觉得存个数字占空间麻烦,它规定在串值后面加一个结束标记,例如 "\0" ,这个时候如果想知道串长度,就需要遍历计算,但这其实还是需要占一个空间,何必呢?
  • 顺序存储方式存在些问题,比如两串的连接、新串的插入、以及字符串的替换都可能使得串序列长度超过数组长度

链式存储

  • 串的链式存储与线性表相似,但由于串结构的特殊性,结构中的每个元素数据都是一个字符,如果也简单的应用链表存储串值,一个结点对应一个字符,就会存在很大的空间浪费
  • 因此一个结点可以存放多个字符,最后一个结点若是未被占满时,可以用 "#" 或其它非串值字符补全
y4ABu.png
  • 此时一个结点存放多少个字符才合适变的很重要,这会直接影响串处理的效率,需根据实际情况做出选择
  • 但串的链式存储总的来说不如顺序存储灵活,性能也不如顺序存储结构好

朴素的模式匹配算法

  • 子串的定位操作通常称作串的模式匹配,假设要从主串 S = "goodgoogle" 中找到 T = "google" 子串为止,通常需要下面步骤:
    1. 主串 S 第一位开始,S 与 T 前三个字母都匹配成功,但 S 第四个字母匹配失败
    2. 主串 S 第二、三、四位开始,匹配失败
    3. 主串 S 第五位位开始,6 个字母全匹配成功
  • 简单的来说就是对主串的每一个字符作为子串开头,与要匹配的字符串进行匹配,对主串做大循环,内个字符开头做 T 的长度小循环,直到匹配成功或全部遍历完为止

效率问题

  • 最好的情况就是一开始就匹配成功,此时时间复杂度为 O(1)
  • 最差的时间复杂度为 O((n-m+1)*m),其中 n 是主串长度,m 为要匹配的子串长度
  • 朴素的模式匹配法效率十分低效

转载地址:http://rnizo.baihongyu.com/

你可能感兴趣的文章
EJB2的配置
查看>>
最容易理解的对卷积(convolution)的解释
查看>>
《机器学习实战》知识点笔记目录
查看>>
Linux操作系统实时性分析
查看>>
mysql导出导入所有数据库
查看>>
[转载]数据库缓存算法思想与实现
查看>>
完美解决NC502手工sql的查询引擎排序及合计问题
查看>>
PHP+MySQL代码部署在Linux(Ubuntu)上注意事项
查看>>
Tiny语言执行环境TM机源码
查看>>
PE文件之资源讲解
查看>>
windows 7/mac编译cocos2d-x-3.2*的android工程报错
查看>>
MYSQL导入导出.sql文件(转)
查看>>
使用Elasticsearch、Logstash、Kibana与Redis(作为缓冲区)对Nginx日志进行收集(转)
查看>>
git review报错一例
查看>>
Tomcat在Linux上的安装与配置
查看>>
《信息安全系统设计基础》 课程教学
查看>>
Linux平台下使用rman进行oracle数据库迁移
查看>>
全栈工程师学习Linux技术的忠告
查看>>
iOS自定制tabbar与系统的tabbar冲突,造成第一次点击各个item图片更换选中,第二次选中部分item图片不改变...
查看>>
C# Dictionary用法总结
查看>>