Java---正则表达式-创新互联
目录
成都创新互联长期为1000+客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为临颍企业提供专业的成都网站建设、网站制作,临颍网站改版等技术服务。拥有10余年丰富建站经验和众多成功案例,为您定制开发。一、正则表达式的介绍
二、正则表达式的基本语法
(1)字符类
(2)预定义符
(3)数量词
三、正则表达式的具体实例
(1)判断电话号码是否符合规则
(2)简单爬虫
(3)爬取电话和邮箱
(4)条件爬取
(5)贪婪和非贪婪爬取
(6)正则表达式在字符串表达式中的使用
一、正则表达式的介绍
二、正则表达式的基本语法正则表达式是对字符串操作的逻辑表达式,说的是不是有点抽象呢,那说说它的作用其实更加好懂。正则表达式可以校验字符串是否符合规则(规则由你定),这样的话你就可以在一段文本内容中查找你想要的内容了
(1)字符类上面说过了正则表达式其实就是对于一个字符串根据你制定的规则做出的一个逻辑判断,所以我们会使用其中的一个API,也就是matches函数,参数是你制定的规则,返回值是boolean型。即字符串.matches(规则)
(2)预定义符[abc] 只能是abc其中一个字符 [^abc] abc这三个字符不可以被选择,其他字符可以 [a-zA-Z] 只能在a-z和A-Z这两个区间中选择,两个区间以外的字符不可被选 [a-z[A-Z]] 和第三种的意思是一样的,只能在两个区间中被选择 [a-z&&[def]] a-z和def的交集,也就是说只能取def这三个字符其中之一 [a-z&&[^def]] a-z中并且出了def的字符 [a-z&&[^m-p]] a-z中除了m-p的字符,也就是[a-lq-z]
(3)数量词. 任意字符 \d 一个数字[0-9] \D 非数字[^0-9] \s 一个空白字符[\t\n\f\r] \S 非空白字符 \w [a-zA-Z_0-9]英文数字下划线 \W 除了英文数字下划线
x? x出现了一次或者是0次 x+ x出现了一次或者多次 x* x出现了0次或者是多次 x{n} x出现了正好是n次 x{n,} x出现了至少n次 x{n,m} x出现了至少是n次但是不超过m次
三、正则表达式的具体实例 (1)判断电话号码是否符合规则这里我提醒大家一下,千万要看清楚你写的规则是匹配一个字符还是多个字符
需求:十一个数字,第一个数字只能是1,最后一个数字不能是0。
(2)简单爬虫public class Test { public static void main(String[] args){ Scanner sca=new Scanner(System.in); System.out.print("请输入你的电话号码:"); String s=sca.next();//电话号码 String rule="1[0-9]{9}[1-9]";//定义的规则 System.out.print(s.matches(rule)); } }
需求:一段文本中查找Java或者是Java出现的版本号
(3)爬取电话和邮箱public class Test { public static void main(String[] args){ String s="市东南部ujbis1Java12史努比偶数" + "圣诞节你为奶茶店搜防静电Java1山东噢in计算Jav为oio看上你" + "Java19是可能空岛生存·Java30搜坚定Java=数据库你打算"; String regex="Java\\d{0,2}"; Pattern p= Pattern.compile(regex); Matcher m=p.matcher(s); while(m.find()){ System.out.println(m.group()); } } }
需求:在一段文本中,爬取电话号码和邮箱
(4)条件爬取public class Test { public static void main(String[] args){ String s="81是的配送费打开你发182654678541所点击时间内" + "ujhgtr@163.com搜的金丝楠18871110981是啊都是你的手机卡圣诞节迫使@163.com" + "搜坚定yuhsyw@163.coomi1搜电脑172890987665搜绝对是gygwas163.com庶竭驽钝" + "18235454567是第几行你UIUIu@163.com我似乎单词表18765432140"; String re1="1\\d{9}[1-9]";//电话号码 String re2="[a-zA-Z]{6}@163.com"; String re=re1+"|"+re2;//两个规则满足其中之一即可,用竖线 Pattern p=Pattern.compile(re); Matcher m=p.matcher(s); while(m.find()){ System.out.println(m.group()); } } }
((?i)java) 忽略Java的大小写 (java)(?=7|8) 这里的问号其实可以理解成占位符,总体表达的意思是查找java7或者java8并且输出时 不显示java后面的的版本号 (java)(?:7|8) 与上面相反,它是显示后面的版本号的 (java)(?!7|8) 查找除了java7和java8
需求:在一段文本中查找Java和Java17,Java8,Java7(忽略大小写)
(5)贪婪和非贪婪爬取public class Test { public static void main(String[] args){ String s="是的苏北jaVa18是可能都跑了实力派我JaVA89osadisd我的是极品搜" + "JAVA17isadhoJAVA11安排激动java10时都是你我说的菜农Java12是哦滑动SOL" + "是冬季是破烦巴萨jAvA8开始就等你"; String re1="((?i)java)(?=8|7|17)";//查找只输出前面的java部分 String re2="((?i)java)(?:7|8|17)";//查找同时也输出后面的部分,也可以写成((?i)java)(7|18|17) String re3="((?i)java)(?!7|8|17)";//查找除了版本号是8,7,,17 System.out.println("规则1"); Pattern p1=Pattern.compile(re1); Matcher m1=p1.matcher(s); while(m1.find()){ System.out.println(m1.group()); } System.out.println("规则2"); Pattern p2=Pattern.compile(re2); Matcher m2=p2.matcher(s); while(m2.find()){ System.out.println(m2.group()); } System.out.println("规则3"); Pattern p3=Pattern.compile(re3); Matcher m3=p3.matcher(s); while(m3.find()){ System.out.println(m3.group()); } } }
贪婪爬取:在爬取数据的时候尽可能的多获取数据 非贪婪爬取:在爬取数据的时候尽可能少获取数 据 只写+,*表示贪婪爬取(Java中默认是贪婪爬取) +?,+*表示非贪婪爬取
(6)正则表达式在字符串表达式中的使用public class Test { public static void main(String[] args){ String s="搜绝对是你uiuisudjh怕端口abbbbb啥动静那等"; String rex1="ab+"; String rex2="ab?+"; Pattern p1=Pattern.compile(rex1); Pattern p2=Pattern.compile(rex2); Matcher m1=p1.matcher(s); Matcher m2=p2.matcher(s); System.out.println("贪婪爬取"); while(m1.find()){ System.out.println(m1.group()); } System.out.println("非贪婪爬取"); while(m2.find()){ System.out.println(m2.group()); } } }
这里主要介绍两个方法:replaceAll和split replaceAll(规则,代替的字符串) 将字符串中符合规则的字符串替换成代替的字符串,返回值是修改后的 字符串,原来的字符串时不会发生变化的 split(规则) 根据规则切割,返回值是字符串数组
public class Test { public static void main(String[] args){ String s="李三sodjsodjso张三丰0osodndn王天霸"; String ss=s.replaceAll("[a-zA-Z0-9]+","vs"); System.out.println(ss); String[] sc=s.split("[0-9a-zA-Z]+"); System.out.println("字符串数组:"); for(int i=0;i
你是否还在寻找稳定的海外服务器提供商?创新互联www.cdcxhl.cn海外机房具备T级流量清洗系统配攻击溯源,准确流量调度确保服务器高可用性,企业级服务器适合批量采购,新人活动首月15元起,快前往官网查看详情吧
当前名称:Java---正则表达式-创新互联
本文URL:http://scpingwu.com/article/dcddhc.html