
[已解決]批處理怎樣把兩個文本合并后去除重復的行最后由 vokins 于 -9-4 18:03求助,我想下載http://webscan.360.cn/url這個網頁,并把網頁代碼中的其余部分去除掉。
- <!--end tips -->
- <script>
- $(function(){
- $(#menu-more).hover(function(){
- $(#menu-more-list).show();
- $(#menu-more).css(background-color,#3764B2);
- $(#menu-more).css(padding-bottom,2px);
- },function(){
- $(#menu-more-list).hide();
- $(#menu-more).css(background-color,);
- $(#menu-more).css(padding-bottom,0px);
- })
- })
- </script>
- <div class=faq clearfix>
- <!--<div class=fqa_navigation><a href=# title=>漏洞庫</a> ›</div>-->
- <div class=faq_conbox>
- <h2 style=color:#333;width:86%;margin-bottom:10px;padding: 2px 10px;font-size:14px;padding:2px 10px;background: none repeat scroll 0 0 #FFE6E6;border: 1px solid #EEBBBB;>如下網址可能會對您的電腦造成傷害:如在您的電腦上安裝惡意軟件;通過欺詐釣魚頁面竊取您的賬號等重要信息。請勿隨意訪問。
- </h2>
- <h2>今天排行</h2>
- <li><a href=/url/www.70pao.com.html title=www.70pao.com惡意網站,www.70pao.com是什么>www.70pao.com</a></li>
- <h2>昨天排行</h2>
- <li>
- <ul>
- <li><a href=/url/www.63kxw.com.html title=www.63kxw.com惡意網站,www.63kxw.com是什么>www.63kxw.com</a></li>
- <li><a href=/url/www.688mi.com.html title=www.688mi.com惡意網站,www.688mi.com是什么>www.688mi.com</a></li>
- <li><a href=/url/www.70238.com.html title=www.70238.com惡意網站,www.70238.com是什么>www.70238.com</a></li>
- <li><a href=/url/www.70cj.net.html title=www.70cj.net惡意網站,www.70cj.net是什么>www.70cj.net</a></li>
- <li><a href=/url/www.70pao.com.html title=www.70pao.com惡意網站,www.70pao.com是什么>www.70pao.com</a></li>
- <li><a href=/url/www.723724.com.html title=www.723724.com惡意網站,www.723724.com是什么>www.723724.com</a></li>
- <li><a href=/url/www.7241.cn.html title=www.7241.cn惡意網站,www.7241.cn是什么>www.7241.cn</a></li>
- <li><a href=/url/www.738393.com.html title=www.738393.com惡意網站,www.738393.com是什么>www.73839
nclick="copycode($('code0'));">復制代碼
只保留哪些惡意網址的域名,并在每個域名前加入0.0.0.0。變成:0.0.0.0 www.70cj.net0.0.0.0 www.7241.cn0.0.0.0 www.738393.com......這是我自己寫的代碼,有點爛,效率還低,請高手指教
- wget http://webscan.360.cn/url -O url.txt
- sed -i 1,91d url.txt
- sed -i 2143,$d url.txt
- sed -i s/^[ t]*//g url.txt
- sed -i s/>/n/g url.txt
- sed -i s/</n/g url.txt
- sed -i s/.*<li><a[^>]*>// url.txt
- sed -i /.html/d url.txt
- sed -i /行/d url.txt
- sed -i /網/d url.txt
nclick="copycode($('code1'));">復制代碼
ps.我還在mwsl下載了hosts文件,想把這個同上面的360 合并,但是會有重復的行,不知道如何去除。當然用akelpad之類的器手動刪除重復行就好了,但是有沒有可以用批處理解決全自動的辦法呢?:mwsldel Mwsl.txtwget http://www.mwsl.org.cn/hosts/hosts -O Mwsl.txtsed -i 1,9d Mwsl.txtsed -i 1i#Malicious Web site Labs Mwsl.txtsed -i s/50.118.116.68/0.0.0.0/g Mwsl.txtgoto :eof再次請教,盼復