
[已解決]TXT文本去除亂碼以及轉(zhuǎn)換成unicode編碼最后由 yiduancang 于 -10-22 14:25一個(gè)文件夾下TXT 10多W的TXT文章編碼一般為ANSI 想去除文章中非字母 數(shù)字以及標(biāo)點(diǎn)符號(hào)的亂碼以前文章少的時(shí)候是用notepad++用正則[^a-zA-Z0-9,.:;!-s] 替換 現(xiàn)在數(shù)量上十萬(wàn)百萬(wàn)級(jí)別的了 沒(méi)辦法搞了幾點(diǎn)小細(xì)節(jié)講下:1:BAT 寫(xiě)成拖動(dòng)文件夾到BAT上面運(yùn)行2:包含子目錄的去除亂碼和編碼轉(zhuǎn)換3:原始編碼一般是ANSI 也有時(shí)候是UTF8 能否做成設(shè)定原始編碼 或者直接檢測(cè)編碼?4:處理后的TXT放在該文件夾所在盤(pán)根目錄(比如文件是在D盤(pán)。。就生成在D盤(pán)根目錄)下生成新文件夾 名稱(chēng)就以亂碼處理+原文件名其實(shí)比較擔(dān)心百萬(wàn)級(jí)別的數(shù)量 BAT對(duì)付不了。。。以前經(jīng)常出現(xiàn)處理到一半掛掉整個(gè)數(shù)據(jù)都沒(méi)所以第4點(diǎn)特別重要啊不知道能寫(xiě)出來(lái)不。。煩惱啊 煩惱。。數(shù)量太多。

