关于换行

涉及到的字符有如下两种

* CR - 0x0d, 回车符,在代码里用'\r'表示
* LF - 0x0a,换行符,在代码里用'\n'表示

不同环境下,默认的换行符(字符序列)不同,需要说明的是,这个序是逻辑序,真实的物理序还要考虑大小端的问题

* Win - CRLF,字符序列是'\r\n'
* Linux/Unix - LF,字符序列是'\n'
* Mac - CR, 字符序列是'\r'
* HTTP - CRLF,但实际上,LF被广泛支持了

Linux C

char *gets(char *str);
char *fgets(char *str, int size, FILE *stream);

gets在新的标准中已经被弃用了
fgets增加了size防止读写过界

这两个函数只识别LF换行符,比较傻瓜。
其中gets会去除LF:

LF换行: 123LF456LF -> 123, 456
CR换行: 123CR456CR -> 123CR456CR
CRLF换行: 123CRLF456CRLF -> 123CR, 456CR

fgets不会去除LF:

LF换行: 123LF456LF -> 123LF, 456LF
CR换行: 123CR456CR -> 123CR456CR
CRLF换行: 123CRLF456CRLF -> 123CRLF, 456CRLF
ssize_t getline(char **lineptr, size_t *n, FILE *stream);
ssize_t getdelim(char **lineptr, size_t *n, int delim, FILE *stream);

这两个函数都不是C标准里的,是POSIX标准的
这两个函数会自己管理内存,保证分配足够的内存来放置读取的字符
getline类似于fgets,只识别LF,不会去除LF

C++

istream& getline (istream& is, string& str, char delim);
istream& getline (istream& is, string& str);

类似于gets,识别并去除LF

basic_istream::getline
basic_istream& getline(char_type* s, std::streamsize count);
basic_istream& getline(char_type* s, std::streamsize count, char_type delim);

类似于gets,识别并去除LF
类似于fgets,防止读写过界

C/C++均无法处理跨平台问题

Python

Python读取文件分为2类,按二进制读取和按文本读取,均使用readline方法:

  • 二进制读取 - 只识别LF

  • 文本读取 - 识别 CR, LF, CRLF,均被转为 LF

从stdin读取时,貌似类似于二进制读取的状态
Python读取会不会去除CR, LF和CRLF(但可能会将CR, CRLF转为LF)

Java

Java.io.BufferedReader.readline()

类似于python的readline文本读取,可以识别CR, LF, CRLF。
并且会去除掉行尾的换行字符序列。

Go

bufio
func (b *Reader) ReadLine() (line []byte, isPrefix bool, err error)

line 的内存由 ReadLine管理,bool表示是否读取完整。
只能识别并去除 LF, CRLF。

总结

方式 支持CR 支持LF 支持CRLF 去除行尾 防止越界
c/gets × × ×
c/fgets × × × 防止读写越界
c/getline × × × 重分配内存
c++/::getline × × 不需要
c++/istream::getline × × 防止读写越界
python/readline 转为LF 不需要
java/readline 不需要
go/ReadLine × 防止读写越界

winterdawn
108 声望1 粉丝

引用和评论

0 条评论