Unescape constant strings

rvanvelzen · web-flow · commit 44615481d846 · 2022-10-20T09:49:01.000+02:00
diff --git a/src/Parser/ConstExprParser.php b/src/Parser/ConstExprParser.php
@@ -4,12 +4,35 @@
 
 use PHPStan\PhpDocParser\Ast;
 use PHPStan\PhpDocParser\Lexer\Lexer;
+use function chr;
+use function hexdec;
+use function octdec;
+use function preg_replace_callback;
+use function str_replace;
 use function strtolower;
-use function trim;
+use function substr;
 
 class ConstExprParser
 {
 
+	private const REPLACEMENTS = [
+		'\\' => '\\',
+		'n' => "\n",
+		'r' => "\r",
+		't' => "\t",
+		'f' => "\f",
+		'v' => "\v",
+		'e' => "\x1B",
+	];
+
+	/** @var bool */
+	private $unescapeStrings;
+
+	public function __construct(bool $unescapeStrings = false)
+	{
+		$this->unescapeStrings = $unescapeStrings;
+	}
+
 	public function parse(TokenIterator $tokens, bool $trimStrings = false): Ast\ConstExpr\ConstExprNode
 	{
 		if ($tokens->isCurrentTokenType(Lexer::TOKEN_FLOAT)) {
@@ -24,18 +47,14 @@ public function parse(TokenIterator $tokens, bool $trimStrings = false): Ast\Con
 			return new Ast\ConstExpr\ConstExprIntegerNode($value);
 		}
 
-		if ($tokens->isCurrentTokenType(Lexer::TOKEN_SINGLE_QUOTED_STRING)) {
-			$value = $tokens->currentTokenValue();
-			if ($trimStrings) {
-				$value = trim($tokens->currentTokenValue(), "'");
-			}
-			$tokens->next();
-			return new Ast\ConstExpr\ConstExprStringNode($value);
-
-		} elseif ($tokens->isCurrentTokenType(Lexer::TOKEN_DOUBLE_QUOTED_STRING)) {
+		if ($tokens->isCurrentTokenType(Lexer::TOKEN_SINGLE_QUOTED_STRING, Lexer::TOKEN_DOUBLE_QUOTED_STRING)) {
 			$value = $tokens->currentTokenValue();
 			if ($trimStrings) {
-				$value = trim($tokens->currentTokenValue(), '"');
+				if ($this->unescapeStrings) {
+					$value = self::unescapeString($value);
+				} else {
+					$value = substr($value, 1, -1);
+				}
 			}
 			$tokens->next();
 			return new Ast\ConstExpr\ConstExprStringNode($value);
@@ -137,4 +156,75 @@ private function parseArrayItem(TokenIterator $tokens): Ast\ConstExpr\ConstExprA
 		return new Ast\ConstExpr\ConstExprArrayItemNode($key, $value);
 	}
 
+	private static function unescapeString(string $string): string
+	{
+		$quote = $string[0];
+
+		if ($quote === '\'') {
+			return str_replace(
+				['\\\\', '\\\''],
+				['\\', '\''],
+				substr($string, 1, -1)
+			);
+		}
+
+		return self::parseEscapeSequences(substr($string, 1, -1), '"');
+	}
+
+	/**
+	 * Implementation based on https://github.com/nikic/PHP-Parser/blob/b0edd4c41111042d43bb45c6c657b2e0db367d9e/lib/PhpParser/Node/Scalar/String_.php#L90-L130
+	 */
+	private static function parseEscapeSequences(string $str, string $quote): string
+	{
+		$str = str_replace('\\' . $quote, $quote, $str);
+
+		return preg_replace_callback(
+			'~\\\\([\\\\nrtfve]|[xX][0-9a-fA-F]{1,2}|[0-7]{1,3}|u\{([0-9a-fA-F]+)\})~',
+			static function ($matches) {
+				$str = $matches[1];
+
+				if (isset(self::REPLACEMENTS[$str])) {
+					return self::REPLACEMENTS[$str];
+				}
+				if ($str[0] === 'x' || $str[0] === 'X') {
+					return chr(hexdec(substr($str, 1)));
+				}
+				if ($str[0] === 'u') {
+					return self::codePointToUtf8(hexdec($matches[2]));
+				}
+
+				return chr(octdec($str));
+			},
+			$str
+		);
+	}
+
+	/**
+	 * Implementation based on https://github.com/nikic/PHP-Parser/blob/b0edd4c41111042d43bb45c6c657b2e0db367d9e/lib/PhpParser/Node/Scalar/String_.php#L132-L154
+	 */
+	private static function codePointToUtf8(int $num): string
+	{
+		if ($num <= 0x7F) {
+			return chr($num);
+		}
+		if ($num <= 0x7FF) {
+			return chr(($num >> 6) + 0xC0)
+				. chr(($num & 0x3F) + 0x80);
+		}
+		if ($num <= 0xFFFF) {
+			return chr(($num >> 12) + 0xE0)
+				. chr((($num >> 6) & 0x3F) + 0x80)
+				. chr(($num & 0x3F) + 0x80);
+		}
+		if ($num <= 0x1FFFFF) {
+			return chr(($num >> 18) + 0xF0)
+				. chr((($num >> 12) & 0x3F) + 0x80)
+				. chr((($num >> 6) & 0x3F) + 0x80)
+				. chr(($num & 0x3F) + 0x80);
+		}
+
+		// Invalid UTF-8 codepoint escape sequence: Codepoint too large
+		return "\xef\xbf\xbd";
+	}
+
 }
diff --git a/tests/PHPStan/Parser/ConstExprParserTest.php b/tests/PHPStan/Parser/ConstExprParserTest.php
@@ -29,7 +29,7 @@ protected function setUp(): void
 	{
 		parent::setUp();
 		$this->lexer = new Lexer();
-		$this->constExprParser = new ConstExprParser();
+		$this->constExprParser = new ConstExprParser(true);
 	}
 
 
@@ -358,4 +358,50 @@ public function provideFetchNodeParseData(): Iterator
 		];
 	}
 
+	/**
+	 * @dataProvider provideWithTrimStringsStringNodeParseData
+	 */
+	public function testParseWithTrimStrings(string $input, ConstExprNode $expectedExpr, int $nextTokenType = Lexer::TOKEN_END): void
+	{
+		$tokens = new TokenIterator($this->lexer->tokenize($input));
+		$exprNode = $this->constExprParser->parse($tokens, true);
+
+		$this->assertSame((string) $expectedExpr, (string) $exprNode);
+		$this->assertEquals($expectedExpr, $exprNode);
+		$this->assertSame($nextTokenType, $tokens->currentTokenType());
+	}
+
+	public function provideWithTrimStringsStringNodeParseData(): Iterator
+	{
+		yield [
+			'"foo"',
+			new ConstExprStringNode('foo'),
+		];
+
+		yield [
+			'"Foo \\n\\"\\r Bar"',
+			new ConstExprStringNode("Foo \n\"\r Bar"),
+		];
+
+		yield [
+			'\'bar\'',
+			new ConstExprStringNode('bar'),
+		];
+
+		yield [
+			'\'Foo \\\' Bar\'',
+			new ConstExprStringNode('Foo \' Bar'),
+		];
+
+		yield [
+			'"\u{1f601}"',
+			new ConstExprStringNode("\u{1f601}"),
+		];
+
+		yield [
+			'"\u{ffffffff}"',
+			new ConstExprStringNode("\u{fffd}"),
+		];
+	}
+
 }